Regressao Logistica

Page 1

OBRAS DO MESMO AUTOR:

REGRESSÃO LOGÍSTICA O texto é uma introdução ao modelo estatístico, exemplificado com um estudo de caso. Baseado no comportamento de pagamento e nas características de 4000 utilizadores de cartões de crédito, foi possível determinar a previsão de incumprimento em 90% dos casos. A robustez do modelo preditivo antecipa o resultado de bom ou mau pagador, permitindo deste modo reduzir o crédito malparado. CREDIT SCORING

Trata-se de um guia prático para académicos que investiguem áreas científicas do credit scoring e revolving credit, bem como especialistas em gestão e análise de risco bancário. O autor é Coordenador Científico para as áreas da Banca, Finanças e Auditoria da Universidade Europeia|Laureate International Universities, tendo publicado dezenas de artigos na área do risco de crédito, no semanário Vida Económica.

REGRESSÃO LOGÍSTICA

COMO EVITAR E RECUPERAR CRÉDITO MALPARADO

ANTÓNIO MANUEL SARMENTO BATISTA

ANTÓNIO MANUEL SARMENTO BATISTA

A GESTÃO DO CRÉDITO COMO VANTAGEM COMPETITIVA

REGRESSÃO LOGÍSTICA Uma introdução ao modelo estatístico Exemplo de aplicação ao Revolving Credit 1,00 f(z) 0,75

0,50

0,25 MATEMÁTICA FINANCEIRA ISBN 978-989-768-128-8

www.vidaeconomica.pt http://livraria.vidaeconomica.pt ISBN: 978-989-768-128-8

9 789897 681288

0,00 -5,00 -4,00 -3,00 -2,00 -1,00 0,00 1,00 2,00 3,00 4,00 5,00

ANTÓNIO MANUEL SARMENTO BATISTA É Doutorado em Gestão Empresarial Aplicada pelo ISCTE-IUL, Mestre em Gestão (MBA) pelo ISEG-UTL e Auditor de Sistemas da Gestão da Qualidade pelo Instituto Superior de Ciências da Saúde-Sul. Como docente, leciona Cálculo Financeiro na Universidade Europeia | Laureate International Universities, entre outras matérias das Ciências Empresariais. O autor tem um longo percurso profissional e académico que lhe tem facultado cotejar a realidade observada no tecido empresarial com os conteúdos programáticos do Ensino Superior, conciliando-os com as atuais expectativas e necessidades da globalização laboral. Tem diversos artigos publicados desde 1995 sobre a temática do crédito e obras que tratam o mesmo tema, nomeadamente “A Gestão do Crédito como Vantagem Competitiva”, “Como Evitar e Recuperar Crédito Malparado” e “Credit Scoring”, entre outros. Dedica-se à investigação científica na área do risco do crédito, e desenvolve e analisa projetos de investimento, em diversos setores da atividade económica.


ÍNDICE Notas prévias .................................................................................................................. Objetivo..................................................................................................................... Caso prático .............................................................................................................. Crédito ao consumo ................................................................................................ Métodos estatísticos ................................................................................................

9 9 9 11

Capítulo 1 – Introdução ................................................................................................

13

Capítulo 2 – Alguns modelos estatísticos utilizados na previsão do incumprimento 2.1 – Análise discriminante ......................................................................................... 18 2.2 – Análise discriminante univariada ...................................................................... 19 2.3 – Análise discriminante multivariada .................................................................... 20 2.4 – Função discriminante .................................................................................... 23 Capítulo 3 – Regressão logística 3.1 - Modelo de regressão logística ............................................................................ 3.2 – Função logística.............................................................................................. 3.3 – Modelo logístico............................................................................................. 3.4 – Transformação das probabilidades em odds ............................................... 3.5 – Logaritmo natural dos odds ........................................................................... 3.6 – Significado dos odds ....................................................................................... 3.7 – Logged odds (ou logit) ........................................................................................ 3.8 – Propriedades do logit ...................................................................................... 3.9 – Obtenção das probabilidades através dos logits ......................................... 3.10 – Uma outra fórmula alternativa para o cálculo da probabilidade ..........

25 26 28 29 30 31 33 33 35 37

Capítulo 4 – Procedimento geral na estimação de parâmetros 4.1 – Introdução ...................................................................................................... 4.2 – Nomenclatura e acrónimos utilizados ........................................................

39 39

5


Regressão Logística

4.3 – Método de máxima verosimilhança ..................................................................... 4.3.1 – Técnicas de regressão logística “passo a passo” .......................................... 4.4 – Classificação das características das variáveis ................................................ 4.5 – Estimação por Máxima verosimilhança vs Análise discriminante ................... 4.6 – A Função Verosimilhança (FV) e a sua utilização no procedimento de Máxima verosimilhança (FVMax)............................................................ 4.7 – Função log-verosimilhança (LFV) .............................................................. 4.8 – Estimação de parâmetros

40 43 46 47 48 56

Capítulo 5 – Testes de significância utilizando valores de log-verosimilhança (LFV) 5.1 – Distinção entre probabilidade e verosimilhança ....................................... 61 5.2 – Teste do Rácio de Verosimilhança ou de Razão de Verosimilhança ...... 62 5.3 – Testes de significância ................................................................................... 63 Capítulo 6 – Avaliação do modelo logístico 6.1 – Introdução ...................................................................................................... 6.2 – Estatística R2 .................................................................................................. 6.3 – Estatística pseudo-R2 .................................................................................... 6.3.1 – R2 de McFadden................................................................................... 6.3.2 – R2 de Cox e Snell.................................................................................. 6.4 – Programas estatísticos ................................................................................... 6.5 – Teste Z-Wald ..................................................................................................

73 73 76 79 79 81 81

Capítulo 7 – Curvas ROC 7.1 – Introdução ...................................................................................................... 85 7.2 – Teoria da deteção de sinal............................................................................. 86 7.2.1 – Deteção de sinal ................................................................................... 88 7.3 – Teoria estatística ............................................................................................. 90 7.4 – Matriz de confusão ........................................................................................ 93 7.5 - Outputs de programas informáticos.............................................................. 96 7.6 – Traçado gráfico das curvas ROC................................................................. 99 7.7 – Área sob a curva ROC (AUROC) ............................................................... 103 7.8 – Erros do Tipo I e Tipo II ............................................................................. 106 Capítulo 8 – Aplicação prática ao crédito bancário por Revolving credit 8.1 – Metodologia .................................................................................................... 8.2 – Análise de dados ............................................................................................ 8.3 – Distinção entre Bom e Mau utilizador de cartão de crédito ..................... 8.4 – Agrupamento de variáveis segundo a sua natureza .................................. 8.5 - Interpretação de variáveis .............................................................................. 8.5.1 – Descrição versus identificação do estado da conta ...........................

6

111 113 115 117 118 119


índice

8.5.2 – Descrição versus identificação da classe da conta ............................. 8.5.3 – Contas vencidas há mais de 60 dias versus 90 dias ........................... 8.5.4 – Género ................................................................................................... 8.5.5 – Estado civil ............................................................................................ 8.5.6 – Escala de scoring comportamental referente à conta atual do utilizador de cartão de crédito............................................................. 8.5.7 – Limite de crédito .................................................................................. 8.5.8 – Saldo atual da conta ............................................................................. 8.5.9 – Revolving .................................................................................................. 8.5.10 – Rendibilidade ...................................................................................... 8.5.11 – Idade .................................................................................................... 8.5.12 – Habilitações literárias ......................................................................... 8.5.13 – Rendimento ......................................................................................... 8.6 – Transformação de dados .............................................................................. 8.7 – Caracterização das variáveis por medidas de estatística descritiva ......... 8.8 – Aplicação do modelo logit aos dados amostrais......................................... 8.8.1 – Aplicação do modelo aos dados in-sample ......................................... 8.8.2 – Avaliação da qualidade de ajustamento ............................................. 8.8.3 – Efeitos marginais das variáveis explicativas sobre a probabilidade de um utilizador de cartão de crédito ser bom pagador ......................................................................................... 8.8.4 – Teste à heterocedasticidade dos erros ............................................... 8.9 – Validação do modelo através da out-of-sample ............................................. 8.10 - Conclusões.....................................................................................................

119 120 122 123 125 125 127 127 127 127 128 128 128 131 134 135 136

140 144 146 147

Anexo - Apresentação parcial da visualização de dados e visualização de variáveis ... 149

7


NOTAS PRÉVIAS Objetivo O objetivo deste livro é apresentar uma introdução ao modelo estatístico de regressão logística e exemplificar a sua utilização num caso prático.

Caso prático O caso prático apresentado no Capítulo 8 é uma aplicação do modelo de regressão logística ao crédito ao consumo e tem como finalidade construir um modelo estatístico com robustez preditiva, capaz de prever o incumprimento de pagamento, por utilizadores de cartões de crédito.

Crédito ao consumo Este tipo de crédito (ao consumo), materializado pela utilização de cartões de crédito, é designado por Revolving credit ou crédito rotativo e cujo reembolso à instituição financeira não tem um número fixo de pagamentos. O mutuário (o utente do cartão de crédito) pode utilizar ou retirar fundos da instituição de crédito, da qual é cliente, até um determinado limite de crédito, que lhe foi concedido previamente. O reembolso ao mutuante (à instituição de crédito) é efetuado através de pagamentos periódicos (totais ou parciais) acrescidos de juros.

9


Regressão Logística

A periodicidade destes pagamentos é, normalmente, mensal e o seu valor está sujeito a um montante mínimo, em função do valor da dívida total em aberto. O limite de crédito concedido ao utente do cartão de crédito é calculado segundo um conjunto de critérios, nomeadamente as características do utente, combinado com o histórico de pagamentos e o seu comportamento ao nível da pontualidade e regularidade dos mesmos. Os cálculos efetuados para a determinação do limite de crédito e as decisões de concessão de crédito são suportados por experiência profissional do gestor de risco e por utilização de métodos estatísticos, que lhe facilitem e lhe garantam decisões assertivas. A problemática do crédito ao consumo de cobrança duvidosa, em Portugal, tem vindo a conhecer um acentuado crescimento desde 2005, registando-se apenas em 2013 uma ligeira descida, conforme dados do BdP (B4.1.4 – Empréstimos de outras instituições financeiras monetárias a particulares) que se ilustra a seguir:

Dez 2004 Dez 2005 Dez 2006 Dez 2007 Dez 2008 Dez 2009 Dez 2010 Dez 2011 Dez 2012 Dez 2013

CRÉDITO AO CONSUMO EM PORTUGAL Empréstimo Cobrança duvidosa % Cobrança duvidosa 9 059 000 000 454 000 000 5,01 9 406 000 000 292 000 000 3,10 11 379 000 000 369 000 000 3,24 13 790 000 000 505 000 000 3,66 15 452 000 000 759 000 000 4,91 15 731 000 000 1 032 000 000 6,56 15 484 000 000 1 237 000 000 7,99 14 987 000 000 1 477 000 000 9,86 13 371 000 000 1 580 000 000 11,82 12 075 000 000 1 407 000 000 11,65

Tabela 1 – Evolução do crédito ao consumo malparado, em Portugal, desde 2004

10


notas prévias

Métodos estatísticos A melhoria da gestão de crédito ao consumo passará também pelo conhecimento e aplicação de métodos estatísticos, à gestão do risco de incumprimento. Um dos métodos estatísticos utilizados na predição do incumprimento é o modelo de regressão logística, que se apresenta nos capítulos seguintes.

11


CAPÍTULO 1 – INTRODUÇÃO Nas instituições financeiras ocorrem, diariamente, muitas situações diferentes com interesse de registo para fins estatísticos. Estas situações poderão ser medidas em função de determinadas variáveis, quer sejam de natureza quantitativa, quer sejam de natureza qualitativa. Por exemplo, um empregado bancário, que trabalha na caixa, atendeu num determinado dia 45 clientes (variável quantitativa discreta), sendo o tempo médio de atendimento de 10 minutos e 40 segundos (variável quantitativa contínua). Dos 45 clientes atendidos, 25 eram do género masculino e 20 do feminino (variável qualitativa). Os “45” clientes, os “10 minutos e 40 segundos”, os “25 homens e 20 mulheres” são dados que resultaram da observação de determinados elementos de um dia de trabalho. Poder-se-á dizer, resumidamente, que dados quantitativos consistem em números que representam contagens ou medições e dados qualitativos, também designados por dados categóricos ou dados de atributos, os que se distinguem por uma qualquer característica não-numérica (por exemplo: o género). Muitos outros acontecimentos, de diferente natureza, poderão ocorrer numa instituição financeira, nomeadamente todo o processo conducente à concessão de crédito ao consumo. A concessão de crédito está

13


Regressão Logística

associada ao risco de incumprimento: o risco de crédito, do lado da oferta. O risco de crédito é inerente a cada cliente (individualmente). Este, ao solicitar à instituição financeira dinheiro emprestado, terá, como resultado daquela solicitação, a decisão do gestor de risco: “Conceda-se crédito” ou “Não se conceda crédito”. Trata-se de uma decisão que assume um resultado dicotómico, e, como tal, a variável dependente (a decisão) é dual ou binária. A decisão do gestor de risco pode ser dada de diferentes maneiras: “Conceda-se crédito/Não se conceda crédito”; “Sim/Não”; ou simplesmente “1/0”, que apresenta vantagens para o modelo que será desenvolvido no decurso deste trabalho. O gestor de risco, ao revelar a sua decisão, baseou-se num conjunto de informações que caracterizam o perfil do cliente, designadamente a idade, o género, o rendimento, o estado civil, a ocupação profissional, etc., que lhe permitiu fundamentar a sua decisão. Designaremos a “idade”, o “género”, o “rendimento”, o “estado civil” e tantas outras mais características como variáveis independentes ou variáveis explicativas. São estas variáveis que explicam ou fundamentam a decisão (variável dependente ou variável explicada) do gestor de risco. Uma variável dependente qualitativa binária com valores 0 e 1 serão os resultados da previsão para um “mau” e “bom” pagador, num sistema automático de decisão. Considera-se, assim, um resultado dicotómico para o risco de crédito, através de um código (COD) binário em que “0” representa o risco de crédito elevado e “1” o risco de crédito reduzido. Adotaremos, também, com igual significado, a designação de “bom” para “cumpridor” (1), e “mau” para “incumpridor” (0). Suponhamos que estamos interessados em avaliar a influência de uma determinada variável independente dicotómica (por exemplo: Género) na variável dependente dicotómica (COD). A questão de

14


Capítulo 1 - introdução

investigação para este exemplo é avaliar a extensão que traduz o grau de associação do género (G) com o risco de crédito (COD). Variável independente: G(0) – Feminino G(1) – Masculino Dado que o género é uma variável qualitativa, substituiremos por uma variável numérica fictícia (0 e 1), conforme discutiremos em 8.6. Variável dependente: COD (0) – Com risco elevado, Incumpridor, Mau COD (1) – Com risco reduzido, Cumpridor, Bom 0

0 COD

GÉNERO

1

Vaiáveis numéricas fictícias ((dummies dummies))

1

Variável dependente

Variável independente

Para avaliar a grandeza (ou a extensão) em que o género (G) está associado ao risco de crédito (COD), dever-se-á tomar em conta outras variáveis adicionais tais como “idade”, “raça”, “estado civil”, etc., que não são, neste caso, de interesse primário. Designaremos aquelas três variáveis de controlo por ‫ܥ‬ଵ ǡ ‫ܥ‬ଶ ǡ ‫ܥ‬ଷ . Neste exemplo, a variável G (género) conjuntamente com as variáveis de controlo representam um conjunto de variáveis independentes que se pretende utilizar para descrever ou predizer a variável dependente dicotómica COD. Para ilustrar a extensão (ou a grandeza da influência) como o género (G) está associado ao risco de crédito (COD), representaremos:

15


Regressão Logística

G, C1, C2, C3.

COD

Variável dependente

Variáveis independentes

Mais genericamente, as variáveis independentes podem ser substituídas por ܺଵ ǡ ܺଶ ǡ ܺଷǡ ǥ ǥ ǡ ܺ௞ , onde k é o número de variáveis consideradas. Os valores de X podem também assumir combinações, como por exemplo ‫ܥ‬ସ ൌ ‫ܥ‬ଷ ൈ ‫ܩ‬Ǥ Sempre que se pretenda relacionar um conjunto de ܺ௦ com a variável dependente, estamos a considerar um problema multivariado. Na análise deste tipo de problema, é, normalmente, utilizado um determinado tipo de modelo matemático capaz de lidar com as complexas interrelações entre as variáveis em presença. A regressão logística responde a este problema constituindo um modelo matemático que pode ser utilizado para descrever a relação de diversos ܺ௦ com a variável dependente dicotómica COD (1/0). Antes, porém, de se analisar com maior detalhe o modelo logístico, pareceu-nos oportuno fazer uma breve revisão a outros modelos, que também foram utilizados na previsão do incumprimento, para melhor se entender a preferência que é dada ao modelo logístico.

16


CAPÍTULO 2 – ALGUNS MODELOS ESTATÍSTICOS UTILIZADOS NA PREVISÃO DO INCUMPRIMENTO A literatura sobre a previsão de incumprimento/insolvência já não é recente, distando cerca de cinquenta anos o estudo realizado por Beaver (1966), considerado como tendo sido a investigação pioneira no desenvolvimento deste tipo de previsão. Atualmente, conta-se com uma série de trabalhos de investigação que versam esta temática, nomeadamente Jones (1987), Dimitras, Zanakis e Zopounidis (1996), Altman e Saunders (1998), Balcaen e Ooghe (2004) e Altman e Hotchkiss (2006). Alguns dos estudos paramétricos de credit scoring, frequentemente citados na literatura especializada, contam com os contributos de Beaver (1966), Altman (1968), Ohlson (1980) e Shumway (2001). Como acima referido, Beaver (1966) é considerado o pioneiro nos modelos de previsão de incumprimento, que lhe permitiram prever a insolvência de empresas. A teoria, que suporta o seu modelo, pode ser melhor visualizada num contexto de cash-flow, tal como Beaver (1966:p.80) a descreve: “A empresa é como um reservatório de ativos líquidos, que são abastecidos por influxos e escoados por exfluxos. O reservatório funciona como uma almofada de

17


Regressão Logística

proteção ou de para-choques contra as variações nos fluxos. A solvência da empresa pode ser definida como a probabilidade de o reservatório ficar seco, num determinado momento em que a empresa não seja capaz de satisfazer as suas obrigações, à medida que estas se vencem”.

2.1 – Análise discriminante Da revisão da literatura (Fair Isaac, 2006)1 ressalta que o objetivo na análise discriminante tem geralmente duas opções: segmentar ou separar indivíduos em dois ou mais grupos previamente definidos; e classificar qualquer um novo indivíduo num desses grupos. Uma regra ou “função discriminante” é desenvolvida com base em medidas (variáveis) associadas a cada amostra de indivíduos de duas ou mais populações. Tal como na regressão, a abordagem geral é a construção de uma combinação linear de variáveis de previsão, que melhor distinguirão (discriminarão) os dois grupos. O modelo apresenta-se na forma de fórmulas múltiplas, cada uma correspondendo a um grupo2. O novo indivíduo pode então ser atribuído ou classificado na população correta, com base no valor mais elevado das combinações (scores) lineares de entre as funções discriminantes para esse indivíduo específico. As variáveis de previsão podem ser predeterminadas pelo gestor de risco ou podem ser selecionadas utilizando a análise discriminante iterativa ou “passo a passo”. A análise discriminante linear opera, em princípio, como a regressão linear “passo a passo”; as variáveis são incluídas, sequencialmente, no modelo, até que não se obtenha nenhuma melhoria adicional na discriminação (dentro dos limites do critério de paragem). 1. “A discussion of Data Analysis – Prediction and Decision Techniques” - April 2006 2. Para a predição binária as fórmulas consolidam-se numa fórmula única, visto que a probabilidade de associação num dos dois grupos mutuamente exclusivos também revela a probabilidade de associação no outro grupo.

18


Capítulo 2 - Alguns modelos estatísticos utilizados na previsão do incumprimento

A análise discriminante é frequentemente usada em marketing para distinguir as compras de um novo produto através de não-compradores, para identificar os diferentes grupos de resposta a uma campanha de vendas por correio: baixa, média e alta. É também utilizada para desenvolver modelos de risco de crédito. Este método apresenta pontos fortes e pontos fracos. Como pontos fortes, poder-se-á dizer que esta técnica pode separar e classificar indivíduos em grupos múltiplos. A ideia de pontuar (score) um indivíduo e utilizar um ponto de corte (cut-off) é peculiar desta metodologia. Pode ser facilmente reconhecida como a “ferramenta certa” para o credit scoring. Como pontos fracos, este método assume que as variáveis de previsão estão distribuídas normalmente [0;1], (significando “0” de média e “1” de desvio-padrão). Este pressuposto é frequentemente violado nas aplicações típicas de scoring. Apesar de esta técnica de previsão ser de algum modo robusta, no que concerne a violações menores dos pressupostos, as violações mais graves provocam frequentemente estimativas falíveis ou que não inspiram confiança. Outro ponto fraco verifica-se quando algumas ou todas as variáveis independentes estão muitíssimo correlacionadas, (isto é, em situações, frequentemente, designadas por multicolinearidade) [ ]. O procedimento poderia selecionar um conjunto de variáveis não apropriadas, como se estas fossem ótimas. De facto, em situações de multicolinearidade, os estimadores dos coeficientes de regressão (β ) flutuam notoriamente de amostra para amostra.

2.2 – Análise discriminante univariada Beaver (1966) utilizou a análise discriminante univariada, demonstrando que os rácios financeiros podem ser usados para prever a insolvência das empresas. A partir daqui, os estudos sobre insolvência foram, sucessivamente, melhorados e refinados. 19


Regressão Logística

2.3 – Análise discriminante multivariada Altman (1968) introduziu a análise discriminante multivariada, modelo que ficou conhecido por Z-score, tendo-lhe permitido identificar, num conjunto de 66 empresas, aquelas que manifestavam forte tendência para a insolvência. Mais tarde, Altman, Haldeman e Narayanan (1977) desenvolveram um novo modelo que designaram por Zeta™. Os modelos Z-score e Zeta™ foram ainda referenciados em investigações mais recentes, nomeadamente por Holmen (1988), Mosmann et al. (1998), Ooghe et al.. (1999), Shumway (2001), Chava e Jarrow (2001), Ooghe e Balcaen (2002). No culminar da década de 1970, imperavam os modelos suportados na análise discriminante multivariada. Contudo, foram identificados alguns problemas nesta técnica estatística que assumia a presunção de uma distribuição normal. Aliás, Eisenbeis (1977) apontou sete tipos diferentes de problemas: 1) a distribuição das variáveis; 2) a igualdade versus desigualdade das dispersões dos grupos; 3) o papel do peso das variáveis individuais; 4) problemas derivados da redução do número de variáveis; 5) problemas na definição dos grupos (a análise discriminante assumia que os grupos alvo de investigação eram discretos e identificáveis); 6) uso inapropriado de probabilidades ex ante na classificação de grupos; 7) problemas de classificação na estimativa das taxas de erro, no acesso ao desempenho do modelo. Estes problemas originaram novas investigações, com o recurso a outras técnicas. Citando Reis (2001:p.201), “A análise discriminante surgiu com o desejo de se distinguir estatisticamente entre dois ou mais grupos de indivíduos, previamente definidos a partir de características conhecidas para todos os membros dos grupos”. O processo de concessão de crédito conduz a uma escolha entre duas ações: conceder ou recusar o crédito a um novo candidato.

20


Capítulo 2 - Alguns modelos estatísticos utilizados na previsão do incumprimento

O credit scoring tenta obviar esta decisão, encontrando qual teria sido a melhor regra a aplicar, numa amostra de candidatos, previamente, conhecidos. A vantagem em se proceder deste modo é conhecer o desempenho posterior destes candidatos. Se existem apenas duas ações possíveis (aceitar ou recusar), então não há nenhuma vantagem em classificar este desempenho em mais que duas classes (“Cumpridor” e “Incumpridor”). “Cumpridor” é qualquer indivíduo, definido a partir de características conhecidas, ao qual será concedido o crédito solicitado. Ao invés, “Incumpridor” é o indivíduo cujas características não permitem à entidade financiadora efetuar quaisquer empréstimos. No decurso deste trabalho, utilizaremos, também, o vocábulo “Bom”, crédito, para cumpridor, e “Mau” crédito para incumpridor. Em algumas entidades financiadoras, sejam empresas ou instituições financeiras, a classificação “0” (Mau) é considerada como a falta de cumprimento de vários pagamentos consecutivos, enquanto, noutras instituições, o critério é a quantidade total de pagamentos em falta. Desde logo, estes pressupostos enfermam de enviesamento, uma vez que a amostra selecionada diz apenas respeito a candidatos anteriormente aceites, logo considerados “Cumpridores”, não existindo qualquer informação, em período anterior, sobre o desempenho daqueles candidatos, a quem lhes foi recusado o crédito. Deste modo, a amostra é apenas representativa dos que foram aceites (pressupostamente “Cumpridores”) e não é representativa da população (isto é, incluindo também aqueles que se candidataram a um empréstimo e foram considerados, pelo seu perfil ou comportamento, “Incumpridores”, logo recusados). Citando Müller et al. (2002) “... não existe, geralmente, qualquer informação acerca do desempenho dos clientes recusados”. Hand e Henley (1993) concluíram, sobre este problema, que o mesmo não pode ser ultrapassado, a não ser que se possa assumir uma relação especial entre as distribuições de clientes “Bons” e “Maus”. Esta dificuldade, segundo os mesmos investigadores, pode ser parcialmente resolvida: as empresas que aceitarem qualquer candidato, por um certo 21


Regressão Logística

espaço de tempo, construirão à posteriori um scorecard 3 baseado numa amostra não-enviesada de dados. Esta hipótese é apenas possível em empresas nas quais o método de análise do risco é o scoring comportamental. Da análise que acabámos de efetuar podemos aceitar que não valerá a pena tentar identificar quais as diferenças entre os candidatos que estão num determinado grupo, quando a decisão de eles pertencerem a esse grupo é da única responsabilidade do emprestador. Sejam quais forem as motivações subjacentes à decisão de aceitar o candidato, o processo define-se na classificação dos candidatos aceites em apenas dois grupos (“Bons” e “Maus”), visto que a decisão final resultará numa de duas ações. Admitamos que um determinado indíviduo “X ” foi classificado em função da sua característica 1 (idade), característica 2 (rendimento), etc, até à característica “p”. Dizendo de outra forma, admitamos que ܺ ൌ ሺܺଵ ǡ ܺଶ ǡ Ǥ Ǥ Ǥ Ǥ ܺ௣ ሻ em que as variáveis aleatórias “p” descrevem a informação disponível sobre o indivíduo “X ”. Utilizaremos, neste contexto, as palavras “característica” e “variável” como sinónimos, sendo a primeira utilizada quando se pretende recordar que tipo de informação nominal se trata, e a segunda quando se pretende realçar a natureza aleatória desta informação. Na terminologia do credit scoring, os possíveis valores ou respostas diferentes de uma característica designam-se por “atributos”. Exemplo: “solteiro” é um atributo da característica “estado civil”. As entidades financiadoras podem requerer nos seus formulários de candidatura, também designados por propostas de adesão, diferentes atributos para a mesma característica. Confunde-se frequentemente “característica” e “atributo”. A característica é a pergunta do formulário, atributo é a sua resposta. 3. Batista, A. (2012)- Credit scoring, Vida Económica Editorial S.A., Porto

22


Capítulo 2 - Alguns modelos estatísticos utilizados na previsão do incumprimento

Exemplo: Pergunta: Em que tipo de “Habitação” reside? (característica) – Resposta: Em casa “Alugada”! (atributo). Exemplo de uma “Característica” e possíveis “Atributos”: Possíveis atributos para a característica 1 2 3 4 5 6 7 8

HABITAÇÃO Casa própria livre de encargos Casa própria ainda hipotecada Alugada sem mobília Alugada com mobília Casa dos pais Lar de jovens Quarto alugado Caravana

X

Tabela 2 – Exemplo de diversos atributos de uma característica

Assume-se que, no preenchimento do formulário de candidatura ao crédito, as características (perguntas) têm um número finito de atributos discretos (respostas), portanto o conjunto de todos os atributos é finito. Isto corresponderá a dizer que só há um número finito de maneiras de preencher o referido formulário.

2.4 – Função discriminante A análise discriminante é conseguida segundo uma ou mais combinações lineares das variáveis independentes p utilizadas ሺܺ௜ ሻ (características do candidato). Cada combinação linear ሺܼ௜ ሻ constitui uma função discriminante, ܼ௜ ൌ ߙ଴ ൅ ߚ௜ଵ ܺଵ ൅ ߚ௜ଶ ܺଶ ൅ ‫ ڮ‬൅ ߚ௜௣ ܺ௣

23

[1]


Regressão Logística

em que ߙ଴ é uma constante (não depende ܺ௜ ), ߚij são os pesos ou coeficientes de ponderação e os ܺ௜ são as variáveis discriminantes não-normalizadas. Deste modo, multiplica-se cada variável independente ሺܺ௝ ሻ pelo seu peso correspondente ሺߚ௜௝ ሻ e somam-se esses produtos, sendo o resultado obtido o score (pontuação) ܼ௜ discriminante para cada candidato a crédito. Esta pontuação se estiver acima de determinado valor (cut-off) o candidato a crédito é aceite, se estiver abaixo é recusado. O critério utilizado é ≤0,05 é recusado, >0,05 é aceite). Através do conjunto de variáveis selecionadas e que permitam a discriminação, é possível classificar novos candidatos, cujo agrupamento seja inicialmente desconhecido. Segundo Reis (2001, p.206), “a análise discriminante pode ser compreendida como um sistema de pontuações que, a cada indivíduo, faz corresponder uma pontuação resultante de uma média ponderada dos valores que, para ele, assumem as variáveis independentes”. Para utilizar a análise discriminante no credit scoring é necessário que se atenda a pressupostos rígidos, nomeadamente que as variáveis independentes (características do candidato) estejam normalmente distribuídas e tenham as matrizes de variância-covariância iguais nos dois grupos, isto é, nos “Bons” e “Maus”.

24


OBRAS DO MESMO AUTOR:

REGRESSÃO LOGÍSTICA O texto é uma introdução ao modelo estatístico, exemplificado com um estudo de caso. Baseado no comportamento de pagamento e nas características de 4000 utilizadores de cartões de crédito, foi possível determinar a previsão de incumprimento em 90% dos casos. A robustez do modelo preditivo antecipa o resultado de bom ou mau pagador, permitindo deste modo reduzir o crédito malparado. CREDIT SCORING

Trata-se de um guia prático para académicos que investiguem áreas científicas do credit scoring e revolving credit, bem como especialistas em gestão e análise de risco bancário. O autor é Coordenador Científico para as áreas da Banca, Finanças e Auditoria da Universidade Europeia|Laureate International Universities, tendo publicado dezenas de artigos na área do risco de crédito, no semanário Vida Económica.

REGRESSÃO LOGÍSTICA

COMO EVITAR E RECUPERAR CRÉDITO MALPARADO

ANTÓNIO MANUEL SARMENTO BATISTA

ANTÓNIO MANUEL SARMENTO BATISTA

A GESTÃO DO CRÉDITO COMO VANTAGEM COMPETITIVA

REGRESSÃO LOGÍSTICA Uma introdução ao modelo estatístico Exemplo de aplicação ao Revolving Credit 1,00 f(z) 0,75

0,50

0,25 MATEMÁTICA FINANCEIRA ISBN 978-989-768-128-8

www.vidaeconomica.pt http://livraria.vidaeconomica.pt ISBN: 978-989-768-128-8

9 789897 681288

0,00 -5,00 -4,00 -3,00 -2,00 -1,00 0,00 1,00 2,00 3,00 4,00 5,00

ANTÓNIO MANUEL SARMENTO BATISTA É Doutorado em Gestão Empresarial Aplicada pelo ISCTE-IUL, Mestre em Gestão (MBA) pelo ISEG-UTL e Auditor de Sistemas da Gestão da Qualidade pelo Instituto Superior de Ciências da Saúde-Sul. Como docente, leciona Cálculo Financeiro na Universidade Europeia | Laureate International Universities, entre outras matérias das Ciências Empresariais. O autor tem um longo percurso profissional e académico que lhe tem facultado cotejar a realidade observada no tecido empresarial com os conteúdos programáticos do Ensino Superior, conciliando-os com as atuais expectativas e necessidades da globalização laboral. Tem diversos artigos publicados desde 1995 sobre a temática do crédito e obras que tratam o mesmo tema, nomeadamente “A Gestão do Crédito como Vantagem Competitiva”, “Como Evitar e Recuperar Crédito Malparado” e “Credit Scoring”, entre outros. Dedica-se à investigação científica na área do risco do crédito, e desenvolve e analisa projetos de investimento, em diversos setores da atividade económica.


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.