Santiago 21 de octubre de 2013
Tarea 3 Minería de Datos para el Análisis de Negocios Consultores:
Alfredo Carafí Juan Eduardo Puga
Profesor:
Sebastián Maldonado
Resumen Ejecutivo: El objetivo del siguiente trabajo es el de predecir de la manera más eficiente posible qué clientes son más propensos a fugarse del banco, para de esta manera centrar una campaña de fidelización de la manera más provechosa posible. Para esto en primer lugar se determinó cual de todos los métodos de clasificación de Minería de Datos predecía de mejor manera un conjunto de prueba ya conocido. Los diversos métodos se compararon entre sí tomando en cuenta el AUC y la Accuracy de estos, y se determinó que el más preciso fue el de Redes Neuronales, el cual difería muy poco respecto al método de Regresión Logística. El AUC que se obtuvo con las Redes Neuronales fue de 0.858, lo cual es lo suficientemente apropiado como para realizar una buena aproximación. Una vez que se definió el método para predecir, se prosiguió aplicando el modelo seleccionado sobre una muestra de alrededor de 4000 clientes sobre los cuales no se tenía registro sobre si fugaban o no fugaban. Una vez que se tuvo una predicción para estos utilizando Redes Neuronales, se exportaron los datos a Excel para analizar los resultados. Allí, mediante tablas dinámicas se estudió el promedio, mínimo, máximo, varianza y desviación estándar para cada atributo, separando entre aquellos que fueron etiquetados como “Fuga” y “No Fuga”. Analizando los resultados obtenidos para cada uno, se encontró que hay una diferencia clara entre ambas categorías. En primer lugar, aquellos clientes que Fugan no poseen tarjetas de crédito en el mes T. Por otro lado, éstos tampoco realizaban transferencias web en el mes T, ni tampoco en los meses anteriores. Por el contrario, aquellos clientes que sí tenían tarjeta, y que sí realizaban transferencias son mucho menos probables de dejar la compañía. Teniendo presente los resultados que se obtuvieron, se propuso una serie de medidas de modo que aquellos clientes que son más propensos a irse se motiven a no cerrar sus cuentas. Estas se formularon con el propósito de que aquellos que no tienen tarjetas abran una, aquellos que ya tienen deseen mantenerla, y además de que generen más transferencias web. Todo se hizo en torno a los resultados que arrojó la investigación realizada mediante Redes Neuronales, y aprovechando que se tiene una estimación de quienes son los más propensos, se pueden centrar los recursos de manera más eficiente al destinarlos solo a los clientes más vulnerables.
2
Índice: 1 Introducción……………………………………………………………
6
2 Descripción de los modelos………………………………………..
8
3 Descripción de los indicadores..……………………………….. ….
12
4 Resultados……………………………………..……………………..
14
5 Comparación de modelos..……………………..…………............
18
6 Definición en base al modelo seleccionado………………………
20
7 Acciones y recomendaciones………….…………………………..
26
8 Conclusiones…………………………………………………..……..
29
9 Anexos…………………………………………………………………
31
3
1. Introducción: El objetivo central de nuestro estudio busca determinar que clientes se van a fugar voluntariamente del banco para poder centrar una campaña de fidelización de la manera más eficiente posible. Para esto, se cuenta con una base de datos de partida en la cual se tiene registro de clientes de los cuales ya se sabe que acción tomaron. El objetivo es tomar esta base de datos para poder realizar un modelo que permita predecir para un conjunto objetivo de la manera más realista posible. Para esto, en una primera etapa se limpiaron, filtraron y transformaron los datos del conjunto de manera que la predicción se realice de la manera más eficiente. El siguiente paso, el cual se va a desarrollar en esta ocasión, consiste en utilizar diversos métodos de clasificación para realizar las predicciones pertinentes. Para determinar cual es el más indicado, se van a comparar todos entre sí, además de variar parámetros de cada uno dejando un registro del desempeño en cada caso. El mejor modelo va a ser aquel que presente el mejor rendimiento, y este va a ser el elegido para analizar el conjunto de testeo. No existe una receta estricta para qué método utilizar en qué ocasión, ni que valores iniciales utilizar. Para determinar los valores óptimos se debe tabular una serie de resultados y mediante prueba y error, y utilizando los indicadores pertinentes, se determina qué valores y qué método es el más indicado. A partir de este modelo se va a proceder con la predicción para poder determinar las características de los clientes que se fugan para poder caracterizarlos y describirlos. Aquí se van a indicar cuales son los atributos más relevantes para determinar que clientes se fugan. Finalmente, a partir de los resultados de nuestra predicción, se va a realizar una serie de recomendaciones a la institución tomando como base las características de aquellos clientes que presentan el mayor riesgo de fuga. Estas recomendaciones tienen el objetivo de fidelizar aquellos clientes más riesgosos para reducir la tasa de fuga de la empresa.
4
2. Descripción de los Modelos 2.1 Regresión Logística La regresión Logística consiste en predecir el resultado de una variable categórica, como por ejemplo la variable que dirá si es que un cliente se fuga o no, en función de las variables independientes. Es un buen método para linealizar la función en caso de que sea no lineal y en general entrega muy buenos resultados de predicción. La manera en que trabaja es que a una variable objetivo le entrega resultados de acuerdo a los atributos entregados o analizados.
2.2 K-Vecinos más Cercanos El método de K-Vecinos más cercanos busca un número determinado de registros que compartan características similares para asociar el valor desconocido al valor más representado dentro de ellos. Para calcular la distancia se utiliza la distancia euclidiana entre los registros, y generalmente se considera un numero impar de datos para evitar empates en la muestra. Esto se realiza para todos los atributos. Este modelo es muy sencillo de implementar y no requiere mucho cálculo computacional. Sin embargo, el problema se genera cuando hay muchos atributos irrelevantes que dominan por sobre los verdaderamente importantes. En este caso se puede dar peso a atributo sin importancia, dejando de lado aquellos que son verdaderamente relevantes. Para solucionar esto se puede filtrar aquellos atributos sin importancia, o ponderar las distancias.
2.3 Naive Bayes Es un método de clasificación basado en el teorema de bayes, pero este método asume independencia de las variables, y como este supuesto es muy ingenuo (puesto que no siempre se tendrá independecia) se le conoce al método como naive-bayes. En otras palabras si se tienen varios atributos, naive bayes asumirá independecia siempre, por ejemplo sise toma como ejemplo una manzana, sus atributos serian que es roja, tiene un cierto diámetro, y es redonda, entonces naive bayes conciderara que todos los atributos de esta son independientes unos de otros, aun que no siempre sea el caso. Este método a pesar que toma supuestos ingenuos o “naive” funciona bastante bien en la práctica, entregando generalmente buenos resultados.
5
2.4 Árboles de Decisión Un árbol de decisión consiste en una estructura a modo de diagrama de flujo, en la cual en cada nodo interno se evalúa un atributo y a partir de la respuesta se ramifica hacia otros nodos. De esta forma, a través de una serie de evaluaciones consecutivas se llega a una clasificación. El árbol se va construyendo de acuerdo a una serie de parámetros, y el resultado y desempeño de estos depende de cómo se eligen estos. El criterio para determinar en que atributo fijarse y de que manera se separan los datos se basa en el “information gain”, o reducción de entropía. La entropía se basa en la cantidad de elementos de cada clase cada vez que se aplica algún criterio. De esta forma, cuando solo hay elementos de una sola clase, la entropía es 0, y cuando hay la misma cantidad de cada clase, la entropía es 1. El método de information gain busca que la entropía sea mínima, para que de esta manera se clasifique de la manera mas eficiente. Otro método que se va a utilizar para realizar la comparación es el de Gini, el cual se centra en medir el grado de impureza de un nodo. Este método tiende a crear ramificaciones desbalanceadas, agrupando una clase mayoritaria en un nodo, y el resto en otros nodos. Algunos de los parámetros más relevantes a considerar cuando se trabaja con árboles de decisión son: el criterio para ramificar, la ganancia mínima, el tamaño mínimo para ramificar, el tamaño mínimo para una hoja (criterios de poda), y la profundidad. Todos estos parámetros van a ser alterados más adelante para que mediante prueba y error se determine la combinación mas adecuada para obtener la mejor predicción.
2.5 Redes Neuronales Las redes neuronales se basan en una regresión no-lineal para encontrar una aproximación al problema. Tienen la gran ventaja de que es muy adecuado para un gran numero de problemas debido a que permite modelar funciones nolineales, y permite filtrar apropiadamente el ruido en los datos. Se basa en aprendizaje supervisado para generar una o más capas ocultas a las cuales se traslada a través de la función de transferencia, la cual se basa en pesos para cada neurona. Es una función flexible, dado que no se requiere mucha exigencia para pre-procesar los datos iniciales. El problema es que es un algoritmo muy complejo, es difícil alcanzar la convergencia óptima, y al poseer un gran numero de parámetros a explorar demanda una gran cantidad de ensayo y error. Por ser tan flexible hay muchas formas de errar. Los parámetros iniciales son vitales para asegurar una convergencia óptima y para evitar el sobreajuste del modelo. Algunos de estos parámetros que se van a modificar son la cantidad de capas ocultas (generalmente con 1 basta para funciones booleanas y funciones continuas acotadas), la cantidad de neuronas (muchas pueden sobreentrenar el modelo y generar pérdida de generalidad), el
6
decaimiento (para evitar que los pesos vayan creciendo descontroladamente sobreentrenando el modelo) y la tasa de aprendizaje (que define la velocidad a la cual se acerca al óptimo del problema de optimización).
7
3. Descripción de los Indicadores Antes de comenzar con el anålisis, se va a describir los indicadores utilizados para medir el rendimiento de los mÊtodos. Hay que distinguir que hay 4 posibilidades para los resultados: • • • •
Predecir como fuga, y que sea fuga (“pred. F-true F�) Predecir como fuga, y que sea no-fuga (“pred. F-true NF�) Predecir como no-fuga, y que sea fuga (“pred. NF-true F�) Predecir como no-fuga, y que sea no-fuga (“pred. NF-true NF�)
RapidMiner resume estos casos en una tabla como la siguiente:
A partir de estos casos se pueden calcular varios indicadores los cuales estudian el desempeĂąo del modelo. Estos cĂĄlculos son los siguientes: 3.1 Accuracy/Acierto Corresponde a una relaciĂłn entre todos los aciertos tanto para positivos como para negativos en relaciĂłn al total de la muestra. De esta forma, se puede calcular de la siguiente manera: đ?‘‰đ?‘ đ??š + đ?‘‰đ??š đ??´đ?‘?đ?‘?đ?‘˘đ?‘&#x;đ?‘Žđ?‘?đ?‘Ś = đ?‘‰đ?‘ đ??š + đ??šđ?‘ đ??š + đ?‘‰đ??š + đ??šđ??š 3.2 Class Recall Corresponde al porcentaje de todas las observaciones de una clase determinada que fueron predichas correctamente. De esta forma, para la fuga en este caso: đ?‘‰đ??š đ??śđ?‘™đ?‘Žđ?‘ đ?‘  đ?‘…đ?‘’đ?‘?đ?‘Žđ?‘™đ?‘™ =  đ?‘‰đ??š + đ??šđ?‘ đ??š 3.3 Class Precision Corresponde al porcentaje de observaciones correctamente clasificadas de una determinada forma. AsĂ, para la fuga en este caso: đ?‘‰đ??š đ?‘ƒđ?‘&#x;đ?‘’đ?‘?đ?‘–đ?‘ đ?‘–đ?‘œđ?‘› = đ?‘‰đ??š + đ??šđ??š
Â
8 Â
Otra alternativa para medir el desempeño se basa en las curvas ROC. Estas curvas miden la relación entre los casos de “Éxitos” con los de “Falsas Alarmas”. En estos gráficos, se ubica la tasa de éxito en el eje vertical (y), y de fracasos en el eje horizontal (x), de la siguiente manera.
Estos gráficos se pueden utilizar para medir la efectividad del modelo tomando en cuenta de éste es mejor cuando la tasa de “Exitos” es más grande. Esto se traduce en que la línea roja sea más curva hacia el eje superior izquierdo. Un indicador asociado a esto es el de AUC. 3.4 AUC El AUC corresponde al área bajo la curva roja. Dadas las características del gráfico ROC, el valor máximo que puede alcanzar esta área es 1. Mientras mayor sea el área (AUC), mejor es el modelo. Por ejemplo:
AUC1
AUC2
De esta forma, analizando los AUC se puede concluir que el modelo 2 predice mejor que el modelo 1, debido a que AUC2 > AUC1
Finalmente, el indicador que vamos a utilizar para determinar que modelo es el mejor va a ser el AUC.
9
4. Resultados Los Resultados de los métodos descritos anteriormente fueron entregados por el programa RapidMiner, con el cual se probó con distintos parámetros para cada uno de los cinco métodos para poder encontrar el mejor resultado para cada caso, esto es encontrar el mayor AUC, el cual en nuestro caso un mejor AUC significara una mejor predicción de clientes fugados, que son los que interesa predecir. 4.1 Regresión Logística: En este método se utilizaron los parámetros de “Kernel Type” y “C”, con los cuales se busco el mayor AUC. Se vio que para Kernel Type “dot” el parámetro C otorgó AUC muy similares para todos los valores de C que se probaron (0.01, 0.1, 1, 10, 50), teniendo el valor AUC mas alto para C = 1, el cual fue 0.856, por lo que los valores de C al converger a 1 entregan mejores resultados. Por otro lado para el Kernel Type “Polynominal” se obtuvieron AUC más bajos (con valores de C de 0.01, 0.1, 1, 10), siendo el valor más alto 0.795 el cual se obtuvo con C = 0.01, por lo tanto podemos afirmar que se obtiene una mejor predicción de clientes con un C tendiendo a cero. 4.2 K-Vecinos más Cercanos: Para este método solo se cambio el parámetro K, con el cual si bien se obtuvieron muy buenos resultados para accuracy, no fue el caso para la curva AUC, donde el valor más alto fue de solo 0.526. Para los valores de K se noto que valores muy bajos entregaban un AUC bajo y mas altos de 10, también comenzaba a bajar, por ende el optimo fue con K = 10, vale decir con 10 vecinos mas cercanos. Si bien el accuracy obtenido fue muy bueno, no lo fue el “class recall” para los clientes fugados, donde solo se obtuvo un 4,19% para K = 1. 4.3 Naive Bayes: En el método Naive Bayes aplicado en el programa Rapidminer solo se tiene un parámetro para aplicar y este es usar o no usar la corrección de Laplace. Para ambos casos los resultados obtenidos fueron los mismos, tanto para el AUC, como para el accuracy. El resultado obtenido fue de un AUC de 0.838 y un accuracy de 84.69%
10
4.4 Árbol de Decisión: Este método contiene muchos parámetros, por lo que se escogieron los que se estimaron más convenientes según lo estudiado en clases, estos fueron: -
Criterion Minimal gain Maximal depth
El resto de los parámetros se dejaron como el programa los entrega de manera default. Para obtener la mejor predicción de clientes fugados, se usaron combinaciones de estos 3 parámetros, usando siempre minimal gain = 0, la profundidad máxima del árbol con valores de 5, 10 y 20 y los criterios de Gini_Index y Information_Gain. El mejor resultado se obtuvo con la combinación de Information_Gain como criterio y una profundidad máxima de 10.
Por lo que se puede ver, aun con un maximal_depth de 10 el árbol obtenido es difícil de interpretar. El AUC obtenido fue de 0.845 y un accuracy de un 88.35% 4.5 Red Neuronal: En este método se ocuparon los siguientes parámetros: - Ciclo de entrenamiento - Tasa de aprendizaje - Momentum Para la predicción de los clientes fugados se combinaron distintos valores para los 3 parametros ocupados, siendo la mejor combinación la siguiente: Ciclo Entrenamiento: 1000 Tasa de aprendizaje: 0,5 Momentum: 0,2 En donde se obtuvo un AUC de 0.858 y un accuracy de 87.99%.
11
5. Comparación de los modelos A continuación se muestran los resultados de los cinco métodos distintos utilizados para medir la predicción de fuga de los clientes de la base de datos, en la siguiente tabla se muestan los indicadores AUC y Accuracy. Metodo
AUC
Accuracy
Parametros
Regres i ón Logi s ti ca
0.856
79.93%
C =1; Kernel Type: d ot
K-‐Veci nos ma s Cerca nos
0.526
87.21%
K = 10
Na i ve B a yes
0.838
84.69%
Con y S i n Correcci on d e La pl a ce
Arbol d e D eci s i ón
0.845
88.35%
Informa ti on G a i n; Ma x D epth = 10
Red Neurona l
0.858
87.23%
Deca y; Ci cl o e nt = 500 ; Ta s a a prnd = 0.3; Momentum = 0.2
Observando los resultados que se obtuvieron se puede ver que el método que entrega una mejor AUC es el método de Redes Neuronales, y muy cercano en resultado se encuentra el método de regresión logística. Por otro lado se tiene que el que entrega un mejor accuracy para la predicción esta dado también por Redes Neuronales, pero está muy cerca K-Vecinos más Cercanos. El objetivo es encontrar o predecir los clientes fugados, por lo tanto se debe tener más en cuenta o usar métodos que predigan o se centren mas en los clientes fugados que los no fugados. Como se enseño en clase de Minería de Datos, el AUC es un parámetro mucho mejor para la predicción de clientes que el accuracy, esto es por que el accuracy muchas veces puede entregar un valor alto o bastante bueno pero eso se puede deber a que este estra deciciendo muy bien a los fugados, pero muy mal a los clientes no fugados, como es el caso de K-Vecinos más cercanos, con el cual obtuvimos un accuracy de 87.21%, pero en el cual se predice a los clientes no fugados con un 99.78% de certeza, pero los clientes fugados los predice con solo un 1.40% de certeza, por lo tanto este método no sirve para el caso estudiado que es la predicción de clientes fugados, además tomando en cuenta que tiene el AUC más bajo de todos se descarta. En el caso de Red Neuronal se obtuvo el mejor AUC de todos los métodos, y el segundo accuracy mas alto, por lo que se podría considerar para el método final a ocupar para el TEST, el problema de este es parecido al de K-Vecinos más cercanos y es que aun que este nos entrega un AUC muy alto y un accuracy bueno, predice los clientes fugados con un 47.63% de certeza por lo que es un poco bajo en comparación a lo entregado por otros métodos. Para el árbol de decisión se tiene el mismo problema, un buen AUC y accuracy, pero una no muy buena predicción de clientes fugados con alrededor de un 60%.
12
Para Naive Bayes se tiene un buen accuracy y un buen accuracy con una buena predicción de clientes fugados con 74.86%. Por otro lado comparando Naive Bayes con regresión logística tenemos que regresión logística gana en AUC y Naive Bayes en accuracy, finalmente se opto por escoger Regresión Logística por que entrega un mejor AUC y aun que tenga un accuracy mas bajo, predice mejor los clientes fugados.
13
6. Definición en base al modelo seleccionado Luego de utilizar el método seleccionado para realizar la predicción se exportaron los resultados a Excel, donde se realizaron una serie de medidas para caracterizar al tipo de clientes que fugan y que no fugan. Para esto se utilizaron tablas dinámicas de Excel. La primera de ellas resume cuantos clientes fueron etiquetados como “F” de “Fuga”: Contar de prediction(y) Total Etiquetas de fila F NF (vacías) Total general
1038 3406 4444
Aquí se puede apreciar que poco menos de un cuarto se fuga, lo cual es una magnitud bastante alta pero aún creíble. Ahora se va a analizar cada atributo por separado a través de tablas dinámicas. Cabe agregar que los atributos que quedaron luego de las etapas de limpieza y filtrados fueron solo x4, x18, x19 y x20. Todos los demás fueron eliminados por presentar correlación con otros atributos, por tener muy poca varianza (muy concentrados) o por no ser relevantes para predecir. Además hay que recordar que todos los datos están normalizados y que por lo tanto, por ejemplo el valor 0,036 para el “número de transacciones” no quiere decir que se hayan realizado esa cantidad de transacciones. Es por esto que se van a comparar diferencias porcentuales y no magnitudes. X20: Número de transacciones web en T-2 Valores Promedio de ln_x20 Máx de ln_x20 Mín de ln_x20 Desvest de ln_x20 Var de ln_x20
F 0,036 0,529 0,0 0,070 0,005
NF Total general Delta (F-‐NF)/F 0,045 0,043 -‐23% 1,0 1,0 -‐89% 0,0 0,0 0% 0,088 0,084 -‐25% 0,008 0,007 -‐56%
A partir de este análisis se aprecia que, en promedio, no hay mucha diferencia entre el número de transacciones web en T-2 entre aquellos clientes que fugaron y que no fugaron. Sí se aprecia una diferencia un poco mayor en el máximo que alcanza cada grupo, lo cual es congruente dado que un cliente que va a cerrar su cuenta es poco probable que realice transacciones web. Sin embargo, el que un cliente no realice transacciones no es criterio suficiente para concluir que pueda
14
fugar dado que tanto para los fugados como para los no fugados hay uno o más clientes que no realizaron transacciones web. Las desviaciones estándar y varianzas son pequeñas, por lo que se concluye que los valores máximos y mínimos corresponden más que nada a casos aislados, tomando en cuenta además el promedio. X19: Número de transacciones web en T-1 Valores Promedio de ln_x19 Máx de ln_x19_2 Mín de ln_x19_3 Desvest de ln_x19_4 Var de ln_x19
F 0,030673735 0,528576644 0 0,062047765 0,003849925
NF 0,039723742 1 0 0,079022857 0,006244612
Total general Delta (F-‐NF)/F 0,037609901 -‐30% 1 -‐89% 0 0% 0,075491388 -‐27% 0,00569895 -‐62%
Para este atributo se puede concluir lo mismo que para el anterior: los promedios son muy similares y pequeños, además de presentar el mismo comportamiento para los valores extremos y la desviación estándar. Se puede concluir, al igual que antes, que pocos clientes realizan transacciones dado el promedio y la varianza, y que quienes más realizan por lo general son quienes No Fugan. X18: Número de transacciones web en T Valores Promedio de ln_x18 Máx de ln_x18_2 Mín de ln_x18_3 Desvest de ln_x18_4 Var de ln_x18_5
F 0,036901379 0,605683963 0 0,079135334 0,006262401
NF Total general Delta (F-‐NF)/F 0,04696479 0,044614245 -‐27% 1 1 -‐65% 0 0 0% 0,092123214 0,089351888 -‐16% 0,008486687 0,00798376 -‐36%
Para este caso, el comportamiento de ambas clases es similar a los anteriores. Es por esto que se puede concluir que, tras el proceso de limpieza realizado anteriormente, Rapidminer se centra en quienes realizan transacciones web tanto en el mes T como en los dos meses anteriores a eso. Estos tres meses de registro si bien tienen relación entre si (dado que un cliente que realiza transacciones web habitualmente es probable que lo haga en más de uno de los 3 meses en cuestión), no se pueden eliminar por correlación dado que es importante rescatar aquellos clientes que realizaron una sola transacción durante los 3 meses. Desde este punto de vista, un cliente que haya realizado al menos una transacción presenta menos probabilidades de fugarse que uno que no haya realizado niguna, y resulta relevante estudiar los tres meses por separado. Sin embargo, observando el mínimo no se considera que esta perspectiva basada en transacciones web sea un criterio absoluto, puede ser que clientes que no realizaron ninguna transacción aún así hayan sido etiquetados como “No Fuga”.
15
Esto se comprueba simplemente aplicando un filtro sobre los datos, de la siguiente manera:
Se obtuvieron muchos casos con estas características, se muestran solo algunas para ejemplificar. Aquí claramente se aprecia que muchos individuos que no realizaron ninguna transacción web en los meses indicados aún son clasificados como “NF”. Esto se explica debido al quinto atributo que se estudia, que corresponde al número de tarjetas en el mes T. X4 Número de Tarjetas de Crédito en el mes T Valores Promedio de x4 Máx de x4_2 Mín de x4_3 Desvest de x4_4 Var de x4_5
F 7,14599E-‐05 0,074175371 0 0,002302295 5,30056E-‐06
NF Total general Delta (F-‐NF)/F 0,096759006 0,074175371 -‐135303% 1 1 -‐1248% 0 0 0% 0,052774929 0,061722357 -‐2192% 0,002785193 0,003809649 -‐52445%
Es en este criterio donde se aprecia la mayor diferencia entre aquellos que fugan y aquellos que no fugan. Como se verifica con los números, aquellos clientes que “No Fugan” tienen un número muchísimo mayor de tarjetas de crédito que aquellos que si se fugan. De hecho, el valor máximo (normalizado) es considerablemente mayor de igual manera, aunque sin embargo se tienen clientes que no poseen tarjetas de crédito y que sin embargo fueron clasificados como “NF”. Aquí juega un rol muy importante los otros atributos, relacionado a las transacciones web. Aquellos clientes que no poseen tarjetas de crédito si realizaron muchas transacciones web:
16
Estos casos corresponden a todos los clientes que no tenían tarjetas de créditos pero que si fueron clasificados como “NF”, notar el gran numero de transacciones web que realizaron en los meses T, T-1 y T-2. Por otro lado para el caso opuesto que corresponde a aquellos clientes que no realizaron ninguna transacción en los meses señalados pero que fueron clasificados como “NF” notar el número de tarjetas activas en T:
Esta imagen corresponde a tan solo una muestra de estos casos. Todos aquellos que presentaban estas características y que fueron clasificados como NF presentaban índices relativamente altos de x4 o “tarjetas de crédito en T”. Por lo tanto, para resumir:
Número de Tarjetas en T Transacciones en T, T-1 y T-2 Criterio Total
Clientes que “Fugan” ~0 ~0
Clientes que “No Fugan” Mayor que 0 Mayor que 0
Por lo general cumplen Por lo general cumplen 1 o ambas anteriores ambas de las anteriores 23% 77%
17
7. Acciones y Recomendaciones Dado que el objetivo consiste en retener a los clientes fugitivos, las acciones de la empresa deben estar orientadas a aquellos clientes que presenten las características que comparten aquellos clientes que se han fugado en el pasado. Como se hablaba anteriormente en el capítulo 6, los clientes que son más propensos a fugarse comparten dos características: • No tienen tarjetas de crédito con el banco • No han realizado transacciones web en los últimos 3 meses Por lo tanto, las acciones van a estar centradas de tal manera que los clientes más riesgosos sean inducidos a tomar tarjetas de crédito y realicen transacciones web. Con este propósito en mente, se proponen las siguientes acciones comerciales por parte de la empresa: 7.1 Beneficios apertura de cuenta de tarjetas de crédito Esta propuesta apunta a que aquellos clientes que no tienen tarjetas de crédito con la compañía para que abran una antes de que fuguen. Estos beneficios se obtendrían al abrir una cuenta y pueden ser por ejemplo descuentos en la primera compra, cupos más grandes, tasas más bajas, premios (iPad, cámaras, TV, según el tipo de cliente), etc. Es importante considerar que ofertas entrega la competencia para cuidar de que sean igualmente atractivas o mejor aún. 7.2 Sistema de puntos por utilización Esta propuesta apunta a aquellos clientes que hoy poseen una tarjeta evitando que la cierren en el futuro. Consiste en un sistema de puntos los cuales los clientes acumulan al realizar compras. Estos puntos pueden ser canjeados por premios, KM Lanpass, etc, una vez que hayan alcanzado la cuota correspondiente a cada uno. El objetivo es que los clientes no solo se motiven a utilizar más su tarjeta para acumular más puntos, sino que además no la cierren para evitar perder sus perderlos. 7.3 Tarjetas preferenciales o “Black Cards” Esta estrategia apunta tanto a clientes que ya tienen tarjeta como también a tarjetas nuevas. Consiste en crear una categoría de tarjetas adicional la cual le brinde a sus clientes beneficios adicionales. De esta manera, se le puede ofrecer este servicio tanto a clientes sobresalientes (según antigüedad o volúmenes de compra) como también a nuevos clientes o clientes que deseen cerrar su cuenta. Algunos de estos beneficios pueden ser tasas reducidas, mayores cupos, seguros adicionales sin costo, descuentos exclusivos, subscripción a Netflix gratuita, etc.
18
7.4 Seguros y respaldos para transferencias web Tanto esta propuesta como la siguiente apuntan a incrementar el uso de las transferencias web, de acuerdo a la relevancia descubierta al analizar los clientes que se fugan. El objetivo de esta medida es evitar que algunos clientes se desmotiven a realizar transferencias web producto de la desconfianza que esta les pueda generar. Para hacerlos sentir mas seguros al utilizar esta herramienta, se les puede ofrecer seguros o respaldos que los protejan en el caso de que hipotéticamente sus datos caigan en las manos equivocadas. Por ejemplo mediante la creación de “tarjetas virtuales” que se puedan crear desde la página del banco las cuales tengan un cupo determinado y permitan solo realizar un solo giro, o mediante alianzas con externos como PayPal los cuales evitan que los datos caigan en manos de terceros cuando se realizan compras por internet. De esta manera se crea más confianza en los clientes motivándolos a utilizar más y más esta herramienta. 7.5 Servicios de pago automático de cuentas Esta herramienta facilita el pago de cuentas mediante el uso de la tarjeta de crédito a través de internet. De esta manera los clientes pueden subscribir el pago automático de las cuentas más utilizadas ahorrándoles tiempo mes a mes cuando se realicen los pagos correspondientes. Algunos de los servicios que los clientes podrán subscribir son los servicios básicos (agua, luz, gas, TV), colegios, gimnasios, diarios, autopistas, etc. La idea es que los clientes subscriban sus pagos, y en caso de que se cierren su tarjeta deberán repactar cada una de estas cuentas, desmotivándolos a cerrar esta. Para lograr que los clientes subscriban sus cuentas se les pueden ofrecer facilidades como por ejemplo que vaya una ejecutiva a domicilio, acumulación de puntos, descuentos los primeros meses, etc.
19
8. Conclusiones En primer lugar se determinó que la mejor forma de poner a prueba los diversos métodos que existen para realizar predicciones consiste en buscar el mejor AUC de todos, debido a que considera tanto la tasa de éxitos como de fracasos. De todos modos se tuvo en cuenta la Accuracy y se analizaron otros elementos de análisis. De esta forma se puso a prueba cada modelo de predicción, y, realizando variaciones en los parámetros, se llegó a la conclusión que el mejor modelo fue el de Regresión Logística debido a que este método nos entrego un AUC bastante bueno (0.856) el cual solo estaba por debajo del de Red Neuronal, sin embargo se eligió este método y no Red Neuronal puesto que al ser muy parecidos se paso a analizar el segundo factor que considero para decidir si un método era o no el mejor para decidir fue el accuracy de los métodos, y en estos se noto que aun que el accuracy de Red Neuronal fue más alto también, no predecía de buena manera los clientes fugados que son los que estamos tratando de predecir, este predecía solo con alrededor de un 47% de veracidad los clientes fugados, en cambio Regresión Logística que tenía un accuracy mas bajo, predecía de mucho mejor manera los clientes fugados (alrededor de un 80%) por lo que se estimo conveniente elegir Regresión Logística. Una vez que se determinó el método más indicado para predecir, éste se utilizó con un conjunto de alrededor de 4000 clientes, y se llegó a la conclusión que alrededor de un cuarto de estos se va a fugar. Para evitar que estos efectivamente se fuguen, se analizó las características de aquellos clientes que presentaban un mayor riesgo de fugarse, y se encontró en primer lugar que los clientes que tienen tarjetas de crédito es muy poco probable que se fuguen. Lo mismo ocurre con aquellos que han realizado transferencias web en los últimos tres meses, quienes son los menos propensos a irse. Aquellos que no tienen tarjetas de crédito y que por otro lado no han realizado transacciones web son los que de acuerdo al modelo tienen la mayor probabilidad de fugarse. En vista de lo descubierto tras analizar el modelo, se elaboró un plan de fidelización que considera 5 propuestas para evitar que los clientes fuguen. Este plan considera propuestas tanto para asegurar las existencia de tarjetas de crédito como también el uso de transferencias web, debido a que se determinó que estaban directamente ligadas a la tasa de fugas. Quedaría como propuesta llevar a cabo estas medidas en conjuntos de prueba para estudiar su efectividad antes de ser llevadas a cabo con la totalidad de clientes predichos como más vulnerables.
20
9. Anexos A continuación se muestran los resultados obtenidos para los métodos de regresión logística, K-vecinos más cercanos, naive bayes, árbol de decisión y red neuronal
Regresión Logística: Kernel Type: Dot C = 0.01
21
C = 0.1
C = 1
22
C = 10
C = 50
23
Kernel Type: Polinomial C = 0.01
C = 0.1
24
C = 1
C = 10
25
Kernel Type: Gaussian Combination C = 1
K-‐Vecinos más cercanos: K = 1
26
K = 5
K = 10
27
Naive Bayes:
Con Corrección de Laplace:
Sin Corrección de Laplace:
28
Árbol de Decisión: Information_Gain Maximal Depth: 5
Maximal Depth: 10
29
Maximal Depth: 20
Gini_Index: Maximal Depth: 5
30
Maximal Depth: 10
Maximal Depth: 20
31
Redes Neuronales: Con Decay Ciclo Entrenamiento: 500 Tasa de aprendizaje: 0,3 Momentum: 0,2
32
Sin Decay: Ciclo Entrenamiento: 500 Tasa de aprendizaje: 0,3 Momentum: 0,2
Ciclo Entrenamiento: 250 Tasa de aprendizaje: 0,3 Momentum: 0,2
33
Ciclo Entrenamiento: 1000 Tasa de aprendizaje: 0,3 Momentum: 0,2
Ciclo Entrenamiento: 1000 Tasa de aprendizaje: 0,5 Momentum: 0,2
34
Ciclo Entrenamiento: 2000 Tasa de aprendizaje: 0,8 Momentum: 0,2
35