¿Qué ocurre cuando se desea usar la regresión lineal múltiple para explicar eventos cualitativos?
Modelos de variable dependiente binaria
Introducción
Desarrollo
Una variable dependiente binaria: El modelo de probabilidad lineal (MPL) Se parte de la función de regresión poblacional. �� =��0 +��1��1 +��2��2+...+�������� +��[1] Como �� solo puede toma dos valores, los ���� no pueden interpretarse como un cambio en �� dado un aumento de ����, ceteris paribus En este caso, �� cambia de cero a uno o no cambia. Partiendo del supuesto de media condicional cero ��(��|��1,��2,...,����)= 0, tenemos: ��(��|��)=��0 +��1��1 +��2��2+ +�������� +��[2] El punto clave es que �� es una variable binaria que toma valores de cero y uno, entonces tenemos que ��(�� =1|��)=��(��|��): la probabilidad de “éxito”. Por lo tanto: ��(�� =1|��)=��0 +��1��1 +��2��2+...+�������� +��[3] La ecuación [3] muestra que la probabilidad de éxito, ��(��) =��(�� =1|��), es una función lineal de las variables ����. A esta ecuación también se le conoce como la probabilidad de respuesta. Dado que, las probabilidades deben sumar uno, ��(�� =0|��)=1 ��(��=1|��), es también una función lineal de las ���� Por lo tanto, un modelo de regresión lineal múltiple en el que la variable dependiente es una variable binaria se le conoce como: modelo de probabilidad lineal (MPL) debido a que la probabilidad de respuesta es lineal a los parámetros ����. En el MPL, los ���� miden la variación de la probabilidad de éxito al variar ����, ceteris paribus: ����(��= 1|��)=����������[4]
El caso más sencillo es un evento del tipo binario, por lo cual, la variable dependiente �� toma valores de cero y uno (Wooldridge 2009). Por ejemplo, �� puede indicar si una persona trabaja o no trabaja, si una empresa exporta o no o, si una empresa es grande o pequeña, si un trabajador está capacitado en algún ámbito de conocimiento o no, entre otros aspectos. En cualquier caso, se puede especificar que �� =1 representa uno de los resultados, en tanto, que ��= 0 denota el otro resultado. Esta diferencia entre 0 y 1 también podría pensarse como éxito y fracaso En cada estudio se debe especificar qué representa el éxito y qué el fracaso.
•
Las limitaciones del MPL se superan con modelos de respuesta binaria más de respuesta binaria, el interés principal yace en la probabilidad de respuesta: ��(�� =1|��)=��(��=1|��1,��2,...,����)[6]
• El efecto parcial de cualquier variable explicativa (si aparece en la ecuación en su nivel) es constante.
Ensofisticados.unmodelo
Modelos Logit y Probit para la respuesta binaria
•
Límites del MPL • Las dos desventajas más importantes de este modelo es que las probabilidades ajustadas pueden ser menores que cero o mayores que uno, lo cual, presenta respuesta no acotadas al rango de la probabilidad.
•
Donde �� denota el conjunto total de variable explicativas. Por ejemplo, �� podría contener varias características individuales como los años de educación, edad, estado civil, etc., que afecta, por ejemplo, la condición de empleo, para lo cual se considera una variable binaria para representar la participación reciente de una persona en un programa de empleo.
El modelo de regresión lineal múltiple permite estimar el efecto de diversas variables explicativas sobre un evento cualitativo. Entonces se estima los parámetros por el método de Mínimos Cuadrados Ordinarios MCO como se procedió con la regresión lineal simple (RLS) y la regresión lineal múltiple (RLM): �� ̂ =�� ̂ 0 +�� ̂ 1��1 +�� ̂ 2��2+ +�� ̂ ������[5] Donde: �� ̂: es la probabilidad de éxito predicha �� ̂ 0: es la probabilidad de éxito cuando cada una de las ���� =0 �� ̂ 1: mide la variación de la probabilidad de éxito predicha cuando ��1 aumenta en una unidad, mientras las demás variables independientes permanecen constantes. �� ̂ ��: mide la variación de la probabilidad de éxito predicha cuando ���� aumenta en una unidad, mientras las demás variables independientes permanecen constantes. Para especificar e interpretar correctamente un MPL se debe conocer qué constituye en el éxito. Así, se recomienda que la variable dependiente describa el nombre del evento cuando �� =1 Por ejemplo, si estudiamos los determinantes del empleo, la variable �� debe llamarse empleo. Por lo tanto, si una persona está empleada se le asignará el valor de 1 y si está desempleada el valor de 0.
•
Esta elección de ��( ) asegura que 0< ��(�� =1|��)<1 para todos los valores de los parámetros y, las ���� Las funciones ��( ) de Logit y Probit son crecientes. Cada una aumenta con más rapidez en ��=0, ��(��)→0 a medida que ��→ ∞ y, ��(��)→1 a medida que ��→ ∞
Especificación del modelo Logit y Probit
En el MPL la probabilidad de respuesta es lineal al conjunto de parámetros, ����. Para evitar las limitaciones del MPL se considera una clase de modelos de respuesta binaria de la forma: ��(�� =1|��)=��(��0 +��1��1 +��2��2+ +��������)=��(��0 +����)[7] Donde ��(.) es una función que asume valores únicamente en el rango de entre 0 y 1. Es decir, 0<��( )<1 para todos los números reales ��. Esto asegura que las probabilidades de respuesta estimadas estén estrictamente entre cero y uno. Note que: ����=��1��1 +��2��2+ +�������� Se especifican varias funciones no lineales para la función ��(.) a fin de asegurar que las probabilidades estén entre cero y uno. En el Modelo Logit, la función ��(.) se denomina función logística: ��(��)= ������(��) [1+������(��)] = ���� [1+����]=��(��)[8] La cual, genera resultados que están acotados entre cero y uno para todos los números reales ��. Esta es la función de distribución acumulada (FdA) para una variable aleatoria logística estándar. En el Modelo Probit, ��( ) es la función de distribución acumulada normal estándar (FdANE) que se expresa de la siguiente forma: ��(��)=��(��)≡∫ �� �� ∞ (��)����[9] Donde: • ��(��) es la función de densidad normal estándar ��(��)=(2��) 1/2������( ��/2)= �� ��/2 √2�� [10]
Uno de los objetivos de los modelos de respuesta binaria es explicar los efectos de las ���� sobre la probabilidad de respuesta ��(�� =1|��) Sin embargo, la fórmula de la variable latente tiende a dar la impresión de que lo que principalmente interesa son los efectos de cada ���� sobre ��∗. Hay que aclarar que en los modelos Logit y
Aquí se introduce la notación 1[��∗ >0] para definir un resultado binario. Esta función es la función indicador que asume el valor de uno si el evento dentro de los corchetes es verdadero y cero si es falso, Entonces tenemos: �� =1[��∗ >0][12]
Los modelos Logit y Probit pueden derivarse a partir de un modelo de variable latente subyacente.
Sea ��∗ una variable inobservable, o latente determinada por: ��∗ =��0 +����+��,�� =1[��∗ >0][11]
�� =0[��∗ ≤0] Se supone así que �� es independiente de �� y que �� tiene una distribución logística estándar o normal estándar. En cualquier caso, �� se distribuye simétricamente en torno a cero, esto significa que 1 ��( ��)=��(��) para todos los números reales de ��. Se tiende a favorecer el supuesto de normalidad para ��, por lo cual, el modelo Probit es más popular que el Logit. Además, varios problemas de especificación se analizan fácilmente mediante el modelo Probit debido a las propiedades de la distribución normal.
Dado estos supuestos podemos calcular la probabilidad de respuesta para ��: ��(�� =1|��)=��(��∗ >0|��)=��(�� > (��0 +����)|��)=�� ��[ (��0 +����)]=��(��0 +����)[13]
Como la variable latente pocas veces tiene una unidad de medición definida, las magnitudes de cada ���� no son útiles por sí mismas, a diferencia de las magnitudes calculadas por el MPL. Entonces para la mayoría de los casos, se requiere estimar el efecto de ���� sobre la probabilidad de éxito ��(�� =1|��), lo cual, se conoce como efecto parcial. Esta estimación, se complica por la naturaleza no lineal de ��(.). Esto nos lleva a definir tres casos de efectos parciales: Variables aproximadamente continuas: Para hallar el efecto parcial de las variables aproximadamente continuas sobre la probabilidad de respuesta se recurre alsiguiente cálculo: Si ���� es una variable aproximadamente continua, su efecto parcial sobre ��(��)= ��(�� =1|��) se obtiene de la siguiente derivada parcial: ∂��(��) ∂���� =��(��0 +����)����[15] Donde: ��(��)≡ ���� ����(��)[16] Debido a que ��(.) es la función de densidad acumulada (FdA) de una variable aleatoria continua, �� es la función de densidad de probabilidad. En los casos de Logit y Probit, ��( ) es una FdA estrictamente creciente y, por lo tanto, ��(��)>0∀�� Así, el efecto parcial de ���� sobre ��(��) depende de �� a través de la cantidad positiva ��(��0 +����). Esto significa que el efecto parcial siempre tiene el mismo signo que ����. La ecuación de la derivada parcial muestra que los efectos relativos de cualquiera de las variables explicativas continuas no dependen de ��, la razón de los efectos parciales de ���� y ��ℎ es: ���� ��ℎ . Se puede considerar que el caso típico se presenta cuando �� es una densidad simétrica en torno a cero con una única moda en cero, por lo cual, el mayor efecto ocurre cuando ��0 +���� =0 Cuando la variable explicativa es binaria Entonces el efecto parcial de cambiar ��1 de cero a uno, manteniendo constante todas las demás variables independientes, es así: ��(��0 +��1 +��2��2+...+��������) ��(��0 +��2��2+...+��������)[17] De nuevo, esto depende de todos los valores de las otras ����. Por ejemplo, si �� es un indicador de empleo y ��1 es una variable binaria que indica la participación de un individuo en un programa de capacitación laboral, entonces se interpreta como el cambio en la probabilidad de empleo debido a este programa de capacitación.
Probit se analiza la dirección de los efectos de ���� sobre ��(��|��)=��(�� =1|��)= ��(��0 +����) Debido a que: ��(��∗|��)=��0 +����[14]
Estimación de máxima verosimilitud de los modelos Logit y Probit Para estimar los modelos de variables dependientes limitadas, lo métodos de estimación de máxima verosimilitud (EMV) son indispensables. Como la EMV está basada en la distribución de �� dada ��, la heterocedasticidad en ������(��|��) automáticamente se toma en cuenta. Suponiendo que se tiene una muestra aleatoria de tamaño ��. Para obtener el estimador de máxima verosimilitud, condicional sobre las variables explicativas, es necesario considerar la densidad de ���� dada ����. Esto se escribe como: ��(��|����;��)= [��(������)]��[1 ��(������)]1 ��,��=0,1[19] Para simplificar, se incluye el intercepto en el vector ����. La función logverosimilitud para cada observación �� es una función de los parámetros y los datos (����;����) Al aplicar el logaritmo a la anterior ecuación tenemos: ℓ��(β)=����������[��(������)]+(1 ��)������[1 ��(������)][20]
Esto depende de las demás características que afectan la posibilidad de obtener el empleo, como la educación y la experiencia. Observe que saber el signo del ��1 es suficiente para determinar si el programa tuvo un efecto positivo o negativo. No obstante, para hallar la magnitud del efecto, se tiene que estimar la cantidad usando la anterior ecuación [17].
Como ��(.) está estrictamente definida entre cero y uno para Logit y Probit, ℓ��(β) está bien definida para todos los valores de �� La log verosimilitud para un tamaño de muestra �� se obtiene al sumar todas las observaciones de la ecuación anterior: ℒ��(β)=Σ��=1 �� ℓ��(β)[21] La EMV de �� se denotada como �� ̂ que maximiza la log verosimilitud. Si ��(.) es la FdA Logit estándar, entonces �� ̂ será el estimador Logit. En tanto que si ��( ) es la FdA normal estándar entonces �� ̂ será el estimador Probit. Interpretaciones de las estimaciones Logit y Probit
Las estimaciones de los coeficientes, sus errores estándar y el valor de la función de log verosimilitud se pueden obtener mediante todos los paquetes de software (STATA, R, entre otros) que realicen los modelos Logit y Probit.
Los coeficientes dan los signos de los efectos parciales de cada ���� sobre la probabilidad de respuesta. La significancia estadística de ���� es resultado de la contrastación de la prueba de hipótesis ��0:���� = 0 a un nivel de significancia determinado 1%, 5% y 10%, si esta se rechaza, entonces el estimador es significativo
Cuando la variable explicativa es discreta Por ejemplo, el número de bienes vendidos. Si ���� denota esta variable, el efecto sobre la probabilidad de que ���� cambie de ���� a ���� +1 es simplemente: ��[��0 +��1��1 +��2��2+...+����(���� +1)] ��[��0 +��1��1 +��2��2+...+��������][18]
Un método diferente para calcular un factor escalar elude la cuestión de qué valores se deben insertar en las variables explicativas. En lugar de ello, el segundo factor escalar resulta al promediar los efectos parciales individuales a través de la muestra, lo cual genera el llamado efecto parcial promedio (EPP)
al nivel especificado. Existen varias medidas de bondad de ajuste como pseudo Rcuadradas MacFadden (1974) o porcentaje predicho correctamente. Efecto parcial promedio y el efecto parcial en el promedio Estos modelos buscan estimar los efectos de las ���� sobre las probabilidades de respuesta, ��(�� =1|��). Si ���� es aproximadamente continua teníamos: ����̂(�� =1|��) ≈[��(�� ̂ 0 +����̂)�� ̂ ��]������[22] Para pequeños cambios en ����. Así que, cuando ������ =1 el cambio en la probabilidad de éxito es aproximadamente ��(�� ̂ 0 +����̂)�� ̂ ��. En comparación con el MPL, en la ecuación anterior los efectos parciales de los modelos Probit y Logit son más difíciles de resumir debido a que el factor de escala ��(�� ̂ 0 +����̂)depende de ��. Una posibilidad para resolver esta dificultad es insertar valores para las ���� (medias, medianas, mínimos, máximos, cuartíles, etc.) y, ver como cambia ��(�� ̂ 0 +����̂). No obstante, a pesar de ser un proceso atractivo es tedioso y puede dar como resultado demasiada información, aún si el número de variables explicativas es Paramoderado.obtener las magnitudes de los efectos parciales es útil tener un factor escalar único que se pueda multiplicar con cada �� ̂ �� (o al menos aquellos coeficientes de variables aproximadamente continuas). Un método que suele usarse en paquetes econométricos es reemplazar cada variable explicativa con su promedio muestral. El factor de ajuste es: ��(�� ̂ 0 +����̂)=��(�� ̂ 0 +�� ̂ 1��1 +�� ̂ 2��2+ +�� ̂ ������)[23]
Por ejemplo, para una variable aproximadamente continua el EPP es:
Donde: ��(.) es la densidad normal estándar (��) para el Probit y, ��(��)= ������(��) [1+������(��)]2 para Logit. Cuando a la ecuación anterior se multiplica por �� ̂ �� obtenemos el efecto de ���� para la persona promedio en la muestra. Por lo tanto, si se multiplica el coeficiente ���� por la ecuación [23], se obtiene el efecto parcial en el promedio (EPeP). Existen dos problemas con el uso del EPeP. Primero, si alguna de las variables explicativas es discreta, sus promedios no representan a nadie en la muestra. Por ejemplo, si ��1 =�������������� y, si el 47.5% de la muestra son mujeres ¿Qué sentido tiene insertar ��1 =0.475 para representar a la persona “promedio”? Segundo, si una variable explicativa continua aparece como función no lineal, por ejemplo, como un log natural o cuadrática, no es claro si se quiere promediar la función no lineal o insertar el promedio en la función no lineal. Por ejemplo, ¿Se debe usar el promedio del logaritmo de las ventas o el logaritmo del promedio de las ventas para representar el tamaño promedio de la empresa? Los paquetes econométricos se quedan con el primer caso, el paquete está programado para calcular los promedios de los regresores incluidos en la estimación Probit o Logit.
�� 1����=1 �� [��(�� ̂ 0 +����̂)�� ̂ ��]=�� 1����=1 �� [��(�� ̂ 0 +����̂)]�� ̂ ��[24] El término que se multiplica a �� ̂ �� actúa como un factor escalar: �� 1����=1 �� [��(�� ̂ 0 +����̂)][25] Los factores escalares que sirven para obtener el EPP y EPeP que fueron detallados anteriormente no se aplican para las variables explicativas discretas. Es su lugar, se debe estimar directamente el cambio de probabilidad. 0Para un cambio ���� de ���� a ���� +1, es análogo al efecto parcial en el promedio: ��[�� ̂ 0 +�� ̂ 1��1+ +�� ̂ �� 1���� 1 +�� ̂ ��(���� +1)] ��[�� ̂ 0 +�� ̂ 1��1+ +�� ̂ �� 1���� 1 +�� ̂ ������][26] El efecto parcial promedio es: �� 1����=1 �� (��[�� ̂ 0 +�� ̂ 1����1+ +�� ̂ �� 1������ 1 +�� ̂ ��(���� +1)] ��[�� ̂ 0 +�� ̂ 1����1+...+�� ̂ �� 1������ 1 +�� ̂ ������])[27] La función anterior se puede interpretar de forma particular cuando ���� es binaria. Para cada unidad ��, se estima la diferencia predicha en la probabilidad de que ���� = 1 cuando ���� =1 y ���� =0, de la siguiente forma: ��[�� ̂ 0 +�� ̂ 1����1+...+�� ̂ �� 1������ 1 +�� ̂ ��] ��[�� ̂ 0 +�� ̂ 1����1+...+�� ̂ �� 1������ 1][28] Para finalizar, es importante contar con un tipo de efecto marginal que sea interpretable para los modelos no lineales Logit y Probit Cierre Los modelos de respuesta binaria expanden el análisis de la regresión para tener en cuenta los eventos cualitativos en la variable dependiente ��. Hemos aprendido que los límites del MPL se pueden superar mediante el uso de modelos más sofisticados para obtener los estimadores betas. Para lo cual, se requiere aplicar el método de estimación de máxima verosimilitud. Su implementación asegura que los valores ajustados se encuentren únicamente en el rango de cero y uno. Con lo cual, se asegura una interpretación ceteris paribus del tipo de probabilidad.
Bibliografía Wooldridge, Jeffrey M. 2009. Introductory econometrics: a modern approach. 4th ed. Mason, OH: South Western, Cengage Learning.