INTRODUCCIÓN AL ANÁLISIS DE VARIABLES LATENTES (casos) II Dr. Erwin Kraenau E.
APLICACIÓN 5 El interés es estudiar el comportamiento de consumo de alcohol entre los adultos. En lugar de conceptualizar el comportamiento de consumo como una variable continua, se conceptualiza como la formación de distintas categorías o tipologías. ¿Cree Ud. que la gente cae en distintos grupos de alcohol?. Puesto que no se puede medir directamente, esta es una variable latente. Sin embargo. se tiene una serie de indicadores que se cree útiles para clasificar a las personas en categorías diferentes. Utilizando estos indicadores quisieramos:
APLICACIÓN 5 (Objetivos del Estudio) 1. Crear un modelo que permita clasificar a estas personas en diferentes tipos de bebedores. 2. Ser capaz de clasificar a la gente en cuanto a qué tipo de bebedor que son. 3. Obtener el número de personas en cada tipo de bebedor. 4. Determinar si el número de clases latentes es el número correcto de clases (es decir, hay sólo dos tipos de bebedores o tal vez hay hasta cuatro tipos de bebedores).
APLICACIÓN 5 (Descripción de las Variables) Se tiene un archivo de datos (lca1.txt) que contiene nueve medidas acerca de la conducta de beber. Para cada medida. la persona se pregunta si la descripción se aplica a sí mismo (sí o no). Las 9 medidas son: 1. Me gusta beber 2. Bebo licor fuerte 3. He bebido por la mañana 4. He bebido en el trabajo 5. Bebo para emborracharme 6. Me gusta el sabor del alcohol 7. Bebo para ayudarme a dormir 8. El beber interfiere con mis relaciones 9. Visito con frecuencia bares
APLICACIÓN 5 (Estrategias) • Análisis de Conglomerados - Se podría utilizar el análisis de conglomerados de datos como éstos. Sin embargo. el análisis de conglomerados no se basa en un modelo estadístico. Esto le puede decir cómo los casos se agrupan en grupos, pero no proporciona información como la probabilidad de que una determinada persona pertenezca a una clase. Además, el análisis de conglomerados no proporciona información, tales como: dado que alguien dijo "sí " a beber en el trabajo, ¿cuál es la probabilidad de que pertenezca a un grupo o clase específica?.
• Análisis factorial – Se puede tener la tentación de utilizar un análisis factorial, ya que es una técnica utilizada con variables latentes. Sin embargo, el análisis factorial se utiliza para las variables latentes continuas y por lo general normalmente distribuidas.
SINTAXIS EN MPLUS
RESULTADOS EN ESCALA DE PROBABILIDAD
ITEM1 ITEM2 ITEM3 ITEM4 ITEM5 ITEM6 ITEM7 ITEM8 ITEM9
Class 1 0.908 0.337 0.067 0.065 0.219 0.320 0.113 0.140 0.325
Class 2 0.312 0.164 0.036 0.056 0.044 0.183 0.098 0.110 0.188
Class 3 0.923 0.546 0.426 0.418 0.765 0.471 0.512 0.619 0.349
Etiqueta del Item Me gusta beber Bebo licor fuerte He bebido en la ma単ana He bebido en el trabajo Bebo para emborracharme Me gusta el sabor del alcohol Bebo para ayudarme a dormir El beber interfiere con mis relaciones Visito con frecuencia bares
RESULTADOS EN ESCALA DE PROBABILIDAD
• Contiene las probabilidades condicionales. • Por lo tanto, si alguien pertenece a la Clase 1, tiene una probabilidad del 0.908 de decir "sí, me gusta beber". Por el contrario, si alguien pertenece a la Clase 2, tiene una probabilidad de 0.312 de decir "sí, me gusta beber".
INTERPRETACIÓN • La clase 3 se puede etiquetar como "alcohólicos". Centrándose sólo en la clase 3, son los que realmente les gusta beber (92%), beber licor fuerte (54,6%), un número bastante grande dicen que ha bebido de la mañana y en el trabajo (42,6% y 41,8% ), y más de la mitad dicen que beber interfiere con sus relaciones (61,9%). • A la clase 2 se les etiqueta como "abstencionistas". No a muchos de ellos les gusta beber (31,2%), muy pocos les gusta el sabor del alcohol (18,3%), son pocos los visitan con frecuencia bares (18,8%), y para el resto de las preguntas que rara vez se respondió "sí". • A la clase 1; se puede ajustar a la idea del "bebedor social“. Les gusta beber (90,8%), pero no beben licor fuerte tan a menudo como la clase 3 (33,7% frente a 54,6%). Rara vez se bebe en la mañana o en el trabajo (6,7% y 6,5%) y rara vez dicen que el beber interfiere con sus relaciones (14%). Ellos dicen que visitan con frecuencia bares similar a la clase 3 (32,5% versus 34,9%).
APLICACIÓN 6: EL USO DEL ANÁLISIS DE CLASES LATENTES EN EL DIAGNÓSTICO DE INFARTO AL MIOCARDIO
• La sensibilidad es la probabilidad de que una persona con la enfermedad será positivo en el indicador, la especificidad es la probabilidad de que una persona sin la enfermedad será negativo en el indicador. La estimación de la sensibilidad y la especificidad depende de un Gold Standard (Patrón de oro) para el diagnóstico. • Rindskopf y Rindskopf (1986) aplicaron el ACL a este problema, y mostró que la sensibilidad y especificidad podría estimarse, en determinadas condiciones, incluso sin un patrón oro.
APLICACIÓN 6 En el estudio hecho por Rindskopf y Rindskopf (1986). Los datos provienen de un estudio de los pacientes ingresados en una sala de emergencia que sufren de dolor en el pecho (Galen y Gambino. 1975). Cada uno de los cuatro indicadores se puntuó de modo que indicaba un infarto de miocardio (IM, comúnmente conocido como ataque al corazón) o no indicaba IM, Los indicadores incluidos son: • historia • electrocardiograma (onda Q invertida), y • dos análisis de sangre (CPK y LDH). Los datos fueron consistentes con un modelo simple de dos clasesLas clases representan a las personas con y sin IM.
SALIDA MPLUS SUMMARY OF CATEGORICAL DATA PROPORTIONS CPK Category 1 Category 2 LDH Category 1 Category 2 HIST Category 1 Category 2 QQ Category 1 Category 2
0.436 0.564 0.606 0.394
0.532 0.468 0.649 0.351
SALIDA MPLUS FINAL CLASS COUNTS AND PROPORTIONS FOR THE LATENT CLASSES BASED ON THE ESTIMATED MODEL Latent Classes 1 43.03381 2 50.96619
0.45781 0.54219
CLASSIFICATION OF INDIVIDUALS BASED ON THEIR MOST LIKELY LATENT CLASS MEMBERSHIP Class Counts and Proportions Latent Classes 1 41 2 53
0.43617 0.56383
SALIDA MPLUS RESULTS IN PROBABILITY SCALE Two-Tailed Estimate S.E. Est./S.E. P-Value Latent Class 1 CPK Category 1 Category 2 LDH Category 1 Category 2 HIST Category 1 Category 2 QQ Category 1 Category 2
0.000 1.000
0.000 0.000
0.000 0.000
1.000 1.000
0.172 0.828
0.070 0.070
2.454 11.804
0.014 0.000
0.209 0.791
0.065 0.065
3.230 12.256
0.001 0.000
0.233 0.767
0.078 0.078
2.989 9.832
0.003 0.000
SALIDA MPLUS Latent Class 2 Two-Tailed Estimate
CPK Category 1 Category 2 LDH Category 1 Category 2 HIST Category 1 Category 2 QQ Category 1 Category 2
S.E. Est./S.E. P-Value
0.804 0.196
0.068 0.068
11.911 2.895
0.000 0.004
0.973 0.027
0.027 0.027
36.596 1.012
0.000 0.311
0.805 0.195
0.063 0.063
12.825 3.108
0.000 0.002
1.000 0.000
0.000 0.000
0.000 0.000
1.000 1.000
SALIDA MPLUS Chi-Square Test of Model Fit for the Binary and Ordered Categorical (Ordinal) Outcomes Pearson Chi-Square Value 4.223 Degrees of Freedom P-Value 0.6466
6
Likelihood Ratio Chi-Square Value 4.293 Degrees of Freedom P-Value 0.6371
6
MODELOS DE RASGOS LATENTES (Latent Trait Models) Tratan de modelar la probabilidad enlazando las variables observadas con un conjunto de variables latentes. La diferencia con el anรกlisis factorial clรกsico es que se tiene una matriz de datos que consiste de items binarios.
OBJETIVOS • Explorar las interrelaciones entre las respuestas observadas • Determinar si estas interrelaciones pueden ser explicadas por un pequeño número de variables latentes • Asignar un puntaje a cada objeto para cada variable latente sobre la base de sus respuestas
APLICACIÓN 7 Este es un conjunto de datos con solo 4 variables extraída de la Investigación de Actitudes Sociales Británicas realizada en 1986 (McGrath y Waterton, 1986). Los datos son las respuestas dadas por 410 individuos para 4 de 7 items referentes de la actitud hacia el aborto. Después de eliminar los valores perdidos, quedaron 379 registros.
APLICACIÓN 7 Para cada item, los encuestados fueron preguntados si la ley debería permitir el aborto bajo las circunstancias presentadas por cada item. Los cuatro items utilizados en el análisis son los siguientes: 1. la mujer decide por su cuenta que no (MUJERDEC) 2. la pareja acuerda en que no desean tener el niño (PAREJADEC) 3. la mujer no está casada y no desea casarse con el hombre (NOCASADA) 4. pareja no puede permitirse tener más hijos (NOPERMIT)
FRECUENCIAS DE PATRONES DE RESPUESTA, ACTITUD HACIA EL ABORTO Patrones de Respuesta 0 0 0 0 0 0 0 1 0 0 1 0 0 0 1 1 0 1 0 0 0 1 0 1 0 1 1 0 0 1 1 1 1 0 0 0 1 0 0 1 1 0 1 0 1 0 1 1 1 1 0 0 1 1 0 1 1 1 1 0 1 1 1 1 Total
Frecuencia 103 13 10 21 9 6 7 44 1 0 0 6 3 3 12 141 379
Si se hiciera un análisis factorial tradicional, se tendrían que calcular las correlaciones (Pearson) entre pares de variables y analizaríamos los resultados. En el caso de los datos binarios miraríamos las asociaciones entre pares de variables construyendo tablas de contingencia de 2 x 2 como por ejemplo:
PAREJADEC NO MUJERDEC NO SI Total
SI
Total
147
66
213
7
159
166
154
225
379
INDICIOS • La tabla de contingencia anterior parece mostrar una fuerte asociación entre los dos primeros items. • Un análisis similar para otros pares de variables producen resultados similares. • Esto conduciría a preguntarnos si esas asociaciones pueden ser atribuidas a uno o mas factores comunes.
PROPUESTA • Para obtener esos factores comunes tal como se plantea el caso, debemos desarrollar un modelo de rasgo latente. • Si se pueden identificar estos factores comunes, podemos calcular puntajes para cada uno de los individuos en las dimensiones latentes.
¿Por qué el modelo del AF para variables métricas no es válido para respuestas binarias? El modelo del Análisis Factorial Exploratorio se escribe como:
Se asume en este modelo que los residuales tienen una distribución normal con media 0 y varianza constante en cada ecuación
¿Por qué el modelo del AF para variables métricas no es válido para respuestas binarias? (cont.)
• Desde que en el modelo anterior las X’s pueden tomar cualquier valor, esto invalida este análisis para variables binarias en particular. • Para salvar este problema se utiliza un modelo apropiado de regresión de cada X sobre las variables latentes. • El método de regresión usual para estos casos (variable respuesta binaria) es el de la regresión logística.
PLANTEAMIENTO DEL MODELO Como xi es binaria, el valor esperado de xi dadas las variables latentes ys, es equivalente a:
Pr xi 1| y i y i y es la probabilidad condicional
Donde que la variable binaria xi sea igual a uno dado los valores de las q variables latentes. Por tanto se debe especificar la forma de la probabilidad i y como una función de las ys
PLANTEAMIENTO DEL MODELO No es adecuado modelar esta probabilidad como:
i y i 0 i 1 y1 i q yq
• Esta probabilidad debe tomar valores entre 0 y 1. • Se podría esperar que la tasa de cambio en la probabilidad de respuesta afirmativa no sea la misma en el rango de las ys . Por lo que una relación curvilínea sería más apropiada.
MODELO FACTORIAL PARA DATOS BINARIOS
El modelo logit se define como: log it i y ln
ó i y
i y i 0 i 1 y1 i q yq 1 i y
exp i 0 i 1 y1 i q yq
1 exp i 0 i 1 y1 i q yq
CASO PARTICULAR Un caso especial ocurre cuando q = 1 . A este caso particular de modelo de rasgo latente se le llama Análisis de Respuesta al Item. El modelo queda establecido como:
i y1
exp i 0 i 1 y1
1 exp i 0 i 1 y1
CURVAS CARACTERÍSTICAS DEL ITEM (incrementando el parámetro de discriminación α1) 1 0.9 0.8 0.7
i (y)
0.6 0.5 0.4 0.3 0.2 0.1 0 -8
-6
-4
-2
0 y
2
4
6
8
CURVAS CARACTERÍSTICAS DEL ITEM (incrementando el parámetro de discriminación α0) 1 0.9 0.8 0.7
i (y)
0.6 0.5 0.4 0.3 0.2 0.1 0 -8
-6
-4
-2
0 y
2
4
6
8
PRESUNCIONES • Independencia condicional. Se verifica con las pruebas de bondad de ajuste del modelo. • La función enlace logit o normit. • Las variables latentes o factores son independientes con distribuciones normales estándar
APLICACIÓN 7 (sintaxis en Mplus) • • • • • • • • • • •
TITLE: MODELO FACTORIAL PARA DATOS BINARIOS DATA: FILE IS ABORTO.dat; VARIABLE: names are MUJERDEC PAREJADEC NOCASADA NOPERMIT; categorical are MUJERDEC PAREJADEC NOCASADA NOPERMIT; ANALYSIS: ESTIMATOR = MLR; MODEL: f BY MUJERDEC-NOPERMIT*; f@1; OUTPUT: TECH1 TECH8; PLOT: TYPE = PLOT3; Savedata: file is ABORTO_save.txt ;
SALIDA DEL MPLUS SUMMARY OF CATEGORICAL DATA PROPORTIONS MUJERDEC Category 1 Category 2 PAREJADE Category 1 Category 2 NOCASADA Category 1 Category 2 NOPERMIT Category 1 Category 2
0.562 0.438 0.406 0.594
0.364 0.636 0.383 0.617
SALIDA DEL MPLUS MODEL RESULTS
Estimate F
BY MUJERDEC PAREJADEC NOCASADA NOPERMIT
Thresholds MUJERDEC$1 PAREJADE$1 NOCASADA$1 NOPERMIT$1
4.188 4.508 5.997 3.488
Two-Tailed S.E. Est./S.E. P-Value
0.767 0.859 1.566 0.582
5.461 5.249 3.828 5.990
0.000 0.000 0.000 0.000
0.759 0.314 2.419 0.016 -1.078 0.364 -2.960 0.003 -2.069 0.587 -3.523 0.000 -1.122 0.299 -3.748 0.000
CURVAS CARACTERÍSTICAS DEL ITEM
SALIDA DEL MPLUS Chi-Square Test of Model Fit for the Binary and Ordered Categorical (Ordinal) Outcomes Pearson Chi-Square Value 18.188 Degrees of Freedom P-Value 0.0112
7
Likelihood Ratio Chi-Square Value 18.936 Degrees of Freedom P-Value 0.0084
7
FRECUENCIAS DE PATRONES DE RESPUESTA MUJERDEC NO NO NO NO NO NO NO NO SI SI SI SI SI SI SI SI
PAREJADEC NO NO NO NO SI SI SI SI NO NO NO NO SI SI SI SI
NOCASADA NO NO SI SI NO NO SI SI NO NO SI SI NO NO SI SI
NOPERMIT NO SI NO SI NO SI NO SI NO SI NO SI NO SI NO SI
Recuento 103 13 10 21 9 6 7 44 1 0 0 6 3 3 12 141
DIAGRAMA DE UN MODELO DE CLASES LATENTES CON UNA COVARIABLE
MODELO DE CLASES LATENTES CON UNA COVARIABLE
Donde: • Yij indica la respuesta del caso i en la variable j, siendo J el número de variables en el modelo. • Xi: representa a la variable latente; t, una clase latente particular, siendo T el número de clases latentes. • Zi indica una variable independiente que afecta la pertenencia a las clases latentes.
Diagrama del modelo de clases latentes con una covariable que afecta las variables observadas (Zp) y otra que afecta a la variable latente (Zc)
Modelo de clases latentes con una covariable que afecta las variables observadas (Zp) y otra que afecta a la variable latente (Zc)
• • • •
Donde: Yij indica la respuesta del caso i en la variable j, siendo J el númerode variables. Xi representa a la variable latente; t, a una clase latente particular,siendo T el número de clases latentes. Zc indica una variable independiente que afecta la pertenencia a las clases latentes. Zp indica una variable independiente predictora que afecta a las variables observadas.
DIAGRAMA DEL MODELO DE CLASES LATENTES CON UNA VARIABLE AGRUPADORA Y DEPENDENCIAS
MODELO DE CLASES LATENTES CON UNA VARIABLE AGRUPADORA Y DEPENDENCIAS
MODELOS DE ECUACIONES ESTRUCTURALES (SEM)
Los modelos de ecuaciones estructurales son una familia de modelos estadísticos multivariantes que permiten estimar el efecto y las relaciones entre múltiples variables. Los modelos de ecuaciones estructurales nacieron de la necesidad de dotar de mayor flexibilidad a los modelos de regresión.
MODELO DE REGRESIÓN SIMPLE
TIPOS DE MODELOS DE ECUACIONES ESTRUCTURALES De acuerdo con su estructura y con la naturaleza de las variables que contienen, hay varios tipos de modelos de ecuaciones estructurales: de trayectoria, factorial confirmatoria, factorial de segundo orden, de regresi贸n estructural, mimic, de crecimiento, entre otros.
MODELO DE TRAYECTORIA RECURSIVO
MODELO DE TRAYECTORIA NO RECURSIVO
¿QUÉ ES EL ANÁLISIS FACTORIAL? • El análisis factorial es una técnica estadística multivariada que se incorpora a la metodología cuantitativa que involucra variables latentes. Estas variables no observables, denominadas frecuentemente constructos, son variables que no pueden medirse de manera directa: se estiman a través de variables manifiestas (observadas). • En el análisis factorial se asume que la variable latente es continua: los individuos pueden ordenarse de mayor a menor nivel del atributo bajo estudio.
OBJETIVO DEL ANÁLISIS FACTORIAL Es estudiar la estructura de correlación entre un grupo de variables medidas, asumiendo que la asociación entre las variables puede ser explicada por una o más variables latentes, que en el caso del análisis factorial se les reconoce como factores. Dicho de otra manera, la correlación entre el grupo de variables se explica por la presencia de los factores subyacentes a ellas.
REPRESENTACIÓN DEL MODELO UNIFACTORIAL
REPRESENTACIÓN DEL MODELO MULTIFACTORIAL
EXPLICACIÓN DE LA ECUACIÓN DEL MODELO DE FACTORES
ANÁLISIS FACTORIAL CONFIRMATORIO El modelo factorial confirmatorio permite explicar la correlación entre variables latentes y la asociación entre cada variable latente y sus correspondientes variables observadas. Como su nombre lo indica, está orientado a confirmar la estructura sugerida por medio del modelo.
MODELO FACTORIAL CONFIRMATORIO
ECUACIÓN ASOCIADA A ESTE MODELO
DIFERENCIAS ENTRE EL DIAGRAMA DE TRAYECTORIAS DE LOS MODELOS DE ANÁLISIS FACTORIAL CONFIRMATORIO Y ANÁLISIS FACTORIAL EXPLORATORIO
Cuestionario de Personalidad Eysenck (EPQ) Neuroticismo/Estabilidad El Neuroticismo o emocionalidad se caracteriza por altos niveles de efectos negativos, como la depresión y la ansiedad. El Neuroticismo, de acuerdo la teoría, está basado en umbrales activados en el sistema nervioso simpático o cerebro visceral. Esta es la parte del cerebro que es responsable de la respuesta enfrentar-evitar de cara al peligro.
ÍTEMS DEL EPQ-R (neuroticismo) Z1. ¿Su estado de ánimo sufre altibajos con frecuencia?
Z2. ¿Se siente a veces desdichado sin motivo? Z3. ¿A menudo se siente solo?
Z4. ¿Es usted una persona sufridora? Z5. ¿Se inquieta por cosas terribles que podrían suceder?
Z6. ¿Se siente intranquilo por su salud?
Z1 Z2
Z3 Z4 Z5 Z6
z1
z2
z3
z4
z5
z6
1
.529
.352
.294
.210
.146
1
.420
.259
.216
.086
1
.307
.240
.132
1
.276
.218
1
.271 1
63
MINIMIZAR DIFERENCIAS ENTRE LA MATRIZ DE CORRELACIONES OBSERVADA Y LA REPRODUCIDA F1
F2
Z1
?
?
Z1
Z2
?
?
Z2 .526
Z3
?
?
Z4
?
Z5
?
Z6
z1
z2
z3
z4
.529
.352
.294
.210 .146
.420
.259
.216 .086
.307
.240 .132
Z3 .364
.419
?
Z4 .277
.275
.271
?
Z5 .230
.205
.241
.288
? ? MUCHAS SOLUCIONES POSIBLES
Z6 .133
.084
.161
.231
r*\r
3 factores?
z6
.276 .218
.271 .251
Z1 Z2 .003
1 factor?
2 factores?
z5
Resid ual
Z3 -.012
.001
Z4 .017
-.016
.036
Z5 -.021
.011
-.001
-.012
Z6 .014
.002
-.029
-.013
.021
64
ANÁLISIS FACTORIAL EXPLORATORIO a Matriz de configuración.
Matriz de correlaciones entre los factores Factor 1 2
1 1.000 .473
2 .473 1.000
Método de extracción: Máxima verosimilitud. Metodo de rotación: Normalización Oblimin con Kaiser.
Factor z1 (altibajos) z2 (desdichado) z3 (solo) z3 (sufridora) z5 (cosas terribles) z6 (salud)
1 .628 .866 .453 .189 .073 -.078
2 .064 -.121 .185 .424 .505 .509
Método de extracción: Máxima verosimilitud. Metodo de rotación: Normalización Oblimin con Kaiser. a. La rotación ha convergido en 5 iteraciones.
¿Su estado de ánimo sufre altibajos con frecuencia? ¿Se siente a veces desdichado sin motivo? ¿A menudo se siente solo? ¿Es usted una persona sufridora? ¿Se inquieta por cosas terribles que podrían suceder? ¿Se siente intranquilo por su salud?
z1 = .628 * F1 + .064 * F2 + E1 z2 = .866 * F1 - .121 * F2 + E2
z3 = .453 *F1 + .185 * F2 + E3 z4 = .189 * F1 + .424 * F2 + E4
z5 = .073 * F1 + .505 * F2 + E5 z6 = .078 * F1 + .509 * F2 + E665
MODELO EXPLORATORIO
REPRESENTACIÓN: F1
z1
z2
E1
Cuantos factores? Criterio para la Rotación?
E2
z3
E3
z4
E4
F2 z5
z6
E5
E6
66
z1
F1
z2
z3
z4
E1
E2
z6
Factor 1
Factor 2
Z1
0.694
0
Z2
0.736
0
Z3
0.565
0
Z4
0
0.590
Z5
0
0.520
Z6
0
0.383
E3
E4
F2 z5
MODELO CONFIRMATORIO
E5
E6
rF1F2=0.631
67
z1
E1
MODELO REPLANTEADO F1
z2
z3
z4
E2
z6
Factor 2
Z1
0
0
Z2
X
0
Z3
X
X
Z4
X
X
Z5
X
X
Z6
X
X
E3
E4
F2 z5
Factor 1
E5
E6
rF1F2= 0
68
AFE VERSUS AFC SIMILITUDES • Técnica de reducción de dimensionalidad: Se buscan (pocos) factores comunes que expliquen la matriz de varianzas covarianzas. • Muchos procedimientos (p.e.. de estimación) son comunes a AFE y AFC. DIFERENCIAS • No explora la relación entre variables o constructos, sino que las contrasta: - Se supone un número concreto de factores comunes y qué variables empíricas (indicadores) los miden. - Se supone la existencia o no de relación entre los factores. • Se pueden establecer correlaciones entre los términos de error. • No es necesario un método de rotación. 69
IDENTIFICABILIDAD DEL MODELO En un modelo no identificable es imposible obtener de manera única el valor de cada uno de los parámetros libres. Las principales razones por las que se da este problema se deben a que se estipulan dentro del modelo parámetros que por regla general no son estimables.
MÉTODOS DE ESTIMACIÓN La hipótesis básica en un modelo de ecuaciones estructurales se reduce a probar que la matriz de varianzas y covarianzas poblacional es igual a la matriz de varianzas y covarianzas asociada al modelo teórico, esto es: Σ=Σ(θ) donde Σ es la matriz poblacional y Σ(θ) es la matriz asociada al modelo propuesto.
MÉTODOS DE ESTIMACIÓN (cont.) • El objetivo será encontrar θˆ . de tal forma que Σ sea lo más parecido a Σ( θˆ). Partiendo del hecho de que no es posible conocer explícitamente los valores de la matriz de varianzas y covarianzas poblacional (si se conociera no tendría sentido plantearse siquiera un modelo), se utiliza a la matriz de varianzas-covarianzas muestral (S) como estimador de Σ. • La diferencia entre estas dos matrices (S-Σ( θˆ )) se denomina residuo e indica la discrepancia entre lo observado por medio de los datos y las estimaciones arrojadas por el modelo.
FUNCIONES DE AJUSTE
EJEMPLO:COMPONENTES DE LA INTELIGENCIA
• • • • • •
Un investigador ha recogido las notas de 275 alumnos de secundaria en 6 asignaturas: Lengua (L) Filosofía (FSF) Historia (H) Matemáticas (M) Física (FSC) Química (Q)
Asumiendo que las notas de un alumno miden su inteligencia (I), el investigador desearía comprobar si estas se agrupan en dos tipos de inteligencia: • Inteligencia Cuantitativa (IQ) • Inteligencia Verbal (IV)
DIAGRAMA CONCEPTUAL
SINTAXIS AFCInteligencia.pr2 • • • • • • • • • • • • • • • • • • • •
AFC de Inteligencia DA NI=6 NO=275 LA L FSF H M FSC Q KM SY 1 0.493 1 0.401 0.314 1 0.278 0.347 0.147 1 0.317 0.318 0.183 0.587 1 0.284 0.327 0.179 0.463 0.453 1 SD 1.09 0.59 0.98 1.1 0.41 1.11 MO NX=6 NK=2 LX=FU,FI PH=SY,FR TD=SY,FI LK IV IQ VA 1 LX(1,1) LX(4,2) FR LX(2,1) LX(3,1) LX(5,2) LX(6,2) FR TD(1,1) TD(2,2) TD(3,3) TD(4,4) TD(5,5) TD(6,6) OU SC ND=3
SINTAXIS AFCInteligencia1.1.pr2 • • • • • • • • • • • • • •
AFC de Inteligencia Observed Variables L FSF H M FSC Q Latent Variables IV IQ Correlation Matrix 1 0.493 1 0.401 0.314 1 0.278 0.347 0.147 1 0.317 0.318 0.183 0.587 1 0.284 0.327 0.179 0.463 0.453 1 Standard Deviations 1.09 0.59 0.98 1.1 0.41 1.11
• • • • • • • • • •
Relationships L = 1*IV FSF = IV H = IV M = 1*IQ FSC = IQ Q = IQ OPTIONS wp rs ef ss sc mi nd=2 Path Diagram End of Program
BONDAD DE AJUSTE DEL MODELO La hipótesis básica es
Ho: (S=Σ( θ )) • Prueba ji-cuadrada (χ2): donde T = (N-1) Fmin es el estadístico de prueba, se distribuye como una ji-cuadrada con (t (t+1) / 2) - p grados de libertad (donde t = número de parámetros y p = número de variables observadas).
ÍNDICES DE AJUSTE ABSOLUTO • • • •
Evalúan directamente el ajuste del modelo. El índice de bondad de ajuste (GFI = Goodness of Fit Index) El índice ajustado de bondad de ajuste (AGFI = Adjusted Goodness of Fit Index) El índice de aproximación de la raíz de cuadrados medios del error (RMSEA = Root Mean Square Error of Aproximation) y El índice de la raíz del cuadrado medio del residuo (RMR).
ÍNDICES DE AJUSTE ABSOLUTO (cont.) • El índice GFI puede interpretarse como una medida que determina la proporción de varianza explicada por el modelo (como la R2 en regresión lineal). • Si además se consideran los grados de libertad y el número de variables observadas del modelo, se obtiene el índice AGFI. El valor que toman estos dos índices se encuentra entre cero y uno (aunque en casos aislados puede tomar valores negativos). En ambos casos, valores cercanos a uno determinan que el modelo tiene muy buen ajuste. • Uno de los índices más populares es el RMSEA, que sólo puede tomar valores positivos. Un valor menor a 0.05 indica que el ajuste del modelo es bueno aunque es más deseable uno cercano a cero. El RMSEA tiene asociada la prueba de hipótesis: Ho: RMSEA ≤ 0.05 vs Ha: RMSEA > 0.05
LOS ÍNDICES DE AJUSTE DE INCREMENTO Comparan al modelo propuesto con el modelo de independencia, en el cual se asume que no hay asociaciones entre las variables, estos son:
• índice de ajuste normado (NFI = Normed Fit Index), • índice de ajuste no normado (NNFI o TLI = Non Normed Fit Index), • Índice de ajuste comparativo (CFI = Comparative Fit Index), • índice incremental de ajuste (IFI o BL89 = Incremental Fit Index), • índice relativo de ajuste (RFI = Relative Fit Index), • Índice esperado de validación cruzada (ECVI = Expected Cross Validation Index) y • criterio de información de Akaike (AIC = Akaike Information Criterion).
BONDAD DE AJUSTE DEL MODELO
Un punto de corte aceptable para los índices GFI, AGFI, NFI, NNFI, CFI, IFI y RFI es de 0.9.
MODELO DE REGRESIÓN ESTRUCTURAL
APLICACIÓN 8: HABILIDAD MENTAL Nos focalizamos sobre dos sub habilidades de inteligencia fluida, Relaciones de Inducción y Figura 1. • La Inducción relaciona la capacidad de uno para razonar utilizando analogías y reglas de generalización para contextos más comprensivos. • Las relaciones de la Figura1 pertenecen a nuestra habilidad para ver patrones de relaciones entre partes de figuras, mentalmente se rotan, y también utilizan formas de razonamiento inductivo con elemento de la Figura1.
APLICACIÓN 8: HABILIDAD MENTAL Un total de nueve medidas fueron registradas desde una muestra N = 220 estudiantes de secundaria, con una presunción plausible de normalidad para los datos. A continuación se muestran las variables observadas en el estudio:
APLICACIÓN 8: HABILIDAD MENTAL 1. 2. 3. 4. 5.
6. 7. 8.
9.
Puntuación 1 de Inducción obtenido en el primer año (IND1) Puntuación 2 de Inducción obtenido en el primer año (IND2) Puntuación 1 de Inducción obtenido en el primer año (IND3) Puntaje 1 de las relaciones de la Figura1 obtenido en el primer año (FR11) Puntaje 2 de las relaciones de la Figura1 obtenido en el primer año (FR12) Puntaje 3 de las relaciones de la Figura1 obtenido en el primer año (FR13) Puntaje 1 de las relaciones de la Figura1 obtenido en el último año (FR21) Puntaje 2 de las relaciones de la Figura1 obtenido en el último año (FR22) Puntaje 3 de las relaciones de la Figura1 obtenido en el último año (FR23)
ε1*
IND1
ε2*
ε3*
ε4*
ε5*
ε6*
IND2
IND3
FR11
FR12
FR13
1
*
1
*
*
*
ζ2*
* INDUCTN
FIGREL1
*
*
1
FIGREL2
FR21
ε7*
FR22
ε8*
FR23
ε9*
*
*
ζ3*
EL MODELO MIMIC (MULTIPLE INDICATORS AND MULTIPLE CAUSES OF A SINGLE LATENT VARIABLE)
Relaciones causales entre variables โ ข De acuerdo con la definiciรณn general de Bollen (1989). consideremos una variable y1. que estรก aislada de toda influencia excepto de la de una segunda variable x1. Si un cambio en y1 proviene de un cambio en x1. entonces x1 es causa de y1. La definiciรณn de causa tiene tres componentes: aislamiento. asociaciรณn y direcciรณn de la influencia.
• Al observar los elementos en las relaciones causales. se aprecia que lo que hace casi imposible tener absoluta certeza de que una variable es causa de otra es la posibilidad de afirmar que y1 está aislada de cualquiera otra causa. excepto de x1. Aislamiento es un ideal no asequible. Podemos decir que existe un aislamiento cuando x1 y y1 están en un “vacío” que excluye cualquier otra influencia. Mucho del debate sobre el estatus causal de una relación inicia con la interrogante sobre si la asociación entre y1 y x1 no se debe a estos otros factores. • Sin la condición de aislamiento de y1. nunca tendremos la certeza de que x1 causa a y1. Varios estudios experimentales. cuasi experimentales y observacionales. intentan aproximarse a estas condiciones de aislamiento. por medio de alguna forma de procesos de control o de aleatorización.
• En síntesis. hemos tomado una definición de causalidad orientada a los modelos de ecuaciones estructurales. pues se asume necesario contar con tres condiciones: aislamiento. asociación y dirección de la causalidad para establecer una relación causal.