• • • • • • • • • •
Análisis de componentes principales Análisis factorial exploratorio Análisis de conglomerados Escalamiento multidimensional Modelo de regresión lineal Análisis discriminante Modelo de regresión logística Análisis univariado y multivariado de la varianza Análisis de ecuaciones estructurales Análisis de clases latentes
Análisis multivariante
En el presente material, el lector encontrará las siguientes herramientas:
métodos estadísticos multivariantes para la investigación
Los métodos estadísticos multivariantes que se desarrollan en este texto permiten el estudio de las interrelaciones que pueden existir entre los valores de las variables, la explicación de valores de una variable en términos de los valores de otras variables y el análisis de las relaciones estructurales que entre variables no medibles se puedan construir, facilitando de este modo la presentación y comprensión de la información extraída de los datos.
Véliz
En la actualidad, muchas de las investigaciones y aplicaciones que se realizan en diferentes campos del conocimiento dan lugar a bases de datos estadísticos que corresponden a muchas variables. La información que es posible obtener de estas bases de datos es más rica cuando se considera la extracción de los patrones que pueden existir conjuntamente entre los valores de las variables. En este sentido, los diversos métodos y modelos estadísticos multivariantes son muy útiles para el investigador.
Análisis multivariante métodos estadísticos
ISBN-13: 978-987-3889-19-6 ISBN-10: 987-3889-19-1
multivariantes para la investigación C A R LO S V É L I Z C A P U Ñ AY
Visite nuestro sitio en http://latinoamerica.cengage.com
9 789873 889196
Análisis multivariante métodos estadísticos
multivariantes para la investigación C A R LO S V É L I Z C A P U Ñ AY
Australia • Brasil • Corea • España • Estados Unidos • Japón • México • Reino Unido • Singapur
Análisis multivariante: Métodos estadísticos multivariantes para la investigación Carlos Véliz Capuñay Presidente de Cengage Learning Latinoamérica: Fernando Valenzuela Migoya Director Editorial para Latinoamérica: Ricardo H. Rodríguez Editora de Adquisiciones para Latinoamérica: Claudia C. Garay Castro Gerente de Manufactura para Latinoamérica: Antonio Mateos Martínez Gerente Editorial de Contenidos en Español: Pilar Hernández Santamarina
© D.R. 2017 por Cengage Learning Editores, S.A. de C.V., una Compañía de Cengage Learning, Inc. Corporativo Santa Fe Av. Santa Fe núm. 505, piso 12 Col. Cruz Manca, Santa Fe C.P. 05349, México, D.F. Cengage Learning® es una marca registrada usada bajo permiso.
DERECHOS RESERVADOS. Ninguna parte de este trabajo amparado por la Ley Federal del Derecho de Autor, podrá ser reproducida, transmitida, almacenada o utilizada en cualquier forma o por cualquier medio, ya sea gráfico, electrónico o mecánico, incluyendo, pero sin limitarse a lo siguiente: fotocopiado, reproducción, escaneo, digitalización, grabación en audio, distribución en Internet, distribución en redes de información o almacenamiento y recopilación en sistemas de información a excepción de lo permitido en el Capítulo III, Artículo 27 de la Ley Federal del Derecho de Autor, sin el consentimiento por escrito de la Editorial.
Gerente de Proyectos Especiales: Luciana Rabuffetti Coordinador de Manufactura: Rafael Pérez González Editores: Cinthia Chávez Ceballos Natalia Herrero Juan Pablo Rodríguez Velázquez Diseño de portada: Daniela Torres Arroyo Imagen de portada: Shutterstock Composición tipográfica: Heriberto Gachuz Chávez
Impreso en México 1 2 3 4 5 6 7 19 18 17 16
Véliz Capuñay, Carlos Análisis multivariante : métodos estadísticos multivariantes para la investigación / Carlos Véliz Capuñay. – 1a ed. – Ciudad Autónoma de Buenos Aires : Cengage Learning Argentina, 2015. Libro digital, PDF Archivo Digital: descarga y online ISBN: 978-987-3889-32-5 1. Estadísticas. 2. Análisis Estadístico. 3. Método Estadístico. I. Título CDD 310
Visite nuestro sitio en: http://latinoamerica.cengage.com
A Mirtha, Jessi y JosĂŠ Carlos
Índice general 1. Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1. 1.2. 1.3. 1.4.
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Análisis multivariante o multivariado . . . . . . . . . . . . . . . . . . . . . 2 Vector de medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Covarianzas y correlaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.4.1. Autovalores y autovectores de 兺 . . . . . . . . . . . . . . . . . . . . . . .8 1.5. La distribución normal multivariada . . . . . . . . . . . . . . . . . . . . 10 1.6. Similaridad y distancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.6.1. Similaridad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.6.2. Distancia entre dos elementos A y B . . . . . . . . . . . . . . . . . . . . 13
2. Componentes principales y análisis factorial. . . . . . . 17 2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.2. Análisis de componentes principales . . . . . . . . . . . . . . . . . . . . . 17 2.2.1. Conceptos fundamentales para la construcción de los componentes principales . . . . . . . . . . . . . . . . . . . . . . . 18 2.2.2. Elección del número de componentes principales . . . . . . . . . . . 20 2.2.3. Interpretación de los componentes principales. . . . . . . . . . . . . 21 2.2.4. Observaciones respecto de los resultados . . . . . . . . . . . . . . . . 21 2.3. Análisis factorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 2.3.1. El análisis factorial. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 2.3.2. El modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.3.3. Las comunalidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 2.3.4. Extracción de factores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.3.5. Interpretación de los factores . . . . . . . . . . . . . . . . . . . . . . . . 36 2.3.6. Rotación de factores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 2.3.7. Número de factores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.3.8. Importancia de cada factor . . . . . . . . . . . . . . . . . . . . . . . . . . 38 2.3.9. Puntuaciones factoriales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 v
Índice general
2.3.10. Validación de los resultados . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.3.11. Número de elementos de la muestra. . . . . . . . . . . . . . . . . . . . 39 2.3.12. Consideraciones generales a seguir en un análisis factorial . . . . 39
3. Análisis de conglomerados. . . . . . . . . . . . . . . . . . . . . . 49 3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 3.2. Técnica jerárquica aglomerativa . . . . . . . . . . . . . . . . . . . . . . . . 50 3.2.1. Limitaciones a los métodos jerárquicos. . . . . . . . . . . . . . . . . . 55 3.3. Técnicas no jerárquicas: El método de K medias . . . . . . . . . . . . 55 3.4. Recomendaciones prácticas. . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 3.4.1. Número de conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . . 58 3.4.2. Variables estandarizadas y categóricas . . . . . . . . . . . . . . . . . . 59 3.4.3. Validación de los conglomerados . . . . . . . . . . . . . . . . . . . . . . 59 3.4.4. Interpretación de los resultados . . . . . . . . . . . . . . . . . . . . . . . 60 3.4.5. La reducción de la dimensión y la formación de los conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4. Escalamiento multidimensional . . . . . . . . . . . . . . . . . . 63 4.1. 4.2. 4.3. 4.4. 4.5.
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tipos de escalamiento multidimensional . . . . . . . . . . . El escalamiento multidimensional básico o métrico . . . . El escalamiento multidimensional no métrico . . . . . . . . Elección e interpretación de las dimensiones del espacio métrico de la configuración. . . . . . . . . . . . . . . . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
63 64 65 71
. . . . . . . 74
5. El modelo de regresión lineal . . . . . . . . . . . . . . . . . . . 75 5.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . 5.2. El modelo de regresión lineal simple . . . . . . . 5.2.1. Estimación del modelo . . . . . . . . . . . . . . 5.2.2. Adecuación del modelo a nivel de muestra 5.2.3. Adecuación del modelo a la población . . . 5.2.4. Verificación de los supuestos del modelo. . vi
. . . . . .
. . . . . . . . . . . . . 75 . . . . . . . . . . . . . 76 . . . . . . . . . . . . . . 77 . . . . . . . . . . . . . . 82 . . . . . . . . . . . . . . 84 . . . . . . . . . . . . . . 85
Índice general
5.2.5. Utilización del modelo: estimación de la respuesta media e individual de Y . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 5.2.6. Consideraciones generales . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
5.3. Regresión lineal múltiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 5.3.1. Estimación de parámetros. . . . . . . . . . . . . . . . . . . . . . . . . . . 90 5.3.2. Adecuación del modelo a los elementos de la muestra . . . . . . . 91 5.3.3. Adecuación del modelo a los elementos de la población . . . . . . 92 5.3.4. Verificación de los supuestos del modelo. . . . . . . . . . . . . . . . . 93 5.3.5. Usos del modelo para la predicción . . . . . . . . . . . . . . . . . . . . 93 5.3.6. Multicolinealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 5.4. Modelos especiales de regresión. . . . . . . . . . . . . . . . . . . . . . . . 100 5.4.1. Modelos de regresión polinomiales . . . . . . . . . . . . . . . . . . . . 100 5.4.2. Modelos de regresión con variables independientes cualitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
6. Análisis discriminante . . . . . . . . . . . . . . . . . . . . . . . . . 107 6.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 6.2. El análisis discriminante lineal . . . . . . . . . . . . . . . . . . . . . . . . 108 6.2.1. La discriminante lineal de Fisher para dos grupos . . . . . . . . . 109 6.2.2. Regla de clasificación y la discriminante lineal de Fisher . . . . 110 6.2.3. Etapas del análisis discriminante . . . . . . . . . . . . . . . . . . . . . 111 6.3. El clasificador de Bayes y la discriminante lineal . . . . . . . . . . . 116 6.3.1. El clasificador de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 6.3.2. Clasificación a partir de los costos por mala clasificación . . . . 117 6.3.3. El clasificador de Bayes para distribuciones normales . . . . . . 118
7. Regresión logística binaria . . . . . . . . . . . . . . . . . . . . . 121 7.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 7.2. El modelo de regresión logística binaria . . . . . . . . . . . . . . . . . . 123 7.3. Estimación de los parámetros . . . . . . . . . . . . . . . . . . . . . . . . . 127 7.3.1. Evaluación de la adecuación del modelo a los datos disponibles y a la población . . . . . . . . . . . . . . . . . . . . . . . . 128 7.4. Interpretación de los resultados. . . . . . . . . . . . . . . . . . . . . . . . 130 vii
Índice general
7.5. Evaluación de la capacidad predictiva del modelo. . . . . . . . . . . 134 7.5.1. El método “holdout” o de validación cruzada . . . . . . . . . . . . 134 7.5.2. Tabla de confusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 7.5.3. Curva ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 7.5.4. La curva de ganancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
8. ANOVA de un solo factor . . . . . . . . . . . . . . . . . . . . . 141 8.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 8.2. El modelo ANOVA de un solo factor . . . . . . . . . . . . . . . . . . . . 142 8.2.1. El método de Bonferroni para comparar, a posteriori, las medias de los tratamientos . . . . . . . . . . . . . . . . . . . . . . 146
9. MANOVA de un solo factor . . . . . . . . . . . . . . . . . . . 149 9.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . 9.2. MANOVA de un solo factor . . . . . . . . . . . . . 9.2.1. Medida de bondad de ajuste del modelo. . 9.2.2. Pruebas a posteriori . . . . . . . . . . . . . . . .
. . . .
. . . . . . . . . . . . 149 . . . . . . . . . . . . 150 . . . . . . . . . . . . . 152 . . . . . . . . . . . . . 152
10. Modelos de ecuaciones estructurales . . . . . . . . . . . 155 10.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 10.2. Fases del análisis de las ecuaciones estructurales. . . . . . . . . . 165 10.2.1. Especificación del modelo . . . . . . . . . . . . . . . . . . . . . . . 165 10.2.2. Identificación del modelo . . . . . . . . . . . . . . . . . . . . . . . 165 10.2.3. Estimación de los parámetros del modelo . . . . . . . . . . . . 166 10.2.4. Análisis de la adecuación del modelo . . . . . . . . . . . . . . . 169 10.3. Tamaño de la muestra y los supuestos del modelo. . . . . . . . . 172 10.4. Variables nominales y ordinales. . . . . . . . . . . . . . . . . . . . . . 173 10.5. Interpretabilidad y nueva especificación del modelo . . . . . . . 173 viii
Índice general
11. Clases latentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 11.1. 11.2. 11.3. 11.4. 11.5.
Introducción . . . . . . . . . . . . El modelo . . . . . . . . . . . . . . Estimación de parámetros . . Adecuación del modelo. . . . . Regresión con clases latentes.
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
183 184 185 185 190
Bibliografía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
ix
Prólogo El presente texto tiene su origen en las exposiciones que en varias ocasiones he presentado a grupos de profesionales de diversas especialidades y alumnos universitarios de pregrado y posgrado que requerían de herramientas para el análisis de datos relacionados con diferentes trabajos aplicativos y de investigación en campos como la industria, la sociología, la banca, la mercadotecnia, la biología, la epidemiología, etcétera. Los capítulos 2 y 3 están referidos al desarrollo de métodos que se utilizan para encontrar interdependencias entre un conjunto de variables. El capítulo 2, que corresponde al análisis factorial y al análisis de componentes principales, está relacionado a técnicas para reducir la dimensión y facilitar la interpretación de los datos. En el capítulo 3, dedicado al análisis de conglomerados, se desarrollan las técnicas para agrupar elementos de una muestra o de una población. En el capítulo 4 se introducen conceptos relativos al escalamiento multidimensional. Se presentan técnicas basadas en distancias y similitudes que permiten el “posicionamiento” de los elementos. Los capítulos 5, 6 y 7 están escritos para introducir métodos de regresión y clasificación supervisados; es así como se desarrolla: • El modelo de regresión lineal simple y múltiple (Capítulo 5) • El modelo de regresión logística (Capítulo 6) y • El modelo discriminante lineal (Capítulo 7).
En los capítulos 8 y 9 se estudian los modelos ANOVA y MANOVA, respectivamente, muy útiles para analizar las relaciones que pueden existir entre variables númericas y categóricas. En el capítulo 10 se desarrollan los modelos confirmatorios, conocidos como modelos causales o de ecuaciones estructurales, muy útiles en la modelación de relaciones entre variables latentes. Dentro de esta línea, en el capítulo 11, se trata el modelo básico de clases latentes y el modelo de regresión para clases latentes. Aun cuando en el capítulo 1 se introducen conceptos básicos necesarios para la comprensión del texto, el lector puede revisarlos en la amplia bibliografía que se presenta en este libro. xi
Prólogo
Para finalizar, en el desarrollo de los diferentes ejemplos han sido utilizados los paquetes estadísticos SPSS, AMOS y diversas librerías del paquete R entre las que destaca el poLCA para el desarrollo de clases latentes. Agradezco a CENTRUM, GRADUATE BUSINESS SCHOOL, PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ, por el apoyo que me ha brindado para la publicación de este texto. Carlos Véliz Capuñay
xii
CAPÍTULO 1 CONCEPTOS BÁSICOS
1.1. Introducción En el afán de conocer y explicar el mundo, los investigadores recolectan datos cuya propiedad esencial es la variabilidad. Estos datos aparecen cuando al estudiar alguna propiedad de los elementos de una población, se asigna a cada uno de ellos, bajo cierta regla, un número real. Esta correspondencia define el concepto de variable y cuando se realiza se dice que se ha asignado una escala de medida. Dependiendo de la regla que se use, se tienen diferentes escalas de medida. Entre ellas están las escalas nominales, ordinales, intervalares y de razón. • Escalas nominales. Se tiene una escala nominal si el número asignado es
sólo una etiqueta. Según esta escala, las propiedades que tienen los números asignados no tienen significación pero permiten agrupar a los elementos en clases o categorías. Con este tipo de escala se pueden realizar operaciones de conteo de elementos en cada categoría y construir tablas cruzadas. • Escalas ordinales. Se tiene una escala ordinal cuando el orden de los números asignados tiene significado en la realidad que se estudia. Asignando a cada vendedor de una tienda el número 1 si logró las ventas más altas, el número 2 si logró ventas intermedias y el número 3 si logró las ventas más bajas, se tendrá una escala ordinal. • Escalas intervalares. Si la diferencia de los números asignados tiene sentido en la realidad que se estudia, entonces se tiene una escala intervalar. Para este tipo de escala, el 0 se asigna de manera arbitraria y no indica ausencia de la propiedad que se está midiendo. En una escala intervalar, la relación de las diferencias entre los números asignados es independiente de la unidad de medida que se use. Con esta escala no tiene sentido indicar que un elemento A tiene el doble o triple de la propiedad en estudio que un elemento B. Un ejemplo clásico de esta escala se refiere a la de temperaturas “grados Fahrenheit” (F). • Escalas de razón. Se tiene una escala de este tipo cuando los cocientes de los números asignados tienen sentido en la realidad que se estudia. Con estas escalas se pueden realizar todas las operaciones aritméticas y el 0 tiene un significado: indica ausencia de la propiedad en estudio. 1
MÉTODOS ESTADÍSTICOS MULTIVARIANTES PARA LA INVESTIGACIÓN
El conocimiento de las escalas es un asunto importante porque la aplicación de los distintos procedimientos estadísticos que se usan para el análisis de datos dependerá del tipo de escala utilizado. Se puede establecer un orden jerárquico entre las escalas estudiadas; con la escala de más alta jerarquía (la escala de razón) se realizan la mayor cantidad de operaciones. La escala nominal es la de menor jerarquía. De acuerdo con las escalas de medida, las variables suelen clasificarse en cualitativas si la asignación de medida se refiere a una escala nominal u ordinal y en cuantitativas si la asignación se refiere a una escala intervalar o de razón. Estas nominaciones se transfieren a los datos que se obtienen como valores de las variables. Por su lado y de acuerdo con el conjunto de valores que toma una variable, éstas se suelen clasificar en variables discretas y variables continuas. El conjunto de valores de las variables discretas es finito o infinito enumerable, mientras que los valores de las variables continuas pueden ser cualesquiera de los elementos de un intervalo o de la unión de intervalos. Generalmente los procedimientos clásicos de la estadística permiten el análisis de datos que tienen cierta estructura; sin embargo, en la actualidad se recogen datos que no tienen una estructura determinada. Así, se tienen como datos no estructurados a: los discursos, las imágenes, las funciones, etcétera. Los datos no estructurados necesitan tratamientos especiales para su análisis (estos no son objeto del desarrollo de este texto). La estadística es un proceso que, a partir de los objetivos de una investigación, trata de explicar la variabilidad de un conjunto de datos. Cuando se trata de estudiar la variabilidad de los valores de cada variable de manera aislada, se tiene un estudio univariado y es así como se usan: las tablas de frecuencias, los gráficos de sectores circulares, los gráficos de barras, los histogramas, y los resúmenes numéricos como la moda, la mediana, la media, la varianza, la desviación estándar, los percentiles, etcétera. Los conceptos de probabilidad, de variable aleatoria, de esperanza y varianza de una variable aleatoria, así como la consideración de modelos de distribuciones como la binomial, la Poisson, la distribución normal, la t de Student, la F de Snedecor, la chi cuadrado, etcétera, son muy importantes en los estudios univariados para inferir propiedades de las muestras aleatorias de toda la población.
1.2. Análisis multivariante o multivariado En la actualidad es común recolectar de un grupo de individuos los valores de muchas variables a la vez y la información que se extrae de estos datos puede ser el resultado de analizar cada una de las variables de manera aislada; sin embargo, son los análisis conjuntos de todas las variables a la vez los que 2
Capítulo 1. Conceptos básicos
proporcionan una información más rica y revelan patrones de la estructura conjunta de los datos. El análisis multivariante o multivariado proporciona una serie de técnicas y modelos con este propósito. Algunas de esas técnicas son de carácter exploratorio pero de mucha utilidad, porque los patrones de los datos disponibles que a través de ellas se generan suelen servir como bases para sustentar y explicar propiedades y teorías que más adelante pueden ser objeto de evaluaciones de carácter inferencial y que sirven para toda la población. En este texto se presentan algunas técnicas multivariadas de carácter exploratorio como el análisis de componentes principales, el análisis factorial, el análisis de conglomerados y el escalamiento multidimensional. También se presentan modelos como: el modelo de regresión lineal, el modelo ANOVA, el modelo MANOVA, el de regresión logística, el análisis discriminante, el modelo de ecuaciones estructurales y el de clases latentes, que bien pueden aplicarse de manera inferencial cuando se cumplen los supuestos que estos exigen. Las variables con las que generalmente se trabaja son variables medibles directamente y sus valores suelen estar medidos en las escalas nominal, ordinal, intervalar o de razón. Sin embargo, también se utilizan variables latentes, esto es, variables que no se pueden medir directamente pero si a través de variables medibles directamente. Las variables latentes aparecen, por ejemplo, cuando se analiza la fidelidad de un cliente, la religiosidad o el rendimiento escolar. Por ejemplo, para cada elemento de un grupo formado por 1000 clientes de un banco se recogen datos correspondientes a las variables: edad, sueldo, número de hijos, años de estudio, tiempo de experiencia laboral, monto de un préstamo solicitado, etcétera. Se trata de estudiar cada variable y las relaciones que entre ellas puedan existir; de esta manera se puede analizar, en un caso, si la edad influye para obtener el préstamo solicitado. En general, este tipo de datos se llaman multivariados y se presentan en tablas como la siguiente en donde, para cada elemento o unidad i de la población, se tienen los valores xi1, xi2, . . . , x ip de las variables X1, X2, . . . , Xp, respectivamente. Esta tabla, que contiene valores de p variables para una muestra de n individuos, puede expresarse como una matriz X de n filas y p columnas. Unidad
X1
X2
. . .
Xj
. . .
Xp
1 . . .
x11 . . .
x12 . . .
. . .
x1j . . .
. . .
x1p . . .
i . . .
xi1 . . .
xi2 . . .
. . .
n
xn1
xn2
. . .
. . . . . .
. . .
xij . . .
. . .
xip . . .
. . .
xnj
. . .
xnp
Tabla 1.1 Tabla de datos multivariados 3
MÉTODOS ESTADÍSTICOS MULTIVARIANTES PARA LA INVESTIGACIÓN
Ejemplo: calificaciones
Un ejemplo de datos multivariados aparece en la siguiente tabla. Corresponden a las calificaciones de una muestra de 20 alumnos universitarios en los cursos de Matemáticas (Mat.), Lengua y Literatura (LLit.), Física (Fís.), Estadística (Est.) y Filosofía (Fil.). Alumno
Mat.
LLit.
Fís.
Est.
Fil.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
15 17 13 18 14 18 15 16 17 18 12 13 14 12 13 14 16 16 15 17
16 14 15 16 13 16 14 11 16 12 13 16 17 18 15 16 17 15 14 17
16 15 12 17 16 17 14 12 13 14 15 12 17 13 12 13 15 15 14 14
15 16 13 17 15 16 14 14 15 15 13 13 16 13 12 13 15 16 16 17
14 16 15 15 14 15 14 12 15 13 12 15 16 17 14 13 16 16 13 16
Tabla 1.2 Tabla de calificaciones universitarias
Una serie de resúmenes numéricos que se definen para los datos multivariados permite la extracción de la información contenida en ellos. Algunas de estas medidas, extensiones de resúmenes numéricos de la estadística univariada, se introducen a continuación.
1.3. Vector de medias Uno de los resúmenes numéricos que más se utiliza es el vector de medias. El vector de medias para un conjunto de p variables numéricas X1, X2 , . . . , Xp 4
Capítulo 1. Conceptos básicos
se define como el vector μ, formado con los valores esperados E(Xi ) de cada variable Xi. La transpuesta de este vector es: μ t = (E(X1 ), E(X2 ), . . . , E(Xp )). Este vector puede ser estimado, usando los datos de una muestra, con el vector de medias muestrales. La transpuesta de este vector es: xt = (x 1, x 2, . . . , x p ), donde cada x i es una media muestral de la variable Xi. En general, la transpuesta At de una matriz A es una matriz cuyas filas son las columnas de la matriz A y cuyas columnas son las filas de esta matriz. Para el ejemplo anterior, el vector de medias muestrales es: xt = (15.15, 15.05, 14.30, 14.70, 14.55)
1.4. Covarianzas y correlaciones El análisis multivariado permite el estudio de interrelaciones en un grupo de variables, como ocurre en el análisis de componentes principales, el análisis factorial, el análisis de conglomerados y el escalamiento multidimensional. También se usa para encontrar relaciones que sirvan para explicar la variabilidad de los valores de una o de un grupo de variables en términos de otro grupo de variables como, por ejemplo, en el análisis de regresión lineal, el análisis discriminante y el modelo de ecuaciones estructurales. En esta tarea suelen usarse dos medidas muy importantes: la covarianza y la correlación. Recogidos los valores respectivos (xi, yi) de las variables X y Y, la representación gráfica de estos valores en un sistema de coordenadas cartesiano, y obtenida al colocar xi en el eje X y yi en el eje Y, se llama diagrama de dispersión. Estos diagramas permiten observar si existen relaciones entre los valores muestrales de dos variables numéricas, indicándose que existe concordancia cuando a los valores altos de una variable acompañan valores altos de la otra variable; en cambio existe discordancia cuando a valores altos de una variable acompañan valores bajos de la otra variable. La evaluación de esta concordancia o discordancia se hace mediante un índice que se llama covarianza. La covarianza entre dos variables es una medida de la relación lineal que pueda existir entre los valores de dos variables numéricas. Para las variables numéricas X y Y, definidas en la misma población, la covarianza se define como el valor esperado de los productos de las desviaciones de los valores de cada variable respecto de su media correspondiente, Cov (X, Y ) = E [(X − E(X ))(Y − E (Y ))] 5
MÉTODOS ESTADÍSTICOS MULTIVARIANTES PARA LA INVESTIGACIÓN
Valores altos positivos de la covarianza indican una relación lineal y alto grado de concordancia lineal entre los valores de las variables. La covarianza entre X y Y se denota con σXY. Si X = Y, la covarianza es igual a la varianza de la variable X y se denota con σX2 . Una propiedad importante indica que la covarianza es una medida simétrica, es decir,
σXY = Cov (X, Y ) = Cov (Y, X ) = σYX Otra propiedad indica los valores entre los cuales varía la covarianza, −σX σY < − − Cov (X, Y ) < − σX σY donde σX y σY son las desviaciones estándar de X y Y, respectivamente. Las covarianzas entre p variables numéricas X1, X2, . . . , Xp se escriben en una matriz cuadrada 兺 de orden p,
兺=
σ 21 σ 21 .. .
σ 12 σ 22 .. .
. . . . . . .. .
σ 1p σ 2p .. .
σ p1
σ p2
. . .
σ 2p
En cada entrada i − j de la matriz se escribe la covarianza de las variables Xi y Xj; ésta se denota con σ ij . En la diagonal aparecen las varianzas de cada una de las variables. La varianza de Xi se denota con σ 2i mientras que con σ i se denota a su desviación estándar. 兺 es una matriz simétrica (σ ij = σ ji ) y se conoce con el nombre de matriz de varianzas − covarianzas o simplemente matriz de covarianzas. La covarianza de Xi y Xj se estima a partir de las muestras conjuntas x 1i , x 2i , . . . , xni y x 1i , x 2i , . . . , xnj de las respectivas variables. Un estimador de la covarianza σ ij es: n 1 sij = 兺 (x − x i )(x kj − x j ) n − 1 k =1 ki En particular, un estimador de la varianza σ 2i de Xi es sii . Se denota con s 2i . De este modo se tiene que la matriz:
兺=
s 21 s 21 .. .
s 12 s 22 .. .
. . . . . . .. .
s 1p s 2p .. .
s p1
s p2
. . .
s 2p
6
Capítulo 1. Conceptos básicos
cuyas entradas son los estimadores sij de las covarianzas σ ij , es una matriz que estima a la matriz de covarianzas 兺. Una de las dificultades de las covarianzas radica en su interpretación. No se puede indicar si la covarianza es grande o pequeña, pues depende de las unidades de medida con las que se trabaje. Para evitar esta dificultad, la covarianza se expresa de manera relativa y es así como aparece la correlación entre dos variables, medida con la cual se evalúa la fuerza de la relación lineal que pudiera existir entre las variables. La correlación ρij entre las variables Xi y Xj se define como:
σ ij σi σj
ρij =
La correlación ρij es un número que varía entre −1 y 1. Si la correlación es −1 o 1, la relación lineal entre las dos variables es perfecta. No existe relación lineal entre las dos variables si la correlación es 0. Valores de la correlación cercanos a 1 indican que a valores altos de una variable acompañan valores altos de la otra variable, en cambio cuando la correlación es cercana a −1, a valores altos de una variable acompañan valores bajos de la otra variable. La matriz de correlaciones para un grupo de p variables numéricas se forma como en el caso de las covarianzas. Esta es una matriz simétrica y se denota con ρ. Se comprueba que las covarianzas de dos variables estandarizadas es igual a la correlación de las variables iniciales. La matriz que estima a la matriz ρ se denota con R y se forma con los estimadores de ρij , sij si sj
ri j =
donde si es el estimador de la desviación estándar σ i de Xi. El estimador ri j se conoce como índice de correlación de Pearson de Xi y X j. Una generalización del índice de correlación lineal es el índice de correlación lineal múltiple. Éste es una medida de la relación lineal entre una variable numérica Xi y un grupo de variables también numéricas X2, . . . , Xp y se define como: 2 Ri.23...p = 1 − (1 − r i2 )(1 − r i23.2 ) . . . (1 − ri p.23...(p −1))
Aquí, rij es el índice de correlación lineal de Pearson entre las variables Xi y Xj, mientras que ri p.23...(p −1) es la correlación lineal parcial de las variables 7
MÉTODOS ESTADÍSTICOS MULTIVARIANTES PARA LA INVESTIGACIÓN
Xi con Xp dejando fijas al resto de las variables. Esta medida se define recursivamente de la siguiente manera: r12.3 =
r12.34 =
r12.34...p =
r 12 − r 13 r 23
兹(1 − r 13)(1 − r 23) 2
2
r 12.3 − r 14.3 r 24.3
兹(1 − r 14.3)(1 − r 24.3) 2
2
r 12.34...(p−1) − r 1p.34...(p −1)r 2p.34...(k −1)
兹(1 − r 1k.34...(p−1))(1 − r 2p.34...(p −1)) 2
2
Para dos variables ordinales, definidas conjuntamente, se define el índice de correlación llamado índice de correlación de Spearman. Este índice se define con base en el orden de los valores. 1.4.1. Autovalores y autovectores de 兺
En el desarrollo de varias de las técnicas multivariadas se utilizan los conceptos de autovector y autovalor de una matriz, por ello es conveniente la presentación de estas ideas. Para una matriz cuadrada A de orden p, se define autovector como el vector v que satisface la relación Av = λv, donde λ es un número real. El valor λ se llama autovalor de A, correspondiente al autovector v. Ocurre que para la matriz 兺, por tener ciertas propiedades, sus autovalores son no negativos, al igual que para la matriz de correlaciones ρ. Ejemplo: calificación de una agencia bancaria
A continuación se tiene una tabla de datos A para una muestra pequeña de 10 unidades y 4 variables. Estos datos corresponden a las calificaciones que 10 usuarios han realizado de una agencia bancaria en cuatro aspectos: X1 = “Seguridad”, X2 = “Atención”, X3 = “Accesibilidad”, X4 = “Comodidad”. 8
Capítulo 1. Conceptos básicos
Unidad
X1
X2
X3
X4
1 2 3 4 5 6 7 8 9
8 4 7 9 2 6 3 1 7
9 3 6 10 3 4 2 3 6
5 2 3 3 6 6 4 5 7
7 3 4 1 8 5 4 6 8
10
2
3
1
4
Tabla 1.3 Tabla de calificaciones de una agencia bancaria
Para estos datos, el vector de medias muestrales x es el vector cuya transpuesta x t está formada por las medias muestrales de X1, X2, X3 y X4, respectivamente, x t = (4.9, 4.9, 4.8, 5) La matriz S de covarianzas muestrales que resulta es:
S=
8.1000
6.9926
0.6873
−1.3318
6.9926
7.6555
0.3581
−1.0008
0.6873
0.3581
3.7333
3.3329
−1.3318
−1.0008
3.3329
5.1111
La matriz R de correlaciones muestrales es:
R=
1
0.888
0.125
−0.207
0.888
1
0.067
−0.160
0.125
0.067
1
0.763
−0.207
−0.160
0.763
1
Los autovalores de la matriz R que resultan son: λ1 = 1.996, λ2 = 1.716, λ3 = 0.208 y λ4 = 0.080. 9
MÉTODOS ESTADÍSTICOS MULTIVARIANTES PARA LA INVESTIGACIÓN
Las transpuestas de los autovectores u i con i = 1, 2, 3 y 4, correspondientes a los autovalores λi con i = 1, 2, 3 y 4, respectivamente, son: u t1 = (0.6460, 0.6418, −0.1691, −0.3769), u t2 = (0.2723, 0.2644, 0.7027, 0.6017) ut3 = (−0.2117, 0.4210, −0.6164, 0.6307), u t4 = (−0.6808, 0.5833, 0.3123, −0.3130). En lenguaje R, el cálculo de la matriz de correlaciones y de sus autovalores y autovectores se realiza usando los siguientes códigos: #Lectura de la tabla A csv #Previamente, escribir la tabla A en el formato csv (comma separated values) > A = read.csv(“/Users/carlosveliz/A.csv”) #Para calcular la matriz de correlaciones de A >S = cor(A) # Para calcular los autovalores y autovectores de la matriz de correlaciones de S >eigen(S)
1.5. La distribución normal multivariada Como en el caso de la distribución normal para una variable, la distribución normal multivariada juega un rol muy importante en la estadística multivariada. Para p variables continuas X1, X2, . . . , Xp, la función de densidad normal multivariada de vector de medias μ y matriz de covarianzas 兺 y para un vector xt = (x1, x2, . . . , xp) de valores de las variables se define como: f(x, μ, 兺) = (2π)−p/2det(兺)−1/2exp(−1/2(x − μ)t 兺−1(x − μ)), donde: det(兺) es el determinante de la matriz 兺 de covarianzas de las variables. En la práctica μ y 兺 son parámetros que no se conocen y deben ser estimados. 10
CAPÍTULO 3
ANÁLISIS DE CONGLOMERADOS 3.1. Introducción El análisis de conglomerados o taxonomía numérica comprende una serie de técnicas descriptivas del análisis multivariado. Tiene por objetivo la clasificación o agrupamiento de individuos u objetos en clases o conglomerados a partir de mediciones realizadas en ellos, de tal manera que dentro de los grupos se reúnan los elementos más homogéneos y que entre los grupos exista la mayor heterogeneidad. El resultado es la clasificación de entidades a partir de sus atributos en grupos que no son definidos a priori, sino que son descubiertos por el análisis. La clasificación aparece en diversas disciplinas y es una herramienta que se aplica para comprender y abordar los fenómenos de manera diferenciada, de ahí la importancia de este análisis. Así se forman grupos de clientes de un banco con base en su edad, salario, tipo y número de tarjetas que poseen, etcétera. Se pueden formar grupos de usuarios de servicios de salud, teniendo en cuenta la edad, la presión arterial sistólica, el nivel de colesterol, etc. La clasificación se aplica en Sicología, para agrupar individuos según su personalidad; en Urbanismo, para clasificar ciudades de acuerdo con variables demográficas y fiscales; en Biología, para clasificar plantas, animales, etcétera; en Mercadotecnia, para formar segmentos de clientes (segmentación de mercados) que tienen comportamientos de compra semejantes y así poder diseñar estrategias de ventas que mejor se adapten a cada segmento formado; en Finanzas se usa, por ejemplo, para encontrar grupos de acciones que presenten oportunidades de inversión, basándose en las tasas de retorno, volatilidad, índice beta, etcétera. Con ayuda de la computadora, las técnicas para formar los conglomerados se extienden ahora para datos más complejos y es así que se obtienen, por ejemplo, conglomerados de discursos y documentos, células humanas, etcétera. Los métodos para formar conglomerados que se tratan en este capítulo se agrupan dentro de las llamadas técnicas automáticas no supervisadas, pues no existe una variable que sirva para comparar los resultados que se obtengan. El análisis de conglomerados es importante si los grupos obtenidos tienen significación dentro del trabajo que se realiza. De ahí que las variables que se utilicen para el análisis deban ser escogidas y tratadas de manera cuidadosa, antes de ser utilizadas. El análisis exploratorio de los datos (transformaciones, estudio de datos anómalos, etcétera) y la aplicación de los métodos de 49
MÉTODOS ESTADÍSTICOS MULTIVARIANTES PARA LA INVESTIGACIÓN
reducción de la dimensionalidad son de mucha ayuda en las etapas preliminares de aplicación de este análisis, pues sugieren, en muchos casos, la configuración de los conglomerados finales. En general, las técnicas para formar conglomerados se aplican: • En la formación de jerarquías entre los elementos al usar las similitudes
• • • •
entre ellos. Estas jerarquías se estructuran ubicando a los elementos en grupos que aparecen en diferentes niveles, de tal manera que un grupo que está en un nivel superior contiene a grupos que están en niveles inferiores. En la formación de particiones de elementos de conjuntos. En la búsqueda de variables o conceptos que influyen en la agrupación de los elementos o variables. En la exploración de datos con la finalidad de generar hipótesis. En la detección de datos “aislados” , que distan significativamente de las otras observaciones (outliers, en el idioma inglés).
Las técnicas para formar conglomerados son diversas; las que se tratan en esta sección se pueden dividir en: • Técnicas jerárquicas aglomerativas, con las que se forman grupos sucesi-
vos partiendo de tantos grupos como elementos se tengan hasta formar un único grupo con todos los elementos. • Técnicas no jerárquicas, con las que se forma un número preestablecido de grupos. Entre los métodos no jerárquicos destaca el método de Kmedias que permite la formación de un número K de grupos previamente determinado.
3.2. Técnica jerárquica aglomerativa El algoritmo que corresponde a esta técnica se resume en los siguientes pasos: 1. 2. 3. 4.
Se parte de tantos conglomerados como elementos existan. Se calculan las distancias entre los conglomerados iniciales. Con los dos conglomerados más próximos se forma un nuevo grupo. Con los nuevos elementos se procede como en los pasos 2 y 3 hasta obtener un solo grupo formado con todos los elementos.
En el procedimiento para aplicar el paso 4 deberá elegirse una de las distancias entre conglomerados (del vecino más cercano, del vecino más lejano, de los promedios, etcétera). 50
Capítulo 3. Análisis de conglomerados
Los pasos que se siguen para llevar a cabo la partición de los elementos se representan mediante un diagrama llamado dendrograma. La elección de la distancia a utilizar entre elementos o conglomerados es una tarea difícil de llevar a cabo. La recomendación es probar con la distancia y el método de agrupamiento que más se ajusten a la naturaleza de los datos y a su interpretación. En los ejemplos que siguen se hace uso del software SPSS y del R. Ejemplo: técnica jerárquica
Para ilustrar los conceptos revisados, a continuación se aplica el método jerárquico aglomerativo, la distancia euclidiana y el criterio de los vecinos más cercanos para la formación de conglomerados. Se consideran 6 clientes de una entidad financiera para los cuales se han calculado los valores de las variables: X1: “Edad” X2: “Sueldo mensual” Los valores de las variables aparecen en la siguiente tabla: Edad Sueldo 1 2 3 4 5 6 Tabla 3.1 Tabla de datos
28 2800 35 3500 33 4700 50 5500 48 4500 25 7000 de clientes de una entidad financiera
La matriz de distancias euclidianas entre los clientes es la siguiente:
1 2 3 4 5
1 0.00 700.035 1900.007 2700.090 1700.118
2
3
4
5
0.000 1200.002 2000.056 1000.084
0.000 800.181 200.562
0.00 1000.02
0.000
6
6 4200.001 3500.014 2300.014 1500.208 2500.106 0.000 Tabla 3.2 Matriz de distancias euclidianas de los clientes de una entidad financiera 51
MÉTODOS ESTADÍSTICOS MULTIVARIANTES PARA LA INVESTIGACIÓN
En la matriz se observa que los elementos más cercanos son el elemento 3 y el elemento 5. Uniendo estos elementos se tiene un nuevo elemento [3, 5]. Con el criterio del vecino más cercano se obtienen las distancias entre los elementos: [3, 5], 1, 2, 4, y 6. Las nuevas distancias son: d(1, [3, 5]) ⫽ min(d(1, 3), d(1, 5)) ⫽ 1700.118 d(2, [3, 5]) ⫽ min(d(2, 3), d(2, 5)) ⫽ 1000.084 d(4, [3, 5]) ⫽ min(d(4, 3), d(4, 5)) ⫽ 800.181 d(6, [3, 5]) ⫽ min(d(6, 3), d(6, 5)) ⫽ 2300.014 Con las distancias entre los elementos [3, 5], 1, 2, 4 y 6 se tiene la nueva matriz de distancias: [3, 5]
1
2
4
[3, 5]
0.00
1
1700.18
0.00
2
1000.08
700.03
0.00
4
800.18
2700.09
2000.06
0.00
6
2300.01
4200.00
3500.01
1500.21
6
0.00
Tabla 3.3 Matriz de distancias euclidianas de los clientes de una entidad financiera con el criterio del vecino más cercano
Después de observar esta matriz se deberán juntar el elemento 1 con el elemento 2, con lo que se obtendrá el elemento [1, 2]. Con el mismo criterio de los vecinos más cercanos se obtiene la nueva matriz de distancias con los elementos: [3, 5], [1, 2], 4 y 6. Observando esta matriz se deberá juntar el elemento [3, 5] con el elemento 4, formándose el elemento [[3, 5], 4]. La nueva matriz de distancias se forma con los elementos [[3, 5], 4], [1, 2] y 6. Si el proceso se termina en esta etapa se habrán formado los tres grupos: {3, 5, 4}, {1, 2} y {6}. En la etapa posterior se juntan los elementos [[3, 5], 4] y [1, 2]. La matriz final de distancias se forma con los elementos [ [3, 5], 4, [1, 2] ] y 6, y termina con el grupo formado por los 6 elementos iniciales. El dendrograma que aparece en la siguiente figura muestra los pasos a seguir en la formación jerárquica de los conglomerados: 52
Capítulo 3. Análisis de conglomerados
6
2
1
4
5
3
a
Figura 3.1 Dendrograma
Las líneas verticales indican la distancia en que los elementos se unen. Si el dendrograma se corta a un nivel de distancia a, se obtienen los grupos {3, 5, 4}, {1, 2} y {6}. Para este ejemplo, se obtienen resultados iguales si se usa el método de agrupamiento del vecino más lejano. Ejemplo: calorías, grasas y proteínas
En este ejemplo se considera la cantidad diaria de calorías (kcal), grasas (g) y proteínas (g) en las unidades indicadas que consumen en promedio 19 países de América Latina. Los datos fueron reportados por la Organización de las Naciones Unidas para la Alimentación, FAO, entre los años 1990 y 1992. Tomando en cuenta las variables indicadas y usando la distancia euclidiana y el método del vecino más lejano, se determinó el agrupamiento jerárquico de los países. La tabla de los datos y el dendrograma que se obtuvieron aparecen a continuación: País Argentina Bolivia Brasil Chile Colombia
Calorías
Grasas
Proteínas
2948 2031 2791 2535 2632
103 51 82 65 62
97 52 64 70 60
53
Continúa...
MÉTODOS ESTADÍSTICOS MULTIVARIANTES PARA LA INVESTIGACIÓN
País Costa Rica Cuba Ecuador El Salvador Guatemala Honduras México Nicaragua Panamá Paraguay Perú R. Dominicana Uruguay Venezuela
Calorías
Grasas
Proteínas
2870 3003 2539 2526 2282 2307 3190 2290 2238 2618 1881 2273 2684 2586
78 77 90 58 42 61 84 52 65 68 34 65 96 95
69 66 52 68 58 56 80 55 59 91 50 50 83 65
Tabla 3.4 Consumo de calorías, grasas y proteínas en 19 países
Arg. Cub. Bra. CRi.
Pan. Hon. RDo. Gua. Nic. Bol. Per. Uru. Col. Par. Ven. Ecu. Chi. ESa.
Méx
Enlace completo o del vecino más lejano
Figura 3.2: Dendrograma
Los grupos claramente formados son: Grupo I: Panamá, Honduras, República Dominicana, Guatemala y Nicaragua. Grupo II: Bolivia y Perú. Grupo III: Uruguay, Colombia, Paraguay, Venezuela, Ecuador, Chile y El Salvador. Grupo IV: México, Argentina, Cuba, Brasil y Costa Rica. 54
Capítulo 3. Análisis de conglomerados
3.2.1. Limitaciones a los métodos jerárquicos
Los métodos jerárquicos presentan los siguientes inconvenientes: • No se puede corregir la mala ubicación temprana de los elementos, pues
las etapas que se realizan no se vuelven a repetir. • Tienen poca estabilidad. Las soluciones varían significativamente cuan-
do se quitan algunos atributos o cuando se eligen diferentes distancias. • Los datos atípicos influyen sensiblemente en los resultados.
3.3. Técnicas no jerárquicas: el método de K medias Las técnicas no jerárquicas permiten la formación de conglomerados cuyo número K es previamente fijado. Un método particular es el método K-medias cuyo proceso se desarrolla a continuación. Suponiendo que se tiene una muestra de N elementos para los cuales están definidas p variables numéricas, 1. Se forman al azar K grupos y para cada grupo se calculan los centroides o puntos cuyas coordenadas son las medias aritméticas de las p variables. 2. Usando la distancia euclidiana y para cada elemento se calcula su distancia a cada uno de los centroides, reasignándolos al grupo cuyo centroide es el más cercano. Los nuevos centroides de los nuevos grupos formados se recalculan. 3. Si la distancia entre los centroides iniciales y los nuevos centroides es pequeña (digamos, E ) o si se ha completado un número fijo de iteraciones, el proceso termina. De otro modo, se repite el paso 2. Ejemplo: K-Medias
Para este ejemplo se utilizó la información del ejemplo anterior proporcionada por la FAO. Usando el paquete estadístico R y aplicando el método de K medias, los países se agruparon en K = 3 grupos como sigue: Grupo 1: Argentina, Costa Rica, Cuba y México. Grupo 2: Brasil, Chile, Colombia, Ecuador, El Salvador, Paraguay, Uruguay y Venezuela. Grupo 3: Bolivia, Guatemala, Honduras, Nicaragua, Panamá, Perú, R. Dominicana. 55
MÉTODOS ESTADÍSTICOS MULTIVARIANTES PARA LA INVESTIGACIÓN
Las medias de las variables para cada grupo aparecen a continuación y dan una idea del perfil de cada uno de ellos: Conglomerado 1
Conglomerado 2
Conglomerado 3
Calorías
3002.75
2613.87
2186.00
Grasas
88.00
74.50
52.85
Proteínas
78.00
69.12
54.28
Tabla 3.5 Medias del consumo de calorías, grasas y proteínas en cada conglomerado
El conglomerado 1 es el que más consume calorías, grasas y proteínas. Ejemplo: tasas de desempleo
Para este ejemplo se han utilizado los datos correspondientes a las tasas de desempleo de 17 países de América Latina según la OIT, mismos que se utilizaron en el capítulo anterior y que corresponden a los años 2000, 2001, . . . , 2009. Usando el software estadístico SPSS y aplicando el método K-medias para tres grupos, se obtuvieron los siguientes conglomerados: Conglomerado 1: Argentina, Colombia, Panamá, R. Dominicana, Uruguay, Venezuela. Conglomerado 2: Brasil, Chile, Ecuador, Nicaragua, Paraguay y Perú. Conglomerado 3: Bolivia, C. Rica, El Salvador, Honduras, México. Tasas de desempleo durante el año
Medias Conglomerado 1
Medias Conglomerado 2
Medias Conglomerado 3
2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
14.85 16.13 17.07 16.92 14.95 13.33 11.87 10.22 9.20 10.00
5.48 5.84 5.96 6.12 6.24 6.64 5.78 5.40 5.22 6.82
8.57 9.72 11.17 10.68 9.87 8.62 8.38 7.72 7.73 8.32
Tabla 3.6 Perfil de los conglomerados 56
Capítulo 3. Análisis de conglomerados
Si se usan los dos primeros componentes principales de las variables X1, X2, . . . , X9, que corresponden a las series de las tasas de desempleo de los años 2000, 2001, . . . , 2009, respectivamente, se tendrá que los tres conglomerados obtenidos por el método K-medias son los mismos que los derivados de las nueve variables originales. Ejemplo: paquetes turísticos
Una empresa de turismo realizó una encuesta en una muestra de 100 clientes para averiguar la importancia que estos asignan a ciertos aspectos cuando realizan un viaje turístico. Las variables consideradas fueron: X1 = “Importancia que se otorga al entorno”. X2 = “Importancia que se otorga a la gastronomía”. X3 = “Importancia que se otorga al costo del viaje”. X4 = “Importancia que se otorga a la diversión nocturna”. X5 = “Importancia que se otorga al alojamiento”. X6 = “Importancia que se otorga al arte y la cultura”. Los puntajes para los cinco primeros clientes se consignan en la siguiente tabla: Clientes
X1
X2
X3
X4
X5
X6
1
7.63
7.63
8.47
11.06
3.39
61.02
2
30.20
4.50
3.25
18.05
13.53
11.28
3
22.72
6.32
46.18
21.52
10.76
25.32
4
20.63
3.32
25.68
19.81
10.76
8.49
5
40.91
6.11
7.37
4.31
6.42
27.27
...
...
...
...
...
...
...
Tabla 3.7 Puntajes de los cinco primeros clientes
Usando el método no jerárquico se formaron tres grupos o conglomerados. 57
MÉTODOS ESTADÍSTICOS MULTIVARIANTES PARA LA INVESTIGACIÓN
En la siguiente tabla se observa el perfil de cada conglomerado, usando las medias de las variables. Variables
Congl. 1
Congl. 2
Congl. 3
X1: Imp. entorno
9.24
16.63
46.85
X2: Imp. gastronomía
6.12
11.29
7.62
X3: Imp. costo viaje
14.79
38.15
8.34
X4: Imp. distracción noct.
32.95
8.30
10.56
7.63
10.63
14.37
24.41
13.55
9.58
X5: Imp. alojamiento X6: Imp. arte y cultura
Tabla 3.8 Perfil de los conglomerados
Se observa que los elementos del conglomerado 1 le dan mayor importancia a la distracción nocturna, al arte y la cultura y le otorgan menor importancia a la gastronomía. Los elementos del conglomerado 2 le dan mayor importancia al costo del viaje y al entorno pero menor importancia a la vida nocturna. Los elementos del conglomerado 3 le dan importancia al entorno y al alojamiento pero menor importancia a la gastronomía.
3.4. Recomendaciones prácticas 3.4.1. Número de conglomerados
El número de conglomerados y los resultados que se obtienen con estas técnicas son cuestiones que deben tomarse con cuidado y que no son tan fáciles como parecen. Por lo general, no se trata de encontrar simplemente un número óptimo de conglomerados que funcionen bien desde el punto de vista teórico, sino también que sean fáciles de interpretar y que funcionen en la práctica. La recomendación es iniciar el agrupamiento con el método jerárquico y utilizar un número K de conglomerados que sean interpretables. Posteriormente, se sugiere aplicar un método no jerárquico usando el número de conglomerados previamente encontrado. Si las técnicas de agrupamiento se usan para encontrar datos atípicos, antes de buscar un número óptimo de conglomerados habrá que explorar conglomerados o segmentos que tengan un número pequeño de elementos. Cuando las técnicas de conglomerados se aplican para segmentar mercados, es recomendable tener a lo más ocho segmentos; si esto no ocurre, la segmen- tación se vuelve compleja. 58
Capítulo 3. Análisis de conglomerados
Si se aplica el método de K-medias para determinar el número K, se acostumbra usar el índice definido por: F=
B(K ) − B(K + 1) , B(K + 1)/(n − K − 1)
en donde: K
p
n
k B(K ) = 兺 k =1 兺j =1 兺 i =1(x ijk − x jk )2,
K = es el número de conglomerados, nk = es el número de elementos en el k - ésimo conglomerado, xijk = es el valor que le corresponde al i - ésimo elemento en la variable j en el k-ésimo conglomerado. Este índice, llamado seudo F, expresa la dispersión dentro de los conglomerados para todas las variables. Si el índice F para K conglomerados es mayor que 10, se deberá considerar un conglomerado más. En todo caso, el investigador deberá tener en cuenta que son las consideraciones externas y las restricciones prácticas las que influyen en la elección del número de conglomerados. 3.4.2. Variables estandarizadas y categóricas
Las medidas de distancia son altamente influenciadas por las unidades de medida de cada variable. Las variables con mayores unidades tienen mayor influencia en la distancia. Para evitar este inconveniente, se acostumbra estandarizar previamente las variables, quitando las unidades de medida. Los métodos descritos son válidos cuando las variables son numéricas; cuando las variables son categóricas, éstas pueden transformarse a variables cuantitativas usando el análisis de correspondencias. (El análisis de correspondencias es una técnica multivariada análoga al análisis factorial en donde las variables que se utilizan son categóricas.) 3.4.3. Validación de los conglomerados
La técnica de agrupamiento utilizada deberá producir conglomerados que internamente sean homogéneos pero heterogéneos entre ellos. Es posible que los resultados cumplan con este requerimiento; sin embargo, no se gana mucho si los agrupamientos no aportan buena información al investigador. Se persigue que la técnica permita: 59
MÉTODOS ESTADÍSTICOS MULTIVARIANTES PARA LA INVESTIGACIÓN
• Producir aglomeraciones significativas que aporten información para
cumplir con los objetivos inicialmente propuestos por el investigador. Ello se puede revisar con los resúmenes numéricos de las variables en cada conglomerado o usando variables adicionales que no han sido utilizadas en el desarrollo de la técnica. • Producir conglomerados que sean insensibles a cambios en alguno de los atributos que se han considerado en el desarrollo de la técnica.
3.4.4. Interpretación de los resultados
Una vez construidos los conglomerados, el investigador debe completar la tarea al describir e interpretar los conglomerados formados. Los conglomerados pueden describirse al analizar los resúmenes numéricos de las variables que se han usado en cada conglomerado construido. La interpretación de los conglomerados se facilita cuando se usan variables auxiliares que no se han utilizado en su construcción; “cruzando” las categorías de la variable con los conglomerados si la variable auxiliar es categórica o comparando las medias de la variable en cada conglomerado cuando la variable es numérica. Los árboles de clasificación, Breiman y otros ( 1984), son usados a menudo para interpretar los conglomerados. Un árbol de clasificación es una metodología de clasificación supervisada que consta de una variable depediente categórica y un grupo de variables independientes, y que permite predecir las categorías de la variable dependiente a partir de las variables independientes. La construcción de los árboles genera reglas de clasificación a partir de los resultados. Usando los conglomerados formados como categorías y las variables iniciales como variables independientes, se pueden seguir las reglas generadas para interpretar el contenido de los conglomerados.
3.4.5. La reducción de la dimensión y la formación de los conglomerados
Los conglomerados pueden formarse al reducir previamente la dimensión mediante el análisis factorial o el de componentes principales, para luego usar los factores en la aplicación del procedimiento. Esto facilita la aplicación de los algoritmos; sin embargo, los conglomerados que se forman no son fáciles de interpretar y su formación puede ser influenciada por los primeros factores que explican la mayor variabilidad. La ventaja que ofrecen los factores aparece cuando su número se reduce a tal punto que se pueden representar gráficamente los datos y las variables. 60
Capítulo 3. Análisis de conglomerados
Ejemplo: mapa de pobreza
2.5 2.0 1.5 1.0 0.5 0.0
Suma de cuadrados de los grupos
3.0
Esta vez la base de datos A, introducida en la sección de componentes principales, es usada para obtener conglomerados mediante el método “k-medias”.
2
4
6
8
10
12
14
Núm. de conglomerados
Figura 3.3 El “codo” indica que el número de conglomerados adecuado es 3.
A partir de lo sugerido en el gráfico anterior, se han obtenido tres conglomerados: el conglomerado 1, que contiene a los departamentos con menor desarrollo, el conglomerado 2, formado con los departamentos con desarrollo intermedio y el conglomerado 3, que contiene los departamentos con mayor desarrollo.
Población rural Población sin agua Población sin desagüe ni letrinas Población sin electricidad Mujeres analfabetas Niños desnutridos
Congl. 1
Congl. 2
Congl. 3
0.5733 0.4400 0.2917 0.4933 0.2617 0.4017
0.3409 0.3409 0.2663 0.2663 0.1245 0.2509
0.0938 0.1475 0.1088 0.1388 0.0537 0.0850
Tabla 3.9 Perfiles de los conglomerados: medias de las variables en cada conglomerado
Conglomerados: Conglomerado 1: Amazonas, Apurimac, Ayacucho, Cajamarca, Huancavelica y Huánuco. 61
MÉTODOS ESTADÍSTICOS MULTIVARIANTES PARA LA INVESTIGACIÓN
Conglomerado 2: Ancash, Cusco, Junin, La Libertad, Loreto, Madre de Dios, Piura, Puno, San Martín y Tacna. Conglomerado 3: Arequipa, Callao, Ica, Lambayeque, Lima, Tacna y Tumbes. Las medias de los indicadores en cada conglomerado aparecen en la tabla anterior. Nota: los cálculos anteriores se realizaron con el lenguaje estadístico R. Los códigos utilizados aparecen a continuación: ># Lectura de los datos > A = read.csv(“/Users/carlosveliz/A.csc”, header = T) # Determinación del número de conglomerados > FF = (nrow(A[,−1])−1)*sum(apply(A[,−1], 2, var)) > for (i in 2:15) FF[i]<−sum(kmeans(A[,−1], centers=i )$withinss) > plot(1:15, FF, type = “b” , xlab = “Número de Conglomerados”, y lab = “Suma de cuadrados dentro de los grupos”) # Obtención de los conglomerados > cl = kmeans(A[,−1], 3) # Obtención de los centroides de los conglomerados > aggregate(A[,−1], by = list(cl$cluster), FUN=mean)
62
CAPÍTULO 4
ESCALAMIENTO MULTIDIMENSIONAL 4.1. Introducción El escalamiento multidimensional involucra una serie de técnicas multivariantes de interdependencia de variables que permiten, con el mayor grado posible de fidelidad, el posicionamiento de n objetos (periódicos, políticos, ideas, etcétera) en un espacio métrico de baja dimensión, a partir de las distancias o de las similitudes que entre ellos establece un grupo de individuos. La configuración resultante se crea a partir de la minimización de una función de pérdida llamada Stress. El escalamiento multidimensional permite, por ejemplo, ubicar n periódicos en un espacio euclidiano de dos dimensiones de tal manera que, si un individuo considera que dos de los periódicos son similares, la distancia entre ellos en este espacio será más pequeña que la distancia entre otro par cualquiera de los periódicos considerados. Las proximidades evaluadas numéricamente se interpretan con mayor facilidad de manera visual. Estas técnicas comenzaron a desarrollarse en el campo de la Sicología en el siglo XIX, pero posteriormente se aplicaron a diversos campos e incluso suplieron a otras técnicas multivariadas. Un ejemplo geométrico común relacionado con el escalamiento multidimensional es el siguiente: se dispone de un mapa en dos dimensiones en donde se encuentran representadas K ciudades. Utilizando un escalímetro para leer las distancias en el mapa, se puede construir una matriz cuadrada con las distancias euclidianas calculadas entre las ciudades. Sin embargo, si esta matriz de distancias estuviera disponible, no sería tan fácil situar a las K ciudades en el mapa de tal manera que se reflejen, aun de manera aproximada, las distancias que se observan en la matriz. El escalamiento multidimensional resuelve el problema al posicionar a las ciudades en un espacio euclidiano en donde las distancias que se observan son muy cercanas a las distancias originales. Esta idea se replica en diferentes campos, como en el análisis de mercados, para “posicionar” productos, marcas o servicios partiendo de matrices de distancias construidas con base en mediciones directas de atributos o partiendo de matrices de similaridades (o disimilaridades) al no conocer los atributos o al no utilizar preguntas que pudieran influir en las personas entrevistadas. Siguiendo el proceso descrito, en lugar de representar las preferencias de productos, ideas, servicios, etcétera, en una sola dimensión (escalas unidimensionales), se crean mapas perceptuales. Estos facilitan el estudio de una serie de problemas complejos que se presentan en las Ciencias Sociales y que 63
• • • • • • • • • •
Análisis de componentes principales Análisis factorial exploratorio Análisis de conglomerados Escalamiento multidimensional Modelo de regresión lineal Análisis discriminante Modelo de regresión logística Análisis univariado y multivariado de la varianza Análisis de ecuaciones estructurales Análisis de clases latentes
Análisis multivariante
En el presente material, el lector encontrará las siguientes herramientas:
métodos estadísticos multivariantes para la investigación
Los métodos estadísticos multivariantes que se desarrollan en este texto permiten el estudio de las interrelaciones que pueden existir entre los valores de las variables, la explicación de valores de una variable en términos de los valores de otras variables y el análisis de las relaciones estructurales que entre variables no medibles se puedan construir, facilitando de este modo la presentación y comprensión de la información extraída de los datos.
Véliz
En la actualidad, muchas de las investigaciones y aplicaciones que se realizan en diferentes campos del conocimiento dan lugar a bases de datos estadísticos que corresponden a muchas variables. La información que es posible obtener de estas bases de datos es más rica cuando se considera la extracción de los patrones que pueden existir conjuntamente entre los valores de las variables. En este sentido, los diversos métodos y modelos estadísticos multivariantes son muy útiles para el investigador.
Análisis multivariante métodos estadísticos
ISBN-13: 978-987-3889-32-5 ISBN-10: 987-3889-32-9
multivariantes para la investigación C A R LO S V É L I Z C A P U Ñ AY
Visite nuestro sitio en http://latinoamerica.cengage.com
9 789873 889325