08:48
Página 1
Jesús Bouso Freijo es Jefe de Área de Estadística en el Departamento de Banco de Datos del Centro de Investigaciones Sociológicas. Licenciado en Matemáticas y funcionario del Cuerpo Superior de Estadísticos del Estado, ha obtenido el Diploma de Estudios Avanzados con un trabajo acerca de la clasificación de series temporales, implementado en R. Es profesor del Curso de Posgrado de Formación de Especialistas en Investigación Social Aplicada y Análisis de Datos del Centro de Investigaciones Sociológicas, donde ha impartido docencia acerca del programa R. Además de su labor en el CIS, ha dedicado su vida profesional al análisis estadístico de datos en el Instituto Nacional de Estadística y en la Comisión Nacional de la Competencia. Su publicación más reciente es “La evolución futura de los apellidos. Una modelización con cadenas de Markov no homogéneas” (Revista Estadística Española 2012) con María Cristina González Fidalgo.
Cuadernos Metodológicos 48
22/4/13
48
El paquete estadístico R Jesús Bouso Freijo
ISBN 978-84-7476-613-4
9 788474 766134
El paquete estadístico R Jesús Bouso Freijo
0 Portada Cua Meto. 48
R es un paquete estadístico de elevada y creciente importancia para la implementación de técnicas estadísticas en diversas disciplinas científicas aplicadas. Su carácter gratuito, la multitud de recursos disponibles para el programa y su elevada calidad tanto analítica como gráfica hacen que gradualmente se vaya convirtiendo en una especie de lengua franca para el análisis estadístico. Este volumen tiene como finalidad introducir al lector a su uso de modo claro y minucioso, sin presuponer conocimiento alguno del programa. La obra está orientada al tratamiento de datos de encuesta en la investigación social y abarca una serie de técnicas para el manejo de este tipo de datos: estadística descriptiva, contrastes de hipótesis, análisis gráfico e incluso una introducción a la regresión lineal y a la regresión logística con R. Todo ello implementado con datos reales de encuestas de opinión, principalmente de estudios conducidos por el CIS. La documentación digital asociada al libro incluye todo el código utilizado en el texto, así como la resolución de todos los ejercicios propuestos y se halla disponible en www.cis.es/publicaciones/CM/
003_13 Aju 0 porta 48
29/4/13
08:54
Página 1
Cuadernos Metodológicos
48
El paquete estadístico R
Jesús Bouso Freijo
003_13 Aju 00 prim/Indice
29/4/13
08:54
Página 2
Consejo Editorial de la Colección Cuadernos Metodológicos DIRECTOR Félix Requena Santos, Presidente del CIS CONSEJEROS Francisco Alvira Martín, Universidad Complutense de Madrid Mª Ángeles Cea D´Ancona, Universidad Complutense de Madrid Jesús M. de Miguel Rodríguez, Universidad de Barcelona Modesto Escobar Mercado, Universidad de Salamanca J. Sebastián Fernández Prados, Universidad de Almería Juan Ignacio Martínez Pastor, Universidad Nacional de Educación a Distancia SECRETARIA Mª Paz Cristina Rodríguez Vela, Directora del Departamento de Publicaciones y Fomento de la Investigación del CIS Las normas editoriales y las instrucciones para los autores pueden consultarse en: http://www.cis.es/publicaciones/CM/ Todos los derechos reservados. Prohibida la reproducción total o parcial de esta obra por cualquier procedimiento (ya sea gráfico, electrónico, óptico, químico, mecánico, fotografía, etc.) y el almacenamiento o transmisión de sus contenidos en soportes magnéticos, sonoros, visuales o de cualquier otro tipo sin permiso expreso del editor.
COLECCIÓN «CUADERNOS METODOLÓGICOS», NÚM. 48 Catálogo de Publicaciones de la Administración General del Estado http://publicacionesoficiales.boe.es Primera edición, abril de 2013 © CENTRO DE INVESTIGACIONES SOCIOLÓGICAS Montalbán, 8. 28014 Madrid © Jesús Bouso Freijo ©
DERECHOS RESERVADOS CONFORME A LA LEY
Impreso y hecho en España Printed and made in Spain NIPO:
004-13-005-1 978-84-7476-613-4 Depósito legal: M. 7.437-2013 ISBN:
Fotocomposición e impresión: EFCA, S.A. Parque Industrial «Las Monjas». 28850 Torrejón de Ardoz (Madrid) El papel utilizado para la impresión de este libro es 100% reciclado y totalmente libre de cloro, de acuerdo con los criterios medioambientales de contratación pública.
003_13 Aju 00 prim/Indice
29/4/13
08:54
Página 3
Índice
INTRODUCCIÓN ........................................................................................
7
1. EL PAQUETE ESTADÍSTICO R. INSTALACIÓN Y PRIMEROS PASOS. 1.1. Instalando R ................................................................................... 1.1.1. Instalación de R en Windows ............................................. 1.1.2. Instalación de R en Mac OS X............................................ 1.1.3. Instalación de R en Linux ................................................... 1.2. Estructura de una sesión con R..................................................... 1.3. Una primera sesión con R: vectores, matrices y operaciones elementales .......................................................................... 1.3.1. Vectores ............................................................................... 1.3.2. Algunos comandos básicos ................................................. 1.3.3. Cómo guardar la sesión de trabajo. Scripts en R............... 1.3.4. Algunas funciones útiles trabajando con vectores ............ 1.3.5. Matrices ............................................................................... 1.3.6. Algunas funciones básicas para operar con vectores y matrices en R....................................................................... 1.3.7. Variables de tipo carácter ................................................... 1.3.8. Hojas de datos ..................................................................... 1.3.9. Clases de variables............................................................... 1.4. R Commander: un interfaz de R para la realización de análisis estadísticos........................................................................... 1.4.1. Instalación de R Commander en Windows ....................... 1.4.2. Instalación de R Commander en Linux/Unix .................... 1.4.3. Instalación de R Commander en Mac OS X ...................... 1.5. Ejercicios ........................................................................................
13 13 14 15 15 16
37 38 42 43 44
2. IMPORTACIÓN Y EXPORTACIÓN DE DATOS CON R y R COMMANDER ....................................................................................... 2.1. Directorio de trabajo ......................................................................
47 47
18 19 23 24 26 27 33 33 34 36
003_13 Aju 00 prim/Indice
4
29/4/13
08:54
Página 4
CUADERNOS METODOLÓGICOS 46
2.2. Importación de datos ..................................................................... 2.2.1. Importación de datos de tipo texto con separadores (.txt)...................................................................................... 2.2.2. Importación de datos de tipo texto con ancho fijo ........... 2.2.3. Importación de datos desde libros Excel ........................... 2.2.4. Importación de datos desde ficheros de SPSS (.sav) ........ 2.3. Exportación de datos ..................................................................... 2.3.1. Exportación de datos a formato texto (.txt) con separadores..................................................................................... 2.3.2. Exportación de datos de tipo texto con ancho fijo............ 2.3.3. Exportación de datos a libros Excel................................... 2.3.4. Exportación de datos legibles por SPSS ............................ 2.3.5. Exportación de datos legibles por Stata o SAS ................. 2.4. Los conjuntos de datos incluidos en R.......................................... 2.5. Ejercicios ........................................................................................
49
64 66 67 68 68 69 71
3. MANIPULACIÓN DE DATOS CON R ................................................... 3.1. Recodificación de variables ........................................................... 3.2. Cálculo de nuevas variables ........................................................... 3.3. Filtrado de datos............................................................................. 3.4. Una aplicación del filtrado: la depuración de datos..................... 3.4.1. Depuración marginal o variable a variable........................ 3.4.2. Depuración cruzada ............................................................ 3.5. Unión de ficheros con R ................................................................ 3.6. Ejercicios ........................................................................................
73 74 78 80 84 85 87 88 99
4. ESTADÍSTICA BÁSICA CON R ............................................................. 4.1. Conversión de variables numéricas en factores ........................... 4.2. Medidas de tendencia central, posición, dispersión y forma ...... 4.3. Distribuciones de frecuencias. Cálculo de frecuencias marginales.. 4.4. Tablas de contingencia. Cálculo de cruces entre variables.......... 4.5. Ejercicios ........................................................................................
103 103 107 113 116 124
5. CONTRASTES DE HIPÓTESIS CON R................................................ 5.1. Tests de medias .............................................................................. 5.1.1. Contraste sobre la media .................................................... 5.1.2. Contraste de igualdad de medias ....................................... 5.1.3. Contraste t para datos relacionados................................... 5.2. Tests de proporciones .................................................................... 5.2.1. Contraste sobre la proporción de una población .............. 5.2.2. Test de proporciones para dos muestras ...........................
127 130 130 133 135 138 138 141
49 53 55 61 63
003_13 Aju 00 prim/Indice
29/4/13
08:54
Página 5
ANÁLISIS DE DATOS INCOMPLETOS EN CIENCIAS SOCIALES
5
5.3. Tests de varianzas .......................................................................... 5.3.1. Contraste de igualdad de dos varianzas............................. 5.3.2. Contraste de homogeneidad de varianzas de Bartlett....... 5.3.3. Contraste de igualdad de varianzas de Levene .................. 5.4. Contrastes no paramétricos........................................................... 5.4.1. Test de suma de rangos de Wilcoxon para dos muestras . 5.4.2. Test de Wilcoxon para datos emparejados ........................ 5.4.3. Test de suma de rangos de Kruskal-Wallis ........................ 5.5. Análisis de varianza ANOVA de un factor .................................... 5.6. Ejercicios ........................................................................................
144 144 147 149 151 152 154 157 159 162
6. GRÁFICOS CON R ................................................................................. 6.1. Histograma ..................................................................................... 6.2. Gráficos de barras .......................................................................... 6.3. Gráficos de sectores ....................................................................... 6.4. Diagramas de caja .......................................................................... 6.5. Representación gráfica de series temporales: la función plot()... 6.6. Ejercicios ........................................................................................
165 166 170 177 183 187 192
7. TÉCNICAS BÁSICAS DE MUESTREO CON R .................................... 7.1. Muestreo aleatorio simple sin reposición ..................................... 7.2. Tratamiento de datos ponderados................................................. 7.3. Muestreo aleatorio estratificado SR con afijación proporcional.. 7.4. Muestreo aleatorio estratificado SR, con afijación uniforme ..... 7.5. Ejercicios ........................................................................................
195 198 198 199 203 205
8. REGRESIÓN Y REGRESIÓN LOGÍSTICA CON R ............................. 8.1. Correlación ..................................................................................... 8.2. Regresión lineal .............................................................................. 8.3. Regresión logística ......................................................................... 8.4. Ejercicios ........................................................................................
207 209 216 226 231
CONCLUSIÓN: PROFUNDIZANDO EN R ................................................
235
BIBLIOGRAFÍA...........................................................................................
241
ÍNDICE DE INSTRUCCIONES ..................................................................
243
ÍNDICE DE ILUSTRACIONES...................................................................
245
ÍNDICE DE GRÁFICOS ..............................................................................
246
003_13 Aju 00 prim/Indice
29/4/13
08:54
Pรกgina 6
003_13 Aju 000 Intro
29/4/13
08:55
Página 7
Introducción
La revolución informática y de las comunicaciones ha llevado consigo no ya una utilización del potencial de cálculo de los ordenadores como herramienta para la estadística, sino a una integración de ese poder de cálculo y gráfico en la ciencia estadística en sí misma. En las últimas décadas se han creado diversas técnicas estadísticas, tanto algorítmicas como gráficas, que jamás hubieran visto la luz de no existir la apabullante capacidad de cálculo que facilitan los modernos ordenadores personales, tan basadas como están aquellas en el potencial de estos. En la actualidad, existe una amplia diversidad de software estadístico comercial con el que cubrir las necesidades que surgen en el ámbito de la investigación cuantitativa en general y en las ciencias sociales en particular: SAS, SPSS, Stata, EViews, S-Plus, etc. En líneas generales, puede decirse que los programas existentes abarcan un abanico de contenidos muy amplio y son de una muy elevada calidad. De este modo, en una introducción a un manual como este, es imprescindible motivar las razones que hacen que el programa R resulte aconsejable para muchos usuarios. En ese sentido, el rasgo principal a destacar en R es su condición de producto gratuito de código abierto. Efectivamente, el programa se puede descargar libremente de Internet en pocos minutos sin coste económico alguno y su condición de producto de código abierto permite que R crezca muy rápidamente, debido a múltiples contribuciones de usuarios del mismo desde cualquier parte del planeta. Cualquiera de esas contribuciones sobre un tema específico se puede instalar rápidamente, también de modo libre y gratuito. En cuanto a la calidad de R como producto, hay que decir que se trata de un programa plenamente competitivo en cuanto a flexibilidad, rapidez y prestaciones gráficas. Como muchos otros productos de código abierto, R se distribuye bajo licencia GNU GPL. Respecto a su sintaxis, cabe reseñar que es muy similar a la del programa S-Plus. También resulta parecida a la del programa de cálculo matemático general Matlab y su émulo gratuito Octave. Podría decirse que manifiesta incluso cierta parentela con C/C++, si bien estos últimos no son programas estadísticos.
003_13 Aju 000 Intro
8
29/4/13
08:55
Página 8
CUADERNOS METODOLÓGICOS 48
El objetivo de este manual es ofrecer al lector una introducción al manejo del paquete estadístico R. Dada la amplitud y la versatilidad del programa, la selección de contenidos ha tratado de apostar de modo claro por una orientación hacia las técnicas básicas utilizadas en la investigación cuantitativa en el terreno de las ciencias sociales. Hay que decir, no obstante, que la mayoría de los conceptos presentados son igualmente aplicables a otras disciplinas. Históricamente, la génesis del proyecto R tuvo lugar en 1990, cuando los profesores Ross Ihaka y Robert Gentleman decidieron unir sus esfuerzos en el Departamento de Estadística de la Universidad de Auckland (Nueva Zelanda) para crear un nuevo software estadístico. Para ello incorporaron la sintaxis del software S-Plus, la versión comercial del software S y, dado que el nombre de ambos creadores comenzaba por R y que el lenguaje procedía del S, acordaron bautizar al nuevo lenguaje jocosamente como «R». En 1994 ve la luz la primera versión del programa, tomando como licencia la GNU de la Free Software Foundation. Para coordinar la atención al creciente número de usuarios del programa, se creó poco después el Comprehensive R Archive Network (CRAN), con sede en Viena, que contaba ya con un repositorio en el que almacenar las contribuciones libres al software que iban aflorando. También se funda el R-Core Team, un equipo de unas 20 personas encargadas de coordinar el desarrollo del programa, incluidas las múltiples contribuciones al mismo (paquetes con funciones específicas). En el año 2000 se lanza una versión de R con un aspecto ya similar al actual. Eso sí, con muchos menos paquetes de los que ahora existen, puesto que dicho número ha crecido de modo muy notable en la última década y ya supera los 4.000. Estos paquetes son elaborados por multitud de profesionales ligados a la estadística y otras materias afines, en muchas ocasiones, pertenecientes a la élite académica de la estadística mundial. Asimismo, el programa está en la actualidad muy bien documentado, existiendo un número considerable de libros publicados sobre R, además de multitud de manuales de descarga gratuita por Internet. De hecho, cada paquete específico dispone de su propio manual de uso. El programa dispone ya de diversos modos de conexión con otro software, así como de algunas interfaces de usuario que permiten facilitar la ejecución de algunas tareas. En particular, cuenta con una interfaz denominada R Commander, que permite el manejo, mediante los habituales menús de ventanas, de algunas de las funciones básicas del programa. Desafortunadamente, muchas otras tareas no pueden implementarse a través de R Commander y han de ser acometidas mediante código. No obstante, en aras de aprovechar las posibilidades ofrecidas por este interfaz, el libro ha optado por una doble orientación: los conceptos se exponen en primer lugar utilizando código y, a continuación, siempre que sea posible, se explica el modo de lograr los mismos objetivos utilizando R Commander.
003_13 Aju 000 Intro
29/4/13
08:55
EL PAQUETE ESTADÍSTICO R
Página 9
9
En cuanto a la estructura del libro, hay que comenzar reseñando que, a lo largo del mismo, la teoría estadística que subyace a las técnicas en él contenidas solo es introducida en la medida en que resulta necesaria como referencia para denotar y explicar los procedimientos. En todos los capítulos se han incluido, sin embargo, referencias bibliográficas que el lector que precise una introducción teórica a ciertos conceptos puede utilizar. La concepción del manual es eminentemente práctica, hasta el punto de que el texto incluye absolutamente todo el código que se va utilizando, con el objetivo de que el lector no se pierda en ningún momento y pueda replicar perfectamente cada una de las técnicas descritas. De modo adicional, la integridad del código utilizado tanto en la exposición teórica de los temas como el preciso para resolver los ejercicios propuestos al final de cada capítulo se halla disponible entre la documentación digital del libro, accesible en la web. En cuanto a los datos utilizados en los ejemplos y ejercicios del texto, se ha decidido trabajar a lo largo de todo el libro de modo reiterado con unos conjuntos escogidos de información (en particular, ciertas variables del estudio 2815 del CIS). Estos datos, que abarcan una casuística suficiente para los fines pedagógicos de la obra, permiten al lector alcanzar un mayor grado de familiaridad con los mismos, lo que es muy de agradecer en una primera fase de aprendizaje de un lenguaje estadístico, árida por naturaleza. También simplifican la tarea de descarga de la información necesaria para poder seguir el texto. El cuaderno no presupone ningún conocimiento previo de R. Por lo tanto, comienza con un capítulo que trata de servir de guía y apoyo al lector para sus primeros pasos con el programa, incluyendo su instalación y el manejo de sus funcionalidades básicas. También se ha considerado conveniente incluir aquí una introducción al tratamiento de vectores y matrices con R. La razón para ello es doble: por una parte, el captar cuanto antes el modo en que el programa trata estos elementos resulta crucial para llegar a alcanzar una cierta soltura con R; por otro lado, resultaba necesario elegir algún tema que sirviera de excusa para comenzar a explicar el modo de trabajar con el programa, para echar a andar con R. Se podría argumentar que, previamente a la mencionada introducción al modo de operar elemental en R, habría sido deseable incluir un capítulo dedicado a la lectura y escritura de ficheros desde R. Sin embargo, hemos considerado más conveniente comenzar mostrando el modo de operar con pequeños conjuntos de información en un entorno aislado, sin lectura de datos externos para, una vez iniciados en estas técnicas, proseguir con el capítulo 2, en el que se tratan de modo muy detallado los modos de importar y exportar con R información desde múltiples plataformas. Es decir, primero se estudia el modo de manejarnos en la isla de modo incomunicado y, a continuación, cómo traer y llevar la información a dicha isla. Una vez ya familiarizados con las vías que ofrece R para intercambiar información en otros formatos, llega el momento de aprender a disponer los
003_13 Aju 000 Intro
10
29/4/13
08:55
Página 10
CUADERNOS METODOLÓGICOS 48
conjuntos de datos del modo que más nos convenga para su posterior análisis estadístico. En el capítulo 3 se abordan, entre otras técnicas, la recodificación, la creación de nuevas variables, la unión de ficheros y el filtrado de datos. Este último resulta de muy sencillo manejo en R y presenta una enorme utilidad sirviendo, por ejemplo, como herramienta para la depuración de la información disponible. En el capítulo 4 comenzamos a mostrar cómo explotar la información estadística que, utilizando las técnicas de los dos capítulos anteriores, ha de encontrarse ya convenientemente tratada para que le saquemos el partido que más nos interese. El capítulo se centra en un tratamiento descriptivo, prácticamente sin técnicas inferenciales, en el que se introducen las medidas de tendencia central, posición, dispersión y forma, así como el modo de calcular distribuciones de frecuencias marginales y tablas de contingencia con R, tan usuales en el ámbito de las ciencias sociales. Mención especial merece el capítulo 5, que aborda de modo monográfico las pruebas de hipótesis, en las que, en muchos casos, se obtienen al mismo tiempo los intervalos de confianza asociados. Se ha hecho un esfuerzo adicional por cubrir la mayor parte de los contrastes que son de aplicación habitual. Las hipótesis a contrastar aluden a las medias, las proporciones y las varianzas. Se ha prestado también atención a los contrastes no paramétricos, más convenientes cuando no resulta razonable la hipótesis de normalidad o se trabaja con variables ordinales. También en este capítulo se incluye el análisis ANOVA de un factor. Todo programa estadístico ha de suministrar al usuario unas buenas prestaciones gráficas. En el capítulo 6 mostramos que R cumple perfectamente su función en este sentido. Desafortunadamente, debido a la ya aludida profusión de posibilidades que ofrece R, solo se ha podido incluir una cantidad limitada de tipos de gráficos, que se han considerado especialmente relevantes. También ha sido imprescindible limitar las muchas opciones disponibles para especificar los detalles de dichos gráficos. El capítulo 7 presenta una introducción muy somera a las técnicas de muestreo elementales. Se ha optado por incluir este tema dado que los datos de opinión se obtienen habitualmente mediante investigación poblacional por muestreo y porque resultan el marco más natural y pedagógico para presentar el modo en que en la práctica se presentan los conjuntos de datos ponderados y el consiguiente tratamiento que R permite hacer con los mismos. El desarrollo del tema también permite una utilización muy específica de la notación matricial para tratar con conjuntos de datos y supone, por tanto, un conveniente repaso a muchos de los conceptos introducidos en los primeros capítulos. El último capítulo aborda dos técnicas de análisis de datos especialmente habituales en la investigación empírica en ciencias sociales: la regresión y la regresión logística. Aprovechando la sencillez que ofrece R en este terreno, se ha incluido un tratamiento somero pero no por ello exento de cierto rigor.
003_13 Aju 000 Intro 27/6/13 18:28 Página 11
EL PAQUETE ESTADÍSTICO R
11
En particular, el tratamiento de la regresión incluye un apartado acerca de la diagnosis del modelo, aspecto fundamental y a menudo olvidado al abordar de modo práctico estas cuestiones. Quisiera subrayar que me ha resultado especialmente duro elegir la materia que formaría parte de este libro, dada la apabullante cantidad y calidad de materiales disponibles. No obstante espero que el buen criterio me haya acompañado en la selección y que este cuaderno cumpla el objetivo que ha sido la fuerza motriz del autor durante la gran cantidad de horas dedicadas a su elaboración: conducir al lector de modo suave y agradable en su viaje hacia el dominio de las posibilidades ofrecidas por R. Queda agradecer al Consejo Editorial de la colección Cuadernos Metodológicos sus valiosas aportaciones que, sin ninguna duda, han servido para que el texto final no adoleciera de alguno de los fallos y carencias de la versión inicial. También merece un sincero agradecimiento el evaluador anónimo de la editorial, por su minuciosa revisión llena de esfuerzo y tino. Sin duda, aun así la versión publicada del cuaderno no estará exenta de imperfecciones, cuya responsabilidad solo podrá ser atribuida a su autor. Finalmente, en modo alguno sería lícito terminar esta introducción sin un enorme agradecimiento a todas las personas que han invertido muchas horas de su tiempo para que una herramienta tan útil y poderosa como el paquete R haya podido desarrollarse como programa libre y gratuito. Resulta reconfortante que la revolución de las comunicaciones haga posible que se genere un producto tan complejo y cohesionado como este a través de contribuciones de miles de personas dispersas por todo el planeta. En momentos como estos en que escribo estas líneas, cuando el mundo está sufriendo una crisis devastadora, no viene mal alzar la voz en medio del fragor de negatividad para recordar que, a pesar de todo, el hombre sigue haciendo cosas maravillosas.
003_13 Aju 000 Intro
29/4/13
08:55
Pรกgina 12
003_13 Aju 01
29/4/13
08:56
Página 13
1 El paquete estadístico R. Instalación y primeros pasos Como ya se ha apuntado, R se puede descargar libremente de la web. En este capítulo se explican con detalle los pasos a seguir para conseguir que R forme parte del software instalado en nuestro ordenador. El lector podrá comprobar por sí mismo que resulta muy sencillo disponer de esta útil herramienta para el tratamiento de datos. Seguidamente, se muestra el modo de dar los primeros pasos con el programa. Como R está orientado de forma clara hacia el cálculo, se hace imprescindible, o al menos muy recomendable, iniciar cualquier manual sobre R con una introducción al manejo de los vectores, las matrices y las operaciones elementales en este lenguaje. Se recomienda encarecidamente al lector esmerarse al máximo en la lectura y asimilación de este capítulo puesto que, si bien no le reportará una utilidad inmediata para la consecución de objetivos prácticos, de su adecuada comprensión dependerá en gran medida su éxito en el manejo del programa.
1.1.
Instalando R
La página web oficial del paquete estadístico R es http://cran.r-project.org/. Desde la misma se puede descargar la última versión del programa, así como multitud de información relacionada con R. En la ilustración siguiente podemos ver el aspecto que presenta dicha página. Una rápida exploración a la página nos permite comprobar que, desde ella, se puede acceder a la descarga del programa para diversos sistemas operativos. También hay un apartado de manuales y otro de paquetes (packages). Estos últimos, como ya hemos anticipado, no son más que funcionalidades extras que ofrece el programa sobre una materia concreta o sobre una miscelánea de temas. También se puede comprobar que hay un apartado de preguntas frecuentes (FAQ). Poco a poco, conviene ir familiarizándose con esta página, a la que cualquier usuario de R recurre con cierta asiduidad.
003_13 Aju 01
29/4/13
08:56
Página 14
14
CUADERNOS METODOLÓGICOS 48 ILUSTRACIÓN 1.1 PÁGINA WEB OFICIAL DEL PROGRAMA R
El programa R cuenta con la ventaja de que la descarga del programa, además de ser gratuita, es rápida y sencilla. A continuación se describen sus pasos para el caso de utilización de Windows, Linux y Mac como sistemas operativos 1. 1.1.1.
Instalación de R en Windows
Para instalar R utilizando Windows como sistema operativo se han de llevar a buen término los siguientes pasos: 1 El lector que desee consultar en mayor detalle el proceso de instalación en los diferentes sistemas operativos puede acudir a la información suministrada en la página web del Proyecto R http://cran.r-project.org (por ejemplo, en el apartado FAQ se dispone de instrucciones detalladas para la instalación en Windows y Mac). También resulta útil a este respecto el documento «R Installation and Administration», al que se accede desde la misma página web, dentro del apartado «Manuals». En este mismo apartado también se ubican otros manuales con mucha información útil, entre los que cabe destacar el documento «An Introduction to R», que contiene unas notas introductorias acerca de este lenguaje y su utilización básica.
003_13 Aju 01
29/4/13
08:56
Página 15
EL PAQUETE ESTADÍSTICO R
a)
b) c)
d)
e)
15
Desde la página web referida con anterioridad pulsar en el link «Download R for Windows», dentro del apartado «Download and Install R». Se abrirá la página «R for Windows». Desde la misma, pinchar la opción «base». Esto nos conducirá de modo directo a un link con la última versión de R disponible. Elegir dicha opción y a continuación pulsar el botón «Ejecutar». De esta manera comienza la descarga del programa. Tras unos segundos, el programa de instalación iniciará un diálogo con el usuario. En dicho diálogo, resulta suficiente con aceptar todas las opciones que se nos ofrezcan por defecto para completar con éxito en poco tiempo la instalación. Tras los sencillos pasos anteriores, el R ya ha de formar parte del software instalado en nuestro ordenador. La instalación ejecutada del modo descrito genera de modo automático un icono en el escritorio, desde el que se puede acceder directamente al programa.
1.1.2. Instalación de R en Mac OS X Para instalar R para Mac se ha de proceder como sigue: a) b)
c)
d)
1.1.3.
Desde la página web oficial de R pulsar en el link «Download R for MacOS X», dentro del apartado «Download and Install R». Se abrirá la página «R for MacOS X». Desde la misma, en el apartado «Files», realizar un doble click en el fichero de extensión .pkg (el que indica que es la última versión del programa). Esto nos conducirá a algunos sencillos menús, en los que resulta suficiente aceptar todas las opciones que se nos ofrezcan por defecto para completar con éxito en poco tiempo la instalación. Únicamente es necesario precisar que, si deseamos utilizar el interfaz de usuario R Commander (que será parte de la materia de este libro), hay que instalar las librerías Tcl/Tk, del modo que se indica en la página de R. Tras los pasos anteriores, el R ya ha de formar parte del software instalado en nuestro ordenador. Para ejecutarlo, resulta suficiente con pinchar en aplicaciones sobre el fichero «R.app».
Instalación de R en Linux
Para instalar R desde Linux las acciones a realizar son las que se indican a continuación:
003_13 Aju 01
29/4/13
08:56
Página 16
16
CUADERNOS METODOLÓGICOS 48
a) b) c)
1.2.
Desde la página web oficial de R pulsar en el link «Download R for Linux», dentro del apartado «Download and Install R». Se abrirá la página «Index of bin/Linux». En ella se nos ofrecen cuatro distribuciones posibles de Linux: Debian, Red Hat, Suse y Ubuntu. Hemos de pinchar en la que prefiramos y, a partir de entonces, leer la información disponible acerca de las instrucciones de instalación y los contenidos de los ficheros que aparecen en cada caso.
Estructura de una sesión con R
Así las cosas, ya estamos en condiciones de que tenga lugar nuestra primera sesión con R. Al ejecutar el programa, nos aparece una pantalla muy similar a la siguiente: ILUSTRACIÓN 1.2 CONSOLA DE R
003_13 Aju 01
29/4/13
08:56
Página 17
EL PAQUETE ESTADÍSTICO R
17
Dicha pantalla da acceso a la realización de muchas y diversas tareas en R. Sin embargo, en lugar de relatar de modo exhaustivo en este momento inicial todas esas posibilidades, estas irán siendo introducidas a medida que vayan siendo precisas, en aras de que la lectura de este libro resulte menos árida. Enumeremos únicamente, por el momento, los tres modos fundamentales que utilizaremos para trabajar en R: a)
b)
c)
A través de la denominada «consola» de R. En realidad esta consola no es más que la pantalla que se exhibe en la ilustración 1.2. Desde la misma se pueden realizar muchas tareas, como introducir órdenes o comandos 2, consultar la lista de objetos que estamos manejando en nuestra sesión, solicitar ayuda de diversos tipos, etc. La consola resulta especialmente útil cuando pretendemos introducir comandos uno a uno o, dicho de otro modo, cuando queremos realizar tareas pasa a paso, comprobando en cada momento los resultados que vamos obteniendo. Utilizando el denominado R-Commander, un interfaz de usuario que permite ejecutar de un modo rápido y sin reparar en la sintaxis diversas funcionalidades del programa. Desafortunadamente, muchas de las posibilidades que ofrece R no se pueden aprovechar desde RCommander pero, aun así, resulta muy útil en las circunstancias adecuadas. Mediante la utilización de scripts. Denominamos script de R a un simple fichero de texto plano en el que figuran una serie de comandos ejecutables por R. El uso de scripts resulta casi imprescindible cuando se quiere introducir un programa basado en una secuencia de comandos compleja. Como es fácilmente comprensible para cualquiera mínimamente familiarizado con la programación, la utilización de scripts reporta multitud de beneficios, entre los que cabe destacar la inmediatez para ejecutar muchas veces un conjunto de órdenes interrelacionadas o programa, la claridad en la visualización de los comandos introducidos, la facilidad para introducir variaciones y correcciones en el código, etc.
En realidad, existen otros modos de relacionarse con el paquete estadístico R desde diversas plataformas. Aunque estos modos no serán utilizados en esta obra, cabe enumerar, dada su importancia, los siguientes Graphical User Interfaces (GUIs): JGR, el GUI de Java para R y el Emacs Speaks Statistics (ESS), desarrollado para editores de texto Emacs (como GNU Emacs y XEmacs). Este último está diseñado para la interacción y la edición de scripts
2 A lo largo de todo el libro se utilizarán de modo indistinto los términos «orden», «instrucción» y «comando».
003_13 Aju 01
29/4/13
18
08:56
Página 18
CUADERNOS METODOLÓGICOS 48
de diversos paquetes estadísticos, entre ellos R. También merece mención destacada RStudio, un interfaz de usuario para R que cuenta además con la ventaja adicional de que funciona bajo Windows, Mac y Linux o, incluso, bajo la propia web, utilizando RStudio Server. En esta obra, por razones de extensión y pedagógicas, se utilizará como interfaz de usuario para implementar las técnicas únicamente R-Commander. Más adelante se explicará con detalle el modo de trabajar con R-Commander y con scripts en R. Por el momento, será la consola la que nos permita ir introduciendo una serie de comandos fundamentales para el manejo básico del programa. De momento, procede únicamente comentar que, a lo largo de todo el manual, se trabaja con los menús en español. Si el usuario desea cambiar el idioma de la interfaz gráfica puede hacerlo del modo siguiente: desde la consola de R, elegir en la parte superior de la misma las opciones: Editar → Preferencias de la interface gráfica
En la ventana a la que seremos conducidos, podemos cambiar la opción «Language for menus and messages», eligiendo el idioma que deseemos. Se recomienda al lector que, para evitar problemas, se refiera al idioma español a estos efectos como «es» y al inglés como «en». Una vez grabados (‘Save’) y aceptados los cambios (‘OK’), el programa nos comunica que estos no se pueden llevar a cabo en una consola activa pero que al volver a entrar al programa dichos cambios ya estarán efectuados.
1.3.
Una primera sesión con R: vectores, matrices y operaciones elementales
Sea cual sea nuestro propósito con R, es seguro que tendremos que adquirir soltura en el manejo de los vectores y las matrices en dicho programa. De hecho, con multitud de estructuras que se emplean en R se trabaja de modo idéntico a como se hace con un vector o matriz. Como se irá viendo a lo largo del libro, esto supone una gran ventaja en términos de sencillez y flexibilidad a la hora de manejar el programa 3.
3 Si se desea profundizar en el contenido de este epígrafe se puede acudir a Venables y Smith (2008), disponible gratuitamente en Internet. Por otra parte, dado el carácter práctico del presente manual, cabe subrayar como sugerencia para todo el libro que en el manual de Stata de Escobar, Fernández y Bernardi (2009) se puede encontrar una introducción teórica a la práctica totalidad de los conceptos estadísticos implementados en la presente obra.
003_13 Aju 01
29/4/13
08:56
Página 19
EL PAQUETE ESTADÍSTICO R
1.3.1.
19
Vectores
A efectos de la programación en R, denominaremos vector a un objeto compuesto por un conjunto de elementos ordenados. Como veremos, no es necesario que el vector se componga de números. También puede estar compuesto por otras clases de elementos, como cadenas de caracteres, por ejemplo. Sin embargo, todos sus elementos han de pertenecer a la misma clase. Poco a poco, precisaremos estas ideas. De momento, únicamente hemos de tener presente que, para comenzar a trabajar con un vector en R, resulta suficiente con dar cuenta al programa de los valores que lo componen. Esta tarea se puede realizar de diversos modos:
x <- 1:30; x c(1, 30) y <- c(1:3, 5, 7:9, 30)
En R, el símbolo que sirve para asignar valores a objetos es <-. La mejor forma de entender su uso es con ejemplos. La primera línea de instrucción del cuadro anterior crea un objeto de R denominado x en el que se almacena un vector compuesto por los treinta primeros números naturales. Por su parte, la segunda crea un vector solo con los números 1 y 30 (dos elementos) pero no lo almacena en ningún objeto (simplemente muestra el resultado por pantalla). En R, se utiliza la estructura c(a1, a2,…, an) para crear un vector con los elementos a1, a2,…, an dispuestos en ese orden. Cuando se trata de números consecutivos esta estructura se puede abreviar con el uso de a1:a2 o bien c(a1:a2), que son equivalentes y crean un vector con los enteros comprendidos entre a1 y a2, ya sea en orden creciente o decreciente. Estos dos formatos se pueden mezclar, como se pone de manifiesto en la tercera instrucción del cuadro anterior. Al ejecutarla, se almacena en el vector y un «subvector» del vector x compuesto por los elementos que se indican, según la notación ya introducida. Aunque resulta obvio, conviene dejar claro, en estos primeros pasos con el programa, que para ejecutar en la consola de R una línea de instrucción como las del cuadro anterior hay que teclear su sintaxis y pulsar «Aceptar». Por otra parte, para referirnos a un objeto cualquiera de R y conocer cuál es la información que contiene, es suficiente con poner su nombre en la consola y pulsar «Aceptar». Señalar también que el punto y coma sirve en R para separar comandos. Tras un punto y coma, el programa entiende que se pasa a una instrucción diferente que se ejecutará secuencialmente tras la que le preceda. Por ejemplo, la primera línea de código del cuadro anterior, tras asignar un vector en
003_13 Aju 01
29/4/13
08:56
20
Página 20
CUADERNOS METODOLÓGICOS 48
el objeto x, como ya se ha comentado, muestra por pantalla el valor que tiene almacenado dicho objeto x 4. Tras todas estas matizaciones, ya no deberíamos tener problemas para ejecutar las líneas de código que figuran en el cuadro anterior. Otro aspecto importante es el modo de referirnos a elementos de un vector. La sintaxis utilizada para ello se ilustra a continuación:
x[3] y[2:4] y[c(2, 4)] x[3] <- 0; x
La posición entre corchetes tras el nombre del vector sirve para referirse a un elemento concreto del mismo. En el primer ejemplo del cuadro precedente nos referimos al tercer elemento del vector x. En el segundo caso aludimos a las posiciones entre la segunda y la cuarta del vector y, mientras que, en el tercero, extraemos únicamente las posiciones segunda y cuarta (nótese la extrema flexibilidad de R para acceder a elementos o grupos de elementos de un vector). Por otra parte, podemos cambiar los valores de determinados elementos de un vector sin más que asignar a alguna de sus posiciones (invocada del modo recién explicado) el valor oportuno. En nuestro ejemplo, la posición tercera del vector x pasa a valer 0, como se puede comprobar escribiendo el nombre del vector. Operaciones aritméticas. Las operaciones aritméticas elementales en R se realizan de modo muy sencillo. Los signos utilizados para las operaciones elementales de suma, resta, multiplicación, división y potenciación son {+,-,*,/,^}, respectivamente. El realizar dichas operaciones con vectores tampoco supone el menor problema. Veamos algunos ejemplos ilustrativos: z <- x / 2 z <- 2 + x z^2
R permite operar de un plumazo todos los elementos de un vector por un determinado valor. Por ejemplo, la primera fila del cuadro anterior divide entre dos a cada uno de los elementos del vector x y almacena el resultado en el vector z. La segunda fila suma 2 a cada uno de los elementos de x. La tercera orden eleva al cuadrado cada uno de los elementos del vector z y exhibe el vector 4
No conviene abusar del punto y coma puesto que da lugar a un código más difícil de leer.
003_13 Aju 01
29/4/13
08:56
Página 21
EL PAQUETE ESTADÍSTICO R
21
resultante en pantalla (recordemos que si no asignamos el resultado de una instrucción a ningún objeto, este únicamente se exhibe por pantalla). Operadores relacionales. Poder comparar valores numéricos con facilidad resulta de suma utilidad para un programa estadístico. Esta tarea se realiza de modo muy simple en R. Los operadores que utiliza para relacionar el valor de dos cantidades son los siguientes: • • • •
==: Igual a. < y >: Menor que y mayor que, respectivamente. <= y >=: Menor o igual que y mayor o igual que, respectivamente. !=: Distinto a.
En el cuadro siguiente aparecen diversos ejemplos de su utilización. x2 <- x[x > 4]; x2 x[x == 4] <- 0; x x[x != 8] <- 0; x
La primera instrucción asigna al vector x2 los elementos del vector x que tengan un valor mayor que 4. La segunda establece que todos los elementos de x que sean iguales a 4 pasen a valer 0, mientras que la tercera orden hace lo mismo para los elementos de x que sean distintos de 8. Conectores lógicos. Cuando se utilizan operadores relacionales, el resultado es una variable de tipo logical —que toma únicamente los valores Verdadero (TRUE) o Falso (FALSE)— como veremos más adelante, al estudiar las clases elementales a las que puede pertenecer un objeto en R. Las variables lógicas se pueden relacionar entre sí con los siguientes conectores lógicos: • &: Se traduce por «y» (exigimos que ambas propiedades que conecta se cumplan). • |: Significa «o» no excluyente (exigimos que al menos una de las dos propiedades conectadas se cumpla). • !: Negación (de la propiedad que va a continuación del conector). Aunque aplazaremos el uso de estos conectores lógicos hasta el momento en que nos resulten necesarios, veamos en el cuadro siguiente un ejemplo muy elemental de su sintaxis. p <- 3; q <- 5 (p == 3) & (q < 4) (p == 3) | (q < 4) !(p == 3)
003_13 Aju 01
29/4/13
08:56
22
Página 22
CUADERNOS METODOLÓGICOS 48
Comenzamos por crear dos objetos de R, p y q, que en este caso son simplemente los números naturales 3 y 5, respectivamente. La segunda línea de código afirma una propiedad acerca de p que es verdadera y una propiedad sobre q que es falsa. Por tanto, al plantearnos con el símbolo & si ambas propiedades se cumplen a la vez, el resultado es FALSE. Sin embargo, en la línea siguiente, cuestionamos si al menos una de las dos propiedades se cumple, por tanto, obtenemos como salida TRUE. Por último, al negar una condición que es verdadera, obtenemos, obviamente, FALSE como resultado. También se puede operar entre dos vectores con extrema facilidad, siempre que tengan el mismo número de elementos. En la tercera línea de código del cuadro siguiente se multiplican los vectores a1 y a2 (que han sido creados en las líneas precedentes), mientras que en la cuarta se suman, siempre componente a componente. a1 a2 a1 a1
<- 1:10 <- 1:10 * a2 + a2
Conviene, en estos momentos iniciales del aprendizaje, verificar en la consola el valor de cada uno de los objetos que vamos introduciendo. Véase a continuación el resultado de la ejecución de los comandos anteriores 5.
5 Si introducimos la asignación entre paréntesis (a1 <- 1:10), el programa no solo almacena los valores en el objeto a1, sino que muestra automáticamente por pantalla el valor de dicho objeto. Dicho de otro modo, esta instrucción entre paréntesis es equivalente a las dos primeras del cuadro siguiente.
003_13 Aju 01
29/4/13
08:56
Página 23
EL PAQUETE ESTADÍSTICO R
23
Advertencia. Resulta necesario dejar claro que R distingue entre las mayúsculas y las minúsculas en los nombres que otorgamos a los objetos que vamos creando. También hay que subrayar que si asignamos un nombre a un objeto y dicho nombre ya existía para otro objeto contenido en nuestra sesión de trabajo, este último será eliminado y reemplazado por aquel. Una práctica muy aconsejable para evitar desagradables sorpresas es duplicar los objetos existentes cuya vida consideremos imprescindible preservar (por ejemplo porque ha sido costosa su obtención). Veamos cómo se realiza lo anterior de modo muy simple: supongamos que queremos crear una copia de seguridad de un objeto que se llama a. El modo de hacerlo es tan sencillo como crear un objeto que se llame, por ejemplo, aseg mediante la asignación aseg <- a. De este modo, si, accidentalmente, borrásemos el objeto a, nos quedaría su copia de seguridad aseg.
1.3.2.
Algunos comandos básicos
En este momento, resulta adecuado introducir algunos comandos básicos para seguir avanzando en el manejo elemental del programa. Por ejemplo, puede ser necesario calcular el número de elementos que posee un vector o, dicho de otro modo, la longitud del mismo. La instrucción length(z) nos da como resultado el número de elementos del vector que tengamos almacenado en el objeto z. En otro orden de cosas, es necesario advertir desde el principio que, como en cualquier programa, la sintaxis de muchas de las instrucciones de R es compleja y admite multitud de parámetros. Esto hace que, en un manual general como este, no resulte pedagógica la inclusión de toda la información exhaustiva correspondiente a cada orden estudiada. Para paliar esa obligada limitación, introduzcamos un comando que nos permitirá acceder a la ayuda ligada a cualquier instrucción de R: el comando help(). Para ello, únicamente hay que introducir como argumento el comando del cual deseamos obtener información. El ejemplo que se encuentra en el cuadro inmediatamente inferior arrojará luz sobre su sencilla sintaxis. También resulta muy útil el comando objects() que nos permite conocer los objetos que vamos almacenando en nuestra sesión de R. En nuestro caso, de momento, tenemos generados los objetos a1, a2, p, q, x, x2, y, z. Si queremos borrar alguno de los objetos se utiliza la instrucción rm(objeto). Por ejemplo, la tercera orden del cuadro que sigue elimina el objeto x2. Si a continuación de dicha orden repetimos la instrucción objects(), comprobaremos que x2 ya no figura entre los objetos incluidos en nuestra sesión de trabajo.
003_13 Aju 01
29/4/13
08:56
Página 24
24
CUADERNOS METODOLÓGICOS 48
length(z) help(length) objects() rm(x2) objects()
Por su parte, la orden demo() nos permite listar una serie de demostraciones de uso del programa disponibles. Cada una de ellas nos permite visionar tanto el código de R necesario para producir la salida que se pretende obtener como dicha salida. Por ejemplo, si ejecutamos la primera línea del código que sigue, el programa nos listará las demostraciones disponibles en los paquetes básicos del programa 6. Si deseamos visionar alguna demostración concreta, no tenemos más que utilizar la misma instrucción, incluyendo entre paréntesis el nombre de la demostración que nos interesa. Por ejemplo, la ejecución de la segunda línea del cuadro inmediatamente posterior nos muestra por pantalla los gráficos de la demo graphics, que nos permite hacernos una primera idea del poder gráfico del programa. demo() demo(graphics)
El comando citation() nos indica cómo citar el programa R en publicaciones, mientras que q() sirve para salir del programa. Antes de salir, el programa nos preguntará si deseamos guardar la sesión de trabajo, materia a la que está dedicada la siguiente sección. citation() q()
1.3.3.
Cómo guardar la sesión de trabajo. Scripts en R
Guardar la sesión de trabajo Si deseamos guardar los objetos que hayamos ido construyendo en nuestra sesión de trabajo para retomar la misma en otro momento, el modo de hacerlo es el que sigue: desde la consola de R seguir la ruta de menús de ventana: 6 La más enrevesada instrucción demo(package = .packages(all.available = TRUE)) nos lista las demostraciones existentes en todos los paquetes de R que tengamos instalados. Véase más adelante el concepto de paquete de R en detalle.
003_13 Aju 01
29/4/13
08:56
Página 25
EL PAQUETE ESTADÍSTICO R
25
Archivo → Guardar area de trabajo . . .
A continuación se elige del modo habitual la ubicación que queremos dar a nuestra sesión guardada y el nombre que le damos a la misma. Es importante tener en cuenta que el nombre ha de terminar explícitamente con la extensión .RData (por ejemplo: s1.RData) 7. Un apunte importante: para volver a recuperar la sesión almacenada, no es conveniente ni mucho menos necesario abrir R previamente. Resulta suficiente con buscar el fichero que contiene dicha sesión y abrirlo del modo que corresponda en cada sistema operativo. Es decir, el proceder adecuado resulta análogo al que utilizamos, por ejemplo, cuando abrimos directamente un fichero .doc sin abrir previamente el programa Word. El programa también permite generar un fichero en el que se conserven todas las instrucciones introducidas por la consola durante la sesión. Para ello, hay que acudir al menú: Archivo → Guardar Histórico . . .
A continuación ha de elegirse una ubicación y un nombre para el fichero histórico. Finalmente, resulta imprescindible otorgarle a dicho fichero la extensión .Rhistory. Scripts en R El modo de trabajar con scripts en R es muy simple: en el menú Archivo que aparece en la ilustración 1.2 existen las opciones «Nuevo script» y «Abrir script», que permiten crear un nuevo script o abrir uno ya existente, respectivamente. En el mismo menú existen opciones para guardar los scripts sin dificultad en la ubicación que deseemos. Para guardar un script también existe una combinación de teclas que permite acometer esta acción de modo muy rápido: Ctrl+S. Los scripts en R se suelen guardar con extensión .R. Merece la pena apuntar también que un modo muy práctico para «saltar» desde la consola hasta el script o los scripts que tengamos abiertos o viceversa consiste en pulsar Ctrl+Tab (Control+Tabulador). Para retornar a la consola desde un script también se puede, si se prefiere, pulsar la opción «Retornar foco a la consola», que figura encima del espacio dedicado a texto en el script 8. 7 Teóricamente, la extensión .RDA es equivalente a .RData. Sin embargo, se recomienda la utilización de la primera, que resulta mucho menos problemática. 8 La función de cada uno de los cinco botones que figuran en la parte inmediatamente superior al texto del script es fácilmente identificable sin más que situar el cursor encima del botón correspondiente.
003_13 Aju 01
29/4/13
26
08:56
Página 26
CUADERNOS METODOLÓGICOS 48
Abramos ahora un nuevo script para acometer las tareas del próximo apartado. Sin embargo, antes de lanzarnos al trabajo en R por medio de scripts, resulta útil conocer otros manejos prácticos ligados a los mismos. Por ejemplo, para ejecutar el código contenido en un script, es necesario, en primer lugar, marcar con el cursor la parte de código que deseemos ejecutar (si es toda se puede marcar más cómodamente con Ctrl+A) y pulsar a continuación el botón «Correr línea o seleccionar», que se encuentra en la parte superior del script. Equivalentemente, se puede ejecutar el código seleccionado pulsando simultáneamente Ctrl+R. 1.3.4.
Algunas funciones útiles trabajando con vectores
Analicemos la sintaxis que figura en el siguiente cuadro. La primera línea de código sirve para generar una muestra aleatoria de tamaño 20 de una variable uniforme en el intervalo de extremos 0 y 100. El modo de realizarlo es generando una muestra de tamaño 20 de una variable aleatoria uniforme en el intervalo [0, 1] y, posteriormente, multiplicando sus valores por 100, almacenando el resultado en r1. No nos detendremos demasiado en este momento en la instrucción runif(n), que permite generar muestras de tamaño n de variables aleatorias uniformes en [0, 1], puesto que nuestro objetivo a corto plazo es, simplemente, disponer de un conjunto de números con el que poder realizar las manipulaciones básicas que se muestran a continuación. Resulta habitual en el tratamiento de datos la necesidad de redondear los resultados a un determinado número de decimales. La instrucción round() se utiliza para ese fin. Por ejemplo, round(r1, 2) redondea los valores del vector r1 a dos decimales. El primer argumento indica el vector a redondear, y el segundo, el número de decimales que deseamos que queden tras el redondeo. Si se omite dicho parámetro, el redondeo tiene lugar sin decimales, como ocurre en la línea de código siguiente. El resultado se almacena de nuevo en r1. A continuación se calculan el máximo y el mínimo de r1, así como el rango, que no es más que un vector cuyos dos únicos elementos son los citados mínimo y máximo (comandos min(), max(), y range(), respectivamente). Por último, se calcula la posición de la observación en la que se alcanzan el mínimo y el máximo (instrucciones which.min() y which.max()), respectivamente 9. La potencial utilidad de las órdenes anteriores resulta obvia.
9 Puede ocurrir que los citados mínimo y máximo se alcancen en más de una posición del vector, en cuyo caso las funciones which.min() y which.max() devuelven la primera posición en la que se alcanza dicho valor extremo.
003_13 Aju 01
29/4/13
08:56
Página 27
EL PAQUETE ESTADÍSTICO R
27
r1 <- 100 * runif(20); r1 round(r1, 2) r1 <- round(r1); r1 min(r1); max(r1) range(r1) which.min(r1) which.max(r1)
En ocasiones, podemos estar interesados en ordenar los elementos de un vector. El comando sort() sirve para llevar a cabo dicha ordenación, colocando los elementos en orden ascendente. Así, en la primera línea del cuadro siguiente se ordena de menor a mayor el vector r1, almacenando el vector ordenado en r2. Si pretendemos que el orden sea descendente, hemos de proceder modificando la sintaxis del comando del modo que se indica en la segunda línea. Ahora bien, podría ser interesante obtener, además del vector ordenado, las posiciones que ocupaban los elementos del vector ordenado antes de dicha ordenación. Esto se consigue con la tercera línea de código del cuadro. El resultado queda almacenado en el objeto r4. Este objeto merece una mención más detallada, puesto que ya no se trata de un vector, sino de un objeto de R más complejo: una lista. Si bien no profundizaremos en el concepto de lista en este momento, sí cabe señalar que una lista es un objeto que a su vez se compone de diversos objetos. En este caso, la lista r4 tiene dos objetos. Cada objeto de una lista se denota con el nombre de la lista seguido del símbolo «$» y del nombre que tenga el objeto que queremos aludir. Por ejemplo, la lista r4 tiene dos objetos, denominados «x» y «ix». Por lo tanto, el modo de referirse a ellos es el que figura en las dos últimas líneas del cuadro que sigue. En el objeto r4$x está almacenado el vector ordenado en orden decreciente del mismo modo que lo estaba en el vector r3. Por su parte, en el objeto r4$ix figuran las posiciones que ocupaban los elementos ordenados (es decir, los elementos de r4$x) antes de la ordenación (es decir, en r1). r2 <- sort(r1) r3 <- sort(r1, decreasing=T) r4 <- sort(r1, decreasing=T, index.return=T) r4$x r4$ix
El lector no ha de experimentar frustración si, por el momento, no comprende totalmente algunos de los conceptos introducidos. Por ejemplo, el concepto de lista se introduce en esta parte para ilustrar las posibilidades de la ordenación de vectores, pero el autor es consciente de que quizá resulta demasiado complejo para este momento del aprendizaje.
003_13 Aju 01
29/4/13
08:56
28
Página 28
CUADERNOS METODOLÓGICOS 48
1.3.5.
Matrices
El manejo de matrices con R es muy similar al que se emplea con vectores. De hecho, para muchos usuarios, la enorme utilidad de las herramientas calculísticas que estamos introduciendo puede ser captada más rápidamente trabajando con matrices que haciéndolo con vectores, por la mayor similitud de aquellas a los conjuntos reales de datos que uno se encuentra habitualmente. Es importante señalar, no obstante, que los datos contenidos en una matriz han de ser todos del mismo tipo, hecho que limita su potencial a la hora de manejar volúmenes de datos estadísticos. Como veremos muy pronto, esta limitación queda solventada con el uso de otra estructura: las hojas de datos. En el siguiente cuadro se define la matriz y1 para, a continuación, introducir diversos ejemplos del modo elemental de operar con matrices.
y1 <- matrix(z, nrow=6, ncol=5) y1r <- matrix(z, nrow=6, ncol=5, byrow=T) y2 <- 10 * y1 y1 + y2 y1 * y2 t(y2) y1 %*% t(y2)
En la primera línea del código anterior, vemos la sintaxis del comando matrix(), el modo más habitual de crear matrices con R. Para crear una matriz directamente, sin importar sus datos de ningún fichero, es necesario informar al comando de los elementos que formarán parte de la misma, así como del número de filas y columnas de los que va a constar. En dicha primera línea se define el objeto y1 como una matriz de seis filas y cinco columnas y que está compuesta por los elementos del vector z, dispuestos por columnas. Por defecto, los elementos de la matriz se van rellenando por columnas, pero si deseamos que se rellenen por filas, no tenemos más que introducir la suborden byrow=T, a continuación de la declaración del número de columnas ncol, como se hace en la línea en la que se crea el objeto y1r. Estos conjuntos de datos se parecen mucho más ya a un conjunto real de observaciones que, en este caso, podría estar compuesto por seis individuos, de cada uno de los cuales poseemos la información contenida en cinco variables. Tras introducir la primera instrucción del cuadro precedente, veamos el valor de y1, y1r y z para entender mejor el modo en que se construyen las matrices.
003_13 Aju 01
29/4/13
08:56
Página 29
EL PAQUETE ESTADÍSTICO R
29
Para ver el modo de operar con matrices, creamos la matriz y2 multiplicando y1 por 10. Al igual que ocurría en el caso de los vectores, no hay problema alguno para operar de un plumazo todos los elementos de una matriz. Las siguientes dos líneas de código muestran el modo de sumar (+) y multiplicar (*) matrices elemento a elemento. Por supuesto, es necesario que las matrices tengan la misma dimensión, para realizar ambas operaciones. La penúltima instrucción muestra la sintaxis del cálculo de la transpuesta de una matriz, es decir, la matriz que resulta sustituyendo la primera fila de la matriz por su primera columna, la segunda fila por la segunda columna, etc. Si la matriz original tiene dimensión (6, 5), como es el caso de y2, la matriz transpuesta tendrá dimensión (5, 6). La instrucción para el cálculo de la transpuesta es simplemente t(y2) siendo y2 la matriz que se quiere transponer. Por último, se introduce el producto matricial, que es una operación algebraicamente bastante más compleja que el producto elemento a elemento pero que, dada la enorme importancia derivada de su utilización continua en multitud de técnicas estadísticas (regresión, análisis multivariante, etc.), no parece correcto omitir. Para que dos matrices sean multiplicables matricialmente hablando, el número de columnas de la primera ha de ser igual al número de filas de la segunda. Por ello, podemos multiplicar matricialmente y1 por la transpuesta de y2 puesto que y1 tiene cinco columnas e y2 tiene cinco filas 10. Veamos el modo de concatenar matrices por filas y por columnas. La instrucción cbind(y1, y2), aplicada a dos matrices, concatena por columnas las matrices y1 e y2. Dicho de otro modo, crea una matriz que consta de las columnas 10 El lector no interesado en el cálculo matricial puede perfectamente eludir esta referencia al producto de matrices. Por el contrario, quien desee profundizar en el estudio de las matrices como entes matemáticos puede acudir, por ejemplo, al capítulo 8 de Blanco (2004).
003_13 Aju 01
29/4/13
08:56
Página 30
30
CUADERNOS METODOLÓGICOS 48
de y1 y, tras ellas, las columnas de y2. De este modo la nueva matriz tiene tantas columnas como ambas matrices juntas. El comando rbind(y1,y2) presenta idéntica función pero anexando ambas matrices por filas. Para expresar las ideas anteriores de un modo visual podemos decir que cbind(y1, y2) sitúa a y1 y, a su derecha, y2, mientras que rbind(y1, y2) posiciona a y1 y, debajo de ella, coloca a y2. Por supuesto, para que estas instrucciones sean aplicables, las dimensiones de ambas matrices han de ser compatibles. En el cuadro siguiente se muestran ejemplos del manejo de cbind() y rbind(). y3 <- cbind(y1, y2) y4 <- rbind(y1, y2)
La siguiente salida del programa permite entender mejor el funcionamiento de las dos instrucciones anteriores:
003_13 Aju 01
29/4/13
08:56
Página 31
EL PAQUETE ESTADÍSTICO R
31
Veamos el modo de referirse a una columna, a una fila o a un elemento de una matriz:
y3[ , 2]; y3[1, ]; y3[2, 3]
Merece recalcar esto último: la primera de las expresiones de la línea de código precedente nos muestra por pantalla la segunda columna de la matriz y3 para todas las filas de la matriz, lo que se le explica al programa dejando el primero de los dos subíndices entre corchetes en blanco. En el segundo caso, el resultado de la instrucción será la visualización por pantalla de la primera fila de y3. Al dejar en blanco el subíndice de las columnas, nos extraerá esta fila para todas las columnas que contenga la matriz. En la tercera expresión, se alude al elemento ubicado en la segunda fila y tercera columna de la matriz. Nótese que, al indicar ambos subíndices, extraemos únicamente un elemento, en lugar de una fila o una columna completas. Recientemente, nos hemos referido a la dimensión de una matriz, que no es otra cosa que el número de filas y de columnas que la componen. La instrucción dim(), aplicada a un objeto de tipo matriz, nos da como respuesta el número de filas y de columnas que posee, almacenados en un vector de dos elementos. Los comandos nrow() y ncol() nos informan, de modo separado, del número de filas o de columnas de la matriz, respectivamente.
dim(y3) nrow(y3) ncol(y3)
Ahora bien, ante un conjunto de datos, a veces resulta de interés prescindir de parte de la información en él contenida, bien sea eliminando filas (observaciones) o columnas (variables). A continuación, mostraremos lo extremadamente cómoda que resulta la extracción de submatrices de una matriz dada, como se puede apreciar en el cuadro siguiente. La matriz y5 consta de las tres primeras filas y de las columnas 1, 4 y 5 de la matriz y4. En términos de observaciones y variables y5 está formada por los valores de las tres primeras observaciones para las variables 1, 4 y 5. De modo similar, y6 consta de las variables 1, 4 y 5 medidas para todas las observaciones. Por su parte, y7 consta de todas las observaciones de todas las variables excepto la tercera, mientras que y8 contiene todas las variables menos la 1 y la 3 para todas las observaciones.
003_13 Aju 01
29/4/13
08:56
Pรกgina 32
32
CUADERNOS METODOLร GICOS 48
y5 y6 y7 y8
<<<<-
y4[1:3, c(1, 4, 5)] y4[, c(1, 4, 5)] y4[, -3] y4[,-c(1, 3)]
Introduciendo en la consola las รณrdenes anteriores podemos obtener los resultados que se muestran en la salida siguiente. Su adecuada comprensiรณn
003_13 Aju 01
29/4/13
08:56
Página 33
EL PAQUETE ESTADÍSTICO R
33
permite entender mejor el modo tremendamente flexible, cómodo y sencillo con que R permite trabajar con matrices. Resulta importante subrayar, para finalizar este apartado, que la gran utilidad del mismo para el presente curso estriba en que todo lo aquí introducido en el contexto de las matrices es trasladable a la estructura de datos que manejaremos habitualmente a lo largo del libro: la hoja de datos. De este modo, a pesar de que esta parte pueda resultar algo abstracta en un primer momento, es de vital importancia su adecuada comprensión para abordar con éxito el estudio del resto del libro.
1.3.6.
Algunas funciones básicas para operar con vectores y matrices en R
Aunque aún no ha llegado el momento de introducir el análisis estadístico con R, conviene presentar, aunque sea de modo muy sucinto, algunas funciones elementales que permiten operar con extrema sencillez con vectores y matrices. El objetivo de este anticipo no es otro que motivar al lector, haciéndole comprobar lo sencillo que resulta operar con R utilizando la recién introducida notación vectorial y matricial. En el siguiente cuadro figura el código de la suma y la media aritmética, ambas aplicadas al vector r1. La media aritmética por filas y columnas así como la suma por columnas aplicadas todas ellas a la matriz y1. Finalmente, la desviación típica aplicada a la segunda columna de y1 y a todas las columnas de dicha matriz. Profundizaremos en el tratamiento con R de la estadística descriptiva en el capítulo 4.
sum(r1) mean(r1) rowMeans (y1) colMeans(y1) colSums(y1) sd(y1[, 2]) sd(y1)
1.3.7.
Variables de tipo carácter
Hasta el momento, siempre hemos trabajado con variables numéricas. Sin embargo, en ocasiones resulta muy conveniente utilizar variables compuestas por cadenas de caracteres. El modo de trabajar con este tipo de variables con R es muy sencillo y queda puesto de manifiesto en el cuadro siguiente:
003_13 Aju 01
29/4/13
08:56
Página 34
34
CUADERNOS METODOLÓGICOS 48
c1 <- “abc” c2 <- “de” paste(c1, c2) c3 <- paste(c1, c2 , sep = “”) substr(c3, 2, 4) nchar(c3)
En las dos primeras líneas, almacenamos en los objetos c1 y c2, respectivamente, las cadenas de caracteres “abc” y “de” 11. Es necesario puntualizar que, en R, las cadenas de caracteres han de estar encerradas entre comillas, admitiendo el programa de modo indistinto el uso de la comilla simple (‘) o de la doble (“). El comando paste(c1, c2) concatena las cadenas c1 y c2, dejando un espacio en blanco en medio de ambas. Este espacio puede resultar útil (por ejemplo, para concatenar palabras) o inconveniente (si se quiere, concatenar sílabas, pongamos por caso). La línea siguiente de código explica cómo evitar dicho espacio en blanco y almacena la cadena concatenada en c3. Se trata, simplemente, de agregar al comando paste() el argumento sep, al que se le otorga como valor la cadena de caracteres que deseamos que figure como espacio de separación entre las cadenas de caracteres a concatenar. En este caso, como deseamos que no figure ninguna separación, figuran simplemente las comillas sin contenido en su interior. A continuación, se muestra la utilización del comando substr(), que permite extraer una subcadena de una cadena dada. En este ejemplo, se extraen las posiciones entre la segunda y la cuarta, ambas inclusive, de la cadena c3. Por último, el comando nchar() nos permite contar el número de caracteres de los que consta una cadena.
1.3.8.
Hojas de datos
Ha llegado el momento de introducir el tipo de objetos que más utilizaremos a lo largo del libro: la hoja de datos. Realmente, es la estructura más eficiente para el análisis estadístico de datos en R. Las hojas de datos son una suerte de matrices en las cuales las distintas variables o columnas pueden ser de diferentes tipos: nominales, ordinales, cardinales, etc. De hecho, esa es la principal diferencia entre las matrices y las hojas de datos: la posibilidad añadida que ofrecen estas últimas de incluir variables de diferentes clases, 11 No sería buena idea, sin embargo, nombrar un objeto como c, puesto que, como ya es conocido, esta letra es el comando para concatenar y, si bien es cierto, la creación del objeto c no impediría que dicha instrucción siguiera funcionando, no lo es menos que genera confusión la coincidencia entre el nombre de una orden y el de un objeto.
003_13 Aju 01
29/4/13
08:56
Página 35
EL PAQUETE ESTADÍSTICO R
35
en contra de lo que ocurre con las matrices, cuyas variables han de ser todas de la misma clase. Por lo demás, el manejo de hojas de datos es muy similar al de las matrices en muchos aspectos, aunque también existen algunas otras diferencias que iremos reseñando. Aunque habitualmente importaremos nuestras hojas de datos de ficheros externos, comencemos el estudio de las mismas creando una pequeña hoja de datos desde el teclado y analizando su funcionalidad básica.
a <- matrix(c(1, 0, 1, 0, 0, 1, 22, 64, 34, 52, 19, 51, 4, 4, 1, 2, 3, 5), nrow = 6, ncol = 3) a <- as.data.frame(a) colnames(a) <- c(‘sexo’, ‘edad’, ‘profesion’)
La primera línea del cuadro anterior simplemente crea una matriz de dimensión (6, 3) cuyos elementos vienen explicitados por el vector indicado y la almacena en el objeto a. A continuación, transformamos a en hoja de datos o data.frame mediante el comando as.data.frame() 12. Por último, asignamos un nombre a nuestras columnas o variables. A tal efecto se utiliza la instrucción colnames(), cuya sintaxis se puede apreciar en el cuadro: al aplicar la orden a un objeto, almacenamos como nombres para sus columnas los contenidos en el vector de caracteres que figura al otro lado de la asignación. Una vez ejecutados los comandos anteriores, la hoja de datos a muestra ya un aspecto muy similar a los de los conjuntos de datos que uno está acostumbrado a manejar, como se puede observar en el cuadro que sigue.
Ahora que ya tenemos nombradas nuestras variables, podemos referirnos a ellas sin más que añadir al nombre de la hoja de datos el símbolo $ y el nombre de la variable que se quiere aludir. También se puede utilizar la no12 En el apartado siguiente explicaremos con más detalle el modo de cambiar la clase de un objeto.
003_13 Aju 01
29/4/13
08:56
Página 36
36
CUADERNOS METODOLÓGICOS 48
tación matricial como hacíamos antes. Las dos sentencias siguientes realizan la misma función, con la única diferencia de que la primera muestra la salida en pantalla directamente y la segunda la almacena en b. De modo similar, el código de la tercera fila extrae la primera y la tercera variables de nuestra hoja de datos a. Resulta de suma importancia que el lector comprenda perfectamente el significado de las instrucciones del siguiente cuadro antes de seguir.
# Ejemplos de cómo aludir las variables de una hoja de datos a$edad b <- a[, 2] a[ , c(1, 3)]
Finalmente, hay que comentar que R, como todos los lenguajes estadísticos, permite insertar líneas de comentario que permitan hacer más clara la lectura del código. Obsérvese que la primera línea del cuadro anterior comienza por el símbolo #. Este es el carácter que utiliza R para anunciar que comienza una línea de comentario. Cuando figura en una línea de código este carácter, el programa ignora el contenido de la línea a partir de dicho símbolo.
1.3.9.
Clases de variables
Como ya hemos dejado entrever en algún momento, existe una propiedad de los objetos de R denominada clase. En este apartado introduciremos algunas de las clases de objetos más habituales con los que trabajaremos a lo largo del libro. Recordemos que una hoja de datos permite que sus columnas sean variables de diferentes tipos o clases. Por ejemplo, en la hoja de datos a, la variable sexo tiene clase numérica, como se puede comprobar con el comando class(), que nos informa, precisamente, de la clase que presenta una variable. Podemos, por ejemplo, transformar esta variable sexo en una variable categórica, es decir, una variable con un conjunto finito de valores que aluden a otras tantas categorías de respuesta. En R la clase de las variables categóricas se denomina factor. Las respuestas codificadas a la mayoría de las preguntas de los estudios de opinión son, en realidad, convertibles en factores. Se puede convertir la variable sexo en factor simplemente mediante la sintaxis contenida en la segunda línea del cuadro siguiente.
003_13 Aju 01
29/4/13
08:56
Página 37
EL PAQUETE ESTADÍSTICO R
37
class(a$sexo) a$sexo <- as.factor(a$sexo) class(a$sexo) # Clase factor (obsérvese el modo de # introducir comentarios) class(a$edad) # Clase numeric class(y1) # Clase matrix class(c1) # Clase character class(a) # Clase data.frame class(p == 3) # Clase logical
Ejecutando el resto de órdenes anteriores observamos que ya conocemos seis clases de variables en R: factor, numeric, matrix, character, data.frame y logical. Como ya se ha comentado con anterioridad, las variables de la clase logical solo pueden tomar dos valores: TRUE o FALSE. Aunque existen muchas más clases de objetos en R y diversos paquetes definen sus propias clases de objetos, estos seis tipos que ya hemos introducido son los más importantes para el manejo elemental del programa 13.
1.4.
R Commander: un interfaz de R para la realización de análisis estadísticos
R Commander 14 es un interfaz de ventana que permite llevar a cabo muchos de los análisis estadísticos básicos que normalmente se acometen con R. La gran ventaja que reporta es la sencillez de uso: con R Commander se pueden realizar múltiples tareas sin necesidad de conocer prácticamente nada de la sintaxis del lenguaje de programación de R. Es más, como veremos, al realizar tareas con R Commander, el programa presenta en pantalla de modo automático el código equivalente a las instrucciones que, a través de ventanas, hemos introducido en R Commander. De este modo, el usuario interesado en la sintaxis de R puede aprenderla fijándose en la que R Commander construye para llevar a cabo las tareas que aquel le solicite. Así pues, además de constituir una útil herramienta para realizar análisis estadísticos, este interfaz posee un incuestionable valor pedagógico, que hace especialmente conveniente su utilización en un manual introductorio como este. En el apartado de las desventajas hay que señalar que presenta múltiples limitaciones si lo que se quiere es hacer un uso profesional del programa, 13 Se recomienda, en este punto, repasar los epígrafes del tema en los que se definen los objetos cuyas clases calculamos en este apartado. 14 Fox, J. (2005): «The R Commander: A Basic Statistics Graphical User Interface to R», Journal of Statistical Software, 14(9): 1-42.
003_13 Aju 01
29/4/13
38
08:56
Página 38
CUADERNOS METODOLÓGICOS 48
que la mayoría de las incontables funcionalidades de R no están accesibles desde R Commander y que su uso despreocupado puede ralentizar de modo considerable el muy conveniente aprendizaje de la sintaxis de R. No obstante, cabe señalar a este respecto que, si bien no serán objeto de atención a lo largo de este manual introductorio, existen diversos paquetes complementarios o plug-in que permiten manejar con el interfaz de usuario de R Commander muchas funciones que no figuran en su paquete básico. Cada uno de esos plug-in es, a su vez, un paquete de R, que puede ser cargado adicionalmente para disponer de las funcionalidades añadidas que ofrezca 15. Para proceder a la instalación de R Commander resulta imprescindible introducir más formalmente el ya aludido concepto de «paquete» de R. Cuando uno instala R en su ordenador, el programa lleva incluidas una serie de funcionalidades básicas, que permiten un manejo de multitud de herramientas estadísticas directamente. Sin embargo, a lo largo del tiempo, se han ido desarrollando multitud de herramientas complementarias que permiten acceder desde R de un modo directo a un amplísimo abanico de técnicas y procesos estadísticos. Un paquete de R no es más que un conjunto de funciones no incluidas en el soporte básico del programa y que permiten realizar diversas tareas. Normalmente, los paquetes son monotemáticos (por ejemplo, pueden versar sobre muestreo, análisis discriminante, etc.) pero también hay algunos mucho más multidisciplinarios. El concepto de paquete resulta pertinente aquí, ya que R Commander no es más que un paquete de R. Un paquete un poco especial, eso sí, puesto que no se limita a un conjunto de comandos adicionales ejecutables mediante su código sino que, como decimos, es un auténtico interfaz de ventana para el programa.
1.4.1.
Instalación de R Commander en Windows
La instalación de R Commander en Windows se puede realizar de modo sencillo desde la propia consola de R del modo que se detalla a continuación. Es importante subrayar que los pasos que utilizaremos son exactamente los mismos que los necesarios para instalar en R cualquier otro paquete que nos interese. Sirva pues lo que sigue a continuación como un manual de instalación de paquetes de R en general. A este respecto, conviene recordar que en la página web del proyecto R existe un vínculo denominado packages, desde el cual se puede acceder a la lista de paquetes disponibles. Es importante conocer que cada paquete tiene un manual en formato pdf, descargable desde el citado link.
15 El lector puede hallar en la conclusión del libro alguna reseña algo más detallada acerca de los plug-in de R Commander.
003_13 Aju 01
29/4/13
08:56
Página 39
EL PAQUETE ESTADÍSTICO R
39
Para instalar un paquete resulta suficiente con seguir, desde la consola de R, los siguientes pasos: 1) 2)
En la pestaña Paquetes en la parte superior de la consola de R seleccionamos Instalar paquete(s) 16. Esto abrirá una ventana denominada CRAN mirror en la que se puede elegir entre una serie de ubicaciones geográficas. Elegimos Spain (Madrid).
ILUSTRACIÓN 1.3 CRAN MIRROR
16 Si deseamos ejecutar el paso 1) mediante código, las instrucciones pertinentes son install.packages() o utils:::menuInstallPkgs(). Cualquiera de ellas conduce al usuario a la ventana que aparece en la ilustración 1.3. Si el usuario conoce el nombre exacto del paquete a instalar, puede incluirlo entrecomillado en la primera de las instrucciones anteriores. Por ejemplo, en este caso: install.packages(“Rcmdr”).
003_13 Aju 01
29/4/13
08:56
Página 40
40
CUADERNOS METODOLÓGICOS 48
3)
Tras unos segundos nos aparecerá la enorme lista de todos los paquetes disponibles para su instalación. Seleccionamos el paquete «Rcmdr» 17.
ILUSTRACIÓN 1.4 PAQUETES DE R
17 En la ilustración 1.4 pueden apreciarse la lista de plug-in de R Commander. Si el lector desease instalar alguno de ellos, no tendría más que, tras instalar R Commander, repetir el procedimiento de instalación para el paquete adicional concreto que desee. Más adelante se explica con algún detalle el concepto de plug-in. Anticipemos, de momento, que son un modo de agregar al interfaz de usuario R Commander las funcionalidades de otros paquetes de R.
003_13 Aju 01
29/4/13
08:56
Página 41
EL PAQUETE ESTADÍSTICO R
4)
41
Una vez instalado el paquete «Rcmdr», todavía es necesario proceder a la carga del mismo, para que sea posible su uso desde R. Es importante señalar que, mientras que la instalación del paquete solo se realiza una vez, la carga del mismo ha de realizarse en cada sesión de trabajo que se desee utilizar dicho paquete. Existen diversos modos de llevar a cabo dicha carga. El más sencillo es el que sigue: desde el menú de la consola de R, seleccionar: Paquetes → Cargar paquetes para, a continuación, elegir «Rcmdr» como paquete a cargar. Otro modo alternativo de cargar el paquete, esta vez mediante código, es a través de la orden:
library(Rcmdr)
En cualquiera de los dos casos, tras unos minutos de instalación de paquetes complementarios que debemos aceptar, ya deberíamos tener ante nuestros ojos el interfaz R Commander, que presenta el siguiente aspecto: ILUSTRACIÓN 1.5 R COMMANDER
003_13 Aju 01
29/4/13
08:56
Página 42
42
CUADERNOS METODOLÓGICOS 48
Como se puede apreciar en la ilustración 1.5, la pantalla muestra en su parte superior una serie de rótulos que dan lugar a diversos menús de modo similar a los que aparecen habitualmente en el entorno Windows. Desde dichos menús se accede a las funcionalidades disponibles desde R Commander. Por lo demás, la pantalla queda dividida en tres partes principales: i)
La ventana de instrucciones: en ella podemos introducir código R y ejecutarlo sin más que marcarlo con el cursor y pulsar, a continuación, en el botón «Ejecutar». En caso de que trabajemos con el paquete a través de menús de ventanas, el programa mostrará en esta ventana el código R equivalente al de los procesos que vayamos realizando. ii) La ventana de resultados: muestra los resultados de todas las operaciones que ejecutemos desde R Commander. iii) La ventana de mensajes: en esta ventana aparecen los avisos, errores y otras advertencias de los que R Commander nos informa a lo largo de la sesión. 1.4.2.
Instalación de R Commander en Linux/Unix 18
El modo más sencillo para instalar R Commander en Linux/Unix es a través de la instrucción ya introducida en el apartado anterior: install.packages(“Rcmdr”)
En el caso de que trabajemos bajo Ubuntu, se puede seguir el procedimiento que se detalla a continuación: • Añadir el repositorio R a Ubuntu (véase http://cran.r-project.org/bin/linux/ ubuntu/). • Instalar los paquetes base y dev de R: sudo apt-get install r-base r-base-dev. • Abrir R desde la línea de comando de Ubuntu como raíz para poder instalar los paquetes deseados: sudo R. • Desde R instalar R Commander a través de la ya conocida instrucción install.packages(“Rcmdr”). • La carga del paquete se puede realizar nuevamente con la instrucción library(Rcmdr), permitiendo la instalación de paquetes complementarios.
18 Tanto en este apartado como en el siguiente, el autor ha seguido las detalladas y útiles instrucciones aportadas por John Fox, contando con su autorización. Véase http://socserv.mcmaster.ca/jfox/Misc/Rcmdr/installation-notes.html.
003_13 Aju 01
29/4/13
08:56
Página 43
EL PAQUETE ESTADÍSTICO R
1.4.3.
43
Instalación de R Commander en Mac OS X
En este caso, el procedimiento es algo más complicado. Las instrucciones que siguen asumen que ya tenemos instalado R y son válidas para los sistemas Mac OS X 10.5 (Leopard), 10.6 (Snow Leopard), 10.7 (Lion) y 10.8 (Mountain Lion). • Comprobar si el X11 de X Windows está ya instalado en el ordenador. Para OS X 10.5, 10.6 y 10.7, el fichero X11.app debería aparecer ubicado en la carpeta Utilities de Applications. En realidad, esta aplicación se instala por defecto bajo OS X 10.7. En caso de que, trabajando con OS X 10.5 o 10.6 no estuviese instalada la aplicación, se puede instalar del modo siguiente: — Insertar el disco de instalación de Mac OS X (en caso de existir dos discos, insertar el primero de ellos: «Install Disc 1»). — Hacer doble clic en «Optional Installs». — Hacer doble clic en «Optional Installs.mpkg», pulsar «Continue» y aceptar las condiciones de licencia. — Hacer clic en el triángulo próximo a «Applications» para expandir la lista de aplicaciones. — Elegir «X11» y pulsar «Continue» e «Install». Cuando la instalación termine, pulsar «Close». Bajo OS X 10.8, la aplicación «X11» se denomina «XQuartz.app» y no viene incluida en el sistema operativo. — Al tratar de instalar y cargar el paquete R Commander de R (véase más abajo), el sistema echará en falta «X11» (salvo que ya haya sido instalada dicha aplicación por otro motivo) y lo advertirá en un mensaje como: «To open R, you need to install X11. Would you like to install X11 now?». — Pulsar el botón «Continue». Esto nos conducirá a la página web de soporte de Apple, desde donde se accede a http://xquartz.macosforge.org, lugar desde el que se puede descargar el fichero dmg para «XQuartz». — Al abrir este fichero mediante doble clic, se accede al fichero «XQuartz.pkg». Hacer doble clic en dicho fichero para proceder a la instalación, aceptando todas las opciones por defecto. — Al final de la instalación, se deberá salir de la sesión (log out) y volver a entrar en la cuenta Mac OS X. • Descargar «tcltk-8.5.5-x11.dmg», que es el instalador de Tcl/Tk para X Windows. — Instalar Tcl/Tk para X Windows haciendo doble clic primero en el fichero recién descargado «tcltk-8.5.5-x11.dmg» y después en el fichero de instalación «tcltk.pkg».
003_13 Aju 01
29/4/13
08:56
Página 44
44
CUADERNOS METODOLÓGICOS 48
— Bajo OS X 10.8, en función de las preferencias de seguridad que estén fijadas, uno puede encontrarse el mensaje: «‘tcltk.pkg’ can’t be opened because it is from an unidentified developer». El modo más recomendable de solventar el problema es cambiar las preferencias de seguridad y privacidad a la opción «allow applications downloaded from anywhere». — Continuar con la instalación. • Abrir R ejecutando «R.app». Desde la consola de R, teclear la orden ya conocida install.packages(“Rcmdr”). Elegir, a continuación, el mirror que deseemos (véase la instalación de R Commander para Windows) y completar la instalación. • Cargar el paquete del modo también ya conocido: library(Rcmdr), de nuevo permitiendo la instalación de las herramientas complementarias ofrecidas. Nótese que, si se trabaja bajo Mac OS X 10.8, en este momento será requerida la instalación de «XQuartz.app», como ya se ha indicado con anterioridad. A partir de este momento expondremos el modo de realizar las tareas tanto con código directo de programa como a través de R Commander, siempre que resulte razonablemente posible. Aun a riesgo de resultar reiterativo, es necesario subrayar de nuevo que la comprensión y la soltura en el manejo de los conceptos incluidos en este capítulo son absolutamente determinantes para abordar con éxito el resto del manual. Consecuentemente, se recomienda encarecidamente al lector que dedique el tiempo necesario a la realización de los siguientes ejercicios, que le permitirán poner en práctica gran parte de lo aprendido en el tema.
1.5. 1.
Ejercicios Realizar las siguientes tareas con vectores: i)
ii) iii) iv)
La función rnorm() sirve para generar números aleatorios distribuidos como la normal estándar N(0,1). Análogamente a la ya utilizada runif(), únicamente es necesario introducir como argumento la cantidad de números aleatorios que deseamos generar. Generar con esta función un vector aleatorio de 40 elementos y multiplicar por 100 dicho vector. Almacenar el resultado en el objeto v1. Redondear v1 sin decimales. Almacenar de nuevo el resultado en v1. Calcular el número de elementos de v1. Hallar el máximo y el mínimo de dicho vector.
003_13 Aju 01
29/4/13
08:56
Página 45
EL PAQUETE ESTADÍSTICO R
v) vi)
2.
Determinar las posiciones que en el vector ocupan los citados máximo y mínimo. Ordenar el vector v1 en orden descendente, guardando el resultado en v2.
Obtener los resultados requeridos en el ámbito del cálculo matricial: i)
ii)
iii) iv) v) vi) vii) viii) ix) x) xi) xii) xiii) 3.
45
Crear una matriz m1 de 10 filas con los objetos de v1 colocados por columnas (los 10 primeros elementos de v1 han de ser la primera columna de m1 y así sucesivamente). Si deseamos colocar la matriz por filas en lugar de por columnas, hemos de añadir en el comando matrix() el parámetro byrow=T, al final del resto de argumentos. Crear la matriz m2, de 10 filas, con los objetos de v2 colocados por filas. Sumar elemento a elemento las dos matrices anteriores. Multiplicar elemento a elemento las dos matrices anteriores. Transponer la matriz m2. Crear la matriz m3 agregando por columnas las matrices m1 y m2 (Estructura m3=[m1 | m2]). Crear la matriz m4, agregando por filas las matrices m1 y m2. Mostrar los elementos de la segunda columna de m3. Mostrar los elementos de la primera fila de m4. Mostrar el elemento (3,4) de m1. Hallar la dimensión de m1 y de m4. Crear la matriz m5, compuesta por las filas 2, 4, 6 y 8 y las columnas 1 y 4 de m4. Calcular la media por filas de m1 y por columnas de m3.
La función abs() calcula el valor absoluto del argumento que se le introduzca, sea número, vector, matriz,… A sabiendas de ello, realizar los siguientes ejercicios en el marco de las hojas de datos: i) ii) iii) iv)
Hallar el valor absoluto de m4, almacenándolo en m4. Convertir m4 en hoja de datos. Observar el resultado. Hallar la clase del objeto m4 y del objeto m3. Supongamos que tenemos almacenados en la hoja de datos m4 los datos de cuatro variables económicas medidos en 20 observaciones. Nombrar las columnas de m4 como eco1, eco2, eco3 y eco4. Observar el resultado. v) Extraer el vector con la variable eco3. vi) Agregar, en la variable eco1, 3 unidades a cada observación. vii) Crear la nueva variable eco5, como suma de eco3 y eco4. Observar cómo ha cambiado m4.
003_13 Aju 01
29/4/13
08:56
Pรกgina 46
003_13 Aju 02
29/4/13
08:56
Página 47
2 Importación y exportación de datos con R y R Commander La introducción manual de datos que se ha mostrado en el capítulo anterior no reporta demasiada utilidad cuando los conjuntos de datos a importar superan un mínimo número de observaciones, hecho que acontece de modo habitual en la práctica. En el sentido opuesto, una vez tratada la información con R, puede ser necesario exportar en un cierto formato los datos obtenidos, para su posterior almacenamiento, difusión, combinación con otros conjuntos de datos, etc. Para afrontar los retos anteriores, en este capítulo abordaremos las múltiples posibilidades con que cuenta R para leer y escribir datos tanto en formato texto como en diversos otros formatos de los que presentan los programas que habitualmente se utilizan para el tratamiento de datos. El tema comienza con la clarificación del modo de manejarse con el directorio de trabajo, cuestión muy sencilla pero fuente de multitud de errores si no se maneja con propiedad. Seguidamente se abordan en profundidad las herramientas con que cuenta R para la importación y la exportación de datos. Por último, al final del capítulo, se introduce al lector en los conjuntos de datos con los que cuenta R para ejercitar sus funcionalidades 1.
2.1.
Directorio de trabajo
Obviamente, para importar y exportar datos, resulta necesario indicar al programa el directorio en que pretendemos trabajar. Por lo tanto, comenza1 En Spector (2008) se puede hallar un buen complemento para el estudio de este capítulo. Los probablemente numerosos lectores que se acerquen a R provenientes de otros paquetes estadísticos, como SPSS, SAS o Stata, podrán suavizar su aterrizaje auxiliándose en Muenchen (2009) —para los que tengan nociones previas de SPSS o SAS— o Muenchen y Hilbe (2010) —para los conocedores de STATA—. Otros textos muy recomendables para introducirse en R (si bien abarcan muchos otros aspectos además de los que aquí se tratan) son: Chambers (2008), R Development Core Team (2012), Li y Baron (2012) y Yau (2012).
003_13 Aju 02
29/4/13
08:56
Página 48
48
CUADERNOS METODOLÓGICOS 48
remos este capítulo mostrando el modo de hacerlo, tanto con código de R como con R Commander. Código El modo más simple de fijar el directorio de trabajo se pone de manifiesto en el siguiente cuadro. dir <- ‘C:/cuadernoR’ setwd(dir) getwd()
Analicemos con detalle cada una de las líneas de código. En primer lugar, creamos un objeto denominado dir y le asignamos como valor una cadena de caracteres con la ruta en la que se halla la carpeta en la que queremos trabajar. El comando setwd(ruta_directorio) sirve para que el programa tome como directorio por defecto el que se halle en la ruta que se le indica. A partir de este momento, salvo indicación en contra, el programa importará y exportará los ficheros en ese directorio. Por su parte, el comando getwd() hace que R nos indique cuál es el directorio de trabajo activo en ese momento, como podemos comprobar sin más que ejecutarlo. Obsérvese que, cuando asignamos su valor a dir, únicamente estamos definiendo un objeto tipo character, sin más. La sentencia setwd(‘C:/cuadernoR’) sería equivalente a las dos primeras del cuadro anterior. Sin embargo, para los casos en los que trabajemos con varios directorios, resulta mucho más cómodo almacenar sus rutas en variables tipo character como dir, con el fin de acceder a ellos, cada vez que tengamos que cambiar de directorio, sin necesidad de introducir toda la ruta detallada. R Commander Para cambiar el directorio de trabajo con R Commander resulta suficiente con entrar en el menú: Fichero → Cambiar directorio de trabajo
y elegir el directorio que deseemos, ya dentro de un entorno Windows 2. 2 Recuérdese que, previamente, hay que cargar el paquete Rcmdr mediante, por ejemplo, la instrucción library(Rcmdr).
003_13 Aju 02
29/4/13
08:56
Página 49
EL PAQUETE ESTADÍSTICO R
2.2.
49
Importación de datos
Habitualmente, los datos que se pretenden tratar con un programa estadístico han de ser leídos de ficheros en los que se halla la información, dispuesta según un formato determinado. En este apartado veremos cómo se realiza en R la importación de datos desde formato texto (ya sea con separadores o con ancho fijo), así como desde Excel y SPSS.
2.2.1.
Importación de datos de tipo texto con separadores (.txt)
Código La función que ofrece R para la importación de datos desde ficheros de tipo texto con separadores es read.table(). Veamos un ejemplo de su utilización, construyendo previamente un fichero de texto que podamos importar. En realidad, construiremos primero un fichero Excel y, a continuación, lo transformaremos en un fichero de texto. No obstante, el fichero Excel creado nos reportará muy pronto utilidad en sí mismo, puesto que lo utilizaremos para aprender a importar datos Excel desde R. En la página web del INE (www.ine.es) acceder a INEbase y, en concreto, al apartado «Demografía y población». Desde el mismo, localizar los datos correspondientes a las cifras oficiales de población de 2011 (u otro año, si se prefiere). Consultar las cifras por provincias y sexo (Total, Varones y Mujeres) y descargar el resultado como fichero Excel, llamando a este fichero poblacion2011.xls. Seguidamente resulta necesario eliminar las filas de este fichero que no correspondan estrictamente con datos que necesitemos a la hora de la importación desde R. En concreto, nos hemos de quedar solamente con las líneas que contienen datos numéricos más la línea de cabecera que indica las variables contenidas en las columnas. Tras esta sencilla operación, ya dispondremos del fichero Excel al que antes aludíamos convenientemente dispuesto para su utilización. Ahora, para contar con un fichero de texto que nos sirva a fines didácticos, guardemos el libro Excel anterior como fichero de texto delimitado por tabuladores, llamando a este archivo poblacion2011.txt. Ambos ficheros cuentan con una fila por cada provincia española y con tres columnas con datos, correspondientes al total y al desglose por sexos 3.
3 Aunque se recomienda al lector construir por su cuenta tanto el fichero Excel como el de texto, ambos archivos se encuentran disponibles entre la documentación digital que acompaña al presente libro, accesible desde http://www.cis.es/cis/opencm/ES/3_publicaciones/colecciones/listaColeccion.jsp?coleccion=Cuadernos Metodológicos.
003_13 Aju 02
29/4/13
50
08:56
Página 50
CUADERNOS METODOLÓGICOS 48
Importemos ahora el fichero de texto poblacion2011.txt que, como siempre, debe encontrarse ubicado en el directorio de trabajo que hemos fijado. La sintaxis pertinente para la lectura de este conjunto de datos es la que sigue: p11t <- read.table(“poblacion2011.txt”, header=T, sep=”\t”, dec=”.”, row.names=1, na.strings=”.”)
En la orden anterior, en primer lugar indicamos el nombre del archivo a leer. A continuación se incluyen una serie de parámetros adicionales cuyo significado se detalla a continuación. Cabe puntualizar que estos parámetros presentan valores por defecto por lo que, en el caso de que el valor que les deseemos otorgar sea el que toman por defecto, no resulta necesaria su inclusión en la sintaxis de la instrucción. Enseguida ilustraremos esta idea con un ejemplo. i)
header: indica si ese archivo tiene línea de cabecera o no. Es decir, si es verdadero o falso que el fichero presenta en su primera línea el nombre de las variables o no. En caso de que exista una cabecera se incluye header=T y si comienza ya con los datos header=F 4. Por defecto el programa intenta tomar la opción más adecuada en función del formato del fichero, pero no siempre su elección es la adecuada por lo que se recomienda incluir este parámetro en la instrucción read.table(). ii) sep: explicita el modo en el que se hallan separados los datos (sep=”;”, sep=”,”, sep=” ”, sep=”\t”,…, en función de si los datos están separados por punto y coma, coma, espacio, tabulador,…). La opción por defecto de separación es el espacio en blanco. iii) dec: si importamos variables que tienen decimales, R por defecto interpreta que trabajamos con el punto decimal (dec=”.”). Si deseamos utilizar la coma como marca decimal hemos de advertirlo a través de (dec=”,”). iv) row.names: de algún modo ha de indicar los nombres de las filas del fichero (en caso de que nos interese). Puede ser un vector de tipo character compuesto por los nombres explícitos de las filas del fichero pero habitualmente es un número que indica el número de columna de la hoja de datos en la que se encuentran los nombres de las filas. En nuestro caso, dichos nombres se encuentran en la primera columna, por lo que el parámetro toma el valor 1. Si no se indica nada al programa, entiende que las filas no tienen nombre y, simplemente, las numera de modo correlativo. 4 A lo largo de todo el libro, siempre que en un parámetro sirva para dilucidar una disyuntiva del tipo verdadero o falso, se podrán utilizar indistintamente ‘T’ o ‘TRUE’ para la opción verdadero y ‘F’ o ‘FALSE’ para la opción falso.
003_13 Aju 02
29/4/13
08:57
Página 51
EL PAQUETE ESTADÍSTICO R
v)
51
na.strings: el último argumento nos da pie a introducir un concepto con el que aún no hemos trabajado: el de observación ausente o missing. En R, las observaciones ausentes se denotan NA (Not Avalaible). Si deseamos que al importar los datos se trate como observaciones ausentes a las que presenten otro caracter (por ejemplo un punto), hemos de indicárselo a través de este parámetro.
Para visualizar por pantalla el resultado de nuestra importación, se puede introducir directamente el nombre del objeto que hemos creado. Si este tiene demasiadas filas, resulta muy útil visualizar solo las primeras a través del comando head() o bien utilizando la notación matricial que hemos visto en el capítulo anterior y cuya importancia recordamos de nuevo. En el siguiente cuadro se muestra el modo de realizar la visualización de los tres modos descritos. p11t head(p11t) p11t[1:10, ]
Nótese que la tercera de las expresiones anteriores le pide al programa visualizar las 10 primeras filas y todas las columnas de la hoja de datos p11t. Por su parte, la segunda de las órdenes anteriores nos ha de dar un resultado en pantalla como el que sigue:
Si exploramos este conjunto de datos en su integridad, podremos comprobar que no presenta números decimales ni observaciones ausentes, luego se podrían omitir los dos últimos argumentos. Sí que es necesario incluir en la orden read.table() el argumento header=T puesto que el programa no detecta por defecto, en este caso, la línea de cabecera del fichero. De este modo, se pueden leer los datos con la instrucción más abreviada: p11t <- read.table(“poblacion2011.txt”, header=T, sep=”\t”, row.names=1)
003_13 Aju 02
29/4/13
08:57
Página 52
52
CUADERNOS METODOLÓGICOS 48
De nuevo, se recomienda al lector consultar los resultados con los métodos antes indicados. R Commander Esta importación se puede realizar en R Commander, siguiendo la ruta de opciones: Datos → Importar datos → desde archivo de texto, portapapeles o URL…
De este modo, seremos conducidos a una ventana como la siguiente: ILUSTRACIÓN 2.1 LEER ARCHIVO DE TEXTO
En la misma, hemos de rellenar las opciones análogas a las que hemos tratado mediante código. En concreto, podemos especificar el nombre que el conjunto de datos tendrá como objeto de R, si hay línea de cabecera con los nombres de las variables en el fichero, cómo se denomina en el archivo a los valores ausentes, el separador de campos y el carácter decimal utilizado. Una vez elegidas todas estas opciones, pulsando Aceptar se abrirá una ventana en la que seleccionaremos el fichero a importar (poblacion2011.txt) sin ninguna complicación.
003_13 Aju 02
29/4/13
08:57
Página 53
EL PAQUETE ESTADÍSTICO R
53
Sin embargo, desde las ventanas de R Commander anteriores, no se puede indicar al programa que la primera columna del fichero no contiene datos sino los nombres de las filas, como hemos hecho con código. De esta manera, en los casos, como el que nos ocupa, en el cual el fichero contiene los nombres de las filas en una de sus columnas, la importación se produciría tomando a dicha columna como una variable de datos más. Si deseamos que esa variable desaparezca como tal y que pase a jugar el papel que le corresponde como indicador del nombre de las filas podemos ejecutar el código siguiente:
rownames(ser) <- ser[, 1] ser[, 1] <- NULL
Si, como figura en la ilustración 2.1, hemos importado nuestra hoja de datos con nombre ser, la primera línea del cuadro precedente asigna como nombres de filas de esa hoja a la primera columna de la misma, a través de la instrucción rownames(), que es la equivalente a la ya estudiada colnames(), pero para filas en lugar de columnas. En cuanto al modo de referirnos a la primera columna, no es más que el habitual en la notación matricial. Por su parte, la segunda línea de código anterior nos enseña cómo borrar esa primera columna una vez que sus valores ya han sido asignados como nombres de las filas 5. Después de estas sencillas operaciones, nuestra hoja de datos ser ya presentará el formato adecuado, como se puede comprobar del modo habitual. Así, en este caso, aunque hemos reconducido con éxito y sin grandes problemas la importación de datos, no dejamos de obtener una muestra clara y palpable de las limitaciones que surgen en el uso del programa si decidimos restringirnos a R Commander, prescindiendo de la utilización de código.
2.2.2.
Importación de datos de tipo texto con ancho fijo
En un archivo de texto con ancho fijo el número de columnas que ocupa cada variable es fijo y no depende de ninguna separación física existente entre los valores de dichas variables. Como ya es conocido, este formato es el que presentan las matrices de microdatos de los estudios del CIS. Seguidamente, se explicará con detalle el modo de leer ficheros de este tipo con R.
5 El lector debe tomar buena nota de este método pues resulta habitual para borrar variables de un conjunto de datos.
003_13 Aju 02
29/4/13
08:57
Página 54
54
CUADERNOS METODOLÓGICOS 48
Código La función de la que dispone R para la importación de datos de tipo texto con ancho fijo es read.fwf(). Como no es difícil intuir, para importar esta clase de datos, resulta imprescindible indicar al programa las posiciones que ocupan las variables que deseamos importar. Veamos cómo hacerlo. Importaremos un subconjunto de datos del archivo de texto «DA2815», que debe encontrarse ubicado en el directorio de trabajo que hemos fijado. Dicho fichero contiene la matriz de microdatos del estudio 2815 del CIS (Barómetro de octubre de 2009). Supongamos que queremos importar las variables: «CCAA» (10-11), «Provincia» (12-13), «Situación económica» (39), «Situación política» (42), «Sexo» (190) y «Edad» (191-192), donde los números entre paréntesis indican las posiciones que ocupan dichas variables en la matriz de microdatos correspondiente. El cuadro siguiente resume la situación: Variable CCAA Provincia Situación económica actual Situación política actual Sexo Edad
Nombre
Posiciones
ccaa prov siteco sitpol sexo edad
10-11 12-13 39 42 190 191-192
La sintaxis que permite la lectura de este conjunto de datos es: anchos <- c(-9, 2, 2, -25, 1, -2, 1, -147, 1, 2) nvar <- c(‘ccaa’, ‘prov’, ‘siteco’, ‘sitpol’, ‘sexo, ‘edad’) d2815 <- read.fwf(‘DA2815’, widths=anchos, col.names=nvar) d2815[1:20,]
En primer lugar, creamos un vector numérico denominado anchos en el que indicamos al programa las posiciones que hemos de leer (con signo positivo) y las que han de ser saltadas (con signo negativo). En este caso, como la primera posición a importar es la número 10, nos saltamos las nueve primeras posiciones. A continuación leemos dos posiciones (CCAA) y otras dos posiciones (Provincia). Seguidamente, hemos de saltar hasta la posición 39, en la que está nuestra siguiente variable a leer. Ello supone saltarse 25 columnas, que figuran con signo negativo. Acto seguido leemos la variable «Situación económica», que ocupa una posición, nos saltamos dos posiciones para llegar a la variable «Situación política», también con una columna. Por último, saltamos 147 posiciones y llegamos a las variables «Sexo» y «Edad» que ocupan una y dos posiciones, respectivamente.
003_13 Aju 02
29/4/13
08:57
Página 55
EL PAQUETE ESTADÍSTICO R
55
En la segunda línea de código definimos el vector nvar, en el que incluimos los nombres que queremos asignar a las variables que deseamos importar. Tras estos preliminares, importamos por fin los datos. La sintaxis de la tercera expresión es simple. El primer argumento es el nombre del fichero a importar; el segundo incluye el vector previamente definido que explicita las posiciones que el programa ha de leer y las que ha de saltarnos en el archivo indicado 6; finalmente, el tercer argumento informa al programa de los nombres que queremos asignar a las variables importadas. Por supuesto, en este caso, al igual que con read.table(), también pueden introducirse otros argumentos complementarios en la función read.fwf(). Como siempre, una exposición detallada de su sintaxis completa puede hallarse introduciendo help(read.fwf). R Commander La importación de datos de ancho fijo no es posible desde R Commander. 2.2.3.
Importación de datos desde libros Excel
Gracias al ya mencionado enorme aumento en los últimos años del número de paquetes de R disponibles, existen diversos modos de leer datos desde R procedentes de libros Excel. Aquí presentaremos tres modos de llevar a cabo esta operación mediante código. En primer lugar, mostraremos la función de la que dispone al efecto el paquete «xlsx» 7. Esta opción es harto recomendable dada su sencillez conceptual y comodidad en el manejo. Seguidamente, se muestra el modo de proceder para realizar esta clase de importaciones con el paquete «RODBC» 8, que merece la pena presentar puesto que permite importar libros desde diversas bases de datos, si bien aquí únicamente lo utilizaremos para acceder a datos ubicados en libros Excel. Por último, regresaremos al modo original de acometer esta clase de lectura de datos, el que se utilizaba antes de que los mencionados paquetes, entre otros, facilitaran la operación. Dicho método no era más que el habitual en otros programas estadísticos de convertir el fichero Excel en un fichero csv y, posteriormente, leer los datos 6 En realidad, no es imprescindible la creación previa del vector anchos. Se podría introducir aquí directamente el vector de modo exhaustivo. Sin embargo, la definición previa del vector contribuye a hacer más legible el código. 7 Adrian A. Dragulescu (2012). xlsx: Read, write, format Excel 2007 and Excel 97/2000/XP/2003 files. R package version 0.4.0. http://CRAN.R-project.org/package=xlsx. 8 Brian Ripley and from 1999 to Oct 2002 Michael Lapsley (2011). RODBC: ODBC Database Access. R package version 1.3-3. http://CRAN.R-project.org/package=RODBC.
003_13 Aju 02
29/4/13
08:57
Página 56
56
CUADERNOS METODOLÓGICOS 48
desde R en dicho formato. Finalmente, veremos el modo de leer datos desde libros Excel a través de R Commander. Antes de todo ello, recordemos que, en el apartado 2.2.1, hemos creado el fichero poblacion2011.xls, que ahora utilizaremos. Insistamos en que, como siempre, el fichero ha de estar ubicado en el directorio por defecto. Vale la pena también subrayar que, en caso contrario, es necesario que nos refiramos al fichero a importar indicando entre comillas no solo el nombre del fichero sino la ruta completa del directorio en el que se encuentra, lo cual resulta mucho más incómodo. Código a)
Utilizando el paquete «xlsx»
El paquete «xlsx» permite de un modo sencillo el flujo de datos entre R y Excel. Aunque con el mismo se pueden realizar diversas tareas, aquí únicamente veremos el modo de importar a R datos ubicados en libros Excel. Como siempre, se recuerda al lector que desee ahondar en los contenidos de este interesante paquete que su manual se halla en la página web del proyecto R. El proceso a seguir para la instalación de «xlsx» no presenta diferencia alguna con el ya explicado para la instalación de R Commander o cualquier otro paquete de R, de modo que será omitido aquí. Recordemos que, una vez instalado, el paquete se puede cargar mediante la primera instrucción del cuadro que sigue: library(xlsx) dex <- read.xlsx(“poblacion2011.xls”, sheetIndex=1, header=T) dex <- read.xlsx(“poblacion2011.xls”, sheetName=’pcaxis’, header=T)
Una vez cargado el paquete, cualquiera de las dos últimas instrucciones contenidas en el cuadro permite la importación de los datos contenidos en el libro Excel “poblacion2011.xls”, cuyo nombre se indica en ambas como primer parámetro a utilizar. Analicemos el resto de parámetros de la función read.xlsx(): i)
sheetIndex: se trata de un argumento entero, que indica la posición que ocupa la hoja cuyos datos deseamos importar en el libro Excel. Por ejemplo, en la instrucción del cuadro superior, importaremos los datos contenidos en la primera hoja del libro, según el orden natural que indican las pestañas del mismo, tal como aparecen cuando se abre el fichero Excel.
003_13 Aju 02
29/4/13
08:57
Página 57
EL PAQUETE ESTADÍSTICO R
57
ii)
sheetName: cumple la misma función que el anterior, con la diferencia de que, en este caso, se indica al programa no la posición de la hoja Excel sino su nombre, directamente incluido como una variable de tipo carácter. iii) header: es una variable de tipo lógico que, como habitualmente, permite explicitar si el fichero a importar tiene línea de cabecera con los nombres de variables o no. Estos parámetros resultan suficientes para la utilización básica de la función, si bien, como ocurre habitualmente, existen otros. Cabe recordar que la lista completa de argumentos de los que dispone la función se puede consultar con el comando help(read.xlsx). Si tras la ejecución de cualquiera de las dos órdenes de importación del cuadro anterior mostramos el objeto importado dex, comprobaremos que la línea que contiene el nombre de las observaciones (de las filas) ha sido importada como si fuera una línea de datos más. Podemos observar lo que ocurre a través del comando head(dex):
Nótese que la primera columna contiene el nombre de las provincias pero es tratada como una variable más. Hay que resaltar también que dicha primera columna no tiene nombre en el libro Excel y, por defecto, R la denomina «NA». Si aún no estamos convencidos de los problemas que presenta esta primera columna podemos utilizar las siguientes instrucciones:
rownames(dex) dim(dex)
La primera de ellas pide al programa que muestre el nombre de las filas de la hoja de datos. En este caso, mostrará los números de observación, simplemente, puesto que no hay otros nombres asignados. La segunda, recordemos que sirve para hallar las dimensiones de una matriz o una hoja de datos. Veremos que da como resultado el vector (53, 4). Es decir, nos permite advertir que la hoja de datos tiene cuatro columnas y no tres como sería deseable.
003_13 Aju 02
29/4/13
08:57
Página 58
58
CUADERNOS METODOLÓGICOS 48
Para enmendar este pequeño problema, no hay más que aplicar las líneas de código siguientes, análogas a las utilizadas en el apartado 2.2.1 para la importación desde R Commander. rownames(dex) <- dex[, 1] dex[, 1] <- NULL
Tras su aplicación, si volvemos a utilizar head(dex) nos encontraremos con un resultado como el siguiente:
Obsérvese que ya no aparece nombre alguno para la columna de los nombres porque, de hecho, ahora no se considera ya una columna de la hoja de datos. Si volvemos a utilizar los comandos rownames(dex) y dim(dex) veremos que los nombres de las filas son, efectivamente, las provincias y que el número de columnas de la hoja de datos es tres y no cuatro. Hay que hacer notar que todas estas apreciaciones sobre los nombres de las filas no serán necesarias en la mayoría de los casos. Por ejemplo, cuando se trabaja con microdatos de encuestas, las observaciones no tienen nombres concretos y, por tanto, se pueden importar directamente los datos sin preocuparse de cambio alguno en los nombres de las filas. b)
A través de «RODBC»
Otro método bastante práctico para leer desde R datos contenidos en hojas de libros Excel se basa en algunas funciones incluidas en el paquete de R denominado «RODBC» («R Open DataBase Connection»). La instalación de este paquete se realiza del modo habitual y, tras ella, también como siempre, el paquete se puede cargar mediante la primera instrucción del cuadro siguiente: library(RODBC) conexion <- odbcConnectExcel(“poblacion2011.xls”) dex <- sqlQuery(channel=conexion, “select * from [pcaxis$]”) close(conexion)
003_13 Aju 02
29/4/13
08:57
Página 59
EL PAQUETE ESTADÍSTICO R
59
La instrucción odbcConnectExcel() abre la conexión con el libro Excel del cual queremos importar los datos (en este caso poblacion2011.xls). Si a continuación de ejecutar esa orden deseamos visualizar el contenido del recién creado objeto conexión veremos que contiene una serie de características técnicas relacionadas con la conexión que acabamos de establecer. Por su parte, el comando sqlQuery() nos permite importar los datos desde la conexión que hemos abierto. Para ello, es necesario indicar en la instrucción que nuestro canal será dicha conexión y seleccionar la hoja del libro Excel en la cual están los datos que queremos importar, incluyendo su nombre terminado en el símbolo $, según la sintaxis que aparece en el cuadro superior. Si abrimos el libro Excel poblacion2011.xls comprobaremos que el nombre de la hoja en nuestro caso es pcaxis, como ya hemos indicado en el apartado anterior 9. Finalmente, si ya no hemos de importar más datos, con la orden close() podemos cerrar la conexión que habíamos abierto con el libro Excel poblacion2011.xls. c)
Mediante su conversión previa en ficheros de texto .csv
Antes de que algunos paquetes como los aquí presentados permitieran una importación directa de los datos contenidos en hojas de cálculo Excel, existía un procedimiento indirecto para la consecución de ese fin, a través de la conversión, como paso intermedio, del libro Excel en un fichero de texto csv. Por su interés y debido a que en otros programas estadísticos se han usado históricamente procedimientos muy similares, incluiremos aquí una breve descripción del modo de realizar la importación de datos Excel a través de este método. La lectura de datos se puede realizar en los siguientes pasos: i)
ii)
Resulta conveniente, en primer lugar, borrar todas las hojas sobrantes del libro Excel, conservando solo aquella en la que se hallan los datos a importar. Una vez que el libro solo conste de la hoja que nos interesa (supongamos que el fichero sigue siendo poblacion2011.xls), es necesario guardarlo como fichero .csv. Para ello, desde Excel ha de seguirse la siguiente ruta de menús: en ‘Archivo’ pinchar en la opción ‘Guardar como’ y, dentro de la ventana que nos aparece, en la opción ‘Guardar como tipo’ elegir ‘CSV (delimitado por comas)’ y pulsar ‘Guardar’.
9 Si, por ejemplo, la hoja a importar se denominase «Hoja1», el segundo parámetro de sqlQuery tomaría el valor: “select * from [Hoja1$]”.
003_13 Aju 02
29/4/13
08:57
Página 60
60
CUADERNOS METODOLÓGICOS 48
iii) Una vez que el fichero en el que se encuentran los datos está en formato csv (fichero poblacion2011.csv) se pueden leer los datos con la orden read.table(), con la sintaxis habitual. La única particularidad es que, en el carácter separador, hay que asignar el punto y coma. La siguiente línea de código indica el modo concreto de proceder una vez guardado en nuestro directorio de trabajo el fichero .csv creado desde Excel. Nótese que incluimos el parámetro row.names, para indicar al programa que la primera columna no ha de ser interpretada como una variable sino como el nombre de las filas u observaciones. También R dispone de una orden específica para la lectura de ficheros en formato csv, denominada read.csv(). Si se desea, se puede utilizar en este caso con una sintaxis análoga a la presentada para read.table(), del modo que se muestra en la segunda línea del cuadro siguiente. dexi <- read.table(“poblacion2011.csv”, row.names=1, sep=”;”) dexi <- read.csv(“poblacion2011.csv”, row.names=1, sep=”;”)
R Commander Para realizar esta tarea con R Commander ha de seguirse la ruta:
Datos → Importar datos → desde conjunto de datos Excel, Access o dBase…
Llegados a este punto, se abrirá una ventana como la que aparece en la ilustración 2.2, en la que se nos requiere el nombre de la hoja de datos que R creará con el conjunto de datos importado (podemos denominarla, por ejemplo, dexc).
ILUSTRACIÓN 2.2 IMPORTACIÓN DE DATOS DESDE EXCEL
003_13 Aju 02
29/4/13
08:57
Página 61
EL PAQUETE ESTADÍSTICO R
61
Tras pulsar «Aceptar», hemos de elegir el libro Excel del que deseamos importar los datos (en este caso poblacion2011.xls) seleccionándolo en la ubicación en que se encuentre del modo habitual y pulsando «Abrir». Por último, si el libro Excel cuenta con más de una hoja, se nos presenta una ventana como la de la ilustración 2.3, en la que hemos de seleccionar la hoja en la que se hallan los datos a importar y pulsar «OK». En nuestro caso, como el libro solo cuenta con una hoja se omite este último paso. No obstante, si deseásemos ver cómo funciona esta última opción, podemos agregar una hoja en blanco al libro y después realizar la importación. ILUSTRACIÓN 2.3 SELECCIÓN DE LA TABLA
Si todo ha ido bien, ya deberíamos tener creado el objeto dexc con los datos contenidos en la hoja pcaxis del libro Excel que estamos tratando. 2.2.4.
Importación de datos desde ficheros de SPSS (.sav)
Para leer con R ficheros de datos generados desde el paquete estadístico SPSS (ficheros sav) resulta adecuado utilizar el paquete «foreign» 10, que ha de ser instalado y cargado del modo habitual (se deja al lector como ejercicio dicha instalación y carga). Este paquete resulta de extrema utilidad, pues permite leer los ficheros de datos generados por diversos paquetes estadísticos, como SPSS (ficheros sav), SAS (ficheros sas7bdat), Octave, Stata, etc. Ilustraremos su uso introduciendo el modo de importar ficheros generados por SPSS. El comando del paquete «foreign» que permite importar datos de ficheros sav generados por SPSS es read.spss(), cuya sintaxis más básica viene precisada en la primera línea del cuadro siguiente: d <- read.spss(‘DA2815.sav’, to.data.frame=T) d[1:20, 1:10]
10 R-core members, Saikat DebRoy, Roger Bivand and others: see COPYRIGHTS file in the sources. (2011). foreign: Read Data Stored by Minitab, S, SAS, SPSS, Stata, Systat, dBase, .... R package version 0.8-46. http://CRAN.R-project.org/package=foreign.
003_13 Aju 02
29/4/13
62
08:57
Página 62
CUADERNOS METODOLÓGICOS 48
De este modo, importamos en d la información contenida en el fichero de datos SPSS que tabula la matriz de microdatos del estudio 2815 del CIS 11. Para asegurarnos de que el objeto d en el que almacenamos la información importada sea realmente una hoja de datos o data.frame, hemos de agregar en esta ocasión el argumento to.data.frame=T. Al echar un vistazo a las primeras filas y columnas del objeto d, tal y como se hace en la segunda línea del cuadro anterior, comprobaremos que los datos han sido importados otorgando a los diferentes factores sus valores nominales. Por ejemplo, en la variable que incluye información acerca de la Comunidad Autónoma del informante, figurarán los nombres de las CCAA y no sus códigos numéricos. Si deseamos que las variables de tipo factor aparezcan con sus códigos correspondientes, la importación ha de realizarse así:
dc <- read.spss(‘DA2815.sav’, use.value.labels=F, to.data.frame=T) head(dc)
Al añadir el parámetro use.value.labels con valor F (falso) le decimos al programa que no utilice los valores que corresponden a los códigos de las variables de tipo factor. En los dos cuadros anteriores, la segunda línea de código tiene como único fin el ver en pantalla, con las herramientas habituales, el aspecto que ofrece un trozo de nuestra hoja de datos recién importada. En el primer caso solo visualizamos las 10 primeras variables, mientras que en el segundo mostramos por pantalla las primeras observaciones para todas las variables. En resumen, hemos estudiado dos argumentos para la orden read.spss(), además del propio nombre del fichero, que figura como primer parámetro de la función: i)
ii)
use.value.labels: Toma el valor «verdadero» (TRUE) si deseamos que las variables figuren con sus valores nominales. Por el contrario, si nuestra intención es que figuren con sus códigos numéricos, hay que otorgarle el valor «falso» (FALSE). El valor por defecto es verdadero. to.data.frame: indica si el objeto en el que se importan los datos va a tener la clase data.frame (TRUE) o si, por el contrario, el conjunto de datos se almacenará en un objeto de clase list (FALSE). El
11 El lector puede generar desde SPSS el fichero de datos indicado, sin más que descargar desde la página web del CIS (www.cis.es) la matriz de microdatos y la sintaxis SPSS de lectura de dicha matriz correspondientes al estudio en cuestión. De no disponer de los medios necesarios, también puede hallar el fichero DA2815.sav entre la documentación digital que acompaña a este libro.
003_13 Aju 02
29/4/13
08:57
Página 63
EL PAQUETE ESTADÍSTICO R
63
valor por defecto es «falso», lo que hace que la información se guarde en un objeto de tipo list, que no estamos acostumbrados a manejar. Así, para facilitar las cosas, es preferible incluir este argumento con el valor «verdadero». R Commander Para realizar esta tarea con R Commander hay que seguir las opciones: Datos → Importar datos → desde datos SPSS…
Como siempre, a partir de aquí, hay que introducir los datos que nos requiera la ventana que aparece (véase la ilustración 2.4). En particular, hay que hacer saber al programa el nombre para nuestra hoja de datos importada (por ejemplo, dc2) y también si los factores han de presentarse con sus valores nominales (opción por defecto) o numéricos. ILUSTRACIÓN 2.4 IMPORTACIÓN DE DATOS DE SPSS
Cuando ya hayamos elegido las opciones, pulsando «Aceptar», se nos ofrecerá que seleccionemos el fichero sav en el que se encuentra la información. Únicamente hay que elegirlo para concluir la importación.
2.3.
Exportación de datos
Una vez realizados los tratamientos oportunos a los datos, resulta fundamental para un programa estadístico el hacer viable la exportación de la información que se ha obtenido, en formatos adecuados para su almacenamiento, publicación, etc.
003_13 Aju 02
29/4/13
64
08:57
Página 64
CUADERNOS METODOLÓGICOS 48
En este sentido, cabe comentar que R permite exportar sus hojas de datos con facilidad a formato texto. La elección de los detalles de formato para la exportación (inclusión de nombres de variables, tipo de separación entre variables, ancho fijo o variable, etc.) es bastante flexible. Por otra parte, como veremos, tampoco resulta muy difícil la escritura en un libro Excel de los datos contenidos en un objeto de R. Finalmente, también se puede desde R exportar datos en formato texto generando, al mismo tiempo, una sintaxis SPSS, Stata o SAS que permita leer los datos procedentes de R desde estos programas. Veamos, a continuación, cómo se pueden materializar en la práctica estas posibilidades.
2.3.1.
Exportación de datos a formato texto (.txt) con separadores
Código Para llevar a cabo la exportación de datos a ficheros de tipo texto, el comando base es write.table(). Se podría decir que esta orden es a la escritura lo que la ya presentada read.table() es a la lectura de datos, siempre en formato texto. Seguidamente, se muestra una utilización bastante general de la instrucción para ilustrar al máximo las posibilidades que ofrece:
write.table(dex, file=’dex.txt’, sep=”\t”, dec=”.”, na=”NA”, col.names=T, row.names=T, quote=F) write.table(dex, file=’dex.txt’)
La primera línea de código anterior toma los datos de la hoja dex (que previamente hemos importado desde Excel) y los escribe en un fichero de datos denominado dex.txt, ubicado en nuestro directorio de trabajo C:\cuadernoR. Una vez clarificado el significado de los dos primeros argumentos, detallemos el resto de parámetros incluidos: i)
ii)
sep: indica el carácter que servirá, en el fichero de texto generado, de separación entre variables. Recordemos que \t significa que la separación tiene lugar a través del tabulador, mientras que cualquier otro signo (coma, punto y coma, espacio en blanco) indica que es ese carácter el que separa las variables. Por defecto, la separación es un espacio en blanco. dec: si existen variables con decimales, sirve para explicitar el signo que marca la coma decimal (usualmente punto o coma). Por defecto es el punto.
003_13 Aju 02
29/4/13
08:57
Página 65
EL PAQUETE ESTADÍSTICO R
65
iii) na: sirve para indicar el modo de denotar las observaciones no disponibles o missings. Por defecto toma el valor habitual en R para este fin: NA. iv) col.names: indica si los nombres de las variables estarán incluidos en el fichero (T) o no (F). Por defecto, se incluyen los nombres de las columnas. v) row.names: indica si los números de fila estarán incluidos en el fichero (T) o no (F). Por defecto se incluyen los nombres de las filas. vi) quote: toma el valor verdadero (T) si deseamos que las variables tipo carácter, factor y los nombres de las columnas aparezcan entre comillas (valor por defecto). En caso de que no deseemos que figuren entre comillas, toman el valor falso (F). Como se puede observar, los parámetros anteriores tienen valores por defecto, con lo que se pueden omitir si estamos de acuerdo con dichos valores. En nuestro caso se han incluido a efectos pedagógicos. La segunda línea de código del cuadro anterior consigue realizar la escritura al igual que la primera, con dos salvedades: algunas variables aparecen entrecomilladas (recordemos que, por defecto, quote=T) y el carácter de separación entre variables es, en este segundo caso, el espacio en blanco.
R Commander Para exportar hojas de datos R en formato texto desde R Commander es necesario, en primer lugar, seleccionar como conjunto de datos activo la hoja a exportar. Para ello, no hay más que pulsar en la casilla que, en la ventana principal del Commander, está a la derecha del letrero «Conjunto de datos» (cerca de la esquina superior izquierda). Esta opción resulta extremadamente útil puesto que permite seleccionar el conjunto de datos que queremos que se encuentre activo para la realización de múltiples manipulaciones. Como veremos, su uso será constante a lo largo del curso. Pulsemos, pues, en la casilla mencionada y seleccionemos como conjunto de datos dex. Desde ese momento, para proceder a la exportación, la ruta es la siguiente: Datos → Conjunto de datos activo → Exportar el conjunto de datos activo …
Esto nos conduce a la ventana que aparece en la ilustración 2.5. En ella hemos de elegir el carácter que queremos otorgar a los valores ausentes, así como el separador entre campos que tendrá el fichero. El resto de opciones por defecto ya son conocidas y se pueden mantener o cambiar, según deseemos.
003_13 Aju 02
29/4/13
08:57
Página 66
66
CUADERNOS METODOLÓGICOS 48 ILUSTRACIÓN 2.5 EXPORTACIÓN DE DATOS A FORMATO TEXTO
Cuando estemos listos, pulsamos «Aceptar» para pasar a una ventana desde la cual hemos de elegir el nombre y la ubicación que tendrá el fichero sin la menor dificultad. En nuestro caso, elegimos el directorio por defecto y el nombre dexc.txt y ya tendremos el fichero exportado. El resto de modos de exportar datos que se describen en los apartados que siguen solo son realizables mediante código, por lo que, al presentarlos, omitiremos el hecho de su infactibilidad vía R Commander. 2.3.2.
Exportación de datos de tipo texto con ancho fijo
Hasta fechas recientes, no era posible la exportación de datos de texto con formato de ancho fijo. La publicación del paquete «gdata» 12 ha dado solución a este problema pendiente en R. Veamos, pues, el modo en que el mencionado paquete permite la exportación de datos de texto con ancho fijo. Imaginemos que deseamos exportar el conjunto de datos que tenemos almacenado en ser a un fichero de texto en el cual no exista separación entre campos. La instrucción que incluye el mencionado paquete gdata al efecto es write.fwf(). En el cuadro siguiente figura su sintaxis elemental. write.fwf(ser, file=’serfwf.txt’, sep=””, colnames=F, rownames=T)
12 Gregory R. Warnes, with contributions from Ben Bolker, Gregor Gorjanc, Gabor Grothendieck, Ales Korosec, Thomas Lumley, Don MacQueen, Arni Magnusson, Jim Rogers and others (2011). gdata: Various R programming tools for data manipulation. R package version 2.8.2. http://CRAN.R-project.org/package=gdata.
003_13 Aju 02
29/4/13
08:57
Página 67
EL PAQUETE ESTADÍSTICO R
67
Como en el apartado anterior, el primer argumento ser no es más que el nombre de la hoja de datos a exportar, mientras que el segundo indica el nombre del fichero de ancho fijo a generar. A estas alturas ya no resulta difícil imaginarse lo que significa cada uno del resto de argumentos de la función: i)
sep: informa al programa del modo de separar las variables. Si deseamos que no exista separación, hay que indicar sep=””. ii) colnames: especifica si el nombre de las variables o línea de cabecera será incluido en el fichero (T) o, por el contrario, comenzará el fichero de texto directamente con las observaciones (F). iii) rownames: especifica si el número de observación será incluido en el fichero (T) como primera columna de datos o si la primera columna ya corresponderá a datos de las variables medidas en la hoja de datos que estemos exportando (F).
Es importante dejar claro que el número de posiciones que la orden write.fwf() otorgará en el fichero de texto a cada variable de la hoja de datos a exportar viene determinada por el número máximo de posiciones que dicha variable ocupe en los datos. Por ejemplo, si una variable tiene como valor máximo 289, le serán reservadas tres posiciones en el fichero de ancho fijo resultante.
2.3.3.
Exportación de datos a libros Excel
Existen diversos modos de exportar datos a Excel, algunos de los cuales se han ido incluyendo en los paquetes de R que comunican ambos programas. Sin embargo, el modo más sencillo de escribir desde R en libros Excel sigue siendo a través de la instrucción write.csv2(), cuya sintaxis detallamos a continuación.
write.csv2(dex, ‘pob11.csv’)
Como se puede apreciar, la sintaxis del comando es harto sencilla: solo incluimos el nombre de la hoja de datos que queremos exportar y el nombre que llevará el archivo que se creará en nuestro directorio por defecto. En realidad, con la orden anterior, creamos un fichero de extensión csv. Sin embargo, este puede abrirse desde Excel sin ningún problema y, a continuación, grabarse como libro Excel si así lo deseamos.
003_13 Aju 02
29/4/13
68
08:57
Página 68
CUADERNOS METODOLÓGICOS 48
2.3.4.
Exportación de datos legibles por SPSS
Como ya se ha anticipado, es posible exportar hojas de datos de R a ficheros de texto de modo que, dichos ficheros, sean legibles por SPSS a través de una sintaxis que se genera desde R automáticamente. Veamos a continuación el modo de llevar a cabo esta tarea a través de código. El paquete que permite tan sofisticado tratamiento de datos no es otro que el ya introducido «foreign», a través de su función write.foreign(). Esta función permite acometer esta tarea no solo para SPSS, sino también para otros programas, entre los que cabe destacar Stata y SAS. Observemos el siguiente cuadro en el que se pretende ilustrar el uso de estas funcionalidades: library(foreign) write.foreign(d2815,datafile=’C:/cuadernoR/w2815.txt’,codefile= ’code2815.sps’,package=”SPSS”)
Como viene siendo habitual, el primer argumento indica el nombre de la hoja de datos que queremos exportar (en este caso, d2815, el objeto en el que habíamos importado la información contenida en el fichero de microdatos de ancho fijo del estudio 2815 del CIS). Veamos con detalle el cometido que cumplen los demás parámetros de la función: i)
datafile: muestra la ruta completa del directorio donde queremos ubicar el fichero de texto que se va a generar. Llama la atención que, en este caso, sí hagamos explícita la ruta completa en la que se creará nuestro fichero. Ello es debido a que nuestro directorio de trabajo es conocido por R, pero no necesariamente por SPSS, que será desde donde se importarán estos datos a través de la sintaxis especialmente diseñada para ello. ii) codefile: indica el nombre de la sintaxis SPSS que se creará para leer los datos desde ese programa. Nótese que, como éste es un fichero que ya se crea desde R, no es necesario introducir la ruta completa del mismo. Adviértase también que el fichero tiene la extensión sps, como es habitual en los ficheros de sintaxis de SPSS. iii) package: se incluye el nombre del programa concreto que ha de leer los datos (SPSS, en nuestro caso). 2.3.5.
Exportación de datos legibles por Stata o SAS
También es posible exportar datos en fichero texto desde R creando el código necesario para que sean legibles desde Stata o SAS. Para ello no hay más que utilizar de nuevo la función write.foreign(). El modo de proceder es abso-
003_13 Aju 02
29/4/13
08:57
Página 69
EL PAQUETE ESTADÍSTICO R
69
lutamente análogo al utilizado para el caso de SPSS. Las únicas diferencias se hallan en el parámetro codefile, que tomaría el nombre de un fichero de sintaxis Stata o SAS y el valor del último parámetro package, que en este caso tomaría el valor “Stata” o “SAS”, según el caso. Por ejemplo, si deseamos que la exportación genere un programa de lectura en SAS, la sintaxis sería: write.foreign(d2815,datafile=’C:/cuadernoR/w2815.txt’, codefile=’code2815.sas’,package=“SAS”)
Si se desea probar el funcionamiento de una sintaxis SPSS, Stata o SAS creada a través de la función write.foreign() del modo descrito en los dos últimos apartados, únicamente hay que abrir el paquete estadístico comercial adecuado, abrir desde el mismo el fichero de sintaxis correspondiente y ejecutarla del modo habitual.
2.4.
Los conjuntos de datos incluidos en R
Tanto los paquetes básicos de R (los que cualquier usuario tiene ya instalados en el momento en que descarga el programa) como casi todos los paquetes adicionales, disponibles para su uso en la ya mencionada web del proyecto R, disponen de diversos conjuntos de datos reales que son muy útiles a efectos de aprendizaje de las diversas herramientas del programa. En este cuaderno, dichos conjuntos de datos se utilizarán con alguna frecuencia para los ejercicios propuestos, en aras de que el lector tenga la ocasión de practicar con conjuntos de información muy diversos. Por ello, mostraremos brevemente a continuación el modo de acceder a dichos conjuntos de datos, tanto desde la consola de R como desde R Commander. Código En primer lugar, resulta necesario obtener la lista de los conjuntos de datos que tenemos disponibles en los paquetes que tenemos descargados, con el objeto de elegir el que deseamos utilizar. Para ello, la sencilla orden de la primera línea del cuadro siguiente resulta suficiente: data() d1 <- USArrests help(USArrests)
Supongamos que estamos interesados en el conjunto de datos USArrests. El modo más cómodo de trabajar con el mismo es, simplemente, asignar
003_13 Aju 02
29/4/13
08:57
Página 70
70
CUADERNOS METODOLÓGICOS 48
dicho conjunto de datos a un objeto recién creado. Por ejemplo, denominemos a ese objeto d1, como se hace en la segunda línea del cuadro precedente. Si queremos obtener la información detallada acerca de nuestro conjunto de datos, la instrucción a utilizar es help(), la misma que se usa para conocer los detalles de la sintaxis de un comando de R. R Commander Para listar desde R Commander los conjuntos de datos disponibles en los paquetes que tenemos instalados hay que seguir la ruta: Datos → Conjuntos de datos en paquetes → Lista de conjuntos de datos en paquetes
Si lo que deseamos es leer uno de esos conjuntos de datos entonces hemos de seleccionar: Datos → Conjuntos de datos en paquetes → Leer conjunto de datos desde paquete adjunto
Al ser conducidos a la ventana de diálogo correspondiente, hemos de seleccionar el paquete (doble clic) y, a continuación, el conjunto de datos que nos interesa leer dentro de ese paquete (doble clic). En la ilustración 2.6 figura la importación del mismo conjunto de datos que hemos leído previamente con código. Nótese que la ventana permite también obtener ayuda acerca del conjunto de datos que nos interesa. ILUSTRACIÓN 2.6 LECTURA DE DATOS DESDE PAQUETE DE R
003_13 Aju 02
29/4/13
08:57
Página 71
EL PAQUETE ESTADÍSTICO R
2.5. 1.
Ejercicios Importar del fichero de datos del estudio 2815 ya utilizado en el tema las variables correspondientes a las siguientes preguntas: «Confianza inspirada por J. L. Rodríguez Zapatero» (153), «Confianza inspirada por Mariano Rajoy» (154), «Sexo» (190), «Edad» (191-192), «Definición en materia religiosa» (196). Almacenar esta información en la hoja de datos confi. Realizar, a continuación, mediante código, las siguientes tareas: i) ii) iii)
iv)
v) vi)
2.
71
Nombrar las variables de nuestra hoja de datos confi como zpconfi, rjconfi, sexo, edad, religion. Calcular el número de filas y columnas que tiene la hoja de datos. Extraer de la hoja de datos otra más reducida, solo compuesta por las variables sexo, edad y religion, denominando a esta última hoja datosper. Exportar los datos contenidos en confi al fichero confi.txt, incluyendo como carácter separador entre valores de variables la coma. Importar de nuevo el fichero confi.txt, almacenándolo en un objeto R denominado confi2. Realizar las tareas iv) y v) otras dos veces, en un caso utilizando como separador entre variables el tabulador y sin exportar los números de observación y en otro caso utilizando como separador el espacio en blanco y exportando los números de observación.
Consideremos el fichero de datos del estudio 2911, correspondiente al Barómetro del CIS de septiembre de 2011. Obtener desde la página web del CIS el cuestionario de dicho estudio, así como el fichero de microdatos del mismo. Como se puede comprobar en el cuestionario, los campos (54), (55) y (56) almacenan los códigos de las respuestas a tres preguntas relacionadas con el papel que ha de jugar el Estado. Importar dichas variables, denominándolas est1, est2 y est3, respectivamente. Al mismo tiempo, importar las variables sexo (160), edad (161-162). Todo ello ha de quedar almacenado en un objeto R que denominaremos estado. Realizar, a continuación, mediante código las siguientes tareas: i) ii) iii)
Exportar el conjunto de datos recién importado a un libro Excel denominado estado.xls. Importar la información contenida en el libro Excel a una hoja de datos R denominada, en este caso, estado2. Extraer las variables est1, est2 y est3 en la hoja de datos est.
003_13 Aju 02
29/4/13
72
08:57
Página 72
CUADERNOS METODOLÓGICOS 48
iv) v)
3.
Exportar esta última hoja como fichero de texto separado por tabuladores. Realizar otros ejercicios de importación y exportación, a iniciativa del lector, con estas hojas de datos.
Conjunto de datos swiss de R. Para comenzar a familiarizarnos con los conjuntos de datos de R, trabajaremos en este ejercicio con el conjunto de datos swiss, incluido en los paquetes básicos del programa. Ello significa que no tendremos que cargar ningún paquete adicional para acceder a los datos: i) ii)
Almacenar los datos del conjunto swiss en el objeto d1. Comprobar que el conjunto es, realmente, una hoja de datos de R. iii) Obtener información detallada del citado conjunto de datos. iv) En este caso, el nombre de las provincias es, al fin y al cabo, el nombre de las filas de datos. Como sabemos, se puede invocar dicho nombre con el comando row.names(), de igual modo que el nombre de las variables se puede extraer utilizando col.names(). Extraer, de este modo, la provincia que tiene la máxima fertilidad, la que tiene el mínimo y el máximo porcentaje de católicos y la que tiene el mínimo y el máximo en hombres dedicados a la agricultura (recordemos los comandos which.min() y which.max(), introducidos en el tema anterior). v) Exportar los datos al fichero swiss.txt, utilizando como separador entre variables el tabulador y el punto y coma. vi) Leer los datos de swiss.txt en ambos casos. vii) Exportar los datos recién leídos a un fichero de texto de ancho fijo. 4.
Repetir con R Commander las tareas que sea posible de las contenidas en los apartados anteriores.
003_13 Aju 03
29/4/13
08:57
Página 73
3 Manipulación de datos con R Una vez pertrechados de un amplio abanico de herramientas para leer y escribir datos desde R, llega el momento de estudiar el modo de realizar diversos tratamientos a esos datos. Por realizar una analogía con el funcionamiento de una factoría, ya sabemos cómo transportar hasta la misma la materia prima y cómo dar salida al producto elaborado. Ahora nos falta aprender en profundidad las técnicas para el funcionamiento del proceso productivo en sí mismo, el que tiene lugar en la propia fábrica. A ese objetivo dedicaremos el resto del libro. Concretamente, en este tema introduciremos técnicas de muy elevada utilidad para la preparación de los datos, como la recodificación de variables y el modo de calcular nuevas variables. Sin duda, también resulta fundamental para el manejo del programa el dominio de las técnicas de filtrado de datos y de unión de ficheros, que también se detallan en este capítulo. Es importante llamar la atención acerca del hecho de que las técnicas aquí introducidas no son realmente una explotación estadística de los datos sino que se trata de ilustrar la forma de disponer los datos del modo que más nos interese para su ulterior tratamiento estadístico 1.
1 Quizá sea este el momento más oportuno para hacer consciente al lector de la multitud de bibliografía que ya existe dedicada a la implementación de las técnicas estadísticas más usuales con R. Incluiremos aquí solo una pequeña selección de textos que destacan por su claridad y alcance, pudiendo servir cada uno de ellos como obra de aprendizaje y consulta del programa. En este sentido, cabe destacar el tratamiento expuesto en Dalgaard (2008), especialmente idóneo para la perspectiva del investigador cuantitativo en ciencias sociales. Por su parte, en Everitt y Hothorn (2010) se puede hallar un manual de consulta muy recomendable. Verzani (2005) también resulta una referencia interesante y completa y cuenta con la ventaja de disponer de una versión de su obra libremente descargable en la web. También el excelente manual de Sáez Castillo (2010) es de libre acceso. Rizzo (2008) presenta un nivel más avanzado matemáticamente, pero resulta muy claro para la amplitud teórica que abarca. Conviene no dejar de mencionar la notable obra de Fox y Weisberg (2011) ni el excelente libro de Harrell (2001). Finalmente, un texto realmente avanzado y orientado claramente a la investigación en ciencias sociales puede hallarse en Vinod (2010).
003_13 Aju 03
29/4/13
08:57
Página 74
74
CUADERNOS METODOLÓGICOS 48
3.1.
Recodificación de variables
Podríamos definir la recodificación de una variable como una función que transforma sus valores en otros, más convenientes para nuestras pretensiones. Ejemplos habituales son la agrupación de datos en intervalos numéricos, áreas geográficas, etc. También hay que recodificar cuando se desea pasar una variable de valores nominales a códigos numéricos o viceversa; por ejemplo, cuando se pasa del nombre de las provincias a su código numérico. Como veremos a continuación, esta importante funcionalidad se puede ejecutar tanto desde R como utilizando R Commander.
Código La instrucción básica para recodificar variables con R es recode(), que pertenece al paquete de R «car» 2, que se puede instalar y cargar del modo ya conocido. Supongamos, para ilustrar su uso, que deseamos recodificar la variable edad de la hoja de datos d2815 creando otra nueva variable que agrupe las edades por intervalos. Aunque en los cruces que realiza el CIS por variables sociodemográficas figuran habitualmente seis intervalos de edad, supondremos aquí, para hacer más claro el ejemplo, que solo tratamos con tres intervalos: «joven» (18-34), «intermedio» (35-64) y «mayor» (65 y más). Veamos cómo podemos crear una variable recodificada en nuestra hoja de datos d2815, a la que denominaremos intedad.
d2815$intedad <- recode(d2815$edad, “18:34=’joven’; 35:64=’intermedio’; 65:98=’mayor’”, as.factor.result=T) class(d2815$edad); class(d2815$intedad) head (d2815)
Analicemos pues la primera instrucción del cuadro anterior (dos primeras líneas de código). En primer lugar, hay que tener en cuenta que deseamos crear la variable recodificada intedad en la hoja de datos d2815 luego, con la sintaxis habitual, «bautizamos» a la nueva variable con el nombre ya mencionado. Aunque es un asunto que se verá en detalle en el apartado 2 John Fox y Sanford Weisberg (2011). An {R} Companion to Applied Regression, Second Edition. Thousand Oaks CA: Sage. URL: http://socserv. socsci.mcmaster.ca/jfox/Books/Companion.
003_13 Aju 03
29/4/13
08:57
Página 75
EL PAQUETE ESTADÍSTICO R
75
siguiente, procede ahora comentar que este método sirve siempre que se quiera crear una nueva variable en una hoja de datos. Directamente se pueden introducir los valores de la nueva variable sin más que referirnos a ella como si ya existiera, tal y como se hace en el cuadro anterior (d2815$intedad) para, a continuación, asignarle sus valores, sean fruto de la recodificación de otra variable o no. En cuanto a la función recode(), la estructura de su sintaxis es la siguiente: i)
Como primer argumento, figura la variable de nuestra hoja de datos que deseamos recodificar. ii) A continuación, aparece entrecomillado (comillas dobles) el conjunto de condiciones de recodificación. Concretamente, se indican al programa de forma secuencial los valores de la variable de partida (edad) que pasarán a formar parte de cada valor de la variable de llegada (intedad). En este caso, es necesario indicar los tres valores de llegada, que han de aparecer entre comillas simples. Cada una de estas (tres) asignaciones debe figurar separada por punto y coma de los demás. iii) Por último, mencionar que la instrucción recode() admite un parámetro denominado as.factor.result que, cuando toma el valor TRUE (as.factor.result=T), nos transforma la variable recién creada en un factor de modo directo. Esto resulta adecuado si deseamos que la nueva variable recodificada sea un factor, en otro caso, cabe la posibilidad de omitir este último parámetro, pues su valor por defecto es FALSE. En cualquier caso, como ya es conocido, si omitimos este parámetro, siempre podemos transformar la variable recodificada en factor con posterioridad a través del comando as.factor(). Cabe realizar algunas puntualizaciones: En primer lugar, adviértase que, en este caso, el uso de comillas simples y dobles no es indistinto y es necesario utilizar en cada caso las que corresponden. Hay que hacer notar también que, en nuestro ejemplo, los valores que se asignan a la variable recodificada intedad son intervalos de edades. En caso de que se tratase de otros conjuntos de valores no agrupados por intervalos, habría que explicar al programa de qué valores se trata, utilizando para ello la sintaxis habitual en R (por ejemplo, si queremos asignar a un valor nominal los valores 7 y 9 de una variable, se puede utilizar el operador de concatenar para así realizar, como parte de la sintaxis de la función recode(), una identificación del tipo c(7, 9)=’nombre’, suponiendo que la categoría nominal se denominase nombre).
003_13 Aju 03
29/4/13
08:57
Página 76
76
CUADERNOS METODOLÓGICOS 48
Podemos comprobar, a través de la función class(), la clase a la que pertenecen ambas variables 3. También resulta muy cómodo, utilizando el comando head(), visualizar la nueva hoja de datos con la nueva variable recodificada agregada al mismo. Las dos últimas líneas de código del cuadro anterior se prestan a esos fines, respectivamente. En el cuadro siguiente podemos observar las primeras observaciones de la hoja de datos d2815 antes y después de agregar a la misma la variable recodificada.
R Commander Para proceder a la recodificación de la variable a través de R Commander comencemos por borrar la variable que hemos creado, con el fin de volver a crearla de nuevo. Nuevamente, la mejor vía para ello es el uso de la comodísima notación matricial.
d2815 <- d2815[, -7]
Ahora ya estamos en condiciones de volver a crear la variable. Así pues, comencemos por activar, en la ventana principal de R Commander, el conjunto de datos que nos interesa (d2815). El modo de lograr que este conjunto de datos pase a estar activo ya fue detallado con anterioridad.
3 Se observará que la variable edad es del tipo integer, que es el tipo numérico que R utiliza cuando una variable solo toma valores enteros.
003_13 Aju 03
29/4/13
08:57
Página 77
EL PAQUETE ESTADÍSTICO R
77
Una vez superados estos preliminares, para llevar a cabo la recodificación propiamente se debe seguir la siguiente ruta de opciones: Datos → Modificar variables del conjunto de datos activo → Recodificar variables…
Al llegar a la pantalla que figura en la ilustración 3.1, hay que escoger la variable a recodificar y el nombre que tendrá la variable recodificada. Por otra parte, también hay que informar al programa si queremos que convierta la variable nueva en factor. En cuanto a las directrices de recodificación, su sintaxis es la que figura en la ilustración. Como se puede comprobar, es necesario que las condiciones vayan en diferentes líneas y que los valores de la nueva variable vayan, en este caso, entre comillas dobles. Nótese que, para recodificar mediante código, estos nuevos valores iban entre comillas simples.
ILUSTRACIÓN 3.1 RECODIFICACIÓN DE VARIABLES
Aunque ahora no resulta necesario, cabe señalar que, si deseásemos eliminar la nueva variable (u otra cualquiera de la hoja de datos) a través de R Commander habríamos de seguir la ruta:
003_13 Aju 03
29/4/13
08:57
Página 78
78
CUADERNOS METODOLÓGICOS 48
Datos → Modificar variables del conjunto de datos activo → Eliminar variables del conjunto de datos…
Siguiendo estos menús, se llega a una ventana desde la cual se procede a la eliminación de la variable deseada sin la menor complicación. Conviene enfatizar de nuevo lo útil que puede resultar al lector el prestar atención a la sintaxis que va generando R Commander en su ventana de instrucciones a medida que se realizan tareas con el interfaz. De este modo podrá aprender mucho acerca de cómo utilizar el código de R de forma adecuada.
3.2.
Cálculo de nuevas variables
La idea que subyace al cálculo de nuevas variables es la creación en una hoja de datos de una nueva variable que sea función de los datos ya disponibles. Por ejemplo, se podría crear una variable que fuera la media de la situación política y la situación económica. En R resulta sumamente sencillo el cálculo de nuevas variables dentro de nuestra hoja de datos. Simplemente hay que referirse a la variable que queremos crear por su nombre, con la sintaxis habitual nombre.hoja.de.datos$nombre.variable, indicar al programa qué valores toma y la variable se incorporará inmediatamente a nuestra hoja de datos. De este modo, la hoja de datos pasará a tener una columna más, que se situará al final de las existentes. Los datos contenidos en esta nueva variable pueden ir en función de los datos de otras variables de nuestra hoja de datos en activo o de otras hojas de datos existentes. Veamos el modo de acometer esta tarea tanto mediante código como a través de R Commander.
Código Supongamos que en nuestra hoja de datos d2815 queremos agregar la variable sitecopol, definida como la media aritmética de los valores de las variables siteco y sitpol. Obviamente, habría que tener en cuenta de algún modo que no todos los valores de estas variables están ordenados. En concreto, los valores 8 y 9 corresponden a N.S. y N.C., respectivamente. Sin embargo, por fines pedagógicos, aprendamos ahora el modo básico de crear la nueva variable y más adelante se facilitarán herramientas para solventar los mencionados problemas. Como en la hoja de datos d2815, las variables siteco y sitpol ocupan las columnas 3 y 4, respectivamente, el modo más sencillo de realizar
003_13 Aju 03
29/4/13
08:57
Página 79
EL PAQUETE ESTADÍSTICO R
79
la tarea requerida es a través de la notación matricial y el comando rowMeans(), ya introducido. El cuadro siguiente ilustra el modo de proceder, así como la forma de visualizar las primeras filas de nuestra hoja de datos ampliada.
d2815$sitecopol <- rowMeans(d2815[, 3:4]) head(d2815)
La variable recién creada queda situada al final de la hoja de datos, como se puede apreciar en el cuadro siguiente, que muestra el aspecto de la hoja antes y después de la creación de la variable.
R Commander Para calcular nuevas variables con R Commander comencemos por borrar la variable recién creada sitecopol, para, posteriormente, volverla a crear. En el apartado anterior utilizamos para este fin la notación matricial. Veremos ahora cómo realizar esa tarea con la notación habitual trabajando con hojas de datos. d2815$sitecopol <- NULL
Asignando a la variable sitecopol el valor NULL, queda eliminada de nuestra hoja de datos. Como se puede observar, este modo de borrar variables también resulta muy cómodo.
003_13 Aju 03
29/4/13
08:57
Página 80
80
CUADERNOS METODOLÓGICOS 48
Veamos ahora cómo calcular la variable sitecopol a través de R Commander. En primer lugar, con d2815 como hoja activa, hemos de seguir la ruta: Datos → Modificar variables del conjunto de datos activo → Calcular una nueva variable…
De este modo, nos vemos conducidos a la ventana gráfica que figura en la ilustración 3.2, desde la cual hemos de elegir un nombre para la nueva variable que vamos a calcular y la expresión de dicha variable. Tras rellenar estos campos, únicamente hemos de pulsar «Aceptar» y ya tendremos creada nuestra nueva variable.
ILUSTRACIÓN 3.2 CÁLCULO DE NUEVAS VARIABLES
3.3.
Filtrado de datos
Con frecuencia, es necesario filtrar los datos, quedándonos con un subconjunto de la información inicial que cumpla ciertas condiciones. Por ejemplo, puede interesarnos eliminar de una hoja de datos las observaciones que, para una determinada variable, correspondan a respuestas como «No sabe» o «No contesta». El modo de realizar este tipo de tarea con R es sumamente simple, como se muestra en este apartado, convirtiendo al filtrado de datos en una de las técnicas que mejor combina versatilidad y sencillez.
003_13 Aju 03
29/4/13
08:57
Página 81
EL PAQUETE ESTADÍSTICO R
81
Código El comando base para llevar a cabo filtrados en R es subset(). Veamos con un ejemplo el modo en que se utiliza en la práctica. Supongamos que en nuestra hoja de datos d2815 queremos quedarnos únicamente con las observaciones de individuos con una edad superior a 40 años. La sintaxis necesaria para llevar a cabo esta operación figura en la primera línea del siguiente cuadro de código. En ella, asignamos al nuevo objeto f1 el subconjunto filtrado según nuestro criterio. Como se puede apreciar, la función subset() precisa únicamente dos argumentos: el primero es la hoja de datos que deseamos filtrar y el segundo la condición (o condiciones, como enseguida veremos) que ha de cumplir el subconjunto filtrado.
f1 <- subset(d2815, edad>40) min(f1$edad) f1[1:20, ] rownames(f1) <- 1:nrow(f1) f1[1:20, ]
Un modo rápido de convencernos de que el conjunto ha sido, efectivamente, bien filtrado es mediante el cálculo del mínimo de la variable filtrada, tal como se indica en la segunda línea. Si deseamos ver el aspecto del conjunto filtrado, podemos, como siempre, quedarnos con las primeras líneas del mismo, operación que, como ya es sabido, se ejecuta con extrema facilidad con la notación matricial. Un apunte importante: al observar la numeración de las observaciones de f1 resulta fácil apreciar que los números de fila se heredan del conjunto de datos original. Si realmente no nos importa prescindir de la numeración de filas original y deseamos que la numeración de las filas en el conjunto filtrado sea la correlativa natural, podemos renumerar las filas con el comando rownames(), tal y como se muestra en la penúltima línea del cuadro anterior. Lo que hace dicha instrucción es asignar los números naturales entre 1 y el número de filas que contenga el conjunto filtrado f1 como nombres de fila (en este caso, números de observación simplemente). Insistamos, una vez más, en la extrema utilidad que reporta un manejo fluido de la notación vectorial y matricial a la hora de realizar con soltura muchos manejos elementales en R. En el siguiente cuadro se puede apreciar el aspecto del conjunto filtrado antes y después de cambiar el número a las observaciones.
003_13 Aju 03
29/4/13
08:57
Página 82
82
CUADERNOS METODOLÓGICOS 48
Si nuestro objetivo es realizar un filtrado con condiciones en más de una variable, no hay más que utilizar la misma sintaxis pero incluyendo en las condiciones de filtrado todas las restricciones que deseamos exigir, separadas por el símbolo &. f2 <- subset(d2815,edad>70 & sexo==1)
003_13 Aju 03
29/4/13
08:57
Página 83
EL PAQUETE ESTADÍSTICO R
83
De este modo, la sintaxis incluida en el cuadro anterior nos filtra las observaciones correspondientes a individuos varones con más de 70 años. He aquí donde cobran especial relevancia los conectores lógicos introducidos en el primer capítulo, que recomendamos repasar en este punto 4, puesto que también podría ocurrir, aunque quizá es menos frecuente, que deseásemos filtrar las observaciones que tuvieran, por ejemplo, una edad superior a 70 o bien que fuesen varones. En ese caso solo habría que reemplazar en la línea de código anterior el conector & (y) por | (o). Recordemos que también habíamos introducido la negación lógica ! (no), que también puede ser útil para introducir condiciones de forma negativa. Por ejemplo, la condición !(edad>70 & sexo==1) introducida en una sentencia de filtrado significa que deseamos quedarnos con las observaciones que no cumplan ser varones mayores de 70 años.
R Commander En primer lugar, hemos de seleccionar la hoja que deseamos filtrar como conjunto de datos activo. Una vez realizado lo anterior, la ruta necesaria en R Commander para iniciar el proceso de filtrado es: Datos → Conjunto de datos activo → Filtrar el conjunto de datos activo …
Esta ruta nos conduce a la ventana de diálogo mostrada en la ilustración 3.3. Si deseamos filtrar por las variables edad y sexo del mismo modo que en el segundo caso del apartado anterior y almacenar el subconjunto filtrado en la nueva hoja de datos fc2, incluyendo todas las variables de partida, el modo de proceder es el que se detalla en la ventana. Como se puede apreciar, en la celda «Expresión de selección» hay que detallar las condiciones con la sintaxis ya introducida para el caso de código y en la celda inferior se debe introducir el nombre del nuevo conjunto de datos filtrado. Cabe puntualizar que, en el caso de que en el conjunto filtrado deseemos quedarnos únicamente con parte de las variables, se puede quitar la marca de selección en la opción que invita a incluir todas las variables y, en su lugar, seleccionar las variables que se desean conservar tras el filtrado 5. 4
Véase el apartado 1.3. Para utilizar esta opción mediante código es necesario incluir en el comando subset() el argumento select. No obstante, en aras de la simplicidad, se ha evitado tratar este parámetro en la exposición del texto, dado que, a estas alturas del manual, el lector ya debería conocer métodos para eliminar las variables de una hoja de datos que desee, medie o no un proceso de filtrado. 5
003_13 Aju 03
29/4/13
08:57
Página 84
84
CUADERNOS METODOLÓGICOS 48 ILUSTRACIÓN 3.3 FILTRADO DE DATOS
3.4.
Una aplicación del filtrado: la depuración de datos
Como hemos visto, el filtrado nos permite extraer subconjuntos de una hoja de datos que cumplan unos requisitos dados. En muchas ocasiones, la depuración de variables no requiere más que eso: comprobar qué observaciones de un conjunto de datos cumplen con una serie de criterios. En este caso, los requisitos suelen consistir en que las observaciones de cada variable pertenezcan a un rango de valores admisibles previamente definido (por ejemplo, si una encuesta se realiza entre personas mayores de edad, no pueden existir observaciones para esa variable con valor menor que 18). Así pues, no resulta muy difícil intuir que el dominio de las técnicas de filtrado nos va a ser de gran ayuda a la hora de acometer con éxito tareas de depuración de variables. Conviene puntualizar que en la depuración de datos se diferencia entre dos grandes bloques: depuración de datos categóricos y depuración de variables puramente numéricas. Aquí nos centraremos en el primero de los tipos, por ser el que habitualmente se realiza en los datos de encuesta. En este tipo de variables, los criterios de depuración suelen ser más nítidos que en las variables numéricas, por lo que el modo de llevar a cabo dicha depuración resulta más sencillo (es más fácil definir un rango de respuestas válidas en las categorías de respuesta a una pregunta de opinión que en los valores numéricos de una variable, por ejemplo, económica). Distinguiremos también entre la depuración marginal o variable a variable y la depuración cruzada o conjunta. En la primera, analizaremos de modo marginal si los valores de cada una de las variables pertenece a un rango definido de valores admisibles. Por ejemplo, imaginemos que la variable en cuestión se denomina «Sexo» y admite los valores 1=hombre, 2=mujer. La
003_13 Aju 03
29/4/13
08:57
Página 85
EL PAQUETE ESTADÍSTICO R
85
depuración marginal de esta variable consistiría en detectar las posibles observaciones con valores diferentes a 1 y 2 para dicha variable. Por su parte, en el caso de depuración cruzada, hemos de verificar si los valores de dos o más variables son compatibles para las observaciones de nuestra hoja de datos. Por ejemplo, si la Comunidad Autónoma y la provincia a la que pertenece cada una de las observaciones son compatibles entre sí. Analicemos ahora con detalle cada uno de estos dos modos de depurar los datos. En esta ocasión resulta más conveniente limitarse a exponer el modo de realizar estas tareas mediante código, puesto que se utilizan con frecuencia a lo largo de las mismas funcionalidades no disponibles en R Commander.
3.4.1.
Depuración marginal o variable a variable
Partamos de que disponemos de un conjunto de información cuyas variables han de presentar unos valores dentro de un rango determinado. La depuración «marginal» o «variable a variable» consiste en verificar que, efectivamente, cada una de las variables que estamos estudiando presenta valores dentro del rango que les corresponde. Para depurar datos con R, necesitamos disponer de algún medio que nos informe de si un valor está dentro de un rango determinado o no. La instrucción más adecuada en R para ello es %in%, que funciona del modo que se ejemplifica en la tabla siguiente:
3 %in% 1:5 3 %in% c(1, 4) class(3 %in% 1:5)
La primera línea de código plantea si el número 3 está dentro del conjunto de números 1, 2, 3, 4 y 5. La respuesta que da el programa es, por supuesto, TRUE. En el segundo caso, la respuesta es FALSE, puesto que 3 no está en el conjunto formado por los elementos 1 y 4. La clase de estas variables es logical, como ya hemos anticipado en el capítulo 1 y como se puede comprobar ejecutando la tercera sentencia del cuadro anterior. Consideremos ahora el conjunto de datos d2815, que hemos importado con anterioridad. Dicha hoja de datos contiene 2.478 observaciones de seis variables. Se trata de un subconjunto de la información contenida en el Barómetro de octubre de 2009 elaborado por el CIS. Supongamos, por ejemplo, que queremos verificar si los valores que toma la variable ccaa están, efectivamente, entre los admisibles (del 1 al 17). El método más sencillo para ello es utilizar nuestros conocimientos acerca del
003_13 Aju 03
29/4/13
08:57
86
Página 86
CUADERNOS METODOLÓGICOS 48
filtrado de datos, introducidos en el tema anterior. Analicemos el siguiente código:
r1 <- 1:17 true1 <- subset(d2815, ccaa %in% r1) false1 <- subset(d2815, !(ccaa %in% r1) ) false1
En la primera línea de código asignamos, sin más, a r1 los 17 primeros números naturales. En la segunda, filtramos en nuestra hoja de datos d2815 las observaciones que tienen valores de la variable ccaa comprendidos entre el 1 y el 17 (es decir, los que presentan un valor correcto) y almacenamos el subconjunto resultante en el objeto true1. Seguidamente, nos proponemos detectar las observaciones que no están dentro del rango incluido en r1. Para ello, realizamos otro filtrado pero esta vez exigiendo que la variable ccaa no se encuentre en el rango correcto. Si mostramos por pantalla el objeto false1, en el cual hemos almacenado la información, nos encontraremos que no contiene observaciones. Obviamente, ello es debido a que el estudio ya está depurado y, por tanto, todas las observaciones presentan un código de CCAA admisible. Dicho de otro modo, para todas las observaciones en la muestra, la variable ccaa toma los valores comprendidos entre 1 y 17. Para entender mejor cómo se realizaría una depuración de los datos supongamos, sin embargo, que solo fueran correctos los valores de ccaa entre 1 y 16. En ese caso el código del cuadro siguiente detectaría como erróneas las observaciones pertenecientes a la Comunidad Autónoma de código 17. La situación sería la siguiente:
er1 <- 1:16 etrue1 <- subset(d2815, ccaa %in% er1) efalse1 <- subset(d2815, !(ccaa %in% er1) )
Así, quedan almacenadas en etrue1 los números de fila de las observaciones «correctas» y en efalse1 los números de fila de las observaciones «erróneas». Podemos, a continuación, visualizar cuáles y cuántas son esas observaciones. Esas son las tareas que realizan, respectivamente, las dos líneas de código del siguiente cuadro.
efalse1 nrow(efalse1)
003_13 Aju 03
29/4/13
08:57
Página 87
EL PAQUETE ESTADÍSTICO R
87
Si todo ha ido bien, comprobaremos que el número de filas de efalse1 es igual a 18, que coincide con el número de observaciones de la muestra que pertenecen a la Comunidad Autónoma de código 17. Con las sencillas pautas estudiadas en este apartado se pueden abordar muchísimos problemas de depuración marginal de los que surgen habitualmente al tratar con conjuntos de datos de encuesta.
3.4.2.
Depuración cruzada
Hasta ahora hemos visto la depuración desde el punto de vista de la distribución marginal de una variable en la muestra. Es decir, centrándonos en los valores que puede tomar esa variable sin plantearnos si ciertos valores admisibles para la misma son o no compatibles con los que presentan otras variables para una observación dada. En ocasiones no basta con la depuración de las variables desde el punto de vista marginal. Es decir, puede ser necesario depurar una variable en función de los valores que toma otra. O dicho de otro modo, hay veces que no podemos obviar la distribución conjunta de la muestra al llevar a cabo la depuración de la misma. Veamos el modo de proceder con R para que no se produzcan estas incompatibilidades. Supongamos que en nuestro conjunto de datos d2815 queremos comprobar que, en la Comunidad Autónoma de Aragón (de código 2), los códigos de provincia grabados son, efectivamente, los correspondientes a dicha Comunidad (Huesca=22, Teruel=44 y Zaragoza=50). Comencemos, para ello, por definir el vector provaragon, que ha de contener los códigos de las tres provincias aragonesas. A continuación, definimos la hoja de datos true2, que contiene los elementos de d2815 que a la vez son de Aragón y tienen un código de provincia realmente perteneciente a sus provincias. Obsérvese que para esta segunda instrucción no usamos más que la sentencia básica de filtrado en la que aparecen, eso sí, dos condiciones en lugar de una como ocurría en la sección anterior. provaragon <- c(22, 44, 50) true2 <- subset(d2815, ccaa==2 & prov %in% provaragon) false2 <- subset(d2815, ccaa==2 & !(prov %in% provaragon) )
Llegados a este punto, tenemos en true2 las observaciones de Aragón que sí que cumplen la condición de depuración cruzada (las correctas). Para construir nuestro false2 con las erróneas, no hay más que realizar otro filtrado pero esta vez exigiendo a las observaciones que tengan un valor de ccaa igual a 2 y, al mismo tiempo, que su código de provincia no esté en provaragon.
003_13 Aju 03
29/4/13
08:57
Página 88
88
CUADERNOS METODOLÓGICOS 48
Como anteriormente, para visualizar los resultados, utilizamos el código:
false2 nrow(false2)
Como vemos, nuevamente todas las observaciones son correctas, al tratarse de un conjunto de datos ya depurado. Consideremos las observaciones 591, 592 y 593, que pertenecen a Aragón y tienen código de provincia 22, como se puede comprobar sin más que visualizarlas con la primera instrucción del cuadro siguiente. Supongamos que hubieran sido grabadas por error con código de provincia 23 en lugar del 22. Para cambiar ese código de provincia a 23, se puede utilizar la tercera línea de código que sigue, pero antes conviene hacerse con una copia de seguridad de nuestra hoja de datos d2815, puesto que la vamos a modificar. d2815[591:593, 2] d2815seg <- d2815 d2815[591:593, 2] <- 23
Ahora ya podemos proceder como de costumbre a la depuración, llegando a la conclusión, como es lógico, de que hay tres observaciones erróneas. true3 <- subset(d2815, ccaa==2 & prov %in% provaragon) false3 <- subset(d2815, ccaa==2 & !(prov %in% provaragon) ) false3 nrow(false3)
Finalmente, si deseamos restablecer los valores correctos en nuestro conjunto de datos d2815 el modo adecuado de hacerlo es asignarle el valor que hemos almacenado en el objeto d2815seg. d2815 <- d2815seg
3.5.
Unión de ficheros con R
La unión de ficheros relacionados es práctica habitual en el tratamiento de datos estadísticos. La fusión puede tener lugar por filas, si pretendemos unir
003_13 Aju 03
29/4/13
08:57
Página 89
EL PAQUETE ESTADÍSTICO R
89
dos ficheros que tienen diferentes observaciones medidas en las mismas variables o puede llevarse a cabo por columnas, en el caso de que dispongamos de dos ficheros con diferentes variables medidas para las mismas observaciones. En este último caso puede ser necesario utilizar alguna variable común a ambos ficheros (por ejemplo, en registros administrativos es habitual utilizar a este efecto el DNI) que permita ir identificando las observaciones, salvo en el caso de que estas se encuentren ordenadas del mismo modo en ambos ficheros. Estas dos situaciones quedarán más claras al desarrollar el apartado. Veamos, pues, el modo de proceder para la fusión de ficheros con R, comenzando por los casos más simples y presentando, después, otros en los que diversas circunstancias añaden dificultades que es necesario afrontar para proceder a la unión de los datos. Código Si únicamente deseamos agregar las filas o las columnas de dos hojas de datos de manera que pasen a ser una única hoja, el modo más sencillo de hacer la operación mediante código es la utilización de los comandos rbind() y cbind(), ya aplicados a la unión de matrices con anterioridad 6. Como ya se ha apuntado, en el primero de los casos las variables de ambos ficheros han de ser las mismas, mientras que, en el segundo, hemos de disponer, para las mismas observaciones, de dos conjuntos de variables. Supongamos, por ejemplo, que se dispone de los ficheros fus1 y fus2 creados tal y como se indica en el cuadro que sigue: fus1 <- d2815[1:10, ] fus2 <- d2815[2001:2010, ]
Ambos ficheros tienen las mismas variables (las seis que contiene la hoja de datos d2815, por lo que cabría plantearse una fusión de las filas de los mismos. La forma de llevarla a cabo mediante el comando rbind() figura en este cuadro: fusfil12 <- rbind(fus1, fus2)
A continuación se exhibe la salida de los dos ficheros sin fusionar y la del fichero fusionado. 6
Véase el apartado 1.3.5.
003_13 Aju 03
29/4/13
08:57
Página 90
90
CUADERNOS METODOLÓGICOS 48
Del mismo modo, si deseamos fusionar dos ficheros por columnas, el comando adecuado es cbind(). Para ver cómo funciona, creemos los objetos fusc1 y fusc2 tal y como se indica en el cuadro de código que sigue: fusc1 <- d2815[1:10, 1:3] fusc2 <- d2815[1:10, 4:5]
Como podemos ver, se trata, respectivamente, de las tres primeras variables y de la cuarta y quinta para las 10 primeras observaciones de la hoja de datos d2815. La fusión por columnas se puede llevar a cabo así:
003_13 Aju 03
29/4/13
08:57
Página 91
EL PAQUETE ESTADÍSTICO R
91
fuscol12 <- cbind(fusc1, fusc2)
De nuevo, el cuadro que sigue ilustra la situación:
En la práctica, sin embargo, surgen con frecuencia circunstancias más complejas, ya se trate de fusionar los ficheros por filas o por columnas. El objetivo de lo que resta de apartado es mostrar el modo de resolver estos casos. i)
Unión de ficheros por filas
Hemos visto cómo fusionar por filas los ficheros fus1 y fus2. Estos dos ficheros tenían exactamente las mismas variables. Sin embargo, esto no
003_13 Aju 03
29/4/13
08:57
Página 92
92
CUADERNOS METODOLÓGICOS 48
siempre es así en la práctica. Dicho de otro modo, a veces no todas las variables que están medidas en uno de los fichero lo estarán en el otro y viceversa. Creemos, para verlo mejor, los objetos fusi1 y fusi2 a partir de fus1 y fus2. Simplemente hemos eliminado la segunda y tercera variable, respectivamente, usando la notación matricial.
fusi1 <- fus1[ , -2] fusi2 <- fus2[ , -3]
Las hojas de datos fusi1 y fusi2 presentan este aspecto:
Como se puede apreciar, en el primero de los objetos falta la variable prov, mientras que en el segundo no disponemos de la columna siteco. Para unir ficheros por filas en casos no triviales como este, el comando adecuado es mergeRows() 7. Veamos a continuación su sintaxis. fusi12 <- mergeRows(fusi1, fusi2) fusi12b <- mergeRows(fusi1, fusi2, common.only=T)
7 El comando mergeRows() pertenece al paquete R Commander, por lo tanto solo funciona si R Commander está cargado en la sesión de trabajo en la que nos hallemos.
003_13 Aju 03
29/4/13
08:57
Página 93
EL PAQUETE ESTADÍSTICO R
93
En la primera línea de código anterior, creamos el objeto fusi12 uniendo por filas los ficheros fusi1 y fusi2. Mostrando por pantalla el fichero creado, se puede comprobar que, por defecto, este fichero tiene todas las variables de los ficheros de partida, a pesar de que algunos de los valores de las mismas están ausentes. Si deseamos que la unión solo contenga las variables que sean comunes a ambos ficheros fusi1 y fusi2, hemos de indicarlo utilizando el argumento common.only=T. A continuación, se muestra el fichero fusionado en ambos casos:
003_13 Aju 03
29/4/13
08:57
Página 94
94
CUADERNOS METODOLÓGICOS 48
ii)
Unión de ficheros por columnas
Supongamos ahora que deseamos unir por columnas dos ficheros que contienen algún campo común que no está necesariamente en el mismo orden en ambos ficheros. En ese caso, resulta necesaria una técnica un poco más elaborada para proceder a la fusión. Trabajaremos con una hoja de datos de los que contiene R, denominado state.x77. Examinemos, en primer lugar, el aspecto que tiene dicho fichero:
Se trata de una serie de variables medidas para cada uno de los estados de Estados Unidos. Más adelante detallaremos exactamente su contenido. De momento, vamos a dividir la hoja de datos en dos partes, para luego proceder a su unión. Ni que decir tiene que, en la práctica, nos encontraremos ya con las dos hojas de datos que es preciso fusionar. No obstante, las manipulaciones previas que vamos a realizar para construir los dos ficheros que posteriormente uniremos, aunque irreales, resultan un buen repaso de algunas de las técnicas de manejo con hojas de datos aprendidas hasta ahora. Si hallamos la clase del objeto state.x77 a través de la orden class(), comprobaremos que es una matriz. Con la primera instrucción del cuadro que sigue, transformamos el objeto en hoja de datos, para poder trabajar con él del modo que estamos acostumbrados, almacenando el resultado en e. A continuación, utilizando la notación matricial (que recordemos que es válida tanto para matrices como para hojas de datos), creamos un elemento denominado e1 con las cuatro primeras columnas de e y otro llamado e2 que contiene las cuatro últimas. e <- as.data.frame(state.x77) e1 <- e[ , 1:4] e2 <- e[ , 5:8] head(e1); head(e2)
003_13 Aju 03
29/4/13
08:57
Página 95
EL PAQUETE ESTADÍSTICO R
95
Utilizando el comando head() se puede comprobar que estas hojas de datos contienen las siguientes variables medidas en cada uno de los estados de Estados Unidos 8: e1:
• • • •
Population: Población. Income: Renta per cápita. Illiteracy: Analfabetismo (%). Life Exp: Esperanza de vida.
e2:
• • • •
Murder: Tasa de homicidios por 100.000 habitantes. HS Grad: Porcentaje de graduados en la escuela superior. Frost: Número medio de días bajo cero. Area: Área en millas cuadradas.
Un detalle a tener en cuenta es que los nombres de los estados (variable común por la cual hemos de fusionar los ficheros) figuran como nombres de filas, no como una variable de la hoja de datos como tal. Sin embargo, como veremos, para proceder a la unión de e1 y e2, es necesario explicitar la variable que nos servirá de nexo entre ambas. De este modo, nos encontramos con que, en nuestra hoja de datos, la variable que hemos de utilizar para cruzar las observaciones no es tal variable sino que corresponde al nombre de las columnas. En realidad, ya sabemos cómo solventar este problema: se trata de crear en ambas hojas de datos una nueva variable (que llamaremos en ambos casos name) con los nombres de las filas (los nombres de los estados). Este es el objetivo de las dos primeras líneas de código del cuadro que sigue. Las dos últimas se encargan simplemente de borrar los nombres de fila, para que los nombres de los estados no aparezcan duplicadamente en cada hoja de datos. Como siempre, el mejor modo de entender lo que hace cada instrucción es mostrar por pantalla los diversos objetos que vamos creando o modificando. e1$name <- rownames(e1) e2$name <- rownames(e2) rownames(e1) <- NULL rownames(e2) <- NULL
Si consultamos los datos apreciaremos que el orden en que figuran los estados es el mismo. En realidad, esto no es necesario para proceder a la fusión cuando existe una variable común. 8 Una información más detallada de estos conjuntos de datos y sus fuentes puede consultarse desde R a través del comando help(state.x77).
003_13 Aju 03
29/4/13
08:57
Página 96
96
CUADERNOS METODOLÓGICOS 48
Para ilustrar lo anterior, cambiemos el orden, por ejemplo, de e2, ordenando la misma por valores ascendentes de la variable Frost. En realidad, este paso es el único novedoso. Se trata de utilizar el comando order() que, situado en la posición de las filas (primera posición) en la notación matricial, sirve para indicar al programa que ha de ordenar las filas por los valores de la variable indicada (en este caso Frost). Recordemos el modo de referirse al vector que forma una variable de una hoja de datos a través del símbolo $, ya visto con anterioridad. Quizá entender adecuadamente esta instrucción resulte algo arduo, pero es enorme la utilidad que reporta la rapidez con que permite ordenar una hoja de datos según los valores de una de sus variables. e2 <- e2[order(e2$Frost), ]
A continuación, se puede comprobar el aspecto que presentan e1 y e2, los objetos que ahora nos proponemos fusionar. En realidad, lo realizado hasta ahora han sido tareas de preparación de los datos. Objetos como los del cuadro siguiente son los que en la práctica nos encontraremos para llevar a cabo la fusión.
Pero como ya se ha anticipado, dado que ambos ficheros disponen del campo común name, no hay ningún problema para fusionar por estado las variables de uno de los ficheros y los del otro, aunque las observaciones figuren en cada uno en diferente orden. El comando que se utiliza para tal fin es merge() cuya sintaxis mostramos a continuación: uni1 <- merge(e1, e2, by=’name’)
003_13 Aju 03
29/4/13
08:57
Página 97
EL PAQUETE ESTADÍSTICO R
97
De este modo, creamos el objeto uni1 que contiene, para cada estado, los campos contenidos en e1 y e2. Como se ilustra en el cuadro inmediatamente anterior, los argumentos a utilizar son, simplemente, las dos hojas de datos que se pretende unir y el argumento by, en el que se indica el nombre de la variable común por la que se pretende relacionar los datos para la unión. Veamos las primeras filas del objeto fusionado.
Ahora bien, supongamos que uno de los ficheros tuviera información para todos los estados (como ocurre en e1 y e2) pero que otro fichero (que denominaremos e3) solo contuviera las variables de e2 medidas para algunos de los estados. En estas condiciones también se puede proceder a la unión de los ficheros, como se muestra en el cuadro siguiente. En la primera línea del mismo, creamos el objeto e3 con las 20 primeras filas de e2. Nuevamente, esta tarea no responde a otro fin que la creación de un fichero que nos sirva de ejemplo. A continuación, se procede a la fusión de e1 y e3 del mismo modo que antes.
e3 <- e2[1:20, ] uni2 <- merge(e1, e3, by=’name’)
El fichero resultante uni2 contiene todas las variables contenidas en estados1 y estados2 medidas para los estados que pertenecen a la vez a los ficheros e1 y e3, como se puede comprobar del modo habitual.
R Commander Mostremos cómo funciona la unión de ficheros a través de R Commander. Distinguiremos también aquí entre dos casos según la unión tenga lugar por filas o por columnas.
003_13 Aju 03
29/4/13
08:57
Página 98
98
CUADERNOS METODOLÓGICOS 48
i)
Unión de ficheros por filas
Para fusionar desde R Commander los ficheros fus1 y fus2, habría que proceder del modo que sigue: Datos → Fusionar conjuntos de datos…
Esto nos conduce a una ventana como la que figura en la ilustración 3.4. En la misma hay que elegir los dos conjuntos de datos que se quieran fusionar, así como si se desea que la fusión sea por filas o por columnas. Tras introducir el nombre que tendrá el conjunto de datos fusionado ya se puede pulsar Aceptar. De este modo, se crea la hoja de datos fusfilas, en la que se halla la información fusionada. ILUSTRACIÓN 3.4 FUSIÓN DE FICHEROS
En el caso de que los dos ficheros a unir no tengan exactamente los mismos campos, se puede elegir si se desea la opción de fusionar solo los campos comunes. Fusionemos, para verlo mejor, los ya creados objetos fusi1 y fusi2. Volviendo a realizar con R Commander el proceso anterior pero pulsando esta vez en la opción de «Fusión únicamente de filas o columnas comunes» se obtiene un fichero resultante (denominémosle fusifilas) que contiene solo las columnas o variables comunes a ambos ficheros de partida.
ii)
Unión de ficheros por columnas
La capacidad de R Commander para fusionar ficheros por columnas resulta limitada pues carece de medios para unir los ficheros cruzando los valores
003_13 Aju 03
29/4/13
08:57
Página 99
EL PAQUETE ESTADÍSTICO R
99
pertenecientes a un campo común a ambos ficheros. Esta utilísima función solo existe mediante código, como ya se ha explicado anteriormente. No obstante, incluimos a continuación un ejemplo sencillo de fusión por columnas. Consideremos los objetos fusc1 y fusc2 que contienen las tres primeras y las dos últimas variables de las 10 primeras observaciones de la hoja de datos d2815. Para fusionar por columnas, a través de R Commander, los objetos recién creados, es suficiente con repetir el proceso que hemos seguido para la fusión por filas para estos ficheros pero pulsando la opción «Fusionar columnas» en la ventana de la ilustración 3.4. Suponiendo que denominemos al resultado fuscol, en el mismo figuraran las 10 primeras observaciones de ser para las cinco variables que contiene este conjunto de datos. Seguidamente, proponemos una serie de ejercicios que permiten practicar lo aprendido a lo largo de este tema.
3.6. 1.
Ejercicios Consideremos la hoja de datos confi, creada en el ejercicio 1 del capítulo 2. Recordemos que habíamos nombrado sus variables del modo siguiente: zpconfi, rjconfi, sexo, edad, religion. Se pide: i)
ii) iii) iv) v)
2.
Crear la nueva variable creyente recodificando la variable religion del siguiente modo: códigos 1 y 2 de religión pasan a código 1 de creyente (creyentes). Códigos 3 y 4 de religión pasan a código 0 de creyente (no creyentes o ateos). El NC permanece igual con su código 9 (recuérdese que la función recode() pertenece al paquete car que habrá de estar cargado para realizar este apartado). Filtrar en nuestro conjunto de datos a los individuos creyentes, denominando a la hoja de datos filtrada crey. Eliminar en crey la variable creyente, que ya no aporta información, pues toma un único valor. Calcular cuántos hombres y mujeres hay creyentes en la muestra. Exportar los datos contenidos en crey al fichero crey.txt, incluyendo como carácter separador entre valores de variables la coma.
Utilizando la matriz de microdatos DA2815 y la sintaxis SPSS ES2815 —ambas disponibles en la página web del CIS— es posible leer y tabular, desde SPSS, los datos del ya conocido estudio 2815. Entre la documentación digital de este cuaderno figura el fichero
003_13 Aju 03
29/4/13
100
08:57
Página 100
CUADERNOS METODOLÓGICOS 48
DA2815.sav, generado desde SPSS de ese modo. Realizar en el mismo las siguientes tareas: i)
Importar el propio fichero DA2815.sav a un objeto de R de nombre datos, denominando a los factores por sus códigos numéricos y no por sus etiquetas nominales (recuérdese que para la importación se requiere del paquete de R foreign). ii) Extraer de datos las observaciones que hayan considerado que la situación política es mucho mejor o mejor que hace un año (P5). Denominar al objeto recién creado pol. iii) Filtrar, en el conjunto datos, por la pregunta P2201 (escala de ubicación del PSOE) eliminando el N.S. y N.C. (códigos 98 y 99 resp.) para quedarnos con el resto de respuestas. Almacenar el resultado en escala. iv) Extraer las respuestas del subconjunto de datos escala que han considerado en el punto más a la derecha (10) tanto al PSOE (P2201) como al PP (P2202). v) Extraer las respuestas de escala que han considerado a la vez al PSOE y al PP con un valor de escala mayor o igual a 9. vi) Extraer las respuestas de escala que han colocado a IU (P2203) en el punto más a la derecha (10). vii) Extraer las respuestas que han colocado al PP en el punto más a la izquierda (1). viii) Averiguar los códigos de las CCAA a las que pertenecen las observaciones extraídas en los cuatro apartados anteriores. ix) Exportar, a continuación, el fichero datos con el nombre datos.txt, separando las variables por tabulador. No incluir el nombre de las variables. Abrir el fichero de texto para comprobar el resultado y si no es del gusto del lector, modificar los parámetros oportunos en la sentencia de exportación para amoldarlo a sus pretensiones. 3.
Construyamos, por brevedad en la notación, el conjunto de datos b como copia de la hoja de datos d2815 (simplemente mediante la asignación b <- d2815). Se propone la realización en b de las siguientes tareas: i)
ii)
iii)
La variable sexo admite los valores 1 y 2. Asignar a las observaciones 1411, 1678 y 2182 de b el valor 0 en la variable sexo (que es erróneo). Definir el objeto r1 con los valores admisibles para sexo. Extraer en false1 las observaciones que no están dentro del rango para la variable sexo. Mostrar el valor de todas las variables de la hoja de datos para esas observaciones «erróneas».
003_13 Aju 03
29/4/13
08:57
Página 101
EL PAQUETE ESTADÍSTICO R
4.
5.
Realizar de nuevo con b tareas análogas a las del ejercicio anterior pero para la variable siteco, teniendo en cuenta que admite los valores 1, 2, 3, 4, 5, 8 y 9. En este caso, el rango de valores válidos será almacenado en r2 y a las observaciones 46, 389 y 1002 de b les será asignado el valor 7 (no admisible). Centrémonos ahora en las variables siteco y sitpol del conjunto de datos b: i)
ii)
iii)
iv)
6.
101
Supongamos que nos parece muy extraño que la gente considere la situación económica buena o muy buena y, al mismo tiempo, la situación política muy mala. Detectemos, pues, las observaciones de la hoja de datos b en las que se cruzan esas opiniones extremas y extraigámoslas. Extraigamos las observaciones correspondientes a personas que han evitado pronunciarse acerca de la situación económica (NS=8/NC=9) y que, sin embargo, se han pronunciado sobre la situación política. ¿Cuántas son dichas observaciones? De igual modo, extraigamos las observaciones correspondientes a personas que han evitado pronunciarse acerca de la situación política (NS=8/NC=9) y que, sin embargo, se han pronunciado sobre la situación económica. ¿Cuántas son? Por último, extraer las observaciones que han evitado pronunciarse sobre la situación política (NS=8/NC=9). Contar cuántas de esas observaciones pertenecen a hombres (sexo=1) y a mujeres (sexo=2).
Repetir los ejercicios anteriores utilizando R Commander en los casos en que sea posible.
003_13 Aju 03
29/4/13
08:57
Pรกgina 102
003_13 Aju 04
29/4/13
08:58
Página 103
4 Estadística básica con R Una vez hemos introducido un amplio abanico de técnicas precisas para la manipulación de conjuntos de datos con R, llega el momento de aprender a explotar estadísticamente la información contenida en los mismos. A algunas de las múltiples herramientas que permiten acometer ese objetivo va dedicado este capítulo. Hay que señalar que el tema trata fundamentalmente del tratamiento descriptivo (no inferencial) de la información. Únicamente se ha acudido a técnicas de inferencia en momentos muy puntuales 1. La estructura del capítulo se divide en dos partes bien diferenciadas: en primer lugar estudiaremos el modo de explotar descriptivamente los datos, centrándonos en el cálculo de las medidas más habituales de posición, dispersión y forma. Por otra parte, se muestra con detalle el modo de construir distribuciones de frecuencias y tablas de contingencia con R. Pero antes de comenzar el estudio de todas estas técnicas resulta necesario dar un paso previo. Como es bien sabido, el tratamiento estadístico de una variable es diferente si dicha variable es categórica (clase factor en R) o numérica (clase numeric para valores reales en general o integer para variables que solo tomen valores enteros). En muchas ocasiones, al leer conjuntos de datos desde R, sus variables quedan almacenadas como numéricas, por lo que conviene tener claro el modo de transformar una variable numérica en factor, por si nuestro objetivo fuera explotar estadísticamente dichas variables como categóricas.
4.1.
Conversión de variables numéricas en factores
Como ya se ha anticipado, para la elaboración de estadísticas con los datos, resulta necesario el transformar en factores aquellas variables de nuestro 1 Un buen manual para introducirse en los conceptos básicos de la estadística es Spiegel y Stephens (2011). En castellano, en Peña (2001) se encuentran exposiciones detalladas de los conceptos utilizados en este capítulo.
003_13 Aju 04
29/4/13
08:58
Página 104
104
CUADERNOS METODOLÓGICOS 48
conjunto de datos que realmente estén compuestas solamente por un conjunto finito de valores asociados a diferentes categorías. Ello es debido a que R trata de modo distinto a las variables numéricas que a los factores. Por ejemplo, no tiene sentido calcular la media de la variable factor ccaa. Tampoco procede calcular una tabla de contingencia de una variable numérica como la edad, salvo que agrupemos los datos numéricos en intervalos, que jugarían el papel de factores. En la conocida hoja de datos d2815 existen seis variables: ccaa, prov, siteco, sitpol, sexo y edad. Recordemos que si deseamos conocer su nombre es suficiente con introducir el comando names(d2815) o colnames(d2815). Insistimos, una vez más, en que cada uno de los elementos de la salida de los dos comandos anteriores son vectores y que, por tanto, R permite que referenciemos cada uno de ellos a través de su índice de vector. Simplifiquemos la notación renombrando como b a la hoja de datos d2815. Como ya sabemos, para ello resulta suficiente incluir la asignación:
b <- d2815
Veamos, a continuación, el modo de convertir en factores a las variables que proceda dentro de la hoja de datos b, tanto con código como con R Commander.
Código Resulta claro que la única variable que no procede convertir en factor de las incluidas en b es la edad. Todas las demás poseen un conjunto de valores asociados a distintas categorías. Para la conversión de las variables en factores es necesario utilizar la instrucción as.factor(). Esta orden se puede aplicar a cada variable por separado, lo cual resulta razonable en casos como este, en el que solo hemos de convertir en factor cinco variables. La sintaxis para, por ejemplo, la variable ccaa se podría expresar de los dos modos equivalentes siguientes:
b$ccaa <- as.factor(b$ccaa) b[, 1] <- as.factor(b[, 1])
Sin embargo, tal proceder se volvería muy tedioso y poco operativo si tuviésemos que convertir en factores todas o casi todas las variables que aparecen en una encuesta. Para evitar este problema, en R, como en cualquier len-
003_13 Aju 04
29/4/13
08:58
Página 105
EL PAQUETE ESTADÍSTICO R
105
guaje de programación, existen los denominados «bucles». Aquí solo estudiaremos el bucle for, más que suficiente para nuestras pretensiones. Hay que dejar claro que el uso limitado de este bucle que se realiza en este texto no obsta para que el mismo goce de inmensa versatilidad a la hora de trabajar con R.
El bucle for El objetivo de un bucle for es la repetición de una tarea en múltiples ocasiones expresando la sintaxis pertinente para la realización de dicha tarea una sola vez. Por ejemplo, si deseamos aplicar un mismo tratamiento a todas o algunas de las variables de una hoja de datos. La sintaxis elemental de un bucle for es la siguiente:
for (i in set) {instrucciones de programa ejecutadas para cada i que pertenezca a set}
Lo anterior quiere decir que el índice i recorrerá los números contenidos en el conjunto set y que, para cada uno de ellos, ejecutará las órdenes o instrucciones contenidas entre llaves (si solo hay una instrucción que ejecutar, no son necesarias las llaves). Un ejemplo ayudará a entender el modo de aplicar esta herramienta.
for (i in 1:5) b[ , i] <- as.factor(b[ , i])
En nuestro caso, queremos que el índice i recorra el conjunto formado por los números naturales del 1 al 5, que son las variables que queremos convertir en factores (obsérvese que edad, la única variable que no procede convertir, ocupa la sexta posición). Para cada una de ellas, lo único que deseamos es la transformación en factor, lo que se refleja en la instrucción que sigue al for. Nótese que, como solo hay una orden para cada valor de i, no son necesarias las llaves. Así pues, el bucle va recorriendo los valores de i y, para cada uno de esos valores, va ejecutando la instrucción o instrucciones que se incluyen dentro del bucle. Procede en este momento la introducción del comando levels(), que enumera la lista de valores distintos que presenta una variable de tipo factor. Si, a continuación, deseásemos conocer la lista de valores de cualquiera de las variables convertidas en factor, por ejemplo siteco, podríamos utilizar el código:
003_13 Aju 04
29/4/13
08:58
Página 106
106
CUADERNOS METODOLÓGICOS 48
levels(b$siteco)
Como siempre, si deseamos salvar nuestra hoja de datos con factores y así evitar que sufra cualquier potencial contratiempo durante la manipulación de los datos, es suficiente con una asignación como la siguiente, que crea el objeto bfac con la información contenida en b.
bfac <- b
R Commander Para realizar la misma tarea con R Commander volvamos a definir el objeto b a partir del que realmente habíamos importado: d2815.
b <- d2815
Ahora, tras fijar b como conjunto de datos activo, hemos de seguir la ruta: Datos → Modificar variables del conjuntos de datos activo → Convertir variable numérica en factor…
Esto nos conduce a la ventana de menú que aparece en la ilustración siguiente: ILUSTRACIÓN 4.1 CONVERSIÓN DE VARIABLES NUMÉRICAS EN FACTORES
003_13 Aju 04
29/4/13
08:58
Página 107
EL PAQUETE ESTADÍSTICO R
107
En la ventana que aparece hemos de seleccionar las variables que deseamos transformar en factores. También hay que advertir al programa si deseamos asignar nombres a los niveles de los factores o mantenemos para los mismos los números que ya tienen. Si deseamos asignar nombres, en otra ventana posterior el programa nos pedirá los nombres (por ejemplo, para la variable sexo, serían: 1: «hombre» y 2: «mujer»). No obstante, resulta más sencillo el utilizar números, en cuyo caso no hay más que seleccionar las variables a convertir y la opción «Utilizar números» para llevar a buen término nuestro objetivo. En este último caso, podemos realizar la conversión para varias variables al mismo tiempo. El programa nos preguntará si deseamos sobrescribir las variables, a lo que hemos de contestar afirmativamente.
4.2.
Medidas de tendencia central, posición, dispersión y forma
Como es sabido, el objetivo de las medidas de tendencia central es resumir la información acerca de una variable contenida en los datos disponibles en un valor central respecto al cual parece agruparse de un modo más o menos concentrado la distribución. Las medidas de tendencia central más habituales son la media aritmética (ponderada o no), la mediana y la moda. Por su parte, las medidas de posición no central permiten conocer otros puntos característicos de la distribución al margen de los valores centrales. Las más importantes son los cuantiles y, como casos particulares de los anteriores, los cuartiles, deciles y percentiles. Las medidas de dispersión sintetizan en un número la variabilidad o dispersión que presenta la distribución de una variable. Sin lugar a dudas, las más usuales son la varianza y su raíz cuadrada o error estándar. En cuanto a las medidas de forma, estas tienen como objetivo la obtención de valores numéricos que nos den información acerca de la forma que tiene la distribución en estudio. Existen dos características de una distribución que determinan en gran medida su forma: la asimetría y el apuntamiento o curtosis. La asimetría permite valorar si los datos se distribuyen de modo uniforme a ambos lados del valor central, mientras que el apuntamiento nos da idea del grado de concentración que presentan los valores cercanos al valor central de una distribución. Veamos ahora el modo de calcular estas magnitudes en R tanto con código como con el interfaz R Commander. Partamos para ello del conjunto de datos b, con los datos transformados en factores, tal como los guardamos en el objeto bfac. b <- bfac
003_13 Aju 04
29/4/13
08:58
Página 108
108
CUADERNOS METODOLÓGICOS 48
Código Las principales medidas de tendencia central y posición (media, mediana, cuantiles) 2 se calculan a través de funciones directamente disponibles al efecto. Consideremos la variable edad de la hoja de datos b y denominémosla, por comodidad, ed. Como el valor 99 de la variable corresponde al NC eliminemos las observaciones que presentan ese valor para poder centrarnos realmente en las edades.
ed <- b$edad ed <- ed[ed < 99]
Una vez preparados los datos, el cálculo de la media y la mediana es inmediato con las funciones que se utilizan en las dos primeras líneas del cuadro que sigue.
mean(ed) median(ed) quantile(ed) quantile(ed, c(0.04, 0.84)) fivenum(ed) numSummary(ed)
El cálculo de los cuantiles también es inmediato. Como se recordará, el cuantil de orden k, con 0 k 1 es el valor que, una vez ordenadas las observaciones de la variable, cumple que el 100k por cien de los valores de la variable son más pequeños que el cuantil, y el resto de los valores, mayores que el mismo. Por ejemplo, la mediana es el cuantil de orden k = 0,5. Para los valores de k: 0,25, 0,5, 0,75, los cuantiles se denominan «cuartiles». Cuando se presenta el orden k en tanto por ciento, también se habla de «percentiles». La instrucción quantile(variable) devuelve los cuantiles de orden 0, 0,25, 0,5, 0,75 y 1. Dicho de otro modo, el mínimo y el máximo de la variable así como los cuartiles. Si queremos que nos devuelva unos cuantiles concretos, hemos de indicárselo con un vector en el que figuren los órdenes k que deseamos, como se muestra en la cuarta línea de código anterior, que nos 2 No existe ninguna función elemental para el cálculo de la moda en R. Ello puede venir motivado de la casuística existente en la práctica para el cálculo de esta medida de tendencia central. Más adelante, en el apartado 4.4 de este capítulo, veremos cómo calcularla de modo indirecto en la mayoría de los casos.
003_13 Aju 04
29/4/13
08:58
Página 109
EL PAQUETE ESTADÍSTICO R
109
calcula los percentiles 4 y 84. El comando fivenum(variable) devuelve los mismos cinco números que quantile() pero ya en formato de vector para poder operar con ellos directamente. Por último, numSummary(variable) nos da como resultado las cifras anteriores a las que se añaden la media, la desviación típica, el número de observaciones y el número de observaciones perdidas si las hubiere 3. En la tabla siguiente se muestran los resultados de los cálculos anteriores:
Una vez tratada la variable edad ed por separado, volvamos a pensar en términos de hojas de datos y retomemos b, la hoja que estábamos manejando. El comando numSummary() permite realizar también resúmenes de posición y dispersión de una variable desglosados por los valores de otra variable de tipo factor.
numSummary(b$edad, groups=b$sexo) numSummary(b$edad, groups=b$ccaa)
Supongamos, por ejemplo, que deseamos conocer, para la variable edad, las medidas que aporta numSummary(), en función del sexo y de la Comunidad Autónoma de pertenencia. El código anterior permite satisfacer nuestras pretensiones. Quizá se entiendan mejor estos conceptos comprobando en el
3 Hay que hacer notar que la función numSummary() pertenece al paquete «Rcmdr» y, por tanto, precisa para su funcionamiento que esté abierto R Commander.
003_13 Aju 04
29/4/13
110
08:58
Página 110
CUADERNOS METODOLÓGICOS 48
cuadro siguiente los resultados que arrojan las órdenes anteriores. En ambos casos se puede apreciar que aparece el resumen de la variable para cada uno de los valores de la variable de cruce (sexo o ccaa). Obsérvese que en estos últimos cálculos no hemos filtrado las observaciones de la variable edad de código 99, correspondientes al «No Contesta», para no resultar reiterativos y dado que, en esta hoja de datos, únicamente hay dos observaciones con ese código. El lector puede repetir los cálculos incluidos en el último cuadro de código previo filtrado de las referidas observaciones.
En cuanto a las medidas de dispersión, las más habituales —varianza y error estándar o desviación típica— se calculan en R de modo muy fácil, a través de dos funciones existentes al efecto: var() y sd(), respectivamente. En el cuadro siguiente aparece, además, una tercera línea de código que requiere un comentario adicional. Si nuestro conjunto de datos contiene valores perdidos (NA), para el cálculo de todas las medidas anteriores es necesario indicar al programa que elimine las observaciones perdidas antes de realizar las operaciones. Para ello hay que incluir, del modo que se indica en esa tercera línea, el argumento na.rm=T. De lo contrario, nos dirá que el valor de la medida (el error estándar en este caso) es igual a NA. En esta ocasión, como no hay valores perdidos, el resultado no varía. Sin embargo, para comprobar realmente la importancia de este último argumen-
003_13 Aju 04
29/4/13
08:58
Página 111
EL PAQUETE ESTADÍSTICO R
111
to, resulta interesante probar este comando en un caso en el que sí haya observaciones perdidas (véase el ejercicio 1 de este capítulo).
var(ed) sd(ed) sd(ed, na.rm=T)
En cuanto a las medidas de forma (coeficientes de asimetría y apuntamiento o curtosis), no figuran en los paquetes básicos de R, sino que, para disponer de las mismas, es necesario instalar, del modo habitual, el paquete de R «e1071» 4. En este manual no realizaremos un tratamiento en detalle de las medidas de forma. Únicamente apuntaremos que los valores del coeficiente de asimetría próximos a cero significan ausencia de asimetría, mientras que los números menores que cero indican que hay más valores por debajo que por encima de la media y los mayores que cero lo contrario. Respecto a la curtosis, cabe comentar que el valor de referencia (el apuntamiento de la distribución normal) es cero 5. Los valores mayores que cero indican un mayor grado de apuntamiento que el normal y los menores lo contrario. Una vez instalado y cargado el referido paquete, las medidas se calculan, respectivamente, como se muestra a continuación:
library(e1071) skewness(ed) # coef de asimetria kurtosis(ed) # coef de apuntamiento o curtosis
R Commander Llegados a este punto, exhibamos el modo de implementar este tipo de medidas con R Commander. Para simplificar, mostraremos cómo calcular las medidas de tendencia central, posición, dispersión y forma anteriores a través de una única ventana en la que podremos elegir las opciones que nos re-
4 Evgenia Dimitriadou, Kurt Hornik, Friedrich Leisch, David Meyer and Andreas Weingessel (2011). e1071: Misc Functions of the Department of Statistics (e1071), TU Wien. R package version 1.6. http://CRAN.R-project.org/package=e1071. 5 Es de especial relevancia este comentario porque ciertos autores calculan la curtosis considerando el valor normal como 3, en lugar de 0. En este caso, simplemente ya se resta 3 al resultado del cálculo referido, con lo que el valor normal pasa a ser 0.
003_13 Aju 04
29/4/13
08:58
Página 112
112
CUADERNOS METODOLÓGICOS 48
sulten más oportunas. Para ello, una vez nos hayamos asegurado de que nuestro conjunto de datos activos es b, la ruta que hemos de seguir es: Estadísticos → Resúmenes → Resúmenes numéricos…
Esto nos conduce a la ventana siguiente: ILUSTRACIÓN 4.2 RESÚMENES NUMÉRICOS
Observaremos, en primer lugar, que solo nos deja elegir la variable edad. Esto es debido a que el resto de las variables son factores y, por lo tanto, no son susceptibles de cálculo de estas magnitudes (como ya se ha comentado, no tendría sentido la media de los códigos que indican el género o la Comunidad Autónoma de pertenencia del entrevistado, por ejemplo). Podemos marcar o no las opciones Media, Desviación típica y Cuantiles, en función del resultado que pretendamos obtener. Si marcamos esta última opción, nos ofrece por defecto los cuantiles que se indican en la ventana, pero nada nos impide cambiarlos por otros si así lo deseamos. También podemos incluir, si lo deseamos, el denominado Coeficiente de variación, que no es más que el error estándar dividido entre la media. Respecto a las medidas de forma, cabe comentar que están incluidas como opciones tanto la Asimetría como el Apuntamiento.
003_13 Aju 04
29/4/13
08:58
Página 113
EL PAQUETE ESTADÍSTICO R
113
Por último, si lo que pretendemos es calcular las medidas desglosadas por las distintas clases de un factor, no tenemos más que pulsar el botón Resumir por grupos… y, en la ventana que aparece, elegir la variable de tipo factor que nos interese. La ilustración 4.3 muestra esta última ventana.
ILUSTRACIÓN 4.3 RESÚMENES NUMÉRICOS: SELECCIÓN DE VARIABLE GRUPO
4.3.
Distribuciones de frecuencias. Cálculo de frecuencias marginales
Una de las explotaciones más habituales de los datos de encuesta es el uso de los mismos para construir las frecuencias marginales de las distintas variables. Estas frecuencias no son más que el cómputo del número de observaciones en que aparece cada uno de los valores que toma una variable categórica o factor. El cálculo de distribuciones de frecuencias de variables de tipo factor es tremendamente sencillo tanto en R como en R Commander. Veamos cómo realizarlo en ambos casos. Código La instrucción básica para calcular las frecuencias marginales que presentan los diversos valores de un factor es table() (si bien hay otras que también permiten hacerlo). Supongamos que deseamos calcular las frecuencias marginales absolutas que presentan en la hoja de datos b los distintos valores de las variables ccaa, siteco y sexo. La sintaxis adecuada figura a continuación. m1 <- table(b$ccaa) m2 <- table(b$siteco) m3 <- table(b$sexo)
003_13 Aju 04
29/4/13
08:58
Página 114
114
CUADERNOS METODOLÓGICOS 48
Hay que hacer notar que podría ser deseable en ciertos casos que las respuestas aparecieran sin codificación. Por ejemplo, que figurase el nombre de la Comunidad Autónoma en lugar de su código. Más adelante veremos cómo abordar ese problema de forma cómoda desde R. Si pretendemos obtener las frecuencias marginales en porcentajes, no hay más que acudir a la cómoda notación vectorial, que nos permite extraer los porcentajes de los datos anteriores de modo inmediato:
pm1 <- 100*m1 / sum(m1); round(pm1, 2) pm2 <- 100*m2 / sum(m2) pm3 <- 100*m3 / sum(m3)
Es decir, multiplicamos por 100 las frecuencias absolutas de cada valor de la variable y dividimos cada una de esas frecuencias por la suma de todas ellas, que no es más que el número de observaciones total. La primera línea de código anterior recuerda cómo redondear el resultado, si es ese nuestro objetivo. Constatemos, a continuación, que la suma de frecuencias absolutas es el tamaño muestral (2.478) y que la suma de porcentajes ha de ser 100.
sum(m1) sum(pm3)
Recordemos que habíamos dejado pendiente la forma de hallar la moda con R, dada la carencia de una función elemental en el programa para acometer dicho cálculo. Pues bien, el modo más sencillo de llevarlo a cabo es a través de las distribuciones de frecuencias, calculando el máximo de las frecuencias del modo que se indica en el cuadro que sigue:
mode1 <- as.numeric( which.max(m1) )
Como ya se había explicado, la función which.max() nos da como resultado la observación en que la variable alcanza el máximo. En este caso, tal variable es una tabla de frecuencias por lo que el resultado no es más que el valor de la tabla que presenta una mayor frecuencia, es decir, la moda de la variable. Hay que puntualizar que la función as.numeric() resulta necesaria si deseamos que el resultado nos salga de tipo numérico, habida cuenta de que m1 es una tabla.
003_13 Aju 04
29/4/13
08:58
Página 115
EL PAQUETE ESTADÍSTICO R
115
En el siguiente cuadro figuran los resultados de todos los cálculos anteriores. En el mismo, se puede comprobar que la variable mode1 toma el valor 1, que es la moda de la variable ccaa y corresponde a Andalucía.
R Commander Si deseamos calcular frecuencias marginales usando R Commander, hemos de seguir la ruta: Estadísticos → Resúmenes → Distribución de frecuencias…
003_13 Aju 04
29/4/13
08:58
Página 116
116
CUADERNOS METODOLÓGICOS 48
De este modo, somos conducidos a la ventana: ILUSTRACIÓN 4.4 DISTRIBUCIONES DE FRECUENCIAS
En la misma, podemos seleccionar la variable o variables cuyas frecuencias marginales deseamos calcular. Tras ello, con solo pulsar «Aceptar», obtenemos las frecuencias marginales, tanto absolutas como relativas.
4.4.
Tablas de contingencia. Cálculo de cruces entre variables
En el análisis de datos provenientes de encuestas de opinión, predominan las variables categóricas, sean nominales u ordinales. Las tablas de contingencia permiten registrar y analizar la relación entre la distribución de dos o más variables categóricas. De este modo, ya no nos restringimos como en el apartado anterior al tratamiento marginal de cada una de las variables medidas en la muestra o población, sino que pretendemos averiguar información acerca de la distribución conjunta de las variables en estudio. Veamos, pues, el modo de calcular tablas de contingencia tanto desde la consola de R como desde R Commander. Código En esta ocasión, la sentencia básica que utilizaremos es xtabs(), cuya sintaxis ejemplificamos a continuación. c1 <- xtabs(~ccaa + siteco, data=b) c2 <- xtabs(~sexo + sitpol, data=b) c3 <- xtabs(~ccaa + sexo, data=b)
003_13 Aju 04
29/4/13
08:58
Página 117
EL PAQUETE ESTADÍSTICO R
117
Las tres líneas de código anteriores calculan los cruces entre los siguientes tres pares de variables: ccaa y siteco; sexo y sitpol, y ccaa y sexo. Los valores de la primera variable generarán las distintas filas, mientras que los de la segunda darán lugar a las columnas. Las tablas de contingencia resultantes quedan almacenadas en los objetos c1, c2 y c3, respectivamente, que reproducimos a continuación.
Las tablas anteriores se componen de frecuencias absolutas. Si deseamos que la tabla nos aparezca con porcentajes, calculados por filas, columnas o totales hay que, a continuación, introducir sentencias como las siguientes:
003_13 Aju 04
29/4/13
08:58
Página 118
118
CUADERNOS METODOLÓGICOS 48
colPercents(c1) rowPercents(c2) totPercents(c3)
Es necesario señalar que, si bien las funciones anteriores pertenecen al paquete «Rcmdr», precisan para su correcto funcionamiento del paquete «abind»6, que puede ser instalado y cargado del modo habitual. Véanse en el cuadro las salidas de los tres comandos anteriores:
6 Tony Plate and Richard Heiberger (2011). abind: Combine multi-dimensional arrays. R package version 1.3-0. http://CRAN.R-project.org/package=abind.
003_13 Aju 04
29/4/13
08:58
Página 119
EL PAQUETE ESTADÍSTICO R
119
Tras calcular una tabla de contingencia, cabe preguntarse si existe independencia entre las variables incluidas en la tabla. El test de la χ2 de Pearson para tablas de contingencia está concebido para dar respuesta a esta cuestión. Para ello, plantea la hipótesis nula de independencia entre variables y, bajo la misma, construye un estadístico que se distribuye como una χ2(m-1)(n-1) , donde el subíndice indica el número de grados de libertad, siendo m y n el número de valores diferentes que toman las dos variables objeto de análisis. Para construir estos contrastes desde R se puede utilizar el comando chisq.test(), del modo que sigue. Obsérvese que, en los casos que manejamos (c1, c2 y c3), los grados de libertad son 96, 6 y 16, respectivamente, de acuerdo con lo explicado en el párrafo anterior (por ejemplo, para c1, la variable ccaa tiene m=17 categorías, mientras que la variable siteco presenta n=7. De este modo (m-1) (n-1)=16 x 6 = 96. El lector puede comprobar las cifras anteriores para los objetos c2 y c3).
xc1 <- chisq.test(c1) xc2 <- chisq.test(c2) xc3 <- chisq.test(c3)
Los resultados del test que figuran a continuación muestran que resulta muy difícil aceptar la hipótesis de independencia en los dos primeros casos, en contra de lo que ocurre en el tercero. Apréciese lo razonable del resultado: este afirma que la valoración de la situación económica depende de la Comunidad Autónoma de pertenencia y la valoración de la situación política depende del sexo del entrevistado. Sin embargo, no se detecta relación de dependencia entre las variables Comunidad Autónoma y sexo, dado que la distribución por sexos es prácticamente la misma en todas las CCAA (50 por ciento de cada sexo, aproximadamente). Nótese también que al ejecutar los dos primeros contrastes, el programa nos informa de que el estadístico construido puede no ser del todo fiable. Ello es debido a que en algunas de las celdas de las tablas de contingencia asociadas existen números con valor pequeño (en particular 0 o 1) que crean problemas para la construcción del estadístico, que involucra productos de estos números.
003_13 Aju 04
29/4/13
08:58
Página 120
120
CUADERNOS METODOLÓGICOS 48
También es posible realizar el cruce entre dos variables para cada uno de los valores de una tercera. El cálculo se puede implementar directamente con una sintaxis muy similar a la utilizada para los cruces ordinarios. La siguiente línea de código da un ejemplo de ello.
c4 <- xtabs(~sitpol+sexo+ccaa, data=b)
En este caso, se almacena en c4 el cruce entre las variables sitpol y sexo para cada uno de los valores de la variable ccaa. Lo único que hay que tener presente es que la última variable de las tres incluidas es la que se utiliza para desglosar los cruces entre las dos primeras para cada uno de los valores de esa última. Finalmente, cabe comentar que podríamos estar interesados en exportar a un fichero de texto o a un libro Excel la tabla de contingencia correspondiente. El cuadro siguiente muestra cómo proceder para alcanzar, del modo más simple, ambos objetivos.
write.table(c1, ‘c1.txt’) write.csv2(c1, ‘c1.csv’)
003_13 Aju 04
29/4/13
08:58
Página 121
EL PAQUETE ESTADÍSTICO R
121
Por supuesto, antes de proceder a la exportación se puede, si se desea, dar nombres a las filas y a las columnas de la tabla de contingencia, utilizando los ya conocidos comandos rownames() y colnames(). También se pueden introducir en los comandos anteriores los parámetros estudiados en el capítulo 2 para especificar el modo de realizar la exportación.
R Commander El cálculo de tablas de contingencia con R Commander no ofrece mayor dificultad. Como veremos, dicho interfaz también permite calcular, al mismo tiempo, el test de independencia de la χ2 de Pearson. Sigamos la ruta explicitada a continuación: Estadísticos → Tablas de contingencia → Tabla de doble entrada…
Eso nos conduce hasta la ventana: ILUSTRACIÓN 4.5 TABLAS DE DOBLE ENTRADA
003_13 Aju 04
29/4/13
08:58
Página 122
122
CUADERNOS METODOLÓGICOS 48
De este modo, podemos elegir las variables que deseamos que vayan en la fila y la columna. Obsérvese que, por defecto, ya aparece marcado el cuadrito correspondiente al cálculo del test de la χ2 de Pearson. Si deseamos que, además, aparezcan los porcentajes por filas, por columnas o los totales, hemos de señalar la opción correspondiente. Por ejemplo, supongamos que deseamos calcular el cruce entre las variables ccaa y siteco y que también necesitamos el test de la χ2 de Pearson. En ese caso, habríamos de señalar las variables correspondientes y mantener marcada la opción del test de independencia. Los resultados son los mismos que los ya obtenidos trabajando con R. Si necesitásemos algún tipo de porcentajes, basta con marcar la opción que nos interese. Observemos que, en este caso, la hipótesis nula de independencia entre variables daría lugar a una χ2 con 96 grados de libertad y que el valor que toma el estadístico es de 258,98, valor altamente improbable bajo esa distribución (p-valor muy bajo). Luego, en este caso, hemos de rechazar la hipótesis nula de no asociación entre variables. Llegados a este punto, procede comentar, aunque sea de modo muy breve, que R y R Commander permiten dibujar fácilmente las densidades de las principales distribuciones estadísticas, así como calcular sus cuantiles, etc. Veamos cómo podríamos, en nuestro caso, visualizar la densidad de una χ2 con 96 grados de libertad como la que nos acaba de aparecer, utilizando R Commander. La ruta a seguir es: Distribuciones → Distribuciones continuas → Distribución chi-cuadrado → Gráfica de la distribución chi-cuadrado…
Al ser conducidos a una ventana como la que aparece en la ilustración 4.6, hemos de introducir el número de grados de libertad deseados (en nuestro caso 96). El programa también permite elegir entre función de densidad o de distribución. Para nuestros fines, mantenemos la elección de función de densidad, que es la que figura por defecto. ILUSTRACIÓN 4.6 SELECCIÓN DE TIPO DE DISTRIBUCIÓN CHI-CUADRADO
003_13 Aju 04
29/4/13
08:58
Página 123
EL PAQUETE ESTADÍSTICO R
123
Tras estos pasos, obtendremos un resultado como el que figura en el gráfico 4.1. GRÁFICO 4.1 DENSIDAD DE LA CHI-CUADRADO CON 96 GRADOS DE LIBERTAD
En el mismo podemos comprobar cómo, efectivamente, el valor que nos da el estadístico (258,98) es realmente improbable para la distribución del mismo bajo la hipótesis nula. Este mismo método resulta igualmente válido para la generación de la densidad de cualquier otra de las más conocidas distribuciones estadísticas7. Por último, volviendo al cálculo de tablas de contingencia, si deseamos hacer un cruce utilizando como control una tercera variable (al igual que hemos hecho en el apartado anterior con código para crear c4) la ruta a seguir es: Estadísticos → Tablas de contingencia → Tabla de entradas múltiples…
7 Hay que subrayar que, en ocasiones, el proceso para la creación de estos gráficos da errores por fallos del programa que no son fáciles de interpretar. Lo mejor en esos casos es tratar de repetir el procedimiento o, si estamos trabajando con R Commander, tratar de ejecutar desde R las líneas de código que dan error.
003_13 Aju 04
29/4/13
08:58
Página 124
124
CUADERNOS METODOLÓGICOS 48 ILUSTRACIÓN 4.7 TABLA DE ENTRADAS MÚLTIPLES
La ventana que se nos muestra (ilustración 4.7) es muy similar a la del caso anterior y únicamente hay que elegir las dos variables que deseamos cruzar y la tercera variable de control. Podemos elegir, además, que nos saque los porcentajes por filas o por columnas si así lo deseamos.
4.5. 1.
Ejercicios Considerar la variable ed2 <- ed, tal como esta última se ha construido a lo largo de este tema. i) ii) iii) iv) v)
2.
Calcular su media. Asignar a las observaciones de la 31 a 50 de ed2 el valor NA. Calcular, a continuación, de nuevo la media y observar lo que ocurre incluyendo el argumento na.rm=T y sin incluirlo. Repetir los apartados ii) y iii) para el error estándar. Aplicar a ed2 el comando numSummary(). Comparar los resultados que correspondan con los de los apartados anteriores. Notar cómo la salida incluye el número de observaciones perdidas.
Consideremos el conjunto de datos d, creado en el capítulo 2 a partir del fichero DA2815.sav. Recordemos que en el fichero d se importaron los factores de tal modo que ya aparecen con su literal, en lugar de con sus códigos numéricos. Realizar las siguientes tareas: i)
Listar el nombre de las variables, para saber cómo referirnos a ellas.
003_13 Aju 04
29/4/13
08:58
Página 125
EL PAQUETE ESTADÍSTICO R
ii)
iii)
iv)
3.
125
Cálculo de las frecuencias marginales de las variables CCAA (CCAA), calificación de la gestión del Gobierno del PSOE (P14), Recuerdo de voto (RECUERDO), nivel de estudios (ESTUDIOS) y definición en materia religiosa (P27). Probar a referirse a los elementos de las tablas resultantes a través de la notación vectorial. Cálculo de los siguientes cruces entre variables: a. CCAA y RECUERDO b. RECUERDO y P27 c. ESTUDIOS y P27 Para los cruces anteriores calcular los porcentajes por filas y por columnas.
Renombrar la hoja de datos b como h. Definir una variable por intervalos de edad del modo en que ya se hizo en el capítulo anterior, pero incluyendo en este caso los intervalos: 18-24, 25-34, 35-44, 45-54, 5564 y 65+, denominarla intedad y calcular a continuación mediante código: i)
La distribución marginal de la muestra para la nueva variable intedad. ii) El cruce entre las variables sitpol e intedad. iii) El cruce entre las variables ccaa e intedad. iv) El cruce entre las variables sexo e intedad. v) Los porcentajes por filas para el apartado ii). vi) Los porcentajes por columnas para el apartado iii). vii) El resultado del test χ2 para el apartado ii). Interpretarlo. ¿Resulta razonable el resultado? viii) Exportar a un fichero de texto y a Excel la tabla del apartado iii). ix) El cruce entre las variables ccaa y sitpol, controlado por la variable sexo. 4.
Repetir las tareas de los ejercicios anteriores con R Commander, salvo en los casos en que no sea posible.
003_13 Aju 04
29/4/13
08:58
Pรกgina 126
003_13 Aju 05
29/4/13
08:59
Página 127
5 Contrastes de hipótesis con R El contraste de hipótesis o prueba estadística es un medio muy utilizado y eficaz para establecer conclusiones acerca de determinadas propiedades de toda la población a través de una muestra de la misma. Dicho de otro modo, en la investigación, podemos tener en mente ciertas hipótesis sobre la población y pretendemos que el análisis estadístico de la muestra que hayamos obtenido nos ayude a confirmar o desechar dichas hipótesis. Por ejemplo, podemos creer que la media de edad de una población es 45, que la media de edad entre dos poblaciones es la misma, que la variabilidad ante la opinión política es la misma en mujeres que en hombres, etc. En este capítulo aprenderemos un amplio abanico de técnicas para llevar a cabo los contrastes de hipótesis más usuales 1. En muchos de estos contrastes obtendremos, como subproducto, un intervalo de confianza para el parámetro cuyo valor estemos cuestionando. Así, simultáneamente, se ilustrará el empleo de intervalos de confianza con el paquete R. A grandes rasgos, el modo de proceder para realizar un contraste es siempre similar: i)
Definición de una hipótesis nula Ho, que es la que se quiere contrastar y de una hipótesis alternativa H1, incompatible con la anterior. ii) Construcción de un estadístico cuya distribución bajo la hipótesis nula Ho nos resulte conocida o aproximadamente conocida. iii) Cálculo del valor del estadístico para la muestra. Se observa la probabilidad que tiene de aparecer el valor del estadístico obtenido. Para ello se utiliza el hecho de que la distribución del estadístico bajo Ho es conocida. 1 Difícilmente se puede recomendar un tratamiento inferencial de los contrastes de hipótesis estadísticas de mayor nivel y claridad que el contenido en Vélez y García (1997). El autor no se resiste a incluir también la obra clásica de Rohatgi (1984). En el excelente manual de Stata de Escobar, Fernández y Bernardi (2010) también se introducen las bases teóricas de la práctica totalidad de las pruebas de hipótesis que componen este capítulo. Casella y Berger (2002) se ha convertido ya en un clásico. Por su parte, en Miller (1998) se incide bastante en los aspectos prácticos.
003_13 Aju 05
29/4/13
08:59
Página 128
128
CUADERNOS METODOLÓGICOS 48
iv) Si la probabilidad de aparición de ese valor del estadístico es muy pequeña, concluiremos que o bien la hipótesis nula es falsa o bien se ha producido un suceso de probabilidad muy pequeña. Así, rechazamos la hipótesis Ho. En otro caso, aceptamos 2 la hipótesis nula. En este capítulo trabajaremos con un subconjunto de datos del ya repetidamente utilizado estudio del CIS 2815. Sin embargo, en este caso, además de las variables que se habían incluido en capítulos anteriores, serán incluidas dos variables más, relacionadas con la intención de voto y la autoubicación ideológica política de los entrevistados. Presentemos pues el conjunto de datos que nos servirá de base para el estudio de las pruebas de hipótesis:
anchos <- c(-9, 2, 2, -25, 1, -2, 1, -126, 2, -2, 2, -15, 1, 2) nvar <- c(‘ccaa’, ‘prov’, ‘siteco’, ‘sitpol’, ‘intvoto’, ‘ideo’, ‘sexo’, ‘edad’) b <- read.fwf(‘DA2815’, widths=anchos, col.names=nvar)
En las líneas anteriores de código se puede apreciar que, como ya habíamos hecho con anterioridad, simplemente, importamos una serie de variables del fichero de ancho fijo DA2815. El cuestionario del estudio nos muestra las posiciones que ocupan las diferentes variables en la matriz de microdatos. En este caso, dichas posiciones son:
Variable CCAA Provincia Situación económica actual Situación política actual Intención de voto Autoubicación ideológica Sexo Edad
Nombre ccaa prov siteco sitpol intvoto ideo sexo edad
Posiciones 10-11 12-13 39 42 169-170 173-174 190 191-192
2 En gran parte de la literatura se utiliza la expresión «no rechazar» en lugar de «aceptar» la hipótesis nula. El objetivo es subrayar que la aceptación de la hipótesis nula no significa que estemos del todo convencidos de que es cierta, sino que, bajo dicha hipótesis nula, nos ha salido un valor del estadístico que no tiene una probabilidad demasiado baja y que, por lo tanto, no podemos rechazar dicha hipótesis nula a la luz del resultado del test.
003_13 Aju 05
29/4/13
08:59
Página 129
EL PAQUETE ESTADÍSTICO R
129
Por lo demás, el modo de importar los datos es el ya introducido en su momento para la lectura de ficheros de ancho fijo. Denominemos, de nuevo, a esta hoja de datos b, que no es más que una ampliación de la utilizada con anterioridad. El aspecto de la hoja de datos que acabamos de definir es el siguiente:
Recordemos que, para el adecuado tratamiento estadístico de la información, es conveniente convertir en factores a las variables de nuestra hoja de datos que no sean numéricas. En realidad, únicamente es imprescindible tomar como factores a las variables que sean estrictamente nominales (ccaa, prov, intvoto y sexo). Por su parte, las variables numéricas cardinales (ideo, sexo) no procede transformarlas en factores, puesto que no son categóricas. En cuanto a las variables ordinales (siteco, sitpol) también son susceptibles de ser tomadas como variables numéricas, en el sentido de que las respuestas a las mismas están graduadas según una escala ordinal (exceptuando el N.S./ N.C., de códigos 8 y 9, respectivamente, en ambos casos). Así, las variables ordinales han de ser transformadas en factor si deseamos tratarlas como categóricas y han de permanecer como numéricas si nuestro objetivo es considerarlas como tales. Esta clasificación de las variables de b, como veremos, nos será muy útil para disponer de toda la casuística necesaria para el desarrollo de este tema. Así pues, comencemos por clasificar como factores a las variables de b que consideraremos nominales. En este caso, las variables ordinales las dejamos como numéricas. for (i in c(1, 2, 5, 7) ) b[ , i] <- as.factor(b[ , i])
Recordemos que un bucle for como el anterior realiza la misma acción (en este caso la transformación de una variable en factor) para todos los valores de i indicados (en este caso 1, 2, 5 y 7, que son las columnas en las que se ubican las variables nominales). Tras estos preliminares, ya estamos preparados para abordar el grueso de este capítulo: el estudio en profundidad del modo de implementar con R las pruebas estadísticas de hipótesis. Comenzaremos exponiendo distintos contrastes paramétricos acerca de la media, la proporción y la varianza de una o
003_13 Aju 05
29/4/13
08:59
Página 130
130
CUADERNOS METODOLÓGICOS 48
más poblaciones. Seguidamente, se incluirá un apartado de contrastes no paramétricos, útiles en los casos en los que no resulte razonable suponer normalidad de las variables analizadas. Por último, introduciremos el modo de realizar en R el análisis de varianza ANOVA de un factor 3.
5.1.
Tests de medias
Los contrastes de este apartado tienen como característica común que, en ellos, las hipótesis nula y alternativa se plantean en función del valor de la media de la variable o variables involucradas en el contraste. Concretamente, estudiaremos tres tipos de pruebas: la primera y más elemental trata de dilucidar si la media de una población toma un valor determinado. La segunda cuestiona si la media de una variable medida en dos muestras diferentes toma realmente el mismo valor (por ejemplo para concluir que las dos muestras provienen de la misma población o para comprobar si existen diferencias en la media entre dos submuestras creadas en base a un factor dicotómico, como el género). Finalmente, veremos cómo determinar si dos variables diferentes tienen o no el mismo valor medio. 5.1.1.
Contraste sobre la media
La prueba sobre la media más simple es la que contrasta la hipótesis nula de que dicha media toma un cierto valor en la población frente a diferentes tipos de hipótesis alternativas. Supongamos, por ejemplo, que creemos que nuestra muestra proviene de una población cuya media de edad es de 47 años. Queremos diseñar algún tipo de prueba estadística que nos permita comprobar si razonablemente se puede concluir, a la luz de la muestra, que la media poblacional toma ese valor. Código Utilizando la metodología expuesta en el apartado anterior, tomamos como hipótesis nula que la media muestral (µ) es 47 y como hipótesis alternativa que, por ejemplo, la media no toma ese valor. Formalmente: Ho: µ = 47 H1: µ ≠ 47 3 Existen otros modos de clasificar los contrastes de hipótesis. Aquí se ha seguido la referida clasificación puesto que es la que utiliza R Commander y, por tanto, la que emplearemos cuando analicemos el modo de realizar los contrastes con este interfaz. Esta forma de proceder permite un tratamiento de la exposición más homogéneo y, por tanto, más claro para el lector.
003_13 Aju 05
29/4/13
08:59
Página 131
EL PAQUETE ESTADÍSTICO R
131
Una vez definido el contraste, pasemos a detallar el modo de ejecutarlo en R. El comando adecuado es t.test() y su sintaxis para este caso figura en la siguiente línea de código: t.test(b$edad, alternative=’two.sided’, mu=47, conf.level=.95)
El primer argumento es simplemente la variable a la que deseamos aplicar el contraste. El resto de parámetros del contraste son los siguientes: i)
alternative: tipo de hipótesis alternativa que deseamos. Nos da a elegir entre tres posibilidades: µ ≠ 47 (two.sided), µ < 47 (less) y µ > 47 (greater). En este caso, se ha elegido el valor por defecto que es two.sided, es decir, consideramos como hipótesis alternativa que el valor de la media sea distinto de 47, sin reparar en que tome un valor mayor o menor. ii) mu: valor del parámetro correspondiente a la hipótesis nula. iii) conf.level: nivel de confianza para el valor del estadístico. En esta ocasión toma el valor 0,95, lo que resulta muy habitual en la práctica estadística. De hecho, es el valor por defecto del parámetro. Este valor quiere decir que, en caso de obtener un valor cuya aparición presente una probabilidad menor del 5 por ciento, consideraremos que es muy poco verosímil que haya aparecido dicho valor de ser cierta la hipótesis nula y, por lo tanto, rechazaremos dicha hipótesis. Como ya hemos comentado, los parámetros alternative y conf.level toman en este caso sus valores por defecto. De este modo, se puede prescindir de los mismos y, con la siguiente línea de código más sencilla, obtener el mismo resultado que en el caso anterior. t.test(b$edad, mu=47)
Interpretemos el resultado del test, que figura a continuación:
003_13 Aju 05
29/4/13
08:59
Página 132
132
CUADERNOS METODOLÓGICOS 48
El estadístico que se construye bajo la hipótesis nula sigue una distribución t de Student con 2.477 grados de libertad. El valor que toma esta t para la muestra es de –0,45, que tiene un p-valor de 0,65. Es decir, hemos obtenido un valor muy probable bajo la hipótesis nula, luego no tenemos argumento para rechazar H0. Así pues, aceptamos la hipótesis de que la muestra proviene de una población que tiene como edad media 47 años. Obsérvese que en el cuadro anterior también figura el valor muestral para la media de edad (46,83) y un intervalo al 95 por ciento para dicha variable. Repárese también en que este último intervalo está centrado en la recién referida media muestral.
R Commander Para acometer este tipo de contrastes con R Commander, hemos de fijar como conjunto de datos activo a b y a continuación seguir la ruta de menús: Estadísticos → Medias → Test t para una muestra…
Esto nos conduce a una ventana como la siguiente:
ILUSTRACIÓN 5.1 TEST T PARA LA MEDIA
En la misma podemos elegir la variable no nominal que deseamos utilizar para llevar a cabo el test, así como el tipo de hipótesis alternativa, el valor de µ bajo la hipótesis nula y el nivel de confianza requerido.
003_13 Aju 05
29/4/13
08:59
Página 133
EL PAQUETE ESTADÍSTICO R
5.1.2.
133
Contraste de igualdad de medias
Consideremos la siguiente cuestión: dada una muestra de una población, ¿se puede concluir que en dicha población la media de otra variable, como la edad, la estatura, el nivel de ingresos, etc. es la misma en los hombres que en las mujeres? Este es un ejemplo típico de cómo surgen en la práctica los contrastes de igualdad de medias. Disponemos de dos muestras de una variable extraídas de dos poblaciones diferentes 4: X e Y. Denominando a las medias poblacionales respectivas µx y µy, nuestro objetivo es contrastar la hipótesis nula de que ambas medias son iguales, frente a la hipótesis alternativa, por ejemplo, de que toman valores diferentes. Otras hipótesis alternativas podrían ser que µx es mayor que µy o viceversa. El modo de expresar el contraste formalmente en el primer caso es: Ho: µx = µy H1: µx ≠ µy Código Al hilo del párrafo anterior, supongamos que deseamos contrastar si la edad media es la misma por sexos o no en la muestra contenida en nuestra hoja de datos b. Para ejecutar el test en R utilizaremos de nuevo el comando t.test(), cuya sintaxis para este tipo de pruebas se detalla a continuación.
t.test(edad~sexo, alternative=’two.sided’, conf.level=.95, var.equal=FALSE, data=b)
Es decir, como primer argumento incluimos la variable de nuestra hoja de datos a la que deseamos aplicar el contraste de medias (edad), seguida de la variable factor con dos valores que ha de definir las dos poblaciones cuyas medias queremos comparar (sexo). Denominaremos a esta última «variable grupo». Ambas figuran separadas por el símbolo ~ 5. Los parámetros del contraste son los siguientes: i)
4
alternative: tipo de hipótesis alternativa que deseamos. De nuevo, nos da a elegir entre tres posibilidades: µx ≠ µy (two.sided), µx < µy
Al menos así lo consideramos en principio. Recordemos que dicho signo se consigue pulsando ALT GR + 4. El símbolo no aparece inmediatamente sino al pulsar la siguiente tecla para introducir el carácter que deseemos incluir a continuación. 5
003_13 Aju 05
29/4/13
08:59
Página 134
134
CUADERNOS METODOLÓGICOS 48
(less) y µx > µy (greater). De nuevo, el valor por defecto es two.sided, es decir, el que considera como hipótesis alternativa que el valor de ambas medias no sea igual, al margen de que tome un valor mayor una u otra. ii) conf.level: nivel de confianza para el valor del estadístico. Nuevamente, toma por defecto el valor 0,95. iii) var.equal: igualdad de varianzas. Por defecto supone que no podemos garantizar que las varianzas de ambas poblaciones son iguales (valor FALSE). Si sabemos que la varianza es igual en las dos poblaciones podemos tomar var.equal=TRUE. iv) data: Simplemente el nombre de la hoja de datos en la que se encuentran las variables con las que estamos trabajando. Como los parámetros alternative, conf.level y var.equal toman aquí sus valores por defecto, se puede prescindir de los mismos en la instrucción anterior y con la sencilla línea de código siguiente, obtener el mismo resultado.
t.test(edad~sexo, data=b)
El resultado del test figura en el cuadro siguiente:
De nuevo, el estadístico que se construye bajo la hipótesis nula sigue una distribución t de Student, en este caso con 2.475 grados de libertad. El valor que toma esta t es de –3,44, que tiene un p-valor de 0,0005. Es decir, nos ha salido un valor muy poco probable bajo la hipótesis nula, luego no podemos aceptar H0. Así pues, rechazamos la hipótesis de igualdad de medias entre ambas muestras. Obsérvese que en el cuadro anterior también figura el valor media muestral para cada uno de los dos grupos (45,56 para hombres y 48,05 para mujeres).
003_13 Aju 05
29/4/13
08:59
Página 135
EL PAQUETE ESTADÍSTICO R
135
R Commander En esta ocasión, hemos de elegir la ruta de opciones: Estadísticos → Medias → Test t para muestras independientes…
Esto nos conduce a la ventana que se muestra en la siguiente ilustración: ILUSTRACIÓN 5.2 TEST PARA DIFERENCIA DE MEDIAS: MUESTRAS INDEPENDIENTES
En primer lugar, podemos elegir la variable grupo. Obsérvese que solo se nos ofrece sexo, puesto que es la única que solo tiene dos valores. En cuanto a la variable explicada, que es la elegida para llevar a cabo el test de igualdad de medias, podemos elegir cualquier variable que no sea nominal. Como se puede apreciar, también se nos ofrece la posibilidad de elegir el tipo de hipótesis alternativa, el nivel de confianza para el contraste y si procede suponer iguales las varianzas o no. 5.1.3.
Contraste t para datos relacionados
Consideremos las variables siteco y sitpol. Como ya hemos comentado, ambas variables son ordinales, lo que hace posible, si lo deseamos, hablar de su media. Ello es debido a que las categorías de respuesta se pueden suponer razonablemente equidistantes (que aproximadamente hay la misma distancia entre «Muy buena» y «Buena» que entre «Buena» y «Regular», por ejemplo) 6. Imagi6 Como de hecho hace el CIS a la hora de establecer ponderaciones en estos datos para calcular los indicadores del barómetro. Este punto es capital: si no hay equidistancia no tiene sentido tratar las variables ordinales que admiten como valores los primeros números naturales como variables numéricas a los efectos presentados en este apartado.
003_13 Aju 05
29/4/13
08:59
Página 136
136
CUADERNOS METODOLÓGICOS 48
nemos que deseamos comprobar si la media de ambas en la muestra es la misma. La pregunta resulta procedente, puesto que los valores que pueden tomar ambas variables son los mismos y parece razonable a priori conjeturar que puede existir una cierta similitud entre cómo evalúa el entrevistado las situaciones política y económica. Sin embargo, sería conveniente, antes de comenzar el contraste, filtrar los casos en los que el informante ha otorgado a cualquiera de estas dos variables los valores N.S. o N.C., puesto que los códigos de dichos valores (8 y 9, respectivamente) no tienen que ver realmente con la escala ordinal de la variable. Así pues, antes de proceder al contraste, definamos el conjunto de datos b1 filtrado del modo que sigue:
b1 <- subset(b, (siteco %in% 1:5) & (sitpol %in% 1:5) )
Procedamos ahora a realizar el contraste de igualdad de medias entre siteco y sitpol en la hoja de datos filtrada b1. En este caso, nuestra hipótesis nula será que ambas medias son iguales, mientras que tomaremos como hipótesis alternativa, por ejemplo, que sus valores son diferentes. Si denominamos X a siteco e Y a sitpol el contraste se puede expresar como: Ho: µx = µy H1: µx ≠ µy Código El modo de acometer el contraste mediante código pasa, de nuevo, por la utilización del comando t.test():
t.test(b1$siteco, b1$sitpol, alternative=’two.sided’, conf.level=.95, paired=T)
Es decir, los dos primeros argumentos son las variables cuyas medias deseamos comparar. En cuanto al significado y a los valores por defecto de los parámetros alternative y conf.level, no varían en nada de los ya explicados para los casos anteriores, por lo que no los repetiremos aquí. El valor T del parámetro paired sirve para indicar al programa que vamos a trabajar con datos apareados. Únicamente insistir en que, si deseamos que tomen
003_13 Aju 05
29/4/13
08:59
Página 137
EL PAQUETE ESTADÍSTICO R
137
los valores por defecto, se pueden omitir y la instrucción quedaría simplemente: t.test(b1$siteco, b1$sitpol, paired=T)
En cualquiera de los dos casos el resultado del contraste que nos arroja el programa en pantalla es:
Podemos comprobar que el valor del estadístico t bajo la hipótesis nula es de 11,02, cantidad muy improbable (p-valor del orden de 10–16). Recuérdese que la t de Student, para un número elevado de grados de libertad (2.325 en este caso), tiende a una normal estándar. Sabemos que en la normal el 95 por ciento de los valores están entre –1,96 y 1,96, lo que encaja perfectamente con la baja probabilidad presentada por el valor 11,02. De este modo, no podemos aceptar la hipótesis nula de igualdad de medias y hemos, pues, de rechazar H0. Nótese que el resultado también nos indica la media de la diferencia entre las dos variables incluidas en el test (0,20).
R Commander Una vez elegido como conjunto de datos activo a b1 sigamos las opciones: Estadísticos → Medias → Test t para datos relacionados…
Así, seremos conducidos a una ventana como la que figura en la ilustración 5.3. En la misma, solo hemos de elegir las variables cuyas medias queremos comparar, el nivel de confianza y el tipo de hipótesis alternativa para llevar a buen término el contraste.
003_13 Aju 05
29/4/13
08:59
Página 138
138
CUADERNOS METODOLÓGICOS 48 ILUSTRACIÓN 5.3 TEST DE DIFERENCIA DE MEDIAS: DATOS EMPAREJADOS
5.2.
Tests de proporciones
El objetivo de los contrastes de proporciones es decidir sobre la aceptación de una hipótesis referida a la proporción de una población que presenta uno de los dos valores posibles para una variable dicotómica. Como veremos, en realidad, la variable puede presentar múltiples valores, siempre que se recodifique en otra dicotómica del modo adecuado antes de proceder al test. Entre las hipótesis nulas que dan lugar a contrastes de proporciones, podríamos incluir, como ejemplos, las siguientes: que la mitad de los miembros de la población son varones, que el 8 por ciento de los miembros de la población tienen intención de votar a IU, que la proporción de votantes del PP es la misma por sexos, etc.
5.2.1.
Contraste sobre la proporción de una población
Supongamos que nos enfrentamos al siguiente problema: creemos que, de celebrarse elecciones en este momento, el PSOE obtendría un porcentaje de voto no inferior al 38 por ciento de los votos que realmente se emitiesen. Para dar solución a esta cuestión, una vez obtenida una muestra de la población en estudio, hemos de contrastar la hipótesis nula de que el porcentaje de voto obtenido por el PSOE sería del 38 por ciento frente a la hipótesis alternativa de que dicho porcentaje sería inferior. Denotando ΠPSOE a la proporción de individuos de la población que votarían al PSOE de celebrarse elecciones en este momento (el momento en el que fue realizado el trabajo de campo del estudio 2815), ambas hipótesis se pueden expresar como: H o : Π PSOE = 0,38 H 1 : Π PSOE < 0,38
003_13 Aju 05
29/4/13
08:59
Página 139
EL PAQUETE ESTADÍSTICO R
139
Sin embargo, antes de proceder a realizar esta prueba de hipótesis, hemos de filtrar en nuestro conjunto de datos a las personas que han afirmado que votarían. Como se puede comprobar en el cuestionario del estudio, estas corresponden a las respuestas de códigos 97, 98 y 99. De manera que tenemos que quedarnos con las respuestas de valores inferiores a 96 para la variable intvoto. La primera línea de código siguiente realiza el mencionado filtrado, almacenando la hoja de datos resultante en b2.
b2 <- subset(b, intvoto %in% 1:96) b2$intpsoe <- recode(b2$intvoto, “1=1; else=2”)
Ahora bien, para realizar un contraste de proporciones en una variable, precisamos que dicha variable presente únicamente dos valores. Para conseguir ese fin, recodifiquemos la variable intvoto del modo que se indica en la segunda línea del cuadro anterior, creando así la variable intpsoe. Como se puede observar, esta última variable presenta dos valores: 1 en caso de que el informante haya manifestado su intención de votar al PSOE y 2 en otro caso (obsérvese la utilidad del parámetro else, que denota el resto de casos no incluidos en las condiciones de recodificación precedentes en la instrucción).
Código La instrucción adecuada para llevar a cabo el contraste es prop.test(). Sin embargo, este comando no puede ser aplicado directamente a una variable, sino a la distribución de frecuencias absolutas marginales de los valores de esa variable. Dicho de otro modo, el comando toma como argumento una tabla formada por frecuencias absolutas en lugar de una variable. Recordemos que dichas frecuencias se calculan de modo muy sencillo con la orden table(), del modo que se muestra en la primera línea del cuadro siguiente:
tab <- table(b2$intpsoe) prop.test(tab, alternative=’less’, p=0.38, conf.level=.95)
Una vez calculada la tabla de frecuencias para la variable a la que queremos realizar el contraste (en este caso intpsoe) ya podemos aplicar la función prop.test(). El primer argumento es el objeto en el que hemos alma-
003_13 Aju 05
29/4/13
08:59
140
Página 140
CUADERNOS METODOLÓGICOS 48
cenado la tabla (tab). En cuanto al resto de argumentos, cabe decir que alternative y conf.level ya han sido de sobra analizados en el apartado anterior y todo lo explicado para ellos es válido igualmente aquí. Nótese que, en esta ocasión, como la hipótesis alternativa es que la proporción es menor que el 38 por ciento, alternative toma el valor less. Finalmente, el parámetro p incluye simplemente la proporción que conjeturamos como cierta bajo la hipótesis nula, expresada en tanto por 1. Hay que hacer notar que conf.level toma su valor por defecto, luego podría haber sido omitido. No se puede decir lo mismo de alternative, cuyo valor por defecto es two.sided, como ya hemos visto.
Analicemos el resultado de la prueba, que figura en el cuadro anterior. Obsérvese que el estadístico construido en esta ocasión bajo la hipótesis nula es una X2 con 1 grado de libertad. En la muestra toma un valor de 8,58, lo que da lugar a un p-valor de 0,001. Es decir que, a la luz de la información suministrada por la muestra, no podemos aceptar la hipótesis nula de que la proporción de voto obtenida por el PSOE será del 38 por ciento, sino que resulta mucho más plausible la hipótesis alternativa, que considera que dicha proporción será inferior al 38 por ciento. Finalmente, nótese que la estimación muestral de la proporción en análisis es de 0,34, bastante inferior a la establecida por la hipótesis nula.
R Commander Para realizar la prueba anterior a través de R Commander, únicamente hemos de situar a b2 como hoja activa y a continuación seguir las opciones: Estadísticos → Proporciones → Test de proporciones para una muestra…
003_13 Aju 05
29/4/13
08:59
Página 141
EL PAQUETE ESTADÍSTICO R
141
De este modo, aparecerá una pantalla como la siguiente:
ILUSTRACIÓN 5.4 TEST DE PROPORCIONES PARA UNA MUESTRA
En ella hemos de elegir la variable protagonista de nuestro test (nótese que solo se nos ofrecen las variables que únicamente presentan dos valores), el valor de la hipótesis nula, el tipo de hipótesis alternativa, el nivel de confianza y el tipo de prueba. Cabe señalar que este último parámetro es bastante técnico y no procede detallar sus bases teóricas aquí. Para nuestros objetivos, resulta suficiente con fijar su valor en la opción «Aproximación normal con corrección para la continuidad», que además se corresponde con la opción utilizada mediante código 7.
5.2.2.
Test de proporciones para dos muestras
Planteémonos la siguiente cuestión: ¿varía significativamente por sexos la proporción de individuos que manifiestan su intención de votar al PSOE? A la luz de una muestra como la que nos suministra el estudio que estamos utilizando, se puede responder a la pregunta anterior a través de un test de proporciones para dos muestras. Dispondremos en este caso de una variable denominada «grupo» que divide a la muestra total en dos submuestras (en nuestro caso, la variable sexo) y de la variable principal cuyos valores analizaremos (intpsoe).
7 En el apartado «Código» este parámetro ha sido omitido y, por lo tanto, ha tomado en la función su valor por defecto, que es el indicado aquí.
003_13 Aju 05
29/4/13
08:59
Página 142
142
CUADERNOS METODOLÓGICOS 48
De este modo, la hipótesis nula considera que la proporción de votantes es la misma para ambos sexos, mientras que podemos tomar como hipótesis alternativa que dichas proporciones son diferentes. Si denotamos Πh y Πm a las proporciones respectivas de hombres y mujeres en la población que manifiestan intención de votar al PSOE, podemos expresar el contraste como: Ho: Πh = Πm H1: Πh ≠ Πm Código Nuevamente, el comando que utilizaremos para esta prueba es prop.test(). Como ya se ha comentado, este comando no se aplica directamente a una variable, sino a una tabla construida a partir de esta. En este caso, disponemos de dos variables: la variable grupo y la variable explicada o principal. Cuando se comparan dos proporciones, el comando prop.test() ha de recibir como argumento de entrada la tabla de contingencia de las frecuencias absolutas cruzadas de ambas variables. Sabemos que este tipo de tablas se calculan muy fácilmente con la orden table(), en la cual hay que introducir primero la variable grupo y, a continuación, la variable principal: tab <- table(b2$sexo, b2$intpsoe) prop.test(tab, alternative=’two.sided’, conf.level=.95) prop.test(tab)
Una vez almacenada en el objeto tab la tabla de contingencia que acabamos de calcular, ya podemos aplicar la función prop.test(). El primer argumento es el objeto tab, en el que hemos almacenado la tabla. En cuanto a los argumentos alternative y conf.level, nada nuevo que añadir. Únicamente comentar que, en este caso, puesto que toman los valores por defecto, se podrían omitir, como se muestra en la última línea del cuadro anterior.
003_13 Aju 05
29/4/13
08:59
Página 143
EL PAQUETE ESTADÍSTICO R
143
En la salida del contraste podemos observar que el estadístico construido bajo la hipótesis nula es una X2 con 1 grado de libertad. En la muestra toma un valor de 2,27, lo que da lugar a un p-valor de 0,131, superior a 0,05. Es decir que, a la luz de la información suministrada por la muestra, no podemos rechazar la hipótesis nula de que la proporción por sexos que manifiesta intención de votar al PSOE es la misma. Por tanto, aceptamos la hipótesis nula de igualdad de proporciones por sexos.
R Commander Para realizar este contraste con R Commander hemos de seguir las opciones: Estadísticos → Proporciones → Test de proporciones para dos muestras…
Así, llegaremos a una ventana como la de la ilustración 5.5: ILUSTRACIÓN 5.5 TEST DE PROPORCIONES PARA DOS MUESTRAS
En ella hemos de elegir la variable grupo, es decir, la que define las dos muestras que vamos a comparar (en nuestro caso sexo) y la variable explicada (intpsoe), que es la protagonista de nuestro test (obsérvese de nuevo que, en ambos casos, solo se nos ofrecen las variables que presentan exactamente dos valores). También hay que fijar el tipo de hipótesis alternativa, el nivel de confianza y el tipo de prueba. Respecto a este último parámetro, podemos elegir de nuevo la opción «Aproximación normal con corrección para
003_13 Aju 05
29/4/13
08:59
Página 144
144
CUADERNOS METODOLÓGICOS 48
la continuidad», que también se corresponde en este caso con la opción utilizada mediante código.
5.3.
Tests de varianzas
Abordamos en este apartado los contrastes de hipótesis relacionados con la varianza, el parámetro por excelencia en la medida de la dispersión de una variable. La cuestión fundamental que pretenden dilucidar estos contrastes es si la dispersión de dos o más variables es la misma. Con frecuencia, en lugar de contar con varias variables, dispondremos de submuestras de una cierta variable divididas según los valores de alguna otra variable categórica, que actúe como grupo. Ejemplos de este tipo de contrastes se pueden hallar sin más que plantearse si la dispersión en la variable autoubicación ideológica del entrevistado es la misma por sexos, por grupos de edad, por ocupación del entrevistado, etc.
5.3.1.
Contraste de igualdad de dos varianzas
Con anterioridad nos hemos planteado contrastar si la media de una variable en dos muestras es la misma. La misma cuestión que pretende responderse con esa pregunta para la tendencia central de una variable medida en dos muestras puede ser planteada en el análisis de dispersión. Es decir, nuestro próximo objetivo es, a la luz de dos muestras de una variable, diseñar un test que nos permita contrastar si la varianza en las poblaciones respectivas de las que provienen las muestras es la misma. Como veremos, los estadísticos construidos bajo la hipótesis nula para estos tests se distribuyen según una F de Snedecor, de número de grados de libertad dependiente del caso concreto. Supongamos, por ejemplo, que, en nuestro conjunto de datos b, nos planteamos si la variable ideo que mide la autoubicación ideológica de 1 (extrema izquierda) a 10 (extrema derecha) tiene una dispersión igual para ambos sexos. Para realizar un contraste que permita responder científicamente a esta cuestión, podemos tomar como hipótesis nula que ambas varianzas son iguales y como hipótesis alternativa que son diferentes. Denotando σh y σm a los errores estándar respectivos el test se puede expresar como: Ho: σh = σm H1: σh ≠ σm Antes de realizar el contraste es necesario filtrar los valores de la variable ideo correspondientes a las respuestas N.S. (98) y N.C. (99), para dejar únicamente las observaciones que presenten valores que realmente correspon-
003_13 Aju 05
29/4/13
08:59
Página 145
EL PAQUETE ESTADÍSTICO R
145
dan a la autoubicación ideológica medida en una escala numeral ordinal. A tal fin, definimos el objeto b3 del modo siguiente: b3 <- subset(b, ideo %in% 1:10)
Código Para realizar este contraste mediante código, la instrucción adecuada es var.test(). Veamos su sintaxis en el cuadro que sigue: var.test(ideo ~ sexo, alternative=’two.sided’, conf.level=0.95, data=b3)
Como se puede apreciar, en primer lugar introducimos la variable explicada ideo, que es sobre la que deseamos realizar el contraste. Seguidamente se introduce la variable grupo, que ha de ser una variable dicotómica que permita separar a la hoja de datos en dos grupos o muestras entre las que realizar la comparación de varianzas. Nótese que la variable explicada y la variable grupo van separadas por el signo ~. Los argumentos alternative y conf.level funcionan como en el resto de contrastes y, en este caso, como toman sus valores por defecto, se podrían omitir como de hecho se hace en el cuadro siguiente. Finalmente, el argumento data exige introducir la hoja de datos en la que se encuentran las variables que participan en el contraste. var.test(ideo ~ sexo, data=b3)
Como se puede apreciar, el estadístico construido bajo la hipótesis nula es una F de Snedecor con 1.010 y 1.024 grados de libertad, respectivamente. Interpretemos a continuación el valor que toma en la muestra dicho estadístico para el contraste anterior:
003_13 Aju 05
29/4/13
08:59
Página 146
146
CUADERNOS METODOLÓGICOS 48
El p-valor asociado es de 0,42, lo cual nos obliga a aceptar la hipótesis de igualdad de varianzas entre sexos. Hay que hacer notar que el programa plantea la hipótesis nula como un ratio entre varianzas, que ha de valer 1 si las varianzas son iguales. Nótese que la salida nos aporta también el valor de ese ratio de varianzas para las muestras (1,05). Por último, hay que subrayar que el programa nos suministra un intervalo de confianza al 95 por ciento para el valor muestral de ese ratio. En este caso, el referido valor muestral se halla con holgura dentro del intervalo (0,930, 1,189).
R Commander El modo de realizar este contraste desde R Commander pasa por seguir las opciones: Estadísticos → Varianzas → Test F para dos varianzas…
Esto nos permite alcanzar la ventana:
ILUSTRACIÓN 5.6 TEST F DE IGUALDAD DE VARIANZAS
Tras elegir la variable grupo y la variable explicada, únicamente resta fijar el tipo de hipótesis alternativa y el nivel de confianza para finalizar con éxito el contraste. Nótese que R Commander incluye, en la salida, la varianza de ambas muestras, además de toda la información analizada en el apartado de código.
003_13 Aju 05
29/4/13
08:59
Página 147
EL PAQUETE ESTADÍSTICO R
5.3.2.
147
Contraste de homogeneidad de varianzas de Bartlett
El test introducido en el apartado anterior cuenta con la limitación de que únicamente permite estudiar la igualdad de varianzas entre dos muestras o grupos. Sin embargo, existen casos en que resulta conveniente analizar las diferencias de dispersión existentes entre k muestras. El test de Bartlett permite abordar de modo simple este problema. Supongamos que nos planteamos si la dispersión de la variable autoubicación ideológica (ideo) es la misma en todas las CCAA (ccaa) o, por el contrario, existen diferencias geográficas en el valor de la varianza de esta variable. Veamos el modo de implementar con R un contraste de este tipo. En primer lugar hemos de tomar como hipótesis nula que todas las varianzas presenten el mismo valor y como hipótesis alternativa que no todas son iguales. Denotando σ1, σ2,…, σ17 a los errores estándar de la variable ccaa para las respectivas CCAA, el test se puede plantear de modo formal como: Ho: σ1 = σ2 = … = σ17 H1: Existen al menos dos códigos h y m tales que σh ≠ σm Recordemos que ya tenemos en b3 la hoja de datos en la cual nos hemos quedado con los valores adecuados de la variable ideo. De este modo, podemos proceder ya a llevar a cabo la prueba.
Código La instrucción que utilizaremos es bartlett.test(). Veamos su sintaxis con detalle en el cuadro que sigue:
bartlett.test(ideo ~ ccaa, data=b3)
Como se puede apreciar, la instrucción tiene un manejo de lo más sencillo. Únicamente es necesario precisar la variable explicada (ideo) y la variable grupo (ccaa) dispuestas del mismo modo que ya se ha detallado en el apartado anterior. A continuación, resulta suficiente con introducir el nombre de la hoja de datos con que estamos trabajando, también en analogía con el caso inmediatamente precedente.
003_13 Aju 05
29/4/13
08:59
Página 148
148
CUADERNOS METODOLÓGICOS 48
El resultado que nos ofrece el programa figura en el cuadro siguiente:
Bajo la hipótesis nula, el estadístico de Bartlett se distribuye aproximadamente como una χ2 con k-1 grados de libertad (en este caso, 16, puesto que la variable grupo ccaa presenta 17 categorías). El valor que toma el estadístico en la muestra es 60,83, que resulta altamente improbable, como se puede comprobar a la luz del p-valor asociado. Por ello, no es posible aceptar la hipótesis nula de igualdad de varianzas por CCAA. La prueba de hipótesis evidencia que la dispersión de la variable que mide la autoubicación ideológica varía entre CCAA.
R Commander Siguiendo la ruta de menús que figura a continuación: Estadísticos → Varianzas → Test de Bartlett…
Podemos llegar a la ventana que sigue:
ILUSTRACIÓN 5.7 TEST DE BARTLETT
003_13 Aju 05
29/4/13
08:59
Página 149
EL PAQUETE ESTADÍSTICO R
149
En ella, simplemente hemos de elegir la variable grupo (ccaa) y la variable explicada (ideo). Ello nos permitirá obtener el mismo resultado que ya ha sido comentado al calcular el contraste mediante código. Únicamente cabe añadir que, al realizar el contraste con R Commander, el programa también nos muestra automáticamente la varianza muestral para cada una de las CCAA.
5.3.3.
Contraste de igualdad de varianzas de Levene
El test de Bartlett presenta el problema de que exige, entre sus hipótesis teóricas, la existencia de normalidad para la variable explicada. En la práctica estadística, la hipótesis de normalidad de las variables en estudio no siempre es verificada con el cuidado que la teoría exige, lo que da lugar a una frecuente fuente de conclusiones erróneas o, al menos, aventuradas. Para paliar este problema, existen los denominados contrastes no paramétricos, que introduciremos con detalle en el siguiente apartado. En lo que se refiere a los contrastes de varianzas, el contraste de Levene realiza la misma función que el de Bartlett sin exigir normalidad en las variables implicadas. Veamos a continuación el modo de implementar este test en R para el mismo problema que planteábamos en el apartado anterior.
Código La instrucción que utilizaremos es leveneTest(). Veamos su sintaxis con detalle en el cuadro que sigue:
leveneTest(b3$ideo, b3$ccaa, center=median) leveneTest(b3$ideo, b3$ccaa, center=mean)
Los argumentos de la función son simplemente la variable explicada y la variable grupo, seguidas de un parámetro denominado center, de contenido bastante técnico y que solo indica si el contraste se realiza centrado en la mediana o en la media. Habitualmente, los resultados con ambas opciones no suelen diferir demasiado. En las dos líneas de código anteriores se puede ver cómo funciona el manejo de esta función para ambos valores de center. Nótese que, en este caso, la hoja de datos la introducimos al referirnos a las variables y no como un parámetro en sí mismo como ocurría en los dos apartados anteriores.
003_13 Aju 05
29/4/13
08:59
150
Página 150
CUADERNOS METODOLÓGICOS 48
El resultado que nos ofrece el programa para ambas ejecuciones figura en el cuadro siguiente:
Analicemos el primer caso, que toma por centro la mediana. Bajo la hipótesis nula, el estadístico resultante se distribuye aproximadamente como una F de Snedecor con k-1 y N-k grados de libertad respectivos, siendo N el tamaño muestral. Obsérvese que, en nuestro caso, los grados de libertad son 16 y 2.019, respectivamente. El valor que toma el estadístico es 2,79, que resulta altamente improbable, como se puede comprobar sin más que tomar en cuenta el p-valor. De manera que no es posible aceptar la hipótesis nula de igualdad de varianzas por CCAA. La prueba de hipótesis evidencia que existe una dispersión variable en la autoubicación ideológica entre CCAA. La interpretación del segundo caso es absolutamente análoga y ambos resultados resultan coherentes con lo concluido utilizando el test de Bartlett.
R Commander Para implementar este test con R Commander resulta suficiente con seguir las opciones que figuran a continuación: Estadísticos → Varianzas → Test de Levene…
Eso nos permite acceder a una ventana como la que se muestra en la ilustración 5.8:
003_13 Aju 05
29/4/13
08:59
Página 151
EL PAQUETE ESTADÍSTICO R
151 ILUSTRACIÓN 5.8 CONTRASTE DE LEVENE
En la misma, hemos de elegir la variable grupo (ccaa) y la variable explicada (ideo). También hay que informar al programa de si deseamos que el contraste esté centrado en la mediana o en la media. En cualquiera de los dos casos, al ejecutar el contraste, obtendremos el mismo resultado ya comentado al calcular el contraste mediante código. De nuevo existe la salvedad de que R Commander nos muestra adicionalmente la varianza muestral para cada una de las CCAA.
5.4.
Contrastes no paramétricos
Aunque no siempre se ha explicitado, en la mayoría de las pruebas de hipótesis que hemos estudiado hasta ahora es necesario asumir que la población en análisis se distribuye con normalidad 8. Sin embargo, no es infrecuente encontrarse en la práctica con variables para las que no resulta razonable dicha asunción. Si bien es cierto que son tolerables desviaciones moderadas respecto a la normalidad, en la práctica se abusa habitualmente de la asunción de normalidad. Cuando no es sensato establecer esta hipótesis, existen los denominados contrastes no paramétricos, que permiten construir, bajo la hipótesis nula, estadísticos cuya distribución es conocida o, al menos, se aproxima a la de una variable aleatoria de distribución conocida. También para algunas variables ordinales, que no resulta adecuado tratar como numéricas, le son de aplicación algunos de los tests descritos en este apartado.
8
tado.
Con excepción de los contrastes de proporciones y el Test de Levene, como ya se ha apun-
003_13 Aju 05
29/4/13
152
5.4.1.
08:59
Página 152
CUADERNOS METODOLÓGICOS 48
Test de suma de rangos de Wilcoxon para dos muestras
La prueba de la suma de rangos de Wilcoxon o prueba U de Mann-Whitney es un test no paramétrico aplicado a dos muestras independientes. Se trata de dilucidar si las distribuciones de ambas muestras son iguales o diferentes. En realidad este test no es más que el equivalente no paramétrico de la habitual prueba de la t de Student para dos muestras. El planteamiento inicial del test exige que las observaciones de ambos grupos sean variables ordinales independientes. Así, la hipótesis nula indicará que las distribuciones de partida de las poblaciones de las cuales han sido extraídas las muestras son las mismas, frente a la hipótesis alternativa de que existe una diferencia significativa entre ambas distribuciones. El contraste utiliza la denominada suma de rangos, para diseñar un estadístico que, para muestras mínimamente grandes (de más de 20 observaciones), se distribuye aproximadamente como una normal. Para entender su funcionamiento, supongamos que nos planteamos si la variable autoubicación ideológica (ideo) 9 se distribuye igual entre los que manifiestan intención de votar al PSOE y al PP. De este modo, nuestra hipótesis nula será que la variable ideo presenta la misma distribución entre los votantes de ambos partidos mientras que la hipótesis alternativa razonable en este caso es que dicha variable presente un valor inferior para los votantes del PSOE (valores más a la izquierda) que el que se obtenga para los que tienen intención de votar al PP. Veamos cómo construir el contraste. En primer lugar, hay que preparar de modo adecuado la información contenida en b. Hemos de filtrar las observaciones de b3 (que recordemos que contiene los valores ordinales de ideo) en las que la variable intvoto tome los valores 1 (PSOE) y 2 (PP). La primera instrucción del cuadro siguiente realiza esta tarea, almacenando la hoja filtrada en b4. Aunque ya parece que disponemos de la información dispuesta del modo que necesitamos, aún hay que superar un pequeño escollo. La variable intvoto presentaba en la hoja de datos de partida b un conjunto de valores mayor que dos, puesto que, obviamente, en ella estaban incluidas las respuestas que elegían al resto de partidos 10. Sucede que, al filtrar la hoja de datos, aunque nos quedemos con un subconjunto de la misma que únicamente presenta ya dos valores para la variable intvoto 11, la hoja filtrada b4
9 Nótese que, en el apartado anterior, hemos supuesto que la variable ‘ideo’ se distribuía de modo normal, en aras de la claridad pedagógica pero, en realidad, no hemos presentado evidencia empírica a favor de esta hipótesis. 10 Como se puede comprobar en el cuestionario del estudio 2815, los valores admisibles para esta variable son del 1 al 11 y del 96 al 99. 11 Recuérdese que para que una variable pueda actuar como grupo para un contraste entre dos muestras ha de ser dicotómica o, lo que es lo mismo, presentar únicamente dos valores admisibles.
003_13 Aju 05
29/4/13
08:59
Página 153
EL PAQUETE ESTADÍSTICO R
153
hereda las propiedades de la hoja de partida b, con lo que no interpreta a la variable intvoto como dicotómica y no permite, por tanto, utilizarla como variable grupo. Para afrontar este pequeño problema no hay más que crear una nueva variable recodificando la variable intvoto sin alterar sus valores. La variable recién creada (que aquí hemos denominado psoepp), como es absolutamente nueva y se le otorgan solo dos valores, sí que es entendida por el programa como dicotómica y permite realizar el contraste. La segunda línea del cuadro siguiente realiza la mencionada recodificación elemental.
b4 <- subset(b3, intvoto %in% 1:2) b4$psoepp <- recode(b4$intvoto, “1=1; 2=2”)
Código Ahora, por fin, estamos en condiciones de llevar a cabo el contraste. El comando indicado para ello es wilcox.test(), que funciona como sigue:
wilcox.test(ideo ~ psoepp, alternative=”less”, data=b4)
Obsérvese que, en primer lugar, se introducen las variables explicada y grupo, en este orden y separadas por el símbolo ~. A continuación hay que indicar el tipo de hipótesis alternativa del modo habitual. En este caso, como el valor PSOE de la variable grupo tiene código 1 y el valor PP tiene código 2 pues se considera que la primera muestra son los que manifiestan intención de votar al PSOE y la segunda los que hacen lo propio con el PP. De este modo, como deseamos que la hipótesis alternativa sea que el valor de la variable explicada sea menor en el PSOE (primera muestra) que en el PP (segunda muestra) pues el argumento alternative ha de tomar el valor less. Finalmente, se indica la hoja de datos en la que realizar el contraste, a través del parámetro data. Analicemos ahora el resultado del test:
003_13 Aju 05
29/4/13
08:59
Página 154
154
CUADERNOS METODOLÓGICOS 48
El valor del estadístico en este caso es 18.934, que presenta un p-valor despreciable. Así, podemos deducir que hay que rechazar la hipótesis nula de que las poblaciones de las que provienen ambas muestras tienen la misma distribución. Resulta más plausible, a la luz de los datos, la razonable hipótesis alternativa, que considera que los que tienen intención de votar al PSOE se autoubican más a la izquierda que los que piensan votar al PP. R Commander Elijamos como hoja activa a b4 y sigamos las opciones: Estadísticos → Tests no paramétricos → Test de Wilcoxon para dos muestras…
De este modo, llegaremos a la ventana que se ilustra a continuación: ILUSTRACIÓN 5.9 TEST DE SUMA DE RANGOS DE WILCOXON
Como habitualmente, hemos de elegir la variable grupo y la explicada y el tipo de hipótesis alternativa. En cuanto al tipo de prueba, resulta preferible, en aras de la simplicidad, mantener en este caso la opción por defecto. 5.4.2.
Test de Wilcoxon para datos emparejados
El test de Wilcoxon para datos emparejados o test de los signos de Wilcoxon permite comparar dos variables medidas en los mismos individuos, de cara a dilucidar si ambas variables presentan diferencias en su distribución. Esta
003_13 Aju 05
29/4/13
08:59
Página 155
EL PAQUETE ESTADÍSTICO R
155
prueba puede ser utilizada sin más que exigir a las variables a comparar que sean de carácter ordinal. No es necesaria la normalidad, lo que hace que este contraste sea muy útil como sustituto de los contrastes para datos emparejados ya introducidos y que se basan en la construcción de estadísticos cuya distribución solo conocemos bajo la hipótesis de normalidad. La hipótesis nula es, por tanto, que la distribución de ambas muestras es la misma, mientras que como hipótesis alternativa podemos tomar, como habitualmente, que los valores de ambas variables sean simplemente distintos o que los de una variable sean superiores o inferiores a los de la otra. Bajo la hipótesis nula se construye un estadístico cuyos valores están tabulados y permiten, por tanto, realizar el contraste. Pensemos en la siguiente situación concreta: las variables siteco y sitpol se hallan codificadas según la misma escala ordinal. Teniendo en cuenta además que la opinión acerca de la situación política y la situación económica ha de guardar una cierta relación, cabe preguntarse si existen diferencias entre la distribución de ambas. El problema anterior se puede abordar del modo ya mostrado en el apartado 5.1.3. Sin embargo, dado que no parece muy razonable considerar normales a las variables objeto de estudio 12, resulta más propia la utilización del test de signos de Wilcoxon. Consideramos aquí como hipótesis nula la no existencia de diferencias entre ambas variables y, puesto que no tenemos información acerca del sentido de una eventual desviación entre los valores de una variable y otra, lo más razonable es considerar como hipótesis alternativa la bilateral, es decir, que existen diferencias entre ambas variables, sin precisar cuál es mayor. Código Podemos partir del conjunto de datos b1, que ya tenía convenientemente filtrados los valores de estas variables. La instrucción a utilizar es nuevamente wilcox.test(). Veamos su sintaxis en este caso: wilcox.test(b1$siteco, b1$sitpol, alternative=’two.sided’, paired=TRUE)
En primer lugar, introducimos las dos variables que deseamos comparar. A continuación se informa al programa del tipo de hipótesis alternativa, utilizando la sintaxis usual. Finalmente, el argumento paired indica al programa, cuando toma el valor TRUE, que estamos trabajando con datos emparejados, es decir, con dos variables medidas en la misma muestra. 12 Aunque en el mencionado apartado se ha asumido dicha hipótesis de normalidad con fines pedagógicos.
003_13 Aju 05
29/4/13
08:59
Página 156
156
CUADERNOS METODOLÓGICOS 48
Como se puede apreciar en el cuadro anterior, en la salida de la prueba se nos indica el valor que toma el estadístico en este caso (466.342,5) y del p-valor asociado, que en este caso resulta ser despreciable. Por tanto, hemos de rechazar la hipótesis de que ambas variables se distribuyen igual y concluir que siteco y sitpol presentan diferencias en su distribución en la población en estudio, a juzgar por la muestra obtenida. Cabe hacer notar que la conclusión es coherente con la obtenida en el apartado 5.1.3., empleando la hipótesis de normalidad. R Commander Si preferimos realizar el contraste con R Commander, hemos de fijar a b1 como hoja activa y, a continuación, elegir la opción: Estadísticos → Tests no paramétricos → Test de Wilcoxon para muestras pareadas…
En la ventana de la ilustración 5.10 resulta suficiente con elegir las dos variables a utilizar en el contraste, el tipo de hipótesis alternativa y el tipo de prueba. Esta puede mantenerse por simplicidad en su valor por defecto. ILUSTRACIÓN 5.10 TEST DE WILCOXON PARA DATOS EMPAREJADOS
003_13 Aju 05
29/4/13
08:59
Página 157
EL PAQUETE ESTADÍSTICO R
5.4.3.
157
Test de suma de rangos de Kruskal-Wallis
Recordemos que la prueba de suma de rangos de Wilcoxon o prueba de la U de Mann-Whitney solo es aplicable cuando queremos comparar dos muestras o, dicho de otra manera, cuando la variable grupo es dicotómica. La prueba de Kruskal-Wallis a la que dedicamos este apartado supone una extensión del test referido al caso en que la variable grupo presente tres o más valores. Se trata también de un contraste no paramétrico, en el cual no es preciso asumir normalidad en los datos. El test asume, bajo la hipótesis nula, que las g muestras de la variable explicada provienen de la misma distribución poblacional. Bajo dicha hipótesis, se construye un estadístico que, siempre que el número de observaciones para cada valor de la variable grupo sea mayor que 5, se distribuye aproximadamente como una X2 con g-1 grados de libertad y que permite realizar el contraste. Para entender cómo funciona esta prueba en la práctica, planteémonos, por ejemplo, si existe asociación entre la edad y la variable intención de voto 13. Trabajemos para ello con la hoja de datos b2, en la cual la variable intvoto ya ha sido filtrada de las observaciones pertenecientes a informantes que afirman no tener intención de votar. Así, la hipótesis nula será que la variable edad se distribuye de igual modo entre los que manifiestan intención de votar a las diversas opciones políticas, mientras que la hipótesis alternativa debe afirmar que la variable edad presenta diferencias en su distribución según el partido al que se tiene intención de votar.
Código La implementación del test mediante código se realiza mediante el comando kruskal.test(). En el cuadro que sigue se muestra cómo utilizarlo para este caso:
kruskal.test(edad ~ intvoto, data=b2)
Como se puede apreciar, el manejo es realmente sencillo. Solo hay que introducir la variable explicada y la variable grupo, separadas por el símbolo ~, seguidas del nombre de la hoja de datos que hemos de utilizar. El resultado figura a continuación: 13 Nótese que el modelo con sentido sociológico sería el que dilucida si la intención de voto depende o no de la edad. El lector ha de tener cuidado de no confundirse con el hecho de que, a efectos de poder plantear este test, las variables dependiente e independiente jueguen los papeles opuestos de los que dicta la intuición.
003_13 Aju 05
29/4/13
08:59
Página 158
158
CUADERNOS METODOLÓGICOS 48
Bajo la hipótesis nula, el estadístico del contraste se distribuye como una X2 con 11 grados de libertad (existen 12 valores admisibles para la variable intvoto de b2). El valor obtenido en la muestra es 43,70, que resultaría realmente improbable para esa distribución, como queda evidenciado por el despreciable p-valor asociado. De este modo, no cabe aceptar la hipótesis nula de que la distribución de la variable edad es la misma al margen del partido al que se manifiesta intención de votar.
R Commander Para realizar esta prueba con R Commander, hemos de tomar b2 como conjunto de datos activo y a continuación elegir:
Estadísticos → Tests no paramétricos → Test de Kruskal-Wallis…
Cuando aparezca la pantalla de la ilustración 5.11, tenemos que elegir nuestras variables grupo y explicada, sin otra complicación. Al ejecutar, obsérvese que R Commander nos ofrece, como parte del resultado del test, la mediana de la variable explicada edad para cada uno de los valores de la variable grupo intvoto. Esto nos ayuda a entender las diferencias existentes en aquella para las distintas opciones políticas contenidas en esta.
ILUSTRACIÓN 5.11 TEST DE SUMA DE RANGOS DE KRUSKAL-WALLIS
003_13 Aju 05
29/4/13
08:59
Página 159
EL PAQUETE ESTADÍSTICO R
5.5.
159
Análisis de varianza ANOVA de un factor
A grandes rasgos, se puede decir que el análisis ANOVA de un factor permite contrastar la hipótesis nula de que las medias de k poblaciones son iguales frente a la hipótesis alternativa de que, al menos dos de estas medias, toman valores distintos. El análisis ANOVA parte de las siguientes hipótesis: • Las k poblaciones son normales. • Las k muestras que representan a las poblaciones son independientes. • Las k poblaciones tienen igual varianza. De este modo, las hipótesis nula y alternativa para el análisis ANOVA de un factor se pueden presentar del modo siguiente: Ho: µ1 = µ2 = … = µk H1: Existen al menos dos subíndices h y m tales que µh ≠ µm Para entender cómo funciona este tipo de análisis en la práctica, lo mejor es presentar un ejemplo ilustrativo del mismo. Supongamos que deseamos saber si la variable autoubicación ideológica presenta el mismo valor medio en cada una de las tres provincias del País Vasco. Lo primero que hemos de conseguir es obtener el conjunto de datos adecuado para realizar el análisis ANOVA. Podemos partir de la hoja de datos b3, que recordemos que tiene filtrados los valores de la variable ideo, de modo que están excluidos todos los que se encuentran fuera del intervalo 1-10. Para poder realizar nuestro estudio dentro de los datos pertenecientes al País Vasco, hemos de filtrar las observaciones que pertenezcan a esta Comunidad Autónoma (valor 16 de ccaa). Una vez realizada esta operación, ya tenemos en nuestra variable prov de la nueva hoja de datos filtrada b5 los códigos de solo las tres provincias admisibles para el País Vasco: 1 (Álava), 20 (Guipúzcoa) y 48 (Vizcaya). Sin embargo, al igual que ocurría en el apartado 5.4.1, nos encontramos con que el conjunto de valores admisibles en dicha variable viene heredado de b3, por lo que para restringir dichos valores a solo los tres correspondientes a las provincias vascas, hemos de realizar una recodificación. El filtrado y la recodificación recién mencionados se pueden llevar a cabo con las instrucciones que figuran en el siguiente cuadro:
b5 <- subset(b3, ccaa==16) b5$provpv <- recode(b5$prov, “1=1; 20=20; 48=48”)
003_13 Aju 05
29/4/13
08:59
Página 160
160
CUADERNOS METODOLÓGICOS 48
Obsérvese que la nueva variable factor ya solo con tres valores se denomina provpv. Ahora podemos afirmar que nos encontramos en condiciones de realizar el análisis ANOVA. La instrucción que utilizaremos es aov(). Veamos su sintaxis:
anova1 <- aov(ideo ~ provpv, data=b5)
Como puede apreciarse, hay que introducir como argumentos tanto la variable explicada ideo como la variable grupo provpv, separadas como en otras instrucciones por ~. Seguidamente se añade, como último argumento, el nombre de la hoja de datos en la que se encuentran nuestras variables. Únicamente cabe señalar que, en contra de lo que ocurría en las pruebas estudiadas hasta ahora, en esta ocasión resulta necesario almacenar el resultado del test en un objeto, que aquí denominamos anova1.
summary(anova1) numSummary(b5$ideo , groups=b5$provpv)
Para visualizar los resultados del contraste hay que aplicar a este objeto la función summary() del modo que se indica en la primera instrucción del cuadro superior. Resulta muy útil también visualizar las medias y desviaciones típicas de la variable explicada en cada uno de los grupos. Esto último puede lograrse con la instrucción que figura en la segunda línea del cuadro precedente. La orden numSummary() y su utilización para ver estadísticas de una variable cruzada por los valores de un factor ya fue estudiada con detalle en el capítulo 4. Veamos cómo interpretar los resultados que arroja el programa en pantalla tras la introducción de las dos órdenes anteriores:
003_13 Aju 05
29/4/13
08:59
Página 161
EL PAQUETE ESTADÍSTICO R
161
Obsérvese que aparece detallado tanto el número de grados de libertad (columna Df) como la suma y la media de cuadrados explicada o entre grupos (columnas Sum Sq y Mean Sq para la fila provpv) y no explicada, residual o dentro de los grupos (columnas Sum Sq y Mean Sq para la fila Residuals), respectivamente. Finalmente, aparece el valor del estadístico F del contraste, que en este caso es igual a 1,44, con un p-valor de 0,24. A la luz del mismo, resulta claro que el valor que toma el estadístico es razonablemente probable para su distribución bajo la hipótesis nula y, por tanto, cabe aceptar dicha hipótesis de que las medias son iguales en los diferentes grupos. Algunas consideraciones adicionales para orientar al lector acerca de los resultados del análisis ANOVA. Los grados de libertad correspondientes a la parte explicada son el número de valores del factor (3) menos 1. Por su parte, los grados de libertad de la parte residual son el número de observaciones (105) menos el número de valores de la variable factor (3). Respecto a la obtención del valor del estadístico, cabe contar que la columna que incluye las medias de cuadrados nos da el numerador y el denominador, respectivamente, del valor del estadístico F de Snedecor con 2 y 102 grados de libertad. En la instrucción siguiente, se exhiben los valores de la media y el error estándar para cada provincia. Cabe observar que la provincia que se autoubica más a la derecha es Álava (4,71), seguida de Vizcaya (4,43), siendo Guipúzcoa la que toma un valor más a la izquierda en esta variable (4,00). Sin embargo, como ya se ha explicado, las diferencias en estas medias muestrales no son suficientes para rechazar la hipótesis de que las medias poblacionales pueden ser iguales.
R Commander Tras elegir, como de costumbre, la hoja activa que resulte oportuna (en este caso b5), debemos elegir como opción: Estadísticos → Medias → ANOVA de un factor…
En la ilustración 5.12 se fija la variable grupo y la variable explicada y se puede introducir, si se desea, un nombre para el modelo diferente al que ya figura por defecto. Para realizar el análisis ANOVA de un factor tal y como se ha detallado aquí, no es necesario incluir la opción de comparación de medias dos a dos.
003_13 Aju 05
29/4/13
08:59
Página 162
162
CUADERNOS METODOLÓGICOS 48 ILUSTRACIÓN 5.12 ANOVA DE UN FACTOR
5.6. 1.
Ejercicios Considérese la hoja de datos b tal como se ha importado al principio de este tema. Realizaremos en la misma algunos contrastes tomando como variable explicada la que se refiere a la autoubicación ideológica del entrevistado (ideo). En concreto llevaremos a cabo las siguientes tareas: i) ii)
iii)
iv)
2.
Filtrar los valores de ideo que se encuentran dentro de la escala 1-10. Denominar a la hoja filtrada b3. Supongamos que tenemos la percepción de que el valor medio de la autoubicación ideológica es 5 u otro valor más hacia la izquierda. Realizar un contraste de hipótesis que nos permita reforzar o desechar nuestro punto de vista a priori. Repetir el contraste anterior para el caso en que nuestra sospecha fuera que la variable se sitúa en 5 o más a la derecha. Razonar sobre los distintos resultados de ambos contrastes. Verificar que la media de la autoubicación ideológica no presenta diferencias significativas por razón de género.
Estudiemos ahora la proporción de individuos que manifiestan intención de votar al PP en el estudio 2815. Utilizando la hoja de datos b, se pide: i)
ii)
Filtrar los valores de intvoto correspondientes a encuestados que afirman tener una intención de voto ya decidida (valores 1-96). Llamar a la hoja filtrada b2. Probar la hipótesis de que el porcentaje de voto del PP será de en torno al 38 por ciento y no menor, según los informantes filtrados en el apartado anterior.
003_13 Aju 05
29/4/13
08:59
Página 163
EL PAQUETE ESTADÍSTICO R
iii)
3.
Demostrar que se puede afirmar con rotundidad que la proporción de intención de voto del PP no presenta diferencias por razón de género.
Restrinjamos nuestra atención a las siguientes CCAA: Canarias (5), Extremadura (11) y Navarra (15). Seguir los pasos que se indican para llevar a cabo los contrastes requeridos: i) ii)
iii)
4.
163
Extraer de b las observaciones correspondientes a estas tres Comunidades Autónomas, llamando a la hoja resultante b6. Supongamos que deseamos comprobar si la dispersión de las variables siteco y sitpol es igual para estas tres CCAA. Realizar el pertinente contraste, previo filtrado de los datos de modo conveniente. ¿Resulta más adecuada en este caso la prueba de Bartlett o la de Levene? Razonar la respuesta. Realizar ambas pruebas y comprobar la coherencia de los resultados. Contrastar la hipótesis de que, de hecho, la distribución de las variables siteco y sitpol es la misma para estas CCAA. ¿Resulta adecuado el test de Kruskal-Wallis? Razonar la contestación.
Consideremos la valoración de los siguientes líderes políticos: José Blanco (121-122), Carmen Chacón (125-126) y Alfredo Pérez Rubalcaba (147-148) correspondientes al barómetro del CIS 2815 con el que trabajamos habitualmente. Como es sabido, la escala de valoración va de 0 a 10, correspondiendo 0 a la peor valoración y 10 a la mejor. Se pide: i)
ii)
iii)
Confeccionar una hoja de datos en la que figuren estas tres variables de valoración, además de la Comunidad Autónoma (1011), el sexo (190) y la edad (191-192) de los informantes. Llamaremos a esta hoja b7. Verificar si existen diferencias por sexo en la valoración de los líderes anteriores. ¿Es para alguno de los tres líderes la situación claramente diferente a los demás respecto a esta cuestión? ¿Es Carmen Chacón más valorada por los hombres o por las mujeres? Consideremos las observaciones que han emitido una valoración de 0 a 10 de los tres líderes en análisis y que, a la vez, pertenecen a encuestados en las siguientes CCAA: Cantabria (6), Cataluña (9) y Galicia (12). Utilizando este conjunto de observaciones realizar tres análisis ANOVA de un factor para verificar si la Comunidad Autónoma de procedencia de cada líder es un factor relevante a la hora de valorarlo políticamente. ¿Es esto así en alguno de los tres casos?
003_13 Aju 05
29/4/13
164
08:59
Página 164
CUADERNOS METODOLÓGICOS 48
5.
A la luz del cuestionario del estudio 2815 (o de otro cualquiera, si se prefiere) piensa en hipótesis acerca de los datos que te resulten sugerentes y que sean contrastables con los métodos aprendidos en este capítulo. Realiza las pruebas de hipótesis oportunas para responder a las cuestiones autoplanteadas.
6.
Repetir los ejercicios de este capítulo utilizando código o R Commander, en función del medio utilizado al acometer su resolución por primera vez.
003_13 Aju 06
29/4/13
09:01
Página 165
6 Gráficos con R El programa R tiene un muy buen nivel gráfico. De hecho, sus salidas gráficas se utilizan de modo cotidiano en publicaciones científicas del máximo nivel. En este capítulo aprenderemos a utilizar algunas de las posibilidades que ofrece R en este ámbito 1. Los gráficos de R admiten ser matizados por una multitud de parámetros realmente difícil de abarcar. De este modo, para su aprendizaje, lo más pedagógico es ir introduciendo los parámetros gráficos a medida que los necesitemos. Contamos, eso sí, con la ventaja de que muchos de los parámetros que iremos aprendiendo nos serán útiles para diversos tipos de gráficos. Partamos del conjunto de datos d, introducido en la sección 2.2.4, que contiene todos los microdatos adecuadamente tabulados del barómetro 2815 del CIS 2. La ventaja de trabajar con este conjunto de datos es que, en el mismo, las variables ya figuran con sus valores nominales, lo que resulta de gran utilidad a la hora de etiquetar los gráficos. Para comenzar a estudiar los gráficos en R, veamos el modo de abordar un elemento importante para los mismos: el color. R dispone de una inmensa paleta con la que colorear los gráficos. La primera línea de código del cuadro que sigue muestra todos los colores de los que dispone el programa. Como veremos, el modo de asignar un color a un gráfico o a una parte del mismo pasa por utilizar col como parámetro de un comando gráfico, mediante asignaciones del tipo col=’nombre del color’. colors() par(mfrow=c(2,2))
1 Para profundizar en el tratamiento gráfico con R pueden consultarse, por ejemplo, Maindonald y Braun (2007), Murrell (2005). En Wickham (2009) se introduce al lector en el sofisticado paquete gráfico «ggplot2». También resulta muy recomendable Sarkar (2008), que detalla el funcionamiento del importante paquete gráfico «lattice». 2 Recordemos que dicho conjunto de datos ha sido importado a partir del fichero DA2815.sav, que se encuentra entre la documentación digital asociada a este libro disponible en la web. Téngase en cuenta también que, si desde R se desea dotar de valores nominales a las variables de un conjunto de datos codificados numéricamente, ha de utilizarse la instrucción recode().
003_13 Aju 06
29/4/13
09:01
Página 166
166
CUADERNOS METODOLÓGICOS 48
La segunda línea de código del cuadro anterior muestra el modo de indicar al programa que deseamos dibujar varios gráficos en una misma ventana gráfica. Concretamente, con la referida tercera línea, se prepararía la ventana gráfica recién creada para dibujar un gráfico compuesto por cuatro subgráficos (dos filas y dos columnas). En general, el primer número en la instrucción indica el número de filas del gráfico, y el segundo, el número de columnas. Una vez hechas estas indicaciones al programa, al ir introduciendo sucesivamente cuatro gráficos, estos se ubicarán en las cuatro subventanas en que hemos dividido la ventana gráfica. Resulta complicado asimilar estos conceptos sin ponerlos en práctica, por lo que veremos inmediatamente ejemplos ilustrativos de todo lo anterior 3.
6.1.
Histograma
Como es sabido, un histograma es una representación gráfica de una variable continua o cardinal en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados por la misma. Es decir, en el eje horizontal se encuentran los valores de la variable a representar, agrupados por intervalos, mientras que el eje vertical es el que permite dimensionar las frecuencias asociadas a cada intervalo. Veamos cómo construir histogramas de frecuencias con R. Código El histograma de una variable cuantitativa (como, por ejemplo, la edad) se puede calcular en R de modo muy sencillo. El comando al efecto es Hist() 4. Veamos el modo de utilizarlo. En nuestra hoja de datos d, la variable edad es la P25, como se puede comprobar en el cuestionario del estudio del CIS 2815. Ya hemos advertido al lector de la conveniencia de abrir una nueva ventana gráfica cada vez que realicemos un gráfico. Una vez abierta, podemos proceder a dibujar el histograma. La sintaxis más elemental al efecto es: Hist(d$P25)
3 Para los que lectores que trabajen con R bajo Windows, cabe subrayar que el comando windows() permite abrir una nueva ventana gráfica. En realidad, cuando nosotros generamos un gráfico con R, automáticamente se abre una ventana por defecto con el gráfico. La utilidad del comando windows() aparece cuando, teniendo ya un gráfico abierto, deseamos crear otro gráfico en otra ventana conservando el ya creado. En ese caso, si no utilizamos windows(), el gráfico previamente existente quedará sustituido por el nuevo que creemos. 4 El comando Hist() pertenece al paquete «Rcmdr». Por tanto, solo se halla disponible con R-Commander abierto.
003_13 Aju 06
29/4/13
09:01
Página 167
EL PAQUETE ESTADÍSTICO R
167
Ahora bien, como el lector puede imaginar, existen diversas formas de lograr que el gráfico así creado gane en estética y claridad o incluso de incorporar otros gráficos en la misma ventana para poder compararlos entre sí. Para mostrarlo, creemos una ventana gráfica con cuatro subgráficos utilizando la segunda instrucción introducida en el penúltimo cuadro de código. En el cuadro siguiente se muestra el modo de dibujar los cuatro histogramas en la ventana gráfica múltiple que acabamos de crear. Este ejemplo no solo nos permitirá aprender el modo de dibujar histogramas, sino que nos acercará a varios parámetros que se utilizan en general en los gráficos de R. Incluimos el cuadro y, seguidamente, explicamos con detalle la sintaxis en él contenida: Hist(d$P25) Hist(d$P25, breaks=5, scale=’percent’, col=’brown’) Hist(d$P25, breaks=c(18, 25, 35, 45, 55, 65, 98, 99), scale=’density’, main=’Histograma con intervalos CIS’, col=’green’) Hist(d$P25, breaks=40, main=’Histograma con 40 intervalos’, xlab=’Edad’, ylab=’Frecuencias’, col=’magenta’)
• El primer gráfico no es más que el ya incluido anteriormente. Tanto el número de barras como el color de las mismas han sido elegidos automáticamente por el programa*. Nótese que en el eje vertical figuran frecuencias absolutas. • En el segundo gráfico ya se introducen algunos parámetros que permiten amoldar el gráfico a nuestras necesidades: ¡ breaks: en este caso, indica el número de barras que deseamos que tenga el histograma. Como veremos, también puede tomar como valor un vector con los valores en los que comienza y termina cada una de las barras de dicho histograma. ¡ scale: establece qué tipo frecuencias representa el eje vertical. Puede tomar los siguientes valores: frequency para el caso de frecuencias absolutas (valor por defecto); percent si deseamos que en el eje de ordenadas aparezcan porcentajes de respuesta o density si nuestra intención es que las barras indiquen los valores de una densidad estadística. ¡ col: sirve para indicar al programa el color que han de presentar las barras de dicho histograma. Como ya se ha comentado, la paleta de colores de que dispone el programa se halla disponible en el vector colors(). * A lo largo del capítulo, los colores de los gráficos obtenidos al ejecutar el código no coinciden con los que figuran en el manual, por razones técnicas.
003_13 Aju 06
29/4/13
09:01
Página 168
168
CUADERNOS METODOLÓGICOS 48
• En el tercer gráfico, el comando breaks se usa para establecer los valores en los que comienza y termina cada una de las barras del histograma. En nuestro caso, hemos elegido las barras en función de los intervalos por edades que utiliza habitualmente el CIS para agrupar esta variable. Por otra parte, en esta ocasión, decidimos que el eje de ordenadas aparezca como densidad. Nuevamente, elegimos un color para el gráfico. La única novedad es la introducción del parámetro que sigue: ¡ main: se utiliza para poner un texto como título principal del gráfico. • En el último caso, pedimos que el gráfico tenga 40 barras e incluimos un título principal. También elegimos un color para el histograma y, como novedad, se introducen los siguientes parámetros: ¡ xlab: nos permite etiquetar el eje horizontal o de abscisas. ¡ ylab: cumple la misma función para el eje vertical o de ordenadas. Si todo ha ido bien, ha de aparecer en pantalla un resultado como el siguiente:
GRÁFICO 6.1 HISTOGRAMAS
003_13 Aju 06
29/4/13
09:01
Página 169
EL PAQUETE ESTADÍSTICO R
169
Podemos copiar en el portapapeles o grabar el gráfico que hemos creado. El modo de hacerlo es a través de la ventana que rodea al propio gráfico. Para copiar el gráfico resulta suficiente con situar el cursor encima del mismo y pulsar el habitual CTRL+C. Para guardar el gráfico se sigue la ruta:
Archivo → Guardar como…
Y a continuación se elige el formato en el que se desea guardar el gráfico. Procede un comentario que es de suma importancia para todos los tipos de gráficos que vamos a estudiar: usualmente, el modo de saber exactamente los parámetros que podemos utilizar para una determinada instrucción gráfica es el habitual: utilizar la instrucción help() aplicada al comando que queramos utilizar. Sin embargo, dada la multitud de parámetros gráficos existentes y lo reiterado de su utilización en diversos comandos, existe un comando gráfico que contiene la información más completa acerca de casi todos los argumentos gráficos usualmente utilizados en los gráficos en R: se trata de la instrucción par(). De hecho, en muchos otros comandos gráficos se nos remite a aquel a la hora de estudiar los parámetros que este puede emplear. Resumiendo, si la ayuda de un comando gráfico no nos resulta totalmente satisfactoria, el modo más completo de consultar los parámetros gráficos de R en general, independientemente de para qué instrucción concreta los necesitemos, es teclear:
help(par)
R Commander Para calcular histogramas con R Commander conviene comenzar, por la apertura de una nueva ventana gráfica, a través del comando windows() 5. Seguidamente, hay que acudir a:
Gráficas → Histograma…
5 Hay que alertar de nuevo de que, si no creamos la nueva ventana gráfica, el gráfico construido con R Commander sobrescribirá el anterior gráfico que hayamos creado.
003_13 Aju 06
29/4/13
09:01
Página 170
170
CUADERNOS METODOLÓGICOS 48
Esto nos conduce al menú que aparece en la ilustración 6.1: ILUSTRACIÓN 6.1 CÁLCULO DE HISTOGRAMA
En el mismo, debemos elegir la variable de la cual deseamos calcular el histograma, así como el número de clases que deseamos que tenga y el tipo de escala del eje de ordenadas, que puede ser de cualquiera de los tres ya indicados con anterioridad. Nótese, sin embargo, que las opciones que podemos utilizar están mucho más limitadas que trabajando con código.
6.2.
Gráficos de barras
Un diagrama de barras o gráfico de barras es un modo de representar variables categóricas o factores mediante barras, en el cual la longitud de las barras es proporcional a los niveles o frecuencias que se representan. Se podría decir que los gráficos de barras son a los factores lo que los histogramas a las variables cuantitativas. En este caso, existe la ventaja adicional de que no hay nada que agrupar: cada valor o categoría del factor da lugar a una barra en el gráfico.
Código El comando básico para los gráficos de barras es barplot(). Para ilustrar su uso, supongamos que deseamos realizar un gráfico de los valores que toma la variable «Nivel de estudios del entrevistado» (ESTUDIOS) del repetidamente utilizado estudio 2815.
003_13 Aju 06
29/4/13
09:01
Página 171
EL PAQUETE ESTADÍSTICO R
171
Para después simplificar la sintaxis de los comandos gráficos en sí mismos, introduzcamos previamente información preliminar en algunos objetos auxiliares. te <- table(d$ESTUDIOS) ne <- ‘NIVEL DE ESTUDIOS’ lte <- length(te) lne <- levels(d$ESTUDIOS)
En realidad, las órdenes del cuadro anterior trabajan con instrucciones y sintaxis ya estudiadas y no sería necesario aclarar nada acerca de ellas. A modo de repaso, diremos, sin embargo, que la primera sentencia almacena en el objeto te las frecuencias marginales de la variable ESTUDIOS, que es la que pretendemos graficar. La segunda es, simplemente, una variable de tipo carácter que guarda, en el objeto ne, el título que le pondremos al gráfico. La tercera nos calcula el número de elementos de la tabla te, es decir, el número de categorías de respuesta de la variable ESTUDIOS. Por su parte, la cuarta nos almacena en el vector lne los literales de esas distintas categorías. Es decir, lne es también una variable de tipo carácter. Como ya hemos anticipado, para realizar gráficos de barras en R es preciso utilizar la instrucción barplot(). En el cuadro siguiente aparecen varios ejemplos de su utilización que comentaremos inmediatamente. barplot(te) barplot(te, space=0) barplot(te, space=0, cex.names=0.8)
• La forma más elemental de su uso aparece en la primera línea del cuadro. Si ejecutamos esa línea, nos encontraremos con el gráfico de barras por defecto, en el cual no hemos elegido ninguna característica relacionada con el formato del mismo. • El segundo gráfico elimina la separación entre barras que incluía por defecto el diagrama anterior y que alguien podría considerar no estética. Veamos el parámetro utilizado: ¡ space: regula el espacio entre barras. Si le otorgamos el valor 0, las barras figurarán pegadas, como se puede comprobar ejecutando la segunda línea. • En el tercer caso, se aborda otro posible problema. Supongamos que el número de barras es demasiado grande y que, debido a ello, no existe suficiente espacio para incluir debajo de cada barra el literal de las diferentes categorías. El modo más cómodo de solventarlo es a través del siguiente parámetro:
003_13 Aju 06
29/4/13
09:01
Página 172
172
CUADERNOS METODOLÓGICOS 48
¡ cex.names: fija el tamaño de letra de los nombres de las barras del gráfico. Este parámetro tiene un valor estándar de 1. En este caso, hemos reducido el valor hasta 0,8, con el único fin de comprobar su funcionamiento. Existen diversos parámetros gráficos que comienzan por cex y sirven para regular el tamaño de las letras de alguna parte del gráfico. En lo sucesivo nos encontraremos algún ejemplo más de su uso. Ahora bien, al igual que en el caso del histograma, podemos desear poner un título al gráfico, o que las barras sean de algún color, o incluir alguna etiqueta que identifique los ejes. Afortunadamente, el modo de hacerlo es el mismo que se empleó en el apartado anterior (parámetros main, col e ylab). Veamos cómo. barplot(te, space=0, main=ne, col=’lightblue3’, ylab=”Frecuencia”)
Toda la sintaxis del comando debería ya ser entendida sin dificultad. El gráfico 6.2 muestra los resultados obtenidos: GRÁFICO 6.2 GRÁFICO DE BARRAS NIVEL DE ESTUDIOS
003_13 Aju 06
29/4/13
09:01
Página 173
EL PAQUETE ESTADÍSTICO R
173
También se puede dibujar el gráfico coloreando cada barra de modo diferente e incluir una leyenda para identificar las categorías en función del color. Las líneas de código que siguen muestran cómo hacerlo: barplot(te, space=0, names.arg=’ ‘, main=ne, col=rainbow(lte), ylab=”Frecuencia”) legend(4.5, 1000, lne, fill=rainbow(lte))
En aras de la claridad, introduzcamos a continuación el resultado y luego analicemos el código a la luz de aquel. GRÁFICO 6.3 GRÁFICO DE BARRAS CON LEYENDA NIVEL DE ESTUDIOS
En la primera línea de código anterior muchos elementos ya son conocidos. Sin embargo, es necesario detallar algunas cosas: por una parte, debemos informar al programa de que no deseamos que aparezcan los nombres de las categorías junto a las barras. Eso se consigue con el parámetro: ¡ names.arg: si se desea que no figuren los nombres de las categorías al lado de las barras, para incluir estas en una leyenda, simplemente no se le asigna ningún valor (una cadena vacía de caracteres, que se expresa con dos comillas simples o dobles consecutivas).
003_13 Aju 06
29/4/13
174
09:01
Página 174
CUADERNOS METODOLÓGICOS 48
En cuanto al color, vemos que utilizamos una función que denominamos rainbow(), que toma como argumento el número de categorías de la tabla, calculadas anteriormente. En general, esta función aplicada a un número n: rainbow(n), nos da automáticamente como salida una paleta de n colores. De este modo, le indicamos al programa que los colores de las barras han de ser los de dicha paleta. El resto de parámetros son ya conocidos. En la segunda línea, introducimos el comando legend(), que se utiliza en los gráficos en general para introducir leyendas. Analicemos con detalle su sintaxis: • Los dos primeros parámetros indican la posición de la esquina superior izquierda del cuadro-leyenda según la escala del gráfico. Muchas veces es necesario un cierto tanteo para fijarla, prestando atención, como decimos, a la escala de cada eje para ese gráfico concreto. • A continuación se especifican los nombres que irán en la leyenda (en nuestro caso las categorías de respuesta almacenadas en el objeto lne). • Finalmente, el parámetro fill recoge los colores que hay que asignar a las categorías en la leyenda. Obviamente, conviene que dichos colores coincidan con los que se han asignado a las barras (en nuestro caso, rainbow(lte)). Si deseamos que el gráfico se componga de barras horizontales es necesario incluir en la instrucción barplot() el parámetro: ¡ horiz: toma el valor T o TRUE si deseamos que, efectivamente, el gráfico se componga de barras horizontales. Obsérvese que, en este caso, cambia el eje que nos interesa etiquetar, pasando a ser el horizontal, al que recordemos que se le asigna nombre con el parámetro xlab.
barplot(te, space=0, names.arg=’ ‘, main=ne, col=rainbow(lte), horiz=T, xlab=”Frecuencia”) legend(700, 6, lne, fill=rainbow(lte))
Por lo demás, no hay nada nuevo en el código utilizado. Solo puntualizar que, en la segunda instrucción, resulta necesario volver a ajustar el punto del gráfico en el que se ubicará el cuadro con la leyenda. En el gráfico 6.4 puede verse el resultado:
003_13 Aju 06
29/4/13
09:01
Página 175
EL PAQUETE ESTADÍSTICO R
175 GRÁFICO 6.4
GRÁFICO DE BARRAS HORIZONTALES CON LEYENDA NIVEL DE ESTUDIOS
Por último, comentar que existen también otras funciones para crear paletas de n colores como: heat.colors(n) terrain.colors(n) topo.colors(n) cm.colors(n) El lector puede probar a replicar los dos últimos gráficos utilizando estas paletas de colores. Para obtener madurez en el manejo de los distintos parámetros gráficos es también muy recomendable dibujar gráficos combinando distintas opciones de las aprendidas hasta aquí. R Commander Para realizar gráficos de barras con R Commander, una vez seleccionada la hoja de datos en la que se encuentre la variable a graficar, es necesario seguir la ruta: Gráficas → Gráfica de barras…
003_13 Aju 06
29/4/13
09:01
Página 176
176
CUADERNOS METODOLÓGICOS 48
Esto nos conduce al menú que aparece en la ilustración siguiente: ILUSTRACIÓN 6.2 CÁLCULO DE GRÁFICO DE BARRAS
En el mismo solo es necesario elegir la variable que deseamos dibujar y pulsar «Aceptar». Podemos probar su funcionamiento eligiendo, por ejemplo, la variable ESTATUS. El resultado tiene el aspecto elemental que se muestra a continuación. Como se puede apreciar en la ilustración 6.2, operando con R Commander no es posible, tampoco en este caso, modificar las opciones pertinentes para amoldar el formato del gráfico a nuestras pretensiones.
GRÁFICO 6.5 GRÁFICO DE BARRAS CON R COMMANDER
003_13 Aju 06
29/4/13
09:01
Página 177
EL PAQUETE ESTADÍSTICO R
6.3.
177
Gráficos de sectores
Un gráfico de sectores —o pie en terminología anglosajona— se genera dividiendo un círculo en tantos sectores como valores presenta una variable categórica o factor. La amplitud de cada sector ha de ser proporcional a la frecuencia que presenta la categoría de la variable a la que representa. Este tipo de gráficos es de uso muy frecuente, por lo que resulta muy interesante aprender su manejo desde R.
Código Para los gráficos de sectores, a veces denominados coloquialmente «tartas», el comando básico es pie(). Adiestrémonos en su uso utilizando, en esta ocasión, la variable «Recuerdo de voto» (RECUERDO), perteneciente a nuestra hoja de datos d. Definamos, en primer lugar, para el recuerdo de voto, las mismas variables auxiliares que en el apartado anterior creamos para el nivel de estudios:
tr <- table(d$RECUERDO) nr <- ‘RECUERDO DE VOTO’ ltr <- length(tr) lnr <- levels(d$RECUERDO)
El modo más austero de crear un gráfico de sectores se muestra en la primera línea de código del cuadro siguiente. Nótese que, como ocurría en el caso de los diagramas de barras, el argumento que toma la función pie() es la tabla de frecuencias de la variable a representar, en lugar de la variable en sí misma. Como se puede ver en el gráfico 6.6, los resultados son un tanto básicos, bien se evalúen por la cantidad de información mostrada como por los colores y medios descriptivos utilizados en general.
003_13 Aju 06
29/4/13
09:01
Página 178
178
CUADERNOS METODOLÓGICOS 48 GRÁFICO 6.6 GRÁFICO DE SECTORES
Podríamos desear, por ejemplo, que el gráfico tuviera un título y que la paleta de colores fuera más adecuada. La segunda línea muestra los medios para lograrlo, que ya nos deberían resultar conocidos. Ahora bien, resultaría muy razonable que en el gráfico aparecieran no solo los nombres de los sectores, sino el valor numérico que toman. Para ello hay que utilizar el parámetro siguiente: • labels: indica el contenido que han de llevar las etiquetas que acompañan a cada sector del gráfico. En este caso le hemos asignado unos valores compuestos por el «pegado» de dos vectores: el de nombres (lne) y el de frecuencias (te). El código es el expuesto en la tercera línea. Si queremos que las frecuencias aparezcan entre paréntesis, el único cambio que se precisa es que el paste() incluya a dichos paréntesis como elementos de tipo carácter, como se muestra en la última línea del cuadro que sigue.
pie(tr) pie(tr, main=nr, col=rainbow(ltr)) pie(tr, main=nr, labels=paste(lnr, tr), col=rainbow(ltr)) pie(tr, main=nr, labels=paste(lnr, ‘(‘, tr, ‘)’ ), col=rainbow(ltr))
003_13 Aju 06
29/4/13
09:01
Página 179
EL PAQUETE ESTADÍSTICO R
179
Obsérvese el resultado de este último caso: GRÁFICO 6.7 GRÁFICO DE SECTORES CON FRECUENCIAS ABSOLUTAS RECUERDO DE VOTO
Por supuesto, también para este tipo de gráficos es posible introducir una leyenda. El modo de hacerlo queda reflejado en el cuadro siguiente. Se puede comprobar que la analogía en el uso de la instrucción legend() con el caso de los diagramas de barras es prácticamente total. Únicamente cabe comentar que, en esta ocasión, mantenemos unas etiquetas en el gráfico, con las frecuencias absolutas de cada valor del factor, mientras que, para los diagramas de barras, no incluíamos ese dato. En cuanto a los primeros parámetros de legend(), que indican la posición del cuadro con la leyenda en el gráfico, dado que en este caso el gráfico no está basado en la escala de los ejes coordenados, es necesario fijarlos por mero tanteo. pie(tr, main=nr, labels=tr, col=rainbow(ltr)) legend(0.9, 1, lnr, fill=rainbow(ltr))
Si queremos que las frecuencias de las etiquetas aparezcan en porcentajes es necesario calcularlos (primera línea siguiente) y después incluirlos en el argumento labels, con el consabido paste(). Nótese que incluimos el signo % también. Por lo demás, no hay nuevos elementos que comentar.
003_13 Aju 06
29/4/13
09:01
Página 180
180
CUADERNOS METODOLÓGICOS 48
ptr <- round(tr*100/sum(tr), 1) pie(tr, labels=paste(ptr, ‘%’), main=nr, col=rainbow(ltr)) legend(0.9, 1, lnr, fill=rainbow(ltr))
Veamos el gráfico creado en este último caso: GRÁFICO 6.8 GRÁFICO DE SECTORES CON PORCENTAJES Y LEYENDA RECUERDO DE VOTO
A veces, puede ser deseable dibujar varios diagramas de sectores en el mismo gráfico, por ejemplo para ver los resultados obtenidos para una variable según los valores de una segunda. Veamos un ejemplo. Considérese la pregunta P28, cuyo enunciado literal es «¿Quién es la persona que aporta más ingresos al hogar?». Sus dos primeras categorías de respuesta y sus respectivos códigos son «La persona entrevistada» (01) y «Otra persona» (02). Imaginemos que deseamos dibujar en sendos diagramas de sectores la distribución por género de cada una de estas dos posibles respuestas. En primer lugar, es necesario indicar al programa que deseamos realizar un gráfico múltiple que conste, por ejemplo, de dos subgráficos situados en una fila y dos columnas. El comando pertinente ya ha sido estudiado en detalle. par(mfrow=c(1, 2))
003_13 Aju 06
29/4/13
09:01
Página 181
EL PAQUETE ESTADÍSTICO R
181
Seguidamente, es necesario realizar dos veces una serie de tareas: filtrar del conjunto de datos d el subconjunto correspondiente a la categoría de respuesta que nos interesa; calcular en una tabla la distribución por género (variable P24) de la hoja filtrada y, por último, dibujar el correspondiente diagrama de sectores, al que se le ha añadido un título y para el que se han elegido unos colores. En el siguiente cuadro se detalla la sintaxis necesaria: d2 <- subset(d, P28==’El entrevistado’) t2 <- table(d2$P24) pie(t2, main=’El entrevistado’, col=c(“green”, “lightblue”)) d2 <- subset(d, P28==’Otra persona’) t2 <- table(d2$P24) pie(t2, main=’Otra persona’, col=c(“green”, “lightblue”))
Si todo ha ido bien, el resultado ha de ser el que figura en el gráfico siguiente: GRÁFICO 6.9 GRÁFICO DE SECTORES MÚLTIPLE PERSONA QUE APORTA MÁS INGRESOS AL HOGAR
Obsérvese con qué nitidez se aprecia la diferencia por razón de género. R Commander Para realizar gráficos de sectores con R Commander, simplemente es necesario seguir la ruta: Gráficas → Gráfica de sectores…
003_13 Aju 06
29/4/13
09:01
Página 182
182
CUADERNOS METODOLÓGICOS 48
Esto nos conduce al menú que aparece en la siguiente ilustración. ILUSTRACIÓN 6.3 CÁLCULO DE GRÁFICO DE SECTORES
En el mismo solo es necesario elegir la variable que deseamos dibujar. Podemos probar su funcionamiento eligiendo, por ejemplo, la variable CONDICION. En el gráfico 6.10 figura el resultado. Nuevamente, resulta fácil observar que se pierden muchas posibilidades haciendo uso del R Commander para fines gráficos. Por ejemplo, no cabe con R Commander incluir una leyenda para el gráfico, ni los valores numéricos que reflejan las frecuencias o los porcentajes de cada categoría de respuesta. GRÁFICO 6.10 GRÁFICO DE SECTORES CON R COMMANDER CONDICIÓN
003_13 Aju 06
29/4/13
09:01
Página 183
EL PAQUETE ESTADÍSTICO R
6.4.
183
Diagramas de caja
El mejor modo de entender qué es un diagrama de caja o boxplot es observando el gráfico de uno. De este modo, incluyamos el gráfico 6.11, expliquemos su interpretación y, posteriormente, detallaremos el código que permite dibujarlo. GRÁFICO 6.11 DIAGRAMA DE CAJA
Dado un conjunto de observaciones de una variable cuantitativa, un diagrama de caja muestra el valor más bajo y el más alto de la distribución (salvo atípicos) con unos pequeños segmentos horizontales. Además, contiene en su interior una caja que comienza con el primer cuartil (punto más bajo) y termina con el tercero (punto más alto de la caja). Es decir, que dentro de la caja está el denominado recorrido intercuartílico de la distribución. Por su parte, dentro de la caja figura con un trazo más grueso el segundo cuartil o mediana de la distribución. Finalmente, los valores atípicos se representan por puntos que se hallan más allá de los pequeños segmentos horizontales que describíamos al principio (en este caso, no existen tales valores atípicos). El comando básico para la realización de diagramas de caja es boxplot(). Estudiemos su uso. Siguiendo con nuestra hoja de datos d, veamos cómo dibujar un diagrama de caja para la variable edad (P25).
003_13 Aju 06
29/4/13
09:01
Página 184
184
CUADERNOS METODOLÓGICOS 48
Filtremos, primeramente, del modo habitual, el valor 99 de dicha variable, correspondiente a la opción «No contesta»: d2 <- subset(d, P25!=99)
El modo más simple que ofrece R de dibujar el diagrama es el que figura en la primera línea del cuadro siguiente. En la segunda, se añade un título al gráfico, del modo ya conocido. Esta segunda instrucción es la que da lugar al gráfico 6.11. boxplot(d2$P25) boxplot(d2$P25, main=”EDAD DEL ENTREVISTADO”)
Como se puede apreciar en el gráfico anterior, este tipo de gráficos resulta sumamente útil para hacerse una idea de cómo se distribuye una variable cuantitativa. Sin embargo, una utilización aún más interesante de los mismos es la que se consigue cuando se dibujan los diagramas de caja para una variable en función de los valores de otra variable categórica o factor. Veamos algunos ejemplos:
boxplot(P25 ~ P27, data=d2, main=”RELIGIOSIDAD POR EDADES”, col=’grey’) boxplot(P25 ~ P27A, data=d2, main=”ASISTENCIA A OFICIOS RELIGIOSOS POR EDADES”, cex.axis=0.7)
La primera línea del cuadro anterior dibuja los diagramas de caja de la variable edad (P25), tal como ha quedado filtrada en d2, para las diferentes categorías de la variable de autodefinición en materia religiosa (P27). Al igual que en algunos contrastes presentados en el tema anterior, ambas variables van separadas por el símbolo ~. Como al introducir estas variables no indicamos la hoja de datos a la que pertenecen, es necesario incluir un parámetro adicional para explicitar al programa dicha hoja de datos, del modo también ya empleado en otras ocasiones. Finalmente, obsérvese que ponemos un título al gráfico y elegimos un color para las cajas, ambas tareas del modo habitual. El resultado puede verse en el gráfico 6.12, en el cual sí es posible observar los puntos que representan los valores atípicos que presentan algunas de las categorías del gráfico. En la segunda línea hacemos lo mismo pero respecto a la variable que mide la frecuencia de asistencia a oficios religiosos del entrevistado. En esta ocasión, tenemos que incorporar un parámetro adicional para informar al
003_13 Aju 06
29/4/13
09:01
Página 185
EL PAQUETE ESTADÍSTICO R
185
programa de que deseamos que los letreros de las categorías tengan un menor tamaño del habitual para que entren en el gráfico 6: • cex.axis: sirve para indicar el tamaño que han de tener los letreros situados en los ejes (los nombres de las categorías, en este caso). Como en el caso de cex.names, el valor por defecto es 1 y los valores menores hacen que los nombres de las categorías figuren en un tamaño más pequeño. Por lo demás, como se puede apreciar, la sintaxis es la misma que en el caso anterior, excepto en que prescindimos del color. GRÁFICO 6.12 DIAGRAMAS DE CAJA PARA VALORES DE UN FACTOR
R Commander La opción a elegir en este caso es: Gráficos → Diagrama de caja…
6 El lector puede verificar personalmente que, omitiendo el parámetro cex.axis, los nombres de las categorías no cabrían en el gráfico en todos los casos.
003_13 Aju 06
29/4/13
09:01
Página 186
186
CUADERNOS METODOLÓGICOS 48
Así, nos vemos conducidos a la ventana:
ILUSTRACIÓN 6.4 CÁLCULO DE DIAGRAMA DE CAJA
En la misma, hemos de seleccionar la variable cuantitativa que elegimos y, si lo deseamos, el desglose de esa variable por alguna otra, utilizando el botón «Gráfica por grupos…». En este último caso se abrirá la ventana que figura en la ilustración 6.5, en la que se puede elegir la variable grupo sin ninguna complicación. ILUSTRACIÓN 6.5 SELECCIÓN DE VARIABLE GRUPO O FACTOR
Para probar la funcionalidad de este tipo de gráficos en R Commander, podemos tomar como variable la edad (P25) y como variable para la gráfica por grupos el nivel de estudios (ESTUDIOS). El gráfico siguiente da cuenta del resultado en este caso.
003_13 Aju 06
29/4/13
09:01
Página 187
EL PAQUETE ESTADÍSTICO R
187 GRÁFICO 6.13
DIAGRAMA DE CAJA CON VARIABLE GRUPO CON R COMMANDER
Por el momento hemos introducido cuatro familias de gráficos básicos en R: el histograma, el gráfico de barras, el gráfico de sectores y el diagrama de caja. Existen otros tipos que también se pueden considerar de un nivel muy elemental y que procede, por tanto, estudiar en un curso de introducción al programa como este: los gráficos secuenciales, los diagramas de puntos, etc. Estos gráficos se presentarán un poco más adelante, en aras de conseguir que su presencia en este manual esté más contextualizada. De momento, como final del tema, se introducirá el modo elemental de representar gráficamente series temporales con R.
6.5.
Representación gráfica de series temporales: la función plot()
Si existe en R alguna función gráfica a la que se pueda calificar de versátil, esa es la función plot(). Permite tal diversidad de usos que, en este cuaderno, solo introduciremos algunos de ellos. Concretamente, en este punto, expondremos su utilidad como herramienta para la construcción de gráficos de una variable cuantitativa medida en diferentes momentos del tiempo o serie temporal. Más adelante, al abordar la regresión, ampliaremos el abanico de posibilidades que ofrece este comando.
003_13 Aju 06
29/4/13
188
09:01
Página 188
CUADERNOS METODOLÓGICOS 48
Analizaremos, pues, en este apartado, las herramientas más elementales con las que cuenta R para el tratamiento gráfico de series temporales. Como es habitual, además de las instrucciones básicas que estudiaremos aquí, existen muchas otras más avanzadas, no solo para el tratamiento gráfico sino para el análisis formal avanzado de la estructura de una serie temporal (modelización ARIMA, etc.). Como siempre, dichos comandos especializados no solo se encuentran en los paquetes básicos, sino que el programa cuenta con una buena cantidad de paquetes especializados en esta materia 7. Comencemos nuestra andadura en este campo importando dos conjuntos de datos. Disponemos en sendos ficheros de texto incluidos entre la documentación digital de este libro de dos de las series del CIS pertenecientes a la batería denominada «Indicadores del Barómetro» correspondientes a las variables «Valoración de la situación política actual» (indsiteco.txt) y «Valoración de la situación económica actual» (indsitpol.txt). Si abrimos los ficheros de texto, comprobaremos algunas características de su formato: por ejemplo, es rápido apreciar que la separación decimal se establece con la coma y que los valores ausentes (como la primera observación en indsitpol.txt) se denotan con un punto. Esas características hay que indicárselas al programa al importar los datos del modo que se estudió en su momento. eco <- read.table(‘indsiteco.txt’, dec=’,’) pol <- read.table(‘indsitpol.txt’, dec=’,’, na.strings=’.’)
La primera línea de código anterior importa la serie indsiteco.txt. Con el argumento dec indicamos al programa el carácter utilizado para la separación decimal. Como se puede apreciar al abrir el fichero de texto, esta serie no presenta valores ausentes, luego no es necesario especificar cómo se denotan en el fichero. La segunda línea es idéntica en estructura a la anterior, con la única diferencia de que aquí sí especificamos, a través del parámetro na.strings, cómo se denotan en el fichero de texto los valores ausentes. Si mostramos la clase de alguno de los objetos importados, se puede comprobar que son hojas de datos, como ocurre habitualmente al leer datos con R. Sin embargo, R posee una clase de objeto específica para series temporales que hace más cómodo el tratamiento de este tipo de datos: la clase ts. Veamos a continuación el modo de transformar las hojas de datos recién importadas en datos del tipo ts. La instrucción utilizada para ello se llama también ts(). 7 El lector interesado puede introducirse en las herramientas con que cuenta R para el tratamiento en profundidad de las series temporales consultando Cowpertwait y Metcalfe (2009) o, a un nivel algo más avanzado, Shumway y Stoffer (2010).
003_13 Aju 06
29/4/13
09:01
Página 189
EL PAQUETE ESTADÍSTICO R
189
class(eco) eco <- ts(eco, start=c(1996, 1), freq=11) pol <- ts(pol, start=c(1996, 1), freq=11) class(eco)
En su utilización más elemental, requiere los siguientes argumentos: • el nombre del objeto que queremos transformar en serie temporal. • start: marca la fecha de la primera observación. Si la serie tiene una frecuencia inferior a la anual, es necesario detallar el año y el mes, en ese orden, en un vector de dos elementos. Si la frecuencia de la serie es anual o superior, es suficiente con indicar el año. • freq: sirve para indicar la frecuencia o número de observaciones por año. Por ejemplo, en nuestro caso, las dos series correspondientes a los referidos indicadores del barómetro publicados por el CIS comienzan en enero de 1996 y tienen 11 observaciones por año. Así, las instrucciones de la segunda y tercera línea anteriores transforman las variables eco y pol en objetos de la clase ts. Como hemos hecho en otras ocasiones, antes de proceder al graficado de las series, vamos a definir, por comodidad, unas variables de tipo carácter con algunos títulos que resultarán adecuados para nuestros gráficos. Son las incluidas en el cuadro siguiente. titeco <- ‘SITUACIÓN ECONÓMICA ACTUAL’ titpol <- ‘SITUACIÓN POLÍTICA ACTUAL’ titecopol <- ‘SITUACIÓN POLÍTICA Y ECONÓMICA ACTUAL’
Supongamos que deseamos dibujar la trayectoria de las series almacenadas en eco y pol en la misma ventana gráfica, a través, por ejemplo, de un gráfico de dos filas y una columna. Hemos de recordar que el modo de crear una ventana gráfica de este tipo es: par(mfrow=c(2,1))
Dibujemos, por fin, la serie eco, utilizando, como decíamos, el comando plot(). Los parámetros que introducimos en el gráfico ya son conocidos. No son más que el título y las etiquetas con la información que ha de mostrar el eje horizontal. La primera línea de código siguiente muestra la situación.
003_13 Aju 06
29/4/13
09:01
Página 190
190
CUADERNOS METODOLÓGICOS 48
plot(eco, main=titeco, xlab=’Año’) abline(h=mean(eco), lty=2, col=4)
Ahora supongamos que deseamos agregar una línea horizontal al gráfico con la media de la serie, para conocer qué observaciones están por encima de la media y cuáles por debajo. El comando para añadir una línea vertical u horizontal a un gráfico ya existente es abline(), que presenta como primer y principal argumento una expresión del tipo h = k o v = k. En el primero de los casos indicamos al programa que ha de dibujar una línea horizontal al nivel de k y en el segundo lo mismo pero para una línea vertical. Además de este argumento básico, la orden puede incorporar otros argumentos gráficos de los que estamos acostumbrados a manejar. En este caso introducimos el siguiente: • lty: especifica qué tipo de trazo ha de tener la línea de la serie. Sus valores están codificados (1 = sólida; 2 = a rayas; 3 = a puntos, etc.) y se puede consultar la lista completa de códigos a través del polivalente help(par). En este caso, exigimos que la línea se componga de rayas. En cuanto al color, como ya se ha explicado, también existen algunos colores codificados con los números del 1 al 9. En este caso, elegimos el 4, correspondiente al color azul.
plot(pol, main=titpol, xlab=’Año’, ylab=’ ‘) abline(v=2000, lty=3, col=3)
Para graficar la otra serie (pol) el modo de proceder es el mismo. La sintaxis que figura en el cuadro precedente merece las siguientes consideraciones: la primera línea de código es análoga a la anterior, salvo porque incorpora una etiqueta vacía de contenido para el eje vertical. Es para evitar que salga la improcedente etiqueta de V1 que pone por defecto el programa, como se puede ver en la parte superior del gráfico 6.14. En cuanto a la segunda línea de código, únicamente decir que agrega una línea vertical en el año 2000, con el tipo de línea 3 (de puntos) y con el color 3 (verde). El resultado se puede apreciar en el gráfico 6.14.
003_13 Aju 06
29/4/13
09:01
Página 191
EL PAQUETE ESTADÍSTICO R
191 GRÁFICO 6.14
INDICADORES DE SITUACIÓN POLÍTICA Y ECONÓMICA
Veamos, a continuación, cómo incluir una leyenda en el gráfico de una serie temporal. Dibujaremos ahora en el mismo gráfico nuestras dos series pero, a diferencia de antes, en la misma ventana (no en dos subventanas del mismo gráfico). Para ello, comencemos por dibujar la serie eco (primera línea de código del cuadro inmediatamente posterior). En esta línea no hay ningún parámetro nuevo respecto a los gráficos ya dibujados en este tema. Para dibujar la segunda serie en el mismo gráfico (segunda línea de código), es necesario utilizar la instrucción lines(). Este comando es análogo a plot() pero sirve para añadir un gráfico dentro de una ventana gráfica en la que ya existe alguno. Obsérvese que, en este caso, solo hay que especificar la serie que queremos dibujar y el tipo de línea y su color, puesto que el título y las etiquetas de los ejes ya se han detallado en la instrucción anterior. plot(eco, main=titecopol, xlab=’Año’, ylab=’ ‘, col=2, lty=1) lines(pol , col=4, lty=2)
Introduzcamos ahora la leyenda a través del ya conocido comando legend(). Recordemos que sus dos primeros argumentos son las coordenadas
003_13 Aju 06
29/4/13
09:01
Página 192
192
CUADERNOS METODOLÓGICOS 48
de la esquina superior izquierda del cuadro de leyenda; a continuación vienen los nombres que han de tener las categorías de la leyenda y los tipos de línea y color que han de presentar. Finalmente, presentemos una opción gráfica que aún no hemos visto y que resulta muy útil en ocasiones. Si deseamos crear una cuadrícula o malla que sirva como fondo orientador del gráfico, el comando apropiado es grid() 8. legend(1996, 30, c(“Económica”,“Política”), lty=c(1,2), col=c(2,4)) grid()
No sería lícito concluir este capítulo sin reiterar la advertencia de que el mismo deja sin explorar la inmensa mayoría del vastísimo mundo de los gráficos con R. Una muestra de las múltiples posibilidades gráficas del programa puede hallarse sin más que utilizar el comando demo(graphics) y seguir las instrucciones del programa. También las referencias incluidas al principio de este capítulo pueden servir al lector interesado para ahondar en esta importante cuestión, tratada aquí, como exigen las dimensiones de este manual, de modo meramente introductorio.
6.6. 1.
Ejercicios Consideremos, en la hoja de datos d, la valoración de 0 a 10 de los líderes políticos «J.L.R. Zapatero», «M. Rajoy», «C. Lara» y «J.A.D. i Lleida» (variables P1301, P1302, P1303, P1304, respectivamente). Se pide realizar, utilizando código, un gráfico múltiple 2 × 2 con el histograma de estas cuatro variables. Para ello se recomienda seguir los siguientes pasos: i) ii)
iii)
Almacenar en un vector de tipo carácter llamado nombres el nombre de los cuatro líderes políticos. Antes de calcular el histograma para cada variable habrá que filtrar de la misma los valores que no se hallen entre 0 y 10. Realizar dicha tarea para las cuatro variables. Dibujar los cuatro histogramas, poniendo como títulos de los mismos los componentes del vector nombres. Recordemos que
8 Aunque no lo hayamos incluido en el tema, un argumento muy útil para este tipo de gráficos es lwd, que sirve para indicar el grosor que presentará en el gráfico una línea. Toma un valor por defecto de 1 y, para valores mayores, dibuja líneas más gruesas de lo normal, lo que puede ser adecuado en muchas ocasiones. El lector puede entender cómo funciona sin más que probar la instrucción plot(eco, lwd=3).
003_13 Aju 06
29/4/13
09:01
Página 193
EL PAQUETE ESTADÍSTICO R
193
el modo de referirnos a los elementos de un vector es siempre el mismo. Por ejemplo, en este caso la posición i-ésima del vector se alude cono nombres[i]. En cuanto a la utilización del color, R dispone, para el ya introducido argumento col, de una codificación elemental de nueve colores con los nueve primeros números naturales. Realizar los gráficos requeridos utilizando como colores los de códigos 2, 3, 4 y 5, respectivamente. 2.
3.
Repetir el ejercicio anterior pero incluyendo en el eje horizontal de cada gráfico la etiqueta «Escala de valoración» y en los respectivos ejes verticales la inscripción «Frecuencias absolutas». Considérese la variable que alude a la situación política actual (P4). Realizar con la misma las tareas que se señalan a continuación, todas ellas relacionadas con los diagramas de barras: i) ii) iii) iv)
4.
5.
6.
Dibujar un diagrama de barras de la variable, sin realizar ninguna especificación adicional con ningún parámetro gráfico. Repetir el gráfico pero evitando que exista espacio entre las barras. Realizar de nuevo el gráfico incluyendo un título, color y etiqueta en el eje vertical que se consideren adecuados. Finalmente, realizar el gráfico incluyendo una leyenda con las categorías de la variable.
Repetir las tareas explicadas en el apartado de gráficos de sectores utilizando como variable la denominada CONDICION, exceptuando las que se refieren a gráficos de sectores múltiples. Nota: si el cuadro de leyenda queda muy grande en el gráfico, se puede disminuir su tamaño con el parámetro cex, que toma un valor por defecto de 1. Considérese la pregunta P27, que alude a la religiosidad del entrevistado. Sus cuatro primeras categorías de respuesta y sus respectivos códigos son «Católico/a» (1), «Creyente de otra religión» (2), «No creyente» (3) y «Ateo» (4). Dibujar en un mismo gráfico cuatro diagramas de sectores con la distribución por género (variable P24) de cada una de estas cuatro posibles respuestas. ¿Se aprecian gráficamente diferencias por razón de género? Intentar repetir el ejercicio utilizando un bucle for. Realizar tres diagramas de cajas con R y R Commander, según corresponda, análogos a los presentados en la sección correspondiente para la variable edad (P25) en función de las preguntas cuyo código es P18 (Confianza en Mariano Rajoy), RECUERDO (Recuerdo de voto) y ESTUDIOS (Nivel de estudios del entrevistado). Para los casos en que se utilice código, intentar que todas las etiquetas de categoría figuren en los gráficos, utilizando el parámetro cex.axis.
003_13 Aju 06
29/4/13
194
09:01
Página 194
CUADERNOS METODOLÓGICOS 48
7.
El comando window() sirve para extraer una parte de una serie temporal. Es decir, para crear otra serie temporal formada por un trozo de la serie inicial. Su uso se ilustra en la línea de código siguiente, en la cual se crea la serie eco1 como subserie de eco. Dicha serie eco1 se compone de las observaciones de la primera que van desde febrero de 1997 hasta diciembre de 2000 (nótese que, como esta serie proviene de datos de los 11 barómetros anuales del CIS, el mes de diciembre corresponde a la observación 11 del año correspondiente).
eco1 <- window(eco, start=c(1997, 2), end=c(2000, 11))
Se pide: i)
ii)
Observar los valores de la nueva serie eco1, calcular cuántas observaciones la componen y comprobar que sigue teniendo la clase de serie temporal. Dibujar en un gráfico de una fila y dos columnas la serie original eco y la subserie eco1. Incluir en el gráfico las siguientes especificaciones: a. En la serie original ha de haber dos líneas verticales que marquen el comienzo y el final del trozo de serie que se ha extraído para eco1. Dibujar dichas líneas de color azul y con trazo a rayas (Nota: Se puede trabajar con fracciones del año. Por ejemplo, la segunda observación de 1997 se puede poner como 1997 + 1/11, dado que hay 11 observaciones por año. De igual modo, la observación de diciembre de 2000 se puede expresar como 2000 + 10/11, por razones análogas). b. El primer gráfico ha de titularse «SITUACIÓN ECONÓMICA ACTUAL», y el segundo, «SITUACIÓN ECONÓMICA ACTUAL: DETALLE». c. En el eje horizontal de ambos gráficos pondremos la etiqueta «Año». En el eje vertical no figurará inscripción alguna.
8.
Construir la serie pol1 como el intervalo temporal de la serie pol que va desde marzo de 2000 a marzo de 2004. Dibujar en un gráfico de una fila y dos columnas las series pol y pol1, con especificaciones análogas a las utilizadas en el ejercicio anterior. Obviamente, en este caso, las líneas verticales han de ir a la altura de los puntos en los que comienza y termina el intervalo de subserie extraída. Dibujar, finalmente, en un gráfico de dos filas y dos columnas las series de estos dos últimos ejercicios, incluyendo las especificaciones que se estime oportuno.
003_13 Aju 07
29/4/13
09:02
Página 195
7 Técnicas básicas de muestreo con R En este capítulo introduciremos el modo de extraer muestras de una población a través del programa R. En todo el tema supondremos, por simplicidad, que las unidades finales se escogen aleatoriamente. Dicho de otro modo, que la selección de las unidades finales de las que obtener la información se elige de modo previo a la recogida y bajo un procedimiento aleatorio 1. También nos servirá este tema para iniciarnos en el tratamiento de datos ponderados, que aparecen con frecuencia en los datos de encuesta y que, al estudiar el muestreo, hallan el marco más natural para su introducción. Aunque existen complejos paquetes de R especializados en muestreo 2, el comando básico para llevar a cabo estas tareas es sample(). Merece la pena detenerse un momento explicando su sintaxis básica. sample(x, size, replace = FALSE, prob = NULL)
En el cuadro superior figuran los argumentos que puede incluir esta instrucción. Analicemos cada uno de ellos:
1 Obviamente, la exposición detallada de los aspectos teóricos del muestreo sobrepasa de modo claro los objetivos de esta obra. No obstante, el presente capítulo incluye alguna explicación básica para permitir al lector no familiarizado seguir el texto sin demasiada dificultad. Una buena referencia en español para los interesados en las técnicas de muestreo puede hallarse en Azorín y Sánchez-Crespo (1994). Cabe también destacar a Cochran (1981), como obra clásica del muestreo. En Pérez (1999) puede hallarse un tratamiento muy exhaustivo del muestreo, con abundancia de ejercicios implementados en SAS y SPSS. 2 Quizá el paquete más completo y utilizado para el tratamiento del muestreo con R es survey (T. Lumley (2011) «survey: analysis of complex survey samples». R package version 3.26). El paquete presenta una gran versatilidad pero también una gran complejidad y excede con creces los objetivos de esta obra. El lector especialmente interesado en este paquete puede consultar Lumley (2010), la obra de referencia sobre el mismo. También en Falissard (2012) se muestra la utilidad del paquete survey para el tratamiento de datos de encuesta con R.
003_13 Aju 07
29/4/13
09:02
Página 196
196
CUADERNOS METODOLÓGICOS 48
• x: el primer parámetro indica los elementos entre los que se ha de elegir la muestra. Habitualmente, es un vector de números que están asignados a los distintos elementos poblacionales. • size: tamaño de la muestra que queremos obtener. El n de siempre en el muestreo. • replace: variable lógica que indica si el muestreo es con o sin reemplazamiento (en adelante, CR o SR, respectivamente). En las muestras que se extraen en el CIS el muestreo es SR, obviamente. Sin embargo, resulta muy habitual en otros ámbitos el realizar muestreos CR (por ejemplo en el método bootstrap, de uso tan frecuente en la actualidad). Este parámetro toma por defecto el valor FALSE o, dicho de otro modo, salvo que se indique lo contrario, extrae muestras SR. • prob: en el caso de que la probabilidad de elegir a los diferentes elementos de x no sea la misma siempre, es necesario introducir un vector que pondere dichas probabilidades. En este parámetro se incluiría, cuando proceda, tal vector. Veamos algún ejemplo básico de su uso. sample(1:15, 5) sample(1:15, 15, replace=T)
En la primera línea de código anterior se extrae una muestra de tamaño 5, SR, de una población de 15 elementos, ordenados del 1 al 15. En la segunda, se extrae una muestra de tamaño 15 de la misma población pero, en este caso, CR (muestra bootstrap). Para este apartado utilizaremos un fichero de datos denominado aragon.txt, que contiene una población formada por N = 60 individuos de las tres provincias aragonesas distribuidos del modo siguiente: Huesca: 15, Teruel: 9 y Zaragoza: 36 individuos. Podría tratarse de una investigación entre los profesionales aragoneses de cualquier pequeño gremio: jueces, catedráticos, violinistas profesionales, notarios, etc. a <- read.table(‘aragon.txt’, sep=”\t”) N <- nrow(a) names(a)
Si importamos este conjunto de datos en la hoja de datos a, del modo ya conocido que figura en la primera línea de código anterior, podremos apreciar, a través de las funciones elementales que figuran en las dos líneas siguientes que, efectivamente, nuestra hoja de datos tiene 60 filas y que cada elemento poblacional dispone de 5 variables:
003_13 Aju 07
29/4/13
09:02
Página 197
EL PAQUETE ESTADÍSTICO R
• • • • •
197
prov: Provincia. pobl: Tamaño poblacional de la provincia. sexo: 1=Hombre; 2=Mujer edad: Edad. ingr: Ingresos brutos anuales.
Definamos el vector rn en el que incluimos la numeración de los N = 60 elementos poblacionales y supongamos que el tamaño muestral que deseamos es n = 20. rn <- 1:N n <- 20
Por supuesto, en una situación real nosotros no dispondríamos de toda la información acerca de las variables en estudio para cada elemento poblacional, puesto que, si así fuera, no precisaríamos de la realización de ningún muestreo. Habitualmente careceremos de datos de alguna de las variables anteriores, por ejemplo, el nivel de ingresos anuales, que es de la que habría que obtener información entrevistando a los elementos poblacionales elegidos para la muestra. Supongamos, pues, que es ese el caso. Es decir, que pretendemos estimar, por ejemplo, los ingresos anuales medios de esta población. Como es bien sabido para todo aquel que se encuentre mínimamente familiarizado con las técnicas de muestreo, resulta frecuente agrupar la población en subpoblaciones lo más homogéneas posibles no solapadas denominadas «estratos». La estratificación, usada de modo conveniente, puede generar ganancia en precisión, así como un uso óptimo de los recursos disponibles. Los estratos pueden corresponder, por ejemplo, a áreas geográficas (CCAA, provincias, municipios, secciones censales, etc.). El acto de seleccionar el tamaño muestral que se utiliza en cada estrato es un aspecto importante del muestreo estratificado y se denomina «afijación». Seguidamente, mostraremos el modo de construir estimadores de la media de dicha variable ingresos a través de tres métodos: i)
El muestreo aleatorio simple SR, en el cual cada elemento poblacional tiene la misma posibilidad de formar parte de la muestra. ii) El muestreo aleatorio estratificado SR con afijación proporcional (el tamaño de la muestra en cada estrato es proporcional a la población del estrato), tomando como variable para la estratificación la provincia de pertenencia del elemento poblacional. iii) El muestreo aleatorio estratificado SR con afijación uniforme (el tamaño de la muestra es el mismo en todos los estratos, con independencia del tamaño poblacional de dichos estratos), tomando de nuevo como variable para la estratificación la provincia de pertenencia del elemento poblacional.
003_13 Aju 07
29/4/13
09:02
Página 198
198
CUADERNOS METODOLÓGICOS 48
Así pues, a partir de este momento, siempre nos referiremos a muestras SR, aunque no lo mencionemos de modo explícito. Desarrollemos, pues, cada uno de los tres métodos enumerados.
7.1.
Muestreo aleatorio simple sin reposición
Veamos el modo de extraer una muestra aleatoria simple de tamaño n = 20 de nuestra población, almacenada en la hoja de datos a. En primer lugar, extraemos aleatoriamente en i1, con el comando sample(), los 20 elementos que van a formar parte de la muestra. A continuación, ordenamos dichos elementos, por comodidad, y los seguimos guardando en el objeto i1. Seguidamente, creamos el objeto s1 en el que almacenamos la muestra escogida. Obsérvese que el modo de construir s1 se basa, simplemente en, utilizando la notación matricial, extraer de a las filas correspondientes a la selección muestral que tenemos almacenada en i1. Puede resultar útil en este punto visualizar los objetos i1 y s1.
i1 <- sample(rn, n) i1 <- sort(i1) s1 <- a[i1, ] m1 <- mean(s1$ingr)
Finalmente, la última línea del código anterior calcula la estimación de la media de la variable referida a los ingresos anuales ingr. Obviamente, a continuación sería necesario realizar cálculos que nos diesen idea del error que estamos cometiendo en el muestreo (varianzas de estimadores, etc.), sin embargo, no realizaremos aquí un análisis tan detallado, dado que, en el tratamiento real de datos de encuesta, la elección de las unidades finales de muestreo no suele ser aleatoria como aquí estamos suponiendo y, por tanto, no suele permitir estas estimaciones de los errores asociados al muestreo.
7.2.
Tratamiento de datos ponderados
Sea una variable xi medida en N individuos, es decir con i = 1,…N. Denominaremos ponderaciones asociadas a xi a un conjunto de valores wi, con i = 1,…N, que modifican el peso o la contribución que cada uno de los valores de la variable xi aporta al total.
003_13 Aju 07
29/4/13
09:02
Página 199
EL PAQUETE ESTADÍSTICO R
199
Las ponderaciones aparecen de modo natural en múltiples contextos: a la hora de otorgar diferente puntuación a las preguntas de un examen, cuando en las instituciones europeas se otorga a cada país un peso en su voto en función de factores como el número de habitantes y otros, cuando se asigna una partida presupuestaria a cada Comunidad Autónoma en función de su población, PIB u otra variable, etc. En realidad, el tratamiento de datos ponderados se reduce, básicamente, a trabajar utilizando, en lugar de la variable original xi, la variable que resulta de multiplicar xi por sus ponderaciones, es decir zi = xi wi. En la práctica, resulta muy frecuente encontrarse con ponderaciones por estratos, que corrigen los efectos derivados de que la afijación en dichos estratos no sea completamente proporcional a su peso (el de cada estrato) en la población. De este modo, el denominado muestreo estratificado con afijación uniforme —que estudiaremos en el apartado 7.4— resulta un marco natural privilegiado para introducir las ponderaciones en el tratamiento de datos de opinión ya que, como ya se ha comentado, en este tipo de muestreo, el tamaño de la muestra en todos los estratos es la misma, independientemente del tamaño de estos. Pero veamos antes por qué se hace innecesaria la presencia de ponderaciones cuando la afijación es proporcional, como ocurre en los barómetros de opinión y en otras muchas encuestas elaboradas por el CIS.
7.3.
Muestreo aleatorio estratificado SR con afijación proporcional
Supongamos que deseamos de nuevo obtener una muestra de a de tamaño n = 20 pero deseamos, en esta ocasión, que la extracción de la misma sea estratificada según la variable provincia. Elijamos como modo de afijación el proporcional, es decir el que toma los tamaños de las muestras en los estratos de modo proporcional al tamaño de los estratos respecto a la población. Dicho de otro modo, el que hace que se cumpla la identidad: Nh nh —– = —–, ∀h n N
(7.1)
donde nh y Nh son los tamaños muestrales y poblacionales del estrato h, respectivamente. Por supuesto, n y N representan, de modo respectivo, el tamaño muestral y poblacional total. Como hemos anticipado, este modo de afijación da lugar a muestras autoponderadas, es decir, en las cuales los coeficientes de ponderación de todos
003_13 Aju 07
28/6/13
11:05
Página 200
200
CUADERNOS METODOLÓGICOS 48
los elementos muestrales es 1. Esto es debido a que la ponderación en un estrato wh viene dada por la fórmula 7.2 que, obviamente, siempre toma el valor 1 cuando la afijación es proporcional, como es fácil comprobar sin más que aplicar la igualdad 7.1. Nh / N wh = ——— , ∀h nh / n
(7.2)
En realidad, el concepto de ponderación representado en la fórmula anterior no es universal. Se ha incluido en esta obra porque resulta claro e intuitivo y porque es el que utiliza el CIS cuando en sus encuestas aparecen datos ponderados. Las ponderaciones así definidas indican el peso que aporta cada elemento de la muestra para el total muestral. Dicho de otro modo, si un elemento tiene una ponderación de 1,45, significa que dicho elemento aporta un peso de 1,45 sobre el total de la muestra n. Según esta definición de las ponderaciones, la suma del valor de las mismas a lo largo de todos los elementos muestrales ha de ser igual a n, el tamaño muestral. Sin embargo, también resulta habitual tratar a las ponderaciones como «factores de elevación» de cada elemento muestral a la cantidad de unidades poblacionales que representa. En este caso, la fórmula 7.2 se reemplaza por wh = Nh / nh, ∀h. Según esta definición de las ponderaciones como factores de elevación, la suma de las ponderaciones a lo largo de todas las unidades muestrales da como resultado el tamaño poblacional N, como no es difícil demostrar 3. Volvamos ahora a la resolución del problema para el caso de afijación proporcional que, como ya se ha explicado, no precisa de ponderaciones. De este modo, introduzcamos, en primer lugar, un vector de tres elementos (Nh) (tantos como estratos) con los tamaños poblacionales de los estratos y otro (nh) con los tamaños muestrales para el caso de afijación proporcional, calculados estos últimos despejando nh en la fórmula 7.1, para h = 1, 2 y 3. Nh <- c(15, 9, 36) nh <- matrix(0, 3) nh <- n * Nh / N
Como podemos comprobar realizando los cálculos, los tamaños muestrales obtenidos (valores del vector nh) para las provincias de Huesca, Teruel y Zaragoza son (5, 3, 12), respectivamente. Comencemos por la muestra para la provincia de Huesca. Primeramente, filtremos las observaciones poblacionales que pertenecen a dicha provincia (hu) y almacenemos los números de observación correspondientes en rnhu. 3 El lector puede encontrar en Pérez (1999) demostraciones acerca del valor de la suma de ponderaciones a lo largo de los estratos.
003_13 Aju 07
29/4/13
09:02
Página 201
EL PAQUETE ESTADÍSTICO R
201
Visualizando el contenido de este último objeto, se puede comprobar que las observaciones pertenecientes a Huesca son las 15 primeras, es decir, las contenidas en las filas desde el número 1 al 15. Ahora bien, como se puede comprobar con la orden class(rnhu), dichos números de observación aparecen formando un vector de tipo carácter. Para transformarlo en numérico se puede aplicar la función as.numeric(), como en otras ocasiones. A continuación, extraemos una muestra de las observaciones contenidas en rnhu de tamaño nh[1], que es el tamaño del primer estrato. Finalmente, extraemos del modo habitual las filas de la hoja de datos a que han sido seleccionadas en ihu, almacenando nuestra muestra final para ese estrato en shu. hu <- subset(a, prov==’Huesca’) rnhu <- as.numeric(rownames(hu)) ihu <- sample(rnhu, nh[1]) shu <- a[ihu, ]
En los dos cuadros siguientes figuran las tareas exactamente análogas para el segundo y tercer estratos (Teruel y Zaragoza, respectivamente). te <- subset(a, prov==’Teruel’) rnte <- as.numeric(rownames(te)) ite <- sample(rnte, nh[2]) ste <- a[ite, ]
Obsérvese que, para Teruel, los números de observaciones a tener en cuenta son las comprendidas entre la 16 y la 24 (desde el número de observaciones de Huesca más uno hasta el número de observaciones de Huesca más el número de observaciones de Teruel). za <- subset(a, prov==’Zaragoza’) rnza <- as.numeric(rownames(za)) iza <- sample(rnza, nh[3]) sza <- a[iza, ]
Análogamente, para Zaragoza, los números de observaciones a tener en cuenta son las comprendidas entre la 25 y la 60 (36 últimas observaciones). st <- rbind(shu, ste, sza) mst <- mean(st$ingr)
003_13 Aju 07
29/4/13
202
09:02
Página 202
CUADERNOS METODOLÓGICOS 48
Así, tenemos las tres muestras extraídas de los respectivos estratos almacenadas en shu, ste y sza. Podemos unir las tres muestras, creando nuestra muestra final estratificada st utilizando el comando ya conocido rbind(), como se hace en la primera línea del cuadro anterior. El aspecto que presentan las muestras de cada estrato y la muestra conjunta figura a continuación 4:
4 Obviamente, si el lector replica los cálculos anteriores puede obtener otra muestra diferente, dada la aleatoriedad de la extracción.
003_13 Aju 07
29/4/13
09:02
Página 203
EL PAQUETE ESTADÍSTICO R
203
Finalmente, dado que la afijación proporcional produce muestras autoponderadas (en las que no es necesario aplicar coeficientes de ponderación), si deseamos calcular el estimador de la media de la variable ingresos, únicamente hemos de calcular la media aritmética de dicha variable en nuestra muestra, como se hace en la última línea de código anterior. El resultado queda almacenado en el objeto mst.
7.4.
Muestreo aleatorio estratificado SR, con afijación uniforme
Como ya se ha anticipado, la afijación uniforme se produce cuando tomamos un tamaño muestral igual en todos los estratos, independientemente del tamaño poblacional de estos. Supongamos que, para la hoja de datos a, elegimos un tamaño muestral por estrato de 6, es decir nh = 6, h = 1,2,3. Dicho de otro modo, extraeríamos 6 unidades en cada provincia de Aragón. De este modo, el tamaño muestral total asciende a n = 18 elementos. Denominemos nhu y nu a sendos objetos que representan a las cantidades nh y n, respectivamente. nhu <- 6 nu <- 3 * nhu
Pasemos ahora a calcular las ponderaciones. Recordemos que, en este caso, la muestra no es autoponderada y, por tanto, las ponderaciones de los estratos vendrán dadas por la fórmula 7.2. El vector de tres elementos w nos sirve para almacenar dichas ponderaciones. En este caso, presenta los valores (0,75, 0,45, 1,80), lo que significa que cada unidad muestral perteneciente a la provincia de (Huesca, Teruel, Zaragoza) pesará (0,75, 0,45, 1,80) sobre el total, respectivamente. Podemos comprobar que se cumple otra propiedad general que aún no hemos mencionado y que establece que la suma de las ponderaciones definidas por 7,2 es igual al número de estratos (en este caso, 3).
w <- matrix(0, 3) w <- (nu*Nh) / (nhu*N) sum(w)
Ahora bien, por comodidad, vamos a introducir una nueva columna en nuestra hoja de datos a en la que figuren las ponderaciones de cada elemento
003_13 Aju 07
29/4/13
09:02
Página 204
204
CUADERNOS METODOLÓGICOS 48
que, obviamente, variarán en función del estrato al que pertenezca. Para ello, en primer lugar, creemos una variable adicional en a, que llamaremos wst y que inicializamos con todos sus valores a 0. La forma de asignar las ponderaciones a esta variable en función del estrato resulta muy sencilla, puesto que tenemos los números de observación correspondientes a cada estrato almacenados en las variables rnhu, rnte y rnza. Las siguientes líneas de código implementan la acción.
a$wst <- 0 a$wst[rnhu] <- w[1] a$wst[rnte] <- w[2] a$wst[rnza] <- w[3]
Ahora que ya tenemos incorporadas nuestras ponderaciones a la hoja de datos a, dejémoslas de lado por un momento y pasemos a extraer las muestras de los estratos. Como se puede apreciar, aquí hay poca novedad con respecto a lo llevado a cabo en el apartado anterior, salvo que nos ahorramos algunos cálculos al disponer de los ya realizados para el caso de afijación proporcional. Las muestras quedan almacenadas en shu2, ste2 y sza2.
ihu2 <- sample(rnhu, nhu) shu2 <- a[ihu2, ]
ite2 <- sample(rnte, nhu) ste2 <- a[ite2, ]
iza2 <- sample(rnza, nhu) sza2 <- a[iza2, ]
Nótese que, como ya se ha anticipado, no es necesario calcular rnhu, rnte y rnza porque ya los tenemos del apartado anterior. Almacenemos la muestra total estratificada en st2, de modo análogo al utilizado en el caso de afijación proporcional.
st2 <- rbind(shu2, ste2, sza2)
003_13 Aju 07
29/4/13
09:02
Página 205
EL PAQUETE ESTADÍSTICO R
205
Finalmente, hemos de calcular el estimador de la media de la variable. Ahora bien, en esta ocasión, no podemos calcular la media muestral directamente, sino que hemos de tener en cuenta las ponderaciones. El medio más cómodo de calcular con R una media ponderada es a través del comando weighted.mean(), que toma dos argumentos. El primero es un vector que contiene la variable de la que hay que calcular la media y el segundo un vector con las ponderaciones a utilizar. Así pues, con esta instrucción, el cálculo del estimador de la media se reduce en esta ocasión a:
mst2 <- weighted.mean(st2$ingr, st2$wst)
Comparemos, finalmente, las tres estimaciones obtenidas a lo largo del capítulo con el verdadero valor de la variable en estudio (media del nivel de ingresos anuales), que almacenamos en mp.
mp <- mean(a$ingr) mp; m1; mst; mst2
El lector comprobará con sus propios cálculos el grado de precisión de las tres estimaciones que obtenga con las muestras aleatorias concretas que haya extraído en su caso.
7.5.
Ejercicios
1.
Realizar los cálculos análogos a los presentados para el caso de muestreo estratificado con afijación proporcional para el mismo conjunto de datos pero estratificando por la variable sexo. Supongamos que el tamaño muestral sigue siendo n = 20. Calcular, para ello, los tamaños poblacionales N1 y N2 en cada uno de los estratos.
2.
Realizar los cálculos análogos a los presentados para el caso de muestreo estratificado con afijación uniforme para el mismo conjunto de datos pero estratificando por la variable sexo. Supongamos, para ello, que el tamaño muestral sigue siendo n = 18.
003_13 Aju 07
29/4/13
09:02
Pรกgina 206
003_13 Aju 08
29/4/13
09:03
Página 207
8 Regresión y regresión logística con R Las técnicas de regresión son muy utilizadas en los análisis cuantitativos que se realizan en el ámbito de las ciencias sociales. El objetivo de estas herramientas es hallar relaciones existentes entre variables. En particular pretenden explicar el comportamiento de una variable (variable explicada) en función de otras (variables explicativas o regresores). Veremos en este apartado cómo estas técnicas pueden ser implementadas en R de un modo simple. En realidad, no introduciremos la regresión conceptualmente más allá de lo estrictamente elemental para el estudio del capítulo. El lector interesado puede iniciarse en los modelos de regresión en la excelente bibliografía disponible, de la que destacaremos los siguientes textos clásicos: Gujarati y Porter (2008) y Greene (2011). El que prefiera optar por una obra en español, una referencia perfectamente válida se encuentra en Peña (2002). Por su parte, el lector que desee consultar buenos textos con implementaciones en R de estas técnicas no tiene más que acudir a Everitt y Hothorn (2010), Fox y Weinberg (2011), Faraway (2006, 2009) o, incluso, Harrell (2001). Comencemos por importar un conjunto de datos que nos sirva de instrumento para el estudio de la regresión con R. En el capítulo 2 habíamos introducido el modo de trabajar con conjuntos de datos incluidos en los paquetes de R. Carguemos el paquete «car» y así podremos hacer uso de los conjuntos de datos que dicho paquete contiene. Ya sabemos también que, para tener disponible un nuevo paquete de R, es necesario instalarlo y después cargarlo mediante la instrucción: library(car)
A continuación, podemos listar todos los conjuntos de datos incluidos en los paquetes que tengamos cargados utilizando la sentencia: data() du <- Duncan
003_13 Aju 08
29/4/13
208
09:03
Página 208
CUADERNOS METODOLÓGICOS 48
Como se puede comprobar ejecutando la orden anterior, el paquete «car» contiene un conjunto de datos denominado Duncan 1. Importemos dicho conjunto en el objeto du. Nuestro conjunto de datos presenta el aspecto que se muestra en el cuadro siguiente:
A continuación, podemos ver en detalle las variables incluidas en el conjunto Duncan con el uso del comando help(). 1 En Fox y Weisberg (2011) se analiza este conjunto de datos. Esta obra constituye además un interesante tratamiento de la regresión con ejemplos implementados en R. Sheather (2008) y Wright y London (2009) también implementan la regresión a través del paquete R.
003_13 Aju 08 27/6/13 17:32 Página 209
EL PAQUETE ESTADÍSTICO R
209
help(Duncan)
La ayuda nos permite obtener mucha información acerca del conjunto de datos que estamos manejando. Se trata de una hoja de datos compuesta por cuatro variables medidas en 45 observaciones. Los datos están asociados al año 1950. Cada observación corresponde a una profesión existente en Estados Unidos en aquel momento. Las cuatro variables medidas son las siguientes: • type: Tipo de ocupación. Variable tipo factor con los siguientes niveles: prof: professional and managerial (profesionales superiores y directivos); wc: white-collar (profesionales medios) y bc: blue-collar (trabajadores manuales). • income: Porcentaje de hombres en esa ocupación ganando 3.500 dólares o más en 1950. • education: Porcentaje de hombres en cada ocupación titulados en la escuela secundaria. • prestige: Porcentaje de individuos que han sido considerados excelentes o buenos en prestigio en el estudio de ocupaciones de NORC (Universidad de Chicago). Para aproximarnos al mundo de la regresión, resulta útil comenzar estudiando el modo de calcular la correlación entre dos variables. Utilicemos a continuación este conjunto de datos para mostrar cómo proceder para ello tanto a través de código como de R Commander.
8.1.
Correlación
Como es bien sabido, el coeficiente de correlación lineal entre dos variables X e Y es el cociente entre la covarianza de ambas y el producto de sus desviaciones típicas. Formalmente:
σXY ρ = ——— σX σY
(8.1)
El coeficiente de correlación lineal tiene el signo de la covarianza y toma valores entre –1 y 1. A veces se trabaja con su cuadrado, cuyo rango de valores oscila entre 0 y 1. Los valores absolutos más próximos a 1 indican un elevado grado de correlación entre ambas variables, ya sea directa (signo positivo) o inversa (signo negativo). Introduzcamos el modo de calcular el coeficiente de correlación con R.
003_13 Aju 08
29/4/13
09:03
Página 210
210
CUADERNOS METODOLÓGICOS 48
Código La instrucción adecuada para el cálculo del coeficiente de correlación lineal mediante código es cor(). Mostremos cómo se usa utilizando la hoja de datos du, que recordemos que contiene la información incluida en el conjunto de datos Duncan. De las dos líneas de código siguientes, la primera calcula la correlación entre las variables income y education. La segunda nos proporciona la matriz de correlaciones entre todos los pares de variables cuantitativas de que disponemos, es decir, entre las variables 2, 3 y 4. En la propia matriz figuran los nombres de las variables, lo que permite una rápida lectura de resultados. Obviamente, la correlación de una variable consigo misma siempre es 1, razón por la cual la diagonal principal de una matriz de correlaciones de este tipo siempre está compuesta de unos. cor(du$income, du$education) cor(du[, 2:4])
Ahora bien, además del coeficiente de correlación en sí mismo, también podemos desear obtener, mediante algún test, información acerca del grado de relevancia que indica un determinado nivel de correlación. A esos fines se presta el comando cor.test(). Esta función realiza pruebas de correlación en los que la hipótesis nula H0 supone que no existe correlación entre las variables que toma como argumentos. La hipótesis alternativa conjetura que existe dicha correlación o, dicho de otro modo, que el coeficiente de correlación toma un valor significativamente distinto de cero. El estadístico resultante es una t de Student. Si obtenemos un valor de dicho estadístico altamente improbable, habremos de concluir que no es cierta la hipótesis nula y que, por tanto, sí que existe un grado de correlación digno de tener en cuenta entre las variables. La sintaxis de esta instrucción es análoga a la de cor() y figura en el siguiente cuadro: cor.test(du$income, du$education)
Como se puede ver en el próximo cuadro, la salida del test nos informa de que el valor del estadístico es t = 6,8928. Dicho valor presenta una probabilidad bajísima para una t-Student por lo que habrá que rechazar H0 y considerar que realmente sí que existe un grado de correlación entre ambas variables suficiente para ser tenido en cuenta. Este resultado es coherente con la percepción generalizada a priori de que el nivel educativo está correlacionado con el nivel de ingresos.
003_13 Aju 08
29/4/13
09:03
Página 211
EL PAQUETE ESTADÍSTICO R
211
Pearson’s product-moment correlation data: du$income and du$education t = 6.8928, df = 43, p-value = 1.84e-08 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0.5473916 0.8395088 sample estimates: cor 0.7245124
Por otra parte, la salida del test también nos informa del grado de correlación existente (0,7245), que ya habíamos calculado con anterioridad. En este caso, este mero dato ya nos hace sabedores de que existe una fuerte correlación entre las variables. Cuando se expuso el tratamiento gráfico con R, se advirtió de que el estudio de algunos de los tipos de gráficos se vería aplazado en aras de que estos aparecieran en el libro en el contexto más adecuado. A ese fin, cabe ahora reintroducir 2 el comando gráfico por excelencia: la función plot(). Esta instrucción ofrece múltiples funcionalidades, como ya se ha comentado, entre las que se encuentra la posibilidad de dibujar diagramas de dispersión entre dos variables. Estos diagramas no son más que gráficos cartesianos en los que una nube de puntos representa los valores de las dos variables en estudio para los valores que tenemos en la muestra. Estas nubes de puntos resultan muy útiles para hacerse una idea del grado de correlación entre dos variables. Veamos cómo dibujar de modo muy simple, a través de la función plot(), la nube de puntos correspondiente a las variables de nuestra hoja de datos income y education. plot(du$income, du$education)
Ahora bien, si deseamos visualizar de un plumazo el grado de correlación existente entre diversos pares de variables, R dispone también de una función gráfica muy útil para tal fin. Se trata del comando pairs(). Ilustremos a continuación su uso. pairs(du[ , 2:4])
2 En realidad esta orden ya ha sido utilizada en el capítulo 6 para la representación gráfica de series temporales. En este capítulo se muestran otros posibles usos del comando plot().
003_13 Aju 08
29/4/13
09:03
Página 212
212
CUADERNOS METODOLÓGICOS 48
El código de la línea anterior dibuja un gráfico con los diagramas de dispersión entre los pares de variables de du que se indica, es decir, entre las variables desde la segunda a la cuarta (income, education y prestige). El resultado figura en el gráfico 8.1: GRÁFICO 8.1 DIAGRAMAS DE DISPERSIÓN
En el mismo se puede apreciar de modo rápido cómo las correlaciones entre todos los pares de variables son realmente elevadas en este caso. En realidad, cada uno de los subgráficos del gráfico 8.1 no es más que una muestra del tipo de gráfico que se obtiene con la utilización recién referida del comando plot().
R Commander Para calcular una matriz de correlaciones con R Commander, la ruta de menús a seguir es: Estadísticos → Resúmenes → Matriz de correlaciones…
003_13 Aju 08
29/4/13
09:03
Página 213
EL PAQUETE ESTADÍSTICO R
213
Así, seremos conducidos a la siguiente pantalla: ILUSTRACIÓN 8.1 CÁLCULO DE MATRIZ DE CORRELACIONES
En ella hay que elegir las variables que deseamos que aparezcan en la matriz de correlaciones y el tipo de coeficiente de correlación utilizado. El habitual es el de Pearson, que ya figura por defecto. Una vez decididas las variables y el tipo de matriz que deseamos, resulta suficiente con pulsar «Aceptar» para obtener el resultado. Si lo que deseamos es calcular el test de correlación entre dos variables, entonces el modo de proceder es el indicado a continuación: Estadísticos → Resúmenes → Test de correlación…
Esto nos conduce a una ventana como la que sigue: ILUSTRACIÓN 8.2 TEST DE CORRELACIONES
003_13 Aju 08
29/4/13
09:03
Página 214
214
CUADERNOS METODOLÓGICOS 48
En la misma hemos de seleccionar las dos variables a las que aplicar el test de correlación. Salvo que se le indique otra cosa al programa, se utiliza el coeficiente de correlación de Pearson y la hipótesis alternativa es bilateral, es decir que dicha hipótesis contempla correlaciones positivas y negativas como alternativa a la hipótesis nula de no correlación. También esta opción se puede cambiar si se desea. Sin más que pulsar «Aceptar», obtenemos el resultado del test. Si nuestra intención es graficar diagramas de dispersión a través de R Commander, debemos seguir el menú: Gráficas → Diagrama de dispersión…
En la pantalla a la que somos conducidos, hemos de seleccionar las dos variables a dibujar y si deseamos realizar la gráfica más sencilla —similar a la que hemos creado mediante código— es necesario desactivar las cuatro opciones que figuran activadas 3. Finalmente, pulsamos «Aceptar». ILUSTRACIÓN 8.3 CÁLCULO DE DIAGRAMA DE DISPERSIÓN
3 El estudio del amplio abanico de opciones que el programa ofrece para el tratamiento de diagramas y matrices de diagramas de dispersión excede con creces los objetivos de esta obra.
003_13 Aju 08
29/4/13
09:03
Página 215
EL PAQUETE ESTADÍSTICO R
215
Para la visualización de matrices con los diagramas de dispersión a través de R Commander, hay que seguir el menú: Gráficas → Matriz de diagramas de dispersión…
En la pantalla que aparece hemos de seleccionar las tres variables que se nos ofrecen en este caso (solo disponemos en nuestra hoja de datos de tres variables cuantitativas) y si deseamos crear la matriz más sencilla —la misma que hemos creado mediante código— es necesario desactivar las dos opciones de líneas que figuran activadas y marcar la opción «Nada (vacío)» en la lista de opciones en las que se nos ofrecen diferentes posibilidades para la diagonal. Llegados a este punto, ya podemos pulsar «Aceptar», momento en el que obtendremos de nuevo el gráfico 8.1, salvo por el orden de las filas y las columnas.
ILUSTRACIÓN 8.4 CÁLCULO DE MATRIZ DE DIAGRAMAS DE DISPERSIÓN
003_13 Aju 08
29/4/13
09:03
Página 216
216
CUADERNOS METODOLÓGICOS 48
8.2.
Regresión lineal
A grandes rasgos, la regresión lineal busca explicar una variable dependiente a través de una función lineal de una o varias variables independientes (regresores o variables explicativas). La ecuación general de un modelo de regresión lineal es: yi = β0 + β1 x1i + β2 x2i + … + βp xpi + ei, i = 1, … L,
(8.2)
donde L es el número de observaciones incluidas en la regresión, y es la variable dependiente, x1, x2,…, xp, son los regresores o variables explicativas, βi son los coeficientes de la regresión y ei es una variable aleatoria que representa las perturbaciones del modelo. En otras palabras, ei es un término de error que incluye la parte de la variable dependiente que el modelo no es capaz de explicar. Entre las hipótesis que habitualmente se exigen al modelo de regresión lineal, son especialmente relevantes las siguientes acerca de las perturbaciones ei 4: • Esperanza nula E(ei) = 0,
∀i = 1, …, L
(8.3)
• Varianza constante u homocedasticidad 5 Var(ei) = σ 2,
∀i = 1, …, L
(8.4)
• Ausencia de autocorrelación entre perturbaciones Cov(ei, ej) = 0,
∀i ≠ j
(8.5)
• Normalidad ei ~ N (0, σ ),
∀i = 1, …, L
(8.6)
4 Como es habitual en este manual, únicamente se introducen los conceptos estadísticos a tratar con R al nivel mínimo para poder abordar la materia expuesta. Un análisis en más profundidad de las condiciones que han de cumplir los diferentes elementos del modelo, en particular las perturbaciones ei, puede hallarse en prácticamente cualquier manual que aborde el problema de regresión lineal. Véanse, por ejemplo, Peña (2002) o Gujarati y Porter (2008). También en Escobar, Fernández y Bernardi (2009) se introduce con detalle el planteamiento del modelo de regresión lineal. Nuevamente, cabe incluir también los textos con implementaciones en R de estas técnicas como Everitt y Hothorn (2010), Fox y Weinberg (2011), Faraway (2006, 2009) o, incluso, Harrell (2001). 5 O, lo que es lo mismo, ausencia de heterocedasticidad o varianza variable.
003_13 Aju 08
29/4/13
09:03
Página 217
EL PAQUETE ESTADÍSTICO R
217
A las estimaciones que se obtienen en el modelo de las perturbaciones se las denomina residuos. Estos residuos se utilizan normalmente para realizar la denominada «diagnosis del modelo» que consiste, fundamentalmente, en verificar, a través del análisis de los residuos, que se cumplen las hipótesis 8.3, 8.4, 8.5 y 8.6 que hemos establecido para las perturbaciones. Sigamos con nuestro conjunto de datos Duncan. Con él vamos a introducir el modo de realizar regresiones lineales con R y R Commander. Por ejemplo, cabe preguntarse si el prestigio social depende o no del nivel educativo y del nivel de ingresos. Una regresión múltiple puede ayudarnos a encontrar la respuesta a esta cuestión. En la misma, la variable dependiente será el prestigio social (y = prestige), mientras que jugarán el papel de regresores el nivel de educativo y de ingresos (x1 = education y x2 = income). El número de observaciones L es, en este caso, igual a 45.
Código El comando básico para estimar modelos de regresión en R es lm(). Su sintaxis más simple figura en el ejemplo que sigue. La primera línea de código almacena en el objeto rg1 los resultados de la regresión descrita en el párrafo anterior. En cuanto a los argumentos, comentar que es necesario poner en primer lugar la variable dependiente (prestige) y a continuación el símbolo ~. Seguidamente van los regresores, unidos por el signo +. Finalmente, se señala al programa la hoja de datos con la que estamos trabajando, del modo ya estudiado en otras ocasiones a lo largo de este manual.
rg1 <- lm(prestige ~ education + income, data=du) summary(rg1)
Los resultados de la regresión se pueden visualizar a través del comando summary(), como se puede apreciar ejecutando la segunda línea de código del cuadro anterior. Si todo ha ido bien, esta instrucción nos ha de dar como salida un conjunto de información como el que figura en el siguiente cuadro:
Call: lm(formula = prestige ~ education + income, data = du) Residuals: Min 1Q Median -29.5380 -6.4174
3Q Max 0.6546 6.6051
34.6412
003_13 Aju 08
29/4/13
218
09:03
Página 218
CUADERNOS METODOLÓGICOS 48
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept)-6.06466 4.27194 -1.420 0.163 education 0.54583 0.09825 5.555 1.73e-06 *** income 0.59873 0.11967 5.003 1.05e-05 *** — Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ‘ 1 Residual standard error: 13.37 on 42 degrees of freedom Multiple R-squared: 0.8282, Adjusted R-squared: 0.82 F-statistic: 101.2 on 2 and 42 DF, p-value: < 2.2e-16
Analicemos los elementos más relevantes de la salida anterior. Obsérvese que la estimación de los coeficientes incluye (por columnas) el valor de esos coeficientes (Estimate), la desviación típica de la estimación (Std. Error), el valor de la t de Student asociada (t value) y la probabilidad de que la verdadera t de Student tome ese valor (Pr(>|t|) ). También podemos observar que el ajuste del modelo es muy bueno, porque el valor de R2 es muy alto (0,828). Es decir, parece, a primera vista, que los regresores explican bien el comportamiento de la variable dependiente. Pero este hecho queda confirmado cuando observamos los resultados de la estimación de los parámetros del modelo. Siguiendo con la notación anterior, dichos parámetros toman los valores siguientes (errores estándar entre paréntesis):
βˆ0 = –6,06(4,27), βˆ1 = 0,54(0,09), βˆ2 = 0,59(0,11)
(8.7)
Sin embargo, lo que resulta más relevante es que los parámetros correspondientes a los regresores x1 y x2 resultan altamente significativos, como lo prueba el elevado valor que toma el estadístico t de Student para ambos (5,555 y 5,003, respectivamente) 6. De manera que se puede concluir que tanto el nivel educacional como el nivel de ingresos son variables que contribuyen de modo serio a explicar el prestigio social (como, por cierto, no resulta difícil intuir a priori). Existen muchos métodos para visualizar cómo han ido las cosas en una regresión. Uno bastante básico es dibujar los valores observados y estimados de la variable dependiente, así como los residuos o valores estimados para los términos de error. Realicemos un gráfico al efecto. En primer lugar, creamos un objeto gráfico y definimos el número de subgráficos que tendrá. En este caso, realizaremos un gráfico para los valo6 Por supuesto, otra forma de ver que los parámetros son significativos es a través de los pvalores asociados a los mismos.
003_13 Aju 08
29/4/13
09:03
Página 219
EL PAQUETE ESTADÍSTICO R
219
res observados y estimados y otro para los residuos, ambos en la misma columna. par(mfrow=c(2,1))
Para dibujar los valores observados de la variable prestige, utilizaremos de nuevo el comando plot(). En la segunda instrucción del cuadro siguiente podemos ver los diferentes argumentos utilizados: en primer lugar, el vector de datos que queremos graficar; seguidamente, la etiqueta principal del gráfico (previamente introducida en la primera instrucción) y la del eje horizontal. Lo único nuevo es el siguiente parámetro: • type: indica si las observaciones irán representadas por puntos (type=‘p’), líneas (type=‘l’) o ambas (type=‘b’). En este caso, elegimos para type la opción «ambas». Finalmente, ordenamos que las observaciones sean dibujadas con el color de código 1 (negro). En el mismo gráfico, sobreponemos los valores estimados, a los que se accede a través del comando fitted() aplicado a nuestro objeto estimado rg1. Como siempre, puede consultarse el significado de todas las extensiones de la salida producida en la regresión utilizando help(lm). Para dibujar otra variable en un gráfico ya existente, utilizamos la orden lines(). Este comando funciona exactamente igual que plot(), con los mismos parámetros y su única particularidad es que, para ser utilizado, ha de existir un gráfico previamente abierto. et <- ‘PRESTIGIO: VALORES OBSERVADOS (NEGRO) Y ESTIMADOS (ROJO)’ plot(du$prestige, main=et, xlab=’Observación’, type=’b’, col=1) lines(fitted(rg1), type=”b”, col=2)
Pasemos al segundo subgráfico. El vector con los residuos (valores observados menos valores estimados) se alude a través del comando residuals(), nuevamente aplicado a rg1. Por lo demás, todo lo incluido en el comando plot() del cuadro siguiente es de sobra conocido. En estos gráficos de residuos resulta útil incluir la línea horizontal que corta al 0 para ver con claridad el signo de cada uno de los residuos (recuérdese que los residuos deben de tener media nula). Para ello se puede utilizar el sencillo comando abline() que, como ya se ha indicado, presenta como primer argumento una expresión del tipo «h = k» o «v = k». En el primero de
003_13 Aju 08
29/4/13
09:03
Página 220
220
CUADERNOS METODOLÓGICOS 48
los casos indicamos al programa que ha de dibujar una línea horizontal al nivel de k y en el segundo lo mismo pero para una línea vertical. Además, la orden puede incorporar otros argumentos gráficos de los que estamos acostumbrados a manejar. En este caso, se le ha incluido un color.
plot(residuals(rg1), main=’RESIDUOS’, xlab=’Observación’, type=’b’) abline(h=0, col=3)
El resultado final figura a continuación: GRÁFICO 8.2 VALORES OBSERVADOS, ESTIMADOS Y RESIDUOS PRESTIGIO: VALORES OBSERVADOS (NEGRO) Y ESTIMADOS (AZUL)
Cabe hacer notar que los residuos rˆi no son más que la diferencia entre los valores observados para la variable dependiente (en negro en el gráfico superior) y los valores estimados para la misma (en rojo en el mismo gráfico). Formalmente: rˆi = yi – yˆ i
(8.8)
003_13 Aju 08
29/4/13
09:03
Página 221
EL PAQUETE ESTADÍSTICO R
221
Es por ello que, como se puede apreciar en el gráfico 8.2, toman valores absolutos mayores (subgráfico inferior) cuanto mayores sean las diferencias entre dichos valores observados y estimados (subgráfico superior). Veamos, finalmente, un modo básico de realizar la diagnosis del modelo (hipótesis de 8.3 a 8.6) a través de los residuos obtenidos para el mismo. • Respecto a la hipótesis de media nula, el subgráfico inferior 8.2 permite inferir que las perturbaciones parecen cumplir razonablemente esta suposición. • Algo similar puede afirmarse acerca de la hipótesis de varianza constante, si bien en este caso la evidencia proporcionada por el gráfico no es tan rotunda. Si deseamos en este caso una prueba más formal, se puede acudir al contraste de heterocedasticidad de Breusch-Pagan, implementado en R a través de la función bptest(), perteneciente al paquete de R «lmtest» 7. Este test parte de la hipótesis nula de homocedasticidad o varianza constante en las perturbaciones y la enfrenta a la alternativa de varianza variable. Veamos su sintaxis más elemental: bptest(rg1)
Como se puede apreciar, simplemente se trata de aplicar la función a nuestro modelo de regresión rg1.
El resultado del test muestra que el estadístico de Breusch-Pagan vale 0,57, con un p-valor de 0,75, lo que exige aceptar rotundamente la hipótesis nula de varianza constante. • En cuanto a la ausencia de autocorrelación en las perturbaciones, cabe comentar que existen diversas pruebas de hipótesis para evaluar, a través de los residuos, el grado de cumplimiento de esta hipótesis. Uno de los más habituales es el test de Durbin-Watson, que parte de la hipóte-
7 Achim Zeileis, Torsten Hothorn (2002). Diagnostic Checking in Regression Relationships. R News 2(3), 7-10. URL http://CRAN.R-project.org/doc/Rnews/.
003_13 Aju 08
29/4/13
09:03
Página 222
222
CUADERNOS METODOLÓGICOS 48
sis nula de ausencia de autocorrelación hasta un cierto nivel y construye un estadístico que, bajo la misma, se distribuye de modo conocido. En particular, cabe señalar que dicho estadístico presenta un rango de valores entre 0 y 4. Concretamente, toma el valor de 2 en caso de ausencia de autocorrelación en los residuos y los valores extremos 0 y 4 en presencia de una correlación total positiva o negativa, respectivamente. En el cuadro siguiente se puede apreciar la sintaxis elemental de la función de R durbinWatsonTest(), que pertenece al paquete «car» y calcula este estadístico. Obsérvese que solo hemos incluido en la misma dos argumentos: ¡ El nombre del modelo de regresión rg1. ¡ max.lag: indica el máximo nivel de autocorrelación para el que se realiza la prueba (por ejemplo, si dicho valor es 4, se comparan las autocorrelaciones de órdenes 1, 2, 3 y 4, realizando un test de Durbin-Watson para cada caso). durbinWatsonTest(rg1, max.lag=4)
El resultado puede apreciarse en el cuadro que sigue. Como se puede comprobar, el estadístico toma valores relativamente próximos a 2 para todos los casos, con lo que no cabe rechazar la hipótesis nula de ausencia de autocorrelación. El único caso dudoso es el valor presentado para el primer nivel que, aun así, presenta un p-valor casi asumible.
• La normalidad de las perturbaciones puede medirse en los residuos a través, por ejemplo, del contraste de normalidad de Shapiro-Wilk. Esta prueba parte de la hipótesis nula de normalidad y, a partir de la misma, construye un estadístico de distribución conocida. Se puede implementar en R con la función shapiro.test(). Esta instrucción se puede aplicar directamente al vector de datos del que deseamos verificar su normalidad, como se puede apreciar en el cuadro que sigue: shapiro.test(residuals(rg1))
003_13 Aju 08
29/4/13
09:03
Página 223
EL PAQUETE ESTADÍSTICO R
223
El resultado del test figura a continuación. Obsérvese que el estadístico de Shapiro-Wilk toma un valor W = 0,98, lo que arroja un p-valor que invita, sin lugar a dudas, a aceptar la hipótesis nula de normalidad.
Sin embargo, el lector debe saber que el test de Shapiro-Wilk suele utilizarse más cuando se dispone de muestras pequeñas. Existe otro contraste de normalidad más adecuado para los residuos de los modelos de regresión: el test de Jarque-Bera 8. Por su interés, incluimos también aquí un ejemplo de su uso. La instrucción jarque.bera.test() que presentamos a continuación pertenece al paquete «tseries» 9, de R. jarque.bera.test(residuals(rg1))
Bajo la hipótesis nula de normalidad, el estadístico de Jarque-Bera se distribuye como una X2 con dos grados de libertad. Nuevamente, el pvalor del contraste permite sin problemas aceptar la hipótesis de normalidad. Existen otras pruebas y técnicas también útiles para la diagnosis o validación del modelo pero las aquí presentadas resultan más que suficientes para un tratamiento elemental. De hecho, hay que señalar, en honor a la verdad, que es frecuente en la práctica que los investigadores prescindan de la diagnosis del modelo, con la consiguiente falta de garantías acerca de los resultados arrojados por el mismo. 8 De hecho, este test fue concebido por sus creadores como una prueba de hipótesis para el análisis de la normalidad de los residuos en los modelos de regresión. 9 Adrian Trapletti and Kurt Hornik (2012). tseries: Time Series Analysis and Computational Finance. R package version 0.10-30.
003_13 Aju 08
29/4/13
09:03
Página 224
224
CUADERNOS METODOLÓGICOS 48
R Commander Si deseamos realizar una regresión lineal con R Commander hemos de seguir la siguiente ruta de opciones: Estadísticos → Ajuste de modelos → Regresión lineal…
Al ser conducidos a la ventana de la ilustración 8.5, debemos indicar cuál es nuestra variable explicada y cuál o cuáles son nuestras variables explicativas o regresores. A continuación, ya estamos listos para pulsar «Aceptar».
ILUSTRACIÓN 8.5 MODELO DE REGRESIÓN LINEAL SIMPLE O MÚLTIPLE
Si todo ha ido bien, nos hemos de encontrar con una salida como la obtenida a través de la utilización de código. En cuanto a las pruebas realizadas para la validación del modelo en el apartado anterior, cabe comentar que tanto el contraste de Breusch-Pagan como el de Durbin-Watson se pueden implementar a través de R Commander. Veamos el modo de hacerlo. Para realizar el test de Breusch-Pagan, una vez obtenido nuestro modelo y comprobado que figura como modelo activo en el centro de la parte superior de la pantalla de R Commander, es necesario seguir los menús: Modelos → Diagnósticos numéricos → Test de Breusch-Pagan para heterocedasticidad…
003_13 Aju 08
29/4/13
09:03
Página 225
EL PAQUETE ESTADÍSTICO R
225
Así, llegaremos a la ventana que muestra la ilustración 8.6:
ILUSTRACIÓN 8.6 TEST DE BREUSCH-PAGAN
Algunas opciones de las que se nos ofrecen son demasiado técnicas para el contenido de este manual. Simplemente señalar que hemos de especificar (a través de dobles clics) las variables explicativas o regresores que hemos utilizado en el modelo (en este caso, las variables income y education) y señalar las opciones «Estadístico del contraste studentizado» y «Variables explicativas». Con esta selección, el resultado del contraste ha de ser el mismo que el obtenido mediante código. Por su parte, si deseamos calcular el test de Durbin-Watson para comprobar si las perturbaciones tienen o no autocorrelación, hay que realizar la selección siguiente: Modelos → Diagnósticos numéricos → Test de Durbin-Watson para autocorrelación…
Al llegar a la ventana de la ilustración 8.7, hay que elegir el tipo de hipótesis alternativa. La opción que figura marcada (correlación positiva) es la que también hemos utilizado mediante código (por defecto). Así, obtendremos el mismo resultado que entonces, con la salvedad de que el resultado que nos ofrece el test es solo para la autocorrelación de primer nivel (la de una observación con la inmediatamente anterior), mientras que ejecutando la orden mediante código podíamos elegir el número de niveles que queríamos incluir en el contraste.
003_13 Aju 08
29/4/13
09:03
Página 226
226
CUADERNOS METODOLÓGICOS 48 ILUSTRACIÓN 8.7 TEST DE DURBIN-WATSON
Para terminar este apartado hay que señalar que los gráficos realizados, vía código, en el apartado anterior, no son susceptibles de réplica con R Commander 10.
8.3.
Regresión logística
En las ciencias sociales se trabaja a menudo con variables categóricas, que no encajan de modo adecuado en el modelo de regresión lineal que hemos estudiado en el apartado anterior. Para solventar este problema se acude a la regresión logística. Esta herramienta se basa, en su planteamiento más elemental, en analizar el grado de dependencia entre una variable dependiente o explicada de tipo dicotómico y una o varias variables explicativas o regresores. Su aplicación resulta de gran utilidad en la investigación cuantitativa en ciencias sociales, por la razón ya esgrimida. Como viene siendo habitual, únicamente introduciremos los conceptos esenciales para el desarrollo del capítulo. También hay que señalar que los modelos de regresión logística pueden extenderse para el caso de variables explicadas categóricas en general (no únicamente dicotómicas). El lector interesado en profundizar en el tema puede consultar Hilbe (2009), que además incluye ejemplos del uso de la regresión logística con R y Stata. De nuevo, procede incluir también los textos con implementaciones en R de estas técnicas como Everitt y Hothorn (2010), Fox y Weinberg (2011), Faraway (2006, 2009) y Harrell (2001). También en Dalgaard (2008) se trata la regresión logística de modo sencillo y claro.
10 Sin embargo, es cierto que el interfaz R Commander permite ciertos análisis gráficos de un modelo de regresión. Aunque no son objetivo de la presente obra, el lector interesado ha de saber que se puede acceder a los mismos siguiendo la ruta de opciones siguiente: Modelos → Gráficas.
003_13 Aju 08 27/6/13 18:47 Página 227
EL PAQUETE ESTADÍSTICO R
227
Los dos modelos más habituales en regresión logística son el modelo logit, que se rige por la ecuación: exp(β0 + β1 x1 + β2 x2 + … + βp xp) P (y = 1 | x) = ——————–—————————— , 1 + exp(β0 + β1 x1 + β2 x2 + … + βp xp)
(8.9)
y el modelo probit cuya ecuación es: P(y = 1 | x) =
β0 + β1 x1 + β2 x2 + … + βp xp –∞
1 t2 —–— exp (– —) dt 2π 2
(8.10)
En ambos casos, la notación es la misma que la seguida en el caso de la regresión, es decir, y es la variable dependiente (que en este caso es dicotómica y toma solo los valores 0 y 1), mientras que x1, x2, …, xp son los regresores o variables explicativas. Para mostrar el modo en que se implementa en R la regresión logística, considérese el conjunto de datos b tal como ha sido importado al comienzo del capítulo 5, es decir, con las variables CCAA (ccaa), Provincia (prov), Situación económica actual (siteco), Situación política actual (sitpol), Intención de voto (intvoto), Autoubicación ideológica (ideo), Sexo (sexo) y Edad (edad). Supongamos que deseamos averiguar si influyen en la intención de votar al PSOE o al PP las variables correspondientes a la autoubicación ideológica, el sexo y la edad. Para realizar la regresión logística correspondiente, resulta necesario comenzar por filtrar en b las observaciones correspondientes a individuos que han manifestado en la encuesta intención de votar al PSOE (1) o al PP (2). A estas alturas del manual, el lector debería realizar este filtrado, incluido en el cuadro siguiente, con toda soltura. b2 <- subset(b, intvoto %in% 1:2)
Seguidamente, es necesario transformar la variable intvoto en factor, para que el programa sea consciente de que se trata de una variable categórica y, por tanto, apta para la realización de la regresión logística. b2$intvoto <- as.factor(b2$intvoto)
Una vez dispuestos los datos del modo adecuado, procedamos a implementar la técnica.
003_13 Aju 08
29/4/13
228
09:03
Página 228
CUADERNOS METODOLÓGICOS 48
Código El comando a utilizar es glm(). Su funcionamiento es muy similar al de la instrucción lm(), utilizada en el apartado de regresión lineal. Hay que incluir primero la variable explicada, después el símbolo ~ y después las variables explicativas o regresores separadas por signos +. Seguidamente se inserta el nombre de la hoja de datos a la que pertenecen las variables con las que trabajamos. Por último, y esto es lo único novedoso, hay que introducir el valor del argumento que indica al programa si deseamos estimar un modelo logit o probit: • family: Para el caso del modelo logit, toma el valor binomial (logit), mientras que para el modelo probit hay que fijarlo como binomial(probit).
lv <- glm(intvoto ~ ideo + sexo + edad, data=b2, family=binomial(‘logit’)) summary(lv)
Como también ocurría en la regresión lineal, el comando summary() aplicado al objeto lv en el que hemos almacenado el modelo nos muestra un resumen de los resultados de la estimación. La salida del mismo para este caso se muestra en el cuadro siguiente:
Call: glm(formula = intvoto ~ ideo + sexo + edad, family = binomial(“logit”), data = b2) Deviance Residuals: Min 1Q Median 3Q Max –1.418 –1.210 1.017 1.140 1.240 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.417345 0.234167 1.782 0.0747 . ideo 0.003190 0.002062 1.547 0.1219 sexo –0.107180 0.115313 –0.929 0.3526 edad –0.004226 0.003101 –1.363 0.1729 — Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
003_13 Aju 08
29/4/13
09:03
Página 229
EL PAQUETE ESTADÍSTICO R
229
(Dispersion parameter for binomial family taken to be 1) Null deviance: 1677.2 on 1211 degrees of freedom Residual deviance: 1672.4 on 1208 degrees of freedom AIC: 1680.4 Number of Fisher Scoring iterations: 3
No haremos un análisis exhaustivo de esta salida, sino que nos centraremos en lo referente a la estimación de los coeficientes del modelo. Podemos observar cómo se incluye para cada coeficiente su valor estimado, el error estándar de dicha estimación, el z-valor asociado (cociente de los dos anteriores) y la probabilidad o p-valor de haber obtenido dicho valor estimado bajo la hipótesis nula de que el valor real del coeficiente es cero. En la salida se puede apreciar que las variables incluidas en el modelo no resultan significativas. Únicamente el término constante acusa un cierto nivel de significación, aunque tampoco muy elevado. El lector puede comprobar que, si realizamos el mismo examen a través de un modelo probit, los resultados serían muy similares. Supongamos ahora que nuestra duda es si influyen en la intención de votar al PP (2) o a IU (3) las variables correspondientes a la autoubicación ideológica, el sexo y la edad. Veamos el modo de realizar un análisis de este tipo a través de un modelo probit. En primer lugar, es necesario filtrar la hoja de datos b del modo procedente en este caso y, a continuación, transformar en factor la variable intvoto. El siguiente cuadro ilustra el modo de realizar ambas tareas, almacenando el resultado en b3.
b3 <- subset(b, intvoto %in% 2:3) b3$intvoto <- as.factor(b3$intvoto)
Para realizar el análisis propuesto a través de un modelo probit, la sintaxis adecuada es: lp <- glm(intvoto ~ ideo + sexo + edad, data=b3, family=binomial(‘probit’)) summary(lp)
Es decir, la misma que en el caso anterior, salvo por el valor que toma el parámetro family.
003_13 Aju 08
29/4/13
09:03
Página 230
230
CUADERNOS METODOLÓGICOS 48
La salida figura en la tabla que sigue y, como se puede apreciar, tiene una estructura igual a la anterior. Call: glm(formula = intvoto ~ ideo + sexo + edad, family = binomial(“probit”), data = b3) Deviance Residuals: Min 1Q Median 3Q Max –0.7181 –0.5732 –0.4839 –0.3632 Coefficients: Estimate (Intercept) ideo –0.015745 sexo –0.191886 edad –0.009718 — Signif. codes: 0 ‘***’
Std. Error –0.308380 0.006251 0.125198 0.003585
3.3575 z value 0.251121 –2.519 –1.533 –2.711
Pr(>|z|) –1.228 0.21944 0.01177 * 0.12536 0.00672 **
0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1) Null deviance: 531.53 on 722 degrees of freedom Residual deviance: 503.34 on 719 degrees of freedom AIC: 511.34 Number of Fisher Scoring iterations: 10
En cuanto al análisis de los resultados, centrado nuevamente en el nivel de significación de los coeficientes estimados, cabe señalar que la variable edad manifiesta un elevado nivel de significación. Por su parte, la variable correspondiente a la autoubicación ideológica también resulta significativa, aunque a un nivel más bajo 11. R Commander Veamos el modo de reproducir el primero de los modelos anteriores con R Commander. Como siempre, en primer lugar, es necesario elegir como hoja de datos activa la que resulta de nuestro interés (en este caso b2). A continuación nos situamos en: Estadísticos → Ajuste de modelos → Modelo lineal generalizado… 11 Un análisis más detallado debería también verificar el grado de correlación que presentan algunas de las variables explicativas incluidas, por ejemplo, la autoubicación ideológica y la edad.
003_13 Aju 08
29/4/13
09:03
Página 231
EL PAQUETE ESTADÍSTICO R
231
La ventana a la que somos conducidos permite incluir (a través de dobles clics) las variables que deseamos en nuestro modelo, eligiendo en primer lugar la variable dependiente o explicada y, a continuación, las independientes. También permite seleccionar la familia a utilizar. En nuestro caso hemos de seleccionar binomial y logit. ILUSTRACIÓN 8.8 MODELO LINEAL GENERALIZADO (REGRESIÓN LOGÍSTICA)
Al pulsar «Aceptar», el programa proporcionará una salida igual a la obtenida mediante código.
8.4. 1.
Ejercicios El conjunto de datos «Chile», incluido en el paquete de R «car», contiene información del resultado de una encuesta realizada en ese país en 1988 acerca del plebiscito sobre Pinochet que tuvo lugar en Chile en aquel momento. Realizar con este conjunto de datos las siguientes tareas: i) ii) iii)
Almacenar el mismo en el objeto ch. Estudiar qué representan las variables incluidas, con ayuda de help(). Realizar una regresión lineal múltiple para averiguar si son significativas las variables referentes al sexo (sex), edad (age) y
003_13 Aju 08
29/4/13
232
09:03
Página 232
CUADERNOS METODOLÓGICOS 48
iv) v)
vi)
2.
El conjunto de datos «Freedman» del paquete «car» analiza la tasa de criminalidad en las áreas metropolitanas de Estados Unidos que en 1968 tenían más de 250.000 habitantes. Se pide: i) ii)
iii)
3.
educación (education) a la hora de explicar el nivel de ingresos (income) del encuestado. ¿Qué podemos decir de la heterocedasticidad de los residuos? ¿Y de su normalidad? Realizar los tests oportunos. Filtrar el conjunto de datos anterior, dejando únicamente las observaciones que hayan respondido a favor o en contra de Pinochet (sí o no en la variable vote). Denominar al conjunto filtrado ch2. Llevar a cabo una regresión logística logit con este conjunto filtrado para averiguar el grado de significación de las variables sexo (sex), edad (age), educación (education) e ingresos (income) a la hora de explicar el voto (vote) del individuo entrevistado.
Almacenar el conjunto en el objeto fr y estudiar qué representan las variables incluidas en el mismo. Visualizar gráficamente el grado de correlación entre las distintas variables del conjunto de datos a través de la instrucción pairs(). Realizar una regresión lineal múltiple entre la variable crime como variable dependiente (y) y las otras tres variables como regresores y analizar los resultados.
Consideremos ahora el conjunto de datos Cowles, también incluido en el paquete «car». Como siempre, la importación de los datos es inmediata y el comando help() nos ayuda a conocer mejor el contenido de la hoja de datos de nuestro interés.
Podemos observar que se trata de un conjunto de datos con 1.421 observaciones de cuatro variables. La información proviene de un estudio de los rasgos de la personalidad que resultan determinantes para que un individuo sea voluntario para la investigación en Psicología. Las variables incluidas son las siguientes: • neuroticism: Una variable que mide en qué grado es neurótico un individuo, según una escala propuesta por Eysenck. Quien puntúa alto en este rasgo tiene tendencia a la ansiedad, exceso de preocupación y miedos, inseguridad, inestabilidad emocional, etc. • extraversion: También medida según la escala de Eysenck. Las puntuaciones altas en este rasgo indican un mayor grado de extroversión, mientras que las bajas corresponden a individuos introvertidos.
003_13 Aju 08
29/4/13
09:03
Página 233
EL PAQUETE ESTADÍSTICO R
233
• sex: Sexo del individuo. Se trata de un factor con dos niveles: female y male. • volunteer: Es un factor que toma dos valores: yes o no, en función de que el individuo sea o no voluntario. Resulta interesante plantearse qué variables, de las incluidas en el estudio, afectan al hecho de que una persona sea o no voluntaria. En particular, se pide: i) ii)
iii) 4.
Almacenar el conjunto en el objeto co. Tomando volunteer como variable dicotómica a explicar, analizar a través de un modelo logit cómo afectan el resto de variables de la hoja de datos en el hecho de que una persona sea o no voluntaria. ¿Existe alguna variable que no resulte significativa? Estimar de nuevo el modelo excluyendo dicha variable y comparar los resultados. Repetir el análisis anterior con un modelo probit.
Repetir las tareas de los ejercicios anteriores con R Commander cuando proceda.
003_13 Aju 08
29/4/13
09:03
Pรกgina 234
003_13 Aju 09 Con
29/4/13
09:03
Página 235
Conclusión: Profundizando en R A estas alturas del libro, es de suponer que el lector ya habrá detectado que el entorno R es tremendamente versátil, flexible y moldeable a las técnicas estadísticas que cada usuario desee utilizar o implementar. Como ya se ha comentado en la introducción, entre las ventajas que reporta el uso del paquete estadístico R se hallan las derivadas de que es una herramienta gratuita y que responde a la filosofía del lenguaje libre y abierto. Si el lector ha llegado hasta este punto del manual con continuidad y aprovechamiento está de enhorabuena: ya es todo un conocedor de las técnicas básicas que se pueden abordar desde R. Pero si de verdad este manual ha cumplido con su objetivo, el punto en el que ahora se halla el lector en modo alguno ha de ser una meta, sino más bien una puerta de entrada hacia la exploración de los aspectos más profundos y específicos del programa. En realidad, hasta ahora, únicamente ha aprendido cómo introducir el password para acceder a un universo tan vasto como útil. Además, en la literatura estadística actual, cada vez son más las referencias, ejemplos y desarrollos realizados en R. Esto puede llevar con el paso del tiempo al programa a convertirse en una especie de lengua franca estadística, cuyo conocimiento podría resultar casi imprescindible para poder manejarse con soltura en este ámbito 1. Por otra parte, en el tratamiento estadístico de la información, los gráficos cada vez juegan un papel más relevante. En este sentido, se puede afirmar con rotundidad que los gráficos en R son de una enorme calidad y plenamente competitivos con los del resto de software existente en el mercado. Así pues, esta obra quedaría incompleta si no apuntara, aunque de modo obligadamente breve, hacia el camino que el lector interesado puede recorrer para seguir adentrándose en esta herramienta. En realidad, a lo largo del texto se han ido incluyendo diversas referencias bibliográficas que incluyen la implementación de técnicas en R. Sirvan estas referencias, cada una en su ámbito, como manuales muy recomendables para seguir profundizando en el programa. 1 Una relación de motivaciones para el uso de R puede hallarse en el manual online «Curso de Introducción al Entorno R», de David V. Conesa, accesible en http://www.uv.es/conesa/CursoR/cursoR.html.
003_13 Aju 09 Con
29/4/13
09:03
Página 236
236
CUADERNOS METODOLÓGICOS 48
Por otra parte, como también ya se ha apuntado, el número de paquetes disponibles es enorme y abarca de un modo muy completo el amplio espectro de técnicas estadísticas. De este modo, respecto a la implementación de procedimientos en R, resulta altamente recomendable que, antes de embarcarse en la programación, se verifique si dichas técnicas forman parte de algún paquete ya existente, circunstancia muy probable. De hecho, tanto la ayuda del programa como los manuales que acompañan a cada uno de los paquetes son de enorme calidad y utilidad, facilitando de modo considerable al usuario la aproximación a las herramientas avanzadas concretas que realmente precisa utilizar. En este manual se han introducido algunos de los muchísimos paquetes existentes en R. El criterio para su elección no ha sido otro que la mera necesidad de los mismos para presentar los contenidos que se deseaba incluir en el texto. En realidad, aunque hay cientos de paquetes que podrían ser útiles a los investigadores sociales, el profundizar en los incluidos en el libro resulta harto recomendable. Dichos paquetes son: Paquete
Breve descripción
Utilización en el texto
Rcmdr
Interfaz de usuario para R. Permite Se introduce en el capítulo 1 y se ejecutar ciertas funciones del progra- utiliza a lo largo de todo el texto, ma a través de menús de ventanas. excepto en el capítulo 7.
xlsx
Interfaz que conecta los programas Capítulo 2: Flujo de datos entre R y Excel. R y Excel.
RODBC
Permite acceder desde R a diferen- Capítulo 2: Flujo de datos entre R y Excel. tes bases de datos.
foreign
Lee desde R datos en los formatos Capítulo 2: Flujo de datos entre R y propios de otros programas estadís- los programas SPSS y SAS. ticos, como SPSS, Stata, SAS, S…
gdata
Incluye diversas herramientas para Capítulo 2: Exportación de datos la manipulación de datos con R de texto con ancho fijo. (formatos, fechas, etc.)
car
Herramientas adicionales para la Capítulo 3: Recodificación de variables. regresión con R.
e1071
Miscelánea de funciones estadísticas. Capítulo 4: Cálculo con R de las medidas de forma.
abind
Pequeño paquete que generaliza Capítulo 4: Cálculo de porcentajes los comandos rbind() y cbind() en tablas. introducidos en el texto para más de dos dimensiones.
003_13 Aju 09 Con
29/4/13
09:03
Página 237
EL PAQUETE ESTADÍSTICO R
237
ggplot2
Paquete gráfico de muy alto nivel Capítulo 6: Se menciona dada la relevancia del paquete para el trapara R. tamiento gráfico con R aunque no se usa debido al carácter elemental del capítulo.
lattice
Poderoso y elegante paquete gráfi- Capítulo 6: Al igual que en el caso co. Tratamiento detallado de datos de «ggplot2», se menciona el paquete sin que medie su utilización multivariantes. en el texto.
survey
Completísimo paquete para el tratamiento del muestreo con R, incluyendo aspectos gráficos y manipulación de datos de encuesta.
lmtest
Colección de tests y ejemplos para Capítulo 8: Contraste de heterogela diagnosis de modelos de regre- neidad de Breusch-Pagan. sión.
tseries
Análisis de series temporales con Capítulo 8: Contraste de normalidad de Jarque-Bera. R.
Capítulo 7: Se menciona dado el enorme interés del paquete para el tratamiento del muestreo con R aunque no se usa debido al carácter elemental del capítulo.
Como no podría ser de otra manera en nuestros tiempos, también existe una multitud de recursos online que pueden permitir al lector profundizar en el conocimiento del programa. Además, dado que R es una herramienta viva, Internet resulta una vía utilísima para mantener al usuario actualizado acerca de la evolución del programa y su entorno. Entre las páginas web que cumplen con las funciones recién señaladas cabe enumerar las siguientes:
Página web
Referencia
http://www.r-project.org
The R Project for Statistical Computing
http://onlinestatbook.com
David Lane, Rice University
http://rwiki.sciviews.org/doku.php
R Wiki
http://gallery.r-enthusiasts.com/
The R Graph Gallery
http://r-es.org/Comunidad
Comunidad R-Hispano
003_13 Aju 09 Con
238
27/6/13
19:27
Página 238
CUADERNOS METODOLÓGICOS 48
Entre ellas cabe destacar la página web de la Comunidad Hispana de R: http://r-es.org/Comunidad. En ella, el lector podrá encontrar información sobre cursos, congresos, jornadas, foros, etc., relacionados con R. También, por supuesto, la propia web de CRAN, ya mencionada, responde a estos objetivos, en este caso, en el ámbito internacional. Para terminar, abordemos una de las objeciones más frecuentes al programa, que podría suponer para algunos un freno a su estudio: la dificultad que entraña el tener que trabajar mediante código. El autor considera que este escollo no lo es tanto, debido a un par de razones: por un lado, el lenguaje de programación de R no resulta complejo, una vez superada la aridez inherente a los inicios en cualquier lenguaje nuevo, no solo informático, sino del tipo que sea. La sintaxis de R no es complicada y la ejecución de comandos y la salida de resultados en pantalla es rápida y directa. Por otra parte, en la práctica muchas veces ya no resulta imprescindible trabajar con código directamente. Como también ya se ha comentado, los plug-in permiten trabajar con múltiples técnicas estadísticas desde el interfaz de usuario de R Commander. Una gran diversidad de técnicas estadísticas están incluidas en estos plug-in. Ello eleva aún más la ya de por sí gran utilidad de R Commander para la docencia y el uso básico del programa. De los múltiples plug-in disponibles para R Commander, quizá el más relevante para la mayoría de los lectores de este libro sea «RcmdrPlugin. FactoMineR» 2 que implementa en R Commander las funciones disponibles en el importante paquete «FactoMineR» 3, dedicado al análisis multivariante y minería de datos. También el plug-in «RcmdrPlugin.survival» 4 puede resultar de interés para los investigadores sociales, dado que permite manejar desde R Commander las funcionalidades del paquete «survival» 5, dedicado al análisis de supervivencia. En realidad, entre las funcionalidades básicas del software, las contenidas en R Commander y sus plug-in y, finalmente, las que se incluyen en los paquetes utilizados o apuntados en esta obra, el lector dispone de sobradas herramientas, bien documentadas tanto en la propia bibliografía de los paquetes como en la de los abundantes libros acerca de R ya existentes, para sacar un elevadísimo rendimiento del programa.
2
Francois Husson, Julie Josse, Sebastien Le. Francois Husson, Julie Josse, Sebastien Le, Jeremy Mazet. 4 John Fox, Marilia Sa Carvalho (2012). The RcmdrPlugin.survival Package: Extending the R Commander Interface to Survival Analysis. Journal of Statistical Software, 49(7), 1-32. URL http://www.jstatsoft.org/v49/i07/. 5 Terry Therneau (2012). A Package for Survival Analysis in S. R package version 2.36-14. 3
003_13 Aju 09 Con
27/6/13
19:27
PĂĄgina 239
EL PAQUETE ESTADĂ?STICO R
239
En definitiva, todo un mundo inabarcable por explorar. Tan inabarcable que el mejor consejo no puede ser otro que partir de la contundente renuncia a dominarlo y tomarse el tiempo necesario para localizar, estudiar y cultivar las parcelas del mismo que mejor cubran nuestros intereses.
003_13 Aju 09 Con
29/4/13
09:03
Pรกgina 240
003_13 Aju 10 Bibli
29/4/13
09:04
Página 241
Bibliografía AZORÍN POCH, F. y J. L. SÁNCHEZ-CRESPO (1994): Métodos y aplicaciones del muestreo, Madrid: Alianza Universidad Textos, 99. BLANCO MORENO, F. (2004): Introducción a las matemáticas para las ciencias sociales, Madrid: Centro de Investigaciones Sociológicas. Colección Cuadernos Metodológicos, 33. CASELLA, L. y L. R. BERGER (2002): Statistical Inference, 2.ª ed., Duxbury Advanced Series. Thompson Learning (free ebook). CHAMBERS, J. M. (2008): Software for Data Analysis: Programming with R, Nueva York, NY: Springer. COCHRAN, W. G. (1981): Técnicas de muestreo, México: CECSA. COWPERTWAIT, P. S. P. y A. V. METCALFE (2009): Introductory Time Series with R. Springer. Use R! DALGAARD, P. (2008): Introductory Statistics with R. Springer, 2.ª ed. ESCOBAR, M., E. FERNÁNDEZ y F. BERNARDI (2009): Análisis de datos con Stata, Madrid: Centro de Investigaciones Sociológicas. Colección Cuadernos Metodológicos, 45. EVERITT, B. S. y T. HOTHORN (2010): A Handbook of Statistical Analysis Using R, Chapman & Hall / CRC. FALISSARD, B. (2012): Analysis of Questionnaire Data with R, CRC Press. FARAWAY, J. J. (2006): Extending the Linear Model with R, Chapman & Hall / CRC Taylor & Francis Group. FARAWAY, J. J. (2009): Linear Models with R, Chapman & Hall / CRC Taylor & Francis Group. FOX, J. y S. WEISBERG (2011): An R Companion to Applied Regression (2.ª ed.), Sage. GREENE, W. H. (2011): Econometric Analysis (7a ed.), Prentice Hall. GUJARATI, D. N. y D. C. PORTER (2008): Basic Econometrics, McGraw-Hill Higher Education. HARRELL, F. E. (2001): Regression Modeling Strategies, Springer-Verlag. HILBE, J. M. (2009): Logistic Regression Models, Nueva York, Chapman & Hall / CRC. LI, Y. y J. BARON (2012): Behavioral Research Data Analysis with R, Nueva York, NY: Springer. LUMLEY, T. (2010): Complex Surveys. A Guide to Analysis Using R, Wiley Series in Survey Methodology. MAINDONALD, J. y J. BRAUN (2007): Data Analysis and Graphics Using R, Cambridge University Press. MILLER, R. G. (1998): Beyond Anova: Basics of Applied Statistics, Texts in Statistical Sciences, Chapman & Hall / CRC. MUENCHEN, R. A. (2009): R for SAS and SPSS Users. Springer Series in Statistics and Computing. Springer-Verlag New York Inc.
003_13 Aju 10 Bibli
242
29/4/13
09:04
Página 242
CUADERNOS METODOLÓGICOS 48
MUENCHEN, R. A. y J. M. HILBE (2010): R for Stata Users. Statistics and Computing. Springer. MURRELL, P. (2005): R Graphics, Boca Raton, FL: Chapman & Hall/CRC. PEÑA, D. (2001): Fundamentos de estadística, Madrid: Alianza Editorial. PEÑA, D. (2002): Regresión y diseño de experimentos, Madrid: Alianza Editorial. PÉREZ, C. (1999): Técnicas de muestreo estadístico. Teoría, práctica y aplicaciones informáticas, Madrid: RA-MA. R. DEVELOPMENT CORE TEAM (2012): R: A language and environment for statistical computing. R Foundation for Statistical Computing, Viena, Austria. URL: http://www.R-project.org. R. DEVELOPMENT TEAM (2012): R Installation and Administration (Version 2.15). RIZZO, M. L. (2008): Statistical Computing with R, Boca Ratón, FL: Chapman & Hall/CRC. ROHATGI, V. K. (1984): Statistical Inference, Nueva York. Wiley Series in Probability and Mathematical Statistics. SÁEZ CASTILLO, A. J. (2010): Métodos estadísticos con R y R Commander. Obra bajo licencia Reconocimiento-No comercial-Sin obras derivadas 3.0 España. Creative Commons. SARKAR, D. (2008): Lattice: Multivariate Data Visualization with R, Springer. Use R! SHEATHER, S. (2008): A Modern Approach to Regression with R, Nueva York: Springer. SHUMWAY, R. H. y D. S. STOFFER (2010): Time Series Analysis and Its Applications: With R Examples, 3a ed., Springer. SPECTOR, P. (2008): Data Manipulation with R, Springer. Use R! SPIEGEL, M. R. y L. J. STEPHENS (2011): Schaum’s Outline of Theory and Problems of Statistics (Rev. 4a ed.), Londres, McGraw-Hill. VÉLEZ, R. y A. GARCÍA (1997): Principios de inferencia estadística, Universidad Nacional de Educación a Distancia. VENABLES, W. N. y D. M. SMITH (2008): An Introduction to R. R Development Core Team. VERZANI, J. (2005): Using R Introductory Statistics, Boca Ratón, FL: Chapman f Hall/CRC.. VINOD, H. D. (2010): Advances in Social Science Research Using R, Springer. Lecture Notes in Statistics. WICKHAM, H. (2009): ggplot2: Elegant Graphics for Data Analysis. Use R. Springer. WRIGHT, D. B. y K. LONDON (2009): Modern Regression Techniques Using R: A Practical Guide. Londres: SAGE. YAU, C. (2012): R Tutorial with Bayesian Statistics Using Open BUGS. URL http://www.r-tutor.com/content/r-tutorial-ebook.
086_11 Aju 11 Ind ana
29/4/13
09:04
PĂĄgina 243
Ă?ndice de instrucciones
A
F
abline, 190, 219, 220 aov, 160 as.data.frame, 35, 94 as.factor, 37, 74, 75, 104, 105, 129, 227, 229 as.numeric, 114, 201
fivenum, 108, 109 for, 105, 129, 193
B barplot, 170, 171, 172, 173, 174 bartlett.test, 147, 148 boxplot, 183, 184 bptest, 221 C cbind, 29, 30, 90, 91, 236 chisq.test, 119 citation, 24 class, 36, 37, 74, 76, 85, 94, 189, 201 close, 58, 59 cm.colors, 175 colMeans, 33 colnames, 35, 53, 66, 67, 104, 121 colors, 165, 167, 175 colPercents, 118 colSums, 33 cor, 210, 211 cor.test, 210 D data, 69, 207 demo, 24, 192 dim, 31, 57, 58 durbinWatsonTest, 222
G getwd, 48 glm, 228, 229, 230 grid, 192 H head, 51, 57, 58, 62, 76, 79, 94, 95 heat.colors, 175 help, 23, 24, 55, 57, 69, 70, 95, 169, 190, 208, 219, 231, 232 Hist, 166, 167 J jarque.bera.test, 223 K kruskal.test, 157 kurtosis, 111 L legend, 173, 174, 179, 180, 191, 192 length, 23, 171, 177 levels, 105, 106, 171, 177 leveneTest, 149 library, 41, 42, 44, 48, 56, 58, 68, 111, 207 lines, 191, 219 lm, 217, 219, 228
086_11 Aju 11 Ind ana
29/4/13
09:04
Pรกgina 244
244
M matrix, 28, 35, 37, 45, 200, 203 max, 26 mean, 33, 108, 149, 190, 198, 201, 205 median, 108, 149 merge, 96, 97 mergeRows, 92 min, 26, 81 N names, 104, 96 nchar, 34 ncol, 31 nrow, 31, 81, 86, 88, 196 numSummary, 108, 109, 124, 160 O objects, 23, 24 odbcConnectExcel, 58, 59 order, 96
CUADERNOS METODOLร GICOS 48
rownames, 53, 57, 121, 201 rowPercents, 118 runif, 26, 44
58,
81,
95,
S sample, 195, 196, 198, 201, 204, 211 sd, 33, 110, 111 setwd, 48 shapiro.test, 222 skewness, 111 sort, 27, 198 sqlQuery, 58, 59 subset, 81, 82, 83, 86, 87, 88, 136, 139, 145, 153, 159, 181, 184, 201, 227, 229 substr, 34 sum, 33, 114, 180, 203 summary, 160, 217, 228, 229 T
P pairs, 211, 232 par, 165, 169, 180, 189, 219 paste, 34, 178, 179, 180 pie, 177, 178, 179, 180, 181 plot, 187, 189, 190, 191, 192, 211, 212, 219, 220 prop.test, 139, 142 Q q, 24 quantile, 108, 109
t.test, 131, 133, 134, 136 table, 113, 139, 142, 171, 177, 181 terrain.colors, 175 topo.colors, 175 totPercents, 118 ts, 188, 189 V var, 110, 111 var.test, 145
R
W
range, 26 rbind, 30, 89, 201, 202, 204, 236 read.csv, 60 read.fwf, 54, 55, 128 read.spss, 61, 62 read.table, 49, 50, 51, 55, 60, 64, 188, 196 read.xlsx, 56, 57 recode, 74, 75, 99, 139, 153, 159, 165 rm, 23, 24, 110, 111, 124 rnorm, 44 round, 26, 114, 180 rowMeans, 33, 79
weighted.mean, 205 which.max, 26, 27, 72, 114 which.min, 26, 27, 72 wilcox.test, 153, 155, 156 window, 194 write.csv2, 67, 120 write.foreign, 68, 69 write.fwf, 66, 67 write.table, 64, 120 X xtabs, 116, 120
086_11 Aju 12 Ind Ilus-Graf
29/4/13
09:04
Página 245
Índice de ilustraciones y gráficos Ilustraciones 1.1. 1.2. 1.3. 1.4. 1.5. 2.1. 2.2. 2.3. 2.4. 2.5. 2.6. 3.1. 3.2. 3.3. 3.4. 4.1. 4.2. 4.3. 4.4. 4.5. 4.6. 4.7. 5.1. 5.2. 5.3. 5.4. 5.5. 5.6. 5.7. 5.8. 5.9. 5.10.
PÁGINA WEB OFICIAL DEL PROGRAMA R .................................................. CONSOLA DE R ..................................................................................... CRAN MIRROR ....................................................................................... PAQUETES DE R .................................................................................... R COMMANDER ..................................................................................... LEER ARCHIVO DE TEXTO ...................................................................... IMPORTACIÓN DE DATOS DESDE EXCEL .................................................. SELECCIÓN DE LA TABLA ........................................................................ IMPORTACIÓN DE DATOS DE SPSS ......................................................... EXPORTACIÓN DE DATOS A FORMATO TEXTO ........................................... LECTURA DE DATOS DESDE PAQUETE DE R ............................................. RECODIFICACIÓN DE VARIABLES ............................................................. CÁLCULO DE NUEVAS VARIABLES ............................................................ FILTRADO DE DATOS .............................................................................. FUSIÓN DE FICHEROS ............................................................................ CONVERSIÓN DE VARIABLES NUMÉRICAS EN FACTORES ............................ RESÚMENES NUMÉRICOS ....................................................................... RESÚMENES NUMÉRICOS: SELECCIÓN DE VARIABLE GRUPO...................... DISTRIBUCIONES DE FRECUENCIAS ......................................................... TABLAS DE DOBLE ENTRADA................................................................... SELECCIÓN DE TIPO DE DISTRIBUCIÓN CHI-CUADRADO ............................. TABLA DE ENTRADAS MÚLTIPLES ............................................................ TEST T PARA LA MEDIA .......................................................................... TEST PARA DIFERENCIA DE MEDIAS: MUESTRAS INDEPENDIENTES ............ TEST DE DIFERENCIA DE MEDIAS: DATOS EMPAREJADOS .......................... TEST DE PROPORCIONES PARA UNA MUESTRA .......................................... TEST DE PROPORCIONES PARA DOS MUESTRAS ........................................ TEST F DE IGUALDAD DE VARIANZAS....................................................... TEST DE BARTLETT ............................................................................... CONTRASTE DE LEVENE ........................................................................ TEST DE SUMA DE RANGOS DE WILCOXON .............................................. TEST DE WILCOXON PARA DATOS EMPAREJADOS .....................................
14 16 39 40 41 52 60 61 63 66 70 77 80 84 98 106 112 113 116 121 122 124 132 135 138 141 143 146 148 151 154 156
086_11 Aju 12 Ind Ilus-Graf
246
5.11. 5.12. 6.1. 6.2. 6.3. 6.4. 6.5. 8.1. 8.2. 8.3. 8.4. 8.5. 8.6. 8.7. 8.8.
29/4/13
09:04
Página 246
CUADERNOS METODOLÓGICOS 48
TEST DE SUMA DE RANGOS DE KRUSKAL-WALLIS ................................... ANOVA DE UN FACTOR ......................................................................... CÁLCULO DE HISTOGRAMA ..................................................................... CÁLCULO DE GRÁFICO DE BARRAS........................................................... CÁLCULO DE GRÁFICO DE SECTORES ....................................................... CÁLCULO DE DIAGRAMA DE CAJA............................................................. SELECCIÓN DE VARIABLE GRUPO O FACTOR ............................................. CÁLCULO DE MATRIZ DE CORRELACIONES ............................................... TEST DE CORRELACIONES ...................................................................... CÁLCULO DE DIAGRAMA DE DISPERSIÓN .................................................. CÁLCULO DE MATRIZ DE DIAGRAMAS DE DISPERSIÓN ............................... MODELO DE REGRESIÓN LINEAL SIMPLE O MÚLTIPLE .............................. TEST DE BREUSCH-PAGAN ..................................................................... TEST DE DURBIN-WATSON .................................................................... MODELO LINEAL GENERALIZADO (REGRESIÓN LOGÍSTICA) .......................
158 162 170 176 182 186 186 213 213 214 215 224 225 226 231
Gráficos 4.1. 6.1. 6.2. 6.3. 6.4. 6.5. 6.6. 6.7. 6.8. 6.9. 6.10. 6.11. 6.12. 6.13. 6.14. 8.1. 8.2.
DENSIDAD DE LA CHI-CUADRADO CON 96 GRADOS DE LIBERTAD ............... HISTOGRAMAS....................................................................................... GRÁFICO DE BARRAS .............................................................................. GRÁFICO DE BARRAS CON LEYENDA ........................................................ GRÁFICO DE BARRAS HORIZONTALES CON LEYENDA ................................. GRÁFICO DE BARRAS CON R COMMANDER .............................................. GRÁFICO DE SECTORES .......................................................................... GRÁFICO DE SECTORES CON FRECUENCIAS ABSOLUTAS ............................ GRÁFICO DE SECTORES CON PORCENTAJES Y LEYENDA ............................ GRÁFICO DE SECTORES MÚLTIPLE .......................................................... GRÁFICO DE SECTORES CON R COMMANDER .......................................... DIAGRAMA DE CAJA................................................................................ DIAGRAMAS DE CAJA PARA VALORES DE UN FACTOR ................................ DIAGRAMA DE CAJA CON VARIABLE GRUPO CON R COMMANDER ............... INDICADORES DE SITUACIÓN POLÍTICA Y ECONÓMICA ............................... DIAGRAMAS DE DISPERSIÓN ................................................................... VALORES OBSERVADOS, ESTIMADOS Y RESIDUOS .....................................
123 168 172 173 175 176 178 179 180 181 182 183 185 187 191 212 220
08:48
Página 1
Jesús Bouso Freijo es Jefe de Área de Estadística en el Departamento de Banco de Datos del Centro de Investigaciones Sociológicas. Licenciado en Matemáticas y funcionario del Cuerpo Superior de Estadísticos del Estado, ha obtenido el Diploma de Estudios Avanzados con un trabajo acerca de la clasificación de series temporales, implementado en R. Es profesor del Curso de Posgrado de Formación de Especialistas en Investigación Social Aplicada y Análisis de Datos del Centro de Investigaciones Sociológicas, donde ha impartido docencia acerca del programa R. Además de su labor en el CIS, ha dedicado su vida profesional al análisis estadístico de datos en el Instituto Nacional de Estadística y en la Comisión Nacional de la Competencia. Su publicación más reciente es “La evolución futura de los apellidos. Una modelización con cadenas de Markov no homogéneas” (Revista Estadística Española 2012) con María Cristina González Fidalgo.
Cuadernos Metodológicos 48
22/4/13
48
El paquete estadístico R Jesús Bouso Freijo
ISBN 978-84-7476-613-4
9 788474 766134
El paquete estadístico R Jesús Bouso Freijo
0 Portada Cua Meto. 48
R es un paquete estadístico de elevada y creciente importancia para la implementación de técnicas estadísticas en diversas disciplinas científicas aplicadas. Su carácter gratuito, la multitud de recursos disponibles para el programa y su elevada calidad tanto analítica como gráfica hacen que gradualmente se vaya convirtiendo en una especie de lengua franca para el análisis estadístico. Este volumen tiene como finalidad introducir al lector a su uso de modo claro y minucioso, sin presuponer conocimiento alguno del programa. La obra está orientada al tratamiento de datos de encuesta en la investigación social y abarca una serie de técnicas para el manejo de este tipo de datos: estadística descriptiva, contrastes de hipótesis, análisis gráfico e incluso una introducción a la regresión lineal y a la regresión logística con R. Todo ello implementado con datos reales de encuestas de opinión, principalmente de estudios conducidos por el CIS. La documentación digital asociada al libro incluye todo el código utilizado en el texto, así como la resolución de todos los ejercicios propuestos y se halla disponible en www.cis.es/publicaciones/CM/