1
MANUAL: ANÁLISIS DE DATOS Arq. Nicolle Tames Espinoza
2
El siguiente manual fue elaborado a partir del material brindado por el Mtro. Arturo Valeriano, sin embargo, los ejemplos realizados en este trabajo son de autorĂa propia. El objetivo principal de este ejercicio fue elaborar una herramienta de apoyo para el procesamiento de datos.
3
CONTENIDO CAPÍTULO 1: PROCESO DE INVESTIGACIÓN
5
CAPÍTULO 2: RESUMEN ESTADÍSTICO
9
CAPÍTULO 3: RESUMEN GRÁFICO
16
CAPÍTULO 4: CORRELACIÓN DE VARIABLES
24
CAPÍTULO 5: RECTA DE LOS MÍNIMOS CUADRADOS
27
CAPÍTULO 6: COMPARACIÓN DE MODELOS / REMC
31
LA INVESTIGACIÓN CIENTÍFICA LA INVESTIGACIÓN CUANTITATIVA LA INVESTIGACIÓN EXPERIMENTAL EJECUCIÓN DE PROYECTOS DE INVESTIGACIÓN
5 5 5 6
MEDIA MUESTRAL 9 DESVIACIÓN ESTÁNDAR 10 MEDIANA MUESTRAL 11 MEDIANA RECORTADA 12 MODA Y RANGO 13 CUARTILES 13 PERCENTILES 14 RESUMEN ESTADÍSTICO PARA DATOS CATEGÓRICO 14 ESTADÍSTICA MUESTRAL Y PARÁMETROS POBLACIONALES 15 DIAGRAMA DE TALLO Y HOJA 16 DIAGRAMA DE PUNTOS 17 HISTOGRAMA 18 DIAGRAMA DE CAJA 20 DATOS MULTIVARIADOS 22 COEFICIENTE DE CORRELACIÓN
MEDICIÓN DE LA BONDAD DEL AJUSTE
ALGUNAS CONSIDERACIONES SOBRE LOS MODELOS COMPARACIÓN DE MODELOS RAÍZ DEL ERROR MEDIO CUADRÁTICO
24
28
31 31 32
CAPÍTULO 7: GRÁFICA DE RESIDUOS VS VALORES AJUSTADOS
34
CAPÍTULO8: REGRESIÓN LINEAL MÚLTIPLE
39
TRANSFORMACIÓN DE VARIABLES DATOS ATÍPICOS Y PUNTOS INFLUYENTES COMPROBACIÓN DE INDEPENDENCIA Y NORMALIDAD
COMPROBACIONES Y PRUEBAS EN LA REGRESIÓN MÚLTIPLE
36 36 37 41
4
5
CAPÍTULO 1: PROCESO DE INVESTIGACIÓN INVESTIGACIÓN CIENTÍFICA
LA INVESTIGACIÓN CUANTITATIVA
La investigación científica propiamente es un proceso que busca la producción y comprobación del conocimiento nuevo mediante la aplicación de unas etapas, pasos, técnicas e instrumentos acordes con el “método científico”.
Tiene que ver con la “cantidad” y, por tanto, su medio principal es la medición y el cálculo. Característica de las investigaciones de tipo experimental, descriptivo, explicativo y exploratorio. Se define como:
Método Científico Es el conjunto de procedimientos racionales y sistemáticos encaminados a hallar solución a un problema y, finalmente, verificar o demostrar la verdad de un conocimiento. Estos procedimientos implican la aplicación de técnicas e instrumentos, válidos y confiables, según el tipo de investigación y la ciencia o ciencias. Características
del
método
científico:
•Es fáctico •Trasciende los hechos •Se atiene a reglas metodológicas •Se vale de la verificación empírica •Es auto correctivo y progresivo •Sus conclusiones de tipo general Categorías metodológicas de la investigación: •Enfoque: cualitativo y cuantitativo •Tipo de investigación (descriptiva, experimental, histórica, correlacional) •Técnica (operaciones, procedimientos, métodos) •Instrumentos (materiales, herramientas, aparatos)
•Acepta que se puede controlar y predecir la realidad. •Establece variables. •La mayoría de las veces busca probar hipótesis. •Pregona e intenta lograr la objetividad. •Se vale predominantemente del método deductivo. •Exige la confiabilidad y validez en la medición. •Uno de sus propósitos fundamentales es medir magnitudes. •Trabaja con relaciones de tipo causal. •Suele contemplar hipótesis. •Su estrategia para el tratamiento de los datos se basa en la sistematización, el uso de cifras y la estadística. •Prefiere la investigación experimental, pero excluye otras. •Considera la generalidad en los resultados y conclusiones.
LA INVESTIGACIÓN EXPERIMENTAL Su propósito es validar o comprobar una hipótesis. Para ello se vale del experimento el cual “consiste en someter un objeto en estudio a la influencia de ciertas variables, en condiciones controladas y conocidas por el investigador,
6 para observar los la variable produce
resultados que en el objeto”.
La experimentación establece relaciones de causa-efecto. Se consideran dos, los campos en donde tiene lugar la experimentación:
un proceso, que implica algún tipo de organización, un análisis y una interpretación, acciones que definen el curso de la investigación.
•La experimentación en el laboratorio •La experimentación en el campo
Fijar población y muestra Una muestra es una porción representativa de una cantidad. Esta puede ser: •Probabilístico: La selección se interpreta como una selección aleatoria, es decir, que se rige por el azar. •No probabilístico: Es la técnica que permite seleccionar muestras con una clara intención o por un criterio preestablecido.
EJECUCIÓN DE PROYECTOS DE INVESTIGACIÓN La recolección de los datos mediante la aplicación de las técnicas previstas y los instrumentos correspondientes, debidamente elaborados y validados. Procesamiento de los datos que conforman dicha información siguiendo las técnicas apropiadas para dicha tarea. El análisis de los datos o los resultados obtenidos y su interpretación, para verificar la validación o invalidación de la hipótesis o el logro de los objetivos planteados inicialmente. La elaboración de conclusiones y eventuales recomendaciones.
Procesamiento, análisis e interpretación Los datos recogidos en bruto con cualquiera de las técnicas e instrumentos, no es más que un resultado sin significación respecto al objetivo general y el problema. Para que tomen sentido dentro de la investigación es necesario pasar esos resultados por
Una cantidad de datos recogidos sin ningún tratamiento no es una investigación, por interesantes que ellos sean. Muchos datos no significa: •Mucho trabajo y tiempo •Gran esfuerzo del investigador •La investigación es relevante •Los resultados son concluyente, importantes o trascendentes. •Los datos son la materia prima indispensable •El insumo sobre el cual hay que trabajar, para lograr el objetivo considerado inicialmente y encontrar alguna respuesta al problema planteado. Procesamiento El procesamiento de los datos exige como mínimo realizar las tareas de organización, codificación y tabulación. Organización de datos Lo primero, después de la recolección, será hacer un recuento de qué material se dispone y qué tipo de datos contiene. La siguiente actividad que se recomienda es clasificar los datos en dos grandes grupos:
7 1.Los datos numéricos o cuantitativos
•Reconocer
2.Los datos cualitativos
•Sintetizar
Los datos de tipo numérico se procesarán de acuerdo con los principios y criterios aportados por la estadística, no necesitarán ya de codificación, pero sí se tabularán y podrán expresarse en cuadros y gráficas. Los datos verbales pueden sufrir uno de los dos tratamientos siguientes: •Se codifican, para transformarlos como datos numéricos. •Seguirán siendo de carácter verbal. Codificación de los datos Un código es un sistema de símbolos o signos. La codificación consiste en asignar símbolos a unidades o grupos de datos de tipo cualitativo para poder operar con ellos como si fueran datos cuantitativos. Tabulación de los datos (Graficación) Hacer tablas, elaborar listados para facilitar justamente su agrupamiento y su contabilización, función del procesamiento de datos, al igual que su análisis. Análisis de los datos Analizar es descomponer y examinar las partes de un todo, a fin de reconocer su naturaleza, relaciones y características. Lo anterior concluye con el regreso al todo, es decir, con la síntesis, lo cual permite la obtención del conocimiento. Entonces, el análisis lleva a la síntesis y la síntesis al análisis, en un proceso de ir y venir. Al analizar los datos de una investigación se busca conceptualizar las relaciones, conclusiones, consecuencias y resultados que surjan de la información obtenida. Analizar comprende varias operaciones: •Descomponer •Examinar
•Conceptualizar •Relacionar •Explicar •Comprender Para analizar, también es importante saber comparar (buscando semejanzas y diferencias), abstraer, concretar y, principalmente, generalizar. El análisis bien hecho, junto con la interpretación, permite regresar al problema inicialmente planteado. Para saber qué tipo de respuesta se obtuvo: al objetivo. Para determinar qué logros se alcanzaron, y a la hipótesis (si se contempló), para comprobar finalmente su validación o invalidación. En el manejo de los datos estadísticos que surgen del análisis pueden emplearse o registrarse porcentajes, proporciones y medidas de la tendencia central, por ejemplo, promedios. Interpretación de datos Análisis e interpretación se asocian de tal manera que muchos las consideran una sola actividad en la parte final de la investigación. El acto de interpretar es atribuir un significado a una cosa y sustentarlo con otro lenguaje, es dar cuenta de la manera como se entiende algo comunicado de antemano Equivale a comprobar si hay respuesta o no a lo que se esperaba. Es descifrar unos símbolos o un determinado mensaje. Entonces, la interpretación de datos consiste: •Explicar: relacionar la causa de por qué se dieron determinados datos. • Comentar: expresar un juicio o la apreciación propia sobre los resultados. • Traducir: comunicar con otras palabras un resultado o conclusión.
8 • Describir: presentar de manera distinta los datos, con sus diferentes matices. • Parafrasear: emplear otras palabras o frases para decir lo que indican los resultados
Preguntas útiles para interpretar datos Las siguientes preguntas tienen la funcionalidad para lograr interpretar adecuadamente los datos obtenidos: ¿Qué significado tienen los datos frente al problema, objetivo o la hipótesis que se consideraron como punto de partida? ¿Hasta qué punto la interpretación de los resultados concuerda con la forma como los entienden otros? ¿Qué grado de generalización se les puede atribuir a los resultados de la investigación? ¿Hasta dónde hay confiabilidad y validez?
Elaboración de conclusiones Culminar la investigación puede conducir a la elaboración de las conclusiones generales, las que pasarán a ser parte importante del informe final. No se trata de hacer un nuevo resumen propiamente, aunque naturalmente se hace necesario realizar un recuento o referencia de lo más destacado y valioso de la investigación. Conviene que el investigador haga un recorrido y una revisión de todo el proceso y se detenga en un balance, sacando en claro hasta dónde llegó, qué faltó y qué se sigue después de su trabajo. Precisar hasta dónde se solucionó el problema, si se logró el objetivo totalmente o parcialmente. Qué utilidad podrá brindar el trabajo adelantado, tanto en el campo del conocimiento en que se sitúa, como en la marcha de las instituciones y el mejoramiento de la calidad de vida de las personas.
9
CAPÍTULO 2: RESUMEN ESTADÍSTICO El resumen estadístico es el procedimiento con el cual se pueden obtener las características más evidentes de una muestra ya que con frecuencia una muestra constituye una larga lista de números. A partir de una muestra podemos conocer su: •Media de la muestra (centro de los datos) • Desviación estándar (distribución de los datos)
MEDIA MUESTRAL También llamada “media aritmética” o “promedio”. La desviación estándar es una cantidad que mide el grado de dispersión en una muestra. La idea básica detrás de la desviación estándar es que cuando la dispersión es grande, los valores de la muestra tenderán a alejarse de su media, pero cuando la dispersión es pequeña, los valores tenderán a acercarse a su media.
Ejemplo 01 La siguiente muestra se realizó a partir de los datos promedio obtenidos de humedad (y) y temperatura (x) del mes marzo del año 2015 en San José, Costa Rica. Obtener los valores de la media en ambas variables y verificar su resultado en el programa PAST.
Empezamos buscando el valor de la media de la variable Temperatura. A partir de la siguiente ecuación:
Al no existir ningún número repetido, sumamos los valores obtenidos y lo dividimos con el número de muestras:
Aplicamos el mismo proceso para los valores de Humedad
Corroboramos los valores con el programa PAST
10 DESVIACIÓN ESTÁNDAR Varianza muestral
Una vez obtenidos los valores, los elevamos al cuadrado y realizamos una suma total:
La desviación estándar es una cantidad que mide el grado de dispersión en una muestra. La idea básica detrás de la desviación estándar es que cuando la dispersión es grande, los valores de la muestra tenderán a alejarse de su media, pero cuando la dispersión es pequeña, los valores tenderán a acercarse a su media. El primer paso en el cálculo de la desviación estándar es calcular las distancias (también llamadas desviaciones) de cada valor de la muestra a la media de la muestra. Para hacer todas las desviaciones positivas se elevan al cuadrado, con lo que se obtienen las desviaciones al cuadrado. A partir de las desviaciones al cuadrado se puede calcular una medida de la dispersión llamada la varianza muestral s2. Ejemplo 02 Con los mismos datos que utilizamos anteriormente obtenemos los valores de la varianza muestral para cada una de las variables. Verificar su resultado en el programa PAST. Elaboramos una tabla con los datos de la variable de Temperatura, a partir del valor que nos dio la media, lo restamos a cada valor de la muestra.
Donde:
Aplicamos to para
la
el
mismo procedimienvariable de Humedad.
11 Donde:
Variable Humedad
Corroboramos los valores con el programa PAST
Corroboramos los valores con el programa PAST
Desviación muestral Sus unidades no son las mismas que las unidades de los valores de la muestra; éstas tienen unidades al cuadrado. Para obtener una medida de la dispersión cuyas unidades sean las mismas que las de los valores de la muestra, simplemente se toma la raíz cuadrada de la varianza. Esta cantidad se denomina desviación estándar muestral.
DATOS ATÍPICOS A veces una muestra puede contener algunos puntos que son mucho más grandes o pequeños que el resto. Estos puntos se llaman datos atípicos.
Los datos atípicos se deben examinar siempre y cualquiera de ellos que se encuentre es resultado de un error que se debe corregir o eliminar. No todos los datos atípicos son errores. A veces una población podría contener algunos valores que son muy diferentes del resto y los datos atípicos en la muestra reflejan este hecho. Se debe tomar en cuenta: •Un dato atípico no se debe eliminar, a menos que se tenga la seguridad de que es resultado de un error. •Un dato atípico se conserva y un error se elimina.
Ejemplo 03 Buscamos los valores de la desviación estándar con los resultados de varianza muestral que obtuvimos anteriormente. Donde:
Variable Temperatura
•Si una población realmente contiene datos atípicos y son eliminados de la muestra, esta última no caracterizará correctamente a la población.
MEDIANA MUESTRAL La mediana, al igual que la media, representa una medida de tendencia central de los datos. Para calcular la mediana de una muestra, ordene los valores del más pequeño al más grande. La mediana es el número de en medio
12 Donde la mediana seria entonces: Mediana = promedio de 12º y 13º número Para el valor de la variable x, su mediana seria:
Para el valor de la variable y, su mediana seria: La mediana se usa con frecuencia como una medida de tendencia central para muestras que contienen datos atípicos.
Ejemplo 04 Encontrar la posición de la mediana de los valores de las variables de Temperatura y Humedad. Ubicar su posición en la tabla y corroborar los resultados con el programa PAST
A partir del valor obtenido, apreciamos en la siguiente tabla la posición de la mediana.
Corroboramos los valores con el programa PAST
MEDIANA RECORTADA La media recortada es una medida de tendencia central que se diseñó para que no esté afectada por datos atípicos. La media recortada se calcula al arreglar los valores de la muestra en orden, “recortar” un número igual a partir de cada extremo y calcular la media de los restantes. Si se “recorta” el p% de los datos de cada extremo, la media recortada resultante se denomina “media recortada un p%”. Ejemplo 05 Obtener el valor de la mediana recortada al 5% de los valores de Temperatura y Humedad. Mediana recortada = 1.2% Entonces:
1
NOTA
Para los siguientes ejemplos de este capítulo es necesario ordenar los valores de menor a mayor para obtener los valores correctos
13 Muestras 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Temperatura (ºc)
Humedad %
16.98 17.03 17.12
56.94 57.52 57.84
17.23 17.37 17.52 17.71 17.90 17.91
58.61 58.94 60.23 60.94 63.23 64.06
18.04 18.33 18.61 18.94 19.25 19.62
68.06 68.23 71.94 72.03 72.26 72.55
20.40 20.63 21.38 21.46 21.99 22.07
72.77 72.84 72.90 72.94 73.16 74.16
22.19 22.29 22.40
74.35 74.52 74.61
en esa posición es el primer cuartil. Si no, tome entonces el promedio de los valores de la muestra de cualquier lado de este valor El tercer cuartil se calcula de la misma manera, excepto que se usa el valor 0.75(n +1). El segundo cuartil usa el valor 0.5(n 1), es decir, el segundo cuartil es idéntico a la mediana. Ejemplo 06 Obtener los valores del primer, segundo y tercer cuadril de la muestra de Temperatura y Humedad. Corroborar los resultados con el programa PAST. Calculamos el primer cuartil de ambas variables:
Donde aplicamos ignoramos los primeros y últimos valores de cada variable para aplicarlos a la siguiente ecuación: Temperatura:
Humedad:
Identificamos la posición de n (azul) en la siguiente tabla:
MODA Y RANGO La moda y el rango son resúmenes estadísticos de uso limitado, pero que en ocasiones se aprecian visualmente. La moda muestral es el valor que tiene más frecuencia en una muestra. Si algunos valores tienen una frecuencia igual, cada uno representa una moda. El rango es la diferencia entre los valores más grandes y más pequeños en una muestra.
CUARTILES La mediana divide la muestra a la mitad. Los cuartiles la dividen tanto como sea posible en cuartos. Para encontrar el primer cuartil, calcule el valor 0.25(n+1). Si éste es un un entero, entonces el valor de la muestra
Ahora el segundo el cuartil:
14 Como podemos apreciar, los valores obtenidos son iguales a los valores obtenidos en los resultados de la mediana.
Corroboramos que los valores del primer, segundo y tercer cuartil coincidan con los valores arrojados en el programa PAST
Identificamos la posición de n (morado) en la siguiente tabla:
PERCENTILES El p-ésimo percentil de una muestra, para un número p entre 0 y 100, divide a la muestra tanto como sea posible, el p% de los valores de la muestra es menor que el p-ésimo percentil y el (100-p)% son mayores.
Por último el tercer cuartil:
Los percentiles con frecuencia se usan para interpretar puntajes de exámenes estandarizados. Por ejemplo, si a una estudiante se le informa que su puntaje en un examen de ingreso a la universidad está en el 64avo. Percentil, esto significa que 64% de los estudiantes que presentaron el examen obtuvo puntajes inferiores.
RESUMEN ESTADÍSTICO PARA DATOS CATEGÓRICO E identificamos la posición n (verde) en la siguiente tabla:
Con datos categóricos, a cada elemento de la muestra se le asigna una categoría en lugar de un valor numérico. Es necesario trabajar con datos categóricos y resúmenes numéricos. Los dos más comunes son las frecuencias y las proporciones muéstrales (algunas veces llamadas frecuencias relativas). La frecuencia para una categoría dada es sólo el número de elementos de la muestra que cae dentro de esa categoría. La proporción muestral es la frecuencia dividida entre el tamaño de la muestra.
2
NOTA
Si los valores no coinciden entonces el desarrollo de la ecuación fue errónea.
15 Cada uno de los estadísticos de la muestra tiene una contraparte en la población. Esto es fácil de ver cuando la población es finita. Por ejemplo, para una población finita de valores numéricos, la media de la población es sólo el promedio de todos los valores de la población; la mediana es el valor de en medio, o el promedio de los dos valores de en medio, y así sucesivamente.
ESTADÍSTICA MUESTRAL Y PARÁMETROS POBLACIONALES En efecto, cualquier resumen numérico que se usa para una muestra se puede usar para una población finita, con sólo aplicar los métodos de cálculo a los valores de la población en lugar de a los valores de la muestra. Los resúmenes numéricos de una muestra se llaman estadísticos, mientras que los resúmenes numéricos de una población se llaman parámetros. En la práctica, nunca se observa toda la población por lo que los parámetros de población no se pueden calcular directamente. En cambio, los estadísticos de la muestra se usan para calcular los valores de los parámetros de la población. Un resumen numérico de una muestra se llama estadístico. Un resumen numérico de una población se llama parámetro. Con frecuencia los estadísticos se usan para estimar los parámetros.
16
CAPÍTULO 3: RESUMEN GRÁFICO Los resúmenes gráficos también se usan para ayudar a visualizar una lista de números. Algunos de ellos son: • Tallo y hoja (Stem & leaf) • Diagrama de puntos • Diagramas de caja • Datos multivariados
DIAGRAMA DE TALLO Y HOJA Una gráfica de tallos y hojas constituye una manera simple de resumir un conjunto de datos. Cada elemento de la muestra se divide en dos partes: un tallo, que consta de uno o dos dígitos que están en el extremo izquierdo, y la hoja, que consta del siguiente dígito significativo. Una buena característica de los diagramas de tallo y hojas es que exhiben todos los valores de la muestra. Se puede reconstruir la muestra totalmente a partir de un diagrama de tallo y hojas, con una excepción importante: el orden con el cual se muestrearon los elementos no se puede determinar. Ejemplo 07 Desarrollar un diagrama de hoja y tallo con los datos de la muestra de Temperatura y Humedad que se han utilizado en los ejemplos anteriores. Temperatura: 17.5 19.3 22.1 18.0
17.4 20.4 21.5 17.9
17.2 17.1 17.0 17.0 1 7 . 9 21.4 22.0 22.2 22.3 2 2 . 4 20.6 19.6 18.9 18.6 1 8 . 3 17.7
Para el desarrollo definimos el tallo de la muestra de la siguiente manera:
17.5
Y la hoja seria el número que acompaña la raíz:
17.5
De esta manera, elaboramos la siguiente tabla:
Donde podemos apreciar que los valores mayoritarios de la muestra se encuentran con una temperatura de 17°C Aplicamos el mismo procedimiento para los datos de Humedad: 72.9 63.2 60.9 74.2
72.8 60.2 64.1 73.2
72.5 72.3 71.9 72.0 68.1 57.8 56.9 57.5 58.6 58.9 68.2 72.8 74.6 74.4 74.5 72.9
En este caso apreciamos que una gran parte de datos se concentran en el porcentaje de 72%
17 DIAGRAMA DE PUNTOS Un diagrama de puntos es un gráfico que se puede usar para tener una impresión aproximada de la forma de una muestra. Es útil cuando el tamaño de la muestra no es demasiado grande y cuando la muestra contiene algunos valores repetidos. El diagrama de puntos da una buena indicación de dónde se concentran los valores de la muestra y dónde hay separaciones. Estos, rara vez se usan en presentaciones formales. Los gráficos comúnmente usados en las presentaciones formales son los histogramas y el diagrama de caja.
Diagrama de puntos elaborado en el programa STATGRAPHICS CENTURION
Humedad:
Ejemplo 08 Desarrollar un diagrama de puntos con los datos de Temperatura y Humedad utilizando el programa MINITAB EXPRESS y STATGRAPHICS CENTURION. Temperatura:
Diagrama de puntos elaborado en el programa MINITAB EXPRESS
Diagrama de puntos elaborado en el programa MINITAB EXPRESS
Diagrama de puntos elaborado en el programa STATGRAPHICS CENTURION
18 En las gráficas tanto de temperatura como humedad apreciamos la concentración de información en algunos puntos, esta información coincide con la gráfica de tallo y hoja.
HISTOGRAMA Un histograma es una gráfica que da una idea de la “forma” de una muestra, indicando las regiones donde los puntos de la muestra están concentrados y las regiones donde son escasos. Es una gráfica de la distribución de un conjunto de datos. Es un tipo especial de gráfica de barras, en la cual una barra va pegada a la otra, es decir no hay espacio entre las barras. Cada barra representa un subconjunto de los datos. Un histograma muestra la acumulación ó tendencia, la variabilidad o dispersión y la forma de la distribución. Un histograma es una gráfica adecuada para representar variables continuas, aunque también se puede usar para variables discretas. Es decir, mediante un histograma se puede mostrar gráficamente la distribución de una variable cuantitativa o numérica. Los datos se deben agrupar en intervalos de igual tamaño, llamados clases. La construcción de un histograma se puede hacer a partir de la utilización de softwares de aplicación estadística (Mini Tab, PAST, etc.) para obtener fácilmente el histograma de los datos. Para construir de manera manual un histograma hay que tomar en cuenta: • Elija los puntos límites para los intervalos de clase
•Dibuje un rectángulo para cada clase, cuya altura sea igual a la densidad No hay ninguna regla ni difícil ni fácil respecto de cómo escoger los puntos finales de los intervalos de clase. En general, es bueno tener más intervalos en vez de menos En muchos casos es razonable tomar el número de intervalos de clase aproximadamente igual a la raíz cuadrada del tamaño de la muestra. La frecuencia relativa de un intervalo de clase es la proporción de puntos de datos que están en el intervalo. Observe que debido a que cada punto de los datos está exactamente en un intervalo de clase, las frecuencias relativas deben sumar 1 El propósito de la densidad es ajustar la frecuencia relativa con el ancho de la clase. Sin que nada cambie, las clases anchas tienden a contener más elementos de la muestra que las clases más angostas y, por consiguiente, tienden a tener frecuencias relativas más grandes. Al dividir la frecuencia relativa entre el ancho de la clase se ajusta esta tendencia. La densidad representa la frecuencia relativa por unidad. Un histograma es perfectamente simétrico si su mitad derecha es una imagen de espejo de su mitad izquierda. Los histogramas que no son simétricos se llaman sesgados. En la práctica, ninguna muestra de datos tiene un histograma perfectamente simétrico; todos presentan algún grado de sesgadura. Un histograma con una cola larga a la derecha se dice que está sesgado a la derecha o positivamente sesgado.
• Calcule las frecuencias y las frecuencias relativas para cada clase • Calcule la densidad para cada clase, de acuerdo con la formula: Diferentes tipos de histogramas
19 Un histograma largo con una cola larga a la izquierda se dice que está sesgado a la izquierda o negativamente sesgado.
Temperatura:
Los histogramas tienen las propiedades siguientes: 1.El área de cada rectángulo representa la proporción de la muestra que está en el intervalo de clase correspondiente. 2.La altura de cada rectángulo representa la densidad de la muestra en el intervalo de clase correspondiente a1
3.El área total bajo el histograma es igual
Histograma elaborado en el programa MINITAB EXPRESS
Histograma: Bimodales y multimodales Se ha usado el término “moda” para referirnos al valor que ocurre con más frecuencia en una muestra. Este término también se usa en histogramas y otras curvas para referirse a un pico o máximo local. Un histograma es unimodal si tiene solamente un pico, o moda, y bimodal si tiene evidentemente dos modas distintas.
Histograma: Frecuencia El hacer las alturas iguales a las frecuencias (o a las frecuencias relativas) puede producir una imagen distorsionada de los datos. Si todos los intervalos de clase tienen el mismo ancho, entonces el histograma tendrá la misma forma si las alturas representan las densidades o las frecuencias. En este caso, hacer las alturas iguales a las frecuencias no es engañoso.
Histograma elaborado en el programa CENTURION
STATGRAPHICS
Sin embargo, cuando se desea hacer intervalos de clase de anchos diferentes, es importante que las alturas de los rectángulos sean iguales a las densidades y no a las frecuencias o las frecuencias relativas. Ejemplo 09 Elaborar un histograma con los datos de Temperatura y Humedad utilizando el programa MINITAB EXPRESS y STATGRAPHICS CENTURION.
Tabla de Frecuencias elaborado en el programa STATGRAPHICS CENTURION
20 Humedad:
Como podemos apreciar en ambos ejemplos, los histogramas nos reflejan la proporción de la muestra que está en el intervalo de clase correspondiente. Además la altura de cada rectángulo representa la densidad de la muestra en el intervalo de clase correspondiente.
DIAGRAMA DE CAJA Un diagrama de caja constituye una gráfica que incluye la mediana, el primero y el tercer cuartil y cualquier dato atípico que se presente en una muestra. Histograma elaborado en el programa MINITAB EXPRESS
Los diagramas de caja son fáciles de comprender, pero hay una pequeña terminología asociada con ellos. El rango intercuartiles (IQR) la diferencia entre el tercer y el primer cuartil. El 75% de los datos son menores que el tercer cuartil y que 25% de los datos son menores que el primer cuartil, la mitad de los datos está entre el primero y el tercer cuartil. Por tanto, el rango intercuartil (IQR) representa la distancia necesaria para atravesar la mitad de los datos de en medio.
Datos atípicos
Histograma elaborado en el programa CENTURION
STATGRAPHICS
Se ha definido a los datos atípicos como puntos que son inusualmente grandes o pequeños. Cualquier punto que está a más de 1.5 IQR por arriba del tercer cuartil, o que está a más de 1.5 IQR por debajo del primer cuartil, se considera un dato atípico
Configuración de un diagrama de caja Además de cualquier dato atípico, un diagrama de caja está formado por cuatro partes: •Las dos partes de la caja separadas por la línea de la mediana y los dos “bigotes”. •Aparte de los datos atípicos, cada una de estas cuatro partes representa una cuarta parte de los datos Tabla de Frecuencias elaborado en el programa STATGRAPHICS CENTURION
El diagrama de caja indica la longitud de un intervalo para cada cuarta parte de datos y de esta manera se puede usar para
21 determinar las regiones en las que hay mayor y menor densidad de valores de la muestra
Pasos para la construcción de un diagrama de caja
1.Calcule la mediana, el primero y tercer cuartil de la muestra. Indique éstos con líneas horizontales. Dibuje líneas verticales para completar la caja. 2.Encuentre el valor de la muestra más grande que no esté a más de 1.5 IQR arriba del tercer cuartil y el valor de la muestra más pequeño que no esté a más de 1.5 IQR debajo del primer cuartil. 3.Extienda líneas verticales (“bigotes”) desde las líneas de los cuartiles a estos puntos.
Diagrama de Caja elaborado en el programa STATGRAPHICS CENTURION
4.Puntos a más de 1.5 IQR arriba del tercer cuartil, o a más de 1.5 IQR por debajo del primer cuartil, se denominan datos atípicos. También podemos elaborar diagramas de caja de manera más rápida, la utilización de softwares de aplicación estadística como MINITAB, PAST, etc. Ejemplo 10 Elaborar diagramas de caja para los datos de la muestra de Temperatura y Humedad utilizando el programa MINITAB EXPRESS, PAST y STATGRAPHICS CENTURION. Temperatura:
Diagrama de Caja elaborado en el programa PAST
¿Estos diagramas de caja indican datos atípicos? Se desarrolla las siguientes ecuaciones para verificar si en la caja de datos hay datos atípicos El rango atípico se calcula: Donde Q3= tercer cuartil Q1= primer cuartil L1= límite inferior L2= límite superior
Diagrama de Caja elaborado en el programa MINITAB EXPRESS
Entonces:
22
Calculando los valores atípicos:
Entonces podemos definir que el valor 11.90 es menor al límite 17.56 y que el valor 15.70 es mayor al límite superior de 27.13, por lo cual no hay valores atípicos. Humedad:
Diagrama de Caja elaborado en el programa PAST
¿Estos diagramas de caja indican datos atípicos? Aplicamos las mismas fórmulas utilizadas en los datos de temperatura. Calculando los valores atípicos:
Diagrama de Caja elaborado en el programa MINITAB EXPRESS
Entonces podemos definir que el valor 42.07 es menor al límite 60.40 y que el valor 91.42 es mayor al límite superior de 72.93, por lo cual no hay valores atípicos.
DATOS MULTIVARIADOS Los datos para cada elemento que constan de más de un valor se llaman datos multivariados. Cuando cada elemento es un par de valores, se dice que los datos son bi-variados.
Diagrama de Caja elaborado en el programa STATGRAPHICS CENTURION
Uno de los resúmenes gráficos más útiles por los datos bi-variados numéricos es el diagrama de dispersión. Si los datos constan de pares arreglados (x1, y1), . . . , (xn, yn), entonces un diagrama de dispersión se construye sólo al trazar cada punto en un sistema coordenado bidimensional. Los diagramas de dispersión también se pueden usar para resumir los datos multivariados cuando cada elemento consta de más de de dos valores.
23 Simplemente se construirían diagramas de dispersión distintos para cada par de valores. Ejemplo 11 Generar un diagrama de dispersión en cualquier programa con los datos de la muestra de Temperatura y Humedad
Datos multivariados elaborados en el programa STATGRAPHICS CENTURION
24
CAPÍTULO 4: CORRELACIÓN DE VARIABLES Procedimiento para determinar la naturaleza de la relación entre dos cantidades (variables). Cuando en los experimentos se generan datos bi-variados; un conjunto de pares ordenados (x1, y1), . . . , (xn, yn). Al graficar los pares ordenados que se generan en un experimento científico se encontrarán, aproximadamente, a lo largo de una línea recta. En estos casos, los datos son útiles para calcular la ecuación de una recta. Aquélla se puede utilizar con varios propósitos: • Grado de relación • Nivel de influencia de la variable independiente en la dependiente. • Pronosticar comportamiento de la variable dependiente. • Hacer inferencias respecto de la relación entre ambas variables.
COEFICIENTE DE CORRELACIÓN Forma de describir la relación tan cercana entre dos cantidades (variables). Se define el coeficiente de correlación, que es una medida numérica de la fuerza de la relación lineal entre dos variables. Este coeficiente se denota con la literal r. Sean (x1, y1), . . . , (xn, yn) los n puntos del diagrama de dispersión. Para calcular la correlación, primero se deducen las medias y las desviaciones estándar de las x y de las y, que se representan mediante: Después se convierte cada x y cada y a las unidades estándar; en otras palabras, se calculan los puntajes z:
El coeficiente de correlación representa el promedio de los productos de los puntajes z, excepto que se divide entre n-1 en lugar de n:
En principio, el coeficiente de correlación se puede calcular para cualquier conjunto de puntos. Éstos, en muchos casos, constituyen una muestra aleatoria de una población de puntos. En dichos casos el coeficiente de correlación con frecuencia se llama correlación muestral, y es una estimación de la correlación poblacional. Es un hecho matemático que el coeficiente de correlación se encuentra siempre entre 1 y 1. Valores positivos del coeficiente de correlación indican que la recta de mínimos cuadrados tiene pendiente positiva, ello significa que valores mayores de una variable están asociados con valores mayores que los demás. / (Directamente proporcional). Por el contrario, valores negativos del coeficiente de correlación indican que la recta de mínimos cuadrados tiene pendiente negativa, lo anterior muestra que valores mayores de una variable están relacionados con valores menores que los demás. (Inversamente proporcional). Los valores del coeficiente de correlación cercanos a 1 o a -1 indican fuerte relación lineal; asimismo, valores cercanos a 0 indican débil relación lineal. El coeficiente de correlación es igual a 1 (o a -1) sólo cuando los puntos en el diagrama de dispersión están exactamente sobre una recta
25 de pendiente positiva (o negativa); en otras palabras, cuando hay una relación lineal perfecta. Siempre que r ≠0, se dice que x y y están correlacionados. Si r = 0, se dice que x y y no están correlacionados. Puesto que el coeficiente de correlación r constituye el promedio de productos de puntajes z, también es un número puro, sin unidades. Este hecho es crucial para la utilidad de r porque permite establecer una comparación de valores de correlación aun cuando las unidades de las variables son diferentes.
Antes de que se concluya que las dos variables tienen una relación causal se debe descartar la posibilidad de confusión. El diseño experimental adecuado permite evitar la confusión desde el inicio. Ejemplo 12 Realizar el cálculo de correlación de variables con las muestras de Temperatura y Humedad.
Otra importante propiedad del coeficiente de correlación es que no lo afectan las unidades con las que se hacen las mediciones.
Datos atípicos Los datos atípicos pueden distorsionar el coeficiente de correlación enormemente, en especial con conjuntos pequeños de datos. Algunos datos atípicos los ocasionan errores en el registro de datos o fallas en la secuencia del protocolo experimental. Estos datos atípicos se pueden corregir o eliminar adecuadamente. A veces las personas eliminan los datos atípicos de una gráfica sin justificación, para darle una apariencia más agradable. Esto no es adecuado, ya que es resultado de una subestimación de la variabilidad del proceso que generó los datos.
Realizamos la siguiente tabla con las ecuaciones que se vieron en el capítulo:
Interpretar los datos que contienen datos atípicos puede ser difícil, porque hay pocas reglas fáciles de seguir. La confusión ocurre cuando hay una tercera variable correlacionada con las dos variables de interés, lo que da como resultado una correlación entre ambas. Hecho que dos variables estén correlacionadas entre sí no permite suponer que el cambio en una tenderá a ocasionar un cambio en la otra.
3
NOTA
El coeficiente de correlación mide sólo la asociación lineal ya que el coeficiente de correlación se utiliza cuando la relación entre x y y es lineal.
4
NOTA
La correlación no es casualidad
26
Para lograr obtener el valor que nos presenta la siguiente gráfica, el valor R debe ser elevado al cuadrado. Como apreciamos, el valor obtenido es igual al elaborado por el programa de Excel. También apreciamos que el valor R2 =0.7599, demostrando una relación lineal porque cumple el siguiente parámetro:
Sin embargo el valor es un poco bajo para definir que existe una correlación lineal muy fuerte entre ambas variables
Gráfica de correlación de variables elaborado en el programa Excel
27
CAPÍTULO 5: RECTA DE LOS MÍNIMOS CUADRADOS Cuando dos variables tienen una relación lineal, el diagrama de dispersión tiende a estar agrupado alrededor de la recta de mínimos cuadrados.
En la ecuación yi se llama variable dependiente, xi se conoce como variable independiente, β0 y β1 son los coeficientes de regresión, y εi se denomina error. A la ecuación se le llama modelo lineal. Si no hubiera error en la medición, los puntos se encontrarían en una línea recta con pendiente β1 e intercepto β0. Debido al error de medición, β0 y β1 no se pueden determinar exactamente, pero se pueden estimar cuando se calcula la recta de mínimos cuadrados.
(xi, yi)
El coeficiente es el intercepto de la recta de mínimos cuadrados, significa una estimación de valor de β0. La recta de mínimos cuadrados es la que ajusta “mejor” los datos. Para cada punto de datos (xi, yi) la distancia vertical al punto (xi, yi) en la recta de mínimos cuadrados es:
La cantidad se llama valor ajustado, y la cantidad ei se llama residuo asociado con el punto (xi, yi). El residuo ei representa la diferencia entre el valor observado yi en los datos y el valor ajustado pronosticado por la recta de mínimos cuadrados. Éste es la distancia vertical del punto a la recta. La recta de mínimos cuadrados se define como aquella para la que la suma de cuadrados de los residuos se minimiza. Modelos lineales, con able independiente, se modelos de regresión
sólo una variconocen como lineal simple.
ei (xi, yi)
Las cantidades se llaman coeficientes de mínimos cuadrados. El coeficiente representa la pendiente de la recta de mínimos cuadrados, es una estimación de la constante verdadera del valor de β1.
Con la ecuación mos cuadrados se lores ajustados. Y punto (xi, yi) en
5
NOTA
de la recta de mínipueden calcular los valos residuos para cada el conjunto de datos.
Los estimadores no son lo mismo que los valores verdaderos
28 Es importante entender la diferencia entre los estimadores de mínimos cuadrados y los valores verdaderos β0 y β1. Los valores verdaderos son constantes cuyos valores no se conocen. Los estimadores son cantidades que se calculan a partir de los datos. Se pueden utilizarlos estimadores como aproximaciones de los valores verdaderos. Algunas consideraciones sobre la recta de los mínimos cuadrados: • Los residuos no son lo mismo que los errores • No haga una extrapolación fuera del rango de los datos • No usar la recta de mínimos cuadrados cuando los datos no sean lineales
Después obtenemos los valores de las siguientes ecuaciones:
MEDICIÓN DE LA BONDAD DEL AJUSTE La bondad del ajuste representa una cantidad que mide qué tan bien un modelo explica un conjunto específico de datos. Un modelo lineal ajusta bien si hay una fuerte relación lineal entre x y y. El coeficiente de correlación r mide la fuerza de la relación lineal entre x y y. Por tanto, r es un valor estadístico de la bondad del ajuste para el modelo lineal. La cantidad r2, el cuadrado del coeficiente de correlación, se llama coeficiente de la determinación.
Ejemplo 13 Utilizando los valores de la muestra de Temperatura y Humedad, encontrar el modelo lineal de a partir de las ecuaciones aplicadas en este manual. Graficar la línea recta de los mínimos cuadrados para corroborar la respuesta. Empezamos obteniendo los valores promedios de las variables x y y.
Donde multiplicamos los valores obtenidos de x y y para obtener los valores de esta ecuación:
Y sumaremos todos los resultados de esa columna.
29
Y posteriormente se calcula los valores de esta ecuaciรณn y se suman los resultados:
30 Donde utilizamos los valores de las sumas totales para obtener el coeficiente de la pendiente de la recta de mínimos cuadrados.
Luego se busca el valor del coeficiente del intercepto de la recta de mínimos cuadrados.
Donde finalmente, utilizamos los valores para definir la ecuación de la recta a partir de la correlación de las variables de temperatura y humedad. Y verificamos la ecuación con la siguiente gráfica:
31
CAPÍTULO 6: COMPARACIÓN DE MODELOS / REMC ALGUNAS CONSIDERACIONES SOBRE LOS COMPARACIÓN DE MODELOS MODELOS Cuando se tienen más de un modelo para un • Los modelos nos proporcionan un marco de referencia para el pensamiento y la comunicación. • Son una descripción esquemática (aproximada) de los sistemas y fenómenos (reales / naturales). • Son bases para los cálculos. • Son conceptos “inventados“ • Ningún modelo podrá ser una réplica exacta de su contraparte real. • Las propiedades de los modelos son semejantes a las del mundo real. • Un modelo resulta útil en la medida en que sus propiedades tienen correspondencia con las del mundo real. • Para que sea útil desde el punto de vista científico, un modelo deber ser verificable mediante la observación (validación). • Como investigadores tenemos la libertad de modificar o cambiar nuestros modelos, mejorarlos o reemplazarlos
Proceso general de construcción de modelos 1.Observación / medición 2.Idea construida en nuestra imaginación (modelo) 3.Procesos de comparar las propiedades de la ideas (modelo) con el mundo real 4.Posibilidad de modificar la idea para mejorar la concordancia entre el modelo y el sistema (fenómeno)
mismo fenómeno o prueba. Es una proceso de comparación de la “bondad” y ajuste del modelo a los valores “reales” (observados o medidos).
A partir del grafico anterior podemos definir que todos los modelos son imperfectos. No hay modelos “ciertos” o “falsos” y la elección depende si el modelo es lo suficientemente “bueno” (preciso) para los propósitos de la investigación y al nivel que se busca. También los modelos nos con “correctos” ni “verdaderos” y no se puede probar la verdad del modelo, lo cual se puede decir que son: • Consistentes • Correspondientes • Concordantes • Compatibles Para comparar los modelos contra el sistema se encuentra su grado de “bondad del ajuste”, “precisión” respecto al sistema (observación). Este proceso se conoce como la evaluación de la validez o precisión del modelo.
32 RAÍZ DEL ERROR MEDIO CUADRÁTICO La raíz del promedio de las diferencias cuadráticas entre los valores “modelados” y los valores “reales” u observados….. divididos entre la media de los valores observados expresados como un porcentaje.
Luego obtenemos el valor de residuo con la siguiente formula:
Para obtener el porcentaje de una muestra se debe de empezar obteniendo el valor ajustado y su residuo. Ejemplo 13 Obtener los valores de valor ajustado y y residuo e de la muestra de Temperatura y Humedad con los valores obtenidos del coeficiente de la pendiente y coeficiente del intercepto del ejemplo pasado.
Después de obtener los últimos valores, se eleva al cuadrado los residuos (diferencias) y calculamos su media.
Entonces, utilizamos esos valores en la siguiente fórmula para calcular el valor ajustado
Posteriormente utilizamos el valor promedio del valor residual y lo aplicamos en la siguiente formula:
6
NOTA
La raíz de la diferencia media cuadrática es lo mismo que raíz del error medio cuadrático
Donde:
33 Sustituimos los valores:
Dando como resultado:
Este ejercicio permite comparar esta muestra con otra. Por ejemplo, si aplicamos el mismo procedimiento en otro mes de datos de las mismas variables de Temperatura y Humedad, podemos definir cual muestra es mejor. A la siguiente muestra de abril del mismo aĂąo de la muestra de marzo, se aplicĂł el mismo procedimiento anterior:
Aplicamos el mismo procedimiento:
Dando como resultado: Como podemos apreciar en ambos muestras, podemos determinar que la muestra obtenida en el mes de abril es mejor que la muestra de marzo, ya que su porcentaje menor.
34
CAPÍTULO 7: GRÁFICA DE RESIDUOS VS VALORES AJUSTADOS El mejor diagnóstico para la regresión de mínimos cuadrados es una gráfica de residuos ei contra valores ajustados en ocasiones llamada gráfica de residuos. En esta gráfica los residuos tienen media 0, y también la correlación entre los residuos y los valores ajustados es 0. Por tanto, la recta de mínimos cuadrados es horizontal, pasando a través del 0 sobre el eje vertical. Cuando el modelo lineal es válido, la gráfica no indicará un patrón importante. No hay curva en la gráfica, y la dispersión vertical de los puntos no debe variar demasiado de la dispersión horizontal de la gráfica, excepto quizás cerca de los bordes.
Diagramas de residuos
Como apreciamos en la siguiente figura el diagrama refleja una dispersión vertical en aumento evidentemente por el valor ajustado. Esto último indica un incumplimiento del supuesto de la varianza del error constante.
Estas condiciones no existe razón para dudar de los supuestos del modelo lineal. Cuando la dispersión vertical en un diagrama de dispersión no varía demasiado, se dice que el diagrama de dispersión es homoscedástica. Lo contrario de homoscedástica es heteroscedástico. Una gráfica de residuos que se ve bien no prueba por sí misma que el modelo lineal es adecuado, porque los supuestos del modelo lineal pueden fallar de otras maneras. Por otra parte, una gráfica de residuos con un defecto serio indica claramente que el modelo lineal es inadecuado.
En este caso, podemos apreciar que la gráfica de residuos muestra una tendencia, con residuos positivos en el centro y negativos en los extremos. Ejemplo 15 Para ver el comportamiento tanto de la muestra de MARZO como la de ABRIL de las variables de Temperatura y Humedad con los valores de residuo y valor ajustado, realizar las gráficas de residuos y generar un análisis de las mismas.
35 Marzo:
Abril:
Sus graficas correspondientes serian:
Sus graficas correspondientes serian:
Podemos apreciar que se da un patrón lineal de los valores, lo cual es necesario realizar una transformación de variable para verificar si el modelo puede mejorar. No se observan datos atípicos.
Al igual que a los gráficos de la muestra obtenida en marzo, se ve un comportamiento similar, se aprecia un patrón de comportamiento de los datos.
36 TRANSFORMACIÓN DE VARIABLES
DATOS ATÍPICOS Y PUNTOS INFLUYENTES
Si se ajusta el modelo lineal y se determina que la gráfica de residuos es heteroscedástico, o presenta una tendencia o patrón, a veces se puede arreglar el problema elevando x, y, o ambos a una potencia.
Los datos atípicos son puntos separados del volumen de los datos. Tanto el diagrama de dispersión como la gráfica de residuos se deben revisar para encontrar datos atípicos.
En general, sustituir una variable con una función de la misma se llama transformación de la variable. Específicamente, elevar una variable a una potenciase llama transformación potencia.
Consideraciones entorno a la transformación de variables Determinación de cuál transformación se debe aplicar. Con la experiencia es posible observar un diagrama de dispersión, o una gráfica de residuos, y hacer un supuesto fundamentado respecto a cómo transformar las variables. Es importante recordar que las transformaciones de las potencias no siempre funcionan. A veces ninguna de las gráficas de residuos parece buena, no importa qué transformaciones se prueben. Las gráficas de residuos con pocos puntos son difíciles de interpretar. Cuando solamente hay algunos puntos en una gráfica de residuos, es difícil determinar si se satisfacen los supuestos del modelo lineal. A veces tal gráfica parecerá heteroscedástico o presentar un patrón, pero con una inspección cercana se encontrará que esta impresión visual la causa la colocación de sólo uno o dos puntos. En ocasiones es difícil determinar si tal gráfica contiene un dato atípico. Cuando uno se enfrenta a una gráfica de residuos dispersa difícil de interpretar es razonable ajustar un modelo lineal, pero considerando los resultados con cautela, en el entendido de que no se ha establecido la propiedad del modelo.
Lo primero respecto de un dato atípico es tratar de determinar por qué es diferente del resto de los puntos. A veces al transformar las variables se eliminarán los datos atípicos cambiándolos de lugar más cerca de la mayor parte de los datos. Cuando las transformaciones no ayudan, y cuando no hay justificación para eliminar los datos atípicos, un enfoque conveniente es ajustar la recta para todo el conjunto de datos, y eliminar cada dato atípico en turno, ajustando la recta al conjunto de datos con un dato atípico eliminado. Si ninguno de los datos atípicos eliminados hace una notable diferencia a la recta de mínimos cuadrados o a las desviaciones estándar estimadas de la pendiente y del intercepto, entonces utilice el ajuste con los datos atípicos incluidos. Un dato atípico que hace una diferencia considerable en la recta de mínimos cuadrados cuando se elimina se llama punto influyente. Ejemplo 16 Aplicamos la transformación de potencia en ambas muestras para ver el nuevo comportamiento de los datos en las gráficas de residuos. Marzo: El primer grafico refleja el comportamiento de los datos sin la transformación de potencia.
37 Al igual a la muestra anterior, se aprecia un poco alteración en cuanto a la segunda grafica con respeto a la primera. Ambos ejemplos nos confirma que el modelo lineal no es el adecuado ya que arroja graficas heteroscedásticas.
COMPROBACIÓN DE INDEPENDENCIA Y NORMALIDAD En particular, cuando las observaciones ocurren en un orden de tiempo definido, es deseable graficar los residuos contra el orden con el cual las observaciones fueron hechas. Si hay tendencias en la gráfica, indica que la relación entre x y y puede estar variando con el tiempo.
En el segundo gráfico, se elevó el valor y (Humedad) al cuadrado para verificar la posibilidad de un cambio en su grafica de residuos, sin embargo los cambios son leves y sigue presentado un patrón. Abril:
En estos casos una variable que representa el tiempo, u otras variables relacionadas con el tiempo, se deben incluir en el modelo como variables independientes adicionales, y se debe realizar una regresión múltiple. Ejemplo 17 Como se trabajó muestras que presentan la variable independiente tiempo, realizar los gráficos residuo vs tiempo para ver el comportamiento de las variables con respecto a las horas del día. Hacer un gráfico para marzo y abril. Marzo:
Abril:
38
Los residuos muestran un patrĂłn claro con el tiempo que indica que se debe ajustar a un modelo de regresiĂłn mĂşltiple, con el tiempo como una variable adicional.
39
CAPÍTULO 8: REGRESIÓN LINEAL MÚLTIPLE Los métodos de regresión lineal simple son aplicables cuando se desea ajustar un modelo lineal al relacionar el valor de una variable independiente y con el valor de una sola variable dependiente x. Sin embargo, hay muchos casos en los que una sola variable independiente no es suficiente. En situaciones como éstas hay varias variables independientes, x1, x2, . . . , xp, relacionadas con una variable dependiente y. Si la relación entre las variables dependiente e independiente es lineal, se puede usar la técnica de regresión múltiple.
Una variable producto de las otras dos variables es llama interacción. En el modelo anterior, la variable x1i x2i es la interacción entre x1 y x2. Ejemplo 18 Considerar la siguiente la muestra de marzo para generar un modelo de regresión.
Se tiene una muestra de n elementos, y para cada uno se ha medido una variable dependiente y y p variables independientes x1, . . . , xp. El i-ésimo elemento de la muestra, por tanto, tiene el conjunto ordenado (yi, x1i, . . . , xpi). En consecuencia, se puede ajustar al modelo de regresión múltiple: Hay algunos casos especiales del modelo de regresión múltiple que con frecuencia se utilizan en la práctica. Uno es el modelo de regresión polinomial, en el cual las variables independientes son potencias de una sola variable. El modelo de regresión polinomial de grado p es: Los modelos de regresión múltiple también se pueden hacer con potencias de diversas variables. Por ejemplo, un modelo de regresión polinomial de grado 2, también llamado modelo cuadrático, en dos variables x1 y x2 está dado por:
Realizamos la gráfica lineal de las variables de Humedad y Temperatura:
40 Luego grafico ambas variables para generar modelo de regresión polinomial cuadrático.
Ejemplo 19 Con los mismos valores de la muestra de marzo adjuntamos la variable tiempo. Considerar que la siguiente muestra es para generar un modelo de regresión múltiple. El modelo anterior no contempla interacciones entre las variables. Utilizar el programa MINITAB para obtener los resultados.
Primero se evaluara la reacción de la humedad con respecto al tiempo y temperatura:
Sus gráficos son:
41 Luego se evaluara la reacción de la temperatura con respecto al tiempo y la humedad:
COMPROBACIONES Y PRUEBAS EN LA REGRESIÓN MÚLTIPLE En la regresión múltiple, como en la regresión lineal simple, es importante probar la validez de los supuestos para los errores en modelos lineales. Los diagnósticos para estos supuestos empleados en el caso de la regresión lineal simple también son útiles en la regresión múltiple. Estos diagnósticos son:
Sus gráficos son:
• Las gráficas de residuos contra valores ajustados • Las de probabilidad normal de residuos • Las de residuos contra el orden en que se hacen las observaciones. • También es una buena idea hacer gráficas de residuos contra cada una de las variables independientes. Si las gráficas de residuos indican incumplimiento de los supuestos, es posible intentar arreglar el problema al transformar las variables, como en la regresión lineal simple.
42