Estadística Aplicada
Jesús Parra Capdevielle
CONTENIDO Febrero 2016
JesĂşs Parra Capdevielle
«La estadística es la gramática de la ciencia»
-Karl Pearson
La regresión lineal es un método que se basa en estadísticas. Su función básica es obtener proyecciones sobre futuros resultados al aplicar una condición dada, por lo que le otorga la posibilidad de ser encontrada en casi todo rubro de carrera y sus ramas. Así como menciona Karl Pearson,
es un concepto básico para cada área. Su mayor fortaleza es que permite predecir ciertos resultados futuros a través de observaciones presentes, con cierto margen de error.
Debido a su variedad en utilidades, la regresión lineal se puede observar con distintos propósitos, los cuales incluyen los que se verán a continuación.
DESCRIPCIÓN DE DATOS En las ciencias puras y sus ramas, tales como ingeniería, utilizan este método para resumir un conjunto de datos, siendo útil para describirlos. ESTIMACIÓN DE PARÁMETROS Para explicar este punto, nos ayudaremos de un ejemplo dado en la clase de Estadística Aplicada de SAIA. «Suponga que un circuito eléctrico contiene una resistencia conocida de R ohms. Diferentes corrientes pasan a través del circuito y el correspondiente voltaje es medido. El diagrama de dispersión podría indicar que el voltaje y la corriente están relacionados por una línea recta que pasa por el orígen con pendiente R (debido a que el voltaje E y la corriente están relacionados por la ley de Ohm E=IR). El análisis de regresión podría ser utilizado para ajustar este modelo a
los datos, produciendo un estimado de la resistencia desconocida.»
PREDICCIÓN Y ESTIMACIÓN En el análisis de regresión se pueden distinguir dos tipos de variables: variables predictores y variables respuestas. La diferencia entre ambas no suele estar clara y depende, algunas veces, de nuestros objetivos. Algunos nombres conocidos para las variables predictores y respuestas son: •
Variables predictores = variables de entradas---------= variables X = regresoras---= variables independientes-
•
Variables respuestas = variables de salidas-----------= variables Y------------------= variables dependientes--
Utilizando la información sencilla de entender dada en el curso de Estadística Aplicada, se explicará en este artículo los modelos aprendidos.
MODELO LINEAL Se le considera así cuando los parámetros, valga la redundancia, ocurren de una forma lineal. Tomamos como ejemplo el ejemplo (1).
MODELO DE TERCER ORDEN Así como el segundo modelo, contiene una variable independiente, exponentes distintos a 1. Ejemplo (3).
MODELO DE SEGUNDO ORDEN Contiene una variable independiente pero con exponentes diferentes a uno. Se pueden observar en (2).
MODELO LINEAL CON DOS VARIABLES Como dice el título, el modelo (4) es un modelo lineal, con la diferencia de que tiene dos variables independientes.
Figura 1: Modelos polinomiales
MODELOS NO LINEALES DE PRIMER TIPO Este modelo involucra términos exponenciales dados por:
DE SEGUNDO TIPO basado sobre la relación recíproca, típicamente la hipérbola rectangular.
DE TERCER TIPO
Un ejemplo de este es la curva logística, utilizada para representar el crecimiento de organismos desde un pequeño estado inicial hasta la última etapa cuando el tamaño se aproxima a una asíntota. La idea subyacente es que la taza de cambio esta relacionada con el tamaño por una ecuación diferencial: Por lo que, en términos del tamaño a diferentes tiempos, se obtiene el modelo no lineal:
Estimar los parámetros del modelo de regresión.
El resultado de este chequeo puede indicar si el modelo es razonable o si el ajuste original debe ser modificado.
1. Elaborar las dos columnas con los datos de la variable Y y X. 2. Seleccionar el ícono de gráfico o en la barra de menú-insertar-este gráfico. 3. En la ventana desplegada, dispersión como tipo de gráfico y el diagrama con los puntos como subtipo de gráfico. 4. Ingresar el rango de datos. Click en la flecha roja del recuadro de rango de datos para que se minimice la ventana y luego seleccionar las columnas de X y Y. Click nuevamente en la flecha roja del recuadro. 5. Asegúrese que el rótulo de la variable respuesta esté en nombre y los valores de cada variable sean los correctos. Click en siguiente.
6. Opciones de gráfico. En esta ventana se debe ingresar las opciones de gráfico como: título, eje, lineas de división, leyendas. 7. Colocar el gráfico. En esta ventana elija donde ubicar el gráfico y luego click en finalizar.
El término residual como la diferencia entre el valor observado y el valor estimado (o ajustado) esto es:
Donde
Entonces:
Donde: Donde la cantidad: La suma de todos los residuales es cero. Esto es:
que puede expresarse:
o
Que se eleva al cuadrado y se suma sobre todo i = 1,2…n Lo que nos da:
Todo esto nos demuestra que, de la variación total en Y alrededor de su media, una parte de esta variación puede ser atribuida a la línea de regresión y la otra al error. La tabla de análisis de varianza es dada por:
Este número indica cuantas términos independientes de información involucradas en los «n» números independientes Y1, Y2, Y3… Yn Se necesitan para obtener la suma de cuadrados. La suma de cuadrados de la regresión puede ser calculada de una sola función llamada
Sigue una distribución F con 1 y ( n-2) grados de libertad para probar la hipótesis nula
Debido a que las Yi son variables aleatorias, cualquier función de ellas lo es también. Se puede demostrar que:
Si H0 se cumple o no se rechaza, significa que la variable predictor no influye en la variabilidad de Y. Si el valor de
,
se rechaza la hipótesis nula.
Las dos variables son independientes, un resultado estadísitico dice que la razón
También es posible tomar la decisión con el valor P si este es menor que entonces se rechaza la hipótesis nula.
Información de: Mendoza H, Vargas J, Lopez L, Bautista G. (2002). Métodos de Regresión. Universidad Nacional de Colombia, http://www.virtual.unal.edu.co/cursos/ciencias/2007315/. Licencia: Creative Commons BY-NC-ND.