Revista Digital - Regresion Lineal

Page 1

Volumen 1 Agosto 2016, 13 th.

Regresión Lineal Instituto Universitario Santiago Mariño

¿Qué es?

¿Para qué sirve?

Elaborado por: Ruiz M., Yessika N. C.I. 19 501 323


PÁGI NA 2

R EGR ESI ÓN LI NEAL

Relaciones entre variables aleatorias y regresión lineal

Francis Galton Fue un polímata, antropólogo,

El término regresión fue introducido por Galton en su libro “Natural inheritance” (1889) refiriéndose a la “ley de la regresión universal”: –”Cada peculiaridad en un hombre es compartida por sus descendientes, pero en media, en un grado menor.” Regresión a la media

geógrafo, explorador, inventor,

–Su trabajo se centraba en la descripción de los rasgos físicos de los descendientes (una variable) a partir de los de sus padres (otra variable). –Pearson (un amigo suyo) realizó un estudio con más de 1000 registros de grupos familiares observando una relación del tipo: Altura del hijo = 85cm + 0,5

 

Altura del padre (aprox.) Conclusión: los padres muy altos tienen tendencia a tener hijos que heredan parte de esta altura, aunque tienen tendencia a acercarse (regresar) a la media. Lo mismo puede decirse de los padres muy bajos.

meteorólogo, estadístico, psicólogo y eugenista británico con un amplio espectro de intereses.

“Hoy en día el sentido de regresión es el de predicción de una medida basándonos en el conocimiento de otra”

No tuvo cátedras universitarias y realizó la mayoría de sus investigaciones por su cuenta. Sus múltiples contribuciones

recibieron reconocimiento formal cuando, a la edad de 87 años, se le concedió el título de sir o caballero del Reino. De intereses muy variados, Galton contribuyó a diferentes áreas de la ciencia como la psicología, la biología, la eugenesia, la tecnología, la geografía, la

Estudio conjunto de dos variables aleatorias A la derecha tenemos una posible manera de recoger los datos obtenido observando dos variables aleatorias en varios individuos de una muestra. En cada fila tenemos los datos de un individuo:

Dichas observaciones pueden ser representadas en un diagrama de dispersión (‘scatterplot’). En ellos, cada individuos es un punto cuyas coordenadas son los valores de las variables.

El objetivo siempre será intentar reconocer a partir del mismo si hay relación entre las variables, de qué tipo, y si es posible predecir el valor de una de ellas en función de la otra.

estadística o meteorología. A menudo sus investigaciones fueron continuadas dando lugar a nuevas disciplinas. Primo de Charles Darwin, aplicó sus principios a numerosos campos, principalmente al estudio del ser humano y de las diferencias individuales. En 1901, fue, junto con Karl Pearson y Walter Weldon, cofundador de la revista científica Biometrika.

Cada columna representa los valores que toma una variable aleatoria sobre los mismos. Las individuos no se muestran en ningún orden particular.


VOLUMEN 1

PÁGI NA 3

Diagramas de dispersión o nube de puntos Aquí tenemos las alturas y los pesos de 30 individuos representados en un diagrama de dispersión. Cada punto es un valor particular de la variable aleatoria bidimensional (X, Y).

Relación entre variables Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de dispersión.

Predicción de una variable en función de otra Aparentemente el peso aumenta 10 Kg por cada 10 cm de altura... O sea, el peso aumenta en una unidad por cada unidad de altura.

¿Qué es una gráfica de valores? Un gráfico o representación gráfica es un tipo de representación de datos, generalmente numéricos, mediante recursos gráficos (líneas, vectores, superficies o símbolos), para que se manifieste visualmente la relación matemática o correlación estadística que guardan entre sí. También es el nombre de un conjunto de puntos que se plasman en coordenadas cartesianas y sirven para analizar el comportamiento de un proceso o un conjunto de elementos o signos que permiten la interpretación de un fenómeno. La representación gráfica permite establecer valores que no se han obtenido experimentalmente sino mediante la interpolación (lectura entre puntos) y la extrapolación (valores fuera del intervalo experimental).


PÁGI NA 4

R EGR ESI ÓN LI NEAL

Cómo reconocer relación directa e inversa Descorrelación Para valores de X por encima de la media tenemos valores de Y por encima y por debajo en proporciones similares: Descorrelación.

Gráfico lineal

los valores en dos ejes cartesianos ortogonales entre sí. Las gráficas lineales se recomiendan para representar series en el tiempo, y es donde

se muestran valores máximos y mínimos; también se utilizan para varias muestras en un diagrama.

Fuerte relación direta Para los valores de X mayores que la media le corresponden valores de Y mayores también. Para los valores de X menores que la media le corresponden valores de Y menores también. Esto se llama relación directa o creciente entre X e Y.

Cierta relación inversa Para los valores de X mayores que la media le corresponden valores de Y menores. Esto es relación inversa o decreciente.


VOLUMEN 1

PÁGI NA 5

Cómo reconocer buena o mala relación Poca relación Dado un valor de X no podemos decir gran cosa sobre Y. Mala relación. Independencia.

Fuerte relación directa Conocido X sabemos que Y se mueve por una horquilla estrecha. Buena relación. Lo de “horquilla estrecha” hay que entenderlo con respecto a la dispersión que tiene la variable Y por si sola, cuando no se considera X.

Cierta relación inversa

¿Sabias qué? Gottfried Achenwall nació en Elbing, Prusia Oriental en 1719 y murió en 1772. Fue un economista, inventor de la "Estadística". Escribió obras sobre la historia de los Estados europeos, basados en derecho y economía política, tales como: "Elementos de Estadística de los principales Estados de Europa" y "Principios de Economía Política". Nació en Elbing, Prusia Oriental. A partir de 1738 estudió en el Jena, Halle, Jena y Leipzig nuevo. En los años 1743 a 1746, trabajó como controlador de Dresde. Se le concedió su título de maestría en 1746 por la Facultad de Filosofía de Leipzig y se fue en el siguiente a Marburg para trabajar como asistente de profesor de historia de conferencias, estadísticas, natural y del derecho internacional. En 1748 fue llamado a la Universidad de Göttingen para convertirse en profesor extraordinario de filosofía, en 1753 profesor extraordinario de la ley y el profesor titular de filosofía.


PÁGI NA 6

R EGR ESI ÓN LI NEAL

Covarianza de dos variables aleatorias X e Y

¿Y quién fue Pearson? Karl Pearson (Londres 27 de marzo de 1857- Londres, 27 de abril de 1936) fue un prominente científico, matemático y pensador británico, que estableció la disciplina de la estadística matemática. Desarrolló una intensa investigación sobre la aplicación de los métodos estadísticos en la biología y fue el fundador de la bioestadística. Fue un positivista radical, en la tradición de Berkeley y Ernst Mach. Era partidario de la eugenesia1 . La familia de Karl era disidente y de tendencia puritana. A los 22 años Karl rechazó el cristianismo y adoptó el librepensamiento como una fe no religiosa que estaba fundada en la ciencia, aunque distinguió sus pensamientos de los librepensadores tradicionales. ”Carl” se convirtió en ”Karl” inadvertidamente cuando la Universidad de Heidelberg cambió la manera de escribir su nombre cuando se matriculó en 1879, aunque usó ambas variantes de su nombre hasta 1884 cuando finalmente adoptó “Karl” – presuntamente por Karl Marx, a quien conoció en vida – y con el tiempo llegó a ser conocido universalmente como “KP”.

La covarianza entre dos variables, Sxy, nos indica si la posible relación entre dos variables es directa o inversa: El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente o no, pero no nos dice nada sobre el grado de relación entre las variables.

Coeficiente de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, nos indica si los puntos tienen una tendencia a disponerse alineadamente (excluyendo rectas horizontales y verticales). •Tiene el mismo signo que Sxy . Por tanto de su signo

obtenemos el que la posible relación sea directa o inversa. •r es útil para determinar si hay relación lineal entre dos variables, pero no servirá para otro tipo de relaciones (cuadrática, logarítmica,...)

Propiedades de r Es adimensional. •Sólo toma valores en [-1,1]. •Las variables son

•Relación lineal perfecta o r = -1. Excluimos los casos de puntos alineados horiz. o verticalmente.

•Cuanto más cerca esté r de +1 o -1 mejor será el grado de relación lineal.


VOLUMEN 1

PÁGI NA 7

Entrenando el ojo: Correlaciones positivas

Entrenando el ojo: Casi perfectas y positivas

¿Sabias qué? La regresión lineal aplicada en fabricación es una técnica estadística para modelar e investigar la relación entre dos o más variables. Este método es aplicable en muchas situaciones en las que se estudia la relación entre dos o más variables o predecir un comportamiento, algunas incluso sin relación con la tecnología. En caso de que no se pueda aplicar un modelo de regresión a un estudio, se dice que no hay correlación entre las variables estudiadas.


PÁGI NA 8

¿Cuántas veces hay que barajar las cartas? Querido lector, antes de seguir leyendo te propongo este acertijo: ¿Cuántas veces crees que es necesario mezclar una bajara de 52 cartas para que la distribución de éstas sea totalmente aleatoria, independientemente del estado de la ba raja antes de comenzar a barajar? Cuando estamos disputando una partida de cartas, es común que algún jugador que ha tenido una mala mano asegure que quien barajó no lo hizo correctamente. También es frecuente percatarse de que quien pierde más tiempo barajando no es otro que el que está teniendo peor suerte en la partida e intenta que ésta cambie mezclando a conciencia las cartas. Pues bien, existe un estudio de dos matemáticos estadounidenses Persi Diaconis y David Bayer que en el año 1991 recurrieron a sistemas informáticos para estudiar este curiosos problema; la conclusión de este estudio fue que es suficiente con mezclar las cartas siete veces para que su distribución sea aleatoria dentro de una baraja de 52 naipes. Esto quiere decir que cualquier carta tiene la misma probabilidad de encontrarse en cualquier posición. Mezclar las cartas más de siete veces es innecesario y menos de siete resulta insuficiente.

R EGR ESSI ON LI NEAL

Entrenando el ojo: correlaciones negativas

Preguntas ¿Si r = 0 eso quiere decir que las variables son independientes? En la práctica, casi siempre sí, pero no tiene por qué ser cierto en todos lo casos. Lo contrario si es cierto: Independencia implica no correlación.

Me ha salido r = 1,2 ¿La relación es “superlineal” [sic]? ¿Superqué? Eso es un error de cálculo. Siempre debe tomar un valor entre -1 y +1.

¿A partir de qué valores se considera que hay “buena relación lineal”? Es difícil dar un valor concreto (mirad los gráficos anteriores). Para este curso digamos que si |r| > 0,7 hay buena relación lineal y que si |r| > 0,4 hay cierta relación (por decir algo... la cosa es un poco más complicada: observaciones anómalas,...)


VOLUMEN 1

Regresión lineal simple El análisis de regresión sirve para predecir una medida en función de otra medida (o varias: regresión múltiple). Y = Variable dependiente predicha, medida, es una variable aleatoria explicada X = Variable independiente predictora, controlada, no es una variable aleatoria. explicativa ¿Es posible descubrir una relación? Y = f(X) + error f es una función de un tipo determinado el error es aleatorio, pequeño, y no depende de X

Recordemos el ejemplo del estudio de la altura en grupos familiares de Pearson:

 Altura del hijo = 85cm + 0,5 altura del padre (Y = 85 + 0,5 X)  Si el padre mide 200 cm, ¿cuánto mide el hijo? –Se espera (predice) 85 + 0,5 x 200 = 185 cm. »Alto, pero no tanto como el padre. Regresa a la media.

 Si el padre mide 120 cm, ¿cuánto mide el hijo? –Se espera (predice) 85 + 0,5 x 120 = 145 cm. »Bajo, pero no tanto como el padre. Regresa a la media. •Esto es un modelo de regresión lineal simple.

Modelo de regresión lineal simple 

En el modelo de regresión lineal simple, dado dos variables Y (dependiente) X (independiente, explicativa)

Buscamos encontrar una función de X muy simple (lineal) que nos permita aproximar Y mediante Ŷ = b0 + b1X b0 (ordenada en el origen, constante) b1 (pendiente de la recta)

Y e Ŷ rara vez coincidirán por muy bueno que sea el modelo de regresión. A la cantidad

En el ejemplo de Pearson y las alturas, él encontró:

e = Y-Ŷ se le denomina residuo o error residual. Ŷ = b0 + b1X b0 = 85 cm (No interpretar como altura de un hijo cuyo padre mide 0 cm ¡Extrapolación salvaje!) b1= 0,5 (En media el hijo gana 0,5 cm por cada cm del padre.)

PÁGI NA 9

La Paradoja de los 2 sobres Una persona participa en un concurso donde le ofrecen elegir entre dos cajas. Ambas contienen dinero y se sabe que una tiene el doble de dinero que la otra. La paradoja que se plantea es la siguiente: supongamos que una de las cajas contiene una cantidad x. Entonces la otra caja puede tener o bien 2x o bien x/2. Como una cosa es igual de probable que la otra, la esperanza matemática de la cantidad que contiene la otra caja es 0,5*2x + 0,5*x/2 = 1,25x Esto es más que x, luego al concursante le vendría bien elegir la otra caja. ¡Pero el razonamiento puede hacerse exactamente igual con la otra caja! ¿Dónde está el fallo? Esta es una de esas paradojas sobre las que es difícil que la gente se ponga de acuerdo y existen numerosas teorías sobre su explicación. La explicación que a continuación muestro es tan sólo una de ellas. En el razonamiento que se sigue no hay motivo alguno para suponer que cuando aparece una cantidad x en una de las cajas la probabilidad de que la otra caja tenga el doble o la mitad es la misma. La razón de que no se tenga suficiente información sobre la forma en que se han repartido las cajas no es suficiente para deducir que la probabilidad sea la misma. Por ejemplo, si la suma de los premios es Q y la caja que elijo para hacer el razonamiento tuviese Q/2, entonces la probabilidad de que la otra caja tenga el doble de esto no es 1/2 sino 0. El razonamiento que se hace no tiene pues por qué ser cierto para cualquier valor de x.


PÁGI NA 10

El siguiente dilema es bastante popular pero no por ello menos enigmático: Dos programas de televisión sortean un gran premio. En el primero de los programas, hay 3 puertas cerradas. Detrás de una de ellas está el premio; detrás de las otras dos no hay nada. Tenemos la opción de elegir una puerta. Si aparece el premio, es nuestro. Si detrás de a puerta elegida no hay nada no ganamos nada. Así, la probabilidad de ganar es, claro está, 1/3. El otro programa tiene un mecanismo diferente. Nuevamente hay 3 puertas y sólo una es la que contiene. Elegimos una de las puertas y enseguida el presentador del programa elige una de las 2 restantes. Nos dan entonces la siguiente opción: podemos quedarnos con la elección original o bien cambiar la decisión y pasar a la puerta que el presentador dejó libre. Hecha esta 2ª elección, ya no tenemos más oportunidades; abrimos la puerta elegida y sabremos si hemos ganado o perdido. Lo que sí sabemos es que el presentador adopta el siguiente criterio: Si en 1ª instancia elegimos la puerta correcta, entonces el presentador elige al azar entre alguna de las otras 2. Si en primera instancia elegimos una puerta incorrecta, entonces se para delante de la otra y nos deja libre la puerta ganadora. Desde luego esta decisión la toma el presentador sin que sepamos si nosotros elegimos (en primera instancia) la puerta correcta o no. Evidentemente, el dilema a resolver es: ¿En qué programa conviene participar? ¿Es indistinto? Si uno participa en el segundo programa, ¿qué estrategia conviene adoptar? ¿conviene conservar la decisión original o conviene cambiarla? ¿es indistinto? La respuesta a este dilema es que conviene participar en el 2º programa y siempre optar por escoger la puerta que dejó libre el presentador. En este caso tendrá el doble de opciones de ganar que en el 1er programa. Veámoslo: Como ya se ha comentado, la probabilidad de escoger la puerta correcta en el primer intento es igual a 1/3. Por lo tanto la probabilidad de que la puerta correcta sea una de las restantes es igual a 2/3; que es igual a la probabilidad de que el presentador le deje libre la puerta ganadora. O sea, que si siempre se cambia de puerta la probabilidad de éxito es de 2/3 (el doble que en el primer programa). A modo de colofón, quisiera finalizar este artículo con la siguiente reflexión distendida: Un estadístico puede tener la cabeza en un horno y los pies inmersos en una palangana con hielo y en promedio el dirá que se siente muy bien.

R EGR ESSI ON LI NEAL

La relación entre las variables no es exacta. Es natural preguntarse entonces: Cuál es la mejor recta que sirve para predecir los valores de Y en función de los de X Qué error cometemos con dicha aproximación (residual). El modelo lineal de regresión se construye utilizando la técnica de estimación mínimo cuadrática: Buscar b0, b1 de tal manera que se minimice la cantidad

Se comprueba que para lograr dicho resultado basta con elegir:

La recta de regresión estimada será: Se obtiene además unas ventajas “de regalo”:

El error residual medio es nulo.

La varianza del error residual es mínima para dicha estimación.

Que el error medio de las predicciones sea nulo no quiere decir que las predicciones sean buenas. Hay que encontrar un medio de expresar la bondad del ajuste (bondad de la predicción).

¿Cómo medir la bondad de una regresión? Imaginemos un diagrama de dispersión, y vamos a tratar de comprender en primer lugar qué es el error residual, su relación con la varianza de Y, y de ahí, cómo medir la bondad de un ajuste.


VOLUMEN 1

PÁGI NA 11

Interpretación de la variabilidad en Y En primer lugar olvidemos que existe la variable X. Veamos cuál es la variabilidad en el eje Y. La franja sombreada indica la zona donde varían los valores de Y. Proyección sobre el eje Y = olvidar X.

Interpretación del residuo Fijémonos ahora en los errores de predicción (líneas verticales). Los proyectamos sobre el eje Y. Se observa que los errores de predicción, residuos, están menos dispersos que la variable Y original. Cuanto menos dispersos sean los residuos, mejor será la bondad del ajuste.

Bondad de un ajuste Resumiendo: La dispersión del error residual será una fracción de la dispersión original de Y. Cuanto menor sea la dispersión del error residual mejor será el ajuste de regresión. Eso hace que definamos como medida de bondad de un ajuste de regresión, o coeficiente de determinación a:

Entre un 70 y un 80% de los estudiantes universitarios hoy en día tiene un trabajo de media jornada o jornada completa. Eso es el doble de los que estudiantes que trabajaban hace 30 años.


ELABORADO POR YESSIKA N. RUIZ M. PARA LA ASIGNATURAD DE ESTADISTICA II DE LA UNIVERSIDAD SANTIAGO MARIÑO — TACHIRA SE RESERVAN LOS DERECHOS DE ELABORACIÓN DE ESTA REVISTA


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.