Tema 3: Distribuciones bidimensionales. Relación entre dos variables estadísticas.
Laura Mora Carrasco, Javier Márquez Rodríguez 2ºA.
1. Relación estadística. Correlación. Se dice que dos variables X e Y están relacionadas estadísticamente cuando conocida la primera se puede estimar aproximadamente el valor de la segunda, ejemplos: * Ingresos y gastos de una familia * Producción y ventas de una fábrica * Gastos en publicidad y beneficios de una empresa Si representamos cada par de valores como las coordenadas de un punto, el conjunto de todos ellos se llama nube de puntos o diagrama de dispersión.
1. Relación estadística. Correlación. La correlación indica la fuerza y la dirección de una relación lineal entre dos variables aleatorias. Se considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas varían sistemáticamente con respecto a los valores homónimos de la otra. Cuando observamos una nube de puntos podemos apreciar si los puntos se agrupan cerca de alguna curva. Aquí nos limitaremos a ver si los puntos se distribuyen alrededor de una recta. Si así ocurre diremos que hay correlación lineal. La recta se denomina recta de regresión.
2. Diagramas de dispersión o nube de puntos. Representación gráfica realizada mediante un dibujo en un sistema bidimensional de coordenadas cartesianas. En este tipo de diagramas cada punto representa la puntuación que el sujeto obtiene en las dos variables, determinando su puntuación por la lectura de los valores que aparecen en la escala vertical y horizontal. La producción de este tipo de diagramas es el paso más importante a la hora de estudiar la correlación entre dos variables.
2. Diagramas de dispersión o nube de puntos. Características
Según la forma de la nube de puntos podemos obtener la siguiente información: 1. Conocer si existe una relación directa o inversa entre las variables. 2. Saber si esa relación es fuerte o débil. 3. Según sea la dispersión de los datos (nube de puntos) en el plano cartesiano, puede darse alguna de las siguientes relaciones, Lineal, Logarítmica, Exponencial, Cuadrática, entre otras. Las ecuaciones de cada relación se presentan en la siguiente forma:
3. Tablas de frecuencia: Distribuciones marginales y distribuciones condicionadas. Las tablas de frecuencias son unas ordenaciones en forma de tabla de los datos estadĂsticos, asignando a cada dato su frecuencia correspondiente.
3. Tablas de frecuencia: Distribuciones marginales y distribuciones condicionadas. Al analizar una distribución bidimensional, uno puede centrar su estudio en el comportamiento de una de las variables, con independencia de como se comporta la otra. Estaríamos así en el análisis de una distribución marginal. De cada distribución bidimensional se pueden deducir dos distribuciones marginales: una correspondiente a la variable x, y otra correspondiente a la variable y.
3. Tablas de frecuencia: Distribuciones marginales y distribuciones condicionadas. Sean X e Y dos variables, con p y q modalidades respectivamente, llamaremos distribuci贸n condicionada de Y a que X tome la modalidad xi al conjunto de valores que toma Y siendo el valor tomado por X= xi y lo notaremos Y | X = xi
4. Parámetros estadísticos bidimensionales. En estadística se estudian en ocasiones varias características de una población para compararlas, estudiar su dependencia o correlación o realizar cualquier otro estudio conjunto. El caso más común de dos variables se conoce como estadística bidimensional. En los estudios bidimensionales, cada una de las dos variables que entran en juego, estudiadas individualmente, pueden resumirse mediante los parámetros que se han visto hasta ahora.
4. Parámetros estadísticos bidimensionales. 4.1. La media y la desviación típica. La media aritmética es el valor obtenido al sumar todos los datos y dividir el resultado entre el número total de datos. La desviación típica (denotada con el símbolo σ) es una medida de centralización o dispersión para variables de razón y de intervalo, de gran utilidad en la estadística descriptiva.
4. Parámetros estadísticos bidimensionales. 4.2. Covarianza. La covarianza es la interpretación de este parámetro tiene que ver con la eventual correlación lineal de las dos variables. Una covarianza positiva implica una correlación directa y una negativa, una correlación inversa. 4.3. Coeficiente de correlación lineal. Se trata de un coeficiente que permite determinar la bondad del ajuste de la nube de puntos por una recta. El coeficiente de correlación lineal toma valores entre -1 y 1.
5. Rectas de regresiรณn La recta de regresiรณn es la que mejor se ajusta a la nube de puntos. La recta de regresiรณn pasa por el punto centro de gravedad llamado centro de gravedad. Recta de regresiรณn de Y sobre X La recta de regresiรณn de Y sobre X se utiliza para estimar los valores de la Y a partir de los de la X. La pendiente de la recta es el cociente entre la covarianza y la varianza de la variable X.
5. Rectas de regresi贸n
Recta de regresi贸n de X sobre Y La recta de regresi贸n de X sobre Y se utiliza para estimar los valores de la X a partir de los de la Y. La pendiente de la recta es el cociente entre la covarianza y la varianza de la variable Y.