BENEMÉRITA ESCUELA NORMAL “MANUEL ÁVILA CAMACHO” PROCESAMIENTO DE LA INFORMACIÓN ESTADÍSTICA
ESTUDIO DE POBLACIONES CON DATOS BIVARIADOS MAESTRA: TEHUA XÓCHITL MUÑOZ
INTEGRANTES: JAZMÍN VÁZQUEZ MIRANDA
CINTHYA JAZMÍN RODRÍGUEZ BRIONES
ESTUDIO DE POBLACIONES CON DATOS BIVARIADOS Cuando se miden dos variables en una sola unidad experimental; los datos resultantes se llaman datos bivariados. los mĂŠtodos para graficar datos bivariados, si las variables son cualitativas o cuantitativas, permiten estudiar las dos variables
DATOS BIVARIADOS • Corresponden a la medición de dos variables en una sola unidad de observación • Por lo general, nos interesa establecer la relación entre las dos variables. • Al igual que los datos univariados, se utilizan las diferentes herramientas gráficas, dependiendo del tipo de variables que se están midiendo.
• Cuando trabajamos una variable sobre dos individuos simultáneamente o dos variables sobre un mismo individuo estamos hablando de los datos bivariados.
• Los datos bivariados se expresan a través de pares de valores, es decir pares ordenados tipo (a,b), cuando se obtienen estos tipos de valores nos referimos a una distribución bidimensional de la información que estamos analizando.
DISTRIBUCIÓN BIDIMENSIONAL • Las distribuciones bidimensionales son aquellas en las que se estudian al mismo tiempo dos variables de cada elemento de la población: por ejemplo: • peso y altura de un grupo de estudiantes; • superficie y precio de las viviendas de una ciudad; • potencia y velocidad de una gama de coches deportivos
TABLAS DE DATOS • Los pares de valores se pueden contemplar en tablas de datos, estas tablas de datos permiten condensar la información que se necesita para un análisis que de origen a la relación entre ambos elementos, sean X y Y con una variable única o sean X y Y variables con un mismo individuo
PLANO CARTESIANO • El plano cartesiano es un sistema de referencias que se encuentra conformado por dos rectas numéricas, una horizontal y otra vertical, que se cortan en un determinado punto. A la horizontal se la llama eje de las abscisas o de las x y al vertical eje de las coordenadas o de las yes, en tanto, el punto en el cual se cortarán se denomina origen. La principal función o finalidad de este plano será el de describir la posición de puntos, los cuales se encontrarán representados por sus coordenadas o pares ordenados. Las coordenadas se formarán asociando un valor del eje x y otro del eje y.
DIAGRAMA DE DISPERSIÓN • El diagrama obtenido mediante el establecimiento de los pares ordenados de ambas variables o de ambos individuos se conoce con el nombre de diagrama de dispersión, por que allí están dispersos los datos de ambas variables, este tipo de diagrama es muy común en el análisis de diferentes datos con respecto al tiempo para estudios científicos, estudios demográficos, entre otros estudios especializados. En donde se pretende establecer la relación que puede haber entre una variable y otra, para facilitar un estudio determinado. • Los datos que corresponden a dos tipos de individuos o a dos variables de un mismo individuo tienen un análisis particular, estamos hablando de un análisis que busca establecer relaciones es decir, se buscan correlaciones y a su vez se buscan codesviaciones, es decir covarianzas.
CORRELACIÓN Y COVARIANZA • la correlación es aquello que indicará la fuerza y la dirección lineal que se establece entre dos variables aleatorias. • La covarianza de una variable bidimensional, es la media aritmética de los productos de las desviaciones de cada una de las variables respecto a sus medias respectivas.
• Existe una relación entre la correlación y la covarianza, puesto que la covarianza busca el establecimiento de una relación lineal entre las variables X y Y
RELACIÓN LINEAL • La covarianza entre X y Y se obtiene a través de la sumatoria del producto entre la desviación de cada Xi con respecto a su media y la desviación de cada Yi con respecto a su media sobre el número de datos totales de la población o de la muestra este producto utiliza la misma cantidad de datos por que se supone que para cada X hay una Y, si no, no existiría dicho par ordenado. • Una vez que se define el valor de covarianza se definen los siguientes elementos que ocurren. • Cuando la covarianza es mayor que cero, hay una relación directa positiva es decir una relación lineal con una pendiente mayor que cero • Cuando la covarianza es negativa hay una correlación lineal inversa con una pendiente menor que cero. • Y cuando la covarianza en igual que cero no existe una relación lineal entre X y Y.
¿POR QUÉ ES NECESARIO EL VALOR DE LA COVARIANZA? • Es necesario para el análisis de datos mediante una correlación, en una correlación se buscan tres elementos que nos permitirán indicar las características de la relación entre los datos, estos son la fuerza, el sentido y la forma. • FUERZA: se refiere a la cercanía de los datos en el diagrama de dispersión respecto a una forma particular • FORMA: más comúnmente empleada es la línea recta, por eso se habla de correlación lineal • SENTIDO: indica si la correlación en negativa o positiva.
COEFICIENTE DE CORRELACIÓN DE PEARSON • Uno de los principales elementos de una correlación ya sean lineales, exponenciales o cuadráticas es su estado por la característica forma es el coeficiente de correlación de Pearson, en el cual se establece un vinculo entre la covarianza, que es la que indica la presencia de una relación directa o inversa con el producto de las desviaciones de cada una de las muestras, es decir, de cada uno de los datos, ya sean X o Y.
• El coeficiente de correlación de Pearson se puede analizar, a través de tres valores fundamentales, sus valores limites son uno o menos uno .
• Cuando r es igual a menos uno, se esta hablando de una correlación negativa perfecta, los datos se encuentran verdaderamente relacionados entre si, es decir podemos hablar de un dato y encontrar el valor del otro como su efecto • Cuando hablamos de un valor de r igual a uno estamos ante una correlación positiva perfecta, esta es una relación directa • Cuando hablamos de un coeficiente de Pearson igual a cero no hay correlación alguna, de hecho la covarianza seria igual a cero, entonces no tendríamos un vinculo entre X y Y
•
NOTA: Podríamos encontrar valores intermedios entre 0 y -1 o entre 0 y 1, entonces la relación seria negativa o positiva respectivamente.
• Calificaciones (sobre 100 puntos) en simulacro y prueba de selección, para 12 aspirantes
EJEMPLO:
• En este caso vamos a estudiar la correlación entre los datos del simulacro y los datos de la prueba.
TABLA DE DATOS
• Empecemos por el plano cartesiano… • Llamaremos a las variables del simulacro X y a la variable de las pruebas Y, están quedaran en el eje de las abscisas y las ordenadas respectivamente.
• Podemos observar que se forma una nube de puntos casi en una forma recta, pero cuando no podemos realizar un diagrama de dispersión, se puede comprobar mediante el calculo de la covarianza y el subsecuente coeficiente de variación de Pearson. • Empecemos por el calculo de la covarianza, primero necesitamos el valor promedio de la variable de X y el de la variable de Y
X = 73
Y = 75.5
• En esta tabla vamos a disponer los valores de las desviaciones o las diferencias entre cada X con su respectiva media y cada Y con su respectiva media y el producto entre ambas diferencias • NOTA: El producto de las desviaciones debe hacerse para cada par ordenado, no podemos tomar la sumatoria de todas las desviaciones de X y todas las desviaciones de Y, por que la ley distributiva permitiría crear un montón de productos que no corresponder a su respectivo par ordenado
X = 73
Y = 75.5
COEFICIENTE DE CORRELACIÓN DE PEARSON
EJERCICIO Estatura y peso de 10 hombres y 10 mujeres, empleados de una empresa. Hombres
Mujeres
Estatura (m)
Peso (kg)
Estatura(m)
Peso (kg)
1.61
72.21
1.53
50.07
1.61
65.71
1.60
59.78
1.70
75.08
1.54
50.66
1.65
68.55
1.58
56.96
1.72
70.77
1.61
51.03
1.63
77.18
1.57
64.27
1.76
81.21
1.61
68.62
1.67
75.71
1.52
54.53
1.67
76.57
1.62
66.96
1.65
68.78
1.63
66.94