Medidas de Tendencia Central PI-2610 Probabilidad y Estadística I Marco Alvarado Peña
Sesión 2
Saludos estimado (a), estudiante. En la sesiรณn de hoy bรกsicamente nos planteamos los siguientes objetivos
Objetivos de Aprendizaje Que el estudiante sea capaz de: 1. Aprender a hacer una distribuciรณn de frecuencias. 2. Reconocer los conceptos bรกsicos entorno a las medidas de tendencia central y de dispersiรณn.
2
Índice Medidas de Tendencia Central..................................................1 Objetivos de Aprendizaje...................................................... 2 Análisis de Datos.................................................................... 5 Conceptos y definiciones...................................................... 6 Medidas de Tendencia Central............................................. 7 Datos no agrupados.............................................................. 10 Datos agrupados................................................................... 13 Desviación Estándar.............................................................. 14 Medidas de Tendencia Central y de Dispersión para datos agrupados........................................................... 21 Medidas de Tendencia Central y Dispersión para datos agrupados y no agrupados, demanda semanal de televisores............................................................................. 23 Análisis de datos, definiciones............................................. 24 Rango....................................................................................24 Varianza y Covarianza.......................................................... 25 Varianza................................................................................ 26 Covarianza............................................................................ 28 Interpretación de la covarianza............................................. 28 3
Coeficiente de variaci贸n........................................................ 29 Kurtosis................................................................................... 31 L铆nea base: la distribuci贸n normal........................................ 32 Datos de picos altos.............................................................. 33 Datos de picos bajos............................................................. 33 Anotaciones a recordar......................................................... 34 Referencias............................................................................. 37
4
AnĂĄlisis de Datos Medidas de tendencia central - Media aritmĂŠtica simple y ponderada - Mediana - Moda
Fig 1. AnĂĄlisis de Datos
5
Conceptos y definiciones - Medidas de variabilidad - Rango - Varianza y covarianza - Desviaci贸n est谩ndar - Coeficiente de variaci贸n - Kurtosis
6
Medidas de Tendencia Central Hay dos medidas estadísticas que caracterizan a las Distribuciones de Frecuencia de las variables aleatorias:
Medidas de Tendencia Central Media Aritmética Mediana Moda
Medias de Dispersión Desviación Estándar Variabilidad
7
Ejemplo Para reconocer las medidas de tendencia central y de dispersi贸n tenemos el siguiente ejemplo: N煤mero de televisores vendidos por semana.
Demanda Semanal de Televisores 1
7
3
8
6
8
5
4
10
6
6
10
5
7
10
7
5
9
6
5
4
6
1
5
1
7
3
8
5
10
9
6
9
6
6
5
10
1
8
7
9
5
3
8
5
4
8
6
4
4
6
6
8
5
1
7
6
2
5
3
5
4
2
4
5
3
8
5
6
3
9
5
6
8
5
2
7
1
5
5
3
4
3
6
7
4
4
5
1
7
7
8
6
5
5
6
5
5
3
3
8
Distribución de frecuencias del número de televisores Frecuencia
Frecuencia
absoluta
relativa (%)
0–2
10
0,10
2–4
20
0,20
4–6
40
0,40
6–8
20
0,20
8 – 10
10
0,10
Demanda semanal
9
Datos no agrupados Cuando no se tienen los datos agrupados como en el caso de la demanda de televisores se puede calcular la media aritmĂŠtica de la siguiente manera:
- Media aritmĂŠtica đ?‘›
đ?‘‹đ?‘? =
1 ∑ đ?‘‹đ?‘› đ?‘› đ?‘–=1
- Varianza poblacional đ?‘ 2 ∑ đ?‘–=1(đ?‘‹đ?‘– − đ?œ‡) đ?&#x;? đ?œŽ = đ?‘
Tarea: Investigue y explique las fĂłrmulas de la media muestral y la varianza. Responda:ÂżPorquĂŠ para la varianza se eleva al cuadrado?
10
Para el caso de los televisores la media es un simple promedio que resulta de sumar todos los datos y dividirlos entre el total de datos que se tengan en la muestra.
- Media aritmética
Xp = 1+7+3+8+.....+5+3+3 = 5,46 100 R/ La media aritmética de demanda semanal de televisores es de 5.46. Claro está que no se venden 5.46 televisores, así que según criterio experto lo puede redondear siguiendo las reglas del redondeo. Para éste caso podríamos hablar de 6 televisores por ser una variable aleatoria discreta.
11
- Varianza poblacional
Σ 2 = (1- 5,46)2 + (7- 5,46)2 +.... + (3- 5,46)2 + (3- 5,46)2 = 5,1802 100 – 1
En el caso de la varianza se aplica la fórmula antes citada y resulta en 5,1802. Este valor deriva en:
Σ 2 = 2,276
¿De dónde viene este valor?
Este valor viene de sacar la raíz cuadrada de la varianza y trabajar en términos de la desviación estándar.
12
Datos agrupados Si usted cuenta con los datos ya agrupados en una distribución de frecuencias puede tambiÊn obtener la media aritmÊtica y la varianza con las siguientes fórmulas: - Media aritmÊtica: �� es el punto medio de cada uno de los intervalos o clases que componen la distribución de frecuencias, : �� es la frecuencia absoluta de cada uno de los intervalos de clase y k es el número de intervalos de la distribución de frecuencias.
- Varianza de una poblaciĂłn de datos agrupados: se denotarĂĄ al promedio ponderado de las desviaciones cuadrĂĄticas que se producen con respecto a la media aritmĂŠtica ponderada donde: k representa el nĂşmero de intervalos de la distribuciĂłn. đ?‘‹đ?‘˜ es el punto medio del intervalo de K; đ?‘›đ?‘˜ frecuencia del intervalo k; N es el total de los datos de la poblaciĂłn y đ?‘‹đ?‘? promedio aritmĂŠtico ponderado. đ?œŽ2đ?‘? = ÎŁ ↓↑ ∎đ?‘˜đ?‘˜ = (đ?‘‹đ?‘˜ − đ?‘‹đ?‘?)2 đ?‘›đ?‘˜/đ?‘
đ?‘‹đ?‘? = ÎŁ ↓↑ ∎đ?‘˜đ?‘– = 1 đ?‘‹đ?‘– đ?‘›đ?‘–/đ?‘› đ?‘‹đ?‘? = ÎŁ ↓↑ ∎đ?‘˜đ?‘– = 1 đ?‘‹đ?‘–đ?‘“đ?‘–
13
Desviación Estándar La medida es la medida de dispersión más común, que indica cuán separados de la media (o del valor especificado como “target”) están los datos, la desviación estándar estima aproximadamente la distancia “promedio” de las observaciones individuales con respecto a la media. Mientras mayor sea la desviación estándar, mayor será la dispersión de los datos.
Por ejemplo, los administradores hacen seguimiento al tiempo de egreso de los pacientes tratados en las áreas de Urgencia de dos hospitales. Aunque los tiempos de egreso promedio son aproximadamente iguales (35 minutos), las desviaciones estándar son significativamente diferentes.
14
Hospital 1
Hospital 2
La desviación estándar es
La desviación estándar es
aproximadamente 6. En
aproximadamente 20. En
promedio, el tiempo para dar de
promedio, el tiempo para dar de
alta aun paciente se desvía de
alta a un paciente se desvía de
la media (línea azul)
la media (línea azul)
aproximadamente 6 minutos.
aproximadamente 20 minutos.
Fig 2. Hospital 1 y 2
15
La desviación estándar se calcula tomando la raíz cuadrada positiva de la varianza (otra medición de la dispersión de los datos). Sin embargo, comúnmente es más conveniente e intuitivo trabajar con la desviación estándar, porque ésta utiliza las mismas unidades que los datos de origen. Por ejemplo, si una pieza de una máquina se pesa en gramos, la desviación estándar de su peso también se calcula en gramos, mientras que su varianza se calcula en gramos2 y si se deja así su análisis se hace impráctico. En una distribución normal (datos en forma de campana), las desviaciones estándar sucesivas con respecto a la media proveen valores de referencia útiles para estimar el porcentaje de observación de datos. Unidad: Σ
Fig 3. Desviación
16
Alrededor del 95% de las observaciones están dentro de 2 desviaciones estándar de la media, indicadas por el área sombreada en gris en la figura anterior.
Aproximadamente el 68% de las observaciones están dentro de 1 desviación estándar de la media (-1, + 1), y alrededor del 99.7% de las observaciones estarían dentro de 3 desviaciones estándar de la media (-3, + 3).
17
La desviaciĂłn estĂĄndar (s) es la raĂz cuadrada de la varianza.
đ?‘›
1 đ?‘ = ∑(đ?‘Ľđ?‘– − đ?‘ĽĚ… )2 đ?‘› 2
đ?‘–=1
AsĂ la varianza es la media de los cuadrados de las diferencias entre cada valor de la variable x y la media aritmĂŠtica de la distribuciĂłn.
18
Es imperioso recordar que en la vida diaria, en la práctica interesa realizar inferencias poblacionales, por lo que en el denominador de la fórmula de varianza arriba reflejada, en vez de n, se usa n – 1 grados de libertad, (Corrección de Bessel), ya que se está infiriendo a partir de muestras y por tanto los grados de libertad es importante tomarlos en cuenta. Esta ocurre cuando la media de la muestra se utiliza para centrar los datos, en lugar de la media de la población.
Puesto que la media de la muestra es una combinación lineal de los datos, el residual a la muestra media se extiende más allá del número de grados de libertad por el número de ecuaciones de restricción – en este caso uno.
Dado esto a la muestra así obtenida de la población se le aplica esta corrección con la fórmula desviación estándar muestral.
Cuando los casos tomados son iguales al total de la población se aplica la fórmula de desviación estándar poblacional.
19
La fĂłrmula de varianza para una muestra a utilizar es:
đ?‘› 2 ∑ (đ?‘Ľ − đ?‘ĽĚ… ) đ?‘– đ?‘–=0 đ?‘ 2 = đ?‘›âˆ’1
TambiĂŠn hay otra funciĂłn mĂĄs sencilla de realizar y con menos riesgo de tener equivocaciones:
đ?‘› 2 2 ∑ đ?‘Ľ − đ?‘›đ?‘ĽĚ… đ?‘– đ?‘–=0 đ?‘ 2 = đ?‘›âˆ’1
20
Medidas de Tendencia Central y de Dispersión para datos agrupados Algunas medidas importantes si se está trabajando con datos agrupados (ordenados en una distribución de frecuencias), son las que se presentan a continuación. Suponga que se tiene la Distribución de frecuencias de demanda semanal de televisores como lo establece la siguiente tabla:
Distribución de Frecuencias Xi
Xi 2
N%
Xink
Xi2-nk
11
1
102
10
10
3
9
20
60
180
5
25
40
200
1000
7
49
20
140
980
9
81
10
90
810
100
500
2980
TOTAL
1- Puntos medios de los intervalos de la distribución 2- Frecuencia de ocurrencia de la demanda
A continuación se presentan los cálculos para media y desviación para datos agrupados. Resultados para el cálculo de la varianza para la distribución de la demanda semanal de televisores, usando la fórmula descrita para agrupados.
21
- Media aritmĂŠtica demanda semanal de televisores
Xp = 1 * 0,1 + 3 * 0,2 + 5 *0,4 + 7 * 0,2 + 9 *0,1 (0,1+0,2+0,4+0,2+0,1) Xp = 5
- Varianza poblacional demanda semanal de televisores Sp2 = (1- 5)2 *10 +(3- 5) 2 *20 *(5- 5) 2*40 +(7- 5) 2*20 +(9-5) 2 * 10 99 Sp2 = 4,8485 Sp = 2,202
22
Cómo se puede ver en este cuadro resumen con los cálculos de la media y varianza para datos agrupados y no agrupados, las diferencias son ínfimas e ilustran que para datos agrupados hay una ligera diferencia dato que al estar agrupados se arrastra un error dado que al trabajar con el punto medio de clase, no se tiene certeza en qué punto caen los datos de dicho intervalo, solo asumimos que cae en el centro. Medidas de Tendencia Central y Dispersión para datos agrupados y no agrupados, demanda semanal de televisores.
Medida
Datos no agrupados
Datos agrupados
Media X
5.46001
5.00002
Varianza S2
5.1802
4.8485
Desviación estándar
2.2760
2.2020
¿Qué conclusiones tenemos de lo visto hasta aquí? ¿Qué se puede concluir de la información suministrada de demanda semanal de televisores para datos agrupados y no agrupados? Por favor elabore sus propias conclusiones al respecto. 1- Valor verdadero 2- Valor aproximado
23
Análisis de datos, definiciones Otras definiciones importantes en el análisis de datos son: Rango Es la diferencia entre los valores de datos más grandes y más pequeños en un grupo de datos recolectados.
En gráficas de control y análisis de capacidad, usted puede utilizar el rango promedio en todos los subgrupos (Gráficos Rbarra por ejemplo) para estimar la desviación estándar de su proceso.
¿Cuál es el rango en los datos de edad de la clase de probabilidad? Favor indicarlo a su profesor 20
20
20
20
19
18
20
21
19
19
19
20
19
21
20
20
20
19
19
19
19
19
20
20
22
20
19
20
20
43
21
24
Varianza y Covarianza Una medida de dispersión que representa el grado en que un conjunto o distribución de datos aparece disperso alrededor de su media. Debido a que la varianza (s2) es una cantidad elevada al cuadrado, sus unidades también están elevadas al cuadrado y pueden ser confusas para discutir en la práctica. Por ejemplo, una muestra del tiempo de espera en una parada de autobuses puede tener una media de 15 minutos y una varianza de 9 minutos2. Para resolver esta confusión, con frecuencia se muestra la varianza con su raíz cuadrada, la desviación estándar (s), que es una medición más intuitiva. Una varianza de 9 minutos2 es equivalente a una desviación estándar de 3 minutos.
25
Varianza La reducción de la varianza de procesos incrementa la precisión y reduce el número de defectos.
Por ejemplo, una fábrica produce clavos para carpintería que tienen 50mm de longitud y un clavo cumple con las especificaciones si la longitud está dentro de 2 mm del valor objetivo de 50 mm. La fábrica utiliza dos tipos de máquinas para fabricar clavos. Ambas máquinas producen clavos con longitudes normalmente distribuidas y una longitud media de 50 mm. Sin embargo, los clavos de cada máquina tienen varianzas diferentes: La máquina A, con la distribución de línea de puntos que se muestra abajo, produce clavos con una varianza de 9mm2 y la máquina B con la distribución de línea continua que se muestra abajo, produce clavos con una varianza de 1 mm2. Las distribuciones de la longitud de los clavos para cada máquina están sobrepuestas, junto con los límites de especificación verticales inferiores y superiores.
26
Distribuciones de la longitud de los clavos en mm
Fig 4. Longitud de los clavos
La longitud de los clavos de la máquina A tiene una varianza más grande que la longitud de los clavos de la máquina B. Por lo tanto, cualquier clavo de la máquina A tiene una mayor probabilidad de estar fuera de los límites de especificación que un clavo de la máquina B. 27
Covarianza Cuando se definen dos o más variables aleatorias en un espacio de probabilidad, resulta conveniente describir la forma en que varían en conjunto, es decir, es útil medir la relación entre las variables. Una medida común de la relación entre dos variables aleatorias es la covarianza. Para definir la covarianza es necesario describir el valor esperado de una función de dos variables aleatorias h(x,y).
Interpretación de la covarianza - Si covarianza > 0, hay dependencia directa (positiva), es decir, a grandes valores de x corresponden grandes valores de y. - Si covarianza = 0, una covarianza o se interpreta como la no existencia de una relación lineal entre las dos variables estudiadas. - Si covarianza < 0, hay dependencia inversa o negativa, es decir, a grandes valores de x corresponden pequeños valores de y.
28
Coeficiente de variación Medida de variabilidad relativa, igual a la desviación estándar dividida entre la media (Minitab multiplica el cociente por 100). Debido a que se trata de un número sin dimensiones, es útil para comparar la dispersión de poblaciones con medias significativamente diferentes.
Por ejemplo, usted es el inspector de control de calidad de una planta embotelladora de leche, la cual embotella el producto en recipientes pequeños y grandes. Usted toma una muestra de cada producto y observa que el volumen medio de los recipientes pequeños es de 1 taza, con una desviación estándar de 0.08 tazas, y el volumen medio de los recipientes grandes es de 1 galón (16 tazas) con una desviación estándar de 0.4 tazas. Aunque la desviación estándar del recipiente de un galón es cinco veces mayor que la desviación estándar del recipiente pequeño, sus coeficientes de variación (COVs) apoyan una conclusión diferente:
29
Recipiente grande COV = 100 * 0.4 tazas / 16 tazas = 2.5
Recipiente pequeño COV = 100 * 0.08 tazas / 1 taza = 8
El coeficiente de variación del recipiente pequeño es más de tres veces mayor que el coeficiente de variación del recipiente grande. En otras palabras, aunque el recipiente grande presenta una mayor desviación estándar, el recipiente pequeño presenta una variabilidad mucho mayor con respecto a su media.
30
Kurtosis El grado en el cual un conjunto de datos alcanza su valor máximo. Como muchas otras estadísticas básicas, la kurtosis puede ayudar a establecer un entendimiento inicial de los datos. Puede evaluar la kurtosis visualmente mediante una gráfica (como un histograma) o matemáticamente a través de la estadística de valores de kurtosis. Recordar que las distribuciones pueden ser: Platocúrticas (planas), Mesocúrticas (normal), y Leptocúrticas (puntiagudas).
31
Línea base: la distribución normal Los datos normalmente distribuidos establecen la línea base para la kurtosis: con picos no demasiado bajos ni demasiado altos. Los datos que siguieron una distribución normal perfectamente tendrían un valor de kurtosis de 0. Debido a que una kurtosis significativa indica que los datos no son normales, usted pudiera
Fig 5. Distribución normal
considerar la estadística como una primera verificación de la normalidad.
32
Datos de picos altos Una distribución con un pico más alto de lo normal tendrá un valor de kurtosis positivo.
Datos de picos bajos Una distribución con un pico más bajo de lo normal tendrá un valor de kurtosis negativo.
Fig 6. Picos altos
Fig 7. Picos bajos
33
Anotaciones a recordar - Estadístico: es una función matemática asociada a parámetros o condiciones establecidas para generar un resultado de interés.
- Variables: Cuantitativas y Cualitativas.
- Cuantitativas: Continuas y Discretas.
- Distribución de datos agrupados, requisito n > = 30 datos.
- Objetivo de las medidas de tendencia central es: resumir en un solo punto numérico la posición o localización de los datos que se están analizando.
- Se llama medidas de tendencia central debido a que se ha procedido a escoger como valores típicos a medidas de posición situadas en la parte central de la distribución.
34
- Una distribución es simétrica cuando la media aritmética, es igual a la mediana y a la moda.
- Kurtosis:
K > 0,263 distribución leptocúrtica K < 0,263 distribución platicútica K = 0,263 distribución normal
- La varianza indica la distancia total del conjunto de datos.
- Desviación estándar indica la diferencia promedio que existe entre la media aritmética y el conjunto de datos.
- Rango es la medida de variabilidad que se utiliza para ver en forma rápida la distancia total de los datos.
35
- Coeficiente de variaci贸n
- CV < 5% no tiene cambios o comportamientos bruscos de variabilidad con respecto a la media aritm茅tica. - 5% < CV < 10% una alerta el proceso tiende a tener una variabilidad pronunciada. - CV > 10% Problemas serios de variabilidad.
36
Referencias Moya, M. y Robles, N. (2010). Probabilidad y Estad铆stica: Un Enfoque te贸rico y pr谩ctico. Cartago: Tecnol贸gico de Costa Rica.
37