1.6 Análisis Exploratorio

Page 1

1. ESTADÍSTICA DESCRIPTIVA

1.6. Análisis Exploratorio de Datos 1.6.1. Diagrama de Puntos 1.6.2. Diagrama Tallo – Hoja 1.6.3. Diagrama Caja – Brazos 1.6.4. Ejercicios 1.6.4.1. Resueltos 1.6.4.2. Propuestos

1.6. Análisis Exploratorio de Datos Este análisis, como su nombre lo dice, permite inspeccionar de una forma rápida y sencilla el comportamiento de un conjunto de datos sin necesidad de calcular todas las medidas descriptivas, determinan a simple vista en qué lugar se concentran los datos, así como la forma general de estos.

1.6.1. Diagrama de Puntos Un diagrama de puntos agrupa los datos lo menos posible y evita la pérdida de identidad de cada observación. Para crear un diagrama de puntos se coloca un punto que representa a cada observación a lo largo de una recta numérica horizontal, la cual indica los valores posibles de los datos. Si hay observaciones idénticas o las observaciones se encuentran muy próximas, los puntos se apilan uno sobre otro para que se puedan ver de manera individual. Esto permite distinguir la forma de la distribución de los datos y las observaciones máxima y mínima. Los diagramas de puntos son útiles cuando el tamaño de la población es pequeño, mientras que los histogramas lo son para conjuntos grandes de datos.

Vázquez, H. 2009

1


Ejemplo: Este conjunto de datos refleja los pulsos, expresados en pulsaciones por minuto (ppm), de un grupo de 30 estudiantes. 68 72

60 56

76 88

68 76

64 80

80 68

72 80

76 84

92 64

68 80

56 72

72 64

68 68

60 76

84 72

Representándolos en un diagrama de puntos, tenemos:

Para este conjunto de datos, el valor mínimo (más bajo) es 56 y el valor máximo (más alto) es 92. El mínimo y el máximo describen la dispersión de los datos. Por ejemplo, podrías decir: “los pulsos se encuentran entre 56 y 92 ppm”. Sobre la base de estos datos solamente, parece que un pulso de 80 ppm sería “normal”, mientras que un pulso de 36 ppm sería demasiado bajo. Para hacer una gráfica de puntos sobre los pulsos, primero traza una recta numérica con el valor mínimo, 56, en el extremo izquierdo. Selecciona una escala y marca intervalos iguales hasta que alcances un valor máximo de 92. Por cada valor del conjunto de datos, coloca un punto sobre el valor en la recta numérica. Cuando un valor aparece más de una vez, apila los puntos. Por ejemplo, el valor 64 aparece tres veces en el conjunto de datos, de modo que hay tres puntos encima de 64. Asegúrate de rotular el eje de manera que quede claro cuáles son los datos.

1.6.2. Diagrama Tallo – Hoja Es un diagrama que también permite ilustrar de una forma sencilla y significativa el comportamiento de un conjunto de datos. Cada valor numérico se divide en dos partes. El dígito principal se convierte en el Tallo y los dígitos secundarios se convierten en las hojas. También es costumbre ordenar los valores (hojas) en cada tallo de menor a mayor. Ejemplo: Realizando el diagrama Tallo – Hoja para el ejercicio anterior: Este conjunto de datos refleja los pulsos, expresados en pulsaciones por minuto (ppm), de un grupo de 30 estudiantes. 68 72

60 56

76 88

Vázquez, H. 2009

68 76

64 80

80 68

72 80

76 84

92 64

68 80

56 72

72 64

68 68

60 76

84 72

2


Agrupando los datos en un diagrama, tenemos: TALLO

HOJA

5

66

6 7 8 9

00444888888 222226666 0000448 2

Podemos observar, que los datos que corresponden al primer tallo son 56, que el dato máximo es 92, el mínimo es 56, y que el dato que más veces se repite es el 68. Como se ordenaron los datos en cada tallo, si contamos la mitad de los datos, podemos determinar también el valor de la mediana, que sería el promedio de los valores que estén ubicados en la 15ª y 16ª posición, esto es que el valor de 72 coincide para ambas posiciones, por lo que la mediana es 72, por último podemos también concluir a simple vista que hay una ligera concentración al inicio de los datos, por lo que podemos decir que hay un ligero sesgo a la derecha.

1.6.3. Diagrama Caja – Brazos El Diagrama de Caja – Brazos es el gráfico un poco más complejo que los otros dos dados que se requiere conocer 5 medidas descriptivas, que son: el valor mínimo, el cuartil 1 (Q1), la mediana (Md), el cuartil 3 (Q3) y el valor máximo. Con la información anterior se puede realizar el gráfico:

A pesar de que las cuatro secciones (los dos brazos y las dos partes de la caja dividida por la mediana) tienen longitudes diferentes, cada una representa el 25% de los datos. Así pues, por ejemplo, el brazo largo derecho representa el mismo número de datos que el brazo izquierdo, la diferencia en las longitudes nos muestra que tan concentrados están los datos, esto es, que mientras más pequeña sea la sección mayor es la concentración de datos. Y por la longitud de los brazos y la ubicación de la mediana, en éste gráfico podemos observar que la concentración de los datos tiende a ubicarse a la izquierda, por lo que la gráfica nos muestra un sesgo a la derecha.

Vázquez, H. 2009

3


En cualquier conjunto de datos pueden presentarse valores atípicos, que son aquellos que no concuerdan con el resto de los datos, también se les llama Incongruentes, para definir si hay o no valores atípicos en una población es necesario calcular los límites fuera de los cuales se pueden considerar valores atípicos: VAI = Q1 – 1.5RIC VAS = Q3 + 1.5RIC donde RIC = Q3 – Q1 RIC: Rango Intercuartílico Si llegara a existir algún valor atípico en el conjunto de datos, después de haber calculado los límites (VAI y VAS), éste se marcará con un asterisco y el brazo quedará recortado al VAI ó VAS según sea el caso.

1.6.4. Ejercicios 1.6.4.1. Ejercicios Resueltos 1. El siguiente diagrama de Tallo – Hoja representa las edades de un grupo de personas que se sometieron a un estudio de mercado: TALLO

HOJAS

2

2233566799

3 4 5

288999 89 11

a) ¿Cuál es el valor de la Moda? La Moda es Mo = 39, porque es el dato que más veces se repite. b) ¿Cuál es el valor de la Mediana? La Mediana es Md = (29+32)/2 = 30.5., que es la edad ubicada justo al centro de todos los datos. c) ¿Cuáles son los valores mínimo y máximo? El mínimo es 22 y el máximo es 51 d) La población muestra un sesgo negativo, ¿porqué? No, porque muestra un sesgo positivo ó a la derecha dado que los datos están concentrándose en los primeros tallos. Vázquez, H. 2009

4


e) ¿Cuál es el último valor del 3er tallo? Como la última hoja del tercer tallo es 9, el dato que representa es 49. 2. El siguiente diagrama de Caja Brazos representan los ingresos semanales de los empleados de una empresa papelera:

Q1=2872 Md= 2890 Q3 = 3000

*

* 2695

2400

2600

3192

2800

3000

3200

3400

b) Define los valores atípicos y concluye si hay valores incongruentes. RIC = 3000 – 2782 = 128 VAI = Q1 -1.5RIC VAI = 2872 – 1.5(128) = 2680 VAS = Q3 + 1.5RIC VAS = 3000 +1.5(128) = 3192 Podemos ver en el gráfico un asterisco, por lo que muestra que hay un valor atípico, dado que los límites están definidos entre 2680 y 3192, fuera de estos valores, cualquier dato es considerado atípico, como conclusión de acuerdo al gráfico podemos decir que el valor atípico es aproximadamente 3300. c) Observando el gráfico, define el sesgo de la población Por la ubicación de la mediana, que tiende hacia el cuartil 1, podemos asegurar que hay un sesgo positivo ó hacia la derecha. d) ¿Qué porcentaje de la población está entre 2842 y 3030? Dado que son los valores de los cuartiles 1 y 3, lógicamente está el 50% de la población.

Vázquez, H. 2009

5


1.6.4.2. Ejercicios Propuestos 1. Del siguiente gráfico, responde las siguientes preguntas: CONTENIDO DE NICOTINA DE CIGARRILLOS (100 MM de largo)

0,5

1,0 NICOTINA (mg)

1,5

a) Define el sesgo de la distribución b) Si Q1=0.80, la Md=1, Q3=1.2 y el mínimo y máximo son 0.2 y 1.5, define los límites de los valores atípicos c) Con los datos del inciso anterior, a partir valor esta el 25% de los cigarros con mayor contenido de nicotina. 2. El siguiente gráfico nos muestra las ventas anuales (en miles de dólares) de las empresas manufactureras de México: TALLO

HOJA

22

4

23 24 25 26 27

0 2 1 2 0

0 2 1 2 2

2 1 3 4

3 99 58999 58899

b) ¿Cuáles fueron las ventas de la empresa que vendió menos? c) Cuáles fueron las ventas de la mejor empresa en ventas? d) ¿Cuál es el valor de la moda, y en función de este valor la población de que tipo es? e) ¿Cuánto vendió la primera empresa del 4º tallo? f) ¿Cuál es el valor de la mediana? g) ¿Qué comportamiento tuvieron las ventas en estas empresas?

Vázquez, H. 2009

6


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.