“La estadística se define como la ciencia que permite estudiar las regularidades o patrones en un conjunto de datos para tomar decisiones racionales”.
Javier A. Huamán A. Jaha. jhuaman@stm.edu.pe
9
mp pe
Estadística Descriptiva La estadística descriptiva es la ciencia que analiza series de datos (por ejemplo, edad de una población, peso de los trabajadores de un determinado centro de trabajo, temperatura en los meses de verano, etc.) y trata de extraer conclusiones sobre el comportamiento de estos elementos o variables. La información es importante para la toma de decisiones en muchos problemas. Para esto necesitamos un procesamiento adecuado de los datos de, para que nos arroje conclusiones certeras. En caso contrario, si no se aplica un buen procesamiento, es posible que en base a los resultados tomemos una mala decisión. Información buena Información suficiente Procesamiento correcto
⇒ buena decisión
Definiciones conceptuales Población. Es el conjunto de todos los elementos que presentan una característica común determinada, observable y medible. Por ejemplo, si el elemento es una persona, se puede estudiar las características edad, peso, nacionalidad, sexo, etc. Los elementos que integran una población pueden corresponder a personas, objetos o grupos (por ejemplo, familias, fábricas, empresas, etc.). Las características de la población se resumen en valores llamados parámetros. Muestra. La mayoría de los estudios estadísticos, se realizan no sobre la población, sino sobre un subconjunto o una parte de ella, llamado muestra, partiendo del supuesto de que este subconjunto presenta el mismo comportamiento
Nociones de Estadística Descriptiva – ebook - jaha
Francis Galton y Karl Pearson Padres de la Estadística Moderna
y características que la población. En general el tamaño de la muestra es mucho menor al tamaño de la población. Los valores o índices que se concluyen de una muestra se llaman estadígrafos y estos mediante métodos inferenciales o probabilísticos, se aproximan a los parámetros poblacionales. Variable. Se llama variable a una característica que se observa en una población o muestra, y a la cual se desea estudiar. La variable puede tomar diferentes valores dependiendo de cada individuo. Una variable se puede clasificar de la siguiente manera. a) Variable cuantitativa: es aquella que toma valores numéricos (edad, talla, precio, ingresos). Dentro de ella, se subdividen en: Continua: son valores reales. Pueden tomar cualquier valor dentro de un intervalo. Ej. Peso, estatura, sueldos. Discreta: toma valores enteros. Ej. N° de hijos de una familia, n° de alumnos de un curso.
02
b) Variable cualitativa: es aquella que describe cualidades o características (atributos). No son numéricas (nacionalidad, sexo, religión) y se subdividen en: Nominal: son cualidades sin orden. Ej. Estado civil, preferencia por una marca, sexo, lugar de residencia.
Cualitativas Cuantitativas
Tipo De Variables
Ordinal: son cualidades que representan un orden y jerarquía. Ej. Nivel educacional, días de la semana, calidad de la atención, nivel socioeconómico. Según sea de un tipo u otro la variable podrá medirse de distinta manera, o lo que es lo mismo en la terminología estadística, tendrán distintas escalas de medida. Escala nominal: Identifica la pertenencia de un elemento sujeto u objeto a un grupo u otro, a niveles generalmente mutuamente excluyentes. Permite la distinción entre elementos pero no su ordenación. Escala ordinal: Identifica a cada elemento en una posición de escala respecto a los otros. Escala por intervalo: Identifica la posición ordinal de cada elemento y permite además medir las distancias entre unos y otros utilizando una escala de medida subjetiva. Escala de proporción: Permite medir las distancias entre elementos utilizando una escala de objetiva y, por lo tanto, posibilita la utilización de razones o ratios comparativos.
Obtención de los Datos La obtención de la información se puede realizar por diversos medios. Una forma es a través de una encuesta a un grupo de individuos, donde a cada uno se le hace las mismas preguntas. Otra forma es a través de experimentos donde la respuesta a la variable es el resultado del experimento. Puede también recolectarse los datos en forma directa, es decir la información
se extrae de alguna base de datos seleccionando una muestra de ellos. a) Muestreo aleatorios simple: todos los elementos de la población tiene igual posibilidad de ser escogido y se eligen al azar. b)
Muestreo sistemático: los elementos se seleccionan a un intervalo uniforme en una lista ordenada. Una preocupación del muestreo sistemático es la existencia de factores cíclicos en el listado que pudieran dar lugar a un error.
c) Muestreo estratificado: los elementos de la población son primeramente clasificados en grupos o estratos según una característica importante. Luego, de cada estrato se extrae una muestra aleatoria simple. La información que se recoge de una o varias variables se presenta en tablas que representan la distribución de dichas variables y también se pueden clasificar en:
a)
Distribuciones unidimensionales: sólo recogen información sobre una característica (por ejemplo: edad de los alumnos/as de una clase).
b)
Distribuciones bidimensionales: recogen información sobre dos características de cada elemento de la población simultáneamente (por ejemplo: edad y altura de los alumnos/as de una clase).
c)
Distribuciones multidimensionales: recogen información sobre tres o más características de cada elemento (por ejemplo: edad, altura y peso de los alumnos/as de una clase).
Tablas de Frecuencias Cuando los datos estadísticos de que se dispone son numerosos, es difícil realizar cálculos sobre ellos. Por esta razón se organizan en tablas de manera de facilitar el trabajo. Una tabla de frecuencia es la ordenación de la información obtenida de una muestra. La estructura de una tabla depende de la cantidad y tipo de variables que se están analizando, siendo las más simples las que se refieren al estudio de una sola variable. Cuando se dispone de un gran número de datos, es útil distribuirlos en categorías dentro de una tabla para facilitar el análisis.
03
Leo y Aprendo En una tabla se pueden distinguir los siguientes tipos de frecuencias: Frecuencia Absoluta
: Es el número de repeticiones que presenta una observación. Se denota por fi
Frecuencia Relativa
: Es la frecuencia absoluta divida por el número total de datos. Se denota por hi
Frecuencia Absoluta Acumulada
: Es la suma de los distintos valores de la frecuencia absoluta tomando como referencia un individuo dado. La última frecuencia absoluta acumulada es igual al número de casos. Se denota por Fi
Frecuencia Relativa Acumulada
: Es el resultado de dividir cada frecuencia acumulada por el número total de datos. Se denota Hi
NOTA:
Si la frecuencia relativa y la relativa acumulada la multiplicamos por 100, los valores obtenidos representan valores porcentuales, lo que facilita la interpretación de los datos.
Ejemplo: Se tienen las notas de una prueba de matemática para 1000 alumnos de enseñanza media de un determinado colegio. Se resume la información en la siguiente tabla de distribución de frecuencias.
NOTA Xi 08 09 10 11 12 13 14 15 16 17 18 19 20
Frecuencia Absoluta fi
Frecuencia Absoluta Acumulada Fi
Frecuencia Relativa hi
Frecuencia Relativa Acumulada Hi
Frecuencia Relativa Porcentual pi
110 110 70 90 90 120 75 85 64 56 63 47 20 N = 1000
110 220 290 380 470 590 665 750 814 870 933 980 1000
0,11 0,11 0,07 0,09 0,09 0,12 0,075 0,085 0,064 0,56 0,63 0,47 0,02
0,11 0,22 0,29 0,38 0,47 0,59 0,665 0,75 0,814 0,87 0,933 0,98 1
11 11 7 9 9 12 7,5 8,5 6,4 5,6 6,3 4,7 2
Frecuencia Relativa Porcentual Acumulada Pi 11 22 29 38 47 59 66,5 75 81,4 87 93,3 98 100
De esta tabla se pueden sacar algunas conclusiones como: * 110 alumnos obtuvieron nota igual a 09 * 290 alumnos tienen nota igual o menor a 10 * El 12% de los alumnos obtuvo una igual a 13 * Solo el 2% de los alumnos obtuvo una nota igual a 20 * El 29% de los alumnos obtuvo una nota igual a 10 o inferior a esta, mientras que el 71% obtuvo una nota superior a 10.
04
Gráficos Estadísticos La presentación de información estadística tiene dos opciones de formato: el tabular y el gráfico. El primero consiste en el ordenamiento de los datos seleccionados, en filas y columnas, denominado cuadro estadístico. El formato gráfico consiste en la utilización de puntos, líneas y figuras que sirven para mostrar magnitudes, asociadas a una escala de medición, de manera que se facilita la comparación e interpretación de los datos estadísticos, sin que necesariamente se incluyan los valores numéricos. La presentación de la información mediante gráficos constituye una poderosa herramienta para el análisis de los datos, ya que permite una percepción rápida de la información presentada al expresar visualmente en forma conjunta los hechos más importantes. El gráfico estadístico debe estructurarse teniendo en cuenta la utilidad que preste al usuario común; es decir, que quien lo diseña debe colocarse en el lugar del que utilizará la información. La construcción del mismo es una labor aparentemente sencilla, sin embargo en la práctica es necesario tener en cuenta elementos que faciliten su comprensión e interpretación de los datos
Tipos de Gráficos Estadísticos Existe una gran variedad de tipos de gráficos: curva simple, barras verticales, barras horizontales, circulares, de área, pictogramas, etc. En la gran mayoría de los gráficos de una dimensión, la característica o clasificación de interés se coloca en el eje horizontal (abscisa) y, en el eje vertical (ordenada) se pone la frecuencia o valor que corresponde a cada categoría de la clasificación. A continuación se presenta a los gráficos de mayor uso e importancia.
a) Gráfico de Barras Representan las frecuencias de datos sin acumular. Estos gráficos son válidos para datos cuantitativos (de tipo discreto) y cualitativos. En el eje “y” se puede representar tanto las frecuencias absolutas como relativas. La altura de la barra es la frecuencia absoluta de la categoría. El ancho es arbitrario. Algunas consideraciones: - Usar barras HORIZONTALES para representar variables cualitativas, y VERTICALES si los datos constituyen una serie cronológica o cuantitativa discreta. - Siempre se debe dejar igual espacio entre barra y barra. Se recomienda que este espacio sea de media barra. - En las series cualitativas las barras deben ordenarse de acuerdo a su longitud, de mayor a menor. La barra más larga se coloca en la parte superior y la más corta, en la parte inferior.
Número de Hijos por Familia
Toyota
25
Frecuencia
Número de Autos Vendidos por Familia Nissan
20
Hyunday
15
Zusuki
10
Volswaguen
5
Kia Subaru
0 0
1
2
3
4
5
Cantidad de Hijos
05 Matemática Primero Unidad 9
más
0
100
200
Cantidad de autos
300
b) Gráfico lineal o Polígono de Frecuencias Se utiliza para variables cuantitativas, generalmente continuas, en él se pueden representar una o más variables. En un sistema de coordenadas cartesianas en los puntos “x, y” se unen dichos puntos. A cada valor (variable) “x” le corresponde un valor a una altura “y”, estos puntos se unen con segmentos de recta. Este tipo de gráficos se utiliza para mostrar tendencias.
Resultado de Evaluación
Talla en metros
20
1.4
Calificación
15
1.5
10
Talla (m)
1.3 1.2
Talla
1.1
Comunicación
5
Matemática
0
c) Gráfico de Ojivas Este tipo de gráfico es un polígono que muestra las frecuencias acumuladas absolutas o relativas. El gráfico siempre será en forma ascendente. Se dibuja uniendo los puntos de intersección de los ejes “x, y”, según la frecuencia, por medio de segmentos de recta y no se cierra.
40 35 30 25 20 15 10 5 0
1.2
Frecuencia s
Frecuencia s
1 0.8 0.6 0.4 0.2 9
10
11
12
13
14
15
16
17
18
0 9
Calificaciones
10 11 12 13 14 15 16 17 18
Calificaciones
d) Gráfico de Sectores Circulares
Estos gráficos se basan en un círculo y consiste en dividir el círculo en sectores cuyas áreas sean proporcionales a cada uno de los términos de la serie. Especialmente se usa para presentar series de atributos o cualidades o también para series cuantitativas presentadas en pocos intervalos. Es necesario en primer lugar calcular el porcentaje de cada categoría respecto del total y luego repartir proporcionalmente estos porcentajes en los 360° del círculo. .
Ingeniería
Psicología Docencia Enfermería Derecho
06 Matemática Primero Unidad 9
Estadígrafos de Posición Los estadígrafos de posición o DE TENDENCIA CENTRAL son valores que se ubican al centro de un conjunto de datos ordenados según su magnitud. A continuación se estudiarán los estadígrafos para datos no tabulados o no agrupados. a) Media aritmética o Promedio.- Se define como el cociente que se obtiene al dividir la suma de los valores de la variable por el número de observaciones. Se denota por Su fórmula es:
X
n
X
X
i
n= Total de la muestra
n
Ejemplo: Edades de las personas; encuentra la edad promedio. 10 , 18 , 21 , 32 , 17 , 27 , 28 , 20 , 35 , 31
X
n = 10
10 18 21 32 17 27 28 20 35 31 239 23,9 10 10
b) Mediana.- Se define como el valor de la variable que supera la mitad de las observaciones y a su vez es superado por la mitad de ellas. Por eso se considera como el valor central, ya que divide a los datos en dos grupos. Las observaciones deben estar ordenadas de meno a mayor. Si los datos (n) es impar se toma el valor del dato central como mediana, si los datos (n) es par se suman los valores de los dos valores centrales y se divide entre dos. Se denota por Me. Ejemplo.- Notas de los alumnos de Primero, encuentra la mediana. 12 , 12 , 13 , 13 , 13 , 14 , 15 , 16 , 17 , 17 , 19
n = 11 (n impar)
Mediana 11 , 11 , 12 , 12 , 13 , 14 , 16 , 16 , 17 , 18 , 19 , 19
n = 12 (n par)
14 16 15 Mediana 2 c) Moda.- Se define como el valor más frecuente o el valor de la variable que presenta la mayor frecuencia absoluta. Se utiliza generalmente en el estudio de una variable cualitativa y no tiene porqué situarse en la zona central de la distribución. Puede haber más de una moda en una distribución. Se denota por Mo. Ejemplo.- Se busca el valor más repetido en las siguientes distribuciones: a) 12 , 13 , 14 , 10 , 11 , 17 , 19 , 08 , 20
b) 10, 11 ,13 , 12 , 14 , 14 , 17 , 14 , 18 ,15
Mo = ….
Mo = 14 Cuando hay una sola moda se denomina distribución UNIMODAL
c) 10 , 09 , 12 , 12 , 15 , 15, 14 , 17 , 16 , 08
d) 09, 09, 13, 15 , 13 , 16 , 13 , 15 , 17 , 17
07
Matemática Primero Unidad 9
Cuando no hay moda se denomina distribución AMODAL
Mo = 12 y 15 Cuando hay dos modas se denomina distribución BIMODAL
Mo = 09 , 13 , 15 , 17 Cuando hay más de dos modas la distribución se denomina MULTIMODAL
Aprendo Haciendo Actividad nº1 Clasificar las siguientes variables en: continua, discreta, nominal, ordinal: a) Número de alumnos por carrera.
__________________________
b) Lugar en que viven los alumnos de Primero de Secundaria.
__________________________
c) Color de ojos de un grupo de niños.
__________________________
d) Monto de pagos por concepto de aranceles en la universidad.
__________________________
e) Sumas posibles de los números obtenidos al lanzar dos dados.
__________________________
f) Monto de la venta de un artículo en dólares .
__________________________
g) Número de acciones vendidas.
__________________________
h) Nivel de educación de los padres de familia.
__________________________
Actividad nº 2 De cada una de las siguientes situaciones responde las preguntas que se plantean: Situación 1.- Un fabricante de medicamentos desea conocer la producción de las personas cuya hipertensión (presión alta) puede ser controlada con un nuevo producto fabricado por la compañía. En un estudio a un grupo de 13000 individuos hipertensos, se encontró que el 80% de ellos controló su presión con el nuevo medicamento. Situación 2.- Según una encuesta realizada a 500 adultos mayores de la ciudad de Chiclayo, reveló que en promedio realizan 6 visitas anuales al consultorio. En vista de los resultados el ministerio de salud deberá aumentar los recursos en un 10%. a) ¿Cuál es la población?
___________________________________________
b) ¿Cuál es la muestra?
___________________________________________
c) Identifica la variable de estudio.
___________________________________________
d) Identifica el estadígrafo y su valor.
___________________________________________
e) ¿En qué año nació Alejandro Magno?
___________________________________________
f) ¿Se conoce el valor de la variable?
___________________________________________
Actividad nº 3 Completa las siguientes expresiones: a) La estadística que analiza los datos y los describe es ___________________________________ b) Por medio de una investigación se recolectan los ______________________________________ c) Por razones de costo y del tiempo que se gastaría en encuestar a todos los elementos de una ___________________________ , se recurre al ______________________________________
08
d) Para obtener una ____________________ aleatoria de la población, cada elemento debe tener _________________________ oportunidad de ser ____________________________________ Matemática Primero Unidad 9
Actividad nº 4 Resolver las situaciones que se plantean: 1.- En cierta ciudad se ha tomado una muestra representativa del total de familias que en ella viven y se ha anotado el número de hijos de cada una. Los valore de esta variable son los siguientes: 0 1 0 4 2 2 1 2 3 2 3 2 1 3 4 2 2 3 2 1 a) Precisa el tipo de datos según la clase de variable. b) Construye una tabla de frecuencias completa. c) Realiza el gráfico de barras para las frecuencias absolutas. d) Calcula la Mo de la muestra. 2.- Se visitaron 25 empresas agrarias que producen frutas cítricas de una cierta zona del Perú y en cada una se anotó la cantidad de plantas atacadas por un cierto hongo, de lo cual resultaron los siguientes datos: 15 20 25 15 18 16 17 18 20 18 18 18 19 16 17 19 16 17 17 17 19 18 19 18 15 a) Precisa el tipo de datos según la clase de variable. b) Construye una tabla de frecuencias completa. c) Realiza el gráfico poligonal para las frecuencias absolutas. d) Calcula el
X de la muestra.
3.- Para el ejercicio 1 determina la frecuencia relativa de familias con 2 hijos o menos y la frecuencia porcentual de familias que tienen más de 2 hijos. 04.- Para el ejercicio 2 determina la frecuencia porcentual de empresas que tienen 18 plantas atacadas por el hongo. Calcula también la frecuencia porcentual de empresas que tienen no menos de 18 plantas atacadas por el hongo. 05.- El gerente de personal de una compañía registró el número de días que sus 50 empleados habían tomado como licencia por enfermedad en un año. Aquí los datos. 10 15 12 8 14 6 15 12 5 7 5 11 7 8 4 7 15 9 2 10 12 12 3 10 9 3 5 6 13 9 0 4 7 11 3 8 2 10 6 12 2 9 8 12 6 4 7 10 0 1 a) Precisa el tipo de datos según la clase de variable. b) Construye una tabla de frecuencias completa. c) Realiza el gráfico de ojivas para las frecuencias acumuladas. d) Calcula el
X de la muestra
06.- En la tabla de frecuencias que se presenta faltan datos, complétala.
09
Valores 0 1 2 3 4 5 Totales
fi
Matemática Primero Unidad 9
Fi 2 5 9 14
hi
Hi
0.7 0,2
Mg. Javier A. Huamán A. Administrador Aula Virtual
I.E.P. “Santo Toribio de Mogrovejo” Chiclayo - Perú