SISTEMAS DE INFORMACIÓN ESTADISTICA DESCRIPTIVA 5to año Secundaria 2da división Prof. César Manuel Giménez
Instituto Superior “Nuestra Señora de la Misericordia” I-29
Sistemas de Información - Estadística – 5to año Educ. Secundaria 2da división Prof. César Manuel Giménez BLOQUE 1: NATURALEZA Y OBJETO DE LA ESTADÍSTICA SIGNIFICADO DE LA ESTADÍSTICA La noción de "estadística" se derivó originalmente del vocablo "estado", porque ha sido función tradicional de los gobiernos centrales llevar registros de población, nacimientos, defunciones, vocaciones, cosechas, impuestos y muchas otras clases de cosas y actividades. Contar y medir estos hechos genera muchas clases de datos numéricos. La persona común concibe la "estadística" como columnas de cifras o gráficos en zigzag de los diarios, asociados con promedios de asaltos, índices de divorcios y criminalidad, precios de acciones, exportaciones e importaciones, etc. Este concepto se aproxima mucho a la definición tradicional de estadística: la compilación, organización, resumen, presentación y análisis de datos numéricos. La función principal de la estadística es elaborar principios y métodos que nos ayuden a tomar decisiones frente a la incertidumbre. En realidad, muchos autores definen la estadística actualmente como un método de toma de decisiones frente a la incertidumbre, ya que esta llega a ser un valioso instrumento para la toma de decisiones cuando no se está seguro sobre el estado de naturaleza. Al enfrentarse a muchos fenómenos físicos, económicos, sociales, industriales, comerciales o psíquicos se ve obligado uno a generalizar o actuar frente a incertidumbre tal como son las cosas -"el estado de naturaleza". Como un procedimiento de toma de decisiones, la estadística se emplea hoy en toda clase de estudios científicos. La vasta extensión del análisis estadístico es sugerida por un muestreo de las cuestiones a las que se aplica. ¿Cómo evalúa un teórico la validez de una nueva teoría? ¿Cómo prueba un médico la eficiencia de un nuevo fármaco? ¿Cómo decide un jefe militar la magnitud y la eficiencia de las misiones de bombardeo de un blanco enemigo? ¿Cómo pronostica un sociólogo el tamaño de la población del mundo para el año 2010? ¿Es la alta ingestión de sal una causa de hipertensión - o es esta la causa de la alta ingestión de sal? ¿Cómo puede decirse si el reciente cambio en el índice de desempleo es una fluctuación estacional o una pequeña desviación al azar? ¿Cuántas unidades deben ser examinadas para determinar la calidad de un lote de mercancías recién llegadas? ¿Por qué o cómo es posible predecir el resultado de unas elecciones sobre la base de entrevistar a unos pocos centenares de electores? ¿Hay una diferencia real en la eficiencia entre dos procesos de producción diferentes? ¿Aumenta realmente el tabaquismo las probabilidades de padecer cáncer pulmonar? ¿Cómo puede distinguirse entre el ruido natural de un contador Geiger y la radiación cósmica ordinaria? ¿Cómo pueden aumentar el empleo y el desempleo durante el mismo periodo de tiempo? En verdad, la estadística ha llegado a ser un instrumento cotidiano de todos los tipos de profesionales que se ponen en contacto con datos cuantitativos o extraen conclusiones de ellos. Tales personas necesitan tener alguna familiaridad con principios estadísticos para poder evaluar los informes numéricos y evitar malos usos comunes de la estadística y falacias en el razonamiento estadístico. Los estudiantes de muchos campos deben tener un conocimiento práctico de los métodos estadísticos. CONCEPTO DE ESTADÍSTICA La Estadística se puede describir como una ciencia que estudia la interpretación de datos numéricos. En su acepción más común, estadística es una simple colección de datos clasificados según un cierto criterio. Otras veces nos referimos a ella como a una técnica o método que seguimos para recoger datos, clasificarlos, ordenarlos, compararlos, etc.: es la Estadística Descriptiva. Y todavía, en una tercera acepción, podemos considerar la Estadística como una ciencia matemática que basándose en el estudio y análisis de las muestras obtiene conclusiones para un colectivo más amplio; es lo que llamaremos Inferencia Estadística. Dado que los elementos con los que trabaja esta ciencia son los números, el procedimiento que básicamente utiliza es: a partir de unos datos numéricos, obtener unos resultados mediante unas reglas y unas operaciones. Este procedimiento se denomina proceso estadístico, y puede sintetizarse en los siguientes pasos: 1. 2. 3. 4.
Elección de la unidad estadística. Recolección, análisis y presentación de los datos. Ordenación de los datos. Cálculo de las medidas de posición y de dispersión.
5. 6. 7.
Representación gráfica. Análisis y predicción de resultados. Análisis de errores. Significación. Fiabilidad.
Instituto Superior “Nuestra Señora de la Misericordia” I-29
Página - 1 -
Sistemas de Información - Estadística – 5to año Educ. Secundaria 2da división Prof. César Manuel Giménez Dentro de la Estadística se distinguen dos ramas: la Estadística Inductiva y la Estadística Descriptiva. El estudio de esta última es la tarea principal que nos hemos propuesto. Podemos considerar la Estadística Descriptiva como un modelo que permite acumular información, analizarla y sintetizarla, para describir un fenómeno. La verdadera aplicabilidad de la Estadística Descriptiva se encuentra en los conjuntos con un gran número de elementos, que son precisamente los que más dificultades suelen presentar en el análisis y síntesis de sus características. POBLACIÓN, CARACTERÍSTICA Y MUESTRA El objetivo formal de la descripción estadística es la masa estadística. Esta puede definirse como el conjunto de unidades que tienen características de identificación comparables en cada estudio. Se llama frecuentemente población, aunque naturalmente estas poblaciones no se limitan a un conjunto de personas, sino que podrán ser, por ejemplo, el conjunto de automóviles matriculados en Corrientes en 1998, el conjunto de accidentes de tráfico ocurridos en Argentina en los diez últimos años, etc. POBLACIONES, UNIDADES ELEMENTALES Y OBSERVACIONES Como se definió anteriormente, el término población significa un agregado de datos individuales, personas o cosas, acerca de los cuales se desea información. Los datos individuales de una población se llaman unidades elementales. Se llama individuos a cada uno de los elementos que componen la población estudiada. Cada individuo puede describirse según uno o varios caracteres - o características - que elegiremos atendiendo a los aspectos de la población sobre los que estemos interesados. Si se tratase de personas, por ejemplo, una característica puede ser la estatura, la edad, etc. Si fuesen objetos podría considerarse la dimensión, la forma, etc. Los caracteres de un individuo pueden presentar dos o más modalidades, que son las diferentes situaciones posibles de un carácter. Por ejemplo, las modalidades del carácter sexo en poblaciones de personas son: masculino y femenino; las modalidades de la característica estatura, por ejemplo, serían 160 cm, 170 cm y 180 cm; las modalidades del carácter color de pelo pueden ser rubio, moreno, castaño, etc. Una propiedad de las modalidades de una misma característica es que deben ser incompatibles y exhaustivas, es decir, cada individuo presenta una y sólo una de las modalidades del carácter. El objetivo de un proceso estadístico es observar y comentar las distintas características de una población estadística, una vez que ésta se encuentra bien definida. Es preciso elegir la característica desde la cual se quiere estudiar la población. Por ejemplo: investigación del conjunto de automóviles matriculados en Corrientes durante el año 1998 bajo la característica "cilindrada de estos automóviles", o investigación del conjunto de accidentes de tráfico ocurridos en Argentina en los diez últimos años bajo la característica "víctimas mortales en cada uno de ellos". De esta forma la característica divide o clasifica a la población original en masas parciales o subpoblaciones estadísticas, por ejemplo: "coches de 1.000 cc" o "accidentes de tráfico sin víctimas mortales". Definir una población es, en un sentido, limitar el contenido de las unidades elementales. Estas poseen ciertas características, conocidas a veces como rasgos o propiedades, que pueden ser de naturaleza cualitativa o cuantitativa. Por ejemplo, un problema de decisiones puede suponer observar la eficiencia de un embarque de ciertos medicamentos. Aquí la población comprende todas las unidades individuales de medicamentos - las unidades elementales - del embarque, y las características de las unidades elementales que han de ser observadas son su calidad, su capacidad para curar alguna enfermedad. El resultado de observar una unidad elemental se llama observación. Puesto que, durante una investigación, se hace una observación de cada unidad elemental escogida, podemos considerar una población como la totalidad de todas las observaciones pertinentes que podrían hacerse en un problema de decisiones dado. La definición de una población y las características de sus unidades elementales que deben ser observadas dependen de la naturaleza del problema de decisiones que se plantea. El siguiente ejemplo revelará la importancia de este concepto: Supóngase que un fabricante de sombreros está tratando de decidir cuántos sombreros de distintos tamaños debe producir. Su mercado es el de los hombres norteamericanos. Se interesa por las circunferencias de las cabezas de los norteamericanos. Sin embargo, estas expresiones son demasiado vagas. Debe definirse la población en gran detalle. La definición debe responder a preguntas como: Instituto Superior “Nuestra Señora de la Misericordia” I-29
Página - 2 -
Sistemas de Información - Estadística – 5to año Educ. Secundaria 2da división Prof. César Manuel Giménez 1.
¿Qué es un hombre? ¿Un varón mayor de 21 años? ¿Un varón mayor de 18 años? ¿Qué podemos decir de los adultos de uno u otro sexo a los que se les ha sometido a cirugía para cambio de sexo, o que son demasiado raros para ocuparse de ellos?
2.
¿Qué es un norteamericano? ¿Qué puede decirse de los ciudadanos norteamericanos que viven en el extranjero? ¿Qué puede decirse de los extranjeros que viven en Estados Unidos?
3.
¿Son "todos los hombres norteamericanos" realmente la población, o solo es algunos de ellos? Si el fabricante vende 95 por 100 de su producción al este del río Misisipi, ¿debe tener presente a quienes viven en otra parte? Puesto que muchos hombres no llevan sombrero actualmente, ¿la población debe incluir a solo aquellos que usan sombrero, puesto que el tamaño de sus cabezas puede que tenga una diferente distribución de la de todos los hombres? ¿Si la población se limita a aquellos que usan sombrero, cómo se define esa? ¿Que llevan un sombrero todos los días? ¿Que llevan un sombrero por lo menos una vez a la semana? ¿O debe girar la definición alrededor de por lo menos un sombrero, no importa lo raramente que se lleve? ¿O debe girar la definición en torno a haber comprado un sombrero el año pasado?
Ciertamente, cuando se considera más profundamente el problema del fabricante de sombreros, la definición detallada de la población es probable que cambie algo más, y debe tenerse presente esto en el estudio. También hay algunos problemas en la medición de la circunferencia de la cabeza. ¿En qué lugar de la cabeza debe hacerse la medición? ¿Qué clase de instrumento de medición debe usarse? ¿Con qué grado de precisión debe hacerse la medición? Etcétera. Un antropólogo físico podría interesarse por la misma cuestión básica - tamaño de la cabeza de los hombres norteamericanos. Pero sus definiciones detalladas es muy probable que difieran de las del fabricante de sombreros, porque los problemas de decisiones son diferentes. TIPOS DE POBLACIONES Ahora advertimos que las poblaciones pueden ser clasificadas en dos tipos: infinitas y finitas. Una población infinita comprende un número infinitamente grande de unidades elementales. Tal población podría incluir todas las varillas de acero posibles que fabricaría un industrial si continuara trabajando indefinidamente en determinadas condiciones de operación. Otra población infinita comprende todos los resultados posibles cuando se echa un dado continua e indefinidamente. En el caso de una población infinita, no puede obtenerse información completa, por lo que cualquier decisión debe basarse en una muestra. Una población que no es indefinidamente grande o que solo contiene un número finito de datos se dice que es una población finita. Es evidente que no siempre se puede hacer una investigación exhaustiva de la población - es decir, sobre todos y cada uno de sus elementos -, por lo tanto, hay que recurrir a la encuesta por sondeo; se dice entonces que el objeto de la investigación es una muestra o un subconjunto del total de casos de la población. Por ejemplo, en el conjunto formado por las chicas y chicos argentinos de 16 a 20 años; queremos estudiar la característica "número de recitales a que han asistido", tomaremos para ello una muestra que intentaremos que sea lo más representativa posible: no debemos limitarnos a ensayar nuestra encuesta en un conjunto homogéneo de personas - sólo estudiantes o sólo trabajadores del campo, por ejemplo - sino que la subpoblación deberá ser elegida cuidadosamente para que los resultados puedan extenderse al caso general reduciendo el error al mínimo posible. RELEVAMIENTOS MUESTRALES Para que una muestra sea estadísticamente útil, es necesario que sea una muestra representativa con respecto al grupo de características, es decir, que el comportamiento de la muestra, frente al grupo de características, sea una expresión aproximada del comportamiento de toda la población, respecto del mismo grupo de características. Tener conciencia del grado de representatividad de una muestra, o, lo que es más útil aún, planear la muestra de manera que se satisfaga la representatividad dentro de un cierto margen de aproximación, es el problema que se trata en la técnica muestral.
Instituto Superior “Nuestra Señora de la Misericordia” I-29
Página - 3 -
Sistemas de Información - Estadística – 5to año Educ. Secundaria 2da división Prof. César Manuel Giménez •
Si se trata de poblaciones en las que sea aceptable suponer un comportamiento a priori, homogéneo respecto del grupo de características, entonces la muestra puede planearse con selección al azar; es decir, que al elegir los individuos que constituirán la muestra, no se tendrán preferencia, siendo una prueba de sorteo la que decidirá respecto de la elección; se tiene así las muestras estocásticas o al azar.
•
Si la población no fuera homogénea, se trata de efectuar una clasificación en estratos homogéneos, y se procede a efectuar la selección al azar en cada uno de estos estratos; tenemos así las muestra estratificadas.
•
En casos especiales, se hace una selección racional; es decir, una selección razonada de los individuos que han de componer la muestra, siendo necesario entonces, para que la muestra tenga valor estadístico, poder garantizar su representatividad. Éstas son las llamadas muestras con selección deliberada (no al azar).
En términos generales diremos que para que una muestra sea representativa debe cumplirse que todos los elementos de la población tengan la misma probabilidad de formar parte de la muestra. Con frecuencia se utilizan tablas de números aleatorios, para garantizar la representatividad de la muestra. Llamamos tabla de números aleatorios al conjunto de números obtenidos al azar, sin ningún criterio de orden o selección, y de forma que cualquier número tiene la misma probabilidad de ser incluido en la tabla. Las tablas de números aleatorios son unos cuadros que generalmente están dispuestos en filas y columnas, y cuyos elementos son números naturales que permiten elegir números con tantos dígitos como necesitemos; por ejemplo, si queremos elegir veinte números, de dos dígitos cada uno, un procedimiento podría ser el siguiente: partiendo de cualquier posición en la tabla, tomamos los dos primeros - o los dos últimos dígitos - de los elementos que ocupan esa posición, y así avanzamos siguiendo filas, columnas o diagonales. A continuación se inserta un ejemplo de tabla de números aleatorios para el millar 1 (Tabla 1,1). Tabla 1,1. Números aleatorios 4266 1309 5984 4371 7689 5017 7808 5120 9416 6276 3821 5333 5103 5717 9964 1895 2004 8872 3708 1851 0799 9009 2573 5679 4777 7914 0121 2663 5696 2510 0972 5447 9895 9385 8798 6399 3951 6472 8764 2531
3648 2534 9292 6591 3342 7830 3508 3922 4252 8671 0428 1353 4224 7954 8436 8003 5336 7385 7561 5l19
7534 3116 6821 1719 5193 5793 0978 8909 1774 l198 5698 6758 9247 8183 2098 7291 2794 1480 9830 0281
6807 7805 5941 5365 2645 2542 4186 1228 8089 4913 4327 1270 3770 4845 8966 5246 4485 2146 7421 3245
8484 2607 0459 7898 4171 1501 6654 0616 0407 7482 0712 5850 6153 5981 9890 0099 2543 8504 4964 8671
9687 0543 8025 0546 7419 3311 4173 7511 1094 6382 5594 0592 6248 6192 5942 9226 8680 6851 8926 0694
4788 4882 9833 0127 2330 0248 3949 6921 1969 3749 5595 4217 3856 4673 9047 9292 3624 0934 3027 9116
1010 5374 7004 8872 6589 7121 6479 3969 5540 9720 0637 7151 3544 4994 0886 1870 7072 9008 2966 7008
9929 7293 3803 7098 1966 1513 3585 0767 5147 6985 3392 2230 1794 4191 1344 0754 3242 0225 9452 4655
Si se tratara de elegir números aleatorios de un sólo dígito, de tres, etc., procederíamos de forma análoga. En el supuesto de necesitar números aleatorios de cinco o más dígitos, podemos ir tomando estos cinco dígitos de dos elementos consecutivos en la tabla e ir avanzando de dos en dos en la dirección escogida. En esta etapa, el estudiante puede preguntar: ¿Puede ser usada la misma población para toma de decisiones en diferentes problemas? Un momento de reflexión revelará que la misma población y la misma característica de sus unidades elementales - por ejemplo, todas las familias argentinas y todos los ingresos familiares - pueden ser usadas como base para decisiones sobre: 1) demanda futura de los consumidores, 2) nivel de vida del pueblo argentino, 3) tipo de distribución del ingreso, 4) formulación de una política fiscal basada en el ingreso individual, etc. Realmente, la posibilidad de usar la misma población para resolver diferentes problemas hace aconsejable, una vez conocida la naturaleza del problema de toma de decisiones, comprobar si ya existen datos (compilados por otros para otros fines) que puedan ser usados ventajosamente en resolver nuestro propio problema. Instituto Superior “Nuestra Señora de la Misericordia” I-29
Página - 4 -
Sistemas de Información - Estadística – 5to año Educ. Secundaria 2da división Prof. César Manuel Giménez MEDICIONES DE UNIDADES ELEMENTALES Las características de las unidades elementales deben expresarse en números, de modo que puedan ser aportados a métodos estadísticos para su relevamiento y análisis. Los rasgos, o características, de las unidades elementales son de dos clases: cuantitativos y cualitativos. Rasgos cuantitativos pueden ser transformados en datos numéricos simplemente por medición directa en unidades, tales como pulgadas, libras, dólares, calorías. Los resultados de medir las cantidades de las unidades elementales forman la totalidad de observaciones, que se expresan numéricamente en las unidades de medición usadas. Los valores de las observaciones cuantitativas se conocen como los valores que una variable puede asumir. a)
Características cualitativas: Son las que expresan una cualidad que generalmente no tiene representación numérica. De ellas lo único que puede determinarse es la frecuencia con que aparece cada una de sus modalidades; por ejemplo, una pieza que sale de una fábrica puede ser aceptable o no; una persona es de un sexo u otro; las diferentes profesiones de un conjunto de personas, etc. Las características cualitativas se llaman atributos y clasifican a la población en categorías.
b) Características cuantitativas: Son las que permiten asignar a cada elemento de la población un número real. Por ejemplo, la edad de un colectivo de individuos, el número de alumnos que hay en cada clase en un determinado centro de estudios, etc. Según la definición adoptada para características cuantitativas, a cada modalidad le corresponde un número, que generalmente será real y variable para cada una de ellas. Si recordamos el concepto de variable en Matemáticas (ente que puede tomar un valor cualquiera de un conjunto determinado de valores), podemos afirmar que la característica cuantitativa es una variable matemática; nosotros la denominaremos variable estadística y, en adelante, al mencionar este término, nos estaremos refiriendo a una característica cuantitativa. Cuando las características son cualitativas, las unidades elementales pueden ser clasificadas sólo como poseedoras o no poseedoras de cierta cualidad o propiedad. Pero las observaciones cualitativas de unidades elementales (atributos), a menudo pueden ser expresadas numéricamente. Hacemos esto contando las unidades elementales que tienen cierto atributo, tales como varones en una población humana, o unidades satisfactorias o no defectuosas en una población de ciertos productos industriales. En el proceso de enumerar, asignamos uno a un elemento que tiene el atributo y cero a uno que carece de él. Estamos asignando en realidad a las observaciones cualitativas los valores numéricos 0 ó 1. Al terminar la cuenta obtenemos el total sumando los unos y obteniendo un resultado numérico. Esta expresión cuantitativa de datos cualitativos abre al tratamiento estadístico muchas áreas inalcanzables por medición directa. A menudo, los datos cuantitativos también pueden ser tratados cualitativamente si la naturaleza del problema lo demanda. Como un ejemplo, la edad de una persona en una comunidad es cuantitativa, pero también puede ser tratada como un atributo si nos interesa, por ejemplo, estimar los electores elegibles de dicha comunidad. En este problema de decisión cada persona puede caracterizarse por uno u otro atributo: edad para votar o edad para no votar. Tratar una variable como un atributo es muy común en el trabajo estadístico. Las variables o características cuantitativas pueden ser de dos tipos: discretas y continuas. 1) Cuando la variable sólo puede tomar valores numéricos aislados se dice que es discreta; por ejemplo, el número de automóviles que pasan por una calle en una hora. Generalmente las variables discretas suelen tomar valores enteros o múltiplos enteros de un número fijo. 2) Como ejemplo de variable continua podría tomarse la estatura de las personas. No significa que el número asignado a cada estatura pueda tomar en la práctica cualquier valor real (aunque teóricamente sea así) porque la imprecisión de nuestras mediciones hará que en definitiva éstas vengan representadas por valores discretos. Pero es el carácter de posibilidad que tiene todo número real de ser asignado a una de estas variables lo que las define como continuas. Es claro que el número de alumnos de una clase es una característica discreta, pues nunca podría tomar, por ejemplo, el valor 25,37. En general, todas las magnitudes relacionadas con el tiempo (edad, duración de un fenómeno,...), la masa (volumen, peso,...) y el espacio (longitud, superficie,...) o una combinación de éstos (velocidad, densidad, capacidad,...) son variables estadísticas continuas.
Instituto Superior “Nuestra Señora de la Misericordia” I-29
Página - 5 -
Sistemas de Información - Estadística – 5to año Educ. Secundaria 2da división Prof. César Manuel Giménez Volvamos un momento al concepto de una variable. La amplitud de una variable es un conjunto de valores individuales de un fenómeno dado que, a su vez, son los valores de las observaciones cuantitativas. Cuando los valores de una variable se disponen en cierto orden, se forma una serie estadística. Una serie, o una variable, puede ser continua o discreta. Una variable continua puede asumir cualquier valor numérico (es decir, cualquier número real) dentro de una amplitud específica. En tal serie valores sucesivos pueden diferir en cantidades infinitesimales. En otras palabras, una serie continua es aquella en la que las unidades pueden dividirse en fracciones de cualquier tamaño, por pequeñas que sean, de modo que haya un flujo continuo de valores con graduaciones infinitamente pequeñas. Sin embargo, que la distinción entre variable estadística discreta y continua es, a veces, arbitraria. Siempre que realicemos una medición de cualquier magnitud, obtendremos un valor discreto, tal como se ha razonado anteriormente con la estatura, pues la precisión de cualquier medida que podamos realizar es muy limitada como número real. Es interesante observar que mientras que el peso, la longitud, la altura, el tiempo y la temperatura son variables continuas, sus mediciones son discretas, porque el instrumento de medición siempre tiene algún límite de precisión. Para cálculos y análisis estadísticos a menudo hallamos conveniente considerar tales variables como continuas, y esto es razonable porque las graduaciones de un instrumento de medición preciso son muy pequeñas, casi infinitamente pequeñas. Por otra parte, algunos datos son tales que la unidad de medición no es divisible. Es decir, la unidad de medición sólo puede ser definida en términos de enteros o ciertos valores fraccionarios especificados, y no es razonable suponer que las graduaciones sean casi infinitamente pequeñas. Una variable que solo puede adoptar valores enteros o fraccionarios especificados se dice que es discreta. Como contrapartida a esta limitación, por extensión del concepto de variable estadística continua, podemos considerar como tal a las variables estadísticas, que aun siendo discretas, toman (o pueden tomar) un gran número de valores aunque éstos sean aislados. Así, por ejemplo, el beneficio de un comerciante en cada artículo, o el sueldo mensual de un obrero, aunque son variables discretas intrínsecamente, pueden tomar tantos valores distintos como cualquier magnitud que hayamos estimado mediante una medición. Al medir las unidades elementales debemos definir cuidadosamente la unidad elemental y su característica observada. Aunque en muchos casos es sencillo y fácil identificar la unidad elemental en la población, en otros resulta muy difícil, a menos que se defina con precisión la unidad elemental. Por ejemplo, en los problemas de toma de decisiones referentes a situación de una vivienda, a menudo necesitamos conocer el número de habitaciones en una zona determinada. Pero, ¿qué es una habitación? ¿La consideramos un cuarto de baño, una cocina, una terraza o un salón de entrada? También se produce con frecuencia confusión cuando carecemos de una definición precisa de la característica, La ilustración más obvia es la característica de edad. ¿Cómo vamos a registrar la edad de una persona? ¿En su último cumpleaños? ¿En su cumpleaños que se aproxima? ¿En su próximo cumpleaños? También, ¿nos interesamos por la edad en años? ¿Edad en el mes más próximo? ¿Edad en el día siguiente?. Por supuesto, las respuestas dependen del propósito del estudio. Debemos tener estas respuestas antes de efectuar mediciones reales. Finalmente, llamaremos dominio de una variable estadística al conjunto de valores que ésta puede tomar dentro del fenómeno estudiado; (concepto equivalente al de dominio de una variable en Matemáticas). ESCALAS DE MEDICIÓN Se entenderá por medición al proceso de asignar el valor a una variable de un elemento en observación. Este proceso utiliza diversas escalas: nominal, ordinal, de intervalo y de razón. Las variables de las escalas nominal y ordinal se denominan también categóricas, por otra parte las variables de escala de intervalo o de razón se denominan variables numéricas. Con los valores de las variables categóricas no tiene sentido o no se puede efectuar operaciones aritméticas. Con las variables numéricas sí.
• La escala nominal sólo permite asignar un nombre al elemento medido. Esto la convierte en la menos informativa de las escalas de medición. Los siguientes son ejemplos de variables con este tipo de escala: Nacionalidad. Uso de anteojos. Número de camiseta en un equipo de fútbol. Número de Cédula Nacional de Identidad. Instituto Superior “Nuestra Señora de la Misericordia” I-29
Página - 6 -
Sistemas de Información - Estadística – 5to año Educ. Secundaria 2da división Prof. César Manuel Giménez A pesar de que algunos valores son formalmente numéricos, sólo están siendo usados para identificar a los individuos medidos.
• La escala ordinal, además de las propiedades de la escala nominal, permite establecer un orden entre los elementos medidos. Ejemplos de variables con escala ordinal: Preferencia a productos de consumo. Etapa de desarrollo de un ser vivo. Clasificación de películas por una comisión especializada. Madurez de una fruta al momento de comprarla.
• La escala de intervalo, además de todas las propiedades de la escala ordinal, hace que tenga sentido calcular diferencias entre las mediciones. Los siguientes son ejemplos de variables con esta escala: Temperatura de una persona. Ubicación en una carretera respecto de un punto de referencia (Kilómetro 85 Ruta 5). Sobrepeso respecto de un patrón de comparación. Nivel de aceite en el motor de un automóvil medido con una vara graduada.
• Finalmente, la escala de razón permite, además de lo de las otras escalas, comparar mediciones mediante un cociente. Algunos ejemplos de variables con la escala de razón son los siguientes: Altura de personas. Cantidad de litros de agua consumido por una persona en un día. Velocidad de un auto en la carretera. Número de goles marcados por un jugador de básquetbol en un partido. La escala de intervalo tiene un cero que se establece por convención y puede tener variaciones. Es arbitrario. Por otra parte, la escala de razón tiene un cero real, fijo, no sujeto a variaciones; es propio de la medición hecha.
CONSIDERACIONES GENERALES Si se lee este capítulo con atención, al igual que se verá en los capítulos posteriores, se puede comprobar que los estudios estadísticos están sujetos a una serie de factores que, según se manejen, harán que el estudio sea suficientemente fiable o no lo sea. Además de estos factores, no siempre fáciles de manejar acertadamente, existe otro tipo de error que podríamos considerar numérico, debido al redondeo en los cálculos, etc. Dicho tipo de error está implícito en una buena parte de los estudios realizados; sin embargo, es el que en general afecta menos a las conclusiones y previsiones de los estudios estadísticos, ya que es absorbido por el resto de las acciones como: elección de clases, mediciones, encuestas, etc. A pesar de estas consideraciones y de no ser la Estadística Descriptiva una ciencia exacta, es de suma utilidad, por ejemplo, para estudiar algunos fenómenos, para aprender a preparar y tratar datos y como introducción a la Estadística Inductiva.
Instituto Superior “Nuestra Señora de la Misericordia” I-29
Página - 7 -
Sistemas de Información - Estadística – 5to año Educ. Secundaria 2da división Prof. César Manuel Giménez RECOLECCIÓN DE DATOS ESTADÍSTICOS Ya hemos dicho que la descripción estadística de un fenómeno se hace mediante datos numéricos. La recolección de estos datos puede realizarse utilizando fuentes de datos internas o externas. •
Algunas veces los datos son intrínsecos a la propia actividad de la empresa que los recopila en un momento determinado. Se dice entonces que el dato es interno, y la fuente de datos, interna. Tal sería, por ejemplo, la información que puede proporcionar el departamento de personal de una empresa sobre la categoría, la edad o el sueldo de sus empleados.
•
Otras veces interesa obtener datos ajenos al funcionamiento de la propia empresa. La fuente de esos datos ha de ser, en consecuencia, externa, y los datos son externos. Por ejemplo, una empresa desea introducir un producto que comercializa en una cierta población, para lo cual necesita saber el nivel adquisitivo de sus posibles compradores. Consultará entonces diversas fuentes de datos externas: bancos, Municipalidad, encuestas, etc.
Una de las principales fuentes externas de datos es la encuesta. Hay dos formas importantes de realizar una encuesta: utilizando un cuestionario o mediante una entrevista personal. a)
El cuestionario está especialmente indicado cuando los datos que buscamos requieren respuestas muy concretas, o también cuando las muestras son muy grandes. Tienen además la ventaja de su bajo costo económico.
En el caso del ejemplo, para conocer la capacidad adquisitiva de un grupo de personas, estaría indicado el procedimiento del cuestionario, pues se requieren respuestas muy concretas. b) Sin embargo, cuando los datos requieren respuestas más matizadas, y mayor número de respuestas por cada una de las personas seleccionadas en la muestra, sería más adecuada la entrevista personal. Otro procedimiento para obtener datos externos es la observación directa de la realidad que se quiere estudiar. Por ejemplo, el control del número de llamadas en una cierta línea por parte de la Compañía Telefónica, o el recuento del número de vehículos que pasan por un determinado punto por parte de la Dirección de Tráfico, constituyen dos ejemplos del método de la observación directa. Existen muchas entidades públicas y privadas que publican periódicamente datos e informes estadísticos de tipos generales o especializados: finanzas, asuntos sociales o económicos, educación, etc. Dichas publicaciones son importantes fuentes externas de datos. Así, por ejemplo, las publicaciones estadísticas editadas por los Ministerios, Cámaras de Comercio e Industria, sindicatos, entidades bancarias, revistas especializadas, etc., constituyen importantes fuentes externas de datos. En Argentina, la mayor recopilación de datos estadísticos oficiales la realiza el Instituto Nacional de Estadística y Censo (INDEC).
Instituto Superior “Nuestra Señora de la Misericordia” I-29
Página - 8 -
Sistemas de Información - Estadística – 5to año Educ. Secundaria 2da división Prof. César Manuel Giménez BLOQUE 2: REPRESENTACIÓN GRÁFICA PRESENTACIÓN DE LOS DATOS Los datos estadísticos se pueden presentar de la siguiente manera: 1) Párrafo de textos: se utiliza al presentar un informe, y es la forma más elemental. Ejemplo: La producción de azúcar en la provincia de Tucumán fue en 1970 de 2600 toneladas, al año siguiente dicha producción aumentó un 30 %,....... 2) Cuadros estadísticos: la información a presentar puede ser a simple, doble o de n entradas. Ejemplos: Años 1930 1940 1950 1960 1970 1980 1991 2001
Población de la Pcia. de Ctes.
Años
Maíz
Trigo
Cereales Avena
Sorgo
Total
1985 1987 1989 1990 1993 1997 2000 Total
3) Gráficos estadísticos: Las representaciones gráficas constituyen un elemento básico en el análisis y presentación de los trabajos estadísticos; la importancia fundamental reside en que la representación gráfica de un fenómeno estadístico es apta para que el investigador pueda apreciar de un golpe de vista el conjunto de datos o relaciones que constituyen el motivo de estudio, permitiendo formar juicio sobre el desarrollo y relaciones de los atributos o variables que intervienen; un gráfico proporciona esa apreciación integral del fenómeno, que difícilmente se obtiene cuando solamente disponemos de cuadros estadísticos que, en general, son colecciones complejas y largas de cifras. En el análisis estadístico, la representación gráfica de los datos debe preceder a todo otro estudio, ya que, mediante ella, el estadístico se forma opinión sobre el procedimiento analítico más conveniente para encarar el estudio; por ejemplo, cuando se desea ajustar una curva a una serie de tiempo, es la forma del polígono empírico la que indicará el tipo más conveniente de curva que habrá de utilizarse. Análogamente, una vez efectuado el análisis estadístico, un gráfico será la forma de expresar el resultado, de manera que el fenómeno en estudio pueda ser apreciado en forma rápida y completa. El estadístico necesita disponer de diversas formas de representación gráfica, para elegir aquélla que más convenga a la naturaleza del problema. Las gráficas constituyen una forma de representación de las tablas estadísticas, muy útil a la hora de apreciar la variación y características de una serie, pero representan los datos de una investigación sumamente sintetizados, por ello ocultan parte de la información contenida en la tabla estadística, la cual proporciona un análisis más exhaustivo del fenómeno estudiado. . Otro aspecto a considerar en el gráfico, es la subjetividad por parte de quien lo traza y de quien lo analiza. Estos dos aspectos pueden influir hasta tal punto en los resultados anotados por dos observadores distintos, que podrían no parecer resultados del mismo hecho investigado; sobre todo si no analizan previamente algunas características del gráfico como, por ejemplo, la proporción de escalas en abscisas y ordenadas, el redondeo de datos, etc. Además, hay que tener en cuenta que en la confección de las gráficas a veces se introducen errores voluntarios que dan una idea - no falsa, pero sí exagerada - de la realidad, para destacar algún aspecto determinado de los resultados del estudio. A los posibles errores de interpretación cometidos por el observador del gráfico (en particular si no ha sido realizado por él mismo), hay que añadir los involuntarios introducidos por redondeo, por trazado, por elección de intervalos o escalas, etc. Instituto Superior “Nuestra Señora de la Misericordia” I-29
Página - 9 -
Sistemas de Información - Estadística – 5to año Educ. Secundaria 2da división Prof. César Manuel Giménez Sin embargo, de esto no se debe deducir que los gráficos no son útiles ni fiables, queremos simplemente prevenir sobre su utilización y orientar ésta, cuidando de que se haga con las consideraciones previas oportunas. A modo de ejemplo, basándonos en dos escalas distintas, realizamos el gráfico de la Tabla 2.1, en la que aparecen los datos de la producción de azúcar de un determinado país, en millones de Qm. Tabla 2.1 Producción de azúcar (1970-1975) Año
1970
1971
1972
1973
1974
1975
Producción
150
175
175
150
200
225
Un estadístico realiza el gráfico representado en la Figura 2,1. Otro estadístico representa la tabla mediante el gráfico de la Figura 2.2. Si observamos el gráfico de la Figura 2.1 obtenemos una idea de la evolución de la producción de azúcar de ese país. Al interpretarlo, concluimos que entre 1973-75 la producción experimenta un crecimiento desde 150 millones de Qm en 1973 a 225 millones de Qm en 1975; de manera que el incremento de producción en esos dos años ha sido de 75 millones de Qm. Análogamente, si interpretamos el de la Figura 2.2 obtendremos el mismo resultado. Esta es una de las informaciones que nos da un gráfico mediante su interpretación numérica. La otra, tan importante como la interpretación numérica, seria la que permite hacerse una idea de la evolución de dicha producción observando la línea de la gráfica, que crece, decrece o se mantiene - según aumente, disminuya o se estabilice, respectivamente, la producción -, y aquí si que podemos observar la divergencia en las conclusiones que pueden obtener dos observadores, según hayan consultado el primero o el segundo gráfico.
Figura 2.1
Figura 2.2
Por ejemplo, el gráfico de la Figura 2.1 nos da idea de un crecimiento mucho más rápido que la que nos proporciona el de la Figura 2.2. Como el lector habrá observado, esto es debido a que las escalas elegidas en el eje de abscisas son distintas. Podrían también elegirse distintas escalas en el eje de ordenadas, o en ambos, con lo que la disparidad de los gráficos sería aún mayor. Es conveniente insistir en la importancia que tiene considerar las escalas y la representación en sí mismas al analizar cualquier gráfico que incluya un estudio estadístico. ESCALAS Escala es la relación que hay entre la unidad del dibujo y la del atributo que se desea representar. Si hay proporcionalidad entre coordenadas y atributos, se dice que usamos una escala aritmética o natural. Es necesario que la graduación sea precisa, por lo cual conviene usar a veces papel ya graduado, como es el papel milimetrado, el cual permite realizar los gráficos en forma rápida. La representación gráfica debe ser precisa, clara y simple.
Instituto Superior “Nuestra Señora de la Misericordia” I-29
Página - 10 -
Sistemas de Información - Estadística – 5to año Educ. Secundaria 2da división Prof. César Manuel Giménez TIPOS DE GRÁFICOS Hay varias formas de efectuar la representación gráfica de una serie estadística; cada una de ellas posee ventajas por las que se adaptan mejor para representar un tipo de series estadísticas que otro. El estadístico elegirá la más conveniente, o convenientes, en cada caso. Nosotros presentaremos las más usuales. a)
Gráficos de línea: Por gráficos de línea entendemos aquellos que vienen representadas en unos ejes de coordenadas cartesianas mediante una línea recta o quebrada, ya que los valores de las variables estadísticas serán aislados, tanto en el caso de las variables discretas como en el de las continuas, porque su dominio lo dividimos en clases y elegimos una marca de clase.
Si las variables cuantitativas continuas las tratáramos como tales (sin dividir su dominio de definición en intervalos de clases eligiendo un representante de cada clase), obtendríamos una función continua - generalmente llamada función de distribución - y su representación en un gráfico sería una línea curva o recta, pero continua.
EJEMPLO 1: La población de conejos de un cierto bosque a lo largo de diez años consecutivos figura en la Tabla 2.2. Se trata de construir el gráfico de línea que represente la evolución de esta población dada por dicha tabla. Obsérvese que en el año 1974 la población desciende muy rápidamente; éste es un hecho destacado debido seguramente a algún agente extraño - epidemias, matanza excesiva - o a cualquier otro factor externo. La gráfica correspondiente es la de la Figura 2.3. Figura 2.3 Tabla 2.2 Población de conejos, 1972 – 1982 (en miles) Año
1972
1973
1974
1975
1976
1977
1978
1979
1980
1981
1982
Población
12
11
13
9
10
9
8
7
7
6
7
EJEMPLO 2: El número de piezas (en miles) existentes en el almacén de una determinada fábrica el último día de cada mes del año 1981, viene dado por la Tabla 2.3. La gráfica correspondiente es la de la Figura 2.4.
Figura 2.4 Tabla 2.3 Número de piezas almacenadas (en miles) Meses
Ene.
Feb.
Mar.
Abril
May.
Junio
Julio
Ago.
Sept.
Oct.
Nov
Dic.
Piezas
5,5
6,3
6,6
7
7
7,5
8,5
8
8,3
7,5
7
6
Instituto Superior “Nuestra Señora de la Misericordia” I-29
Página - 11 -
Sistemas de Información - Estadística – 5to año Educ. Secundaria 2da división Prof. César Manuel Giménez Gráficas de rectángulos o de barras: En este caso representamos la serie estadística por medio de barras o de rectángulos cuya base es constante y su altura proporcional a la frecuencia absoluta correspondiente. También la superficie es proporcional a la frecuencia absoluta por serlo la altura del rectángulo. EJEMPLO 3: El pluviómetro de cada una de las tres ciudades A, B y C en un día de lluvia recogió los siguientes l/m2 (Figura 2.5).
Figura 2.5 Los diagramas de barras pueden ser de diferentes tipos: de barras simples, de barras múltiples, o de barras compuestas. a)
De barras simples: Un ejemplo es el de la Figura 2.5. Este diagrama representa un hecho único: los l/m2 de agua recogida.
b) De barras múltiples (agrupadas): Podría resultar conveniente comparar una serie estadística con otra. Hay dos formas distintas de realizar esta comparación: mediante un diagrama de barras compuestas y mediante uno de barras múltiples, utilizando barras distintas para cada serie y poniéndolas en el mismo gráfico, unas al lado de las otras.
Figura 2.6 Comparación de ventas en dos establecimientos mediante barras múltiples o agrupadas EJEMPLO 4: Las ventas de cada mes de una marca de cerveza en dos tiendas, Benítez y Ramírez, en el año anterior se distribuyeron como indica el diagrama de la Figura 2.6. c)
De barras compuestas (subdivididas): Este procedimiento de representar dos series estadísticas en el mismo gráfico consiste en dibujar el diagrama de barras de una de las series estadísticas y continuar las barras dibujadas con otras de distinto fondo que representarán la segunda serie estadística. De esta forma, cada barra tendrá una altura, que será la suma de la frecuencia absoluta del suceso que representa la barra en la primera serie más la frecuencia absoluta del mismo suceso en la segunda serie.
EJEMPLO 5: Realizaremos el diagrama de barras compuestas para el ejemplo anterior "ventas de cerveza" en ambos establecimientos (Figura 2.7). Figura 2.7 Comparación de ventas en dos establecimientos mediante barras compuestas Instituto Superior “Nuestra Señora de la Misericordia” I-29
Página - 12 -
Sistemas de Información - Estadística – 5to año Educ. Secundaria 2da división Prof. César Manuel Giménez Los gráficos de las Figuras 2.6 y 2.7 representan las mismas series estadísticas, como hemos indicado en el párrafo anterior. El gráfico de la Figura 2.6 es de barras múltiples y permite comparar fácil y cómodamente las ventas de la tienda Benítez con las de la tienda Ramírez; sin embargo, para saber las ventas mensuales que han tenido en total las dos tiendas, es necesario medir las ventas de cada uno y sumarlas. Por el contrario, en el gráfico de barras compuestas, la comparación de las frecuencias absolutas que representa cada barra es más complicada y es necesario medir la longitud de la barra con fondo blanco, que representa la frecuencia absoluta de ventas en cada mes. Pero si interesa saber las frecuencias absolutas de ventas realizadas en total por las dos tiendas, este gráfico lo da directamente. d) De barras en porcentajes: se utiliza el mismo criterio que para las subdivididas, pero trabajando con porcentajes. Es decir, que cada porción va a intervenir de manera porcentual dentro de cada barra. Se utilizan distintos colores o simbología. Todas las barras tiene la misma longitud (altura).
e)
100 %
De barras bidireccionales: se utilizan para graficar cantidades positivas y negativas, tales como pérdidas y ganancias; permitiendo una excelente visualización de ambos tipos de valores.
3) Pictogramas: otro medio de representación de series estadísticas es el pictograma. Consiste en tomar como unidad un símbolo arbitrario para el que debemos fijar previamente el valor que le asignamos como tal unidad. EJEMPLO 6: La población de tres ciudades A, B y C en 1981 era: -
Para la ciudad A: 400.000 habitantes. Para la ciudad B: 800.000 habitantes. Para la ciudad C: 500.000 habitantes. Tomamos como unidad
= 100.000 habitantes. Por tanto:
- La población de la ciudad A era:
- La población de la ciudad B era:
- La población de la ciudad C era: Este sistema de representación puede resultar incompleto y engorroso. Supongamos una ciudad con 450.000 habitantes; para ello sería necesario tomar como unidad un símbolo que represente 50.000 habitantes y la representación se alargaría.
Instituto Superior “Nuestra Señora de la Misericordia” I-29
Página - 13 -
Sistemas de Información - Estadística – 5to año Educ. Secundaria 2da división Prof. César Manuel Giménez Otro método es elegir símbolos unidad, en los que el valor representado sea proporcional a alguna magnitud geométrica de tal símbolo (longitud, altura, volumen, etc.), pero visualmente no se distingue esta proporcionalidad y no resulta muy útil dicha representación. Una representación que puede resultar útil es la obtenida al combinar los diagramas de barras con los pictogramas. Insertamos como ejemplo una evolución de la población activa según la rama de actividad (Figura 2.8).
Figura 2.8. Evolución de una población activa por ramas de actividad. 4) Gráficas de sectores: Este sistema de representación es de la misma naturaleza que el gráfico de barras; la frecuencia absoluta en este caso es proporcional al ángulo central del circulo y, por tanto, a la superficie del sector circular. A la frecuencia absoluta total le corresponde el círculo completo, es decir, los 360° de la circunferencia, que sería el sector circular mayor. EJEMPLO 7: Representar mediante un gráfico de sectores la frecuencia absoluta con que aparece cada una de las cinco vocales en la primera frase del Apartado 4) hasta el primer signo ";". Se construye la Tabla 2.4. Tabla 2.4 Letras vocales Vocales
a
e
i
o
u
Frecuencia absoluta
10
13
4
2
1
A la frecuencia absoluta con que aparecen las vocales en la frase le corresponde los 360° de la circunferencia. Bastará, pues, aplicar una proporción mediante una regla de tres para cada vocal y se encontrará el número de grados que le corresponde a esa vocal.
A •
(10 + 13 + 4 + 2 + 1) = 30
le corresponden 360°. Entonces:
Para a:
30 ___________ 360° 10 ___________ x
x = 360 x 10 = 120º 30
como frecuencia de a f1 = 10 5
y la suma de todas las frecuencias
Σ fi = 30
i=1
podríamos encontrar la fórmula general:
Numero de grados = fi x 360º Σ fi
(formula 2.1)
donde fi / Σ fi es la frecuencia relativa del suceso Ai
Instituto Superior “Nuestra Señora de la Misericordia” I-29
Página - 14 -
Sistemas de Información - Estadística – 5to año Educ. Secundaria 2da división Prof. César Manuel Giménez Aplicando la fórmula [2.1] se obtiene:
• • • •
Para e: Número de grados = 13 x 360º = 156º
30 Para i: Número de grados = 4 x 360º = 48º 30 Para o: Número de grados = 2 x 360º = 24º 30 Para u: Número de grados = 1 x 360º = 12º 30
Se puede comprobar que la suma de los cinco sectores nos da 360°. Su representación sería la que aparece en la Figura 2.9.
3% 7% 13%
33%
a
e
i
o
u
44%
Figura 2.9. Gráfico de sectores.
5) Pirámides de población: se utilizan para presentar la distribución de la población por sexo y edad en un momento dado. Los datos de edad vienen agrupados por lustros, décadas, años, etc. La pirámide depende en su forma de la natalidad, mortalidad, movimientos migratorios, etc.
VARONES
AÑOS
MUJERES
50 40 30 20 10
Instituto Superior “Nuestra Señora de la Misericordia” I-29
Página - 15 -
Sistemas de Información - Estadística – 5to año Educ. Secundaria 2da división Prof. César Manuel Giménez
Unidad de medición
(Qué y dónde) (cómo) (cuándo)
Título
Escala y rótulos Miles
4to. año
40 36 32 28 24 20 16 12 8 4
5to. año 6to. año (Referencias)
0
Varones
Mujeres (Leyenda eje x)
Rótulos Fuente: Anuario estadístico 1999 de la República Argentina Página 33, cuadro Nº 15 - INDEC
(Leyenda eje y)
(Fuente – origen de la información)
Instituto Superior “Nuestra Señora de la Misericordia” I-29
Página - 16 -
Sistemas de Información - Estadística – 5to año Educ. Secundaria 2da división Prof. César Manuel Giménez BLOQUE 3: SERIES ESTADÍSTICAS CONCEPTO Supongamos un conjunto de datos aislados. Si queremos obtener alguna información de ellos, no será posible a menos que tratemos de relacionarlos. Este es un procedimiento para obtener información que utilizan en general las ciencias que parten de un conjunto de datos (ciencias experimentales), una de las cuales es la Estadística. Precisamente en el caso de la Estadística es el procedimiento habitual de trabajo, puesto que el punto de partida es siempre un conjunto de hechos o datos que en general son aislados. Una serie estadística podría describirse como un conjunto de observaciones o medidas realizadas en una población, atendiendo a una o varias características determinadas. Habitualmente las series estadísticas se disponen en tablas, que llamaremos tablas estadísticas, que sirven para contener los datos de la serie de una forma ordenada y fácil de consultar. EJEMPLO: La producción de automóviles de una determinada fábrica a lo largo de un año se puede distribuir por meses, como en la Tabla 1. Puede observarse que esta tabla relaciona los meses del año con la producción de automóviles. Basta fijarse en algunas cifras para darse cuenta del rendimiento de la fábrica cada mes, sin más que compararlo con los demás meses. Podría también compararse, por ejemplo, con la producción del año anterior, con lo que obtendríamos una información más completa del rendimiento del año que estamos considerando. Por el contrario, si tomamos un solo mes del año, la información en este caso sería de poca utilidad por referirse a un hecho aislado. Resumiendo: es de observar que una serie estadística ha de estar necesariamente referida a un conjunto de pruebas que darán un resultado, o a un conjunto de sujetos que poseerán un determinado carácter. En nuestro ejemplo, el carácter será el número de automóviles producidos en el mes estudiado.
Tabla 1. Producción de automóviles Número de Meses automoviles Enero 8.500 Febrero 8.300 Marzo 8.500 Abril 8.000 Mayo 9.000 Junio 8.700 Julio 7.500 Agosto 7.000 Septiembre 8.600 Octubre 9.100 Noviembre 9.200 Diciembre 8.800
FRECUENCIAS Ya hemos estudiado la diferencia entre los dos tipos de variables estadísticas: cualitativas y cuantitativas. Más aún, dentro de las variables cuantitativas distinguíamos entre variables discretas (que toman valores numéricos aislados) y variables continuas (sus valores pueden ser números reales). Supongamos ahora que tenemos una población estadística de n individuos; el número de modalidades posibles que pueden tener estos n individuos, será evidentemente menor que n, puesto que considerado un grupo de modalidades menor que el número de individuos habrá varios que presenten esa modalidad. Recordemos que cada modalidad excluye cualquiera de las otras por la propia definición de modalidad, ya que no tendría sentido elegir modalidades superpuestas para realizar un estudio estadístico, pues un individuo podría gozar de dos o más modalidades y, al no quedar encuadrado en una de ellas, los resultados no serían comparables dentro de las mismas. Frecuencia absoluta Dada una población estadística de n individuos, y considerada una modalidad concreta de una variable estadística, se denomina frecuencia absoluta (o simplemente frecuencia de la modalidad) al número de veces que esa modalidad aparece en el total de casos posibles que se presentan en la muestra. Dada una modalidad Ai, a la frecuencia con que se repite la notaremos por fi. Por ejemplo, si consideramos una población formada por 50 hombres, y elegimos como variable "el color del pelo", y como modalidad "el color negro", la frecuencia de esta modalidad será el número de individuos que tienen pelo negro. Es de destacar que la suma de las frecuencias absolutas nos dará el número de casos posibles o total de individuos de la muestra o población.
Instituto Superior “Nuestra Señora de la Misericordia” I-29
Página - 17 -
Sistemas de Información - Estadística – 5to año Educ. Secundaria 2da división Prof. César Manuel Giménez Frecuencia relativa Se denomina frecuencia relativa de una modalidad al valor de una fracción cuyo numerador es la frecuencia absoluta de esa modalidad y cuyo denominador es el número de individuos de la población. Si fi es la frecuencia de una cierta modalidad Ai, y n es el número de individuos, la frecuencia relativa ri se calcula como:
ri =
fi n
En el ejemplo anterior, la frecuencia relativa de los individuos con pelo negro sería el número de individuos con pelo negro dividido por 50. La frecuencia relativa ri estará siempre comprendida entre 0 y 1. Frecuencia porcentual Si la frecuencia relativa la expresamos mediante porcentajes, encontramos la frecuencia porcentual. Se calcula multiplicando por 100 el valor de la frecuencia relativa. La frecuencia porcentual estará comprendida lógicamente entre 0 y 100 y la notaremos por hi.
h i = ri
. 100
EJEMPLOS: 1.
Para variable estadística cualitativa
Se desea saber la opinión de los alumnos sobre el horario de clases de un determinado curso. La población de la muestra está formada por un colectivo (población) de 150 alumnos y se trata de elegir una modalidad de entre cuatro posibles dentro de la variable o característica "horario de clase". El resultado ha sido: 79 alumnos prefieren horario de mañana, 52 de tarde, 17 combinado y 2 indiferente. La tabla estadística relativa a estos resultados se dispondría como figura en la Tabla 2.
2.
a)
Tabla 2. Para variable cualitativa Frecuencia absoluta (fi) 79
Frecuencia relativa (ri) 0,526
Frecuencia porcentual (hi) 52,6
(A2) De tarde
52
0,346
34,6
(A3) Combinado
17
0,113
11,3
(A4) Indiferente
2
0,013
1,3
Modalidad Ai (A1) De mañana
Para variable estadística cuantitativa
Variable discreta Consideremos una muestra sacada de la población formada por los 150 alumnos del curso al que se refiere el Ejemplo 1; esta muestra consta de 20 de estos alumnos. La variable que consideramos en este caso será "número de hermanos de cada uno". Construyamos la tabla correspondiente (Tabla 3).
Tabla 3. Para variable cuantitativa discreta Modalidades 0 hermanos 1 hermano 2 hermanos 3 hermanos 4 hermanos 5 hermanos 6 hermanos
Frecuencia absoluta (fi) 4 6 5 3 1 1 0
Instituto Superior “Nuestra Señora de la Misericordia” I-29
Frecuencia relativa (ri) 0,2 0,3 0,25 0,15 0,05 0,05 0
Frecuencia porcentual (hi) 20 30 25 15 5 5 0
Página - 18 -
Sistemas de Información - Estadística – 5to año Educ. Secundaria 2da división Prof. César Manuel Giménez b) Variable continua Consideramos ahora como muestra la población de alumnos de ese curso, es decir, los 150 alumnos. La variable ahora será "la estatura", y las modalidades "las diferentes tallas consideradas", que en este caso agruparemos en intervalos. La tabla estadística correspondiente sería la Tabla 4.
Tabla 4. Para variable cuantitativa continua Modalidades (tallas) Hasta165 cm 165-170 170-175 175-180 180-185 Desde 185 cm
fi
ri
hi
15 60 40 20 10 5
0,1 0,4 0,266 0,133 0,066 0,033
10 40 26,66 13,33 6,66 3,33
En los párrafos anteriores nos hemos referido a la incompatibilidad de las modalidades; efectivamente, cualquiera de los alumnos del ejemplo considerado no puede tener dos estaturas distintas, o dos y tres hermanos a la vez. Basándonos en este razonamiento comprenderemos las expresiones siguientes, que tienen una sencilla demostración: k
Σ fi = n
i=1
k
Σ ri = 1
i=1
k
Σ hi = 100
i=1
donde: • n es el número de individuos de la muestra, • fi la frecuencia absoluta de cada modalidad Ai • ri la frecuencia relativa, • hi la frecuencia porcentual, y • k el número de modalidades distintas consideradas. Frecuencia acumulada Considerada una modalidad determinada, la frecuencia acumulada nos da la suma de las frecuencias de las modalidades anteriores a ésta, es decir, la frecuencia que se ha acumulado después de considerar las modalidades anteriores. Como es lógico, podemos hablar de frecuencia absoluta acumulada (Fi), frecuencia relativa acumulada (Ri) y frecuencia porcentual acumulada (Hi); sin embargo, es más usual calcular sólo la frecuencia absoluta acumulada para cada modalidad; en el caso de las otras dos frecuencias suele calcularse la frecuencia total acumulada que puede servir como comprobante de no haber incurrido en error en los cálculos anteriores. Para calcular las frecuencias acumuladas totales basta aplicar las fórmulas anteriores.
Tabla 5. Cálculo de la frecuencia acumulada Estatura
fi
Fi
ri
hi
Hasta 165 cm
15
15
0,1
10
165-170
60
75
0,4
40
170-175
40
115
0,266
26,66
175-180
20
135
0,133
13,33
180-185
10
145
0,066
6,66
Desde 185 cm
5
150
0,033
3,33
Σ ri = 0,998 Σ hi = 99,98
Para ilustrar estas definiciones y la disposición de las frecuencias acumuladas, repetimos el ejemplo anterior que considera las estaturas de los alumnos de una clase, en la Tabla 5. Obsérvese que la frecuencia relativa total acumulada no es la unidad, ni la porcentual total acumulada da cien como resultado, esto es debido al error de redondeo en los decimales, hecho que sucederá habitualmente en este tipo de cálculos.
Instituto Superior “Nuestra Señora de la Misericordia” I-29
Página - 19 -
Sistemas de Información - Estadística – 5to año Educ. Secundaria 2da división Prof. César Manuel Giménez TIPOS DE SERIES ESTADÍSTICAS No todas las series estadísticas se ocupan de características de la misma índole. Atendiendo a las características del estudio a realizar, se pueden considerar diferentes tipos de series. Series estadísticas simples y agrupadas: Esta clasificación corresponde a la forma en que se pueden presentar los datos. 6.
Series estadísticas simples: Catalogamos así a las series estadísticas en las que a cada dato del hecho estudiado se le asigna de forma unívoca el valor extraído de la observación.
Ejemplos de estas series son el número de habitantes de cada país de un continente, el número de piezas que cada empleado de una fábrica construye cada día, etc. 7.
Series estadísticas agrupadas: Se refieren fundamentalmente a variables estadísticas continuas o discretas con un gran número de valores. En éstas los datos se agrupan por clases, y a cada clase se le asigna un valor llamado marca de clase, que suele coincidir con el valor central.
Ejemplos de estas series son las estaturas de los individuos de una muestra o población, las dimensiones de las piezas de una máquina, etc. Series cronológicas: Se ocupan del comportamiento de los hechos a lo largo del tiempo. Cuadros estadísticos: Se denomina así a las tablas estadísticas resultantes de agrupar varias series estadísticas. Los cuadros estadísticos se diferencian del resto de las series estadísticas en que consideran más de un carácter. En ellos pueden representarse características cualitativas, cuantitativas o una combinación de ambas. Podemos también considerar variables discretas, continuas o de ambos tipos. Los cuadros estadísticos tienen doble entrada y podrían considerarse incluso con más de dos. ORGANIZACIÓN Y PRESENTACIÓN DE DATOS Los datos obtenidos de la observación o la medición suelen ser registrados en el orden en que se recogen. Para facilitar la interpretación y el análisis, deben ser organizados primero en alguna forma ordenada y presentados en un cuadro o un gráfico. Para decidir cómo deben ser organizados y presentados los datos, debemos conocer la naturaleza de ellos y el objeto de la investigación. LA CLASIFICACIÓN Y EL CUADRO DE FRECUENCIAS
Datos estadísticos en forma bruta pueden ser presentados como en el Cuadro 6, que clasifica los diámetros en pulgadas de 100 mediciones de cierta clase de tubo de acero. ¿Qué significa este cuadro? Puesto que las cifras han sido clasificadas por el orden en que son compiladas, son difíciles de interpretar. Quien posea capacidad para investigar un conjunto de cifras podrá descubrir al cabo de unos pocos minutos y con considerable esfuerzo, los valores mínimo y máximo en el cuadro. También puede saber que podrá obtener un "promedio" de cierta clase sumando los valores individuales y dividiendo la suma por el número de unidades de la serie. Pero esto es probable que sea toda la información que pueda reunir del cuadro.
Cuadro 6. Cien mediciones de diámetros de tubo de acero, en pulgadas 3,86 3,71 3,77 3,83 4,22 3,63 3,90 3,92 3,95 4,08 3,96 3,97 3,98 4,03 4,01 4,04 4,05 4,07 4,11 3,94 4,12 4,15 4,16 4,28 3,82 4,13 4,06 4,07 4,26 3,81 4,04 4,15 4,16 4,10 3,94 3,96 3,97 3,99 4,02 4,00 3,87 3,90 3,93 3,95 4,08 3,69 3,73 3,79 3,83 4,20 3,70 3,74 4,35 3,83 4,18 3,88 3,91 4,12 3,95 4,08 3,97 3,97 4,04 4,02 4,00 4,05 4,06 3,96 4,09 3,94 4,14 4,16 3,85 4,24 3,81 4,14 4,16 3,84 4,23 3,80 4,05 3,98 3,96 4,09 3,93 3,97 4,07 4,03 4,02 3,99 3,89 3,91 4,11 3,95 4,07 3,71 3,76 4,29 3,82 4,17 El total de esta serie es 399.17 (suma de todos los valores) Fuente: Ficticia.
Instituto Superior “Nuestra Señora de la Misericordia” I-29
Página - 20 -
Sistemas de Información - Estadística – 5to año Educ. Secundaria 2da división Prof. César Manuel Giménez Para obtener más información y obtenerla rápidamente, necesitamos organizar los datos en alguna forma sistemática. La forma más sencilla de hacerlo es formar una clasificación, una disposición de los datos según su magnitud. Puede formarse en orden ascendente (de los valores más bajos a los más altos) o en orden descendente (de los valores más altos a los más bajos). En el Cuadro 7, las 100 mediciones del Cuadro 6 han sido dispuestas en una clasificación por orden ascendente. Tal clasificación tiene claras ventajas sobre los datos en forma bruta. De ella pueden aprenderse muchas características de la variable, fácil y rápidamente. Primero, una ojeada a la clasificación nos dice que la amplitud de diámetros de la muestra es de 3.63 a 4.35 pulgadas. Segundo, vemos claramente una gran concentración de valores cerca de 4.00 pulgadas. Finalmente, la clasificación revela aproximadamente el tipo de distribución de la serie. Aunque hay algunos vacíos entre estas mediciones, la serie da un aspecto aproximadamente continuo. También, hay algunos valores extremos, junto con frecuentes observaciones de valor medio.
Cuadro 7. Clasificación de 100 mediciones de diámetros de tubos de acero, en pulgadas 3,63 3,86 3,96 4,04 4,12 3,69 3,87 3,96 4,04 4,13 3,70 3,88 3,97 4,05 4,14 3,71 3,89 3,97 4,05 4,14 3,71 3,90 3,97 4,05 4,15 3,73 3,90 3,97 4,06 4,15 3,74 3,91 3,97 4,06 4,16 3,76 3,91 3,98 4,07 4,16 3,77 3,92 3,98 4,07 4,16 3,79 3,93 3,99 4,07 4,16 3,80 3,93 3,99 4,07 4,17 3,81 3,94 4,00 4,08 4,18 3,81 3,04 4,00 4,08 4,20 3,82 3,94 4,01 4,08 4,22 3,82 3,95 4,02 4,09 4,23 3,83 3,95 4,02 4,09 4,24 3,83 3,95 4,02 4,10 4,26 3,83 3,95 4,03 4,11 4,28 3,84 3,96 4,03 4,11 4,29 3,85 3,96 4,04 4,12 4,35 Fuente Cuadro 6.
La clasificación es a menudo un medio práctico y útil de organizar pequeñas cantidades de datos. Así, por ejemplo, para estudiar los subsidios que concede un estado a sus ciudades para el funcionamiento del transporte público, podemos disponer las principales ciudades del estado en una clasificación según la población. También puede ser instructivo clasificar el ingreso per-cápita de los distintos estados y considerar las razones para las diferencias. Sin embargo, la clasificación todavía es una forma muy engorrosa de organizar los datos, especialmente cuando se trata de una muestra grande. Además, se agota su utilidad después de haber sido obtenidos de ella algunos tipos de información. Por tanto, es conveniente comprimir los datos en una forma más compacta. Condensar y simplificar datos sin perder muchos detalles es el objeto de la distribución por frecuencias, una disposición de los datos que muestra la frecuencia de ocurrencia de valores en cada una de diversas clases de tamaños. La presentación tabular de tal resumen de datos se conoce como cuadro de frecuencias. Para distribuir una masa de datos brutos entre las clases que ya han sido establecidas usamos una hoja de cuenta o la forma de asiento. Anotar en la hoja de cuenta, como se indica en el Cuadro 8, supone establecer clases y representar cada unidad que corresponde a cada clase por una raya diagonal; entonces contamos el número de unidades de cada clase.
Cuadro 8. Hoja de cuenta para 100 mediciones de diámetro de tubos de acero, en pulgadas Clase 3.595-3.695 // 2 3.695-3.795 ///// /// 8 3.795-3.895 ///// ///// //// 14 3.895-3.995 ///// ///// ///// ///// ///// // 27 3.995-4.095 ///// ///// ///// ///// ///// 25 4.095-4,195 ///// ///// ///// / 16 4,195-4.295 ///// // 7 4.295-4.395 / 1 Total 100 Fuente: Cuadro 7.
El uso de la forma de asiento se ilustra por el Cuadro 9. En este procedimiento, las clases se disponen horizontalmente en la parte superior por orden ascendente de izquierda a derecha. Las unidades reales son anotadas en las clases apropiadas. Las unidades correspondientes a cada clase son contadas y registradas en la parte inferior de dicha clase. Las cifras totales de las clases constituyen las frecuencias de clases. La forma de asiento es más laboriosa que la de cuenta, pero ofrece ciertas ventajas: 1) podemos hallar fácilmente cualesquiera asientos en las columnas inapropiadas examinando las columnas; 2) pueden hacerse a menudo nuevas clasificaciones con poco esfuerzo si las clases originales son insatisfactorias, y 3) podemos hallar cuán estrechamente concuerda el valor medio de una clase con el promedio de los valores de las unidades de dicha clase. Instituto Superior “Nuestra Señora de la Misericordia” I-29
Página - 21 -
Sistemas de Información - Estadística – 5to año Educ. Secundaria 2da división Prof. César Manuel Giménez Cuadro 9. Forma de asiento: 100 mediciones de diámetros de tubos de acero, en pulgadas 3,595- 3,6953,7953,8953,9954,0954,1954,2953,695 3,795 3,895 3,995 4,095 4,195 4,295 4,395 3,63 3,70 3,80 3,90 4,00 4,10 4,20 4,35 3,69 3,71 3,81 3,90 4,00 4,11 4,22 (1) (2) 3,71 3,81 3,91 4,01 4,11 4,23 3,73 3,82 3,91 4,02 4,12 4,24 3,74 3,82 3,92 4,02 4,12 4,26 3,76 3,83 3,93 4,02 4,13 4,28 3,77 3,83 3,93 4,03 4,14 4,29 3,79 3,83 3,94 4,03 4,14 (7) (8) 3,84 3,94 4,04 4,15 3,85 3,94 4,04 4,15 3,86 3,95 4,04 4,16 3,87 3,95 4,05 4,16 3,88 3,95 4,05 4,16 3,89 3,95 4,05 4,16 (14) 3,96 4,06 4,17 3,96 4,06 4,18 3,96 4,07 (16) 3,97 4,07 3,97 4,07 3,97 4,07 3,97 4,08 3,97 4,08 3,98 4,08 3,98 4,09 3,98 4,09 3,99 (25) 3,99 (27) FUENTE: Cuadro 7. Cuadro 10. Cuadro de frecuencias: 100 mediciones de diámetros de tubos de acero, en pulgadas Frecuencia Intervalo de Punto medio absoluta Xi clase fi 3,595 - 3,695
3,645
2
3,695 - 3,795
3,745
8
3,795 - 3,895
3,845
14
3,895 - 3,995
3,945
27
3,995 - 4,095
4,045
25
4,095 - 4,195
4,145
16
4,195 - 4,295
4,245
7
4,295 - 4,395
4,345
1
Total
100
FUENTE: Cuadros 8 ó 9
Obsérvese que la hoja de cuenta y la forma de asiento son mucho más fáciles de obtener si se dispone de una clasificación de las series. Pero las unidades también pueden ser ordenadas -con más esfuerzo- partiendo de datos brutos. En la práctica, una clasificación nunca se obtiene solamente para hacer una distribución por frecuencias, porque se requiere mucho tiempo y esfuerzo. Los resultados de la hoja de cuenta o la forma de asiento pueden presentarse ahora en un cuadro de frecuencias, por el Cuadro 10.
La distribución por frecuencias permite condensar datos borrando los valores de los datos. Solo conocemos ahora los intervalos de clase de los datos, no los valores individuales. Por ejemplo, en el Cuadro 10, la observación más grande se encuentra en algún lugar entre 4.295 pulgadas y 4.395 pulgadas; ya no sabemos que es 4.35 pulgadas. A pesar de esta pérdida, se ha ganado mucho por esta condensación. Primero, toda la información revelada por la clasificación puede ser obtenida, aproximadamente, de la distribución por frecuencias con mayor facilidad. Segundo, la distribución por frecuencias no solo muestra claramente la concentración de los valores individuales, sino que también permite conocer el tipo de tendencia de los valores individuales a variar por arriba o por abajo de la concentración. Tercero, con datos formados en una distribución por frecuencias, las comparaciones entre dos o más series pueden hacerse más fácilmente. Tales comparaciones son facilitadas aún más cuando las distribuciones por frecuencia son presentadas en formas gráficas. Finalmente, los cuadros de frecuencia aceleran los cálculos de muchas medidas descriptivas, suponiendo que la pérdida de detalle no es grave.
Instituto Superior “Nuestra Señora de la Misericordia” I-29
Página - 22 -
Sistemas de Información - Estadística – 5to año Educ. Secundaria 2da división Prof. César Manuel Giménez PROBLEMAS DE CONSTRUCCIÓN DE DISTRIBUCIONES NUMÉRICAS POR FRECUENCIAS En la distribución por frecuencias influyen algunas consideraciones importantes. Pero debemos exponer primero algunos términos técnicos asociados con un cuadro de frecuencias. Las agrupaciones 3,595-3,695; 3,695-3,795; etc., se llaman intervalos de clase o simplemente clases. Los números situados a la izquierda de las clases son límites inferiores de clases, y los números situados a la derecha, límites superiores de clases. El valor medio entre los límites de cada clase se llama punto medio, o marca de clase, de dicha clase, y se representa por Xi. La marca de clase o punto medio de la i-ésima clase se obtiene dividiendo la suma de los límites de dicha clase por 2. La marca de clase es de considerable importancia teórica y práctica. Se usa como "valor típico" de los datos de dicha clase. Supongamos que todas las observaciones registradas en una clase dada tienen el mismo valor que la calificación de dicha clase. Este supuesto de punto medio es necesario por el hecho de que al formar la distribución por frecuencias perdemos los valores de las observaciones individuales. Su justificación es la creencia de que el error que introduce suele ser tan pequeño que no es tomado en cuenta. El número de unidades entre los límites de una clase se llama amplitud del intervalo de clase, que podemos representar por ai. Cuando la misma amplitud de intervalo es usado para todas las clases, tenemos una distribución con intervalos uniformes de clase. El número de ocurrencias de cada clase se llama frecuencia de clase, frecuencia simple o frecuencia absoluta, fi y el número total de observaciones en el caso de una muestra se expresa por la siguiente fórmula:
Σ f = n, i
i
En el caso que el número total de observaciones corresponda a un censo, la expresión sería la siguiente:
Σ f = N, i
i
Deben seguirse algunas reglas prácticas para la construcción de una distribución de frecuencias. Primero, el número de clases usadas no debe ser muy grande ni muy pequeño. Un gran número de clases puede que no condense los datos suficientemente para ser de valor práctico; un número pequeño de clases tiende a resumir en exceso los datos, por lo que se pierde mucha información valiosa. Una regla empírica es que el número de clases varíe entre 5 y 15. Obviamente, el número real de clases que debe emplearse depende del número de unidades de la muestra y de la amplitud de los valores observados. También depende, menos obviamente, del uso a que se destinarán los datos. Si solo se desea el patrón amplio de datos, pueden usarse solo unas pocas clases. Si se desea un patrón detallado, se requerirán más clases. Si se desea gran precisión en cálculos posteriores de la tabla de frecuencias, deben usarse muchas clases. En nuestros datos ilustrativos hay 100 unidades y la amplitud es 4.35 - 3.63 = 0.72. Para estos datos hemos escogido un valor de 0,10 pulg como el intervalo de clase. En general, cuando sea posible, a los intervalos de clase se les debe asignar valores de enteros o múltiplos de 5 para comodidad en cálculos posteriores. Para aplicar esto en la práctica, se permite comenzar con un valor inferior al mínimo de la serie como el límite de clase inferior de la primera clase y terminar con un valor mayor que el máximo en la serie como límite superior de la última clase. Esto es exactamente lo que hemos hecho al elaborar una distribución de frecuencias para los datos de diámetro. Segundo, a veces puede formarse una distribución sin el límite inferior para la primera clase o sin el límite superior para la última clase, o sin ambos limites. Se dice entonces que esas clases son de extremo abierto. El intervalo para una clase de extremo abierto es el infinito y su punto medio es ± ∝. Tercero, no es necesario que los intervalos de clase sean uniformes. Pueden usarse con ventaja clases de extremo abierto y distintos intervalos de clase en situaciones en las que hay unos pocos valores extraordinariamente pequeños o extraordinariamente grandes, o todos ellos juntos, en los que los datos poseen grandes vacíos, y cuando el número de observaciones llega a ser de millares o aun millones. Instituto Superior “Nuestra Señora de la Misericordia” I-29
Página - 23 -
Sistemas de Información - Estadística – 5to año Educ. Secundaria 2da división Prof. César Manuel Giménez Finalmente, la designación de límites de clases es de considerable importancia, porque una cuidadosa elección simplificará la tabulación y mejorará la precisión para cálculos posteriores. Además de tener clases mutuamente exclusivas y colectivamente exhaustivas y enfrentarse a los problemas de clases con extremo abierto e intervalos de clase uniformes, debemos centrar las clases sobre datos que ocurren frecuentemente, de modo que el supuesto de punto medio sea aproximadamente cierto. A este respecto, Yule y Kendall propusieron llevar los límites de clase a un lugar decimal más, o una fracción menor, que los valores de las observaciones individuales. Así, para los datos de diámetro, los límites de clase se expresan en tres lugares decimales en vez de dos, como los datos del Cuadro 6. Los intervalos de clase dados como 3.595 a 3.695, 3.695 a 3.795, etc., dan un aspecto continuo de los datos. Además, los límites de clase son mutuamente exclusivos, porque las observaciones que han de tabularse son registradas solo en el segundo lugar decimal, y no surge ninguna ambigüedad aunque los límites de clase parecen traslaparse. PRESENTACIÓN GRÁFICA DE DISTRIBUCIONES DE FRECUENCIAS Una distribución numérica puede ser presentada gráficamente en dos formas básicas. Una forma es describirla gráficamente por un histograma. Por ejemplo, si las distribuciones de frecuencias del Cuadro 10 fueran mostradas en esta forma, tendríamos un gráfico como el de la figura 1. A continuación ofrecemos algunas características especiales de la construcción de un histograma. 1.
Las frecuencias de clase suelen representarse gráficamente en función del eje Y, y la escala de los intervalos de clase se representa en el eje X. Los ejes X e Y deben comenzar en cero, con interrupciones de la escala si son necesarias. Esta recomendación no es precisa para el eje X. Pero ambos ejes deben ser rotulados clara y completamente.
2.
Un espacio, de la mitad al tamaño completo del intervalo de clase, se deja en cada extremo del eje X.
3.
Las designaciones de escala X suelen ser colocadas como los verdaderos límites de clase. Las barras deben tocarse unas a otras, sin brechas, excepto para clases vacías. A veces, se rotula la escala X colocando el valor medio de cada clase en el centro de la base de la barra.
4.
La escala X es igualmente espaciada cuando los intervalos de clase son uniformes. En una distribución variable de intervalos de clase, la escala X debe ser ajustada apropiadamente. Por ejemplo, si se usan dos amplitudes de intervalos de clase, 100 y 500, el espacio sobre el eje X para las clases que tienen amplitud de intervalo de 500 deben ser cinco veces más ancho que los espacios con amplitud de intervalo de 100.
5.
Un histograma se representa siempre como compuesto de barras, como en la figura 1.
fi 30
20
10
0 3,595 3,695 3,795 3,895 3,995 4,095 4,195 4,295 4,395
X
Fig. 1. Histograma para datos de diámetros del Cuadro 10.
Instituto Superior “Nuestra Señora de la Misericordia” I-29
Página - 24 -
Sistemas de Información - Estadística – 5to año Educ. Secundaria 2da división Prof. César Manuel Giménez La altura de la barra de un histograma significa cuántas unidades hay en dicha clase. El área de la barra de un histograma carece de significado. Se observa sencillamente dónde se encuentra la barra a lo largo del eje X y qué altura tiene. La frecuencia en una clase se representa por la altura de la barra en histogramas no usando densidad. Otra forma de representar gráficamente una distribución de frecuencias es dibujar un polígono de frecuencias. Hacemos esto, si disponemos de un histograma, trazando simplemente un punto sobre el punto medio de la parte superior de cada barra del histograma y uniendo estos puntos por líneas rectas [figura 2.(a)]. Pero, con mucha frecuencia, se construye un polígono sin trazar los rectángulos. Sin el histograma obtenemos el polígono localizando las coordenadas: las ordenadas, que son las frecuencias de clase, y las abscisas, que son los puntos medios. Estos puntos son unidos después por líneas rectas [figura 2.(b)]. Aunque el histograma es una presentación gráfica eficaz y vívida de distribuciones de frecuencias, el polígono no representa muy bien los datos básicos. La diferencia más notable del polígono es que las áreas situadas debajo de él generalmente no son proporcionales a las frecuencias. Un remedio es cerrar el polígono en la base prolongando ambos extremos de la curva hasta los puntos medios de dos clases hipotéticas situadas en los extremos de la distribución que tienen cero frecuencias. Los dos polígonos de la figura 2 han sido dibujados de esta manera. Sin embargo, hay por lo menos dos importantes razones para usar el polígono de frecuencias. Primero, cuando han de compararse varias distribuciones sobre el mismo gráfico, es mucho más claro superponer los polígonos de frecuencias que superponer histogramas, especialmente cuando todas las distribuciones tienen los mismos límites de clases. Segundo, el polígono de frecuencias sugiere el uso de una curva suave como una representación idealizada de la distribución de la población. Una muestra consta de solo un número limitado de unidades, por lo que su distribución se caracterizaría por irregularidades y soluciones de continuidad. Sin embargo, si las unidades de la muestra son aumentadas y disminuyen continuamente los intervalos de clase, podemos esperar que la distribución sea cada vez más suave y cada vez menos regular, porque las irregularidades accidentales que afectan a un pequeño número de unidades serían eliminadas gradualmente. Cuando la muestra es muy grande, los intervalos de clase son muy estrechos, pero cada uno contendrá un número substancial de unidades. Al mismo tiempo, si la escala vertical, que mide la frecuencia, es reducida de modo que el área del histograma para esta muestra extraordinariamente grande sea igual al área de la pequeña muestra original, el histograma de la muestra grande formará prácticamente una curva suave. Se indicó que las áreas situadas debajo del polígono no son proporcionales a las frecuencias. Esto se debe en parte a las irregularidades de los datos. En una curva suave estas irregularidades han sido eliminadas. Así, el área situada debajo de la curva suave entre ordenadas escogidas en puntos dados del eje X se supone teóricamente que es proporcional a la frecuencia de observaciones entre los valores dados. La curva suave adquiere importancia porque se considera que representa la verdadera distribución de la población de la que se extrae la muestra. Pero la derivación de una curva suave ampliando la muestra es generalmente una imposibilidad práctica. Lo que solemos hacer es aproximar la distribución de la población sobre la base de los datos de la muestra. Esto podemos hacerlo suavizando las puntas del polígono de frecuencias dibujando a mano o introduciendo una curva suave a los datos de la muestra con alguna fórmula matemática. Con uno u otro método hay mucha libertad para suavizar la curva. Obviamente, no es necesario que dos expertos dibujen una curva suave idéntica con los mismos datos. Diferencias en el juicio de los estadísticos también pueden conducir a usar diferentes fórmulas para la misma muestra. Así, una variedad de curvas suaves que difieren considerablemente, pero que parece que se adaptan a los datos, pueden ser dibujadas para un conjunto dado de observaciones. Puede concebirse que alguna curva suave adaptada a los datos de la muestra representa la población, pero no podemos estar seguros, por la muestra, de qué curva suave particular es la distribución subyacente de la población. En todo caso, debido a la sorprendente libertad para ajustar la curva, la curva suave debe presentarse siempre con el histograma, no simplemente sola.
Instituto Superior “Nuestra Señora de la Misericordia” I-29
Página - 25 -
Sistemas de Información - Estadística – 5to año Educ. Secundaria 2da división Prof. César Manuel Giménez fi
fi
30 30
20
20
10
10
0
X 0
X
(b)
(a)
Figura 2. Polígonos de frecuencias para datos de diámetros del Cuadro 10 Las curvas suaves son llamadas alternativamente modelos de población. Se las llama así porque describen las características importantes de las distribuciones de población. El término "modelo de población" también sugiere generalizaciones de las formas de distribuciones de población -simétrica, asimétrica, en forma de U, etc. Estas generalizaciones son de gran utilidad en el análisis estadístico porque proporcionan métodos simplificados de describir las características básicas de las poblaciones. Hay otras razones para nuestro interés por los modelos de población. Una es que una distribución de población es necesaria a veces para la toma de decisiones. Otra es que las inferencias estadísticas a menudo requieren que conozcamos modelos de población. Una tercera razón es que un modelo de población, estando representado por una curva suave, a veces se presta más fácilmente a un tratamiento matemático. Los modelos de población pueden asumir una infinita variedad de formas. En los siguientes párrafos introduciremos algunos modelos de población que se encuentran más frecuentemente en la estadística comercial y económica.
(a)
(d)
(b)
(c)
(e)
(f)
Fig, 3. Curvas que representan, variedades principales de modelos de población: (a) curva normal, (b) curva bimodal, (c) curva positivamente asimétrica, (d) curva negativamente asimétrica, (e) curva en forma de U, (f) curva en forma de J invertida.
Instituto Superior “Nuestra Señora de la Misericordia” I-29
Página - 26 -
Sistemas de Información - Estadística – 5to año Educ. Secundaria 2da división Prof. César Manuel Giménez La curva (a) de la figura 3 es un modelo de población de especial interés e importancia en estadística. Observe que esta curva de distribución tiene forma de campana. Las densidades de frecuencias más grandes están en el centro. Las densidades menores se encuentran junto al centro. Hay densidades muy pequeñas en ambos extremos. Es realmente extraño que si se mide una característica que ocurre al azar, la curva de la distribución resultante a menudo semeja la mostrada como curva (a). Tanto si medimos la resistencia a la tracción de barras de acero producidas por un proceso determinado como la estatura de hombres, la inteligencia de estudiantes, el tamaño de granos de arroz o los errores de repetidas mediciones de una característica dada, la curva de distribución a menudo tiene forma de campana. El modelo en forma de campana se llama comúnmente curva de distribución normal o simplemente curva normal. La curva (b) de la figura 3 representa lo que se conoce como distribución bímodal, lo que significa que tiene dos picos, en contraste con una distribución unimodal, que solo tiene un pico, Este tipo de distribución aparece cuando una población contiene elementos que pueden ser divididos en dos clases que difieren entre sí en las características que se miden. Podemos decir también que la población no es homogénea. Por ejemplo, la distribución de todos los saldos de depósitos a la vista de Estados Unidos asumiría este modelo. En tal distribución encontraríamos un pico destacado en un valor relativamente bajo para los saldos mantenidos por unidades de consumo y otro pico distinto a un valor relativamente alto para saldos mantenidos por empresas comerciales y otras organizaciones. Igualmente, si estudiáramos la estatura de estudiantes universitarios, resultaría una distribución bimodal -una concentración para hombres y otra para mujeres. A veces, se desconoce la verdadera razón de una distribución bimodal. Las curvas (c) y (d) de la figura 3 son modelos de distribuciones asimétricas. Generalmente, una distribución asimétrica solo tiene un pico, situado en el extremo inferior o superior de la curva. Cuando la cola más larga de la curva está a la derecha, decimos que la distribución es asimétrica a la derecha o positivamente asimétrica. Cuando la cola más larga de la curva está a la izquierda, decimos que la distribución es asimétrica a la izquierda o negativamente asimétrica. El modelo positivamente asimétrico es muy común en datos económicos y comerciales. Por ejemplo, la distribución de sueldos es asimétrica a la derecha, indicando que algunos empleados (relativamente pocos en comparación con el grupo general) reciben sueldos mucho más altos que los recibidos por la mayoría de los empleados. Igualmente, la distribución del número de tiendas detallistas por importe de las ventas sería positivamente asimétrica, porque hay muchas tiendas pequeñas y pocas grandes. Un ejemplo del modelo negativamente asimétrico sería el número de empresas distribuidas según la razón de costo de ventas a ventas netas en una industria. El modelo negativamente asimétrico describe bien una población cuyas variables tienen un límite superior. Por ejemplo, en la práctica el límite superior de la razón de costo de ventas a ventas netas sería la unidad, o 100 por 100. Una empresa raramente permanece en el negocio mucho tiempo si su razón de costo de ventas a ventas netas supera la unidad, aunque esto puede suceder temporalmente. La curva en forma de U, como se ilustra por la curva (e) de la figura 3, describe una distribución que contiene predominantemente valores bajos y altos, siendo relativamente escasos los valores intermedios. El modelo en forma de U es bastante raro, pero algunas series económicas se adaptan a él, Por ejemplo, la distribución de las naciones del mundo según sus etapas de desarrollo económico revelaría abultamientos en dos extremos. La mayoría de los países están altamente desarrollados o subdesarrollados, con solo unos pocos en las etapas intermedias. Nuevamente, la distribución de frecuencia de los desempleados según grupos de edades resaltaría como una curva en forma de U. Esto indica que la mayor parte de quienes no trabajan son muy jóvenes o muy viejos. Una población también puede adoptar la curva en forma de J o J invertida, tal como la curva (f) de la figura 3, en la que las frecuencias de ocurrencia aumentan o disminuyen continuamente a lo largo de la escala horizontal. La curva en forma de J invertida sería una buena aproximación para la distribución de corporaciones clasificadas según el tamaño del activo, o la distribución de quiebras comerciales con el eje X como tiempo de operación. Así, aunque la distribución normal ocupa un lugar muy importante en la práctica estadística, hay variables comerciales y económicas que no están normalmente distribuidas. Por numerosas razones, debemos poseer un conocimiento de varios modelos de población. Es cierto que la mayor parte de las veces no conocemos las verdaderas distribuciones de población, pero podemos aproximar sus modelos trazando una curva suave a los datos de la muestra o por puro razonamiento deductivo. Por tanto, nuestra capacidad para hacerlo así facilita grandemente nuestro análisis posterior.
Instituto Superior “Nuestra Señora de la Misericordia” I-29
Página - 27 -
Sistemas de Información - Estadística – 5to año Educ. Secundaria 2da división Prof. César Manuel Giménez DISTRIBUCIONES DE FRECUENCIAS ACUMULADAS Para ciertos fines, es conveniente disponer los datos acumulativamente. Con mucha frecuencia, puede que deseemos contestar preguntas como estas: ¿Cuántas personas en Estados Unidos ganan $10000 o menos al año? ¿Cuántos vendedores de la compañía venden una cantidad dada o más por semana? Cuando se emiten obligaciones garantizadas por equipo, ¿cuánto del equipo se usará en cada fecha de vencimiento de las obligaciones? ¿Cuántos de los neumáticos para automóvil producidos por una fábrica pueden durar 30000 millas o más? ¿Cuántos de ellos pueden durar solo 25.000 millas o menos? Respuestas a tales preguntas pueden hallarse fácilmente si las distribuciones de frecuencias son ordenadas acumulativamente. Pueden formarse frecuencias acumulativas sobre una base de "menos que" o "más que", y pueden ser absolutas o relativas. El Cuadro 11 ilustra estos dos tipos de frecuencias acumulativas para los datos de diámetro. En este cuadro, Fi designa frecuencias acumuladas absolutas y Ri representa frecuencias acumuladas relativas.
Intervalo de clase 3,595 - 3,695 3,695 - 3,795 3,795 - 3,895 3,895 - 3,995 3,995 - 4,095 4,095 - 4,195 4,195 - 4,295 4,295 - 4,395
Cuadro 11. Distribuciones de frecuencias acumuladas Punto Frecuencia Frec. Absoluta Frecuencia medio absoluta acumulada relativa Xi fi Fi ri 3,645 2 2 0,02 3,745 8 10 0,08 3,845 14 24 0,14 3,945 27 51 0,27 4,045 25 76 0,25 4,145 16 92 0,16 4,245 7 99 0,07 4,345 1 100 0,01
Frec. relativa acumulada Ri 0,02 0,10 0,24 0,51 0,76 0,92 0,99 1
Hay también tres tipos de presentaciones gráficas de distribuciones acumulativas de frecuencias, que corresponden a las de distribuciones en forma no acumulativa. Son el diagrama escalonado, la ojiva y la curva acumulativa suavizada. El diagrama escalonado representa gráficamente una distribución acumulativa por una serie de líneas horizontales trazadas en niveles de las frecuencias acumuladas en las clases sucesivas, con los ejes vertical y horizontal trazados de la misma forma que para un histograma. Los puntos finales de las líneas horizontales pueden ser unidos o no por líneas verticales. Los datos acumulativos de del cuadro 11 se representan así en la figura 4.
Fi
Ri
100
1,0
80
0,8
60
0,6
4
0,4
20
0,2
0 3,596
0 3,695
3,795
3,895
3,995
4,095
4,195
4,295
4,395
Fig. 4. Diagrama escalonado para datos de diámetros del Cuadro 11. Instituto Superior “Nuestra Señora de la Misericordia” I-29
Página - 28 -
Sistemas de Información - Estadística – 5to año Educ. Secundaria 2da división Prof. César Manuel Giménez
La ojiva es un polígono que representa una distribución acumulativa en forma de un diagrama de líneas. La figura 5 es la ojiva para los datos de diámetro dados en el Cuadro 11. Obsérvese que las frecuencias acumulativas se representan en los límites de clase superior. Una ojiva se usa principalmente para interpolaciones, que pueden hacerse de dos modos. Primero, si se escoge un punto de la escala horizontal, el número, o proporción, correspondiente de observaciones en la distribución cuyos valores son iguales o menores que el valor indicado por el punto escogido pueden encontrarse en la escala vertical. Por ejemplo, si escogemos el punto 3,938 de la escala horizontal de la figura 5, trazamos luego una línea vertical hasta cortar la ojiva, y de esta intersección trazamos una línea horizontal a la escala vertical de la izquierda, obtenemos un valor de 32. Esto significa que aproximadamente 32 observaciones de la muestra tienen valores iguales o menores de 3,938 pulgadas. En realidad, del Cuadro 7, 31 observaciones son 3,938 pulgadas o menos; nuestros datos de ojiva de datos de intervalos de clase no son exactos.
Fi
Ri
100
1,0
80
0,8
60
0,6
40
0,4
20
0,2 0
0
0 3,596
3,695
3,795
3,895
3,995
4,095
4,195
4,295
4,395
Fig. 5. Ojiva para datos de diámetros del Cuadro 11. La segunda forma de interpolación es precisamente la inversa. Esta vez nos desplazamos del eje vertical al eje horizontal para hallar el valor debajo del cual encontraremos un número, o proporción, dado de observaciones. Para ilustrar esto, usemos la escala vertical de la derecha de la figura 5. Supongamos que trazamos una línea horizontal desde el punto 0,5 para que corte la ojiva y luego bajamos una perpendicular de la intersección a la escala horizontal; entonces hallamos un valor de 3,995. Esto significa que 50 por 100 de las observaciones de la muestra tienen valores iguales o menores de 3,995 pulgadas. Este resultado también significa que 50 por 100 de las observaciones tienen valores mayores de 3,995 pulgadas. Un valor como este, que divide toda la serie en dos partes iguales, se llama mediana -un tipo de promedio que se tratará mas adelante. De igual modo que un histograma o un polígono puede ser suavizado para dar un modelo de población, también un diagrama escalonado o una ojiva puede ser suavizado para representar una función de distribución de población subyacente posible. La figura 6 muestra cuatro curvas acumulativas, u ojivas suavizadas, correspondientes: a) una distribución uniforme, b) una distribución en forma de campana, c) una distribución positivamente asimétrica, y d) una distribución negativamente asimétrica. 1,0
1,0
0
1,0
0 (a)
1,0
0 (b)
(c) Fig. 6. Curvas acumulativas.
Instituto Superior “Nuestra Señora de la Misericordia” I-29
0 (d)
Página - 29 -
Sistemas de Información - Estadística – 5to año Educ. Secundaria 2da división Prof. César Manuel Giménez PROCEDIMIENTO DE CONTRUCCIÓN DE TABLAS DE DISTRIBUCIÓN DE FRECUENCIAS EN INTERVALOS DE CLASE Paso Nº 1: Toma de datos: se realiza un experimento o experiencia en donde se observan y registran un conjunto de valores específicos que representan una muestra de la población que deseamos estudiar. La cantidad de datos observados se presenta por n. Paso Nº 2: Ordenar: los datos numéricos obtenidos en el Paso Nº 1 se disponen en orden ascendente (de menor a mayor) o en orden descendente (de mayor a menor). La cantidad de datos ordenados debe ser igual a n. Paso Nº 3: Determinar mínimo y máximo: si los datos están ordenados en forma ascendente el primer valor será el mínimo y el último será el máximo. Si la ordenación es descendente el primero será el máximo y el último será el mínimo. Los valores se representan por Min y Max. Paso Nº 4: Obtener el rango o amplitud de la distribución: el rango es la diferencia entre el mayor y el menor valor de la distribución. Rango o Amplitud = Máximo - Mínimo Paso Nº 5: Determinar el número de intervalos: se debe elegir un número entre 5 y 15, que será el número de intervalos en que se dividirá la distribución. La elección se hace en base a lo explicado en los párrafos anteriores. Este valor se representa con la letra k. Paso Nº 6: Determinar la amplitud de los intervalos (para intervalos de igual amplitud): Se procede de la siguiente manera:
ai = Rango / número de intervalos Donde ai representa la amplitud de cada intervalo, por lo tanto el valor se mantiene constante para todos los intervalos (intervalos de igual amplitud). El valor ai se puede redondear hacia arriba, pero no hacia abajo. Paso Nº 7: Formar los intervalos: Se procede de la siguiente manera: 1er. intervalo: se toma el menor valor de la distribución (mínimo) y, en la tabla de distribución de frecuencias, se lo ubica en la posición del LIMITE INFERIOR del 1er. intervalo. A ese valor (mínimo) se le suma el valor de la amplitud del intervalo (ai); de esta manera obtenemos el LIMITE SUPERIOR y se lo ubica en la posición correspondiente. 2do. intervalo y siguientes: se toma el LIMITE SUPERIOR del intervalo anterior (por ej. 1er. intervalo) y se lo ubica en la posición del LIMITE INFERIOR del intervalo que estamos formando (por ej. 2do. Intervalo). Al LIMITE INFERIOR de este intervalo se le suma el valor de la amplitud del intervalo (ai); de esta manera obtenemos el LIMITE SUPERIOR y se lo ubica en la posición correspondiente. El mismo procedimiento se debe seguir para obtener los restantes intervalos. El LIMITE SUPERIOR del último intervalo debe ser igual o mayor al mayor valor de la distribución (máximo). El número de intervalos debe coincidir con el valor determinado en el Paso Nº 5. i
LI1 = mínimo
LS1 = LI1 + a1
(1er. intervalo)
LI2 = LS1
LS2 = LI2 + a2
(2do. intervalo)
LI3 = LS2
LS3 = LI3 + a3
(3er. intervalo)
LI4 = LS3
LS4 = LI4 + a4
(4to. intervalo)
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
LIk = LSk-1
LSk = LIk + ak
(último intervalo)
Instituto Superior “Nuestra Señora de la Misericordia” I-29
1 2 3 4 --k
Intervalos LI1 - LS1 LI2 - LS2 LI3 - LS3 LI4 - LS4 -------------- ---LIk - LSk
LIi = límite inferior del intervalo LSi = límite superior del intervalo ai = amplitud del intervalo i = intervalo k-1 = intervalo anterior al último k = número de intervalos
Página - 30 -
Sistemas de Información - Estadística – 5to año Educ. Secundaria 2da división Prof. César Manuel Giménez Paso Nº 8: Formar la columna de frecuencias absolutas (fi): Con la distribución de valores ordenados anteriormente se debe obtener la cantidad de valores que pertenecen a cada intervalo, teniendo en cuenta que se debe considerar desde el límite inferior del intervalo y hasta el límite superior del mismo sin incluir este último. Paso Nº 9: Formar la columna de marcas de clase (Xi): para cada intervalo se debe obtener de la siguiente manera: tomar los límites inferior y superior de cada intervalo, sumarlos y al resultado dividirlo por 2.
Xi = (LIi + LSi) / 2 Paso Nº 10: Formar la columna de frecuencias absolutas acumuladas (Fi): para el 1er. intervalo el valor F1 es igual al valor f1. Para el segundo intervalo y los siguientes tomar la frecuencia acumulada del intervalo anterior y sumarle la frecuencia absoluta del intervalo con que se esta trabajando y el resultado ubicarlo en la posición de la frecuencia acumulada del ese intervalo. El último valor, correspondiente al último intervalo, debe coincidir con el total de valor que tenemos en la distribución.
Intervalos
i
F1 = f1 F2 = F1 + f2 F3 = F2 + f3
Xi
fi
Fi
1
LI1
-
LS1
X1
f1
F1
2
LI2
-
LS2
X2
f2
F2
3
LI3
-
LS3
X3
f3
F3
4
LI4
-
LS4
X4
f4
F4
---
---
---
Xk
fk
Fk
F4 = F3 + f4 ___________
---
-------------- ----
Fk = Fk-1 + fk = n
Fi = frecuencia absoluta acumulada fi = frecuencia absoluta k-1 = intervalo anterior al último k = número de intervalos n = número de valores de la distribución
LIk
k
-
LSk
EJERCITACIÓN: Construir una tabla de distribución de frecuencias para los siguientes datos: El siguiente conjunto de datos representa gastos por consumo semanal de alimentos per cápita de 100 familias escogidas al azar en San Francisco en 1972. $ 24.05 $ 14.24 $ 20.27 $ 7.42 $ 14.85 $ 9.12 $ 13.67 $ 6.68 $ 5.91 $ 23.62 $ 33.11 $ 9.61 $ 21.00 $ 19.89 $ 14.59
$ 15.65 $ 14.73 $ 20.90 $ 22.38 $ 16.81 $ 7.60 $ 14.95 $ 19.13 $ 10.62 $ 12.87 $ 20.71 $ 21.90 $ 13.58 $ 21.78 $ 16.85
$ 19.60 $ 18.24 $ 15.41 $ 6.41 $ 12.00 $ 8.59 $ 17.00 $ 10.62 $ 22.13 $ 17.21 $ 13.55 $ 17.20 $ 5.08 $ 13.50
$ 15.10 $ 10.81 $ 13.10 $ 11.03 $ 29.82 $ 21.84 $ 12.14 $ 23.50 $ 8.78 $ 19.05 $ 12.24 $ 13.20 $ 12.72 $ 13.85
$ 13.70 $ 14.93 $ 17.55 $ 14.32 $ 21.09 $ 10.15 $ 18.78 $ 26.81 $ 11.25 $ 13.84 $ 14.34 $ 8.63 $ 5.15 $ 17.44
$ 21.15 $ 23.96 $ 9.50 $ 21.00 $ 8.67 $ 8.18 $ 14.25 $ 17.02 $ 13.20 $ 5.45 $ 6.61 $ 11.12 $ 17.07 $ 5.55
$ 19.10 $ 29.33 $ 7.65 $ 10.10 $ 7.51 $ 13.03 $ 7.44 $ 9.26 $ 5.50 $ 27.87 $ 11.23 $ 15.10 $ 4.85 $ 8.63
El valor total para esta muestra es $ 1469.52 Instituto Superior “Nuestra Señora de la Misericordia” I-29
Página - 31 -
Sistemas de Información - Estadística – 5to año Educ. Secundaria 2da división Prof. César Manuel Giménez BLOQUE 4: MEDIDAS DE CENTRALIZACIÓN CONCEPTO Son medidas o parámetros que tienden a situarse hacia el centro del conjunto de datos ordenados. Indican un valor central alrededor del cual oscilan y se concentran los valores de la variable. Un promedio es un valor, que es típico o representativo de un conjunto de datos. Como tales valores tienden a situarse en el centro del conjunto de datos ordenados según su magnitud, los promedios también se conocen como medidas de tendencia central o centralización. Las medidas mas utilizadas son: MEDIAS: MEDIA ARITMÉTICA: Se llama media aritmética de una variable estadística, a la suma de todos los valores de dicha variable dividido entre el número total de valores.
Es fácil de calcular y tiene un simple manejo algebraico. Es altamente representativa porque todos los datos intervienen en el cálculo. Cualquier variación de los datos que intervienen en el cálculo influye sobre la medida.
κ
∑ ( Xi . fi ) i=1
=
n
Tiene
el inconveniente de que los valores extremos muy alejados de la distribución, producen grandes modificaciones.
MEDIA GEOMÉTRICA: La media geométrica G de un conjunto de N números positivos X1, X2, X3,..., XN es la raíz N-ésima del producto de esos números:
La media geométrica, aunque poco utilizada, es la más adecuada para la confección
G=
de índices.
Su cálculo es más laborioso Su interpretación es más complicada que la media aritmética
Antilog G =
fi
i=1
∑ ( log Xi . fi ) i=1
n
MEDIA ARMÓNICA: La media armónica H de un conjunto de números X1, X2, X3,..., XN es el recíproco de la media aritmética de los recíprocos de esos números. Guarda la siguiente relación con otras medidas:
Xi
κ
Tienen el inconveniente de que si existen valores nulos o negativos no es posible utilizarla.
κ
n
H <G< x
H=
n κ
∑ i=1
fi Xi
En todas las MEDIAS, cuando trabajamos con datos sin agrupar utilizamos las mismas fórmulas, eliminando o reemplazando por 1 la frecuencia absoluta ( fi ). MODO: El modo o moda viene a ser el valor más común de la muestra, el que ocurre con mayor frecuencia, el más típico, el más denso del intervalo de clase. Se trata entonces de una medida NO MATEMÁTICA, con lo cual se indica que no se pueden sentar principios algebraicos.
Mo = LIi +
∆1 . ai ∆1 + ∆2
∆1 = fi – f (i-1) ∆2 = fi – f (i+1)
En el caso de series simples, el modo puede no existir, incluso si existe pude no ser único. No es afectada por los datos extremos aislados. No tiene mucha utilidad en las muestras de pocos datos.
Instituto Superior “Nuestra Señora de la Misericordia” I-29
Página - 32 -
Sistemas de Información - Estadística – 5to año Educ. Secundaria 2da división Prof. César Manuel Giménez
Procedimiento para el cálculo del modo
Mo =
Fórmula
∆1
LIi +
∆1 + ∆2
∆1 = fi - f(i-1)
. ai
∆2 = fi - f(i+1)
1) Identificar el intervalo modal. Es el intervalo con mayor frecuencia absoluta ( el mayor fi ) 2) Calcular los valores ∆1 y ∆2 . Para obtener el valor ∆1 se debe restar a la frecuencia absoluta del intervalo modal ( fi ) la frecuencia absoluta del intervalo anterior ( f(i-1) ). Para obtener el valor ∆2 se debe restar a la frecuencia absoluta del intervalo modal ( fi ) la frecuencia absoluta del intervalo posterior ( f(i+1) ). Los valores ∆1 y ∆2 son siempre positivos. 3) Del intervalo modal tomamos los valores LIi y ai 4) Reemplazamos los valores en la fórmula y resolvemos Calcular primero la expresión
∆1 + ∆2 , luego dividir a ∆1
por este valor, multiplicar por ai y por último sumar el
valor LIi . Ejemplo: para la siguiente tabla de distribución el intervalo modal sería el intervalo 4 ( i = 4 ) i
LI i
~
LS i
Xi
1
0,5
~
0,9
0,7
5
5
2
0,9
~
1,3
1,1
10
15
3
1,3
~
1,7
1,5
12
27
4
1,7
~
2,1
1,9
25
52
5
2,1
~
2,5
2,3
21
73
6
2,5
~
2,9
2,7
17
90
7
2,9
~
3,3
3,1
11
101
n=
fi
Fi Frecuencia absoluta anterior al intervalo modal ( f(i-1) ) Frecuencia absoluta del intervalo modal ( fi ) Frecuencia absoluta posterior al intervalo modal ( f(i+1) )
101
Límite inferior del intervalo modal ( LIi ) Intervalo modal
En notación simbólica:
Mo = LI4 +
Mo = LI4 +
Reemplazando por los valores:
∆1 ∆1 + ∆2 ∆1 ∆1 + ∆2
Mo = 1,7 +
. a4
∆1 = f4 - f(4-1) ∆2 = f4 - f(4+1)
. a4
13
∆1 = f4 - f3 ∆2 = f4 - f5
. 0,4
13 + 4 Mo = 1,7 +
∆1 = 25 - 12 = 13 ∆2 = 25 - 21 = 4 a4 = 2,1 – 1,7 = 0,4
13 . 0,4 17
Mo = 1,7 + 0,764705882 . 0,4 Mo = 1,7 + 0,305882352
Mo = 2,005882353
Instituto Superior “Nuestra Señora de la Misericordia” I-29
Página - 33 -
Sistemas de Información - Estadística – 5to año Educ. Secundaria 2da división Prof. César Manuel Giménez MEDIANA: Es el valor de la variable que divide al conjunto de datos en dos partes iguales. Para el caso de series agrupadas en intervalos de clase, la determinación de la mediana requiere previamente determinar el intervalo que contiene a la Me, utilizando la serie de frecuencias acumuladas y encontrando la frecuencia inmediatamente superior a la mitad de la frecuencia total (N/2).
Me = LIi +
n/2 – F(i-1)
. ai
fi
No depende de ningún valor en particular, ya que sólo depende del orden de los datos Tiene la ventaja de que no se ve influida por los valores extremos. La relación entre la media aritmética, mediana y modo depende de la simetría de la distribución, de modo que:
Mo < Me <
si la distribución es asimétrica positiva.
Me =
si la distribución es simétrica
= Mo
< Mo < Me
si la distribución es asimétrica negativa.
Procedimiento para el cálculo de la mediana
La mediana es el valor central de la distribución. La mediana deja el mismo número de valores a su izquierda que a su derecha. Divide a la distribución en dos partes iguales, cada una con el 50 % de los valores.
Me =
Fórmula
LIi +
n/2
-
F(i-1)
. ai
fi 5) Determinar el valor n/2 6) Buscar en la columna de frecuencias acumuladas (Fi), comenzando desde el primer intervalo, el primer valor que sea mayor al valor n/2. El intervalo donde se encuentra dicho valor es el intervalo donde se encuentra la mediana. Se denomina intervalo guía y se denota con el subíndice i. 7) Del intervalo guía tomamos los valores LIi, fi y ai 8) Del intervalo anterior al intervalo guía tomamos el valor F(i-1), es decir la Fanterior al intervalo guía. 9) Reemplazamos los valores en la fórmula y resolvemos Calcular primero la expresión
n/2 - F(i-1) , luego dividir por fi , multiplicar por ai , y por último sumar el valor LIi.
Ejemplo: Para la siguiente tabla el valor n/2 sería 101/2 = 50,5 i
LI i
~
LS i
Xi
1
0,5
~
0,9
0,7
5
5
2
0,9
~
1,3
1,1
10
15
3
1,3
~
1,7
1,5
12
27
4
1,7
~
2,1
1,9
25
52
5
2,1
~
2,5
2,3
21
73
6
2,5
~
2,9
2,7
17
90
7
2,9
~
3,3
3,1
11
101
n=
fi
Fi Frecuencia acumulada del intervalo anterior al guía ( F(i-1) ) Primer valor mayor a n/2 Identifica al intervalo guía Frecuencia absoluta del intervalo guía ( fi )
101
Límite inferior del Intervalo guía ( LIi ) Intervalo guía Instituto Superior “Nuestra Señora de la Misericordia” I-29
Página - 34 -
Sistemas de Información - Estadística – 5to año Educ. Secundaria 2da división Prof. César Manuel Giménez
En notación simbólica:
Me =
LI4 +
Me =
LI4 +
Reemplazando por los valores:
n/2
- F(4-1) f4
n/2 - F3 f4
Me = 1,7 +
. a4
50,5 - 27 25
Me = 1,7 +
23,5 25
. a4 a4 = LS4 – LI4
. 0,4
a4 = 2,1 – 1,7
. 0,4
Me = 1,7 + 0,94 . 0,4 Me = 1,7 + 0,376
Me = 2,076
Instituto Superior “Nuestra Señora de la Misericordia” I-29
Página - 35 -
Sistemas de Información - Estadística – 5to año Educ. Secundaria 2da división Prof. César Manuel Giménez BLOQUE 5: MEDIDAS DE POSICIÓN CONCEPTO Indican una ubicación dentro de un conjunto de observaciones, fundamentalmente de a intervalos iguales. Habíamos visto que si una serie de datos se coloca en orden de magnitud, el valor medio que divide al conjunto de datos en dos partes iguales es la mediana. Por extensión de esta idea, se puede pensar en aquellos valores que dividen a los datos en cuatro partes iguales. Estos valores representados por Q1, Q2 y Q3 se llaman primero, segundo y tercer cuartil respectivamente. Análogamente, los valores que dividen a los datos en diez partes iguales se llaman deciles y se representan por D1, D2,...,D9. Los valores que dividen al conjunto de datos en cien partes iguales se llaman percentiles y se representan por P1, P2,...,P99. CUARTILES (Qk): Divide al conjunto de observaciones en 4 partes iguales, donde 0 < k < 4. Cuando trabajamos con datos sin agrupar:
- Si n es divisible por 4, el primer cuartil (Q1) tiene un valor situado entre el valor N/4 y el entero mayor siguiente. - Si n/4 no es entero, el primer cuartil (Q1) tiene por valor el mayor entero siguiente. Para calcular el valor del tercer cuartel (Q3) se sigue el mismo criterio. Cuando trabajamos con datos agrupados en intervalos de clase se utilizan las siguientes fórmulas:
Q1 = LIi +
n/4 – F(i-1)
. ai
fi
Q3 = LIi +
3 . n/4 – F(i-1)
. ai
fi
DECILES (Dk): Divide al conjunto de observaciones en 10 partes iguales, donde 0 < k < 10.
Dk = LIi +
k . n/10 – F(i-1)
. ai
fi
PERCENTILES (Pk): Divide al conjunto de observaciones en 10 partes iguales, donde 0 < k < 100.
Pk = LIi +
k . n/100 – F(i-1)
. ai
fi
Algunas equivalencias entre las medidas de posición son: Q1 = P25 Q2 = D5 = P50 estas medidas guardan relación también con la Mediana (Me) Q3 = P75
Instituto Superior “Nuestra Señora de la Misericordia” I-29
Página - 36 -
Sistemas de Información - Estadística – 5to año Educ. Secundaria 2da división Prof. César Manuel Giménez BLOQUE 5: MEDIDAS DE DISPERSIÓN CONCEPTO Estas medidas determinan el grado de alejamiento de los datos respecto a una medida de posición que, generalmente, suele ser la media aritmética. Nos dan una idea acerca de lo agrupados que están los datos, y por lo tanto miden la homogeneidad de estos. Son medidas que se toman para poder establecer comparaciones de diferentes muestras o poblaciones. Este tipo de medidas son parámetros informativos que nos permiten conocer como los valores de los datos se reparten a través de eje X, mediante un valor numérico que representa el promedio de dispersión de los datos. RANGO O RECORRIDO: Se obtiene por la diferencia absoluta que existe entre los valores máximo y mínimo de la distribución de datos. Nos informa sobre la distancia o amplitud que existe entre el elemento de menor valor de la muestra o población y el de mayor valor. Es el llamado “espacio muestral” o “espacio poblacional”. Como toda distancia o amplitud es siempre un valor positivo. Comprende a todos los elementos de la muestra o población estadística que se estudia., se obtiene fácilmente y su comprensión no tiene dificultad alguna, aunque presenta sólo una información superficial del grado de variabilidad de los valores de la distribución; por lo que tiene muy poca utilidad. Rango de la distribución = Valor(Max) – Valor(Min) Al valor máximo de la distribución (mayor de todos los límites superiores) se le resta el valor mínimo de la distribución (menor de todos los límites inferiores) RANGO SEMIINTERCUARTÍLICO: Rango intercuartil: El rango de la distribución presenta el inconveniente que es muy influenciable por los valores extremos; para eliminar la influencia de los extremos en estadística se suele analizar la situación del intermedio de la distribución y a esto se refiere el rango intercuartil que es la diferencia entre el tercer cuartil (Q3) y el primero (Q1). Rango intercuartil:
Q = Q3 – Q1
Rango semi-intercuartílico o desviación cuartil: Es la mitad del rango intercuartílico; designándolo por Q/2. A pesar de que el rango intercuaritl y la desviación cuartil, como medidas de la variabilidad de las observaciones son mas adecuadas que el rango, presentan varios inconvenientes que demeritan su uso. Así:
No toma en consideración todos los valores de la distribución y puede ocurrir que los valores inferiores a Q1 o superiores a Q3 estén muy compactos o muy dispersos, y el valor de Q sería el mismo. No es posible, conociendo solo Q, hacer la ubicación precisa de una observación dentro de la distribución. Al igual que la mediana, que es el segundo cuartil, no tiene propiedades que les permitan intervenir en las relaciones matemáticas que utiliza la estadística. Se realiza primero el cálculo del Primer y tercer cuartel, luego se calcula la semidiferencia de estos.
Rango semiintercuartilico ( Q ):
Q
Q3 – Q1 =
2
DESVIACIÓN MEDIA: La desviación media es la media aritmética de los valores absolutos de las desviaciones respecto a la media. Cuanto mayor es la desviación media, más dispersos o menos concentrados están los datos. Equivale a la división de la sumatoria del valor absoluto de las distancias existentes entre cada dato y su media aritmética y el número total de datos.
Instituto Superior “Nuestra Señora de la Misericordia” I-29
Página - 37 -
Sistemas de Información - Estadística – 5to año Educ. Secundaria 2da división Prof. César Manuel Giménez Observaciones a las distancias existentes entre cada dato y la media aritmética:
Las diferencias dan una idea de la proximidad del valor de Xi respecto a la media. Pueden ser positivas, negativas o nulas. La suma de las desviaciones respecto a la media siempre vale 0. Por tanto, no podemos usar esta suma para medir la dispersión. Para evitarlo, se recurre a dos procedimientos: a) Utilizar el valor absoluto de las desviaciones respecto a la media, lo que dará lugar a la desviación media. b) Utilizar el cuadrado de las desviaciones respecto a la media, lo que dará lugar a la varianza. La fórmula para datos agrupados es la siguiente:
Desviación Media (DM):
DM
| Xi –
=
.
| fi
n
0
Primero se debe proceder al cálculo de la media aritmética ( ).
0
Luego a cada marca de clase o punto medio del intervalo (Xi) se le resta la media aritmética ( ) para calcular la distancia
0
de cada marca respecto del valor central ( ). Como
0
0 es una marca de tendencia central existirán valores Xi menores que
, en donde la diferencia será negativa. Como lo que se está calculando son distancias se debe considerar siempre la diferencia en valor absoluto (siempre positiva). A cada diferencia se le debe multiplicar por la correspondiente frecuencia del intervalo. A continuación se suman los cálculos parciales y al total obtenido se lo divide por n (cantidad de observaciones o individuos de la población). En todas las medidas de dispersión, cuando trabajamos con datos sin agrupar utilizamos las mismas fórmulas, eliminando o reemplazando por 1 la frecuencia absoluta ( fi ). A pesar de que para su cálculo se utilizan todas las observaciones de la serie, el hecho de no tomar en cuenta los signos de las desviaciones complica su manejo algebraico; siendo su utilización muy reducida. VARIANZA Esta medida nos permite identificar la diferencia promedio que hay entre cada uno de los valores respecto a su punto central (Media aritmética: ). Este promedio es calculado, elevando cada una de las diferencias al cuadrado (con el fin de eliminar los signos negativos), y calculando su promedio o media; es decir, sumado todos los cuadrados de las diferencias de cada valor respecto a la media y dividiendo este resultado por el número de observaciones que se tengan. Si la varianza es calculada a una población (total de componentes de un conjunto), se denota con el símbolo σ2 y n es el número de observaciones ó tamaño de la población. En el caso que estemos trabajando con una muestra se emplea el símbolo S2 y n es el número de observaciones ó tamaño de la muestra:
Varianza ( S2 ) o (σ2):
S2 o
σ2
( Xi –
=
.
)2 fi
n
0
Primero se debe proceder al cálculo de la media aritmética ( ).
0
Luego a cada marca de clase o punto medio del intervalo (Xi) se le resta la media aritmética ( ) para calcular la distancia
0
de cada marca respecto del valor central ( ). Como
0
0 es una marca de tendencia central existirán valores Xi menores que
, en donde la diferencia será negativa. Para salvar este inconveniente se eleva al cuadrado a cada diferencia, dando como resultado un valor positivo. A cada valor obtenido se le debe multiplicar por la correspondiente frecuencia del intervalo. A continuación se suman los cálculos parciales y al total obtenido se lo divide por n (cantidad de observaciones o individuos de la población). Instituto Superior “Nuestra Señora de la Misericordia” I-29
Página - 38 -
Sistemas de Información - Estadística – 5to año Educ. Secundaria 2da división Prof. César Manuel Giménez Es necesario resaltar que la varianza nos da como resultado el promedio de la desviación, pero este valor se encuentra elevado al cuadrado. DESVIACIÓN TÍPICA (o ESTÁNDAR): Esta medida nos permite determinar el promedio aritmético de fluctuación de los datos respecto a su punto central o media. La desviación estándar nos da como resultado un valor numérico que representa el promedio de diferencia que hay entre los datos y la media. Para calcular la desviación estándar basta con hallar la raíz cuadrada de la varianza, por lo tanto su fórmula sería: Desviación Estándar ( S ) o ( σ ):
S o
σ
( Xi –
=
.
)2 fi
n
Es la raíz cuadrada de la Varianza Observaciones a la varianza y a la desviación típica:
Tanto la varianza como la desviación típica dependen de todos los valores de la distribución, así como de la media. En los casos en los que no sea posible calcular la media aritmética, no será posible tampoco obtener la varianza y la desviación típica, por ser funciones de la media. La varianza tiene el inconveniente de que no viene expresada en las mismas unidades que los datos, debido a que las desviaciones están elevadas al cuadrado. Si los datos fueran en metros, la varianza vendría dada en metros cuadrados. En cambio, la desviación típica sí viene expresada en las mismas unidades que los datos, de ahí que resulte más interesante que la varianza. La desviación típica es la medida de dispersión mas utilizada por los investigadores ya que utiliza todos los desvíos o diferencias con respecto a la media aritmética de las observaciones y toma en cuenta los signos de estos desvíos.
COEFICIENTE DE VARIACIÓN: Es una medida estadística de dispersión que tiene la ventaja de que no lleva asociada ninguna unidad, por lo que nos permitirá decir entre dos muestras, cual es la que presenta mayor dispersión. La denotaremos por CV.
Coeficiente de variación (CV) =
CV =
σ
. 100
Instituto Superior “Nuestra Señora de la Misericordia” I-29
Página - 39 -
Sistemas de Información - Estadística – 5to año Educ. Secundaria 2da división Prof. César Manuel Giménez BLOQUE 6: MEDIDAS DE FORMA Miden el grado de deformación de la curva de la distribución respecto a una curva patrón (distribución Normal). MEDIDA DE ASIMETRIA (SIMETRIA): Cuando se estudia una serie de frecuencias representada por un polígono con forma de campana, surge la necesidad de comparar el polígono con la curva normal. Los valores de la curva normal están simétricamente distribuidos respecto del eje de las ordenadas, es decir, alrededor de la media aritmética. En estadística se dice que una distribución de datos es simétrica si se le puede doblar a lo largo de un eje vertical de una manera tal que coincidan los dos lados de la distribución. Las distribuciones que no tienen simetría con respecto al eje vertical se les llama sesgada o asimétrica. Una distribución sesgada a la derecha tiene una cola prolongada del lado derecho de la distribución y una cola más corta del lado izquierdo de la misma; esta asimetría se le denomina positiva, cuando la cola de la distribución del lado izquierdo es más larga que la del lado derecho, entonces la asimetría es negativa.
0
En una distribución simétrica la media aritmética ( ), la mediana (Me) y el modo (Mo) son iguales. La simetría se mide por medio del coeficiente de asimetría. Una distribución simétrica tiene un coeficiente de asimetría igual a cero. Análisis de la forma - Interpretación:
Simétrica Asimétrica positiva
Asimétrica Positiva: Cola más alargada a la derecha. Simétrica: Simula a la curva normal. Asimétrica Negativa: Cola más alargada a la izquierda.
.
)3 fi
( Xi – Coeficiente de Asimetría (CA)
Asimétrica negativa
/ n
= S3
0
Primero se debe proceder al cálculo de la media aritmética ( ).
0
Luego a cada marca de clase o punto medio del intervalo (Xi) se le resta la media aritmética ( ) para calcular la
0
distancia de cada marca respecto del valor central ( ). Como
0
0 es una marca de tendencia central existirán valores Xi
menores que , en donde la diferencia será negativa. Luego se eleva al cubo (tercera potencia) a cada diferencia, manteniendo el signo de la misma. A cada valor obtenido se la debe multiplicar por la correspondiente frecuencia del intervalo. A continuación se suman los cálculos parciales y al total obtenido se lo divide por n (cantidad de observaciones o individuos de la población). Por último, al resultado obtenido se lo divide por el Desvío Estándar elevado a la tercera potencia (S3). Interpretación del resultado:
-1 < CA < 1
CA > 0 Curva asimétrica positiva. CA = 0 Curva simétrica o normal. CA < 0 Curva asimétrica negativa.
Instituto Superior “Nuestra Señora de la Misericordia” I-29
Página - 40 -
Sistemas de Información - Estadística – 5to año Educ. Secundaria 2da división Prof. César Manuel Giménez Relación entre la Media aritmética (0 ), la Mediana (Me) y la Moda (Mo) según la simetría
MEDIDA DE APUNTAMIENTO: La Curtosis es el grado de apuntamiento o altura de la curva de una distribución de frecuencia. La finalidad de la Curtosis es determinar si la distribución de los términos de una serie de valores responde a una curva normal o no. Por medio de la Curtosis se determinará si la distribución de frecuencia es demasiado puntiaguda (leptocúrtica), normal (mesocúrtica) o muy achatada (platicúrtica). Análisis de la forma - Interpretación:
Leptocúrtica
Leptocúrtica: Es la curva de la distribución que presenta un apuntamiento o altura relativamente más alta que la curva normal. En ésta, los datos se encuentran más concentrados alrededor del máximo valor. Mesocúrtica: Es la curva de una distribución de frecuencia que no es ni muy alta ni muy achatada, es la llamada curva normal. Platicúrtica: Es la curva de una distribución de frecuencia que presenta un achatamiento más pronunciado que la curva normal, encontrándose los datos más dispersos alrededor del máximo valor de la distribución.
Platicúrtica
.
)4 fi
( Xi – Coeficiente de Curtosis (CC)
Mesocúrtica
/ n
-3
= 4
S
0
Primero se debe proceder al cálculo de la media aritmética ( ).
0
Luego a cada marca de clase o punto medio del intervalo (Xi) se le resta la media aritmética ( ) para calcular la
0
distancia de cada marca respecto del valor central ( ). Como
0
0 es una marca de tendencia central existirán valores Xi
menores que , en donde la diferencia será negativa. Luego se eleva a la cuarta potencia a cada diferencia, dando como resultado un valor positivo. A cada valor obtenido se la debe multiplicar por la correspondiente frecuencia del intervalo. A continuación se suman los cálculos parciales y al total obtenido se lo divide por n (cantidad de observaciones o individuos de la población). Por último, al resultado obtenido se lo divide por el Desvío Estándar elevado a la cuarta potencia (S4). Interpretación del resultado:
-3 < CC < 3
CC > 0 Curva Leptocúrtica CC = 0 Curva Mesocúrtica. CC < 0 Curva Platicurtica. Instituto Superior “Nuestra Señora de la Misericordia” I-29
Página - 41 -