0 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
ESTADÍSTICA I
30 25
Ene Feb Mar Abr May Jun
20 15 10 5 0 Comidas
Transporte
Alojamiento
BAUTISTA LÓPEZ, LUIS
ISTP. LA PONTIFICIA 2014
2 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
INDICE PAGINA Ofrenda Prologo
UNIDAD 1.0 LA ESTADÍSTICA Y SU HISTORIA
6
1.1
Historia
6
1.2
Definición de Estadística
8
1.3
Términos de uso corriente en Estadística
8
1.4
División de la Estadística
11
1.5
Aplicación de la Estadística
11
1.6
Importancia de la Estadística
12
1.7
Fenómeno que abarca y no abarca la Estadística
13
1.8
La investigación Estadística
13
1.9 Clases de investigación
14
1.10 Etapas de la investigación
15
Evaluación de la unidad
23
UNIDAD 2.0 REPRESENTACIÓN DE DATOS
31
2.1 Distribución de frecuencia
32
2.2 Distribución de frecuencia simple
33
2.3 Distribución de frecuencia por intervalo
37
2.4 Gráficos Estadísticos
42
Evaluación de la unidad
54
3 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
UNIDAD 3.0 MEDIDAS DE POSICIÓN O TENDENCIA CENTRAL
62
3.1
63
Media Aritmética
3.1.1 Propiedades
67
3.1.2 Ventajas y desventajas
68
3.2
69
Mediana
3.2.1 Ventajas y desventajas
74
3.3
75
Moda
3.3.1 Ventajas y desventajas
80
3.4
Características principales de los promedios anteriores
80
3.5
Relación entre la Media, Mediana y Moda
82
3.6
Media Geométrica
83
3.6.1 Propiedades
86
3.6.2 Ventajas y desventajas
87
3.6.3 Características
88
3.7
89
Media Armónica
3.7.1 Característica
90
3.8
Relación entre Media Aritmética, Geométrica y Armónica
91
3.9
Cuartiles, Decíles y Percentiles
91
Evaluación de la unidad
97
UNIDAD 4.0 MEDIDAS DE DISPERSIÓN
107
4.1
Varianza
108
4.1.1 Propiedades
110
4.1.2 Corrección de Shepard
110
4.2
111
Rango o recorrido
4.2.1 Características
111
4.3
114
Desviación Típica o Estándar
4 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
4.3.1 Propiedades
114
4.4
118
Coeficiente de variación
4.4.1 Característica
118
4.5
Puntaje Típico o Stándarizado
120
4.6
Recorrido intercuartilico
122
4.7
Desviación Mediana
124
4.8
Desviación Media
125
Evaluación de la unidad.
129
UNIDAD 5.0 REGRESIÓN Y CORRELACION
133
5.1 Introducción a la bidimensionalidad
134
5.2 Relación entre dos variables
134
5.3 Regresión
138
5.4 Teoría de la correlación
141
5.5 Error típico de la estima
144
5.6 Variación explicada y no explicada
146
5.7 Coeficiente de correlación
146
5.8 Correlación gradual
151
Evaluación de la unidad.
161
UNIDAD 6.0 INTRODUCCIÓN A LAS COMPUTADORAS
165
6.1 La computadora en la Estadística
166
6.2 Introducción a Microsoft Excel
167
6.2.1 Grafica en Excel
168
6.3 Manejo del Statgraphics
169
BIBLIOGRAFÍA.
5 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
INTRODUCCIÓN El uso de la Estadística se ha generalizado en los últimos años no sólo como herramienta de análisis de problemas de economía, sino como auxiliar en el estudio y valoración de cualquier investigación. El propósito de este módulo es proporcionar a los estudiantes de administración de empresas, el material básico exigido en su curso de Estadística I, incluyendo algunas de sus aplicaciones. Se ha hecho un esfuerzo para lograr que el módulo sea útil a la mayor cantidad posible de profesionales dedicados a las ciencias económicas, porque existe la necesidad de un modulo de Estadística que aborde tópicos que exceden estas áreas de las ciencias. En un esfuerzo por llenar este vacío, he incluido ejemplos y ejercicios que no sólo interesan al estudiante de administración de empresas, sino también al contador, al Educador y, a muchos otros profesionales dedicados a las ciencias económicas. Por la forma en que está estructurado el módulo, es poca la preparación matemática que se requiere para usarla. Aquellos que hayan tomado un curso de álgebra, no tendrán dificultad alguna para seguir la manipulación matemática. Tengo fe en que el estudiante, o el lector común, llegará a darse cuenta que en la estadística hay más que las meras matemáticas; que la Estadística, primero que todo, es una filosofía, una manera de pensar. Si el estudiante puede desarrollar los conceptos, verá las matemáticas simplemente como el vehículo para su expresión y comunicación. Aspiro, en consecuencia, prestar un nuevo servicio a los educadores Colombianos; porque considero que todo lo que se hace en beneficio de los futuros ciudadanos ha de estar inspirado en un elevado anhelo de engrandecimiento patrio, y ello sólo se logra con la dedicación y el sacrificio constante de cada uno de nosotros, pues como lo expresa claramente CHARLES SUMMER , “ la verdadera grandeza de las naciones está en aquellas cualidades que constituyen la gran deza del individuo”.
6 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
UNIDAD 1.0 LA ESTADÍSTICA Y SU HISTORIA
OBJETIVO
DE LA UNIDAD: describir la importancia y el uso de la Estadística y su relación con otras ciencias; dar un concepto general de la metodología de la investigación Estadística.
CONTENIDOS: 1.1 Historia 1.2
Definición de Estadística
1.3
Términos de uso corriente en Estadística
1.4
División de la Estadística
1.5
Aplicación de la Estadística
1.6
Importancia de la Estadística
1.7
Fenómeno que abarca y no abarca la Estadística
1.8
La investigación Estadística
1.9 Clases de investigación 1.10 Etapas de la investigación Evaluación de la unidad
7 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
1.1 HISTORIA. El estudio de la estadística ha sufrido cambios substanciales desde su comienzo. Merecen mención especial dos fuentes de tendencia de desarrollo. Primeramente, el de origen de la estadística puede advertirse ya en la necesidad de datos numéricos en los estados que surgían de la sociedad medieval en la Europa Occidental. Al transformarse la sociedad medieval en el estado político, el nuevo gobierno necesitaba información sobre los recursos del país para poder tener éxito. Así pues era obligado para los nuevos gobernantes el obtener descripciones numéricas, tales como : el número de ciudadanos de las diversas unidades políticas bajo su jurisdicción, ciudades, condados y provincias. El término estadística, se deriva del latín status, que significa estado en el sentido político, se empleó entonces para referirse a la recolección y descripción de tales datos del estado. La necesidad de acopiar y analizar datos numéricos impulsó a desarrollar métodos para facilitar la labor, que era lo que constituía lo más considerable de la estadística hasta la era moderna. No es necesario enumerar todos los que contribuyeron al desarrollo de los métodos estadísticos; pero ha de mencionarse sin embargo al Belga ADOLPH QUETELET (1796 - 1874), que fue el primero en aplicar métodos modernos a conjuntos de datos. Suele llamarse a QUETELET “ Padre de la estadística moderna” , por su continua insistencia en la importancia de aplicar métodos estadísticos. Sus distinguidas contribuciones a la practica y a la metodología estadísticas cubrieron muchos campos de la estadística oficial, tales como los censos, el desarrollo de la uniformidad y compatibilidad de estadísticos entre las naciones, y la organización de la primera conferencia estadística, internacional. La comisión central de estadística, que QUETELET fundó, fue el modelo para instituciones similares en otros países. Otra fuente de la estadística se encuentra en la atención prestada al juego de azar en el siglo XVII, que organizaba la nobleza de Inglaterra y Francia para la recreación, tales como dados y cartas; cosa que sin proponérselo, llevó al desarrollo de la Teoría de las probabilidades. Al mismo tiempo los estudios de probabilidades requerían el tratamiento de los errores en las mediciones, de lo que resulto la distribución de tales errores. Ya desde el siglo XVIII se había observado que las medidas de cierto objeto o fenómeno daban lugar a una configuración en la distribución de los errores que tenía la forma de una curva acampanada.
8 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
A propósito de la evaluación de los errores de observación en Astronomía, se hizo un descubrimiento de mayor importancia para la estadística. La distribución de errores resultante con su forma de campana y su simetría se llama Curva Normal de Errores . También se dice Distribución Gaussiana de errores, por el nombre de su descubridor Karl Friedrich Gauss (1777 1855). Entre los contemporáneos de QUETELET Y GAUSS que contribuyeron al avance de la estadística como ciencia, estaban : Florence Nightingale (18820 - 1911). Florence Nightingale creía firmemente en los métodos estadísticos. Sostenía que todo Director debería guiarse por el conocimiento estadístico si quería tener éxito y que los políticos y los legisladores fracasaban frecuentemente por la insuficiencia de sus conocimientos estadísticos. Galton, como su primo Charles Darwin, se interesó profundamente en el estudio de la herencia, a la cual aplico métodos estadísticos. Entre sus principales contribuciones se encuentra, el haber desarrollado métodos tan fundamentales como la Regresión y la Correlación. La obra de Galton fue estímulo para una serie de investigaciones de Karl Pearson ( 1857-1936 ), el cuál inició la publicación del periódico Biométrica, que ha influido profundamente en el desarrollo de la Estadística, uno de los métodos más importante, descubierto por Pearson es la Distribución Jicuadrado, que encontró en 1900. En el siglo XX, quienes han contribuido de manera más sobresaliente al estudio de la Estadística, han sido Willian S. Gosset ( 1876 - 1967 ) y Sir Ronald Fisher ( 1890 - 1962 ) Gosset, que escribía bajo el seudónimo “ Student “ , dedujo la distribución “ t “ y su contribución especial fue en el campo de la teoría de pequeñas muestras. Fisher halló la conocida distribución “ F “ y aportó contribuciones continuamente hasta 1962 ; muchas de ellas han tenido grandes influencias en los modernos procedimientos Estadísticos. Si bien su trabajo era sobre todo en los campos de la Biología, Genética y la Agricultura, su impacto ha llegado a todas las aplicaciones de la Estadística.
9 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
1.2 DEFINICIÓN DE LA ESTADÍSTICA En términos generales, la palabra estadística se refiere a un sistema o método científico usado en la recolección, organización, análisis, interpretación numérica de la información. También se puede decir que la estadística está ligada con los métodos científicos en la toma, organización, recopilación, presentación y análisis de datos, tanto para la deducción de conclusiones, como para tomar decisiones razonables de acuerdo con tales análisis. El término se utiliza para denotar datos o número, por ejemplo, estadística de empleo, accidente, producción, etc. 1.3 TÉRMINOS DE USO CORRIENTE EN ESTADÍSTICA 1.3.1. POBLACIÓN O UNIVERSO . Es el conjuntos de individuos, medidas u
objetos que poseen alguna característica común observable como son : altura, peso de estudiantes de un colegio, el número de camisas defectuosas o no defectuosas producidas por una fábrica de un día determinado, el nivel de glucosas en la sangre extraída a 50 niños en determinada hora del día. Una población puede ser finita o infinita. La población consistente en todas las camisas producidas por una fábrica en un día es FINITA, y la población formada por todos los posibles sucesos ( cara o sello) en tirada sucesiva de una moneda es INFINITA. 1.3.2.MUESTRA. Una muestra puede definirse simplemente como una parte
de una población. Supongamos que una población consiste en los pesos de todo los estudiantes de un colegio, si se reúnen para el análisis los pesos de sólo un nivel o grado del total de niños del colegio, sólo se tiene una parte de la población de pesos, es decir se tiene una muestra. 1.3.3 PARÁMETRO. Cualquier característica de una población que sea
medible, por ejemplo, la proporción de niños de un país que entran a estudiar. 1.3.4.VARIABLE. Rasgo, característica o propiedades que poseen los
elementos de una población o de una muestra. 1.3.5.VARIABLE DISCRETA. Son aquellas que sólo admiten valores enteros,
por ejemplo el número de hijos de una familia, ya que no se puede decir que una familia tiene dos hijos y medio.
10 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
1.3.6.VARIABLE CONTINUA. Son aquellas que admiten valores fraccionarios
por ejemplo, la estatura de una persona, su peso, etc. Es aquella que puede medirse, por ejemplo se puede obtener mediciones de los adultos del sexo masculino, los pesos de los niños en edad preescolar y las edades de los pacientes que se ven en una clínica dental. 1.3.7.VARIABLE
CUANTITATIVA.
CUALITATIVA. Algunas características pueden no ser medidas, en el sentido en que se miden las estaturas, el peso, la edad ; muchas características sólo pueden catalogarse, como por ejemplo cundo a una persona enferma se le da un diagnostico médico, cuando a una persona se le designa dentro de un grupo socioeconómico. 1.3.8. VARIABLE
Las variables cualitativas dan origen a los atributos, como por ejemplo, profesión, sexo, estado civil. 1.3.9.ESCALA. Es un patrón o conjunto de criterios claramente definidos que
permite asignar, sin ambigüedades, valor a una variable. El concepto de valor incluye, además de números, letras, letras y números, palabras, etc. 1.3.9.1.ESCALA NOMINAL. Sirven únicamente para identificar, como el criterio
para asignar el número de la cédula a un individuo o el código para saber el color del pelo de una persona. 1.3.9.2.ESCALA ORDINAL. Que permite asignar valor a una variable que sirve
sólo para ordenar, como el puesto que ocupa un atleta en una carrera. 1.3.9.3 ESCALA DE RAZÓN. Asigna un valor numérico, a una variable usando
una unidad determinada inicialmente como 1. En este caso están las unidades físicas como peso, volumen, longitud, área, resistencia etc. En una escala el cero ( 0 ) no necesariamente representa la ausencia absoluta de la variable, sino que se toma en referencia a un valor no nulo y se tiene una escala conocida como intervalo. Por ejemplo en la temperatura, los grados Kelvin usan una escala de razón mientras que los grados centígrados usan una escala de intervalo, en la aeronáutica la altura sobre Bogotá usa una escala de intervalo, mientras que la altura sobre el nivel del mar es de razón. En síntesis se tiene que, una variable puede clasificarse según el diagrama.
11 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
NOMINAL CUALITATIVA
DISCRETA ORDINAL
VARIABLE ORDINAL DISCRETA CUANTITATIVA
DE RAZÓN CONTINUA
DE RAZÓN
1.3.10 BIOESTADISTICA. Es la rama de la Estadística que trata de los seres
vivientes desde un punto de vista biológico. 1.3.11 ESTADIGRAFOS. Cálculos realizados con los datos de la muestra.
1.3.12.FRECUENCIA. Repetición de un dato en una muestra. 1.3.13.PARÁMETROS. Cálculo realizado con los datos de la población.
1.4.
DIVISIÓN DE LA ESTADÍSTICA.
Prácticamente todos los autores están de acuerdo en clasificar la Estadística en dos tipos: Estadística Deductiva o Descriptiva y la Estadística Inductiva o de Inferencia. 1.4.1 ESTADÍSTICA DEDUCTIVA O DESCRIPTIVA : Esta fase sólo se limita a
la descripción y análisis de una serie de datos sin llegar a conclusiones o generalizar con respecto a un grupo mayor. 1.4.2 ESTADÍSTICA INDUCTIVA O DE INFERENCIA: Trata de llegar a
conclusiones a cerca de un grupo mayor basado en la información de un grupo menor o muestra.
12 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
1.5.
APLICACIONES DE LA ESTADÍSTICA.
La Estadística o métodos estadísticos como a veces se le llama está desempeñando un importante papel ascendente en casi todas las facetas del progreso humano. Anteriormente sólo era aplicada a los asuntos del Estado, de donde viene su nombre ; pero ahora la influencia de la Estadística se extiende a la agricultura, biología, negocio, ciencias políticas, sicología, sociología y otros muchos campos de ciencia e ingeniería. 1.5.1. EN LA EMPRESA : Una compañía de fábrica de harina, empaqueta la
harina en bolsa de papel, cada una de las cuales se supone contener 25 libras. Si el proceso de empaque está bajo control, el peso medio de las bolsas será de 25 libras. Supóngase que se toma periódicamente una muestra de bolsas para comprobar la bondad del proceso de empaquetado. Si una muestra de 50 bolsas da una media muestra de 24 libras y 12 onzas, se puede aplicar el método de la inferencia estadística para determinar si el proceso está bajo control. 1.5.2. EN QUÍMICA Y BIOLOGÍA : Considérese una nueva vacuna contra el resfriado que ha sido desarrollado por una compañía farmacéutica. Dicha compañía afirma que la nueva vacuna es eficaz en un 95 % o sea que de cada 100 personas que la han utilizado, 95 pasaron a invierno sin sufrir resfriado, si en una muestra de 30 personas que han sido vacunados, hay 27 que pasaron el invierno sin resfriado: ¿ prueba esto suficientemente las pretensiones de la compañía ?. 1.5.3 EN BIOLOGÍA Y AGRONOMÍA : Para ayudar a determinar los efectos de
los tipos de semillas, de los insecticidas y de los fertilizantes en la cosecha. Se ha utilizado para producir ganado de mejor calidad con planos especiales de alimentación y cría. 1.5.4 EN LA PRODUCCIÓN : En la producción de un artículo en grandes cantidades se hace necesario detectar y eliminar alteraciones sistemáticas de calidad. 1.5.5 EN FINANZAS : En la estimación de la magnitud que tomará cierto aspecto en algún punto futuro del tiempo( corto, mediano o largo plazo), en
13 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
los controles presupuéstales y en el planteamiento de ciertas actividades de carácter financiero. 1.5.6 EN CONTABILIDAD : De gran importancia en la auditoria, ya que mediante la aplicación de ciertos métodos se seleccionan algunas facturas, cuentas o documentos de cobro, sin recurrir a la totalidad y con base en el examen de ellas, se puede obtener conclusiones sobre la situación actual de cartera. 1.5.7 EN PERSONAL : El control sobre el número de horas laboradas, tiempo dejado de laborar, accidentes de trabajos, clasificación del personal ( por antigüedad, sueldo, estudios, etc),información estadística necesarias en una empresa, para toma de decisiones en las políticas empresariales. 1.5.8 EN MERCADO : Las encuestas estadísticas son indispensables para determinar la reacción de los consumidores frente a los actuales productos de la empresas y para el lanzamiento de los nuevos. 1.6 IMPORTANCIA DE LA ESTADÍSTICA. A continuación se precisan algunos aspectos para las cuales la Estadística es de gran importancia: 1.6.1 Conocimiento de la realidad de una observación o un fenómeno. Para conocer la situación actual de un fenómeno es necesario cuantificarlo o graficarlo. 1.6.2.Determinación de lo típico o normal de una observación. Esto se realiza mediante el cálculo de promedios representativos de la característica cualificada. 1.6.3.Determinación de los cambios que representa el fenómeno . Estas variaciones se determinan en el tiempo, lo cual requiere una observación continua.
14 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
1.6.4.Establecimiento de la relación entre dos o más fenómenos. Se relacionan las características o variables que determinan los fenómenos. 1.6.5.Determinación de las causas que originan el fenómeno. 1.6.6.Realización de estimaciones e inferencias estadísticas. Los resultados obtenidos al estudiar una muestra se generalizan como comportamiento de la población entera. En estos casos es necesario precisar el grado de validez y confiabilidad de los análisis efectuados.
15 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
1.7.
FENÓMENOS QUE ABARCA Y NO ABARCA LA ESTADÍSTICA
Los fenómenos o hechos que continuamente suelen suceder, presentan ciertas características tales como la de ser observables y manifestarse y a un el de poder determinar la intensidad con que se produce el fenómeno. 1.7.1.Los fenómenos que abarca son: 1.7.1.1. Fenómenos colectivos o de grupos 1.7.1.2. Fenómenos de frecuente repetición 1.7.1.3. Fenómenos de distintas frecuencias 1.7.1.4. Fenómenos distantes en el espacio 1.7.1.5. Fenómenos distantes en el tiempo 1.7.1.6. Fenómenos cualitativos que no se pueden cuantificar
1.7.2. Los fenómenos que no abarcan son: 1.7.2.1 Fenómenos individuales 1.7.2.2 Fenómenos que no se exteriorizan 1.7.2.3 Fenómenos accidentales en el tiempo y en el espacio 1.7.2.4 Fenómenos cualitativos que no se pueden cuantificar
1.8.
LA INVESTIGACIÓN ESTADÍSTICA
La investigación estadística por sencilla que sea, es una operación compleja que requiere atender múltiples aspectos, y que genera muy variadas funciones. El resultado depende en gran parte de la finalidad que se persiga, de la naturaleza de los fenómenos que desean estudiar y de la facilidad que se tenga para observar los elementos. 1.8.1. CARACTERISTICA BASICAS: Toda la investigación debe reunir las
siguientes características básicas:
16 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
1.8.1.1. Claridad: En todos sus aspectos debe ser clara y precisa. Conocida por todas las personas que en ella participan. 1.8.1.2 Sencillez: Es indispensable aunque no debe limitar la presentación completa de la investigación. Es condición esencial de claridad. 1.8.1.3 Utilidad: Toda investigación estadística debe tener alguna aplicación practica que justifique su realización.
1.9.
CLASES DE INVESTIGACIÓN
1.9.1 INTERNA. Investiga fenómenos originados dentro de la misma empresa
o entidad. Requiere organizar la información de tal manera que permita la aplicación de métodos estadísticos, a fin de lograr las conclusiones válidas deseadas .1.9.2 EXTERNA. Se realiza con el fin de obtener información que permita comparar fenómenos o entidades, establecer suposiciones relativas, estudiar su comportamiento actual o futuro. 1.9.3 EXHAUSTIVA. Se denomina así a aquella investigación
donde se observan todos los elementos: que constituyen la población objetivo. 1.9.4.PARCIAL. Sólo se observa una parte de los elementos o unidades que
constituyen la población (muestra), es decir, estudia la población a través de la muestra. Se realiza cuando no se desea o no es posible una investigación exhaustiva. 1.10. ETAPAS DE UNA INVESTIGACIÓN. Se requiere una investigación de carácter estadístico cuando no se tiene un buen flujo de información que permita que dicha información se organice y; por lo general se encuentre dispersa. Se puede considerar tres clases de operaciones o etapas en una investigación. Planeamiento, Recolección y Análisis. Las etapas que requiere una investigación estadística la podemos sintetizar así: 1.10.1 PLANEAMIENTO : Al trazar un plan de inversión, se debe definir y
organizar cada una de las actividades necesarias para llevar a cabo el trabajo y poder alcanzar los objetivos propuestos.
17 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
Dentro de la etapa del planteamiento se podrán considerar ciertos aspectos que a continuación se presentan, donde el orden y la necesidad de cada uno de ellos dependerá de la misma naturaleza de la investigación. 1.10.1.1 Objeto de la Investigación: ¿Que se investiga? Es el hecho o fenómeno que se desea estudiar; en una investigación de salarios, será el salario, en una sobre el rendimiento académico de un grupo de estudiantes, será los resultados obtenidos en su período escolar. Es de gran Importancia definir el objeto de investigación y determinar su naturaleza cualitativa y cuantitativa. Definir además, las posibilidades de investigarlo y limitaciones. 1.10.1.2 Objetivo o Finalidad de la Investigación: ¿Que pretende la investigación? Identificar con claridad y precisión el fin que se propone, formulando el problema de tal manera que nos permita establecer los objetivos generales y los específicos y, de ser posible una jerarquización de los mismos. En esta fase se deben contestar los siguientes interrogantes: ¿Que se investiga ?, ¿como se realizará la investigación? (condiciones y medios), ¿cuándo y donde se realizará? 1.10.1.3 Unidad de Investigación: ¿Donde se realiza una investigación? La unidad es la fuente de información es decir, a quien va dirigida; puede ser a una persona, un grupo familiar, laboral o social, una vivienda, una empresa pública, una explotación agropecuaria, una región. Su selección depende del objeto propuesto. La unidad debe ser clara en tal forma que sea entendida por todos, además adecuada al tipo de investigación; mensurable, que permita ser medida, y comparable con los resultados obtenidos en investigaciones similares. Al lado de la unidad principal se pueden establecer unidades secundarias. La fuente de información puede ser directa o indirecta.
ES DIRECTA. Si allí se produce el hecho, ejemplo: Las notarías, para determinar el número de nacimientos. ES INDIRECTA, cuando se consideran aquellas en las cuales el hecho
se refleja, ejemplo: Las rentas departamentales,
para determinar el
18 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
consumo de bebidas alcohólicas. Estas se usan, generalmente, como complementarias a las fuentes directas. 1.10.1.4 Examen de la documentación y metodología: ¿ Qué y cómo se ha investigado al respecto?. Es importante determinar si la investigación ha sido realizada con anterioridad, con el fin de prescindir del estudio; averiguar si se cumplió el objetivo propuesto y si la información estaba actualizada. En caso contrario se realizará tratando de corregir las diferencias presentadas en anteriores investigaciones, al mismo tiempo que aprovechando sus aspectos positivo. 1.10.1.5 Método de observación: ¿Que características debe reunir la investigación? En qué forma se realiza la toma de dato? Debe decirse el método que se empleará: Censo o Muestra. Esta elección depende, entre otros, de los siguientes factores: disponibilidad de tiempo, recursos humanos y financieros, número de unidades que componen la población, caracteres por investigar, el grado de variabilidad, la descripción del objeto. 1.10.1.6 Proceso de Recolección: ¿Qué técnicas empleará para recolectar la información?. Los datos se pueden recolectar mediante encuesta realizada por correo, entrega personal del cuestionario, entrevista, panel, observación directa, motivación, teléfono, otros. 1.10.1.7 Preparación del Presupuesto: Se cuenta con los recursos económicos suficientes para todo el proceso de la investigación. Se debe analizar si los recursos económicos son suficientes para los otros costos requeridos en cada etapa, desde el planeamiento hasta la publicación. 1.10.1.8 Calendario de trabajo: Qué tiempo requiere cada etapa ? Es el ordenamiento de la diferencia inicial y final de cada etapa. En el siguiente cuadro aparece un modelo de calendario.
19 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
FECHAS ETAPAS 1. Planeamiento a.) Fase preliminar b.) Preparación de encuestas c) Preparación de personal 2. Recolección a.) Pretes b.) Trabajo de campo 3.Procesamiento y análisis a.) Depuración y clasificación b.) Tabulación y análisis C.) Publicación
INICIAL
FINAL
I - VI 8 - VI 18 - VI
10 - VI 20 - VI 23 - VI
25 -
30 - VI
VI
5 - VII
20 - VII
21 - VII
27 - VII
26 - VII 3 - VII
5 - VIII 20 - VIII
1.10.1.9 Preparación del cuestionario. ¿Qué contiene la encuesta y cómo se resuelve? Al elaborar un cuestionario se consideran aspectos materiales y aspectos técnicos.
ASPECTOS MATERIALES: Tamaño del formulario, calidad del papel, color de la tinta, tipo de impresión.
ASPECTOS TÉCNICOS: Las preguntas se ordenan gradualmente según su dificultad. No se deben emplear abreviaturas, las preguntas deben ser claras, precisas y comprensibles.
Las partes que constituyen un formulario son: ENCABEZAMIENTO : Contiene el nombre de la institución u organismos que realiza la investigación, nombre o título de la investigación, el título debe llevar implícito el qué, cómo, cuándo y dónde se realiza.
20 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
CUERPO: Contiene las preguntas. Si se requiere identificar al informante será necesario iniciar preguntando nombre, dirección, estado civil, edad, profesión etc. INSTRUCCIONES: Son explicaciones generales sobre el sentido y forma de responder el cuestionario, son indispensable en razón de la brevedad y condición de las preguntas. Puede escribirse al final del cuestionario, al iniciarse o en separata. OBSERVACIONES : Espacio libre al final del formulario para que el entrevistador o el entrevistado escriban aclaraciones, opiniones u observaciones complementarias del trabajo realizado. 1.10.1.10 Selección y preparación del personal. ¿Qué requisitos deben reunir los entrevistadores y cuál es su función?. Para esta selección se tienen en cuenta los siguientes criterios: número de personas acorde al número de formulario o unidades a entrevistar, conocimiento que tenga del interrogatorio y del objetivo de la investigación, cualidades morales que le impidan falsear las respuestas, cualidades de sociabilidad y cortesía, presentación personal correcta y sencilla. El adiestramiento del personal se realiza mediante cursos o seminarios más o menos breves. 1.10.1.11 Preparación y actualización de Informantes. Se confirma la unidad de investigación; se prepara una lista de todas las unidades que conforman la población objetivo y seleccionan la muestra. 1.10.1.12 Propagandas. La labor de enunciar la investigación, para disponer el ánimo del público fuente de información, al tiempo que se da a conocer el interés general de los resultados esperados. 1.10.1.13 La encuesta preliminar. Se realiza con el fin de tener un mayor conocimiento sobre la población objetivo y facilitar así, la prueba del cuestionario. Permite además chequear el cálculo del costo y tiempo y la variabilidad de las características en estudio. 1.10.2
RECOLECCIÓN: Terminada la etapa de planeamiento, se procede a
distribuir y a recoger los formulario, controlando el número de formularios entregados y recogidos, al mismo tiempo verificando la calidad de las informaciones obtenidas.
21 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
La organización del trabajo de campo de recolección contemplan entre otros siguientes puntos. - Supervisión - Control de encuesta - Revisión de los cuestionarios inconclusos - calidad y consistencia de las respuestas - Cumplimiento de los plazos prefijados - Distribución de los entrevistados Algunos errores que se pueden presentar en la recolección de los datos se clasifican en: - Errores de la medición o cuantificación de la característica. - Errores del entrevistador o influencia negativa del mismo. - Mal diseño del cuestionario. - Falta de instrucciones imprecisas. Pueden presentarse algunos que afectan la recolección de los datos y que deben ser corregidos:
El informante no quiere suministrar los datos, alegando: estar ocupado, motivo político, desconfianza de la investigación no vale la pena etc.
El informante no puede responder por problemas, tales como en enfermedad, incapacidad física, idioma, etc.
La dirección del informante, la familia estaba demolición del edificio, edificación desocupada, etc.
paseando, hubo
: La información obtenida debe ser depurada, clasificada, resumida y analizada, aplicando para ello adecuadas técnicas estadísticas. Los puntos más importantes en esta etapa son: 1.10.3 PROCESAMIENTO Y ANÁLISIS
1.10.3.1 Codificación: Ya revisadas las respuestas obtenidas, se procede a su codificación: especialmente si se utiliza la tabulación mecánica.
22 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
El código es un número que sustituye la respuesta cuando se va a hacer el recuento. Ejemplo: Numero de piezas producidas : En buen estado === 1 En mal estado ==== 2 Si el número de constelaciones pasa de nueve, se utiliza números de dos dígitos. Ejemplo: Los establecimientos industriales por departamento: 01 Choco 02 Caquetá 1.10.3.2 Tabulación: puede ser manual o mecánica, dependiendo de la calidad de los formularios, del número de preguntas, del tiempo y de los recursos disponibles. En la tabulación mecánica se utiliza tarjetas perforadoras, las cuales alimentan el computador. La más conocida es la llamada HOLLERTH, utilizado en las computadoras IBM. La tabulación manual se realiza mediante la elaboración de cuadros, gráficas y esquemas que faciliten el análisis de la información y la inferencia de conclusiones y recomendaciones. 1.10.3.3 Análisis e Interpretación: Esta etapa encierra dos aspectos: análisis y evaluación estadística de los resultados, análisis y evaluación técnica de acuerdo con la naturaleza de la investigación. 1.10.3.4 Publicación: Se realiza con el fin de hacer llegar a las personas interesadas el resultado total del estudio. Se hace esencial presentar todos los aspectos considerados en el proceso investigativo, además de la correspondiente validez que merezca las conclusiones.
23 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
EVALUACION DE LA PRIMERA UNIDAD 1.1 Qué significa generalmente la palabra “ Estadística” para el hombre de la calle? 1.2 En qué contexto se utiliza la palabra “Estadística” en las finanzas, el mercado, la contabilidad y la Administración? 1.3 Decir brevemente cuáles fueron siguientes estadísticos?
las contribuciones debidas a los
a) Adolph Quelet b) Karl Friedrich gauss c) Florence Nigh Tingale d) Franco Galton e) Karl Pearson f) William s. Cosset g) Ronald A. Fisher 1.4 Cuáles son las fuentes de estudio de las estadísticas? 1.5 Explique la diferencia existente entre Estadística deductiva o descriptiva y la estadística inductiva o inferencial. 1.6 Diga cuatro fenómenos que abarca la estadística y dos que no abarcan. 1.7 Diga cuatro finalidades de la Estadística. 1.8 El proceso de proyección y preparación de la investigación se divide en cinco fases: recolección, planeamiento, análisis e interpretación, elaboración. Ordene estas fases, como crea conveniente y explique brevemente cada fase. 1.9 Se ha hecho un estudio para determinar si las amas de casa de Quibdó, Chocó prefieren una marca especial de detergente, Entre las 50 amas de casas entrevistadas, 30 dijeron que preferían esta marca.
24 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
a) Qué constituye la muestra? b) Qué constituye la población? c)cuál es el estadígrafo muestral y cuál es el parámetro de la población?
1.10 Una fábrica de gaseosas, proyecta lanzar al mercado un nuevo sabor. Se realiza un Test de aceptación de dicho sabor en una muestra de 30 niños utilizando una escala de 10 puntos, para medir el grado de aceptación. Los puntos obtenidos en los 30 niños fueron los siguientes: 2
6
8
7
4
5
10
6
6
7
6
7
3
8
7
6
8
6
5
4
7
8
5
7
6
7
2
7
2
7
La muestra obtuvo compuesta por igual número de niños de ambos sexos, de 5 a 12 años de edad residentes en el Barrio César Conto de la ciudad de Quibdó. a. Cual es la población b. Cuál es la muestra? c. Es cualitativa o cuantitativa? d. Cuál es la variable? e. De que tipo es la variable f. Qué clase de escala se ha utilizado en la medición de la variable? 1.11 Se realiza un estudio en la ciudad de Istmina- Chocó , a 150 familias de clase media, para conocer el tipo de aceite ó manteca usado en la cocina; los resultados son los siguientes:
25 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
Maíz
14
Hogares.
Soya
65
Hogares.
Ajonjolí
21
Hogares.
Compran. Aceite al detal sin especificar tipo 17 hogares. Manteca de cerdo 21
Hogares.
Grasas de origen vegetal 6 Hogares. Oliva
13
Hogares.
a. cuál es la población? b. cuál es el tamaño de la muestra c. Qué carácter tiene la población d. Cómo se explica que la suma de frecuencia sea superior al número de hogares? 1.12 La siguiente tabla muestra el número de fanegadas de trigo y maíz producidas en la Granja “ La Mazorca “ durante el decenio 1977 a 1987. AÑOS
NÚMERO DE FANEGADAS DE TRIGO
NÚMERO DE FANEGADAS DE MAÍZ
1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987
200 185 225 250 240 195 210 225 250 230 235
75 90 100 85 80 100 100 105 95 110 100
26 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
Con los datos de la tabla, determinar el año o años en los que: a. Se produjo el menor número de fanegas de trigo b. Se produjo el mayor número de fanegas de maíz c. Se produjo el mayor decrecimiento en la producción de trigo d. Se produjo un decrecimiento con relación al año anterior e. Se produjo el mismo número de fanegas de trigo f . Se obtuvo la máxima producción entre los dos cereales. 1.13. De tres ejemplos de población finita y tres de población infinita. 1.14 Anotar I o F según sean infinitas o finitas las siguientes poblaciones. a. Las drogas producidas por una fabrica en un día b. Resultados obtenidos en sucesivas tiradas de una moneda c. Estudiantes de la Universidad Tecnológica del Chocó d. Acciones vendidas cada día en la bolsa de valores e. Papeletas extraídas de una urna, en extracciones con reemplazamiento. 1.15 Clasificar cada variable en las siguientes distribuciones: a. Alumnos por mes de nacimiento b. Profesionales por estatura y peso c. Obreros por salarios d. Accidentes por causas e. Fallecimiento por edades.
27 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
1.16 Ubicar en estadística descriptiva o estadística inferial cada uno de los siguientes aspecto motivo de estudio estadístico: a. Describir los grupos en término de promedio de estatura b. Determinar la probabilidad de que muestras de observaciones sean sólo el de variaciones de azar. c. En contar una diferencia consistente entre dos métodos específicos de enseñanza. d. Determinar la vida media de lámparas producidas por determinada Fábrica. e. Analizar la conducta de un grupo de escolares frente a una prueba de lectura.
1.17 Señale con C las series de variables continuas y con D las de variables discretas. a. Distribución de obreros pos salarios b. Distribución de fallecimiento por edades c. Distribución de alumnos por números de hermanos d. Distribución de alumnos por estatura. 1.19 Contestar (V) verdadero o (F) falso, según el caso. a. Código es la representación cualitativa de un hecho cualitativo b. Las instrucciones permiten diligenciar mejor el formulario. c. Un formulario se precodifica para agilizar la codificación d. Un formulario debe llevar una sola clase de preguntas. e. L a recolección de datos se puede hace mediante la observación. f. Después de elaborar el formulario se define el objetivo de la investigación g. Al recolectar información por medio de entrevistadores se tiene la ventaja de que éstos pueden observar el sitio de la operación que se
28 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
está llevando a cabo. h. Se conoce como fuente primaria aquella que obtuvo inicialmente la información directamente de la persona o entidad. i. Al diseñar un cuestionario no es de gran importancia la forma como se hace la pregunta, siempre que ésta sea clara. j . No hay posibilidad alguna de que en una encuesta por correo se interprete mal las preguntas de un cuestionario, siempre y cuando que la persona que reciba sepa leer. k. El examen de la documentación y metodología se efectúa después de tabular la información.
1.20 Se ha dicho que en una investigación se consideran tres etapas, las que a su vez se subdividen en otras fases. ¿Cuáles son? podría usted reagrupar los titulares de este capítulo en un índice de temas de acuerdo con estas etapas? 1.21 Mencionar algunos aspectos técnicos y materiales que deben tenerse en cuenta en el diseño de un formulario. 1.22 En los siguientes ejemplos, identifique: población, muestra, variable y escala de medición. Varias veces durante el día un ingeniero de control de calidad, en una fábrica de textil, selecciona diferentes muestras de metros cuadrados de telas, las examina y registra en número de imperfecciones que encuentra. Un investigador médico examina los efectos de un agente cancerígeno en humanos. Tres meses después de inyectado el agente en una persona, el investigador realiza una operación para extraer y pesar los tumores. Un gerente desea conocer si aquellos empleados que recibieron 30 días de vacaciones son más productivos durante el año, que los que recibieron sólo 15 días. El gerente selecciona 140 trabajadores y registra su rendimiento.
29 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
UNIDAD 2.0 REPRESENTACION DE DATOS.
OBJETIVO
DE LA UNIDAD: Representar correctamente una información estadística en forma tabular y gráfica, para hacer más fácil su comprensión y analizar una tabla para obtener mayor provecho en su lectura.
CONTENIDOS: 2.1 Distribución de frecuencia 2.2 Distribución de frecuencia simple 2.3 Distribución de frecuencia por intervalo 2.4 Gráficos Estadísticos Evaluación de la unidad
30 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
REPRESENTACION DE DATOS. 2.1 DISTRIBUCION DE FRECUENCIA Una distribución de frecuencia es un método para organizar y resumir datos. También se conoce con el nombre de distribución de frecuencia a una ordenación, tabulación de datos en clases y con la frecuencia correspondiente a cada una. La toma de datos es la obtención de una colección de los mismo, los cuales no están ordenados numéricamente. La ordenación es la colocación de los datos numéricos en orden creciente o decreciente de magnitud. La diferencia entre el mayor y el menor número se llama RECORRIDO o RANGO de los datos, La construcción de la distribución de los datos facilita la presentación de ellos o de la información y especialmente su análisis. Para elaborar los cuadros o tablas de la distribución de los datos se debe, antes que todo Identificar las características que se investigaron, ya que esto permite una mejor clasificación de lo observado, estas características pueden ser: a) Cualitativas o Atributos: Ventas en valor o cantidad, por sucursales, empleados de una empresa por cargo, marca de droga más aceptada, exportación por puertos, etc. b) Cuantitativas: Clasificación de empleados por sueldo, tiempo de reacción de cierta droga, Kilómetros recorridos diariamente por vehículo, clasificación de familias por número de hijos etc. 2.2.
DISTRIBUCIÓN DE FRECUENCIA SIMPLE
Antes de pasar a realizar ejercicios que nos de una claridad con respecto a la distribución de frecuencia simple presentaremos la siguiente sismología: n : Tamaño de la muestra, es el número de observaciones. Xi : La variable, es cada uno de los diferentes valores que se han observando.
31 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
La variable X i, toma los X 1, X 2, ... , X n valores. También se le llamará marca de clase. Fi : la frecuencia absoluta o simplemente frecuencia, representa el número de veces que se repite la observación Xi , F2 el número de X2 etc. Fa : la frecuencia acumulada, se obtiene acumulando la frecuencia absoluta, y siempre nos da un acumulado igual al tamaño de la muestra. Fr : frecuencia relativa, resulta de dividir cada una de las frecuencias absoluta por el tamaño de la muestra. Fra: Frecuencia relativa acumulada, resulta de la acumulación de las frecuencias relativas, esta frecuencia siempre tiende a la unidad.
EJEMPLO: Los resultados obtenidos en un encuesta a 60 personas acerca del número de veces que han visitado a su médico para ver el grado de concentración de cierto mineral en el tejido (ppm) fueron los siguiente:
TABLA Nro1 1-1-2-2-2-3-3-6-4-1-2-3-4-2-7-2-1-1-4-2-0-1-2-5-1-0-1-8-2-6-2-1-3-1 2-0-1-0-0-4-2-1-4-2-3-0-1-2-2-4-0-0-1-2-0-3-2-2-2-3 -
Para hacer la respectiva distribución de dichos datos es conveniente que presentemos las siguientes tablas:
32 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
Encuesta realizada a 60 personas sobre el número de veces que han visitado a su médico para comprobar un ppm (datos ordenados).
TABLA Nº 2 : ORDENACIÓN DE LOS DATOS 0-0--0-0-0-0-0-0-0-1-1-1-1-1-1-1-1-1-1-1-1-1-1-2-2-2-2-2-2-2-2-2 2-2-2-2-2-2-2-2-2-2-3-3-3-3-3-3-3-4-4-4-4-4-4-5-6-6-7-8.
Encuesta realizadas a 60 personas sobre el número de veces que han visitado a su médico por comprobar su PPM (recuento de efectivo).
TABLA No 3 : CONTEO DE DATOS Nº DE VECES 0 1 2 3 4 5 6 7 8 SUMAS
Nº DE PERSONAS (conteo) IIII IIII I IIII IIII IIII II IIII IIII IIII IIII III IIII III IIII II I II I I
VECES QUE SE REPITE 9 14 19 7 6 1 2 1 1 60
33 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
Distribución de frecuencia de la encuesta realizada a 60 personas sobre el número de veces que han visitado a su médico para comprobar su ppm. TABLA Nº 4 Xi
Fi
Fa
Fr
Fra
0
9
9=9
9/60 = 0.15
0.15 = 0.15
1
14
9 + 14 = 23
14/60 = 0.233
0.15 + 0.233 = 0.383
2
19
23 + 19 = 42
19/60 = 0.316
0.383 + 0.316 = 0.699
3
7
42 + 7 = 49
7/60 = 0.116
0.699 + 0.116 = 0.815
4
6
49 + 6 = 55
6/60 = 0.1
0.815 + 0.1 = 0.915
5
1
55 + 1 = 56
1/60 = 0.016
0.915 + 0.016 = 0.931
6
2
56 + 2 = 58
2/60 = 0.033
0.931 + 0.033 = 0.964
7
1
58 + 1= 59
1/60 = 0.016
0.964 + 0.016 = 0.98
8
1
59 + 1 = 60
1/60 = 0.016
0.98 + 0.016 = 0.996
SUMAS
60
En la práctica, cuando se posee confianza en el ordenamiento y conteo de los datos , no es necesario tantas tablas, se puede pasar de la tabla No 1 directamente a la tabla Nro.5.
34 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
Distribución de frecuencia en la encuesta realizada a 60 personas sobre el número de veces que han visitado a su médico para comprobar su ppm.
TABLA Nº 5 Xi
Fi
Fa
Fr
Fra
0
9
9
0.15
0.15
1
14
23
0.233
0.383
2
19
42
0.316
0.699
3
7
49
0.116
0.815
4
6
55
0.1
0.915
5
1
56
0.016
0.931
6
2
58
0.033
0.964
7
1
598
0.016
0.98
8
1
60
0.016
0.996
SUMAS
n =60
35 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
- Analizando las columnas porcentuales Fr y Fra se puede tener entre otras las siguientes conclusiones: - El 31.6% de los encuestados ha visitado dos veces a su médico - El 15% de los encuestados respondió no haber visitado a su médico con ese objetivo. - Solo el 1.6% lo ha visitado 8 veces. -El 69.9% o 70% han visitado a su medico entre 0 y 2 veces 2.3
DISTRIBUCIÓN DE FRECUENCIA POR INTERVALOS
Como se ha visto, un conjunto de observaciones puede hacerse más comprensible y adquirir mayor significado por medio de un arreglo ordenado; puede lograrse una mayo síntesis, agrupando los datos. Para agrupar a un conjunto de observaciones, se selecciona un conjunto de intervalos, contiguos, que no se traslapen, tales que cada valor en el conjunto de observación puede colocarse en uno, de los intervalos de clase. Unos de los primeros puntos a considerar, cuando se van agrupar ciertos datos, es cuántos intervalos van a incluirse. Demasiado poco no es conveniente debido a que hay perdida de información. Por otra parte, si se usan demasiados intervalos, no se logra objetivo de la síntesis. La mejor guía en relación con lo anterior, a sí como para otras decisiones que deben tomarse al agrupar los datos, es el conocimiento que se tenga de ellos. Pueda ser que se hayan tomado con anterioridad, los intervalos de clase de años anteriores con fines de comparación. Una de las formas para obtener el número de intervalos (# i) es aplicando la regla de STURGES, con la cual se obtiene una aproximación aceptable sobre el número de intervalos necesarios para agruparlos:
#i = 1 + 3.3 Log n Donde n nos representa el número de valores considerados, esta regla de STURGES no se considera como final, sino sólo como una guía. El número de intervalos especificado por medio de esta regla debe aumentarse o disminuirse según convenga y el beneficio de una presentación clara. Otra cuestión que hay que aclarar es lo relativo a la amplitud de los intervalos de clase.
36 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
Aunque a veces es imposible, por lo general, los intervalos deben ser amplitudes iguales. Puede determinarse esta amplitud (A) dividiendo el recorrido ( R) entre el número de intervalo (#i ):
A = R i Como regla, este procedimiento proporciona una amplitud que no es conveniente usarla. Una vez más, debe aplicarse el buen juicio y seleccionar una amplitud (por lo común, próxima a la dada por la ecuación) que sea más conveniente. Consideramos el siguiente Ejemplo: En un estudio de 50 sujetos entre las edades de 20 y 60 años sobre el valor del rendimiento del electroencefalograma. Se dieron los siguientes datos. 98
75
95
63
72
82
55
50
98
100
64
70
75
95
98
58
56
70
49
61
60
70
75
71
93
100
62
66 50
92
70
58
66
69
73
77
104
119
105
99
60
70
102 120
90
71
78
65
56
120
Antes de elaborar una tabla o cuadro de frecuencia por intervalos se debe tener en cuenta los siguientes pasos:
1. Se determina el valor máximo y mínimo de Xi Xmin = 49
X máx = 120
2. Sacamos la diferencia entre el valor máximo y el mínimo que denominaremos rango o recorrido. (R):
37 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
R = X máx - X mín = 120 - 49 = 71 3. Se hace necesario determinar el número de intervalo (# i) que se utilizará para agrupar los datos: #i = 1+3.3 Log n #i = 1+3.3 Log 50 # i = 1+3.3 (1.69897) # i = 1+5.60 # i = 6.6 En la práctica el # i se determina atendiendo varios factores, tales como: finalidad del estudio, grado de variabilidad de los datos , necesidad de efectuar comparaciones. En todo caso, se recomienda que el #i hasta donde sea posible, no sea menos de 5, ni mayor de 16, en nuestro caso tomaremos 7 intervalo ya que no se puede tener 6.6 intervalos. 4. Una vez determinado el número de intervalos se debe dividir el rango por el este valor para obtener el valor de la amplitud de cada intervalo, aplicando la formula A = R i A = 71 7 = 10.14 Para facilitar los cálculos se aproximará A = 11, por lo tanto se altera el valor del rango de 71 a 77 en 6 unidades. Cuando éste caso sucede se tendrá un quinto paso, que denominaremos rango ampliado ( Ra ) que es igual rango( R ) más un incremento (a). Ra = R+a 5.
A = Ra i = 71 + 6 7 =
77/ 7
= 11
6. El incremento a del rango se debe distribuir equitativamente entre el dato mayor y el dato menor, al dato mayor se le suma a/2 y al dato menor se le resta a/ 2, con esto no podemos descartar la palabra equitativo
38 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
pues es opcional para cada trabajo que se elabora; en nuestro caso el incremento es de 6 unidades, luego: Xmáx = 120 + 3 = 123 X mín = 49 – 3 = 46 Por tanto se tendrá un nuevo dato mayor o límite superior de 123 y un límite inferior de 46. Se procede a elaborar los intervalos empezando con el nuevo dato 7. menor y sumándole la amplitud, así:
8.
1°
46 a 57
2°
57 a 68
3°
68 a 79
4°
79 a 90
5°
90 a 101
6º
101 a 112
7º
112 a 123
Por último se elabora la tabla de frecuencias con sus respectivos punto medios ( X i ) o marca de clase, el cual se determina sumando el límite superior y el limite inferior de cada intervalo dividendo por dos esta suma.
39 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
INTERVALOS
Xi
Fi
Fa
Fr
Fra
46 - 57
51.5
6
6
0.12
0.12
57 - 68
62.5
11
17
0.22
0.34
68 - 79
73.5
15
32
0.30
0.64
79 - 90
84.5
1
33
0.02
0.66
90 - 101
95.5
11
44
0.22
0.88
101 - 112
106.5
3
47
0.06
0.94
112 - 123
117.5
3
50
0.06
1.00
SUMAS
50
Como conclusi贸n podemos decir: - el 30% de los sujetos poseen un rendimiento de su electroencefalograma. entre 68 y 79, y son 15 sujetos. - El 2 % lo poseen entre 79 y 90, y es un sujeto. - Solo el 6% se encuentra en un rendimiento entre 112 a 123, y son 3 sujetos - El 66 % de los sujetos posee un rendimiento entre 46 y 90 y son 33 sujetos.
40 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
2.4
GRÁFICAS.
Un gráfico es un método de presentar datos estadísticos de forma visual. Hay numerosos tipos de graficas, como lo veremos al utilizar los programas estadísticos en la computadora; por lo general, se clasifican en : a. Diagramas: de puntos, lineales(rectilíneos y curvilíneos), superficiales(rectangulares-barras-, triangulares, cuadrados y circulares-pastel-). b. Estereometrías: cúbicas, prismáticas y pirámides.
c. Pictogramas. d. Cartogramas: mapas estadísticos y cartodiagramas. 2.5
GRÁFICAS LINEALES.
Un gráfico de línea se distingue por el hecho de que las variaciones en los datos se indican por medio de líneas o curvas, cuyas posiciones está determinadas por sus respectivos valores en las escalas X e Y los puntos se unen mediante líneas rectas. Hay diferentes tipos de gráficos lineales: 2.5.1 GRÁFICOS DE SILUETA
Son gráficos de líneas que muestran las desviaciones positivas y negativas respecto a la línea base o cero y la línea de evolución de las, desviaciones, los gráficos de silueta se construyen representando los puntos que indican las desviaciones reales respecto a la línea base.
2.5.2 GRÁFICOS DE BANDAS
Muestran las variaciones de las partes componentes así como total, el gráfico se prepara representando en primer lugar las variaciones de la parte componente mayor. Se sombrea o se raya este segmento. A éste segmento se suma la siguiente parte componente y se representa el resultado. Este proceso acumulativo se prosigue hasta incluir todas las partes componentes.
41 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
Las variaciones de la línea superior representan, entonces las del total, las variaciones en el ancho de cualquier segmento indicarán las variaciones de ese componente particular. 2.5.3 GRÁFICOS DE MÁXIMO Y MÍNIMO
Presentan no solo los cambios ocurrido durante el periodo de tiempo, si no también las fluctuaciones de cada periodo (días, semanas, meses etc.) indicando valores máximo del mismo periodo. Este procedimiento se continua hasta el fin del tiempo cubierto por el gráfico. 2.5.4 EL HISTOGRAMA:
Conocido como polígono de frecuencias rectangular para una distribución de frecuencia; se construye de la siguiente forma: Se dibujan rectángulos cuya base es el tamaño del intervalo de clase y cuya altura es la frecuencia de cada intervalo de clase. 2.5.5 GRÁFICAS LOGARÍTMICAS Y SEMILOGARITMICAS 2.5.5.1 CARACTERÍSTICAS:
a. No hay línea base o cero. b. Los gráficos semilogarítmicos presentan una escala aritmética en el eje horizontal. Los gráficos logarítmicos presentan escalas logarìtmicas en ambos ejes. c. Cuando se presenta en un papel logarítmico las progresiones geométricas en X y en Y se disponen según una recta, ya que los logaritmos de una progresión geométrica forman una progresión aritmética. En un papel semilogarítmico, si los valores de y constituyen una progresión geométrica se dispondrá también según una recta. d. Aumento ó disminuciones iguales indican cambios porcentuales iguales. e. Iguales pendiente en un gráfico logarítmico revelan taza de cambios iguales. 2.5.5.2 UTILIZACIÓN DE LOS GRÁFICOS LOGARÍTMICOS:
2.5.5.2.1. Para comparar tasas proporcionales de cambio.
42 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
2.5.5.2.2. Mostrar la relación entre 2 ó más series cuyas cantidades difieren ampliamente. 2.5.5.3 PRECAUCIONES AL USAR GRÁFICAS SEMILOGARITMICAS:
Hemos hecho notar que este tipo de presentación gráfica se adapta bien para permitir un análisis de cambios relativos. Existe un peligro de que las personas, antes de adquirir experiencia con las gráficas semilogarítmicas, deseen usarla en cualquier circunstancia. Una segunda precaución se refiere a la necesidad de comprensión especial de una gráfica semilogarítmica. Algunas personas no saben como interpretar una gráficas semilogarítmica; por esta razón, este tipo de gráficas, no se usan a veces, aún cuando resultaría más apropiado. Sin embargo, tal interpretación de una gráfica semilogarítmica es tan simple que la persona que debe observar una gráfica puede ser entrenada para su interpretación en unos cuantos minutos. 2.5.6 GRÁFICOS CUADRATICOS.
Para la presentación gráfica de datos estadísticos, se recurre en algunos casos a figuras geométricas, tales como cuadros y los triángulos. Estas gráficas deben ser simples, es decir, no se deben recargar demasiado. Hay varias formas de hacer la representación gráfica mediante la utilización de cuadros. Con figuras continuas que queremos representar la distribución porcentual de los factores que se deben tener en cuenta en análisis de una empresa. 2.5.7 REGLAS PARA LA CONSTRUCION DE LOS GRÁFICOS.
2.5.7.1.Cada gráfico debe tener un título claro y conciso, que se sitúan generalmente en la parte superior central del gráfico. El título debe incluir información sobre: 2.5.7.1.1 La naturaleza de los datos 2.5.7.1.2 La situación geográfica 2.5.7.1.3 El período de tiempo cubierto 2.5.7.2 Las líneas coordenadas deberían reducirse al mínimo y las líneas curvas puestas de tal forma que resaltasen sobre el fondo del gráfico.
43 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
2.5.7.3 La fuente de los datos debería indicarse debajo del gráfico a la izquierda. 2.5.7.4 Las notas, si la hay, se deberían situar en la parte inferior izquierda del gráfico. 2.5.7.5. Para entender fácilmente el gráfico, se debería reducir en la medida de los posibles el número de líneas curvas, segmentos y otros detalles. 2.5.7.6 Cada escala debe presentar un titulo indicando la unidad utilizada, 2.5.7.6.1 El título correspondiente al inmediatamente debajo del eje.
eje X debería estar centrado,
2.5.7.6.2. El título del eje y debería situarse en la parte superior del eje. 2.5.7.7 Se debe indicar el cero de la escala ( eje y) de lo contrario se puede realizar una comparación errónea. La necesidad de indicar el origen se evidencia en la comparación de los picos de los dos gráficos. 2.5.7.8 En el eje y la escala de valores debería abarcar desde cero (0) desde el valor mas pequeño en la parte inferior del gráfico, al valor mas alto en su parte superior. 2.5.8 ESCALAS. 2.5.8.1 ESCALA ARITMÉTICA: El papel con escalas aritmética presenta
distancias iguales entre las líneas coordenadas. Cantidades iguales equivaldrán entonces, a iguales distancias. Así, las distancias entre 1 y 3 será la misma que entre 8 y 10. 2.5.8.2 Los valores de las escalas deben situarse a lo largo de los ejes x e y, dando así una indicación general del tamaño de las variaciones que representa el gráfico. no es necesario indicar una graduación fina en la escala de valores , ya que no se pretende que se lean las cifras reales en el gráfico. Los valores exactos se pueden obtener de la tabla de datos original que usualmente acompañe el gráfico. 2.5.8.3. Si se utiliza una longitud, en eje X, para indicar un intervalo de tiempo el punto representativo del valor de cada período debería marcarse el punto central del período. Pero si se desean los períodos pueden hacerse coincidir con líneas coordenadas dadas, trazándose entonces los puntos en ellas.
44 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
2.5.8.4 ESCALA LOGARÍTMICA Y SEMILOGARITMICAS : Cuando se desea
comparar cambios porcentuales en lugar de absolutos, se utiliza un tipo de escala algo diferente. Se puede demostrar que cuando hay cambio porcentual constante entre 2 pares de cifras, las diferencias entre los logaritmos de las cifras serán iguales. Así, si el lugar de los valores originales se representan los logaritmos de esos valores, las diferencias constantes equivaldrán a cambios porcentuales constantes. NUMERO
LOGARITMO
2
0.30103
4
0,60206 .
Diferencia
NUMERO
0,30103 100% de aumento
LOGARITMO
5
0.69897
10
1.0000 ________
Diferencia
0.30103 100% de aumento
2.5.8.5 TIPOS DE ESCALAS: 2.5.8.5.1 UNIFORME : Previamente determina un valor representativo para
cada uno de los valores reales del dato que se debe representar. 2.5.8.5.2 LOGARÍTMICAS : Las escalas ó representaciones de valor se hace
aplicando el logaritmo. Las gráficas respectivas se elaboran en papel logarítmico ó semilogarítmico.
45 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
2.6.
GRÁFICAS ESTADÍSTICAS.
Hay numerosas gráficas estadísticas, especialmente aquellas que son consideradas como las más usuales, teniendo en cuenta que estas deben ser sencillas, explícita y se representa siempre de izquierda a derecha y de abajo hacia arriba. A continuación daremos algunos conceptos y ejemplos de gráficas más usuales en estadística. 2.6.1. DIAGRAMAS DE BARRA:
Es la representación visual mediante rectángulos de la relación entre las variables. Las barras utilizadas para representar las características cualitativas y cuantitativa por lo general, son construidas en forma vertical sobre una base horizontal, en el cual se colocan las características o el tiempo,(años, meses, etc) y la altura estará dada por el valor que toma la variable o atributo observado. También se elabora el diagrama proporcional de barras cuando se trabaja con grupos relativamente pequeños y se desea establecer comparaciones entre dos o más distribuciones proporcionales. 2.6.2.HISTOGRAMA Y POLÍGONO DE FRECUENCIAS. 2.6.2.1 HISTOGRAMA. Son representaciones gráficas de las distribuciones de
frecuencias, que consiste en una serie de rectángulos, cada uno de ellos levantados en cada intervalo, de tal manera que la base sería igual a la amplitud y la altura estará dada ya sea por la frecuencia absoluta o por la relativa, si los intervalos son desiguales las alturas de los rectángulos deberán ser calculadas por procedimientos matemáticos, para que en la gráfica, no nos quede una imagen engañosa de la distribución que se quiere presentar. 2.6.2.2 POLÍGONO DE FRECUENCIAS . Se puede representar con la misma
información del histograma, mediante la unión de los puntos medios de los techos de los rectángulos en el histograma por medio de una línea prolongada en el primero y último rectángulo. Los polígonos también se pueden dibujar estableciendo los puntos medios del intervalo, denominados marcas de clases, que se colocan en el eje horizontal o abscisa, para cada valor de la variable corresponderá un valor de la frecuencia, señalándose en
46 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
el plano cartesiano por un punto, luego de establecido todos los puntos se unen mediante líneas rectas, las que en conjunto forman el polígono. 2.6.3 OJIVA. Para el trazado de esta gráfica, se emplea también el polígono, para presentar la frecuencia acumulada y la frecuencia acumulada relativa, se ubican los puntos en el plano cartesiano y se unen mediante segmentos de rectas y el gráfico así obtenido se llama polígono de frecuencia u ojiva. La ojiva o polígono de frecuencia acumulada tiene la ventaja de que da una manera cómoda de estimar la mediana y los percentiles de una muestra, otra ventaja que tiene es que se puede averiguar fácilmente el número de partida entre dos valores por ej. el número de partida entre 56.5 y 62.5 es simple la diferencia entre las correspondientes frecuencias acumuladas; o sea entre 3 y 20 es 17 ; Este método opera bien solamente para los valores y puntos que estén efectivamente representados. El histograma, el polígono y la ojiva, se utilizan para representar la variable continua, y los diagramas de frecuencias para la variable discreta. 2.6.4
DIAGRAMA CIRCULAR: Se utiliza para representar características
cualitativas, sirve para notar las diferencias en las proporciones o porcentajes en que está dada la distribución. Como en total la circunferencia tiene 360º, se calcula a cuantos grados ( sector circular ) equivale la parte que se va a representar. El procesos que sigue en la confección de la gráfica circular o pastel consiste: En hacer la sumatoria total de las frecuencias, luego para sacar el porcentaje se multiplica cada frecuencia por el 100% y se divide por el total de la frecuencia, pero en este caso no es necesario; ya sacado el porcentaje de todas las frecuencias, se llevan a grados, multiplicando 360º por cada frecuencia en porcentaje dividiéndola por 100. 2.6.5 PICTOGRAMAS O PICTOGRAFOS : Se emplean cuando se trata de
llamar la atención al público. Las figuras empleadas deben explicarse por sí misma. Se acostumbra que el tamaño sea uniforme, en algunos casos, se acostumbra colocar o señalar el valor total del conjunto buscado de esta manera la eliminación del cuadro. Algunos autores señalan que el tamaño puede variar, y ,la altura de cada objeto estará dada por la frecuencia absoluta o relativa, pero una inmensa mayoría considera que dicha representación puede conducir a errores
47 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
en su interpretación, especialmente cuando los tamaños de la figuras no son proporcionales a la cantidad que se representa. 2.6.6.CARTOGRAMA :Son croquis o mapas que contienen datos estadísticos
u otros de carácter no cartográficos, dentro de los cuales se ubican símbolos y en algunos casos gráficas, para indicar tanto la localización geográfica, así como la importancia del valor de la variable observada en la relación con el conjunto. 2.6.7
DIAGRAMA DE LÍNEAS . Es otra de las gráficas muy utilizadas, pero al
mismo tiempo, la que presenta mayores dificultades en la visualización de los datos, dando lugar, algunas veces, a imágenes o conclusiones erróneas, debido a la mal confección de las escalas de los ejes. A los diagramas lineales también se les denomina curvas de sucesión, porque generalmente se refieren a variables observadas durante un periodo. Se denominan series de tiempo o series cronológicas. La variable tiempo se coloca en el eje horizontal y los valores que toman la variable, van al eje vertical. 2.6.8.CUADROS Y TRIÁNGULOS. Para representación gráficas de datos
estadísticos, se recurre a la figura geométrica como los cuadros rectángulos.
y
Estas gráficas deben ser simples y es aconsejable superponer las figuras en lugar de yuxta - ponerlas. Hay varias formas de hacer la presentación gráfica mediante la utilización de los cuadros, una la más recomendadas es que, antes que todo, identificar las características que se investigaron, ya que esto permite una mejor clasificación de lo observado, ya que estas características pueden ser cualitativas o atributos y cuantitativas. En la gráfica mediante la utilización de triángulos se debe buscar una base común y luego localizar la altura, como también son utilizados triángulos donde cada uno de ellos tiene una base diferente. Otra forma es, determinando zonas proporcionales a las cantidades representadas y tener una clara diferencia entre las zonas demarcadas al igual que anexar los signos convencionales correspondientes. 2.6.9. GRÁFICA DE CANTT . La utilización de estas gráfica se hace con
mayor necesidad, en la dirección de empresas, en la cual establecen las diferentes etapas de trabajo por ejecutar y el ejecutado durante un
48 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
determinado período. El campo de aplicación de esta gráfica es muy vasto, siendo imposible en esta investigación la descripción de todas las formas y usos que tiene. 2.6.10 PIRÁMIDES. Las gráficas denominadas pirámides son utilizadas con
mucha frecuencia para representar las edades de una población de una región. Si en un triángulo se determinan zonas proporcionales a las cantidades representadas y hay diferenciación entre las zonas demarcadas, al igual que anexar los signos convencionales correspondientes, la gráfica así elaborada se denomina pirámide.
EJEMPLO: Los siguientes datos representan la distribución de los gastos en millones de pesos, de las empresas la Mazorca y El diamante en un determinado periodo: EMPRESAS LA MAZORCA EL DIAMANTE
SALARIOS
ALQUILER
IMPUESTO
PUBLICIDAD
20.4 30.6
47.5 38.6
39.8 34.6
20.4 31.6
1.0 Gráfico de barra. Gasto en millones de pesos de las empresas la Mazorca y el Diamante durante un periodo contable 50 40 30 La mazorca 20
El Diamante
10 0 Salario
Alquiler
Impuesto
Fuente: División Financiera
Publicidad
49 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
2.0 Gr谩fico circular Gasto en millones de pesos de las empresas la Mazorca y el Diamante durante un periodo contable
16%
31%
Fuente: Divisi贸n Financiera
16%
37%
Salario Alquielr Impuesto Publicidad
50 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
3. Grafico de cilindro Gasto en millones de pesos de las empresas la Mazorca y el Diamante durante un periodo contable
100 80 60
El Diamante La Mazorca
40 20 0 Salario
Alquiler
Fuente: Divisi贸n Financiera.
Impuesto
Publicidad
51 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
4. Grafico de L铆neas. Gasto en millones de pesos de las empresas la Mazorca y el Diamante durante un periodo contable
100 80 60
El Diamante
40
La Mazorca
20 0 Salario
Alquiler
Fuente: Divisi贸n Financiera.
Impuesto
Publicidad
52 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
EVALUACION SOBRE LA UNIDAD Nº 2 2.1 Construir un diagrama circular para la siguiente distribución. Distribución porcentual del numero de personas vacunadas según tipo de vacunas (1986 - 1987)
TIPO DE VACUNA DPT POLIO BCG SARAMPIÓN TOTAL
PERSONAS VACUNADAS 48.958 55.068 46.884 46.450 197.360
PORCENTAJE 24.81 27.9 23.76 23.53 100.00
Construir un diagrama de línea que visualice los datos de la siguiente 2.2 tabla que muestra los depósitos y préstamos de las entidades financieras de esta ciudad.
ENTIDAD Sistema Bancario Caja Agraria UPAC Corporaciones Financieras
1 2 3
DEPOSITO (MILES DE $) 8´699.699 2´517.702 3´303.211 368.218
PRESTAMOS (MILES DE $) 7´145.909 6´609.804 2´212.117 610.281
4
Construir un diagrama de barra con los datos que se muestran en la 2.3 tabla que representan los servicios de salud en hora años medicas, odontológicas y de enfermería, según subsectores.
53 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
SUBSECTORES OFICIAL Y MIXTO SEGURIDAD SOCIAL MÉDICOS 178.348 120.746 ODONTOLÓGICOS 115.500 51.952 ENFERMERÍA 112.000 18.680
PRIVADO 13.212 13.380 00
TOTAL 312.308 180.832 130.680
2.4 Elaborar un diagrama triangular que represente las extensiones territoriales de los países Bolivarianos. PAÍS BOLIVIA COLOMBIA ECUADOR PERÚ VENEZUELA
ÁREA (KM²) 1´099.000 1´138.000 284.000 1´285.000 916.000
Los aviones agrícolas como modernas máquinas agrícolas, participan 2.5 cada vez más en gran número de trabajo. Aproximadamente unos 60 países con unos 19.000 aviones tratan al rededor de 200.000.000 hectáreas según la (FAO). A continuación aparecen algunos datos referentes a diversos países. Elaborar un pictograma que visualice los datos presentados. PAIS URSS EE. UU. CANADÁ ARGENTINA MÉXICO RDA RFA
Nº DE AVIONES 8.000 6.100 666 450 450 100 2.030
Para formar las curvas de calibración para estimación de la 2.6 concentración de protombina, se considera arbitrariamente que el plasma de un sujeto normal tiene una concentración de 100%. Con suero salino se prepara una serie de diluciones de esta muestra y se mide un tiempo que se requiere para la coagulación después de agregar una mezcla de cloruro de calcio y trasmboplastina. La tabla siguiente ilustra el tipo de dato que se tiene.
54 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
CONCENTRACIÓN NOMINAL DE PROTOMBINA, X
TIEMPO EN SEGUNDOS QUE SE REQUIERE PARA QUE APAREZCA UN COAGULO , Y
100 50 25 15
14 18 22 24
Representar los puntos en una gráfica de Y en función de X y trazar la curva a mano alzada a través de esos puntos. 2.7 En un sujeto cuyo nivel de glucosa en sangre en ayunas es de 100 mg/100ml, se inyectan por vía intravenosa 50 gr de glucosa. Se miden muestra de sangre, con intervalos de media hora, obteniendo los resultados siguientes:
MINUTOS DESPUÉS DE LA INYECCIÓN
30 60 90 120
Mg/100 ml DE GLUCOSA EN SANGRE
161 128 119 108
Trazar la gráfica del logaritmo del aumento en la concentración de azúcar en la sangre, en función del tiempo.
55 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
2.8.- Sírvase registrar ( F ) dentro del paréntesis en caso de que el enunciado sea completamente falso y ( V ) verdadero en caso contrario.
El gráfico circular (pastel) lo usamos para representar variables cualitativas ( ) La elaboración del pictograma exige que sobre el eje x vaya la variable de interés ( ) La parte inicial en la construcción de un formulario debe contener las preguntas acerca del tema de interés. ( ). El gráfico de barras simple y el de pastel se utiliza cuando la variable es de naturaleza cualitativa ( ) En el procesos de investigación estadística, la selección de las variables a estudiar se realiza independientemente de los objetivos o hipótesis de investigación. ( ) Toda investigación científica debe contar con el método estadístico como su único auxiliar. ( ) Las tablas estadísticas son arreglos de datos expuestos en filas y columnas para su manejo y presentación. ( ) Para utilizar un polígono de frecuencias, la variable debe ser de naturaleza cuantitativa continua y deberá ocupar la ordenada del sistema del coordenadas cartesianas ( ) Kilogramos, onza y libra son unidades de medida de la variable peso (
)
Toda variable cuantitativa puede ser transformada para ser manejada a un nivel de medición nominal u ordinal ( ).
2.9 A cada espacio en blanco que aparece en la columna A, escribir la letra correspondiente de la columna B (respuesta) que usted crea es la respuesta correcta. Cada expresión de la columna B, puede ser utilizada como respuesta en A más de una vez.
56 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
COLUMNA A
COLUMNA B
Elementos que permiten cuantificar la unidad de análisis
A. Los porcentajes
Permiten visualizar el comportamiento real y objetivo del objeto de estudio.
B. El coeficiente de Asimetría
Permiten tener un conocimiento de la variable desde el centro de la serie.
D. El coeficiente de variación
Como medida de dispersión está asociada con la media.
E. Desviación estándar
Permiten describir el comportamiento de una variable cuantitativa.
F. El saber cotidiano
Permite comparar la variabilidad o heterogeneidad que presentan dos variables con igual unidad de medida
G. Unidad de observación
Utiliza los numerales como códigos para establecer una categorización.
H. Gráfico de líneas
Se utiliza para conocer el grado central de simetría que presenta la Distribución de una variable.
I.
Permiten describir el comportamiento de una variable cualitativa.
J. Medidas de resumen
Medidas
de
tendencia
K. Histograma de frecuencias 2.10 Dentro de un estudio de clima organizacional en una unidad local de salud que cuenta con 55 empleados, se tomó una muestra de 15 empleados en los cuales se evaluó en nivel motivacional, y, la aplicación del test arrojó los siguientes resultados calificados con una escala de 1 a 5 y 30 ítem. 42 36 65 70 42
58 66 65 58
90 85 70 90 66
36
57 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
Con base en la información anterior precisar:
Cuál es la variable de estudio? ----------------------------------------------------------------------------------------------------------------------------------------------------------Cuál es la naturaleza de la variable de estudio? y nivel de medición ------------------------------------------------------------------------------------------------------------Cuál es la unidad de medida de la variable?.--------------------------------------Cuál es la unidad de análisis? ---------------------------------------------------------Cuál es la muestra? ---------------------------------------------------------------------Cuantos valores diferentes tiene la variable? ---------------------------------------Cuál es el universo? ----------------------------------------------------------------------Cuál es el puntaje máximo que se puede esperar en el test para una persona? ------------------------------------------------------------------------------------Cuál es la frecuencia absoluta para cada valor de la variable? ------------------------------------------------------------------------------------------------------------------Cuál es el puntaje mínimo que se puede esperar en el test de una persona? ---------------------------------------------------------------------------------------------------
2.11 Los siguientes datos agrupados corresponden a las Estaturas de 98 estudiantes, hombres, que participaron en un estudio titulado “Desarrollo de las medidas Craneofaciales de crecimiento de población X ”. En uno de los objetivos de la investigación, se requería hacer una descripción de talla inicial de las personas bajo estudio, para efectos comparativos posteriores.
58 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
Distribución porcentual de las Estaturas de 98 hombres, en un estudio sobre Desarrollo de las Medidas Craneofaciales y de Crecimiento. Medellín, 1.995 INTERVALO S
Marcas de clase Xi
Frecuencia absoluta Fi
Frecuencia acumulada Fa
Frecuencia Relativa en % Fr
1.47 – 1.53
1.50
9
9
9.2
Frecuencia Relativa Acumulada % Fra 9.2
1.53 - 1.59
1.56
18
27
18.4
27.6
1.62
20
47
20.4
48.0
1.68
16
63
16.
64.3
1.74
19
82
19.4
83.7
1.80
8
90
8.2
91.9
1.86
5
95
5.1
97.0
1.92
3
98
3.0
100.0
1.59 - 1.65 1.65- 1.71 1.71 - 1.77 1.77 -1.83 1.83 - 1.89 1.89- 1.95
Tomando como referencia el cuadro anterior, una o unas de las siguientes afirmaciones es o son falsa: a.-
La estatura que predomina en el estudio es 1.62 mts.
b.-
A lo sumo el 48% de las estaturas está entre 1.47 mts y 1.65
c.-
El 48% de las Estaturas está entre 1.59 mts y 1.65 mts
d.-
El 3% de las Estaturas más altas está entre 1.83 y 1.95 mts.
59 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
UNIDAD 3.0 MEDIDAS DE POSICIÓN O DE TENDENCIA CENTRAL OBJETIVO DE LA UNIDAD: Proporcionar una comprensión de las características o propiedades de los Datos numéricos (tendencia central) y sus mediciones descriptivas de Resumen correspondientes, como una ayuda para el análisis e interpretación de datos.
CONTENIDOS: 3.1 Media Aritmética 3.1.1 Propiedades 3.1.2 Ventajas y desventajas 3.2
Mediana
3.2.1 Ventajas y desventajas 3.3
Moda
3.3.1 Ventajas y desventajas 3.4
Características principales de los promedios anteriores
3.5
Relación entre la Media, Mediana y Moda
3.6
Media Geométrica
3.6.1 Propiedades 3.6.2 Ventajas y desventajas 3.6.3 Características 3.7
Media Armónica
3.7.1 Característica 3.8
Relación entre Media Aritmética, Geométrica y Armónica
3.9
Cuartiles, Decíles y Percentiles Evaluación de la unidad
60 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
MEDIDAS DE POSICIÓN O DE TENDENCIA CENTRAL
3.0.
MEDIDAS DE POSICIÓN.
Son parámetros o promedios que se consideran representativos de una distribución de datos , los cuales tienen tendencia a concentrar los datos, o sea , que son valores de posición central a cuyo alrededor se distribuyen los datos del conjunto. Los más importantes son: Media Aritmética, Mediana y Moda. Se encuentran otras medidas de menos importancia que analizaremos en éste trabajo como son: Media Geométrica, Armónica, Cuadrática, Cúbica, Cuartiles, Deciles y percentiles. 3.1 MEDIA ARITMÉTICA : Es el promedio más utilizado. Es la suma de los valores de la distribución dividida por el número total de datos. Es un promedio que se obtiene por medio del cálculo cuyo valor depende del que tienen los diversos datos que entran en la distribución. __
La medida Aritmética se representa por medio de
X
(que se lee X barra)
3 .1.1. CALCULO DE MEDIA ARITMÉTICA. 3.1.1.1 Para datos no Agrupados. La Media Aritmética se calcula a partir de la formula: __
X
X 1 X 2 X 3 X 4 X 5 X 6 X 7 ... Xn n n
__
X
Xi
i1
n
representa la media de la muestra
Donde x Se utiliza para indicar la suma de todas las X y total de datos de la muestra.
n es el número
61 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
EJEMPLO 1: Las calificaciones de un alumno durante el grado 10º han sido las siguientes: Matemáticas, 8 , Estadística 7, Ingles , 7; Física 6 Química, 9 Filosofía, 5 , Literatura, 6, Hallar la nota media ( X ). __
__
X1 X 2 X 3 X 4 X 5 X 6 X 7 7
X
7
__
X __
X
=
Xi
i 1
n
8 7 7 6 9 5 6 = 6.85 7
EJEMPLO 2. Hallar la Media Aritmética de la siguiente distribución de datos:
32,
25,
__
X
=
29,
30,
30,
27,
24,
35,
34,
32 25 29 30 30 27 24 35 34 30 29 11
__
X = 29.54 Ejemplo 3. La Media Aritmética de los números 8, 3, 5, 12, 10 es:
30,
29
62 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
__
X
=
8 3 5 12 10 = 7.6 5
3.1.1.2 Para Datos Agrupados. Se puede calcular por efectivos, frecuencia y por intervalos. Se calcula a partir de la fórmula. n
__
X=
Xfi
i 1
n
i
;
Media aritmética ponderada
EJEMPLO 1. Los valores de las edades en años obtenidas en una toma de datos en una encuesta, son los que figuran en la tabla siguiente. Hallar la Media Aritmética de la distribución de los datos. Xi (Edad en años) 29 30 31 32 33 34 35 36 37 38 39 40 41
fi
0 2 7 13 22 32 49 35 23 9 5 3 0 N = 200
XI . f i 0 60 217 416 726 1088 1715 1260 851 342 195 120 0 6.990.
n
__
X=
i 1
Xfi n
i
=
6990 = 34.95 = 35 años, edad promedio. 200
63 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
EJEMPLO 2. __
Hallar la Media Aritmética ( X ) de los datos que figuran en la siguiente tabla en la cual vamos a encontrar la estatura en centímetros de las especies de árboles estudiados en una área determinada. Intervalo
Xi
6 26 46 66 86 106 126 146 166 186 206
15,5 35,5 55,5 75,5 95,5 115,5 135,5 155,5 175,5 195,5 215,5
25 45 65 85 105 125 145 165 185 205 225
Fi 4 3 7 9 16 14 20 32 24 13 6 -----------N = 148
Xi Fi 62 106,5 388,5 679,5 1528 1617 2710 4796 4212 2514.5 1293 --------------19907
n
__
X=
i 1
Xfi n
i
=
19907 = 134.50cm; estatura promedio 148
EJEMPLO 3. En la siguiente tabla se encuentra unas distribuciones de los datos de la estatura de 50 trabajadores.
64 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
Estatura en pulgada INTERVALOS 50.5 -
Puntos medios Xi
frecuencia Fi
Xi .Fi
53,5
52
1
52
53.5
-
56.5
55
2
110
56.5
-
59.5
58
6
3 48
59.5 -
62.5
61
11
6 71
62.5 -
65.5
64
16
1024
65.5 -
68.5
67
9
603
68.5 -
71.5
70
4
280
71.5 -
74.5
73
1
73
n
__
X
i1
=
Xf i
i
=
n
3161 = 63.22 pulgadas, estatura promedio. 50
3.1.2 PROPIEDADES DE LA MEDIA ARITMÉTICA La suma algebraica de las desviaciones de un conjunto de números a. de su Medida Aritmética es igual a 0 (cero). n
Así :
b.
(Xi X j 1
__
)=O
Xi
La suma de los cuadros de las desviaciones de un conjunto __
respecto ciertos número a es mínima sí y solo sí a es igual a
X
.
Si f1 número tienen la media m1 , f2 número tiene la media c. m 2, fk número tiene la media mk entonces la media de todos los números es :
65 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
__
X
=
f 1 m1 f 2 m 2 ... f k m k f f ... f 1
2
k
3.1.3 VENTAJAS Y DESVENTAJAS DE LA MEDIA ARITMÉTICA 3.1.3.1. ventajas El promedio aritmético es, en así, la medida más fácil de entender y la a. más comúnmente usada. Es un valor tal que si calculamos para un grupo en el cual todos los elementos fueran iguales, cada uno de ellos sería igual a su promedio aritmético de “n” elementos es nuevo elemento formado, tomado una parte igual a 1/n de cada uno los elementos originales. Esta media se define en forma rígida por una ecuación matemática b. muy fácil de entender y algunas veces se puede obtener cuando no es posible calcular otros tipos de medida de tendencia central y aún en el caso de no conocer los valores individuales de las serie, por ejemplo. Sí 10 filas consumen 20 litros de leche, el promedio aritmético será de 2 litros por fila. c.
El promedio aritmético es extraordinariamente estable en el muestreo.
d.
Es altamente sensible a cualquier cambio en los datos de la distribución.
Como una ventaja más del promedio aritmético, podemos anotar que e. es excepcionalmente adaptable cuando se trata de hacer cálculos matemáticos posteriores con él (promedio ponderado, métodos abreviados y promedio de promedios). 3.1.3.2. Desventajas
Es sensible a los valores muy grande o muy pequeños, especialmente a. a los primeros, y a la inclusión de tales datos en distribución que se esté estudiando pueden dar un promedio aritmético que no sea realmente el representante típico del grupo. Cuando una distribución es marcadamente aritmética en tal forma que b. el promedio aritmético, la mediana y la moda difieren en forma apreciable,
66 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
debe considerarse siempre la posibilidad de que el promedio aritmético pueda no ser el valor único representativo de la serie. Otro inconveniente o desventaja del promedio aritmético, es cuando la c. distribución tiene forma de “U”, es decir parabólicamente este corresponde a los valores menos comunes en la serie y por tanto, puede dar una idea irreal de la distribución. 3.2.
MEDIANA (Me)
La Mediana de una serie de datos ordenados es el valor central de la distribución de datos que divide dicho conjunto de datos de tal manera que el número de partidas por encima de la Mediana sea igual al número de partidas por debajo de la Mediana. 3.2.1
MEDIANA PARA DATOS NO AGRUPADOS .
Cuando el número de valores de la distribución es impar, la mediana está bien definida será el valor que se encuentre en el medio cuando se hayan ordenado los valores. Si los números de la distribución son pares, se ordenan, se suman los valores centrales y se dividen por dos(2). EJEMPLO 1. Calcular la Mediana para cada una de las distribuciones de datos que siguen: 4,
6,
7,
9,
15,
16,
17, (número de datos impares)
La Mediana es 9 ya que este es el valor central de la distribución EJEMPLO 2. Calcule la mediana para: 3, 7, 9, 12, 15, 20, 21, 25 (número de datos par) La mediana es = (12 +15) / 2 = 13.5 En este caso, la Mediana no corresponde a un valor real de la distribución.
67 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
EJEMPLO 3. 32
25
29
30
31
27
24
34
32
29
25
29
29
30
31
32
32
34
Ordenando los datos: 24
25
25
27
La Mediana es 29 En éste caso corresponde a un valor real de distribución. 3.2.2 MEDIANA PARA DATOS AGRUPADOS: Para encontrar la Mediana de datos agrupados se suele utilizar el método de interpretación que exige la construcción de una distribución de frecuencia acumulada o de una distribución de frecuencia acumulada relativa. La Mediana se obtiene mediante la fórmula:
n / 2 f i '1 A Mediana = Li + fmediana Donde Li
= Límite real inferior de la clase mediana
n
= Número total de datos (frecuencia total )
f
i 1
= Suma de las frecuencias de todas las clases por debajo de la clase Mediana.
F mediana = Frecuencia de la clase Mediana. A
= Tamaño del intervalo de la clase mediana.
EJEMPLO 1. Hallar la Mediana para las cargas máximas de los cables de la siguiente tabla.
68 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
Máxima de cargas Toneladas Cortas. 9,3 9,7 9,8 10.2 10,3 10,7 10,8 11,2 11,3 11,7 11,8 12,2 12,3 12,7 12,8 13,2 TOTAL
Número de cables 2 5 12 17 14 6 3 1 60
n / 2 f i '1 Me = Li + A fmediana
60 / 2 19 0.4 Me = 10.8 + 17 11 Me = 10.8 + 17 0.4 Me = 10.8 + 0.258 Mediana = 11.06 Toneladas cortas Es decir que el 50% de los cables resisten menos de 11.06 toneladas y el otro 50% mas de 11.06 toneladas.
EJEMPLO 2. Halle la Mediana de los diámetros de las cajas de remaches de la siguiente tabla.
69 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
DIÁMETRO (PULGADAS) 0,7247 - 0,7244 0,7250 - 0,752 0,7253 - 0,755 0,7256 - 0,7258 0,7259 - 0,7261 0,7262--- 0,7264 0,7265--- 0,7267 0,7268--- 0,7270 0,7271--- 0,7273 0,7274--- 0,7276 0,7277--- 0,7279 0,7280--- 0,7282
n / 2 f i '1 A Me = Li + fmediana
250 / 2 73 0.0002 Me = 0.7262 + 68
Me = 0.7277
FRECUENCIA
2 6 8 15 42 68 49 25 18 12 4 1
70 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
EJEMPLO 3. Hallar la mediana de la siguiente tabla, que muestra los salarios recibidos por algunas familias.
CLASES(salarios) 10 15 20 25 30 35 40
- Menor de -Menor de -Menor de -Menor de -Menor de -Menor de -Menor de
TOTAL
15 20 25 30 35 40 45
FRECUENCIA(familias) 3 7 16 12 9 5 2 54
n / 2 f i '1 A Me = Li + fmediana
54 / 2 26 5 Me = 25 + 12 Me = 25.41 salarios; el 50% de las familias reciben menos de 25.41 salarios y el otro 50% mas de 25.41 salarios. 3.2.3 VENTAJAS Y DESVENTAJAS DE LA MEDIANA 3.2.3.1 Ventajas 3.2.3.1.1 La Mediana tiene una definición rígida y el concepto que envuelve es tan claro que cualquiera puede entenderlo aún no siendo familiar el término.
71 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
3.2.3.1.2 Si los datos están ordenados en un cuadro de frecuencias esta medida es fácil de calcular y por otro lado los datos extremos no tienen ninguna influencia en ella. menos estabilidad en el muestreo que el promedio 3.2.3.1.3 Tiene aritmético, pero es más aceptable en otras medidas. 3.2.3.1.4 Hay situación en que la única medida de tendencia central que puede calcularse es la Mediana, tal como sucede en el uso de una distribución cuyos intervalos extremos no están definidos. 3.2.3.2 Desventajas. 3.2.3.2.1 No es tan conocida como la Media Aritmética 3.2.3.2.2 Es necesario ordenar los datos para poderla calcular 3.2.3.2.3 La mediana no se adapta a cálculos posteriores aritméticos, por cuanto que si obtenemos la mediana de diferentes grupos, no podemos tener una mediana de los grupos reunidos. La Mediana no es sensible a cambios de valores de los 3.2.3.2.4 elementos que componen la distribución.
3.3
MODA ( Mo)
Se define como el valor que ocurre con mayor frecuencia en una distribución o sea el punto donde la concentración es máxima, Si todos los valores son diferentes, no existen moda, por otra parte un conjunto de valores puede tener más de una moda. Si la moda es única la distribución de datos se denomina UNIMODAL si hay dos modas BIMODAL etc. Por ejemplo: Un laboratorio con 10 empleados cuyas edades son 20, 21, 20, 20, 34, 22, 24, 27, 27 y 27. Puede decirse que estos datos tienen dos modas, 20 y 27.
La muestra que consiste de los valores 10, 21, 33, 53 y 54 son diferentes.
72 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
De una distribución de frecuencia o histograma la moda puede sacarse de la fórmula:
Moda = Li +
1 1
A 2
Li = Limite real inferior de clase modal
1 = Exceso de la frecuencia modal sobre la frecuencia de la clase contigua inferior.
2 = El exceso de la frecuencia modal sobre la frecuencia de la clase
contigua superior.
A
= Tamaño del intervalo de clase modal.
Para datos no agrupados la moda es el valor que más se repite o es el valor de más alta frecuencia. EJEMPLO1. Hallar la Moda para el siguiente conjunto de datos: 7, 4, 10, 15, 12, 7, 9, 7, Moda = 7 EJEMPLO 2. Los tiempos de reacción de un individuo a determinados estímulos fueron : 0,53, 0.46, Moda = 0.53
0.50,
0.49,
0.52,
0.53,
0.44 y 055 segundos
73 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
EJEMPLO 3. Una serie de números está formada por seis 6, siete 7, ocho 8 , nueve 9, y Diez 10. La Moda = 10
EJEMPLO 4. Hallar la moda para la siguiente frecuencia que demuestra el ingreso familiar diario en pesos.
INGRESO FAMILIAR DIARIO EN $
Menos 3.000 5.000 7.000 9.000 11.000 13.000 15.000
de 3.000 4.999 6.999 8.999 10.999 12.000 14.999 - o más
TOTAL
Mo = Li +
Nº DE FAMILIAS
25 31 42 45 52 42 35 28 300
1 1
A 2
7 Mo = 9000 + 7 10 1999
74 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
Mo = 9000 + ( 0.411) 1999
Moda = $ 9821.58 La mayor parte de las familias ganan alrededor de $ 9,822 .
EJEMPLO 5. Distribución de las partículas de materia en suspensión ( microgramos por metros cúbicos ) en muestras de aires tomadas en 57 grandes ciudades. INTERVALO DE CLASE 10 20 30 40 50 60 70
Mo = Li +
19 29 39 49 59 69 79
1 1
FRECUENCIA 5 19 10 13 4 4 2
A 2
14 Mo = 20 + 14 9 9 Mo = 20 + ( 0.608)9 Moda = 25.47 micro gramos/ metro cúbico.
75 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
EJEMPLO 6. En la siguiente distribución observamos el tiempo en minutos que demoraron algunos atletas en recorrer una distancia.
INTERVALO DE CLASES 20 30 40 50 60
FRECUENCIA
30 40 50 60 70
15 18 22 30 15 100
Mo = Li +
1 1
A 2
8 Mo = 50 + 8 1510 Mo = 53.47 minutos
3.3.1 VENTAJAS Y DESVENTAJAS DE LA MODA 3.3.1.1 Ventajas El hecho de que la moda indique el número de mayor 3.3.1.1.1. concentración, lo que hace tal vez la mejor medida de tendencia central, cuando una distribución es asimétrica. Claramente se ve que el modo es el más representativo del grupo, y en algunos casos si los promedios son simplificativamente diferentes del valor es preferible usar el modo. 3.3.1.1.2 En series polimodales, el modo permite dividir la distribución con fines de estratificación 3.3.1.2 Desventajas.
76 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
El modo es difícil de calcular en una serie agrupada y las 3.3.1.2.1 aproximaciones de su cálculo no son de mucha confianza. 3.3.1.2.2
El modo es muy inestable en el muestreo.
El modo puede ser usado fácilmente en procesos algebraicos 3.3.1.2.3 posteriores. El modo no es sensible a cambios de valores en la distribución, 3.3.1.2.4. a menos que tales cambios afecten a su propio valor. No es recomendable, en la variable continua o cuando la 3.3.1.2.5 amplitud de los intervalos es diferente. 3.4
CARACTERÍSTICAS DE LOS PRINCIPALES PROMEDIOS VISTOS ANTERIORMENTE.
3.4.1 Media Aritmética. 3. 4.1.1 El valor de la media aritmética depende de cada una de las medidas que forman la serie, y se halla afectada excesivamente por las desviaciones extremas con respecto al promedio, lo que habría que tener presente en algunas de sus aplicaciones. 3.4.1.2 La media aritmética se calcula con facilidad, y es única para cada caso. 3.4.1.3 La media aritmética es un promedio calculado, susceptible de las operaciones algebraicas. 3.4.2 MEDIANA (CARACTERES PRINCIPALES)
3.4.2.1 El valor de la mediana no está sujeto a la desviaciones extremas con respecto al promedio.
magnitud de las
3.4.2.2 La mediana puede ser localizada cuando los términos que forman la serie no son susceptibles de evaluación cuantitativa. 3.4.2.3 La mediana no se presta tanto como los medios aritméticos, geométricos y armónicos a las operaciones algebraicas.
77 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
3.4.3
MODA (CARACTERES PRINCIPALES)
El valor de la moda no está afectado por las magnitudes de las desviaciones extremas con relación al promedio. 3.4.3.1
3.4.3.2 Es fácil localizar la moda aproximadamente, pero, la determinación
de su valor exacto exige prodigiosos cálculos. 3.4.3.3. La moda carece de significado a menos que la distribución comprenda un gran número de datos y ofrezca marcada concentración. 3.4.3.4. La moda es el promedio más típico de toda la distribución pues se halla localizado en el punto de máxima concentración. 3.4.3.5 La moda no es susceptible de operaciones algebraicas.
3.5.- RELACIÓN ENTRE MEDIA, MEDIANA Y MODA. En una distribución de frecuencias uní modales que sea moderadamente asimétricas, la mediana se encuentra entre la media aritmética y la moda a un tercio aproximadamente de distancia; de aquí se tiene la relación empírica:
MEDIA - MODA = 3 (MEDIA - MEDIANA)
78 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
Ejemplo Hallar la media, mediana y moda de los pesos de 40 estudiante de una Universidad. PESOS ( LIBRAS ) Xi Fi Xi.Fi 118 - 126 122 3 366 127 - 135 131 5 655 136 - 144 140 9 1260 145 - 153 149 12 1788 154 - 162 158 5 790 163 - 171 167 4 668 172 - 180 176 2 352 n =40
n
__
X=
Xfi
i1
i
n
5879 40
=
n / 2 f i '1 Me = Li + A fmediana 40 / 2 17 9 Me = 145 + 12 Me = 147.25
Mo = Li +
1 1
3 Mo = 145 + 3 7 8 Mo = 147.4
A 2
= 146.97
5879
79 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
RELACIÓN EMPÍRICA = MEDIA - MODA = 3 ( MEDIA - MEDIANA ) 146.97 - 147.4 = 3 ( 146.97 - 147.25 ) - 0.43
- 0.84
Lo cual quiere decir que esta relación es asimétrica. En una distribución coinciden.
simétrica la media aritmética, mediana y moda
3.6.- MEDIA GEOMÉTRICA ( G) Se define como Media Geométrica (G) de una distribución de datos como la raíz enésima del producto de n valores de la distribución. Se deduce que si uno de los valores de la serie de las medidas es cero (o), la Media Geométrica también tendrá el valor cero. existen tres (3) fórmulas o maneras para encontrar la Media Geométrica (G):
G
G
=
n
1
n
=
X.X ...X 2
Esta fórmula es para datos no
N
agrupados.
f 1. f 2 . f 3... f k x1 x2 x3 xk
Esta formula es para datos agrupados
1 log G log( n
x .x 1
2
...
x
n
)
EJEMPLOS 1.0 Calcular la media geométrica de los siguientes valores:
8, 16, 20
80 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
G
=
G
=
n
X.X ...X 1
3
2
N
81620 x x
= 13.67
2.0 Calcular la G de los siguientes valores:
G
=
n
X.X2...XN 1
=
6
5, 7, 15, 12, 11, 16.
5715121116 xx x x x
= 10.17
3.0 Hallar la media geomĂŠtrica de las siguientes distribuciones de datos: a.
Xi
Fi
1 2 3 4 5 6
3 5 2 4 7 2
TOTAL
n
G
=
G
=
23
f 1. f 2 . f 3... f k x x2 x3 xk 1
23
3
5
2
4
. . . . 123456
7
.
8
= 3.104
81 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
b.
Xi
Fi
8 9 11 12 14 15
2 1 2 3 5 4
TOTAL
n
G
=
G
=
17
f 1. f 2 . f 3... f k x1 x2 x3 xk
17
2
1
2
3
5
. . . . . 8911121415
4
= 12.28
4.0 Hallar la G de los siguientes valores 21, 22, 15, 14, 20 Log G =
1 Log ( X1 .X2 ...Xn ) n
Log G =
1 log( 21x 22x 15x 14x 20 ) 5
Log G =
1 Log (1940400 ) 5
Log G =
1 (6.28) 5
Log G = 1.25
82 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
G = Antilogaritmo 1.25 G = 18.09 3.6.1 PROPIEDADES DE LA MEDIA GEOMÉTRICA.
Las propiedades o características de la media geométrica (G) es que no varía el producto de los valores que forman la serie de medidas cuando se reemplazan cada una de estas por la media geométrica de la serie. Además para la media geométrica, la suma de las desviaciones de cada término de la serie cuyo valor sea superior al de la media, es igual a la suma de las desviaciones de los valores inferiores a esta abstracción hecha de los signos, ósea que las sumas que en cada caso dan las diferencias entre las partidas individuales y la media son iguales. En el caso de la media geométrica, los productos de las razones correspondientes son iguales o sea que el producto de las razones entre la media geométrica y los términos de valor de inferior a esta será igual a la que se obtenga multiplicando entre sí las razones entre los términos de valor superior a la media y esta. Ejemplo : La G de los números 3, 6, 8, 9, es 6 y podemos escribir así.
6 6 8 9 x x 3 6 6 6 3.6.2 VENTAJAS Y DESVENTAJAS DE LA MEDIA GEOMÉTRICA
3.6.2.1.Ventajas : .Se define rígidamente por una fórmula matemática. Se utiliza cuando se quiere dar importancia a los valores pequeños de la variable. Es sensible a cualquier cambio en los valores de la distribución. Es indispensable cuando se desea sacar promedio a una serie de valores que están en progresión geométrica o aproximadamente geométrica.
83 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
Su valor no es muy influenciable por los datos extremos, como sucede en los otros promedios. Su resultado puede ser usado en trabajos estadísticos posteriores puestos que los promedios geométricos de diferentes muestras pueden ser combinadas para obtener el promedio geométrico del total de las muestras.
3.6.2.2 Desventajas Es la complicación de su cálculo Si cualquier dato de la serie original es “o” el promedio geométrico toma el valor “o” (usando la fórmula de raíz productora de los valores de la serie. Si un valor de la serie es negativo, el promedio geométrico es negativo o imaginario y cuando el número de datos es par, teóricamente tiene dos valores, uno positivo y otro negativo. 3.6.3 CARACTERÍSTICAS PRINCIPALES DE LA MEDIA GEOMETRÍA (G)
La media geométrica da menos pero a las desviaciones extremas que la media aritmética. Queda rigurosamente determinadas cuando se hallan promedios de los valores positivos. La media geométrica es el promedio más apropiado para las variaciones de números proporcionales, se adapta particularmente bien para promediar relaciones de cambios de precios. La media geométrica puede ser objeto de las operaciones algebraicas.
3.7.
MEDIA ARMÓNICA.
Se representa usualmente por (H) y se define como el inverso de la media aritmética de los inversos de los valores dados, se obtiene calculando el valor inverso de la media de los valores de la variable. La media armónica viene dada por la fórmula.
84 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
n H=
n
i1
1 x
1 1 n
n
1
i 1
x
i
Ejemplos :
a. La media armónica de los números 2, 4, 8 es:
H=
3 1 1 1 2 4 8
= 3.43
b. Calcular la media armónica de la velocidad alcanzada en un circuito de carretera por tres automóviles cuya velocidad respectiva es: V1
= 150 Km / h
V2 = 175 Km / h V3
=165 Km / h
n H=
n
i1
1 = 1 150 x
3 1 175
1 165
= 162.67 K / h velocidad media
c. Hallar la H de la distancia media recorrida por 3 ciclistas Ciclista Ciclista Ciclista
1= 2= 3=
10 Km 20 km 30 km
85 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
n H=
n
i1
3
= 16.36 Km, distancia media 1 = 1 1 1 30 20 10 x
3.7.1 CARACTERÍSTICAS PRINCIPALES DE LA MEDIA ARMÓNICA
3.7.1.1 La media armónica es apropiada para promediar velocidades y otras magnitudes análogas. Se emplea en los trabajos de la estadística económica para la elaboración de los datos de precios. 3.7.1.2 La dificultad del cálculo de la media armónica disminuye su utilidad en la práctica del análisis estadístico más corriente. 3.7.1.3 La media armónica puede ser objeto de las operaciones algebraicas.
3.8
RELACIÓN ENTRE MEDIA ARITMÉTICA, GEOMÉTRICA Y ARMÓNICA.
La media geométrica de los números X 1 , X 2, ...X n es menor o igual que su media aritmética, pero es mayor o igual que su media armónica. En símbolos: H
G
X
La igualdad de los signos se presentan solamente cuando los números X X2... Xn son idénticos. Ejemplo: Los números 2, 4, 8 tienen como media aritmética 4.6 de media geométrica 4 y media armónica 3.43 3.43 4 4. 6
1
86 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
3.9.
CUARTILES. DECILES Y PERCENTILES.
3.9.1 CUARTILES Son puntos de la Escala que dividen al número total de casos en 4 grupos iguales. Es una medida asociada a la mediana puesto que se basan también en su posición en una serie de observaciones. El primer cuartil corresponde al punto debajo del cual quedan una cuarta parte de los casos. El segundo cuartil, tal como la mediana tiene valores idénticos. Para datos sin agrupar, un cuartil, tal como la mediana, o bien toma uno de los valores de las partidas, o bien el valor intermedio entre dos partidas. Si n es divisible por 4, el primer cuartil tienen el valor situado entre los números n/ 4 y el entero mayor que la sigue. Si n/4 no es entero el primer cuartil tiene por valor el de mayor entero siguiente. Sustituyendo 3n/4 se puede encontrar el valor del tercer cuartil. Con datos agrupados, el método de estimación de los cuartiles primero y tercero es parecido al utilizado para la mediana :
PRIMER CUARTIL
SEGUNDO CUARTIL
n f 1 4 Q 1 = Li + fcuartilico
A
2n f 4 Q2 = Li + fcuartilico
TERCER CUARTIL
3n f 3 4 Q 3 = Li + fcuarttilico
A
2
A
87 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
Qi
= Abscisa de la curva comprendiente al cuartil.
Li
= Límite inferior del intervalo del cuartil.
A
= Amplitud del intervalo (diferencia entre el límite superior y el límite Inferior).
f cuartilico = Número de efectivos del intervalo del cuartil n
= Número total de los datos
fi
= Efectivo acumulado anterior al intervalo del cuartil
3.9.2 DECILES
Son líneas límites que separan una distribución en 10 partes iguales, es decir con el mismo número de observaciones en cada una . El quinto decil coincide con la mediana. Para calcular el valor de los deciles se procede en igual forma que con los cuartiles sustituyendo en n / 2 por:
n 10
,
2 n 3n , ,..., 10 10
9 n 10
3.9.3 PERCENTILES. Son límites que dividen una distribución en 100 partes iguales. Existen 99 percentiles. Para datos sin agrupar, el percentil o bien toma el valor intermedio entre dos observaciones, o bien el valor de una de las observaciones según que n sea o no divisible por 100. Si se tiene una distribución de frecuencia se puede utilizar una fórmula parecida a las empleadas para mediana y los cuartiles. El 60 percentil, p60 es observaciones del 40%.
el valor que separa el 60% inferior
a las
88 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
Ejemplos Sobre Cuartiles, Deciles Y Percentiles. En la siguiente tabla se encuentran algunas distribuciones de los datos de estatura de 50 trabajadores. Hallar el primer y tercer cuartil, el quinto y sexto decil y el 50 y 75 percentil. ESTATURAS EN PULGADAS 50.5 53.5 56.5 59.5 62.5 65.5 68,5 71,5
-
FRECUENCIA
53.5 56.5 59.5 62.5 65.5 68,5 71.5 74.5
1 2 6 11 16 9 4 1 N = 50
FRECUENCIA ACUMULADA (fa) 1 3 9 20 36 45 49 50
PRIMER CUARTIL n f 1 4 Q 1 = Li + fcuartilico
A
50 4 Q1 = 59.5 + 11
9 3
Q1 = 60.45 , que representa el 25% de la distribución.
89 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
TERCER CUARTIL. 3n f 3 4 Q3 = Li + fcuarttilico
350 ( 4 Q3 = 65.5 +
A
) 36 9
Q3 = 66 , que representa el 75% de la distribución.
QUINTO DECIL 5n 10 D5 = Li + fdecil
f
5 A
550 ( ) 20 3 D5 = 62.5 + 10 16
D5 = 63.4,el cual representa el 50% de la distribución.
3
90 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
SEXTO DECIL
D6 = 62.5 +
650 ( ) 20 10 3 16
D6 = 64.3 , que significa el 60% de la distribución.
PERCENTIL 50 5050 ( ) 20 3 P50 = 62.5 + 100 16
P50 = 63.4, que significa el 50% de la distribución.
PERCENTIL 75
P75
7550 ( ) 36 3 = 65,5 + 100 9
P75 = 66, el cual representa el 75% de la distribución
91 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
EVALUACION SOBRE LA UNIDAD 3.0 3.1
Los siguientes son los niveles de glucosa en la sangre extraída a 10 niños en ayunas.
NUMERO 1 2 3 4 5
Calcular :
3.2
a. b. c. d.
VALOR 56 62 63 65 65
3.3
VALOR 65 65 68 70 72
La media La mediana La moda Hacer una tabla de frecuencia y sacar conclusiones.
El 31 Diciembre de 1986, nacieron 10 bebes en el Hospital, sus pesos en kg fueron: 7, 8, 8, 6, 4, 9, 10, 11, 8, 9
a. b. c. d. e. f.
NUMERO 6 7 8 9 10
Calcúlese:
La media La mediana Moda Compárense estos valores, ¿qué opina? Media geométrica Media armónica Los siguientes son los pesos de 10 animales que están sometidos a un procedimiento quirúrgico experimental.
92 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
NUMERO 1 2 3 4 5
PESO (KG) 13,2 15.4 13.0 16.6 16.9
NUMERO 6 7 8 9 10
PESO (KG) 14.4 13.6 15.0 14.6 13.1
Encontrar : a. b. c.
La media La mediana La moda
3.4.
Los pesos (kg) de 14 niños atacados por polio entre 3 a 4 meses son los siguientes:
16.1, 15.9, 15.8, 16.3, 16.2, 16.0, 16.1, 15.9, 16.0, 16.1, 16.0, 15.9, 16.1. Calcular : a. b. c. d. 3.5
3.6
Hacer una tabla de Frecuencia La media La mediana La moda
Hallar la media geométrica de los números a.
5,5,8,3,7,2
b.
28, 5, 73, 6, 47, 2, 31, 5, 64, 8
Hallar la media geométrica y la media aritmética de los números 2, 4, 8, 16, 32
3.7
Hallar la media armónica de los números
a.
2, 3, 6
b.
3, 4, 8, 6, 1, 4, 2
93 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
3.8
Hallar la media aritmética, geométrica y la media armónica de los números 0, 2, 4 y 6
3.9.
Hallar la media geométrica de los números:
a. b.
4.2, 5.8,
16.3, 5.4 4.7, 3.9,
7.7
3.10 Hallar la media armónica de los números: a. b.
3.4 1.5
6.8 3.2
4.7 7.6
6.5 5.5
6.3
6.0
3.11 Hallar la media geométrica por el método del logaritmo a los siguientes números: a. b c.
1, 3, 4, 7 6, 7, 3, 1 4, 2, 1
3.12
Calcular la media geométrica por los dos métodos y comparar el resultado de los siguientes números: 1, 3, 4, 7 1.5, 3.2, 4.5 8, 9, 7, 5, 4
a. b. c.
3.13 El salario anual pagado a todos los empleados de una compañía fue de $ 500.000. Los salarios medios anuales pagados a hombres y mujeres de la compañía fueron $ 520.000 y $ 420.000 respectivamente. Determinar el porcentaje de hombres y mujeres empleados en la compañía. 3.14 Los tiempos de reacción de un individuo a determinados estímulos fueron 0.53, 0.50, 0.46, 0.52, 0.44, 0.55 segundos, respectivamente. Determinar el tiempo medio de reacción del individuo a los estímulos. 3.15 Mediante la fórmula empírica: Media - Moda = 3 (Media - Mediana); comprobar esta fórmula mediante un ejercicio propuesto por usted.
94 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
3.16 Hallar dos números cuya geométrica es 7.2
media aritmética es 9.0 y cuya
media
4.17 Diga cuáles son las relaciones existentes entre las medidas de tendencia central? 3.18 Diga 3 ventajas y 2 desventajas de la media aritmética. 3.19 Diga 2 ventajas y 2 desventajas de la mediana 3.20 Diga 2 ventajas y 3 desventajas de la media geométrica 3.21 Diga 2 ventajas y 3 desventajas de la Moda ó la Modal 4.22 En un laboratorio existen 10 empleados cuyas edades son: 20, 21, 20 20, 34, 22, 24, 27, 27 y 27. a. b. c.
Calcular la moda Calcular la mediana Calcular el promedio de edades
4.23 La siguiente tabla contiene datos acerca de la contaminación del aire, que fueron proporcionados por 57 grandes ciudades.
95 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
Partículas de materia en suspensión ( microgramos por metros cúbico) en muestra de aire tomadas en 57 grandes ciudades. CIUDAD 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
VALOR 68 63 42 27 30 36 28 32 79 27 22 23 24 25 44 65 43 25 74 51
CIUDAD 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
VALOR 36 42 28 31 28 25 45 12 57 51 12 32 49 38 42 27 31 50 38 21
CIUDAD 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57
VALOR 16 24 69 47 23 22 43 27 49 28 23 19 46 30 43 49 12
Con dichos datos: a. b. c. d. e. f. g.
Construir una tabla de frecuencias utilizando intervalos adecuados Determinar la mediana Determinar la moda Calcular los cuartiles e interpretar el significado de cada uno Hallar el segundo y quinto decíl Hallar el 20º, 50º y 75º percentil. Hacer un histograma de los datos.
96 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
3.24 Los siguientes son los niveles de glucosa en la sangre extraída 100 niños en ayunas: 55 50 65 66 69 68 65 72 73 67
61 57 72 61 64 71 60 73 74 56
57 61 65 69 66 72 65 73 68 67
77 57 61 76 65 58 80 75 59 62
62 67 68 72 65 73 66 75 69 65
75 62 73 57 76 55 80 74 55 75
63 69 65 75 65 73 68 66 67 62
55 67 62 68 58 79 55 68 65 63
64 68 75 81 65 81 66 73 67 63
Con dichos datos: Preparar una distribución de frecuencias utilizando intervalos adecuados y Hallar: a. La media b. La mediana c. La moda d. El 2°. y 3° Cuartil e. El 5°. y 7° Decil f. 50° y 76° Percentil
60 59 80 64 64 56 71 65 63 59
97 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
4.25 Las pagas en dólares semanales de 200 estudiantes que trabajan parte de su tiempo se distribuye así: PAGAS 77.5 82.5 87.5 92.5 97.5 102.5 107.5 112.5 117.5 122.5 127.5
82.5 87.5 92.5 97.5 102.5 107.5 112.5 117.5 122.5 127.5 132.5
NUMERO DE ESTUDIANTES 5 12 13 22 30 35 32 20 15 10 6
Determinar : a b. c. d. e. f.
La media La Moda 2º cuartil 5º. Decil 50° percentíl Comparar los resultados anteriores y sacar su propia conclusión.
98 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
3.26 Las cantidades en miles de pesos, destinadas por un total de 40 familiar a diversiones, tales como cine, teatro y otros espectacular públicos durante un período de tiempo determinado, fueron los siguientes: 16, 15, 14, 12, 24, 20, 17, 18, 13, 14, 16, 16, 18, 10, 9, 11, 11, 12, 19, 20, 26, 21, 17, 17, 15, 13, 14, 14, 12, 9, 13, 10, 12, 15, 11, 14, 16, 17, 15, 22 a. b. c. d. e. f. g.
Agrupar dichos datos en una tabla de frecuencias en intervalos adecuados. Determinar la media Determinar la moda Hallar el 1o . cuartil Hallar el 6o. decil Hallar el 24 percentíl Representar los datos en un diagrama de línea.
3.27 Las alturas de un grupo de 100 personas ordenadas en sentido crecientes, son las siguientes. 1.61 1.68 1.69 1.71 1.72 1.76 1.80 1.86 1.93
1.63 1.68 1.69 1.71 1.72 1.76 1.80 1.86 1.94
1.65 1.68 1.70 1.72 1.72 1.76 1.81 1.87 1.94
1.66 1.68 1.70 1.72 1.72 1.77 1.81 1.87 1.96
Se pide hallar: a. b. c. d. e. f.
La media La mediana La moda El 3o. Curtíl El 9o . decíl El 18o. percentíl.
1.67 1.68 1.70 1.72 1.74 1.77 1.81 1.88
1.67 1.68 1.70 1.72 1.75 1.77 1.82 1.88
1.67 1.68 1.70 1.72 1.75 1.77 1.82 1.90
1.67 1.68 1.70 1.72 1.75 1.78 1.82 1.90
1.67 1.68 1.70 1.72 1.75 1.78 1.83 1.90
1.67 1.68 1.70 1.72 1.75 1.78 1.83 1.91
1.67 1.69 1.70 1.72 1.75 1.80 1.85 1.92
1.67 1.69 1.71 1.72 1.76 1.80 1.85 1.93
99 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
3.28 La distribución del sueldo mensual de 100 empleados Departamento de una fábrica es, por categoría, la siguiente: CATEGORÍAS SUELDOS No EMPLEADOS 8a. 7a. 6a 5a 4a 3a 2a 1a.
25.000 ---- 27.999 28.000 ---- 30.999 31.000 ---- 33.999 34.000 ---- 36.999 37.000 ---- 39.999 40.000 ---- 42.999 43.000 ---- 45.999 46.000 ---- 48.999
del
5 12 15 25 15 14 10 4
S e pide calcular: a. b. c. d.
La media La moda La mediana Representar los datos en un histograma de frecuencia.
3.29 La dirección de una empresa dice, que el salario promedio de los trabajadores es mayor de 1000 semanales y, en consecuencia, se rehusó a aumentar los salarios. El sindicato encontró que la distribución de los salarios es la siguiente: CLASE D C B A
INTERVALOR 500 - 100O 1000 - 1500 1500 - 2000 2000 - 2500
Fi 120 50 20 10
En qué forma sugiere usted que el sindicato pueda discutir con los Directores?
100 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
3.30 Suponga que los salarios semanales pagados por una compañía son los siguientes:
DIRECTORES SUPERVISORES INGENIEROS OBREROS
2 5 3 120
10.000 6.000 5.000 2.000
Cuál de los dos: El salario promedio o el salario modal, es más representativo?. Calcule los salarios promedios y modal.
101 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
UNIDAD 4.0 MEDIDAS DE DISPERSIÓN OBJETIVO DE LA UNIDAD: Enfatizar la importancia de calcular medidas de dispersión que complemente el cálculo de la media aritmética.
CONTENIDO: 4.1 Varianza 4.1.1 Propiedades 4.1.2 Corrección de Shepard 4.2
Rango o recorrido
4.2.1 Características 4.3
Desviación Típica o Estándar
4.3.1 Propiedades 4.4
Coeficiente de variación
4.4.1 Característica 4.5
Puntaje Típico o estandarizado
4.6
Recorrido intercuartilico
4.7
Desviación Mediana
4.8
Desviación Media Evaluación de la unidad.
102 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
4.0 MEDIDAS DE DISPERSIÓN: Son medidas que se emplean para determinar el grado de variabilidad o de dispersión de los datos con respecto a un promedio. También se llaman medidas de dispersión a los valores estadísticos que proporcionan una idea acerca de como se agrupan los datos de una distribución con respecto a los valores centrales de la misma. Las medidas de dispersión son: Varianza desviación Típica o Estándar Desviación media Desviación mediana Coeficiente de variación Puntaje típico o estandarizando Recorrido intercuartilico 2
4.1 LA VARIANZA ( S )
Es la más importante de las medidas de dispersión y es la más conocida y usada. La varianza se define como la media aritmética de los cuadros de las desviaciones respecto a su media. La varianza es importante porque da origen a la desviación típica o estándar. 2
La varianza se simboliza de muchas formas pero la más común es S . La fórmula para calcular la varianza es :
n
2 S =
_
2
(X X )
i1
n
=
Z n
2 i
para datos no agrupados.
103 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
n
2
S =
2 =
S
_
(X
i
i 1
X )2
f
i
para datos agrupados.
n
Z
2 i
n
. fi
Si estas formulas de la varianza la dividimos entre n – 1, en lugar
de n, estamos calculando la denominada cuasívarianza.
Para calcular la varianza de una serie de datos sin agrupar se debe proceder así: a.
Calcular la media aritmética del conjunto de datos.
b.
Calcular la desviación ( x - x ) = Z, entre cada dato y la media de la distribución.
c.
2 Calcular el cuadrado ( x - x ) de estas desviaciones.
d.
2 Sumar ( X - x ) estos cuadrados.
e.
Dividir la suma por el número de datos.
_
_
_
En caso de que los valores estén agrupados por efectivos entre el 3 y 4 _
punto debe ir un nuevo paso: Multiplica los cuadros; ( x desviaciones por sus efectivos respectivos.
x )
2
de las
En caso de que los valores de la variable estén agrupados por intervalos y efectivos, se buscan los puntos medios de cada intervalo y se procede igual que en el anterior caso. 4.1.1 PROPIEDADES DE LA VARIANZA . 4.1.1.1
2 Debe ser siempre un valor positivo s 0
4.1.1.2
La varianza de una constante es igual a 0
4.1.1.3
La varianza de una constante mas una variable es igual a la varianza de la variable.
104 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
4.1.1.4
La varianza de una constante por una variable es igual al producto de la constante al cuadrado por la varianza de la variable.
4.1.1.5
Para el cálculo de la varianza de una muestra, cuando se trabaja con submuestras, se aplica la siguiente fórmula. 2
2
S =
2
sn sn n n 1
1 1
2
2
...
2
4.1.2 CORRECCION DE SHEPPARD PARA LA VARIANZA No obstante, al estudiar cada intervalo por el valor central del mismo, se comete un error sistemático que conviene corregir, especialmente cuando la longitud de los intervalos (A) es grande en comparación con la raíz cuadrada 2 (s) de la varianza (s ). Para curvas de frecuencia uní modales (moda única) y en la que los efectivos disminuyen tendiendo a cero en los dos extremos del eje x (abcisas) se puede aplicar la siguiente corrección: 2
2
2
S (corregida) = S ( sin corregir ) - A / 12 Esta corrección no necesita ser efectuada cuando la longitud del intervalo es inferior a la mitad de la raíz cuadrada de la varianza. Los estadísticos difieren en lo que se refiere a cuándo y si debe aplicarse la corrección de SHEPPARD, ciertamente no debe aplicarse sin haber hecho un examen completo de la situación; estos se debe a que frecuentemente se tiende a sobre corregir y así sustituir unos errores por otro. En este trabajo, a menos que se indique lo contrario, esta corrección no es empleada. 4.2.
RANGO O RECORRIDO ( OSCILACIÓN)
El rango de un conjunto de número es la diferencia entre el mayor y el menos de todos ellos.
R = Xmáx -
Xmin
105 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
Ejemplo: El Rango de los números 2,2,3,5,5,7,7,8,12, se puede enunciar denotando sus extremos o su diferencia así:
R = Xmáx R
= 12
-
Xmin 2 = 10
4.2.1 CARACTERÍSTICAS.
El rango no es sensible a cambios en los datos, solamente lo es en puntuaciones extremas, razón por la que no es una medida de dispersión confiable.
Es la más fácil de calcular.
Para datos agrupados existen dos métodos para calcular el rango:
El rango es la diferencia entre la marca de clase de la clase superior y la marca de clase inferior. Tiene la ventaja de eliminar los datos extremos.
El rango es la diferencia entre el límite real superior de la clase más alta y el límite real inferior de la clase más baja. EJEMPLO 1: La siguiente tabla muestra las alturas de los estudiantes de una universidad. Hallar el rango. Altura (Pulgada) 60 - 62 63 - 65 66 - 68 69 - 71 72 - 74
No. de Estudiantes
Marca de clase
5 18 42 27 8
61 64 67 70 73
n = 100
106 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
1.
Rango R
2.
=
Rango
R
= marca de la clase superior - marca de la clase inferior 73 - 61 =
12 pulgadas
= Límite real superior de la clase más alta – límite real inferior de la clase más baja =
74.5 - 59.5 = 15 pulgadas
EJEMPLO 2
Hallar el rango de las series de números: 5, 3, 8, 4, 7, 6,12, 4, 3. Ordenando :
3 3 4 4 5 6 7 8 12 R = 12 - 3 = 9
EJEMPLO 3 Hallar el rango de: 8.772, 6.453,
10.624, 8.628,
9.434,
6.351
Ordenando : 6.351, 6.453, 8.628, 8.772 , 9.434, 10.624 R
= 10.624 - 6.351 = 4.273
EJEMPLO 4 La mayor de 50 pesadas es 8.34 kg si el rango es 0.46 kg hallar la pesada menor.
R = Xmáx -
Xmin
0.46 = 8.34 - Xmin
Xmin
= 8,34 - 0,46 = 7.88 kg.
107 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
4.3 DESVIACIÓN TÍPICA O ESTÁNDAR (S)
Se define como la raíz cuadrada de la varianza y también como la raíz cuadrática de las desviaciones respecto a la media. La desviación típica al igual que la varianza es también muy utilizada, desempeña un papel muy importante en el análisis de los datos estadísticos. La fórmula para calcular la desviación típica en datos no agrupados es
n
S=
_
(
i1
X
i
2
X )
n
Para datos agrupados la fórmula es más o menos similar
n
(X S=
i 1
_
i
X )2
f
i
n
4.3.1 Propiedades de la Desviación típica. n
4.3.1.1.
Está definida por una fórmula = S =
(X i 1
i
a )2
n
donde a es un promedio que puede ser diferente a la media aritmética. _
De todas las desviaciones típicas, la mínima es aquella para la cual a = X Para distribuciones normales resulta que el valor de la 4.3.1.2. desviación típica está a ambos lados de la media.
108 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
4.3.1.3 Suponiendo dos series de datos N1 Y N2 números o dos distribuciones de frecuencia con frecuencia totales N 1 y N 2 cuyas variaciones 2
_
2
vienen dadas por S 1 y S 2 y que tienen las mismas medidas entonces la varianza combinadas para ambas series está dada por
sn sn n n 2
2
1
S =
2
1 1
2
2
...
2
Esta es una media aritmética ponderada de las varianzas. Este resultado puede generalizares a 3 o más series de datos Ejemplo 1 Hallar la desviación típica de los siguientes números. 3, 6,
2,
1,
Ordenando: _
X =
_
-
5,
1, 2,
3,
5,
2
4) 2 4) 2 4) 2 4) 2 4) 2 4)
n
2
7,
2
2
= = = =
(- 3) 2 (- 2) 2 (-1) 2 (-1) ( 2 2) 2 (3)
=
=
SUMAS:
S =
6,
1 2 3 5 6 7 24 4 6 6
(X- X) (1 (2 (3 (5 (6 (7
7,
_
= = = = = =
9 4 1 1 4 9 28
2
(X X )
i1
n
= 28/6 = 4.6
X
109 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
n
_
(
i1
S=
X
i
2
X ) =
n
46 . 216 .
EJEMPLO 2 La desviación típica de los siguientes números 3.2, 4.6, 2.8, 5.2, 4.4 _
X =
28 . 32 . 44 . 46 . 52 . 202 . 404 . 5 5 _
(X- X)
2
2
(2.8 - 4.04 ) = 1.6376 2
(3.2 - 4.04) = 0.7056 (4.4 - 4.04) (4.6 -4.04)
2
2
= 0.1296 = 0.3136
2
( 5.2- 4.04) = 1.3456 SUMAS:
4.032
n
_
2 S =
(X X )
i1
=
n
n
S=
2
i1
_
(
X
i
n
4032 . 08064 . 5
2
X ) =
090 08064 . .
110 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
4.4 COEFICIENTES DE VARIACIÓN
Esta medida se obtiene dividiendo a la desviación típica por su media aritmética, expresándose el resultado en términos porcentuales. Este coeficiente se emplea cuando se desea comparar dos o más distribuciones, con el fin de determinar cuáles de ellas tiene mayor o menor variabilidad relativa. Se usa cuando las distribuciones están dadas en unidades de medidas diferentes, por lo tanto en estos casos, no se podrá comparar las varianzas o la desviación estándar; puede darse el caso de que las distribuciones estén expresadas en la misma unidad. La fórmula para calcular el coeficiente de variaciones es :
Cv
S =
_
.100
X
4.4.1 CARACTERISTICAS DEL COEFICIENTE DE VARIACION 4.4.1.1. Este coeficiente deja de ser útil cuando la media está próxima a cero. 4.4.1.2 Es independiente de las unidades? 4.4.1.3. Generalmente se expresa en porcentajes. EJEMPLO 1 Un grupo de obreros tienen un salario promedio de $ 26.800 y varianza $ 14.400.oo. Otro grupo de obreros que trabajan en un país diferente tienen un salario promedio de Bs 8.570 y una desviación típica de Bs 80. Se quiere determinar cuál grupo variabilidad.
de salarios presenta una menor
111 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
Solución. En este caso no se pueden comparar las varianzas ni las desviaciones típicas, debido a que unos reciben en pesos y otros en Bs, la mejor forma de comparar estas dos distribuciones es mediante el uso del coeficiente de variación:
CV1 =
120 044% 00044 . . 26800
CV2 =
80 093% 00093 . . 8570
En conclusión se puede decir que los salarios para el grupo de empleados (obreros) del primer país presentan una menor variabilidad.
EJEMPLOS 2 _
_
Dos distribuciones cuyas medias aritmética: X = 24.5 y X = 30 y cuyas desviaciones típicas o estándar son idénticas S 1 = 2 y S 2 = 2 indicando este hecho que tienen el mismo grado de variación absoluta. CV1 =
2 816% 00816 . . 245 .
Cv2 =
2 666% 00666 . . 30
EJEMPLO 3. Para un conjunto de datos se obtuvo $ 9.200 como promedio de ingreso mensual y una desviación típica de 10.100. Lo primero que podemos decir que la desviación típica es demasiado grande.
112 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
Ahora si calculamos su coeficiente de variación se tendrá. Cv =
10100 10978% 10978 . . 9200
4.5.
PUNTAJE TÍPICO O STANDARIZADO (Z)
Es muy utilizado en la distribución normal y en análisis del coeficiente de correlación, mide la desviación de una observación con respecto a la media aritmética, en unidades de desviación típica, determinándose la posición relativa de una observación dentro del conjunto. También es muy utilizado como variante estadístico, por lo general es simbolizada por (z), sin embargo en casos especiales se puede simbolizar por (T). La formula utilizada para calcular el puntaje típico es: _
Z=
X
X S
_
ó
T=
X
X S
CARACTERISTICA: Sirve para comparar dos o más datos individuales, aunque pertenezca a diferentes distribuciones. Ejemplo: Un obrero realiza tres operaciones dentro del trabajo: La primera la realiza en 72 minutos, la segunda en 85 y la tercera en 52 minutos; el promedio de duración para realización de cada operación el 85, 90 y 58 minutos respectivamente. Además las respectivas desviaciones Estándar fueron 7, 3 y 7; se requiere ordenar las operaciones realizadas por el obrero, de acuerdo con su mayor capacidad para la ejecución.
113 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
Solución: _
X1 = 72
X = 85
X2 = 85
X = 90
X3 = 52
X = 58
S1 = 7
_
S2 = 3
_
S3 = 7
_
Z=
X
X S
Z1 = 72 - 85 7
= - 13 7
= -1.85
Z2 = 85 - 90 = -5 3 3
= -1.66
Z3 = 52 - 58 7
= -0.86
= -6 7
Ejemplo 2. En una encuesta sobre aceptación de dos productos en el mercado se obtuvieron los siguientes datos: _
Producto
A,
X = 85 _
Producto B,
X
= 78
s
2
= 12
2
S = 20
Se midieron puntajes particulares 82 y 86 para los productos A y B. Cuál de los productos tuvo mayor aceptación.
114 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
_
Z= ZA =
ZB =
X
X S
82 85 3 025 . 12 12
86 78 8 04 . 20 20
Lo cual nos permite decir que tuvo mayor aceptación el producto B ya que su puntaje típico es mayor. 4.6
EL RECORRIDO O RANGO INTERCUARTILICO.
Se define como la diferencia entre el tercer y el primer cuartil de los cuartiles de una distribución.
QD2
= Q3 - Q 1
El rango intercuartílico Q3 - Q1 se emplea a veces pero el rango semicuartílico es más utilizado como medida de dispersión. Rango Semicuartilico.
QD2=
Q
3
Q
1
2
Se comprende que cuanto mayor sea la desviación intercuartílico, más dispersos (menos concentrados) están los valores de la distribución.
115 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
Ejemplo: En la siguiente tabla de datos agrupados, los cuales representan el recorrido en kilómetros de 208 familias desplazadas:
INTERVALO(Km)
Fi (F/lias)
Fa
30 - 38
6
6
38 - 46
14
20
46 -
54
36
56
54 - 62
50
106
62 -
70
43
149
70 -
78
32
181
78 -
86
18
199
86 -
94
9
208
N = 208
se tiene:
52 20 Q1 = 46 + 36 8 Q1 = 53.11: El 25% de las familias recorrieron menos de 53 Km.
156 149 8 Q3 = 70 + 32 Q3 = 71.75 : El 75% de las familias recorrieron menos de 71 Km.
116 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
QD 2= QQ3
1
2
=
7175 . 5311 . 932 . 2
4.7 DESVIACIÓN MEDIANA (Dm)
Se define como la media aritmética de las diferencias en valor absoluto, entre los valores que toma la variable y la mediana. Es una medida de dispersión poco utilizada y su mayor uso corresponde a aquellas distribuciones cuyos valores extremos no están definidos o cuando el promedio esta afectado por valores grandes de la variable que obliga a calcular la mediana. FORMULAS: n
X i 1
Dm =
i
Me .f
n n
X i 1
Dm =
i
n
i
para datos agrupados.
Me para datos no agrupados.
Valor de la Dm puede ser menor o igual a la desviación media, la que a su vez es siempre menor que la desviación típica. Dm MD S
4.8 DESVIACIÓN MEDIA.
También llamada desviación media absoluta o promedio de desviación. Se denomina desviación media aritmética de los valores absolutos de las desviaciones. Para calcular la desviación media se ha de proceder de modo siguiente:
117 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
4.8.1 Valores no agrupados. _
4.8.1.1 Calcular la media ( X ) de la distribución de datos _
4.8.1.2 Calcular la desviación de datos ( X - X ) entre cada dato y la media. 4.8.1.3 Calcular el valor absoluto de cada valor. _
X X 4.8.1.4 Sumar Los Valores Absolutos de las desviaciones. _
X X
4.8.1.5 Dividir esta suma por el número de datos.
FORMULAS: n
_
X
X i
i 1
M.D =
para datos no agrupados.
n n
X i 1
M.D =
_
i
X .f n
i
para datos agrupados.
Se le considera como una de las medidas de dispersión más fáciles de calcular, siendo utilizada en la mayoría de los casos con el único fin de agilizar las operaciones, por ello al resultado se le considere como una aproximación a la cuantificación de la dispersión.
118 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
4.9 ERROR ESTÁNDAR: Se obtiene dividiendo la desviación típica por el tamaño de la muestra.
S
e
=
n 4.10 ASIMETRIA: En una distribución se tiene que: La distribución es simétrica si: La media aritmética = a la mediana = a la moda _
X = Me = Mo Cuando la media es menor que la mediana y esta menor que la moda, la distribución es asimétrica negativa. _
X Me Mo Si la media es mayor que la mediana y esta mayor que la moda, la distribución es asimétrica positiva. _
X Me Mo
Las formulas para calcular el grado de asimetría, entre otras son:
El coeficiente de Pearson:
La medida de Bowley:
A
A
*
Q
Mo S
X
3
Q
Q
1
3
2 Me
Q
1
119 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
4.11CURTOSIS: Indica si la distribución está más o menos apuntada que la distribución normal. Un valor mayor que cero indica que está más apuntada(forma puntiaguda),un valor igual a cero indica mismo apuntamiento que la normal, un valor menor que cero indica menos apuntada(aplanada). Los términos usados son: Normal – Mesocúrtica Aplanada – Platicúrtica Puntiaguda – leptocúrtica. Ejemplo: La siguiente tabla muestra la lectura sobre el volumen de tráfico y la concentración de monóxido de carbono en un punto de muestreo de la calidad del aire en una ciudad.
VALORES DE TRAFICO 0 - 20 20 - 40 40 - 60 60 - 80 80 - 100 100 - 120
Co ( PPM) 30 25 15 13 12 5
Se pide calcular: Su media, varianza, desviación típica coeficiente de variación y desviación media. Solución: En la solución de esta clase de ejercicios es importante que tratemos de agrupar en una tabla los pasos necesarios para calcular cada medida de dispersión.
120 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
VOLUMEN DE TRAFICO Y CONCENTRACIÓN DE MONOXIDO DE CARBONO INTERVALOS
0
Xi
Fi
_
XI . FI
X
Xi-
_ (Xi -
X)
_ 2
F(Xi
2
X)
_
F
X X
- 20
10
30
300
-33.4
1115.56
33466.80
1002
20 - 40
30
25
750
-13.4
179.56
4489.0
335
40 - 60
50
15
750
6.6
43.56
653.4
99
70
13
910
26.6
707.56
9198.28
345.8
90
12
1080 46.6
2171.56
26058.72
559.2
110
5 550 66.6 N=100 4340
4435.56
22177.8 96044.0
333 2674
60 - 80 80 - 100
100 - 120 Sumas
n
_
1. Calculamos la media:
X
XF.
i 1
n
2
_ X X i 1 n n
2. La varianza:
S
2
=
3. La desviación típica o estándar:
f
i
96044 960.4 100
. 3099 . 31 S = varianza 9604 S
4. El coeficiente de variación:
4340 434 . 100
31 . 100 .100 714% . Cv = 434 . X _
121 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
n
5. La desviación media: M.D =
6. Error estándar:
e
i 1
n
S =
= 31/100 = 0.31
n 7.
_
X Xf
2674 2674 . 100
122 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
EVALUACION DE LA UNIDAD No 4 4.1
Hallar el rango de las series de números: a) b.)
4.2
5, 3, 8, 4, 7, 6, 12, 4, 3 8.772, 6.453, 10.624, 8.628, 9.434, 6.351.
La mayor de 50 pesadas es 8.34 Kg si el rango es 0.46 kg, hallar la pesada menor
Sumando 4 a cada uno de los números de la serie: 2, 6, 5, 9, 1 se 4.3 obtiene la serie: 6, 10, 9, 5 y 13. Comprobar que ambas series tienen la misma varianza, distintas medias y diferentes coeficientes de variación. 4.4 Multiplicando por 4 cada uno de los valores de la variable X: 3, 2, 0, 5 se obtiene la serie Y: 12, 8, 0, 20; comprobar que ambas series tienen el mismo coeficiente de variación. 2
4.5 Sean los números 1, 2 y 3 y supongamos que su varianza es S 1, agregamos dos veces el número 2 y tendremos 1, 2, 2,,2,3, supongamos que 2 la varianza de este nuevo conjunto de números es S 2 . 2
2 1.
Es S 2 mayor o menor que S
4.6 Consideremos que en el Hospital A hay 30 pacientes, y 50 en el Hospital B. se pide calcular el coeficiente de variación para el total de los 80 pacientes. 4.7
Hallar las desviaciones medias de las series de los números: a) 3, 7, 9, 5 b) 2, 4, 1, 6, 3, 8, 4, 1, 3, 4.
4.8
Hallar la desviación típica de los números: a) 3, 6, 2, 1, 7, 5 b)3, 2, 4, 6, 2, 8, 5, 2, 4, 4 c) 0, 0, 0, 0, 0 1, 1, 1,
123 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
4.9
La siguiente tabla muestra la concentración de albúmina en el suero de 60 sujetos hospitalizados.
ALBÚMINA EN EL SUERO
0 1.0 2.0 3.0 4.0
-
N° DE SUJETOS
1.0 2.0 3.0 4.0 5.0
9 13 18 17 3
Se pide calcular el rango, la varianza, desviación típica y el coeficiente de variación, el Error estándar, la asimetría. 4.10 Se han tomado tres muestras de 50 ejemplares cada una de cachamas macropomus hembras, con el fin de realizar una investigación. Al efectuar el pesaje se encontró los siguientes datos, medidos en Kilogramos:
Xi Kilogramos
Muestra A
Muestra B
Muestra C
Fi
Fi
Fi
1.5 1.6 1.7 1.8 1.9 2.0 2.1
2 4 10 18 10 4 2
3 3 12 14 12 3 3
5 6 9 10 9 6 5
TOTALES
n = 50
n = 50
n = 50
Con los datos del cuadro anterior calcule: 1. La desviación media y la desviación típica o estándar en cada muestra 2. Cual de las muestras presenta mayor porcentaje de variabilidad 3. Que opinión le ofrece la media aritmética de las tres muestras
124 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
4.11 Los siguientes datos representan las edades de 120 Docentes de la concentración Escolar:
24
30
27
31
32
33
32
35
28
33
29
28
32
36
31
38
30
32
39
33
30
34
31
29
26
40
33
26
31
36
27
33
31
31
40
30
30
26
35
32
30
32
34
30
27
31
31
32
32
33
29
24
31
28
33
28
29
32
33
28
34
33
29
33
31
33
34
25
33
32
30
32
37
31
37
31
34
21
29
32
37
31
27
30
38
32
35
34
25
26
35
32
32
25
24
21
25
24
32
33
40
28
26
29
36
25
38
31
33
27
25
21
25
24
32
29
26
30
21
21
Con los datos anteriores: 1. 2. 3. 4. 5.
Haga una distribución de frecuencia usando intervalos adecuados Analice e interprete los intervalos 3° y 4° Que porcentaje de docentes tiene edad menor de 30 años Que porcentaje tiene edad mayor de 30 años Calcule y analice las medidas de dispersión vistas.
125 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
4.12 Los datos siguientes representan el peso(kilogramos) de 110 jóvenes: 56
61
57
77
62
75
63
55
64
60
60
57
57
67
62
69
67
59
59
65
72
65
61
68
65
62
75
80
66
61
69
76
72
57
75
68
64
69
64
66
65
65
76
65
58
65
64
68
71
72
58
73
55
73
79
81
56
65
60
65
66
80
68
55
66
71
72
73
73
75
75
74
73
65
73
74
68
59
69
55
67
65
67
63
56
67
62
65
75
62
63
63
59
50
57
66
56
50
66
57
80
74
81
60
62
75
64
57
68
64
Con los datos anteriores: 1. Haga una distribución de frecuencias utilizando intervalos adecuados e interprete el intervalo que tenga la mayor frecuencia. 2. Calcule las medidas de tendencia central(media, mediana y moda) 3. Calcule la desviación media, varianza, desviación típica, el coeficiente de variabilidad y el error estándar.
126 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
UNIDAD Nº 5 REGRESIÓN Y CORRELACIÓN OBJETIVO DE LA UNIDAD: Desarrollar, tanto descriptiva como inferencialmente, los modelos de regresión lineal simple y de correlación, como un medio de utilizar una variable para predecir otra, y medir la intensidad de la asociación entre dos variables.
CONTENIDOS: 5.1 Introducción a la bidimensionalidad 5.2 Relación entre dos variables 5.3 Regresión 5.4 Teoría de la correlación 5.5 Error típico de la estima 5.6 Variación explicada y no explicada 5.7 Coeficiente de correlación 5.8 Correlación gradual Evaluación de la unidad.
127 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
5.1 INTRODUCCIÓN A LA BIDIMENSIONAL En los casos anteriores veníamos analizando casos en los cuales intervenía una sola variable, la cual llamábamos distribuciones unidimensional, el procesos que seguíamos consistía en ordenar y concentrar la información en tablas elaborando gráficas y aplicando una serie de medidas, buscando con ello la mejor forma de describir ciertas características para así tener una idea aproximada de la situación real de un fenómeno, cumpliéndose, en parte una de las finalidades de la estadística. En esta unidad se harán consideraciones respecto a distribuciones bidimensionales, o sea, el estudio del comportamiento de dos variables, para determinar si existe alguna relación funcional entre si, causa y efecto, además de cuantificar dicho grado de relación. Estas dos variables deben ser analizadas simultáneamente, no en forma separada. Son ejemplo de distribuciones bidimensionales, variables como : producción y consumo, venta y utilidades, costo y venta, etc. Ambas variables pueden ser discretas o continúas, también una de ellas discretas y la otra continua.
5.2. RELACIÓN ENTRE DOS VARIABLES Al analizar los datos para las ciencias de la salud, con frecuencia se encuentra que resulta conveniente saber algo acerca de la relación entre dos variables por ejemplo, es posible que se tenga interés en estudiar la relación entre la presión de la sangre y la edad, la estatura y el peso, la concentración de un medicamento inyectado y la rapidez de los latidos del corazón, el nivel de consumo de algún nutriente y la ganancia en peso, la intensidad de un estímulo y el tiempo de reacción, o bien, el ingreso total familiar y los gastos médicos. La naturaleza y la intensidad de las relaciones entre variables como éstas pueden examinar por medio del análisis de regresión y correlación. 5.2.1 REGRESIÓN Y CORRELACIÓN : Dos técnicas estadísticas que aunque
relacionadas, tienen propósito diferentes. La clase de relación que puede existir entre dos variables puede ser
128 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
5.2.1.1 Dependencia causal unilateral : Esta relación seda cuando una de las variables influye en la otra pero no al contrario 5.2.1.2 Interdependencia: Se presenta cuando la influencia entre las dos variables es reciproca. También se podría decir que es un caso de dependencia bilateral . Dos variables pueden mostrar cierta 5.2.1.3 Dependencia Indirecta : relación a través de una tercera variable que influye en ellas. Se presenta por lo general en dos variables 5.2.1.4 Concordancia : independientes a las que se les determina o cuantifica la correlación que podría existir. 5.2.1.5 Covariación casual : Cuando la correlación entre las dos variables es casual o accidental. 5.2.2
PRESENTACIÓN DE LOS DATOS
Para ordenar los datos de una distribución estadística de dos variables, cuando hay muchas observaciones, se construye una tabla de doble entrada. En la primera fila se sitúan los valores X i ( donde i toma valores desde 1 hasta n, siendo n el número de pares de observaciones ) y con Y i, simbolizamos la segunda variable. Se tendrá tantos valores de X i Y i , como pares de observaciones tengamos, en tal forma que el valor de X 1 guarda relación con el de Y1 , y el de X2 y con el de Y2 y así sucesivamente.
129 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
130 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
Xi
X1
X2
.............................. XL................................. XK
nJ
Yi Y1
n11
n21
Y2
n12
n22
ni1
nK1
n.1
ni2
nK2
n.2
.
.
.
.
.
.
.
.
.
YJ
n1J.
n2J
n1L
n2L
niL
nKL
n.J . . . nL
n1
n2
ni
nK
n
.
.
.
.
YL
ni
niJ
nKJ
.
Xi
Yi
X1 . . . . . .
Y1
Xn
Yn
. . . . . .
EJEMPLO : Se ha realizado un experimento para investigar el efecto del opio y la marihuana en actividad alucinatoria. Ambas variables independientes tienen dos factores o categorĂas : fumar y no fumar. Se a signaron al azar 7 individuos a cada nivel, y se empleo una escala de actividad alucinatoria de manera tal que un valor elevado indica una mayor cantidad de alucinaciones.
131 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
Los resultados obtenidos están indicados así : FUMARON OPIO FUMARON NO FUMARON MARIHUANA MARIHUANA 7 7 7 6 6 5 4 42
5 5 4 4 3 3 3 27
NO FUMARON OPIO FUMARON NO MARIHUANA FUMARON MARIHUANA 6 3 5 2 5 2 4 1 4 1 4 0 3 0 31 9
Elaborando una tabla de doble entrada, los datos quedarían así:
OPIO
MARIHUANA
SI
NO
TOTAL
SI
42
31
73
NO
27
9
36
69
40
109
TOTALES
5.3.
REGRESIÓN
El término de “regresión “ es un término poco afortunado, aunque su uso continua como vestigio de algunas de las primeras aplicaciones del análisis estadístico a datos biológicos. Las ideas de regresión fueron aclaradas por primera vez por el científico ingles, Sir FRANCISCO GALTON hacia el final del siglo XIX, para expresar
132 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
la tendencia de la descendencia a “Regresar” a un valor medio de los atributos de los padres. Actualmente el análisis de regresión se emplea para denotar el procesos de estimar el valor de una de las variables en función de la otra, cuyo valor se considera dado. Cuando se estima el valor de X en función de Y, se habla de una regresión de x en y, y estaremos estimando la primera variable en función de la segunda. La regresión de y en x será dada cuando estimamos el valor para y, suponiendo conocido el valor de x. La regresión exige ajustar los puntos del diagrama de dispersión a una línea que permita estimar los valores del “ PREDICTANDO” ( variable que desea estimar ) , conocidos los del “ PREDICTOR” (variable conocida ). Las líneas de regresión de mayor aplicabilidad es la línea recta ; este método se denomina también ajuste a una recta o regresión rectilínea o recta de mínimos cuadros. La ecuación de la recta es :
Y = a0 + a1 X
Donde a 0 es el coeficiente de posición u origen de la ordena. Puede ser positiva, negativa o igual a cero. Como muestran las siguientes gráficas :
+ a0
ao = 0
-ao
a1 es el coeficiente angular . Determinar el crecimiento o aumento del predictando ( y ) por cada centímetro del predictor ( x ); también suele llamársele pendiente de la recta. Este puede ser positivo, negativo o igual a cero representando gráficamente así :
133 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
a1 0 Ascendente
a1 0
a1 = 0
Descendente
Cuando se estima y en función de x, la ecuación y = a así :
Paralela
0
+ a 1 x nos quedará
y = a0 N + a1 x xy = a0 x + a1 x2 X en función de y :
x = a0 N + a1 y xy = a0 y + a1 y2 5.3.1. EL MODELO DE REGRESIÓN : El problema típico de regresión, como en la mayoría de los problemas de la estadística aplicada, el investigador cuenta para el análisis, con una muestra de observaciones de una población real o hipotética. Basado en los resultados de sus análisis de los datos de la muestra , tiene interés en llegar a decisiones acerca de la población de la cual se supone que se ha extraído
134 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
la muestra por lo tanto es importante que el investigador comprenda la naturaleza de la población en la que está interesado. Debe conocer lo suficiente acerca de la población, para ser capaz de construir un modelo matemático que la represente, o bien , determinar si se ajusta razonablemente a algún modelo establecido. Un investigador, que va a analizar un conjunto de datos por los métodos de la regresión lineal simple, por ejemplo, debe tener la seguridad de que el modelo de regresión es, al menos una representación aproximada de su población.
5.4
TEORÍA DE LA CORRELACIÓN
Se denomina correlación al grado de relación de interdependencias, que existe entre dos variables, o más, que se estudia para determinar en que medida una ecuación lineal o de otro tipo describe ó explica de una forma adecuada la relación entre variables. Si todos los valores de las variables, satisfacen exactamente una ecuación, se dice que las variables están correlación perfectamente o que existe una correlación perfecta entre ellas. Así, la circunferencia C y los radios r de todos los círculos están correlacionados perfectamente, puesto que C = 2 r.
Si lanzamos simultáneamente dos dados 100 veces, no hay relación entre los puntos correspondientes de cada dado, es decir no están correlacionados. Las variables altura y peso de los individuos muestran ciertas correlación. Cuando se trata de dos variables solamente, se habla de correlación SIMPLE y de regresión SIMPLE. Cuando se trata de más de dos variable se habla de correlación MÚLTIPLE y de regresión MÚLTIPLE. 5.4.1. CORRELACIÓN LINEAL.
Si X e Y representan las dos variables que se consideran, un “diagrama de dispersión “ muestra la localización de los puntos ( x,y ) en un sistema de coordinadas rectangulares. Si todos los puntos en este diagrama de
135 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
dispersión parecen encontrarse cerca de una recta, se dice que existe correlación y es lineal ; si Y tiende a disminuir cuando se incrementa X, se dice que existe correlación POSITIVA o correlación DIRECTA, si Y tiende a disminuirse cuando se incrementa X, la correlación se dice NEGATIVA o correlación INVERSA. Si todos los puntos parecen estar cerca de una curva, la correlación se dice NO LINEAL y una ecuación no lineal es apropiada para la regresión o estimación. Es evidente que una correlación no lineal puede ser a veces positiva o a veces negativa. Si no hay ninguna correlación o relación entre las variables, se dice que no hay CORRELACIÓN entre ellas.
Correlación lineal Positiva
Correlación lineal Negativa
No hay correlación
5.4.2 RECTAS DE REGRESIÓN DE MÍNIMOS CUADRADOS
Se consideran en primer lugar el problema de la bondad conque una línea recta explica la relación entre dos variables. Para ello son necesario las ecuaciones de las rectas de regresión, como se vio, la recta de regresión de y sobre x es : Y = a0 + a1 X Donde a0 y a1 de obtienen de las ecuaciones normales. y = a0 N + a1 X
136 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
XY = ao X + a1 x2 Las cuales las podemos reducir a:
a
( Y )(
X ) ( X )( N X ( X )
0
a
2
2
1
XY )
2
N XY ( X )( Y ) 2 ( X ) 2 N
X
Análogamente, la recta de regresión de x sobre y está dada por: X = b0 + b 1 Y Donde b0 y b1 se obtienen de las ecuaciones normales x = b0 N + b1 y xy = b0 y + b1 y2 . Las que reduciremos a:
( X )( Y ) ( Y )( XY ) 2
b
0
N
Y
2
( Y ) 2
137 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
b
1
N
XY ( X )( Y ) 2 2 N Y ( Y )
Las ecuaciones : y = a0 + a1 x y x = b0 + b1y Pueden también escribirse respectivamente como : XY X Y X 2
y
XY Y X Y 2
_
Donde :
X x x
_
Y yy
y
Las ecuaciones de regresión son idénticas , si y solamente sí, todos los puntos del diagrama de dispersión se encuentran sobre la recta. En tal caso, hay una correlación lineal perfecta entre X e Y
5.5
ERROR TÍPICO DE LA ESTIMA
Si Yest. representa el valor de Y estimado, de y = a 0 + a 1 x para los valores de X dados, una medida de dispersión al rededor de la recta de regresión de Y sobre X viene dada por :
S
yx
(y y
2
) est.
N
Que se llama “ error típico de la estima “ de y sobre x. Si es la recta de regresión :
138 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
X = b0 + b1y Se obtiene análogamente el error típico de la estima de x sobre y, que queda definido por :
s En general ,
xy
( x x est )
2
N
Syx S xy
La ecuación :
S
yx
(y y
2
) est.
N
Pueden escribirse así :
y a y a xy sx 2
0
1
N
Que pueda ser más adecuada para el cálculo. Una expresión similar se obtiene para :
s
xy
( x x est ) N
2
139 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
s
2 xy
2 x b 0 x b1 xy
N
El error típico de la estima tiene análogas propiedades a las de la desviación típica, por esos algunos autores o estadísticos prefieren sustituir en las anteriores ecuaciones a N por : N - 2
5.6
VARIACIÓN EXPLICADA Y NO EXPLICADA. _
2 La variación total de y se define como ( y - Y ) es decir, la suma de los cuadrados de las desviaciones de los valores de y de su media y esto puede escribirse así : _
_
( y - Y )2 = ( y - yest. )2 + ( yest. - Y )2 El primer término del segundo miembro se llama VARIACIÓN NO EXPLICADA, mientras el segundo término se llama VARIACIÓN _
EXPLICADA, y esto es así, porque las desviaciones. Yest Y tienen un patrón definido, mientras que las desviaciones : y - y est. se comportan de una forma aleatoria o no previsible. Resultado análogo se obtiene para la variable x. _
(x x) (x x 5.7
2
_
2 ) ( x ) est xest 2
COEFICIENTE DE CORRELACIÓN
Fue propuesto por primera vez por A. BRAVAIS y PEARSON , éste nos da un número abstracto que representa una medida cuantitativa de que también están correlacionados los dos valores, y que se pueden utilizar para estimar el significado estadístico de la correlación aparente. “r” y su expresión El coeficiente de correlación se representa por la letra matemática es:
140 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
r
var iacion exp licada var iaciontotal
r
(y ( y y)
_
y)2
est
_
2
Utilizando :
S
yx
(y y
) est.
2
N _
_
( y - Y )2 = ( y - yest. )2 + ( yest. - Y )2
y el hecho que la desviación típica de y es
r
1
s s
s
y
_
2 ( y y)
N
,
2 yx 2 y
ó
s
yx
s
y
1r
2
Sin tener en cuenta el signo ; ecuación similar se obtiene cuando se intercambian x e y.
141 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
Para el caso de una correlación lineal la cantidad r es la misma, tanto si es x como y considerada como variable independiente. La ventaja del coeficiente de correlación radica en el hecho de que se trata de un coeficiente adimensional, por lo que no dependen de las unidades en que estén expresadas las dos variables correlacionadas. En cuanto a los valores numéricos que adopta el coeficiente de correlación r, cabe decir que cuanto más próximo esté r de +1 ó - 1 mayor correlación habrá ( positiva en el primer caso y negativa en el segundo). -1 r 1 El grado de correlación se podrá interpretar, evitando un poco la rigidez mediante los siguientes limites : 1. Correlación perfecta, cuando
r=1 ó
r = -1 .
2. Correlación excelente, cuando : 0,90 < r <1
;
- 1< r < 0,90
3. Correlación aceptable, cuando : 0.80< r < 0.90 ; -0.90< r < -0.80 4. Correlación regular, cuando
: 0.60 < r<0.80 ; - 080< r < - 060
5. Correlación mínima, cuando : 0.30 < r < 0.60 ;
-60 < r < - 0,30
6. Correlación no hay , cuando
-030 < r < 0
: 0 < r < 0.30 ;
Observemos el comportamiento del coeficiente de correlación en la siguiente figura.
r=1
r = -1
o< r< 1
142 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
-1< r< 0
r=0
0
5.8
0
FORMULA PRODUCTO - MOMENTO PARA EL COEFICIENTE DE CORRELACIÓN LINEAL
Si se supone una relación lineal entre dos variables, la ecuación : _
(y ( y y)
r
est
y)2 _
2
Se convierte en :
r
xy
( X )( Y ) 2
2
_
X x x
_
Y y y , esta fórmula que Donde y automáticamente dada el signo adecuado de r se llama “ fórmula producto momento” y muestra claramente la simetría entre x e y si se escribe;
143 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
s
xy
xy ,
N
entonces sx y
sy
s
x
x
2
y
2
,
N
s
y
N
se reconocerán como la desviación típica de las variables
s
x e y, respectivamente, mientras que
2 x
2
,s y
son sus varianzas La
nueva cantidad S xy se llama COVARIANZA de x e y. En términos de símbolos las anteriores ecuaciones pueden resumirse si : 5.9 COVARIANZA. Es un indicador de cuál es la variación conjunta de X e Y, y va a permitir, de alguna manera, examinar el grado de relación existente entre ambas. La forma de calcular la covarianza es mediante el producto de las dos diferencias con respecto a sus medias para cada una de las variables, es decir:
Para datos no agrupados:
n
S
xy
S
i 1
xy
i y y i x x ZxZ y n n
x y i
n
i
x. y
144 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
Para datos agrupados: i y y f x x i
n
S
xy
S
Z Z f x
n
i 1
xy
i
i
n
x y f i
i
i
n
r
y
s ss
x. y
xy
x
y
2
Al valor r se le denomina coeficiente de determinación, e indica el porcentaje de la variabilidad de una variable explicable por la otra. Nótese que r no es solamente independiente de la elección de las unidades de x e y, también de la elección del origen.
5.10 FÓRMULAS CORTAS PARA EL CALCULO La fórmula :
r
xy
( X )( Y ) 2
2
Puede escribirse en la forma equivalente :
145 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
r
N
N XY ( X )( Y ) X
2
( X ) 2
N
2 2 Y ( Y )
5.11 RECTAS DE REGRESIÓN Y EL COEFICIENTE DE CORRECCIÓN LINEAL. La ecuación de la recta de los mínimos cuadrados Y = a regresión de y sobre x, puede escribirse :
_
Y Y
r sy
s
_
( X X)
ó
Y
x
r sy
s
o
+ a 1 X o recta
X
x
Análogamente, la recta de regresión de X sobre Y , x = bo + b1y puede escribirse :
_ r _ x X X s (Y Y)
s
ó
X
y
r sx
s
Y
y
Las pendientes de las rectas anteriores son iguales si , y solamente si, r = 1. En tal caso las dos rectas son iguales o idénticas y entres las variables. x e y hay correlación línea perfecta. Si r = O, las rectas forman un ángulo recto y no hay correlación entre las variables. Así, pues , el coeficiente de correlación lineal mide la divergencia de las dos rectas de regresión.. Nótese que si las ecuaciones : se escriben : Y = a 2 respectivamente entonces : a1 b1 = r
o
+ a1 X , X = b
o
+ b1 Y ,
146 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
5.12 CORRELACIÓN GRADUAL O POR RANGOS. En lugar de utilizar valores precisos de las variables, o cuando tal precisión no es ventajosa, los datos pueden ordenarse según su tamaño , importancia, etc. Utilizando los números 1,2,3, ...,N. si dos variables x e y se ordenan de tal forma, el coeficiente de correlación gradual está dado por
6 D rgrad. 1 NN( 2 1) 2
Donde D = diferencia entre las graduaciones de los valores correspondientes de X e Y. N = número de pares de valores ( x , y ) de los datos . Dicha fórmula es llamada comúnmente como COEFICIENTE DE RELACIÓN DE SPEARMAN, es muy utilizado en investigación de mercado, especialmente cuando no se pueden aplicar medidas cuantitativas para ciertas características cualitativas tales como: preferencias, actitudes, capacidad de dirección de personal, belleza femenina y otras características de conductas. El significado del valor r es el siguiente : * Sise trata de dos clasificaciones idénticas r = 1 * Si se trata de dos clasificaciones inversa r = -1 * En los casos intermedios -1 r + 1.
5.13 REGRESIÓN NO LINEAL, REDUCIBLES A LINEAL. Hay situaciones en las que el modelo lineal no es adecuado al fenómeno que se analiza. Existen otros métodos basados en el mismo principio de ajuste que la regresión lineal(minimizar los cuadrados de los residuos), en muchos casos reducibles a lineal(transformando las variables): en el caso de las regresiones:
147 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
Exponencial:
bx Y a.e
Potencial:
b Y a. x
Logarítmica:
Y a b.ln(X)
EJEMPLO 1. En unas pruebas elásticas de rebote de un amortiguador de fricción, se obtuvieron para distintas altura de caída del peso libre, las altura de rebote que figuran en la siguiente tabla ; determinar la recta de regresión correspondiente y determinar el coeficiente de correlación r para las dos variables, X : altura de caída ( dm )
Y : altura de rebote ( m.m)
1.2 2.4 3.2 4.3 5.7 7.0 9.0
1.9 1.3 2.1 3.4 2.0 3.8 3.3
Evidentemente, a mayor altura de caída, mayor altura de rebote. Se trata de dos variables dependiente, existiendo una relación positiva entre ellas. SOLUCIÓN : Efectuemos la gráfica de los puntos del ejercicio.
148 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
Altura de Rebote (mm)
4
3 2 1
1
2
3
4
5
6
7
8 9 Altura de caída (dm)
Luego, dispondremos los cálculos en forma de tabla PUNTOS 1 2 3 4 5 6 7
X 1.2 2.4 3.2 4.3 5.7 7.0 9.0 32.8
Cómo : Y = ao + a1 X,
Y 1.9 1.3 2.1 3.4 2.0 3.8 3.3 17.8
X .Y 2.28 3.12 6.72 14.62 11.40 26.60 29.70 94.44
2
X 1.44 5.76 10.24 18.49 32.49 49 81 198.42
2
y 3.61 1.69 4.41 11.56 4.0 14.44 10.89 50.6
149 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
a
0
( Y )(
X ) ( X )( N X ( X ) 2
2
XY )
2
(17819842 . )( . ) (3289444 . )) . ) 434244 . 13869 . 2 a0 (719842 )( . ) (328 .) 31310 .
a
1
N XY ( X )( Y ) 2 ( X ) 2 N
X
(328178 ( 7 )( 9444 . ) . )( . ) 7724 . 02466 . 2 a1 (719842 )( . ) (328 .) 31310 . Luego la recta de regresión de X sobre Y , es : y = 1.3869 + 0, 2466X
r
N
N XY ( X )( Y ) 2 2 X ( X )
N
2 2 Y ( Y )
150 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
r
79444 ( , ) (328178 , )( , )
(7506 )( . ) (328 .) )( . ) (178 .) (719842 2
2
7724 . . 7724 108154 . 11697416 .
r = 0.714 COMENTARIO : No es un coeficiente de correlación demasiado alto , por lo que es posible que la recta de la regresión antes buscada no pueda utilizarse para efectuar previsiones. La probabilidad de asegurar una cierta altura de rebote para una altura de caída del peso libre determinada, es bastante baja. EJEMPLO 2 Calcular el error típico de la estima , S yx ; como también, la variación total, la variación no explica y la variación explica, para los datos del ejemplo 1. SOLUCIÓN : En la siguiente tabla aparecen los valores reales de Y, y los valores de y estimado obtenidos con la recta de regresión : y = 1.3869 + 2466X obtenida anteriormente. Por ejemplo cuando X = 1.2 se obtiene que
Yest. = 1.3869 + 0,2466 ( 1.2) =
1.3869 + 0.29592 = 1.68
151 ___________________________ MODULO DE ESTADISTICA UNO - ALBERTO QUINTOJIMENEZ
2
1.2 1.9 1.68 0.04 0.40
2.4 1.3 1.97 0.44 1.53
3.2 2.1 2.17 0.004 0.19
4.3 3.4 2.44 0.92 0.73
5.7 2.0 2.79 0.62 0.29
7.0 3.8 3.11 0.47 1.58
9.0 3.3 3.60 0.09 0.57
32.8 17.8 17.76 2.58 5.29
2
0.73
0.32
0.13
0.01
0.06
0.32
1.12
2.69
X Y
Yest. ( Y -Yest ) _
(Y - y ) _
( Yest - y )
2
_ 178. 254 y= .
7
a)
S
error Típico dela estima :
yx
(y y
) est.
2
N
. 258 060 . 7 _
(Y Y )
2
b)
Varianza total =
c.)
Variación no explicada = ( Y -Yest )
d.)
Variación explicada =
= 5.29 2
= 2.58
_
2 (Y est Y ) 269 .
Podemos también calcular a r por la formula:
r
V .exp licada Vtotal .
269 . 529 .
0713 .
EJEMPLO 3. Calcular el coeficiente de correlación gradual para los datos del Ejemplo 1.
152 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
SOLUCIÓN : Ordenando las alturas de caída en forma ascendente tenemos : Datos: Graduación:
1.2,
2.4,
3.2,
1
2
3
4.3, 5.7, 4
7.0,
9.0
6
7
5
De igual forma , las alturas del rebote ordenados en sentido creciente son :
Datos: Graduación:
1.3
1.9
2.0
21
3.3
3.4
3.8
1
2
3
4
5
6
7
Luego formamos una tabla que represente los datos antes dados, lo mismo que represente sus respectivas graduaciones.
1.2
2.4
3.2
4.3
5.7
7.0
9.0
32.8
1.9
1.3
2.1
3.4
2.0
3.8
3.3
17.8
1
2
3
4
5
6
7
2
1
4
6
3
7
5
-1
1
-1
-2
2
-1
-2
1
1
1
4
4
1
4
X Y Graduación de x
Graduación de y
D 2
D
Entonces :
16
153 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
6 D rgrad. 1 NN( 2 1) 2
1 gra d
r
616 ( ) 1 96 1 0285 . 0715 . 2 336 717 ( ) 1
Que concuerda con el valor de r obtenido en el ejemplo 1. EJEMPLO 4. En 1965, Babich, Jacobson y Bubash realizaron un experimento para demostrar que el ácido ribonucleico ( ARN) está relacionado con la memoria. El experimento consistió en condicionar 8 ratas a aproximarse a comer cuando se encendía una bombilla. Una vez condicionadas se extrajo de su cerebro ARN ; estas pertenecían al grupo A del experimento, también se realizó una extracción de ARN de un grupo de 8 ratas no sometidas a este condicionamiento. Se eligieron posteriormente 16 ratas que fueron divididas al azar en dos grupos A Y B . Las ratas del grupo A recibieron ARN procedente de las ratas condicionadas. las ratas del grupo B recibieron ARN procedentes de las rata no condicionadas Ambos grupos se colocaron en cajas de Skinner y durante el experimento se encendió 25 veces la bombilla. La contabilización del número de aproximaciones a la comida producidas después del estímulo luminoso está indicado en la siguiente tabla.
154 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
GRUPO A
GRUPO B
RATA
Nº APROX.
RATA
1 2 3 4 5 6 7 8
3 10 8 9 10 1 7 4
9 10 11 12 13 14 15 16
Nº APROX. 0 1 2 1 0 3 0 1
Calcular el grado de relación por rango. SOLUCIÓN : Ordenamos en sentido ascendente de magnitud, las aproximaciones del grupo A: 1,
3,
4,
7,
8,
9
10
; 10
Puesto que en esta ordenación los lugares séptimo octavo representan la misma aproximación ( 10) , le asignamos a estos dos lugares un orden medio de 7.5 (7+8 = 15/ 2 =7.5 ).
Graduación : 1, 2,
3,
4,
5,
6,
7.5,
Ordenamos de igual forma las aproximaciones de grupo B: 0,
0,
0,
1,
1
1
2
3
7.5
155 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
Graduación :
2
2
2
5
5
5
9 1 6 5 1 1
10 0 7.5 2 5.5 30.25
1 3 1 8 -7 49
7
8
Formemos una tabla para el cálculo .
X Y Graduación de X Graduación de Y D 2 D
3 0 2 2 0 0
10 1 7.5 5 2.5 6.25
8 2 5 7 -2 4
7 0 4 2 2 4
4 1 3 5 -2 4
52 8
98.50
Luego:
6 D rgrad. 1 NN( 2 1) 2
r
gra d
( . ) 591 1 69850 1 0172 . 2 504 88( ) 1
Podemos concluir diciendo que , aunque la diferencia entre los dos grupos es una diferencia significativa que prueba o da entender que el ARN actúa como soporte de la memorización, no podemos decir que dos grupos A y B se relacionen.
156 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
EVALUACION SOBRE LA UNIDAD Nro. 5 5.1 e
La siguiente tabla da las dos primeras puntuaciones, denotadas por X Y, respectivamente, de 10 estudiantes en dos pruebas de biología.
Puntuación en la primera prueba ( x): 6,
5,
8,
8
7,
6,
10,
4,
9
7
10,
6,
8,
6,
Puntuación de la segunda prueba (y) : 8,
7,
7,
a. b.
Construir el diagrama de dispersión. Hallar la recta de regresión de los mínimos cuadrados de y sobre x. Hallar la recta de regresión de los mínimos cuadrados de X sobre Y. Representar las dos rectas de regresión sobre el diagrama de dispersión.
c. d.
10,
5,
8,
5.2
Hallar Syx y Sxy para los datos del problema anterior.
5.3
Calcular la variación total, la variación no explica y la explicada, para los datos del problema 8.1
5.4
Utilizando los resultados del problema 8.3 Hallar el coeficiente de correlación.
5.5
Hallar el coeficiente de correlación mediante la formula productomomento y formula de SPEARMAN.
variación
se produjo un experimento con el fin de estudiar el efecto de un cierto 5.6 medicamento en bajar la rapidez de los latidos del corazón en los adultos. La variable independiente es la dosis en milagro del medicamento y la variable dependiente es la diferencia entre la rapidez más baja siguiente a la administración del medicamento y un control antes de administrar el medicamento. Se reunieron los siguientes datos.
157 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
REDUCCIÓN EN LA RAPIDEZ DEL CORAZÓN ( Latidos / min.)
DOSIS(mg)
X 0.50 0.75 1.00 1.25 1.50 1.75 2.00 2.25 2.50 2.75 3.00
Y 10 8 12 12 14 12 16 18 17 20 18
Construir un diagrama de dispersión, obtener las ecuaciones de regresión y trazar su gráfica en el diagrama de dispersión, calcular el coeficiente de correlación por todo los sistemas vistos hasta el momento. Para medir la reacción de un grupo de consumidores respecto a la 5.7 presentación de un producto, se tomaron 12 personas y se integraron en cuanto al concepto que le merecen la presentación tradicional de este producto, luego se les presenta el mismo articulo en su nuevo empaque. Las mediciones se efectuaron utilizando una escala de 25 puntos y se obtuvieron los siguientes resultados ( para cada una de las personas ). Antes : 6
10
14
17
6
6
11
14
10
17
11 13.
18
12
9
8
12
18
17
20
18
Después : 10
13
15
Calcular el coeficiente de correlación de SPEARMAN.
5.8
La siguiente tabla muestra la edad X, y la presión sanguínea Y de 12 mujeres.
158 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
EDAD ( X) 56
42
72
36
63
47
55
49
38
42
68
60
118
149
128
150
145
115
140
152
155
PRESIÓN (Y) 147
125
160
a.. b.
Hallar el coeficiente de correlación entre X e Y. Determinar la ecuación de regresión de mínimo cuadrados de Y sobre X. Estimar la presión sanguínea de una mujer de 45 años.
c.
Se compararon dos métodos de medir el rendimiento cardiaco a 10 5.9 animales experimentales con los resultados siguiente. MÉTODO I : 0.8,
1.0,
1.3, 1.4,
1.5,
1.4, 2.0, 2.4,
2.7,
3.0
MÉTODO II : 0.5,
1.2,
1.1, 1.3,
1.1,
1.8, 1.6, 2.0,
2.4,
2.8
a. b. c-
Preparar un diagrama de dispersión Calcular el coeficiente de correlación , por los métodos vistos. Obtener una ecuación de regresión adecuada.
5.10 En un acero aleado, la adición progresiva de manganeso permite dejando constante los de más componentes de la aleación, aumentar la dureza, que se mide en este caso especifico por el método de Brinell . Se han realizado diversas coladas con sus probetas correspondientes, relacionándose el porcentaje de manganeso. (% Mn) con la dureza obtenida en el ensayo Brinell (DB) según los datos que figuran en la tabla. a. b. c.
Determinar si existe relación entre las dos variables. obtener la ecuación de regresión para el sistema. Elaborar la gráfica de regresión.
159 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
X
Y
%Mn
DB
0.115 0.20 0.30 0.32 0.33 0.425 0.52 0.59 0.67 0.78
60 125 105 145 195 160 140 200 180 215
160 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
UNIDAD N° 6 INTRODUCCIÓN A LAS COMPUTADORAS OBJETIVO DE LA UNIDAD: Identificar la algunos paquetes estadísticos( Excel, statgraphics) como herramientas de trabajo estadístico.
CONTENIDOS: 6.1 La computadora en la Estadística 6.2 Introducción a Microsoft Excel 6.2.1 Grafica en Excel 6.3 Manejo del Statgraphics
161 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
6.1 LA COMPUTADORA EN LA ESTADÍSTICA Las computadoras están ocasionando una verdadera revolución científico- técnica.
revolución: la
En la última década han tenido lugar cambios revolucionarios en la sociedad debido a la rápida difusión de la tecnología de computadoras; cambios en nuestros negocios, nuestros hogares y nuestros salones de clases. La necesidad de efectuar un gran número de cálculos aritméticos como parte del análisis estadístico de los datos sólo vive en el recuerdo de aquellos investigadores y practicantes cuyas carreras son anteriores a la llamada “revolución de las computadoras”. Las computadoras pueden ejecutar cálculos mas rápidos y mucho mas precisos de lo que puede un ser humano. El uso de las computadoras hace posible que los investigadores dediquen más tiempo a mejorar la calidad de los datos originales y a la interpretación de resultados. Durante los últimos veinte años, el campo de la estadística ha cambiado dramáticamente mediante el desarrollo de SOFWARE de computadoras especialmente escrito para el análisis estadístico. Durante los ochenta, el SOFWARE estadístico experimento una vasta revolución tecnológica; rápidamente se dispuso de programas de computación o paquetes como SAS, SPSS, MINITAB, MYSTAT Y STATGRAPHICS ; los que con el uso cada vez mayor de los paquetes de hojas de cálculos populares como LOTUS Y EXCEL, llevaron a la incorporación de peculiaridades estadísticas en estos paquetes. El final de la década de los ochenta y el principio de los noventa representaron un periodo continuo de avances tecnológicos; mientras que los primeros paquetes desarrollados para las computadoras personales sólo estaban disponibles para maquinas IBM o compatibles, actualmente los paquetes han sido adaptados al ámbito de las computadoras MACKINTOSH. Aunque el SOFTWARE estadístico ha hecho factible incluso los análisis más sofisticados, los problemas surgen cuando usuarios inexpertos en estadística, que no comprenden las premisas que están detrás de los procedimientos o las limitaciones de los resultados obtenidos, son engañados por la salida estadística generada por la computadora.
162 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
El papel principal del experto en estadística o del investigador, es analizar e interpretar los resultado; el papel de la computadora es ayudar en este proceso. La computadora es una herramienta en extremo útil que puede almacenar, organizar y procesar información con facilidad y rapidez y proporcionar resultados, tablas y graficas resumidas. Para interactuar en forma apropiada con la computadora, el investigador no sólo tiene que estar familiarizado con el paquete del programa en uso, sino que además tiene que seleccionar correctamente los procedimientos estadísticos apropiados para la tarea que se trata. Por ejemplo, la grafica de pastel y las tablas de clasificación cruzada sólo sirven como información cualitativa; es inadecuado solicitar gráficos del ejemplo anterior para variables cuantitativas continuas, a menos que antes hayan sido clasificadas, como en una distribución de frecuencias. por otra parte, las medias, medianas, rango y desviación estándar sólo se deben usar para variables cuantitativas; es totalmente ocioso ordenar a la computadora que produzca resultados para variables cualitativas; el resultado no tendría sentido. 6.2 INTRODUCCIÓN AL MICROSOFT EXCEL La plantilla electrónica Excel, se reveló como una aplicación computacional poderosa la cual permite efectuar cálculos estadísticos relativamente complejos. Su uso en la estadística, aunque no es lo ideal, permite resolver la mayor parte de las situaciones comunes y economiza tiempo al acabar con la demora en la repetición de largos y complejos cálculos estadísticos, lo cual ocurría con los métodos basados en el lápiz, el papel y las calculadoras. 6.2.1 INGRESO AL PROGRAMA Para iniciar el trabajo con la hoja electrónica Microsoft Excel desplace el mouse hasta el botón rotulado inicio que aparece en la parte inferior izquierda de la pantalla inicial de Windows, se abre una pantalla de opciones. Lleve el marcador del mouse a la opción programas, cuando se abre otra pantalla; lleve el puntero hasta la carpeta Office o al icono del Microsoft Excel para dar ingreso a la hoja electrónica. 6.2.2 FUNCIONES ESTADÍSTICAS Dentro de las funciones predefinidas de Excel se encuentran:
DESVEST(a,b,c,...) es la desviación estándar de los datos de la muestra a,b,c...
163 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
DESVPROM(a,b,c,...) calcula la media aritmética de las desviaciones en valor absoluto de los números a, b, c,... con respecto a la media de los mismos números.
VAR(a,b,c,...) calcula la varianza de los datos de la muestra a,b,c,..
MAX(a,b,c,d,…) determina el máximo de los números a,b,c,d,...
MEDIANA(a,b,c,...)halla la mediana de los números a,b,c,...
MIN(a,b,c,...) encuentra el mínimo de los números a,b,c,...
MODA(a,b,c,...) muestra el valor modal de los números a,b,c....
PROMEDIO( a,b,c,...) calcula la media aritmética de los números a,b,c,...
Cuando los datos están en bloques es decir en celdas, es importante que usted sombree las celdas a trabajar y luego elija la función que desee. 6.2.3 GRÁFICOS EN EXCEL Es muy fácil y rápido presentar los datos de una hoja empleando al ASISTENTE DE GRÁFICO, con el cual se puede escoger a partir de muchas variaciones predefinidas y, además, personalizar cualquiera de esas opciones. La vinculación del grafico con los valores que le dieron origen también es sencilla, y cada cambio hecho en la hoja es actualizado automáticamente en la figura. Después de colocar en las columnas de la hoja de Excel los datos, sombree la o las columnas que desee obtener grafico; a continuación, utilizamos el mouse hacemos clic en el icono correspondiente al asistente para gráficos de Excel; al aparecer el cuadro de diálogo, seleccionamos el tipo de gráfico deseado y hacemos clic en el botón rotulado siguiente. Ahora escribimos los títulos para el gráfico, los ejes (X) y (Y); luego de completar la información necesaria, hacemos clic en el botón rotulado siguiente. El siguiente cuadro de diálogo pregunta el lugar donde queremos situar el gráfico( en una hoja nueva o como objeto); luego de ubicarlo, hacemos clic en el botón rotulado siguiente. Finalmente hacemos clic en el botón rotulado terminar y la grafica se pega en la hoja designada.
164 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
6.3 MANEJO DEL STATGRAPHICS Con este paquete estadístico usted podrá entrar, crear, modificar, borrar, salvar e imprimir archivos de datos y gráficas; podrá obtener estadísticas descriptivas y tablas de frecuencias, lo mismo que manejar distribuciones de probabilidad, hacer inferencia estadística, cruce de variables y análisis de regresión. Aunque el programa está escrito en ingles su uso es muy fácil porque da instrucciones en la parte baja de la pantalla en fondo rojo. 6.3.1 COMO ENTRAR AL PAQUETE STATGRAPHICS Supongamos que el paquete se encuentra instalado en el disco duro en un ) escriba directorio llamado STATG. Tan pronto tenga el prompt ( C: CD__STATG y presione ENTER. Cuando la pantalla muestre el siguiente prompt (que puede ser C:STATG ) escriba STATGRAF, que es el nombre del archivo de ejecución, y oprima la tecla ENTER. A continuación aparece en pantalla el nombre del paquete, los fabricantes del mismo, la versión etc. Segundos después aparece en pantalla el menú principal.
STATGRAPHICS SATTISTICAL GRAPHICS SYSTEN
DATA MANAGENEN AND SYSTEM UTILITIES A. Data manegenen B. Sysyten Environnent C. Report writer and Graphics Replay D. Graphics Atributes
TIME SERIES PROCEDURES L. Forecasting M. Quality N. Saoothing O. Time series Analysis
PLOTTING AND DESCRIPTIVE E. Plotting Functions F. Descriptive Methods G. Estimation and Testing H. Distribution Functions I. Exploratory Data Analysis
ADVANCED PRODEDURES P. Categorical Data Analysis Q. Multivariate Methods R. Nonparametric Methods S. Sanpling T. Experimental Design
ANOVA AND REGRESSION ANALYSIS J. Analysis of variance K. Regression analysis
MATHEMATICAL AND USER PROCEDURES U. Mathematical Functions V. Macros and Functions.
Use el cursor para desplazarse en esta pantalla y al ubicarse presione enter. Las opciones de cada submenú están precedidas por una letra mayúscula; cada opción tiene una lista de procedimientos numerados.
165 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL
BIBLIOGRAFIA 1.
WYNE.DANIEL, BIOESTADISTICA BASE PARA EL ANALISIS DE LAS CIENCIAS DE LA SALUD. LIMUSA.MEXICO 1983
2.
SNEDECOR
GEORGEW.YG.COCHERAN
,
METODOS
ESTADISTICOS ,CONTINENTAL S.A MEXICO 1971. 3.
MOOD ALEXANDER M. GRAYBILL FRANKLIN A Y BOES DUANE C. INTRODUCTION TO THEORY OF STATISCS. THIRD EDITTION MC GRAW-HILL 1974
4.
CONOVER W. J. PRACTICAL NONPARAMETRIC STATICS JHON WILE Y SONS INC. NEW YORK. 1971
5.
CONOVOS
GEORGE
C.
PROBABILIDAD
Y
ESTADISTICA
APLICACIONES Y METODOS MC.GRAW.HILL MEXICO 1988. 6.
CHAO
LINCOLN
L.
ESTADISTICA
PARA
LAS
CIENCIAS
ADMINISTRATIVAS 2 EDICION MC GRAWL HILL. 1975. 7
WALPOLE RONALD E. RAYMOND H. MYERS.PROBABILIDAD Y ESTADISTICA 4 EDICION MCGRAWL-HILL MEXICO 1992.
8.
LEVIN RICHARD Y. ESTADISTICA PARA ADMINISTRADORES 2 EDICION PRENTICE. HALL HISPANOAMERICANA S.A MEXICO 1988.
9.
BOROVKOV A. A ESTADISTICA MATEMATICA MIR MOSCU 1984.
10.
SIEGEL SEDNEY ESTADISTICA NO PARAMETRICA , APLICADA A LAS CIENCIAS DE LA CONDUCTA TRILLAS , MEXICO 1989
166 ___________________________ MODULO DE ESTADISTICA UNO - ILP - LBL