DESCRIPCIร N BREVE
CUADERNO DE
Compilaciรณn de las clases recibidas durante el ciclo, impartidas por el Ing. Roy Donaldo Silva
ESTADISTICA Y PROBABILIDADES Ciclo 2-2016 BETETA MOLINA, IRIS CORINA
22-5234-2013
BRIZUELA DURAN SANTOS CECILIA
25-5462-2013
HERNANDEZ RAMIREZ SAUL EDENILSON
25-5868-2013
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Contenido INTRODUCCIÓN......................................................................................................................... 6 OBJETIVOS ................................................................................................................................ 7 Objetivo general .................................................................................................................... 7 Objetivos específicos ............................................................................................................. 7 UNIDAD I Historia...................................................................................................................... 8 1.1
Historia de la Estadística ............................................................................................. 8
1.2 Historia de la Estadística en El Salvador ............................................................................14 1.2.1 Los censos ................................................................................................................14 1.2.2 Historia ....................................................................................................................14 Fue hasta los años de 1989 – 1990 .....................................................................................17 En 1992 ............................................................................................................................17 En Mayo del 2007..............................................................................................................18 Antecedentes de los censos nacionales en El Salvador. ........................................................18 1.3 Historia de la Probabilidad ...............................................................................................23 1.4 Conceptos Básicos...........................................................................................................25 1.5 Tipos de Estadística .........................................................................................................25 1.6 Tipos de variables ...........................................................................................................26 1.6.1 Variable cualitativa ...................................................................................................26 1.6.2 Variable cuantitativa .................................................................................................27 1.6.3 Variable aleatoria ......................................................................................................27 Variable Independiente .....................................................................................................27 Variable Dependiente: .......................................................................................................27 Variable Interviniente: .......................................................................................................28 1.7 Escalas de medición ........................................................................................................28 1.7.1 Escala nominal (escalado) .........................................................................................28 1.7.2 Escala ordinal ...........................................................................................................28 1.7.3 Escala de intervalo ....................................................................................................28 1.7.4 Escala de razón .........................................................................................................28 1.7.5 Ejercicios prácticos ...................................................................................................29 1
CUADERNO DE ESTADISTICA Y PROBABILIDADES
1.8 Comprobación de Hipótesis: Distribución de Chi cuadrado ................................................31 1.8.1 Consecuencias de las Decisiones en Pruebas de Hipótesis. ..........................................33 1.8.2 Prueba de Chi-cuadrado............................................................................................33 1.8.3 Calculo de X2.............................................................................................................34 1.8.4 Ejercicios resueltos de Chi-cuadrado (X2) ....................................................................38 1.8.5 Cálculo del tamaño de la muestra ..............................................................................47 1.9 Muestreo........................................................................................................................53 1.9.1 Concepto de muestreo ...............................................................................................53 1.9.2 Terminología del muestreo ........................................................................................54 1.9.3 Tipos de muestreo ....................................................................................................55 UNIDAD II Análisis e Interpretación de Datos .............................................................................62 2.1 Elaboración e Interpretación de Cuadros de Frecuencia ....................................................62 2.1.1 Marco teórico para la Elaboración de Tablas de Frecuencias y Distribución de Frecuencias.......................................................................................................................62 2.2 Distribución de Frecuencias .............................................................................................67 Ejemplo de Tabla de distribuciòn de frecuencia ..................................................................69 2.3 Graficas de Variables continuas y Discretas.......................................................................71 2.3.1 Componentes de un gráfico. ......................................................................................72 2.3.1 Histograma ...............................................................................................................73 2.3.2 Polígono de Frecuencias ............................................................................................73 2.3.3
Las ojivas ...........................................................................................................74
Gráficos para Variables Discretas .......................................................................................74 2.3.4
Gráfico de barras o Rectángulos ..........................................................................74
2.3.5 Diagrama de Sectores ...............................................................................................75 2.3.6 Grafico polar ............................................................................................................77 2.3.7 Pictogramas..............................................................................................................77 Ejercicios de gráficos .........................................................................................................78 UNIDAD III Medidas de Tendencia Central .................................................................................86 3.1 Medidas de tendencia central para serie de datos.............................................................86 3.1.1 Ejemplo moda para serie de datos ............................................................................87 2
CUADERNO DE ESTADISTICA Y PROBABILIDADES
3.1.2 Ejemplo mediana para serie de datos.........................................................................87 3.1.3 Ejercicio utilizando una serie de datos par. .................................................................88 3.2 Medidas de tendencia central (datos agrupados) ..............................................................89 3.2.1 Moda para datos agrupados en frecuencia .................................................................89 3.2.2 Media para datos agrupados .....................................................................................89 3.2.3 Mediana para datos agrupados..................................................................................89 3.3 Medidas de Tendencia Central para datos agrupados en tablas de distribución ..................90 3.3.1 Media Aritmética......................................................................................................90 Ejercicio resuelto de la Media Aritmética. ...........................................................................91 3.3.2 La Media Geométrica................................................................................................93 3.3.3 La Moda T. de Distribucion de Fr................................................................................93 3.3.4 La Mediana...............................................................................................................94 3.4 Medidas de tendencia central para datos agrupados en tabla de distribución de frecuencia. ............................................................................................................................................94 3.5 Medidas de posición para datos agrupados ......................................................................99 3.5.1 Fórmulas para determinar los cuantiles en serie de datos ......................................... 100 CUANTILES.................................................................................................................. 100 TIPO.............................................................................................................................. 100 SERIE PAR.................................................................................................................... 100 SERIE IMPAR ............................................................................................................... 100 POSICIÓN CUANTÍLICA .............................................................................................. 100 K*n/4 ............................................................................................................................. 100 K(n+1)/4 ........................................................................................................................ 100 POSICIÓN DECÍLICA ................................................................................................... 100 K*n/10 ........................................................................................................................... 100 K(n+1)/10....................................................................................................................... 100 POSICIÓN PERCENTÍLICA .......................................................................................... 100 K*n/100 ......................................................................................................................... 100 K(n+1)/100 ..................................................................................................................... 100
3
CUADERNO DE ESTADISTICA Y PROBABILIDADES
3.5.2 Cuantiles: Cuartiles, Deciles, Percentiles para datos agrupados en Tablas de Distribución de Fecuencias ................................................................................................................. 102 UNIDAD IV Medidas de Dispersión .......................................................................................... 104 4,1 Medidas de dispersión................................................................................................... 104 4.2 Medidas de Dispersión para Serie de Datos .................................................................... 105 4.3 Medidas de Dispersión para Datos Agrupados ................................................................ 106 4.3.1 Desviación Media (Datos agrupados en Frecuencia) .................................................. 107 4.3.2 Desviación típica para datos agrupados.................................................................... 108 UNIDAD V Nociones de Probabilidad ....................................................................................... 110 5.1 Teoría de Conjuntos ...................................................................................................... 110 5.1.1 Notación por: extensión, comprensión ...................................................................... 110 5.1.2 Determinación de conjuntos por extensión................................................................ 110 5.1.3 Determinación de conjuntos por comprensión ........................................................... 111 5.1.4 Conjunto especial ................................................................................................... 111 Conjunto Unitario ........................................................................................................... 112 5.1.5 Características de los Conjuntos............................................................................... 113 5.1.6
Operaciones básicas con diagramas de Venn ...................................................... 113
5.1.7 Cardinalidad ........................................................................................................... 115 5.2 Técnicas de conteo........................................................................................................ 117 5.2.1 Principios de Conteo ............................................................................................... 118 5.2.2 Factorial de un número = n! .................................................................................... 119 5.2.3 Métodos y técnicas de conteo ................................................................................. 120 5.3 Variaciones, Permutaciones y Combinaciones................................................................. 120 5.3.1 Variaciones ............................................................................................................ 120 5.3.2 Permutaciones ........................................................................................................ 121 5.3.3 Combinaciones ....................................................................................................... 121 5.4 Principios de la probabilidad .......................................................................................... 124 5.4.1 Enfoques de la probabilidad .................................................................................... 124 5.4.2 Características de una Probabilidad de un suceso: .................................................... 125 5.4.3 Probabilidad Total................................................................................................... 127 4
CUADERNO DE ESTADISTICA Y PROBABILIDADES
5.5 Distribución de probabilidades....................................................................................... 129 5.5.1
Propiedades de f(x) discretas ............................................................................ 130
5.5.2 Calculo de Media y Desviación Estándar para una Distribución Discreta ..................... 130 5.5.3 Función de Distribución........................................................................................... 131 Distribuciones Conjuntas Variables Discretas .................................................................... 133 Variable Aleatoria Continua: ............................................................................................ 134 CONCLUSIÓN ......................................................................................................................... 144
5
CUADERNO DE ESTADISTICA Y PROBABILIDADES
INTRODUCCIÓN
La estadística ha estado presente desde el principio de la historia, ha contribuido a establecer marcos de referencia para casi cualquier temática; así mismo ha contribuido a determinar la probabilidad de que los eventos estudiados o registrados por medio de los datos estadísticos puedan, o no, suceder en tales o cuales condiciones. En la cátedra de Estadística y Probabilidades en el ciclo 02-2016 en la Univers idad Tecnológica de El Salvador, el Ingeniero Roy Donaldo Silva compartió la base teórica y el desarrollo de ejemplos clásicos para demostrar la aplicación de los conceptos y fórmulas de una manera amigable, por lo que en el presente cuaderno se presentan las 5 unidades en un formato explicativo. El recorrido de contenidos comienza con una breve historia de la Estadística como ciencia, el cálculo de la muestra utilizando la regla de Stuges, cómo utilizar la tabla de números aleatorios y construir la tabla de frecuencias, las diferentes maneras de obtener las medidas de tendencia central, así como las medidas de posición. Las tablas de distribuc ió n de frecuencias, los tipos de variables y gráficos para representar la información. El área de las probabilidades abarca la parte final del documento y desarrolla las diferentes formas de calcular para las variables continuas y discretas, las probabilidades condicionadas, totales, la esperanza matemática, la varianza y la desviación típica.
6
CUADERNO DE ESTADISTICA Y PROBABILIDADES
OBJETIVOS Objetivo general
Presentar el contenido desarrollado de las unidades de estudio de la cátedra de Estadística y Probabilidades correspondientes al ciclo 2-2016.
Objetivos específicos
1. Proporcionar una herramienta de estudio para los estudiantes de la Univers idad Tecnológica de El Salvador.
2. Facilitar la comprensión de los conceptos estadísticos y sus aplicaciones.
3. Desarrollar ejercicios de aplicación, paso a paso, desde la evaluación de hipótesis, las tablas de frecuencias, de distribución de frecuencias, medidas de tendencia central y posición; presentación de datos, hasta la probabilidad y las variables aleatorias discretas y continuas.
7
CUADERNO DE ESTADISTICA Y PROBABILIDADES
UNIDAD I Historia 1.1 Historia de la Estadística La estadística es mucho más que sólo números apilados y gráficas bonitas. Es una ciencia con tanta antigüedad como la escritura, y es por sí misma auxiliar de todas las ciencias medicina, ingeniería, sociología, psicología, economía, etcétera, así como de los gobiernos, mercados y otras actividades humana. Época de los egipcios: En los antiguos monumentos egipcios se encontraron interesantes documentos
en que demuestran
la sabia organización
y
administración de este pueblo; ellos llevaban cuenta de los movimientos poblacionales y continuamente hacían censos. Tal era su dedicación por llevar siempre una relación de todo que hasta tenían a la diosa Safnkit, diosa de los libros y las cuentas. Todo esto era hecho bajo la dirección del Faraón y fue a partir del año 3050 a.C. cuando en Egipto se empezaron a hacer trabajos censales para repartir los bienes y propiedades salvadas de las inundaciones del Nilo. Se sabe que Ramses II hizo un censo de las tierras para realizar un nuevo reparto
8
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Época más reciente de la historia de la estadística: La Estadística a mediados del siglo XVII, gracias a Vito Seckendorff, y sobre todo de Germán Conring al que se le atribuye como fundador de la Estadística; era la descripción de
9
CUADERNO DE ESTADISTICA Y PROBABILIDADES
los hechos notables de un estado. Conring perfeccionó y mejoró notablemente la nueva tendencia, sistematizando los conocimientos y los datos. El mejor de sus seguidores fue Godofredo Achenwall, quien consolidó definitivamente los postulados de esta nueva ciencia y también de haberle dado el nombre de "Estadística"; palabra que etimológicamente deriva de la palabra "status", que significa estado o situación; este nombre ya antes había sido usado en Italia, pero su definición todavía no estaba bien dada.
En 1760 acuñó la palabra estadística, del italiano statista (estadista), del latín status, estado o situación. Pensaba, y con razón, que esta nueva ciencia serían el aliado más eficaz del gobernante.
Godofredo Achenwall: Cientista político y estadístico alemán, 1719-1772. La Estadística pasó así a ser la descripción cuantitativa de las cosas notables de un estado. Von Scholer separó la teoría de la estadística de la aplicación práctica de la misma. Todos ellos formaron parte de la tendencia de la Estadística Universitaria Alemana, conocida como la Estadística Descriptiva.
10
CUADERNO DE ESTADISTICA Y PROBABILIDADES
John Graunt encabeza una tendencia, Inglaterra,
nacida la
aritméticos conocida Estadística Ellos
de
los
políticos ; también
como
Investigado ra.
buscaban
números
en
los
fijar
en
fenómeno s
sociales y políticos cuyas leyes empíricas buscaban. De esta escuela surgen dos tendencias más: 1. Tendencia Enciclopédico Matemática: Tuvo su máximo desarrollo en Francia. Usó no sólo la matemática y el cálculo de probabilidades y lo más importante de ella es que tuvo aplicación práctica en todas las ciencias y no sólo como los aritméticos políticos que la aplicaban a los fenómenos políticos y sociales, sino también a campos jurídicos, electorales, metereológicos, etc. Adolfo Quetelet y A. Cournot son los representantes más insignes de esta tendencia. Quetelet, considerado por muchos el fundador de la estadística moderna, hizo innumerables aportes; el más importante fue el de la metodología estadística, sirviéndose del método sentado por él mismo, haciéndola así totalmente científica. Cournot por su parte hizo un valioso aporte a la teoría de las probabilidades. 2. Tendencia Demográfica: Se desarrolló en Alemania y su máximo representante fue Juan Pedro Süssmilc; él hace el primer tratado que verifica el movimiento de la población. Usa los postulados de Graunt aplicándolos a los fenómenos que se refieren a la población y así nació la Demografía y fue Guillard quien le dio el nombre. Gustavo Romelin separó a la Estadística Descriptiva en parte técnico-metodológica y parte aplicada. Teniendo en cuenta esto sucede que hasta este punto existen:
Estadística Metodológica: Que es un método general de estudio adecuado para ciertos fenómenos. Su defensor fue Cournot. Estadística Social: Ciencia que estudia desde el punto de vista cuantitativo las leyes de la sociedad y en parte las de la población. Su representante es Süssmilch. Estadística Cuantitativa: estudia cuantitativamente los hechos salientes del estado. Sus representantes son Conring y Achenwall. 11
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Es por esta razón que la estadística se presenta como un poderoso auxiliar de las distintas ciencias y técnicas; al provocar en éstas la investigación de las leyes de comportamie nto de ciertas variables que intervienen en un fenómeno cuyo valor, gracias a la Estadística han sido puestos de manifiesto. En esta misma época, en forma independiente nació la rama matemática de las probabilidades a raíz del interés en el juego de Antoine Gombaud (el caballero de Merè: 1610-1685) y de los matemáticos B. Pascal (1623-1662) y P. Fermat (1601-1665). Posteriormente, J Bernouilli (1654-1705), A. De Moivre (1667—1754), P.S.
Laplace
(1749-1827) y K.F. Gauss (1777-1855) contribuyeron
a fortalecer
las
probabilidades, combinándola con los datos estadísticos. A. Quetelet (1796-1874) y finalmente F. Galton (1822-1911) aplicaron la estadística al análisis de la variabilidad biológica. El desarrollo definitivo de la estadística, uniendo sus raíces descriptivas y matemáticas viene con K. Pearson (1857-1936), W.S. Gosset “Student” (1876-1937), J. Neyman (1894), E.S. Pearson (1895), A. Wald (1902-1950) y R.A. Fisher (1890-1962). Tal vez las figuras más destacadas que relacionaron la estadística y la biología, dando origen a la biometría, son K. Pearson (fundador de la revista Biometrika) y R.A. Fisher (Statistical methods for research workers, 1925).
En paralelo, la estadística matemática ha sido enriquecida con las contribuciones de Maxwell, Boltzman y Gills (mecánica estadística) y por Kolmogorov (probabilidades axiomáticas) y Lebesgue (teoría de la medida). La frase “estadística” proviene de la palabra estado, y se refiere al origen histórico de esta disciplina relacionado con la descripción cuantitativa de asuntos del estado. También se llamó aritmética política. El surgimiento y consolidación de la estadística, como campo de conocimiento técnico, tecnológico y científico, ha sido inherente a la organización y transformación de la sociedad humana.
12
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Desde épocas prehistóricas y en la antigüedad clásica, la necesidad social de dar cuenta de lo que se hace y se tiene, impulsó la generación de registros de información que gradualmente alcanzaron un grado de sofisticación y desarrollo que dieron origen a métodos y técnicas para la obtención, la sistematización y análisis de datos, que sentaron las bases de lo que conocemos en la actualidad como estadísticas ,según L. CHAO (1996), son diversos los vocablos que se citan como antecedentes del término estadística. Buscando reseñar los de mayor mención, podemos indicar los siguientes: • Status (latín), que significa situación, posición, estado. • Statera (griego), que sugiere decir balanza, ya que la estadística mide o pesa hechos. • Staat (alemán), que se refiere a Estado como expresión de unidad política superior
La historia demuestra que Tacito, El más grande historiador de Roma. Estudió el arte oratoria, y fue alumno de Aper y de Julio Secundo, y quizá también de Quintiliano, y amigo de Plinio el Joven. Procedente de una familia senatorial, originaria tal vez de la Galia, ejerció las funciones del cuestor, pretor bajo Domiciano (88), cónsul sufecto (97) y procónsul de Asia (110-113), en tiempos de Trajano. Se Casó con la hija de Cneo Julio Agrícola. Consiguió una gran reputación de orador y se dedicó posteriormente a la historia. Su Diálogo de los oradores (atribución a veces discutida), escrito en el año 81, pone en escena a diversos oradores de su tiempo, que comparan los métodos de la elocuencia y de la poesía y buscan las causas de la decadencia de la elocuencia. La Vida de Agrícola, elogio histórico de su suegro, acompañado de un ataque contra Domiciano, está constituida principalmente por el relato de las operaciones militares en Bretaña (98). La Germania (98) analiza las costumbres germánicas con una precisión confirmada por otras fuentes. De las Historias (de la caída de Nerón al advenimiento de Nerva) sólo se conservan los cuatro primeros libros y el principio del quinto, o sea, los años 69 y 70.
Los Anales, compuestos tardíamente (115-117), conciernen al período anterior, desde la muerte de Augusto a la caída de Nerón. Es un clásico de la reflexión política. Disecciona y critica los mecanismos del poder absoluto, además cuenta que Augusto ordenó una amplia
13
CUADERNO DE ESTADISTICA Y PROBABILIDADES
encuesta sobre las riquezas del imperio, enumeró los soldados, los navíos, los recursos de todas clases y las rentas públicas.
1.2 Historia de la Estadística en El Salvador 1.2.1 Los censos
Censo de Población Es la enumeración de los habitantes de un país por sexo, edad, distribución geográfica y características socio-económicas. Proporciona información numérica sobre el estado de una población, entrega su descripción en un momento dado y una fotografía de ella
Censo de Vivienda Es el conjunto de operaciones consistentes en recopilar, evaluar, analizar y divulgar resúmenes numéricos sobre las características de las viviendas existentes en el país, en una fecha determinada
1.2.2 Historia En el año de 1881
La Dirección General de Estadística y Censos, surge a la vida pública el 5 de noviembre de 1881, con el nombre de Oficina Central de Estadística. Creándose así el organismo que se responsabilizaría a nivel nacional de la generación de información estadística del país. En El Salvador se han levantado Censos, en los años 1878,1882 y 1901; de esos Censos, sólo se cuenta con los resultados del Censo de 1882. A partir de 1930
Se inició la época actual de los Censos, levantándose el Censo de Población nominándo lo Primer Censo de Población. Este Censo contó con el apoyo y reconocimiento de organismos internacionales, siendo importante mencionar que ya antes se habían realizado otros Censos de este tipo. Para este Censo, los sueldos de los Empadronadores y demás personal destacado fuera de la oficina, inicialmente la idea era realizar los pagos por mensualidades, pero en vista de los resultados del Censo 14
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Provisional, el Gobierno dispuso que los empadronadores fueran pagados a razón de dos centavos de colón los urbanos y de tres centavos los rurales, por cada persona que anotaran.
En este Censo, se utilizaron tablas que comprendían las cifras de la población clasificadas por Sexo, Edad, Estado Civil, Nacionalidad, Instrucción, Profesión, Ocupación u Oficio, Propietarios y no Propietarios, Domicilio y Raza.
El trabajo del Censo de 1930, presentó algunas deficiencias, unas inherentes al medio y otras debidas a omisiones; no obstante lo cual hay que reconocer que para su ejecución se tuvieron presentes por primera vez, los métodos recomendados por la ciencia estadística. La información que se presenta es el resultado absoluto del Censo. Segundo Censo de Población y Primero de Vivienda Urbana, fueron realizados en el Año de 1950.
La Organización de los Estados Americanos (OEA), apoyó la producción estadística en América, a través del Instituto Interamericano de Estadísticas (IASI); en esos años surgió el Programa del Censo de las Américas, que entre otras cosas, propuso a los países de la región que levantaran sus Censos de Población en 1950, y así poder conocer la población existente en América al inicio de la segunda mitad del siglo XX. Acorde con esos propósitos el Gobierno de El Salvador, fundó el Departamento de Censos, independiente de la Dirección General de Estadística y Censos, dicho departamento se encargó del Segundo Censo de Población, realizándose el 13 de junio de 1950. Este Censo, fue el primero que se realizó empleando recomendaciones internacionales que hicieron comparables los resultados obtenidos, con los demás países de América; el Censo se levantó sobre la base “de facto” y la información obtenida fue lo suficientemente amplia para apreciar la estructura social y económica de nuestro país. Sus datos vinieron a complementar a los que en 1930, arrojara el primero de la misma naturaleza levantado en el país. También se realizó el levantamiento del Primer Censo de Vivienda Urbana. 15
CUADERNO DE ESTADISTICA Y PROBABILIDADES
En el año de 1961
Se realizó el Segundo Censo de Vivienda y Tercero de Población, los resultados fueron bastante satisfactorios, puesto que permitieron hacer reformas sustanciales al plan general de los censos. En vista que la situación económica del país mejoró a fines del mes de octubre de 1960, el Ministerio de Economía autorizó a la Dirección General de Estadística y Censos, para que continuara con la planificación de los censos y lograr, de esta manera su realización en 1961, llevándose a cabo un empadronamiento “de Facto o de Hecho”; es decir que se enumeró a todas las personas que estaban presentes en el territorio nacional la noche del 1º de mayo de 1961. Por consiguiente, se incluyó a todos los habitantes que estaban vivos hasta las 12 de la noche del 1º de mayo, aun cuando hubieran muerto después y se excluyó a los que nacieron después de esa noche. En 1971 se ejecutó el levantamiento del Tercer Censo de Vivienda y Cuarto Censo de Población.
En el Tercer Censo Nacional de Vivienda, los datos contenidos registraron las principa les características de la vivienda en El Salvador, referidos a las 12 de la noche del 27 de junio de 1971. El tercer Censo Nacional de Vivienda, fue de gran magnitud, lo cual imposibilitaba incluir la totalmente en dicha publicación; sin embargo la Dirección General, estuvo en la posibilidad de atender y satisfacer a los usuarios que requerían información censal adicional, sobre este tema. El Censo de 1971 investigó dos clases de viviendas: particulares y colectivas. Por primera vez se puso en práctica en el país el sistema de auto-enumeración. Este sistema consistió en que cada jefe de familia anotará en la boleta censal los datos de la vivienda. Este sistema se utilizó solamente para las viviendas de los empleados públicos y se alcanzaron resultados muy satisfactorios.
16
CUADERNO DE ESTADISTICA Y PROBABILIDADES
El resto se enumeró por medio de entrevista directa. También se levantó en este año el Cuarto Censo Nacional
de Población,
el cual se realizó
sobre la base de “Facto”.
Se incluyeron varios conceptos investigados en el Censo de 1961, a fin de conocer los cambios experimentados en algunas características de la población y conservar la comparación entre este Censo y los anteriores; además se investigaron otros conceptos considerados de interés nacional. Los Censos Nacionales V Censo de Población y IV Censo de Vivienda, que estaba programados para ser levantados en octubre de 1980, fueron suspendidos dos días antes de iniciar la enumeración, debido a diversos actos de violencia ocasionados directamente a distintas Sedes Censales y la Oficina Central de los Censos. Este acontecimiento dejo al país sin la información indispensable, con una base estadística confiable para llevar adelante planes y programas de desarrollo, y sin un marco muestral actualizado que sirviera de referencia para las encuestas especializadas y una base adecuada para la actualización anual de la población. Fue hasta los años de 1989 – 1990
El personal de la DIGESTYC, gestionó la realización de los Censos Nacionales V Censo de Población y IV de Vivienda, con el apoyo de funcionarios del Fondo de Población de las Naciones Unidas y con la visión del Ministerio de Economía y del Presidente de la República de ese período. En 1992
Se realizó el levantamiento de los Censos Nacionales V Censo de Población y IV de Vivienda, siendo este el último Censo realizado por la Institución hasta la fecha. El empadronamiento en el Censo V de Población y IV Vivienda se realizó de acuerdo al concepto de “Jure o Derecho”, es decir se enumeraron a las personas según el lugar de residencia habitual. Siendo el primer Censo que se ejecutó bajo este criterio.
17
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Este Censo tiene cobertura nacional, se empadronó mediante entrevista directa a todas las personas residentes tanto en el área urbana como en el área rural del país, así también la correspondiente enumeración de las viviendas. En Mayo del 2007.
El Ministerio de Economía a través de la Dirección General de Estadística y Censos está planificando el levantamiento del VI Censo de Población y V de Vivienda, evento de interés nacional que se llevará a cabo entre el 12 y 27 de mayo del corriente año. Esta actividad que no se ejecuta desde 1992, es el proyecto de mayor magnitud que se realiza en el marco del programa de actualización de la base estadísticas nacionales y es reconocida como la movilización civil de mayor magnitud en tiempos de paz. Esta tarea de interés nacional cuenta con el apoyo de Organismos Internacionales a través del Fondo de Población de las Naciones Unidas (UNFPA); Banco Interamericano de Desarrollo (BID), el Gobierno de Japón, CELADE, Bureau del Census de Estados Unidos y el Gobierno de El Salvador (GOES). Los Censos Nacionales VI Censo de Población y V Censo de Vivienda serán los segundos Censos que se realizaran bajo el criterio de “Jure o Derecho”. Siendo realizados 15 años después del último en el 1992.
Antecedentes de los censos nacionales en El Salvador.
El 5 de noviembre de 1881, siendo Presidente el Dr. Rafael Zaldivar, el Supremo Gobierno emitió el Decreto de Fundación de la Oficina de Estadísticas, como dependencia del Ministerio de Gobernación, iniciándose en esa fecha los trabajos que por mandato legal le fueron encomendados, especialmente los relacionados con recuentos Censales de población, que se comenzaron en 1,882. El Servicio Estadístico también perteneció al Ramo de Hacienda, según aparece en el Decreto Legislativo N° 55 del mes de septiembre de 1940, correspondiente a la Ley Orgánica 18
CUADERNO DE ESTADISTICA Y PROBABILIDADES
respectiva, en donde dice: “Capítulo I Art. 1° El Servicio Estadístico es una dependencia del Poder Ejecutivo en el Ramo de Hacienda. Tiene por objeto investigar, recopilar, y unificar toda estadística en El Salvador, para la mejor observación, estudio y explicación de las condiciones exigencias sociales existentes en el mismo. Posteriormente, como resultado de acuerdos tomados en su oportunidad, la Oficina de Estadísticas de la Naciones Unidas y el Instituto Interamericano de Estadístic as (IASI). Departamento
de Estadísticas
de la Organización
de Estados Americanos
(OEA),
organizaron el Programa de Censo de las Américas de 1950, único simultáneo en la historia y con el cual se inició la etapa de levantamiento de censos nacionales con miras a que hubiese comparabilidad de los resultados obtenidos por todos los países.
En cumplimiento de este Programa, el Gobierno de El Salvador creó el Departamento Nacional del Censo, por Decreto Legislativo N° 613 del 2 de junio de 1950, como instituc ió n autónoma cuya función específica fue la de llevar a cabo los Censos Nacionales de Población, Vivienda y Agropecuario de 1950.
Por ser el levantamiento de los Censos Nacionales es una de las principales tareas que las leyes de la materia fijan a las oficinas de Estadísticas, se presenta un listado de los Censos que en nuestro país se han realizado desde su fundación.
El levantamiento de los Censos Nacionales en una de las principales tareas que las leyes de la materia fijan a las oficinas de Estadísticas. En nuestro país, desde que fue fundada la Oficina Central de Estadísticas en 1881 hasta la fecha, se han realizado los Censos siguientes : 1882 Censo General de Población de la República. 1883 Primer Censo Escolar. 1892 Censo de Población de la República. 1901 Censo de Población. 1903 Censo Escolar de la República de El Salvador. 1930 Primer Censo de Población.
19
CUADERNO DE ESTADISTICA Y PROBABILIDADES
1940 Primer Censo del Café, levantado por Compañía Salvadoreña del Café. 1950 Primer Censo Agropecuario. Primer Censo de Vivienda Urbano. Segundo Censo de Población. 1951 Primer Censo Industrial y Comercial. 1956 Segundo Censo Industrial y Comercial. 1958 Segundo Censo del Café. 1961 Segundo Censo Agropecuario. Segundo Censo de Vivienda Urbana. Tercer Censo de Población. Tercer Censo Industrial, Comercial y Servicios. 1971 Tercer Censo Agropecuario. Tercer Censo de Vivienda. Cuarto Censo de Población. 1972 Cuarto Censo Económico: Manufactura, Agroindustrias, Comercio, y Servicios. 1979 Quinto Censo Económico: Manufactura,
Agroindustrias,
Comercio, Servicios,
Electricidad, Construcción, Transporte Comercial por Carretera. 1980 Preparación de los recursos humanos y de la documentación necesaria para el levantamiento de los Censos Nacionales: V de Población y IV de Vivienda (factores imprevistos impidieron su realización). 1990 Desarrollo de la etapa preparatoria de los Censos Nacionales: V de Población, IV de Vivienda y VI Económico. 1992 Desarrollo del Censo V de Población y VI de Vivienda. Desarrollo de los VI Censos Económicos. (En realidad seria el IV de vivienda por no haberse realizado en 1990) 2007 mayo se realizó el Censo VI de población y el V de vivienda El Salvador tiene una población de 5.744.113 millones de habitantes, en su escaso territorio de 20.742 kilómetros cuadrados según la DIGESTYC os datos del censo que se realizó entre el 12 y el 27 de mayo de 2007 con el respaldo del Fondo de Población de la Organización de las Naciones Unidas (UNFPA) y el Banco Interamericano de Desarrollo (BID), confirma un crecimiento poblacional menor a la proyección trazada que era de 7,1 millones de personas.
20
CUADERNO DE ESTADISTICA Y PROBABILIDADES
El censo, que en forma oficial fue presentado por el gobierno el lunes, demostró además que el 62,7% de la población es urbana y el 37,2% vive en zonas rurales.
Del total de población, el 52,7% son mujeres y el 47,3% son hombres, lo que lleva a la DIGESTYC a concluir que por cada 100 mujeres hay 90 hombres.
La mayor concentración de población, la tiene la capital, San Salvador, con 1.567.156 personas, le siguen los departamentos de La Libertad con 660.652; Santa Ana, en el oeste del país, con 523.655 y San Miguel, en el este, con 238.217.
La densidad de población de El Salvador es de 276,9 habitantes por kilómetro cuadrado, el país más densamente poblado de Centroamérica, sólo superado por países del Caribe.
El grupo de población mayoritario, oscila entre los 10 y los 14 años.
Analistas económicos, comentaron al matutino que los nuevos datos de población obligan a replantear las políticas públicas de inversión social y ajustar los índices de desarrollo, que estaban planteados con una proyección de más de 7 millones de personas. Resumen del último censo
El informe final sobre el censo en El Salvador indica que hay 5, 744,113 habitantes, de los cuales el 52.7% son mujeres, y el restante 47.3% son hombres. Es decir, por cada 100 mujeres hay 90 hombres. Además, el 62.7% de las personas habita en el área urbana, y el 37.2% se ubica en el área rural. Con 21,040 kilómetros cuadrados —cifra que aún incluye los bolsones perdidos en La Haya—, El Salvador es uno de los países más poblados del continente. “Los 273 habitantes por kilómetro cuadrado hacen de El Salvador el país más densamente poblado, solamente superado por países del Caribe”, señala el reporte.
21
CUADERNO DE ESTADISTICA Y PROBABILIDADES
De hecho, San Salvador y la zona metropolitana concentran a la mayor cantidad de personas. En la capital, la densidad poblacional es de 1,768 habitantes por kilómetro cuadrado; le sigue La Libertad, con 400. En tanto, Chalatenango tiene la menor cantidad de habitantes de El Salvador, con 96 habitantes por kilómetro cuadrado. Así, el municipio más poblado del país es San Salvador, con más de 300,000 habitantes, según los datos del censo. Una población joven
Con respecto a la estructura de la población en 2007, el grupo de edad más numeroso se ubica entre los 10 y los 14 años, nacimientos ocurridos, entre 1992 y 1997, años inmediatame nte posteriores a la firma de los Acuerdo de Paz. “Se recupera en parte la natalidad, la finalización del conflicto interno que vivió el país, hizo que nacimientos postergados por las parejas, se tuvieran en esos años”, dice el informe. Sin embargo, también ha habido un descenso en la fecundidad entre 1998 y 2002, evidenciado porque el grupo de población entre cinco y nueve años resulta menor que la de 10 a 14 años. Menos dependientes
Otro hallazgo del censo es la reducción en la proporción de la población que es dependiente, con respecto a la población económicamente activa. En 1992, había 78 personas dependientes por cada 100 en edades activas. Para 2007, había 69 dependientes por cada 100 activos. El informe explica que este comportamiento, desde el punto de vista demográfico, se constituye en una coyuntura favorable. “Se incrementa sensiblemente la población en edades activas, es decir, de aquellos que tienen que dar respuesta a las necesidades de bienes y servicios de toda la población”, indicó. Según el ritmo de nacimientos, en el futuro la cantidad de población dependiente continuará bajando en los próximos 20 a 30 años, hasta que llega el momento en que los trabajadores activos llegan a la edad de jubilación.
22
CUADERNO DE ESTADISTICA Y PROBABILIDADES
1.3 Historia de la Probabilidad Hasta ahora la ESTADÍSTICA estaba constituida sólo por datos. Faltaba otra componente muy importante para que se convirtiera en ciencia
La teoría de la probabilidad Es una disciplina matemática que fundamenta la Estadística como una lógica y una metodología para la medición y el estudio de la incertidumbre en la planeación e interpretación de la observación y la experimentación.
23
CUADERNO DE ESTADISTICA Y PROBABILIDADES
24
CUADERNO DE ESTADISTICA Y PROBABILIDADES
1.4 Conceptos Básicos Estadística es la ciencia de recolectar, organizar, presentar, analizar e interpretar datos numéricos que ayuda a tomar las mejores decisiones Variable: Característica que puede tomar diferentes valores. Generalmente se simboliza con las últimas letras del alfabeto. Una variable estadística es cada una de las características o cualidades que poseen los individuos de una población Si la variable toma solamente un valor entonces se llama constante. Población: es un grupo de individuos, objetos o medidas de interés. Muestra es una porción, o parte, de la población que interesa. Dato estadístico es cada uno de los valores que se ha obtenido al realizar un estudio estadístico. Si lanzamos una moneda al aire 5 veces obtenemos 5 datos: cara, cara, corona, cara, corona. Los datos pueden ser discretos y continuos según la variable que se estudia.
1.5 Tipos de Estadística Estadística descriptiva: organización, resumen y presentación de los datos de manera informativa. Estadística inferencial o probabilística: es una decisión, estimación, predicción o generalización tomada sobre una población con base en una muestra. EJEMPLO 1. Las Televisoras
monitorean la popularidad de sus programas de manera
continua, para ello contratan los servicios de organizaciones que muestrean la preferencia de los televidentes. EJEMPLO 2. El departamento de contabilidad de una empresa selecciona una muestra de las facturas para verificar los errores de todas las facturas de la compañía. EJEMPLO 3. Los catadores de vino beben unas gotas para tomar una decisión con respecto a todo el vino que se venderá.
25
CUADERNO DE ESTADISTICA Y PROBABILIDADES
1.6 Tipos de variables
Discretas
Cuantitativas
Continuas
Variables Cualitativas
Ordinal
Nominal 1.6.1 Variable cualitativa Las variables cualitativas se refieren a características o cualidades que no pueden ser medidas con números. Podemos distinguir dos tipos: Variable cualitativa nominal
Una variable cualitativa nominal presenta modalidades no numéricas que no admiten un criterio de orden. Por ejemplo: El estado civil, con las siguientes modalidades: soltero, casado, separado, divorciado y viudo. Variable cualitativa ordinal o variable cuasi cuantitativa
Una variable cualitativa ordinal presenta modalidades no numéricas, en las que existe un orden. Por ejemplo: La nota en un examen: suspenso, aprobado, notable, sobresaliente. Puesto conseguido en una prueba deportiva: 1º, 2º, 3º,... Medallas de una prueba deportiva: oro, plata, bronce.
26
CUADERNO DE ESTADISTICA Y PROBABILIDADES
1.6.2 Variable cuantitativa Una variable cuantitativa es la que se expresa mediante un número, por tanto se pueden realizar operaciones aritméticas con ella. Podemos distinguir dos tipos: Variable discreta
Una variable discreta es aquella que toma valores aislados, es decir no admite valores intermedios entre dos valores específicos. Por ejemplo: El número de hermanos de 5 amigos: 2, 1, 0, 1, 3. Variable continúa
Una variable continua es aquella que puede tomar valores comprendidos entre dos números. Por ejemplo: La altura de los 5 amigos: 1.73, 1.82, 1.77, 1.69, 1.75. En la práctica medimos la altura con dos decimales, pero también se podría dar con tres decimales. 1.6.3 Variable aleatoria Se llama variable aleatoria a toda función que asocia a cada elemento del espacio muestra E un número real. Se utilizan letras mayúsculas X, Y,... para designar variables aleatorias, y las respectivas minúsculas (x, y,...) para designar valores concretos de las mismas. Variable aleatoria discreta
Una variable aleatoria discreta es aquella que sólo puede tomar valores enteros. Ejemplos El número de hijos de una familia, la puntuación obtenida al lanzar un dado. Variable aleatoria continúa
Una variable aleatoria continua es aquella que puede tomar todos los valores posibles dentro de un cierto intervalo de la recta real. Variable Independiente
Es la que explica, condiciona o determina cambios en otra llamada dependiente, es decir es la supuesta causa de los cambios que se operan en la variable Dependiente. Variable Dependiente: Es la que explicada, condicionada o determinada por la variable independiente. 27
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Variable Interviniente: Es aquella que puede influir entre la variable independiente y la variable dependiente, es decir que puede influir entre el estímulo y respuesta. 1.7 Escalas de medición Las escalas de medidas constituyen una metodología o convención para medir distintas magnitudes. 1.7.1 Escala nominal (escalado) Una variable cualitativa nominal presenta modalidades no numéricas que no admiten un criterio de orden. Por ejemplo: El estado civil, con las siguientes modalidades: soltero, casado, separado, divorciado y viudo. 1.7.2 Escala ordinal Presenta modalidades no numéricas, en las que existe un orden. Por ejemplo: i.
La nota en un examen: NM, REGULAR, BUENO, MB, EXCELENTE.
ii.
Puesto conseguido en una prueba deportiva: 1º, 2º, 3º,
iii.
Medallas de una prueba deportiva: oro, plata, bronce.
iv.
Durante una prueba gastronómica de 4 platillos, el C se clasificó número 1; el B, número 2; el A, número 3, y el D, número 4.
1.7.3 Escala de intervalo Es semejante al nivel ordinal. Tiene la propiedad adicional de que pueden determinarse las diferencias entre los valores de los datos. No existe naturalmente ningún cero. No solo interesa conocer si un elemento es superior o igual o inferior a otro en relación a una propiedad sino también en qué medida. Ejemplo: La temperatura en la escala Fahrenheit. 1.7.4 Escala de razón
Tiene las características del nivel de intervalo con un punto de inicio cero absolutos. Las diferencias y las divisiones tienen significado en este nivel de medición. Ejemplo: Cantidades de dinero, altura de los jugadores de la NBA.
28
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Variable independiente
Variable Dependiente
• Es la que explica, condiciona o determina cambios en otra llamada dependiente, es decir es la supuesta causa de los cambios que se operan en la var. Dependiente.
• Es la que explicada, condicionada o determinada por la variable independiente.
Variable interviniente • Es aquella que puede influir entre la variable independiente y la variable dependiente, es decir que puede influir entre el estimulo y respuesta.
1.7.5 Ejercicios prácticos Indica que variables son cualitativas y cuales cuantitativas: a) Comida Favorita b) Profesión que te gusta.
c) Número de goles marcados por el alianza en la temporada d) Número
de
alumnos
de
la
Universidad Entre las siguientes variables; Rendimiento académico y coeficiente de inteligencia: a) La variable independiente, es…
b) La variable dependiente, es…
29
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Los números pueden ser usados, al menos en 4 maneras diferentes, escriba que escala que se usaría: a) Como rótulos, identificaciones o etiquetas b) Como signos para indicar la
posición de un grado dentro de una series c) Como signos para indicar la diferencia
entre
dos
o
más
instancias en una escala d) Como
signos
para
indicar
proporciones entre dos o más instancias en una escala. En que escala de medida está basada las respuestas al siguiente cuestionario : a) ¿Cuál es su nombre? b) ¿Cuál es su estatura? c) ¿Cuál es su peso? d) ¿Cuál es su estado civil? e) ¿Cuál es su ocupación? f) ¿Cuál es su cum?
30
CUADERNO DE ESTADISTICA Y PROBABILIDADES
1.8 Comprobación de Hipótesis: Distribución de Chi cuadrado Etapas Básicas en Pruebas de Hipótesis. Al realizar pruebas de hipótesis, se parte de un valor supuesto (hipotético) en parámetro poblacional. Después de recolectar una muestra aleatoria, se compara la estadística muestral, así como la media (x), con el parámetro hipotético, se compara con una supuesta media poblacional (µ). Después se acepta o se rechaza el valor hipotético, según proceda. Se rechaza el valor hipotético sólo si el resultado muestral resulta muy poco probable cuando la hipótesis es cierta. •
Una hipótesis estadística se denota por “H” y son dos:
•
Ho: hipótesis nula
•
H1: hipótesis alternativa
El término “hipótesis “deriva del griego y significa suponer o poner bajo consideración. Una hipótesis es un supuesto que puede ser verdadero o puede ser falso ; la característica principal y más elemental de una hipótesis tiene que ver con su calidad de proposición, de posibilidad o de sugerencia que debe ser todavía comprobada y aprobada para transformarse finalme nte en una aseveración o teoría científica Etapas Etapa 1.- Planear la hipótesis nula y la hipótesis alternativa. La hipótesis nula (H0) es el valor hipotético del parámetro que se compra con el resultado muestral resulta muy poco probable cuando la hipótesis es cierta. Etapa 2.- Especificar el nivel de significancia que se va a utilizar. El nivel de significa nc ia del 5% o según lo establecido, entonces se rechaza la hipótesis nula solamente si el resultado muestral es tan diferente del valor hipotético que una diferencia de esa magnitud o mayor, pudiera ocurrir aleatoria mente con una probabilidad de 1.05 o menos.
31
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Etapa 3.- Elegir la estadística de prueba. La estadística de prueba puede ser la estadística muestral (el estimador no segado del parámetro que se prueba) o una versión transformada de esa estadística muestral. Por ejemplo, para probar el valor hipotético de una media poblacional, se toma la media de una muestra aleatoria de esa distribución normal, entonces es común que se transforme la media en un valor z el cual, a su vez, sirve como estadística de prueba. Etapa 4.- Establecer el valor o valores críticos de la estadística de prueba. Habiendo especificado la hipótesis nula, el nivel de significancia y la estadística de prueba que se van a utilizar, se produce a establecer el o los valores críticos de estadística de prueba. Puede haber uno o más de esos valores, dependiendo de si se va a realizar una prueba de uno o dos extremos. Etapa 5.- Determinar el valor real de la estadística de prueba. Por ejemplo, al probar un valor hipotético de la media poblacional, se toma una muestra aleatoria y se determina el valor de la media muestral. Si el valor crítico que se establece es un valor de z, entonces se transforma la media muestral en un valor de z. Etapa 6.- Tomar la decisión. Se compara el valor observado de la estadística muestral con el valor (o valores) críticos de la estadística de prueba. Después se acepta o se rechaza la hipótesis nula. Si se rechaza ésta, se acepta la alternativa; a su vez, esta decisión tendrá efecto sobre otras decisiones de los administradores operativos, como por ejemplo, mantener o no un estándar de desempeño o cuál de dos estrategias de mercadotecnia utilizar.
32
CUADERNO DE ESTADISTICA Y PROBABILIDADES
1.8.1 Consecuencias de las Decisiones en Pruebas de Hipótesis.
Errores de tipo I y de tipo II. Si rechazamos una hipótesis cuando debiera ser aceptada, diremos que se ha cometido un error de tipo I. Por otra parte, si aceptamos una hipótesis que debiera ser rechazada, diremos que se cometió un error de tipo II. En ambos casos, se ha producido un juicio erróneo. Para que las reglas de decisión (o no contraste de hipótesis) sean buenos, deben diseñarse de modo que minimicen los errores de la decisión; y no es una cuestión sencilla, porque para cualquier tamaño de la muestra, un intento de disminuir un tipo de error suele ir acompañado de un crecimiento del otro tipo. En la práctica, un tipo de error puede ser más grave que el otro, y debe alcanzarse un compromiso que disminuya el error más grave
1.8.2 Prueba de Chi-cuadrado
A la prueba “Chi-cuadrado” se le llama coeficiente X². Debe usarse cuando los datos obtenidos en su investigación son de nivel nominal (es decir, asigna sujetos a categoría). Esto significa que en lugar de medir los puntajes de los sujetos, sólo es posible asignar los sujetos a una o más categorías. Además sólo puede usarse cuando se asigna sujetos diferentes a cada grupo
33
CUADERNO DE ESTADISTICA Y PROBABILIDADES
El objetivo de la prueba de Chi-cuadrado es comparar las frecuencias observadas ( fo ) en cada una de las casillas de un cuadro de doble entrada, con frecuencias esperadas ( fe ) para cada una, si las diferencias entre ambas se debieran al azar, como lo afirma la hipótesis nula Ho .
1.8.3 Calculo de X2
El valor observado del estadístico X2 (Chi-cuadrado), viene dado por la siguiente fórmula: (fo fe )2 fe i n n
X2
Dónde: fo= Frecuencia observada de realización de un acontecimiento o evento determinado. fe = Frecuencia esperada o teórica, que se
determina de acuerdo al enunciado de la
hipótesis nula Ho.
Limitaciones de Chi-cuadrada.
El uso de la Chi-cuadrada tiene dos limitaciones: 1- Cuando al resolver el problema solo existe un grado de libertad, esto es para tablas de 2 x 2. 2- La Chi-cuadrada, solamente debe usarse cuando las frecuencias esperadas sean mayores o iguales a cinco, en todas las celdas ( fe ≥5 ).
Ejemplo del Chi cuadrado
Supongamos que se tiene una muestra de 340 personas, cada una de las cuales ha dado su opinión en términos de “ACUERDO”
y “DESACUERDO ” frente a la proporción:
“El
respeto a la autoridad define a un buen ciudadano”. Para ello se le pregunto cuál era su nivel de instrucción: alto, medio, bajo. 34
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Si queremos establecer la posible asociación entre las respuestas obtenidas y el nivel de instrucción a un nivel de significación del 0.001 ó
0.1%, disponemos los datos en la
siguiente tabla: Datos:
Respuestas Nivel Instrucción Alto
de
Acuerdo
35
Desacuerdo
Total 45
10 (4)
(1) Medio
30
138
108 (5)
(2) Bajo
112
157
45 (6)
(3) Total
177
163
340
Procedimiento Paso 1. Planteamos la hipótesis Nula y la alternativa o también llamada de trabajo
•
Ho : hipótesis nula
•
H2 : hipótesis de trabajo
Paso 2. Establecemos el nivel de significancia que queremos comprobar Paso 3. Encontramos el Chi cuadrado calculado
Para poder aplicar Chi-cuadrado calculado, debemos hacer lo siguiente: •
Encontrar la diferencia entre cada frecuencia observada y la correspondiente frecuencia esperada, para lo cual se sugiere numerar las celdas.
•
Elevar al cuadrado estas diferencias. 35
CUADERNO DE ESTADISTICA Y PROBABILIDADES
•
Dividir cada diferencia elevada al cuadrado entre la correspondiente frecuencia esperada.
•
Sumar los cocientes resultantes (divisiones realizadas).
El valor de la suma encontrada será el X2 calculado fe
(Total marginal de renglón o fila)(Tota l marginal de columna) N
N = número total de frecuencias observadas. fe1
fe2
45x177 340
138x177
fe3
fe4
23.4
71.8
45x163 340
fe5
138x163
fe6
157x163
340
340
157x177 340
81.7
21.6
340
66.2
75.3
Por lo tanto n
X2 i n
(fo fe )2 86.13 fe
Paso 4: Encontramos el valor del Chi cuadrado teórico,
Utilizamos las tablas de Chi cuadrado de la siguiente manera: Para comparar los resultados, debemos escoger los grados de libertad: Grados de Libertad ( V , gl , DF) = ( filas - 1 ) (columnas - 1) Para comparar los resultados, debemos escoger los grados de libertad.
Grados de Libertad ( V ) Para este caso:
=
( filas - 1 ) (columnas - 1 ).
V = ( 3 – 1) ( 2 – 1 ) = ( 2 ) ( 1 ) = 2
36
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Si usamos un nivel de significación del 0.001 ó 0.1% entonces tendríamos: X²t = 13.8
y
X2c = 86.13
Donde: X²t = Chi- cuadrado teórico, buscado en tabla, con 2 grados de libertad y un nivel de significación del 0.001 o 0.1%. X²c = Chi-cuadrado calculado.
Paso 5: Contrastar el valor X² calculado con el teórico.
Aceptar o rechazar hipótesis de trabajo según: X2 t < X2 c Rechazamos la hipótesis H0 y aceptamos H1 X2 t >
X2 c Rechazamos la hipótesis H1 y aceptamos Ho
Comparación del Chi cuadrado 86.13 es el valor es el calculado. Si tomamos en cuenta las hipótesis; tendremos: •
H1 = El respeto a la autoridad está influido por el nivel educativo de las personas.
•
H0 = El respeto a la autoridad no está influido por el nivel educativo de las personas.
Donde: H0 = Es la hipótesis nula y H1 = Es la hipótesis de trabajo. Conclusión: Como el valor teórico es menor al valor calculado, es decir: X2 t < X²c ( 13.8 < 86.13 ) ,
Rechazamos la hipótesis H0 y aceptamos H1, que dice que el respeto a la autoridad está influenciada por el nivel educativo. Lo cual indica que las variables están asociadas, en otras palabras que la distribución de frecuencias en la tabla no se debe al azar. 37
CUADERNO DE ESTADISTICA Y PROBABILIDADES
1.8.4 Ejercicios resueltos de Chi-cuadrado (X2) Ejercicio 1 Supongamos que la PNC está interesado a calcular la asociación entre el uso de cinturón de seguridad en vehículos particulares y el nivel socio-económico del conductor del vehículo en San Salvador tomando un nivel de significancia del 5%. Elabore y compruebe una hipótesis adecuada. Para ello se toma una muestra de conductores a quienes se clasifica en una tabla de asociación, encontrando los siguientes resultados:
Datos: Variable dependiente
Se deben enumerar las celdas verticalmente.
Variable independiente
Total de fila, suma
Nivel socio-económico
Uso del cinturón
Base
Medio
Alto
Si
8 (1)
15(3)
28(5)
51
No
13(2)
16(4)
14(6)
43
Total
21
31
42
94
Total
Total de columna.
Procedimiento: Paso 1. Planteamos la hipótesis Nula y la alternativa o también llamada de trabajo •
Ho : hipótesis nula( es importantes identificar la variable dependiente e independientes ya que de ello depende como se formularan las hipótesis, la hipótesis nula se formula según la variable independiente) en este caso: “El nivel socio-económico influye en el uso del cinturón de seguridad”
•
H2 : hipótesis de trabajo (Se formula según la variable dependientes)
38
CUADERNO DE ESTADISTICA Y PROBABILIDADES
â&#x20AC;&#x153;El uso del cinturĂłn es irrelevantes en el nivel socio econĂłmicoâ&#x20AC;? Paso 2. Establecemos el nivel de significancia que queremos comprobar El nivel de significancia es representada por alfa= Îą Îą = 5% Paso 3. Encontramos el Chi cuadrado calculado. ď&#x201A;ˇ
Para encontrarlo debemos calcular Fe(Frecuencia esperada) con la siguiente formula: Fe=
đ?&#x2018;&#x2021;đ?&#x2018;&#x153;đ?&#x2018;Ąđ?&#x2018;&#x17D;đ?&#x2018;&#x2122; đ?&#x2018;&#x2018;đ?&#x2018;&#x2019; đ?&#x2018;&#x201C;đ?&#x2018;&#x2013;đ?&#x2018;&#x2122;đ?&#x2018;&#x17D; đ?&#x2018;&#x2039; đ?&#x2018;&#x2021;đ?&#x2018;&#x153;đ?&#x2018;Ąđ?&#x2018;&#x17D;đ?&#x2018;&#x2122; đ?&#x2018;&#x2018;đ?&#x2018;&#x2019; đ?&#x2018;?đ?&#x2018;&#x153;đ?&#x2018;&#x2122;đ?&#x2018;˘đ?&#x2018;&#x161;đ?&#x2018;&#x203A;đ?&#x2018;&#x17D; đ?&#x2018;&#x2021;đ?&#x2018;&#x153;đ?&#x2018;Ąđ?&#x2018;&#x17D;đ?&#x2018;&#x2122; đ?&#x2018;&#x2018;đ?&#x2018;&#x2019; đ?&#x2018;&#x2018;đ?&#x2018;&#x17D;đ?&#x2018;Ąđ?&#x2018;&#x153;đ?&#x2018;
Celda 1
F1=
51 đ?&#x2018;&#x2039; 21
F2=
43 đ?&#x2018;&#x2039; 21
F3=
51 đ?&#x2018;&#x2039; 31
91
91
91
= 11.3936 = 9.6064 = 16.8191
F4=
43 đ?&#x2018;&#x2039; 31
F5=
51 đ?&#x2018;&#x2039; 42
F3=
43 đ?&#x2018;&#x2039; 42
91
91
91
= 14.1801 = 22.7872 = 19.2128
Para calcular el Chi-cuadrado (X2 ) se utiliza la siguiente formula: X2 C= (Fo-Fe)2 /Fe Para aplicar la formula se debe a realizar la tabla siguiente. En Fe, deben ir los datos calculados anteriormente, en su respectivo orden.
En Fo se deben poner los valores que se encuentran en las celdas enumeradas de la tabla de datos.
Valor de celda Resultado del cĂĄlculo F1
Fo 8 13 15 16 28 14 Tota
Fe 11.3936 9.6064 16.8191 14.1809 22.7872 19.2128
(Fo-Fe) -3.3936 3.3936 -11.8191 1.8191 5.2128 -5.2128
(Fo-Fe)2 11.5165 11.5165 3.3091 3.3091 27.1732 27.1732
(Fo-Fe)2 /Fe 1.0107 1.1988 0.1967 0.2333 1.1924 1.1443 5.2463
Sumar X2Calculado 39
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Paso 4: Encontramos el valor del Chi-cuadrado teórico, utilizando las tablas de Chi cuadrado de la siguiente manera: Para comparar los resultados, debemos calcular los grados de libertad: Grados de Libertad (gl)= (filas - 1) (columnas - 1) En nuestro caso:
Las filas son dos ya que en el uso del cinturón solo tenemos dos opciones “si” y “no”.
gl= (2-1)(3-1)=1(2)=2 Las columnas son tres ya que en el nivel de socioeconómico solo tenemos tres opciones Base, Medio y Alto.
Paso 5: Contrastar el valor X2 calculado con el teórico. En este paso vamos a comparar. Para ello debemos buscar el valor en la tabla Chi-cuadrado Nuestro grado de libertad es 2
Nuestro nivel de significancia es 5% = 0.05
Entonces nuestro Chi-cuadrado de tabla es : 5.9915
40
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Comparando:
Acá se utiliza el operador > el cual significa “mayor que”. Visualizamos que el Chi-cuadrado de tabla es mayor que el Chi-cuadrado calculado.
X2t = 5.9915 > X2 C=5.2463
5.9915 > 5.2463
Paso 6: Análisis o conclusión. Dado que el Chi-cuadrado de tabla es mayor que el Chi-cuadrado calculado rechazamos la hipótesis de trabajo y aceptamos la hipótesis “El uso del cinturón es irrelevante al nivel socioeconómico” Ejercicio 2 El ministerio de gobernación desea estudiar hasta qué punto existe relación entre el tiempo de residencia de inmigrantes en nuestro país y su percepción de integración es decir de sentirse salvadoreños. Se dispone de una muestra pequeña de 230 inmigrantes en l as que se les evaluó en ambas variables obteniéndose la siguiente tabla de frecuencia observada. Variable dependiente
Variable independiente Grado de integración Tiempo de residencia
Bajo
Alto
Total
Más tiempo
40 (1)
90(3)
130
Menos tiempo
90(2)
10(4)
100
Total
130
100
230
Enumeración de celdas
Nota: Es importante analizar la cantidad de datos que nos dan especialmente la cantidad de filas y columnas, porque acá vemos que es un grado de libertad de 2X2=1 recordando: Grado de libertad = (cantidad de filas -1) (cantidad de columnas – 1) Por lo tanto nuestra formula de Chi-cuadrado será:
X 2
f
o
fe 0.5
2
fe
Procedimiento Paso 1 Planteamiento de hipótesis H1 (hipótesis de trabajo) = “El tiempo de residencia influye en el su tiempo de 41
CUADERNO DE ESTADISTICA Y PROBABILIDADES
integraciĂłnâ&#x20AC;?. H0 (hipĂłtesis de obtenida)= â&#x20AC;&#x153;El grado de integraciĂłn es irrelevante en el tiempo de residenciaâ&#x20AC;?. Paso 2 Nivel de significancia. Nivel de significacia (Îą) = 10%
Paso 3 Calculo de Chi-cuadrado. đ?&#x2018;&#x2021;đ?&#x2018;&#x153;đ?&#x2018;Ąđ?&#x2018;&#x17D;đ?&#x2018;&#x2122; đ?&#x2018;&#x2018;đ?&#x2018;&#x2019; đ?&#x2018;&#x201C;đ?&#x2018;&#x2013;đ?&#x2018;&#x2122;đ?&#x2018;&#x17D; đ?&#x2018;&#x2039; đ?&#x2018;&#x2021;đ?&#x2018;&#x153;đ?&#x2018;Ąđ?&#x2018;&#x17D;đ?&#x2018;&#x2122; đ?&#x2018;&#x2018;đ?&#x2018;&#x2019; đ?&#x2018;?đ?&#x2018;&#x153;đ?&#x2018;&#x2122;đ?&#x2018;˘đ?&#x2018;&#x161;đ?&#x2018;&#x203A;đ?&#x2018;&#x17D;
Calculando Fe=
F1=
130 đ?&#x2018;&#x2039; 130
F2=
100đ?&#x2018;&#x2039; 130
230
230
đ?&#x2018;&#x2021;đ?&#x2018;&#x153;đ?&#x2018;Ąđ?&#x2018;&#x17D;đ?&#x2018;&#x2122; đ?&#x2018;&#x2018;đ?&#x2018;&#x2019; đ?&#x2018;&#x2018;đ?&#x2018;&#x17D;đ?&#x2018;Ąđ?&#x2018;&#x153;đ?&#x2018;
F3=
130 đ?&#x2018;&#x2039; 100
= 73.4782
F4=
100 đ?&#x2018;&#x2039; 100
= 56.5217
Valor de celdas enumeradas
Valor de Fe calculado anteriormente
230
230
= 43.4783
Recuerde que los resultados del valor absoluto siempre serĂĄn positivos.
Fo
fe
|fo-fe|
|fo-fe|-0.5
(|fo-fe|0.5) 2 /fe
40
73.4383
33.4383
32.9383
14.7733
90
56.5217
33.4783
32.9783
19.2416
90
56.5217
33.4783
32.9783
19.2416
10
434783
33.4783
32.9783
25.0140
Total =X2 C
= 56.5217
78.2705
42
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Con este ejemplo aprovecharemos a explicar otra forma de cĂłmo obtener el Chi-cuadrado calculado, para ello se utiliza la formula siguiente: 1 2
đ?&#x2018; (đ??´đ??ˇ â&#x2C6;&#x2019;đ??ľđ??ś â&#x2C6;&#x2019;( )đ?&#x2018; ) 2
X2 =
đ?&#x2018;&#x161;1đ?&#x2018;&#x161;2đ?&#x2018;&#x161;3đ?&#x2018;&#x161;4
Tiempo de residencia
Grado de integraciĂłn Bajo
Alto
Total
MĂĄs tiempo
40 (A)
90(C)
130(m3)
Menos tiempo
90(B)
10(D)
100(m4)
Total
130(m1)
100(m2)
230
Aplicando: X2 =
X2 = X2 =
De esta forma se debe utilizar las letras del alfabeto, en este caso son 4 celdas, entonces se cambian los nĂşmeros por letras, entonces quedara A, B, C, D. N ya se sabe que es el total de datos, la m son los totales, m1= columna 1, m2= columna 2, m3= fila 1, m4= fila2.
230 (40đ?&#x2018;&#x2039;10 )â&#x2C6;&#x2019;(90đ?&#x2018;&#x2039;90)â&#x2C6;&#x2019;( 0.5) 230) 2 130đ?&#x2018;&#x2039;100đ?&#x2018;&#x2039;130đ?&#x2018;&#x2039;100
230 (400â&#x2C6;&#x2019;8100 )â&#x2C6;&#x2019;( 0.5) 230) 2 130đ?&#x2018;&#x2039;100đ?&#x2018;&#x2039;130đ?&#x2018;&#x2039;100 230 (7700 â&#x2C6;&#x2019;( 0.5) 230 ) 2 130đ?&#x2018;&#x2039;100đ?&#x2018;&#x2039;130đ?&#x2018;&#x2039;100
X2 =78.2982
Paso 4 Encontrando Chi-cuadrado de tabla. Grado de libertad= 1 Î&#x2018;=10% = 0.01
43
CUADERNO DE ESTADISTICA Y PROBABILIDADES
X2t= 6.6349 Paso 5 Comparando resultados.
X2t= 6.6349 <
X2C= 78.2705
Paso 6 Conclusión Dado que el Chi-cuadrado de tabla es menor rechazamos la hipótesis obtenida y aceptamos la hipótesis “el tiempo de residencia influye en el grado de integración”.
Prueba de Student para 2 muestras relacionadas Paso 1. Establecemos las hipótesis de trabajo y nula Paso 2. Se establece el nivel de significancia Paso 3. Se determina Tc Paso 4. Se calcula Tt Paso 5. Se compara Tt – Tc Paso 6. Se hace una conclusión basados en el análisis del resultado. 44
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Ejemplo t student.
En una empresa industrial el gerente de ventas, ha puesto a disposiciĂłn dos tipo de publicidad y se los ha entregado a los vendedores: publicidad a colores y otro sin color. El gerente al finalizar el mes verifica las ventas realizadas por cada vendedor segĂşn el tipo de publicidad entregada. Xi= Ventas realizadas en miles de dĂłlares con publicidad a colores. Yi= Ventas realizadas en miles de dĂłlares con publicidad sin color. Probar: Que se venderĂĄ mĂĄs con la publicidad ilustrada que cuando se entrega publicidad sin color, usando un nivel de significancia de 0.05.
SoluciĂłn. Pasos a seguir. Paso 1 Establecer hipĂłtesis. Ho= â&#x20AC;&#x153;El promedio de ventas de la publicidad a colores es igual a la publicidad sin color â&#x20AC;?. m1 =m2 H1=â&#x20AC;?El promedio de ventas a colores es mayor que el promedio de ventas sin colorâ&#x20AC;?. m1>m2 Nota: a diferencia de chi-cuadrado en t student la formulaciĂłn de hipĂłtesis es primero hipĂłtesis obtenida y luego hipĂłtesis de trabajo.
Paso 2 Establecer significancia. Îą= 0.05 Paso 3 Determinar â&#x20AC;&#x153;tâ&#x20AC;? student calculado. Tc=
â&#x2C6;&#x2018; đ?&#x2018;&#x2018;đ?&#x2018;&#x2013; 2 đ?&#x2018;&#x203A; â&#x2C6;&#x2018; đ?&#x2018;&#x2018;đ?&#x2018;&#x2013;2 â&#x2C6;&#x2019;(â&#x2C6;&#x2018; đ?&#x2018;&#x2018;đ?&#x2018;&#x2013;)
â&#x2C6;&#x161;
đ?&#x2018;&#x203A;â&#x2C6;&#x2019;1
45
CUADERNO DE ESTADISTICA Y PROBABILIDADES
CreaciĂłn de tabla Dato proporcionados
di=ventas con publicidad a color â&#x20AC;&#x201C; ventas con publicidad sin color. 25-35 =-10
Venta con publicidad sin color(miles) 35 10
di
di2
1 2
Ventas con publicidad a colores(miles) 25 35
-10 25
100 625
3 4 5 6 7 8 9 10 total
30 15 20 35 65 45 15 20 315
15 20 35 40 25 35 20 25 260
15 -5 -15 -5 40 10 -5 -5 45
225 25 225 25 1600 100 25 25 2975
Vendedor
Aplicando, sustituyendo valores en formula. Tc=
â&#x2C6;&#x2018; đ?&#x2018;&#x2018;đ?&#x2018;&#x2013; 2 2 â&#x2C6;&#x161;đ?&#x2018;&#x203A; â&#x2C6;&#x2018; đ?&#x2018;&#x2018;đ?&#x2018;&#x2013; â&#x2C6;&#x2019;(â&#x2C6;&#x2018; đ?&#x2018;&#x2018;đ?&#x2018;&#x2013;) đ?&#x2018;&#x203A;â&#x2C6;&#x2019;1
=
45 10 ( 2975) â&#x2C6;&#x2019;(45 )2
= 0.810
â&#x2C6;&#x161;
10â&#x2C6;&#x2019;1
Paso 4 calcular t student de tabla. Îą=0.05
Grado de libertad (v)= n-1= 10-1= 9
46
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Nivel de significancia (α)
V (grado de libertad)= 9
T student de tabla (Tt) = 1.833.
Paso 5 Comparación de t student calculado y t student de tabla Recordando: Tt= 1.833 >
Tc=0.810
Tt< Tc = Entonces es aceptada la hipótesis de trabajo. Tt>Tc= Se acepta la hipótesis obtenida.
Paso 6 Conclusión. Según la comparación podemos visualizar que T student de tabla es mayor por lo tanto se concluye que el promedio de ventas a colores es igual a ventas sin color.
1.8.5 Cálculo del tamaño de la muestra
Existen de formas de encontrar el tamaño de la muestra: a)
Cuando no se conoce la población o sea esta demasiada grande N = Z2 PQ E2
b)
Cuando se conoce la población N=
Z2 PQ N 47
CUADERNO DE ESTADISTICA Y PROBABILIDADES
E2 (N-1)+ Z2 PQ Los conceptos básicos para poder entender las formulas: Error Muestral, (E) de estimación o Standard. Es la diferencia entre un estadístico y su parámetro correspondiente. Nos da una noción clara de hasta dónde y con qué probabilidad una estimación basada en una muestra se aleja del valor que se hubiera obtenido por medio de un censo completo. Siempre se comete un error, pero la naturaleza de la investigación nos indicará hasta qué medida podemos cometerlo. Varía según se calcule al principio o al final. Un estadístico será más preciso en cuanto y tanto su error es más pequeño. Podríamos decir que es la desviación de la distribución muestral de un estadístico y su fiabilidad. Nivel de Confianza. (“α” se estandariza para Z) Probabilidad de que la estimación efectuada se ajuste a la realidad. Cualquier información que queremos recoger está distribuida según una ley de probabilidad (Gauss o Student), así llamamos nivel de confianza a la probabilidad de que el intervalo construido en torno a un estadístico capte el verdadero valor del parámetro. TABLA DE APOYO AL CALCULO DEL TAMAÑO DE UNA MUESTRA POR NIVELES DE CONFIANZA Certeza
95%
94%
93%
92%
91%
90%
80%
62.27%
50%
Z
1.96
1.88
1.81
1.75
1.69
1.65
1.28
1
0.6745
Cálculo del tamaño de la muestra Cuando No se conoce la Población:
n
Z2 P Q E2
0
n
Z 2 pq e2
Z = El nivel de confianza o seguridad (1-α). El nivel de confianza prefijado da lugar a un coeficiente (Zα = Coeficiente estandarizado en la curva normal). Para una seguridad del 95% = 1.96, para una seguridad del 99% = 2.58. Más general se tiene: Según diferentes seguridades el coeficiente de Zα varía, así: 48
CUADERNO DE ESTADISTICA Y PROBABILIDADES
•
Si la seguridad Zα fuese del 90% el coeficiente sería 1.645 o aprox 1.65
•
Si la seguridad Zα fuese del 95% el coeficiente sería 1.96
•
Si la seguridad Zα fuese del 97.5% el coeficiente sería 2.24
•
Si la seguridad Zα fuese del 99% el coeficiente sería 2.576 o aprox 2.58
P = Probabilidad de éxito Q = Probabilidad de fracaso Se puede calcular de la siguiente manera Q = 1 - P La precisión que deseamos para nuestro estudio, que sería el error permisible que puede obtenerse En caso de no tener dicha información utilizaremos el valor p = 0.5 (50%).
Ejemplo: ¿A cuántas personas tendríamos que estudiar para conocer el grado de analfabetismo en san salvador? Seguridad = 95%; Precisión = 3%: Proporción esperada = asumamos que puede ser próxima al 5%; si no tuviésemos ninguna idea de dicha proporción utilizaríamos el valor p = 0,5 (50%) que maximiza el tamaño muestral: Dónde: •
Zα 2 = 1.962 (ya que la seguridad es del 95%)
•
p = proporción esperada (en este caso 5% = 0.05)
•
q = 1 – p (en este caso 1 – 0.05 = 0.95)
•
d = precisión (en este caso deseamos un 3%)
Cálculo de la muestra cuando se conoce la población
Si la población es finita, es decir conocemos el total de la población y deseásemos saber cuántos del total tendremos que estudiar la respuesta seria:
n
Z2 P Q N E 2 ( N 1) Z 2 PQ
0
n
Z 2 pqN e 2 ( N 1) Z 2 PQ
Dónde: 49
CUADERNO DE ESTADISTICA Y PROBABILIDADES
N
= Total de la población
Zα = 1.962 (si la seguridad es del 95%) p
= proporción esperada (en este caso 5% = 0.05)
q
= 1 – p (en este caso
1
-
0.05 = 0.95)
E ò d = precisión (en este caso deseamos un 3%). ¿A cuántas personas tendría que estudiar de una población de 15.000 estudiantes universitarios para conocer la prevalencia de SIDA? Seguridad = 95%; Precisión = 3%; proporción esperada = asumamos que puede ser próx ima al 5%; si no tuviese ninguna idea de dicha proporción utilizaríamos el valor p = 0.5 (50%) que maximiza el tamaño muestral.
EJERCICIO 1 En las últimas elecciones de el salvador han sido contratado para conocer la intención de voto en san salvador por lo que sea decidido tomar muestra en el centro comercial metro centro, Éxito es de 85%, Error 5%, Confianza 94%. DATOS: P: 0.85 E: 0.5 Q: 1-P Z= 94/2 = 0.47 ~Z=1.89 N = Z2 PQ E2 N= (1.89)2 (0.85) (0.15) (0.05)2 N= 182.17 ~ 183
EJERCICIO 2
50
CUADERNO DE ESTADISTICA Y PROBABILIDADES
El seguro tiene 600 empleados, se quiere saber el clima laboral, confianza 95%, error 10%, éxito 70%. DATOS: P= 0.70 E= 0.10 Q= 1-P N=
Z2 PQ N E2 (N-1) + Z2 PQ
N=
(1.96)2 (0.70) (0.30) (6000) (0.10)2 (6000-1)+ (1.96)2 (0.70)(0.30)
N= 100.01 ~ 101
Ejercicio de cálculo de la muestra.
Se requiere realizar una encuesta en la facultad de ingeniería la cual tiene 4500 alumnos inscritos. El objetivo del estudio es determinar entre otras cosas, la intencionalidad de seguir estudios de maestría, la probabilidad de éxito es del 60% de encontrar lo que se pide por parte del encuestador, el nivel de confianza se provee del 92% y un error del 6%. Determinar la cantidad de muestra a encuestar. Solución.
Paso 1 Determinar datos. N=4500 P=60% q= 40% E=6% Nivel de confianza= 92%
Si se tiene una probabilidad de éxito de un 60%, entonces se determina que existe la probabilidad de fracaso de un 40%. 60%+40%=100%, pero en el caso que no proporcionen probabilidad de éxito o de fracaso, se establece un 50% de éxito y un 50% de fracaso.
Dado que ya nos dan la población la formula a utilizar es: 51
CUADERNO DE ESTADISTICA Y PROBABILIDADES
đ?&#x2018;&#x203A;=
đ?&#x2018;§ 2 đ?&#x2018;?đ?&#x2018;&#x17E;đ?&#x2018; đ??¸ 2 (đ?&#x2018; â&#x2C6;&#x2019; 1) + đ?&#x2018;§ 2 đ?&#x2018;?đ?&#x2018;&#x17E;
Paso 2 Calculando Z.
Z=
đ?&#x2018;&#x203A;đ?&#x2018;&#x2013;đ?&#x2018;Łđ?&#x2018;&#x2019;đ?&#x2018;&#x2122; đ?&#x2018;&#x2018;đ?&#x2018;&#x2019; đ?&#x2018;?đ?&#x2018;&#x153;đ?&#x2018;&#x203A;đ?&#x2018;&#x201C;đ?&#x2018;&#x2013;đ?&#x2018;&#x17D;đ?&#x2018;&#x203A;đ?&#x2018;§đ?&#x2018;&#x17D; 2
=
0.92 2
= 0.46
Debe ir a la tabla de distribuciĂłn de probabilidad normal estĂĄndar. Buscar la cifra mĂĄs cerca o igual a 0.46
Para establecer el valor final de Z se le debe agregar el nĂşmero de la fila que se encuentra en la parte superior.
El nĂşmero mĂĄs cercano, ya que el 0.46080 se pasa, 0.0008 y el 0.45994 le falta 0.00006.
Z= 1.75
52
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Paso 3 Aplicando formula. đ?&#x2018;&#x203A;=
đ?&#x2018;§ 2 đ?&#x2018;?đ?&#x2018;&#x17E;đ?&#x2018; đ??¸ 2(đ?&#x2018; â&#x2C6;&#x2019; 1) + đ?&#x2018;§ 2 đ?&#x2018;?đ?&#x2018;&#x17E;
đ?&#x2018;&#x203A;=
(1.75)2(0.6)(0.4)(4500) (0.06)2 (4500 â&#x2C6;&#x2019; 1) + (1.75)2 (0.6)(0.4)
đ?&#x2018;&#x203A; = 195.35 â&#x2030;&#x2026; 196 Se van a encuestar 196 alumnos.
Comprobando si el resultado es el correcto. đ?&#x2018;? ( 1â&#x2C6;&#x2019;đ?&#x2018;? )
n= đ??¸
2
đ?&#x2018;?đ?&#x2018;&#x17E;
( ) +( ) đ?&#x2018;§
n=
đ?&#x2018;
(0.6)(1â&#x2C6;&#x2019;0.6) 0.06 (0.6)(0.4) (1.75)2+( 4500 )
đ?&#x2018;&#x203A; = 195.30 â&#x2030;&#x2026; 196
1.9 Muestreo 1.9.1 Concepto de muestreo El muestreo es una herramienta de la investigaciĂłn cientĂfica. Su funciĂłn bĂĄsica es determinar que parte de una realidad en estudio (poblaciĂłn o universo) debe examinarse con la finalidad de hacer inferencias sobre dicha poblaciĂłn. El error que se comete debido a hecho de que se obtienen conclusiones sobre cierta realidad a partir de la observaciĂłn de sĂłlo una parte de ella, se denomina error de muestreo. Obtener una muestra adecuada significa lograr una versiĂłn simplificada de la poblaciĂłn, que reproduzca de algĂşn modo sus rasgos bĂĄsicos. Muestra: En todas las ocasiones en que no es posible o conveniente realizar un censo, lo que hacemos es trabajar con una muestra, entendiendo por tal una parte representativa de la poblaciĂłn. Para que una muestra sea representativa, y por lo tanto Ăştil, debe de reflejar las similitudes y diferencias encontradas en la poblaciĂłn, ejemplificar las caracterĂsticas de la misma.
53
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Cuando decimos que una muestra aproximadamente las características
es representativa
indicamos
que reúne
de la población que son importantes
para la
investigación. Población Los estadísticos usan la palabra población para referirse no sólo a personas sino a todos los elementos que han sido escogidos para su estudio. b. Muestra Los estadísticos emplean la palabra muestra para describir una porción escogida de la población.
1.9.2 Terminología del muestreo Población objeto: Conjunto de individuos de los que se quiere obtener una información.
Unidades de muestreo: Número de elementos de la población, no solapados, que se van a estudiar. Todo miembro de la población pertenecerá a una y sólo una unidad de muestreo.
Unidades de análisis: Objeto o individuo del que hay que obtener la información.
Marco muestral: Lista de unidades o elementos de muestreo.
Muestra: Conjunto de unidades o elementos de análisis sacados del marco.
Muestreo probabilístico Los métodos de muestreo probabilísticos son aquellos que se basan en el principio de equiprobabilidad. Es decir, aquellos en los que todos los individuos tienen la misma probabilidad de ser elegidos para formar parte de una muestra y, consiguientemente, todas las posibles muestras de tamaño n tienen la misma probabilidad de ser elegidas. Sólo estos
54
CUADERNO DE ESTADISTICA Y PROBABILIDADES
métodos de muestreo probabilísticos nos aseguran la representatividad de la muestra extraída y son, por tanto, los más recomendables. El método otorga una probabilidad conocida de integrar la muestra a cada elemento de la población, y dicha probabilidad no es nula para ningún elemento. Los métodos de muestreo no probabilísticos no garantizan la representatividad de la muestra y por lo tanto no permiten realizar estimaciones inferenciales sobre la población. En algunas circunstancias los métodos estadísticos y epidemiológicos permiten resolver los problemas de representatividad aun en situaciones de muestreo no probabilístico, por ejemplo los estudios de caso-control, donde los casos no son seleccionados aleatoriamente de la población.
1.9.3 Tipos de muestreo
Entre los métodos de muestreo probabilísticos más utilizados en investigación encontramos : •
Muestreo aleatorio simple
•
Muestreo estratificado
•
Muestreo sistemático
•
Muestreo polietápico o por conglomerados
Muestreo aleatorio simple:
El procedimiento empleado es el siguiente: Paso 1 Se asigna un número a cada individuo de la población y Paso 2 A través de algún medio mecánico (tablas de números aleatorios, números aleatorios generados con una calculadora u ordenador, etc.) se eligen tantos sujetos como sea necesario para completar el tamaño de muestra requerido. Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad práctica cuando la población que estamos manejando es muy grande.
Pasos para tabla de números aleatorios: 1° Enumerar la población 2° Se selecciona la cantidad de dígitos a utilizar. Cantidad de dígitos depende de la población.
55
CUADERNO DE ESTADISTICA Y PROBABILIDADES
3° Establecer un punto de inicio en la tabla.
4° ¿En qué sentido o manera de recorrido? Hacia qué parte de la tabla se hará la selección de los números: arriba, hacia abajo, hacia la derecha o izquierda (recuerde que no puede ir cambiando en cada selección el sentido de selección)
5° Conforme se van seleccionado cada uno de los números, deberán ser anotados los números o dígitos que usted tomó y estos serán, según el listado que enumeró, los elementos de la muestra, si un número se repite no se considera nuevamente, 6°. Si al finalizar no se ha completado la cantidad de elementos de la muestra se escogen otros dígitos (diferentes) según el numeral 2 y se inicia el proceso nuevamente Muestreo aleatorio sistemático
Este procedimiento exige, numerar todos los elementos de la población, pero en lugar de extraer n números aleatorios sólo se extrae uno. Se parte de ese número aleatorio i, que es un número elegido al azar, y los elementos que integran la muestra son los que ocupa los lugares i, i + k, i+2k, i+3k,..., i+(n-1) k, es decir se toman los individuos de k en k, siendo k el resultado de dividir el tamaño de la población entre el tamaño de la muestra: k= N/n. El número i que empleamos como punto de partida será un número al azar entre 1 y k, el cual 56
CUADERNO DE ESTADISTICA Y PROBABILIDADES
puede ser encontrado con el muestreo aleatorio simple o tomando un numero al azar, escogido a través de papelitos o bolitas. El riesgo este tipo de muestreo está en los casos en que se dan periodicidades en la población ya que al elegir a los miembros de la muestra con una periodicidad constante (k) podemos introducir una homogeneidad que no se da en la población. Imaginemos que estamos seleccionando una muestra sobre listas de 10 individuos en los que los 5 primeros son varones y los 5 últimos mujeres, si empleamos un muestreo aleatorio sistemático con k=10 siempre seleccionaríamos o sólo hombres o sólo mujeres, no podría haber una representación de los dos sexos. Pasos a realizar: 1° enumerar la población. 2° encontrar el valor de K. K=N n 3°encontramos el valor de i = es un número que esta entre 1-k selección a través de la tabla de números aleatorios. 4° encontramos la selección: i: 1=Susana i +1k= 1+1(5)= 6 Carlos i +1k= 1+2(5)= 11 i +1k= 1+3(5)= 16 i +1k= 1+4(5)= 21 i +1k= 1+5(5)= 26 i +1k= 1+6(5)= 31 i +1k= 1+7(5)= 36 i +1k= 1+8(5)= 41 i +1k= 1+9(5)= 46
57
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Muestreo aleatorio estratificado
Trata de obviar las dificultades que presentan los anteriores ya que simplifican los procesos y suelen reducir el error muestral para un tamaño dado de la muestra. Consiste en considerar categorías típicas diferentes entre sí (estratos) que poseen gran homogeneidad respecto a alguna característica (se puede estratificar, por ejemplo, según la profesión, el municipio de residencia, el sexo, el estado civil, etc.). Lo que se pretende con este tipo de muestreo es asegurarse de que todos los estratos de interés estarán representados adecuadamente en la muestra. Cada estrato funciona independientemente, pudiendo aplicarse dentro de ellos el muestreo aleatorio simple o el estratificado para elegir los elementos concretos que formarán parte de la muestra. En ocasiones las dificultades que plantean son demasiado grandes, pues exige un conocimiento detallado de la población. (Tamaño geográfico, sexos, edades,...). La distribución de la muestra en función de los diferentes estratos se denomina afijación, y puede ser de diferentes tipos: Afijación Simple: A cada estrato le corresponde igual número de elementos muéstrales. Ni =
n C. de estratos
Afijación Proporcional: La distribución se hace de acuerdo con el peso (tamaño) de la población en cada estrato. Ni = n
x el estrato
N
58
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Afijación Óptima: Se tiene en cuenta la previsible dispersión de los resultados, de modo que se considera la proporción y la desviación típica. Tiene poca aplicación ya que no se suele conocer la desviación. EJERCICIO: ESTRATOS
AF.simple
AF. Proporcional
M.simple
M.sistematico
M.simple
M.sistematico
A=22
6
6
6
6
B=30
6
6
7
7
C=20
6
6
5
5
Afijación simple 1° Calculamos la sub muestra. Ni=
n # Estratos
Ni= 16 3 Ni= 5.33 ~ 6 AFIJACION PROPORCIONAL. 1° Calculamos sub muestra Ni= n
x estrato
N Calculamos estrato “a” Na = 16
x 22 = 4.88 ~ 5
72 Calculamos estrato “b” Nb = 16 x
30 = 6.66 ~ 7
72 Calculamos el estrato “c” 59
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Nc = 16 x 20 = 4.44 ~ 5 72 Muestreo aleatorio por conglomerados
En el muestreo por conglomerados la unidad muestral es un grupo de elementos de la población que forman una unidad, a la que llamamos conglomerado. Los hospitales, los departamentos universitarios, una caja de determinado producto, etc.
Son conglomerados naturales como por ejemplo, las urnas electorales. Cuando los conglomerados son áreas geográficas suele hablarse de "muestreo por áreas". Procedimiento 1° Enumeramos los conglomerados 1
2
3
4
2°Atraves de un medio aleatorio seleccionamos el número de conglomerados a utilizar (T. de # Aleatorios). a) Seleccionamos el promedio de los conglomerados: Prom.= N # De conglomerados b) Numero de conglomerados: #= N Prom
=
16
= 0.88 ~
18
Ejemplo: M. simple: N= 22 60
CUADERNO DE ESTADISTICA Y PROBABILIDADES
n=6 Tabla de # aleatorio: Fila= 19 columna= 10 04= 1 Carmen 08= 2 Víctor 15= 3 Gerson
02= 4 Susy 01= 5 Susana 13= 6 Franklin M. Sistemático K= N = 22 n
= 3.66 ~ 4
6
Tabla de # aleatorio: Fila=35 columna= 9 i= 4 i+1*(4)= 8 4+1*(4) = 12 4+2*(4)= 16 4+3*(4)= 20
61
CUADERNO DE ESTADISTICA Y PROBABILIDADES
UNIDAD II Análisis e Interpretación de Datos 2.1 Elaboración e Interpretación de Cuadros de Frecuencia Cuando los datos de una variable están dispersos, la dispersión sigue un cierto patrón. Inicialmente los datos no nos dicen nada por sí mismos, pero si los dividimos en clases o celdas ordenadamente, puede aclararse la forma de su dispersión, es decir, puede aclararse la forma de cómo están distribuidos. Esta forma de la distribución de los datos inherente a su variabilidad se denomina distribución de frecuencias. 2.1.1 Marco teórico para la Elaboración de Tablas de Frecuencias y Distribución de Frecuencias
a) Un intervalo de clase, es cada uno de los rangos de valores en que se ha decidido agrupar parcialmente los datos con el propósito de hacer un resumen de ellos. b) Límites de las clases Cada clase está determinada por “Los límites” estos puede ser de dos tipos: i.
Límites aparentes: contienen igual cantidad de decimales que la información
ii.
limites Reales: contienen una cifra decimal más que la informac ió n es decir un decimal más.
Los límites reales pueden subdividirse en dos tipos también: Límite superior y límite inferior Límite superior real: se suma 0.5 al límite
aparente si es entero
se suma 0.05 si contiene un decimal se suma 0.005 si contiene dos decimales y así sucesivame nte Límite inferior real. Se resta 0.5 al límite inferior aparente si es entero se resta 0.05 si contiene un decimal se resta 0.005 si contiene dos decimales c) Marca de clase o también llamada punto medio de clase: Pm = (Ls + li)/2 62
CUADERNO DE ESTADISTICA Y PROBABILIDADES
d) Frecuencia absoluta: Se denomina frecuencia absoluta del valor x de la variab le X, el número de veces “f" que se repite ese valor. e) Frecuencia relativa: Se denomina frecuencia relativa del valor x de la variable X la relación por cociente entre el número de veces que aparece el valor x y el número total de valores de la variable (N). O sea, fr = f/N. Puede ser también en porcentajes Fr = (f/N) x100% De todas estas definiciones se extraen las siguientes deducciones: i.
La suma de las frecuencias absolutas sin acumular es igual al número total de elementos (
n ,= N) i
ii.
La última frecuencia relativa acumulada es el total de elementos (N).
iii.
La suma de todos las frecuencias relativas acumular es igual
iv.
La última frecuencia relativa acumulada es la unidad f) Al conjunto de valores que ha tomado una variable, junto con sus frecuencias, se le denomina distribución de frecuencias de la característica o variable. Para que una distribución de frecuencias quede determinada es necesario conocer todos los valores de la variable y uno cualquiera de los conceptos de frecuencia que acabamos de definir, ya que el paso de uno a otro es inmediato. Además, según la forma en que se presenten los valores de la variable será posible distinguir dos tipos de distribuciones de frecuencias:
i.
Las que no están agrupadas en intervalos, que surgen cuando la información se dispone asociando a cada valor o categoría de la variable su frecuencia.
ii.
Aquellas
cuyos valores
observados
generalmente
aparecen
agrupados
en
intervalos o clases [L i , L i 1 ] debido al elevado número de observaciones, y, por tanto, las frecuencias correspondientes a cada intervalo se obtienen sumando las de los respectivos valores de la variable que contiene. Cuando se trabaja con distribuciones agrupadas por intervalos o clases es necesario que las frecuencias observadas se asignen de alguna forma a los puntos del intervalo. Se podrá optar por suponer que los valores del intervalo se distribuyen uniformemente a lo la rgo 63
CUADERNO DE ESTADISTICA Y PROBABILIDADES
de él o por considerar como representativo de todos los puntos del intervalo un único valor, por ejemplo, el punto medio del mismo, que denominaremos marca de clase (X;) y que, en consecuencia, se obtendrá mediante X i = (L i 1 + L i )/2. Aunque la agrupac ió n de valores tiene la ventaja de simplificar el manejo de la información, presenta en cambio un importante inconveniente consistente en la perdida, en mayor o menor medida, de una parte de dicha información.
La distribución de frecuencias de una variable suele presentarse ordenadamente mediante la tabla de frecuencias siguiente:
Ii
Xi
ni
fi
Ni
Fi
[L 0 , L i ]
x1
n,
f 1 =n 1 /N
N 1 =n 1
F 1 =N 1 /N
[L 1 , L 2 ]
x2
n2
f 2 =n 2 /N
N2 =n 1 +n 2
F 2 =N2 /N
[L 2 , L 3 ]
x3
n3
f 3 =n 3 /N
N3 =n 1 +n 2 +n 3
F 3 =N3/N
[L k 1 , Lk ]
xk
nk
fk =n k /N
N k =n 1 +...+n k =N
Fk=Nk/N=1
n =N
f
i
i
=1
Cuando se trabaja con distribuciones de frecuencias uno de los problemas es la determinación del número apropiado de clases. Aunque no existe una regla precisa para el número de clases, generalmente tratamos de no tener ni muchas ni muy pocas en la distribución de frecuencias. El uso de demasiadas clases tiende a producir irregularida des en las frecuencias de las clases y obscurece la concentración de valores. Por el contrar io, si usamos un número excesivamente pequeño de clases, estas tienden a resumir y cierta información valiosa se pierde en el proceso. En la práctica, trataremos de no tener una distribución de frecuencias con menos de 5 y más de 15 clases. Para determinar el número aproximado de clases, se puede hacer uso de La Regla de Sturges : k 1 3.32 log( N ) 64
CUADERNO DE ESTADISTICA Y PROBABILIDADES
K= número de clases, n= número total de observaciones de la muestra, Log = logaritmo común base 10.
ic Además el ancho del intervalo vendría dado por
dato mayor dato menor k
Se debe dejar en claro que la Regla de Sturges es una aproximación del número de clases, siempre es posible tomar una más o una menos de lo que la formula nos da. Por ejemplo, si tenemos 142 observaciones, tenemos entonces: K = 1 + 3,32 log 142 = 8 clases Otro ejemplo, con n=40, tenemos; K = 1 + 3,3 2 log 40 = 6,29 El sentido común acepta de buen agrado 6, 7 o 8 clases. El uso de esta fórmula puede dar resultados irrazonables cuando el número de observaciones es muy grande o muy pequeño. Por esta razón la Regla de Sturges no es un sustituto del buen juicio.
Ejemplo Los niveles de colinesterasa se midieron los niveles de colinesterasa en un recuento de eritrocitos en mol/min/ml de 34 agricultores expuestos a insecticidas agríco las, obteniéndose los siguientes datos:
65
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Individuo Nivel Individuo Nivel Individuo Nivel 1
10,6
13
12,2
25
11,8
2
12,5
14
10,8
26
12,7
3
11,1
15
16,5
27
11,4
4
9,2
16
15,0
28
9,3
5
11,5
17
10,3
29
8,6
6
9,9
18
12,4
30
8,5
7
11,9
19
9,1
31
10,1
8
11,6
20
7,8
32
12,4
9
14,9
21
11,3
33
11,1
10
12,5
22
12,3
34
10,2
11
12,5
23
9,7
12
12,3
24
12,0
Aplicando la fórmula de Sturges obtenemos: k = 1 + 3.322 log34 = 1 + 3.322 · 1.53148 = 6.08757 Es decir, una sugerencia de 6 intervalos. Como el mayor valor es 16.5 y el menor = 7.8, la longitud sugerida es
ic
16.5 7.8 1.45 6
Parece, por tanto, razonable tomar como amplitud 1.5, obteniendo como intervalos en los que clasificar los datos [7.5 - 9), [9 – 10.5), [10.5 - 12), [12 – 13.5), [13.5 - 15), [15 – 16.5]
66
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Los datos del de los Niveles de Colinesterasa, agrupados en los intervalos allí obtenidos, proporcionan las cuatro siguientes distribuciones de frecuencias:
ic
f
fi
F
Fi
7.5-9
3
0.088
3
0'088
9-10.5
8
0.0236
11 0'324
10.5-12
10 0.294
21 0'618
12-13.5
10 0.294
31 0'912
13.5-15
1
0.029
32 0'941
15-16.5
2
0.059
34 1
34 1
2.2 Distribución de Frecuencias Las distribuciones de frecuencias son la herramienta más sencilla y más utilizada y eficaz cuando estamos rodeados de montones de datos, que no nos dicen nada si no hacemos más que enumerarlos. Al expresar estos datos en forma de una distribución de frecuencias, ya nos proporcionan diversas ideas. Puesto que las distribuciones de frecuencias se utiliza n muy a menudo en el control de calidad, es necesario conocer la finalidad de las mismas y su interpretación y uso. Dada la importancia de las distribuciones de frecuencias, derivada de que en todo proceso hay un momento en el que nos encontramos con un conjunto de datos sobre las variables a tratar, es de gran importancia formalizar el proceso de recogida, ordenación y presentación de los datos que, en la mayoría de las ocasiones, aparecerán dispuestos en tablas de frecuencias de simple o doble entrada que servirán para analizar las distribuciones de las variables. Dada una variable X con valores
x1 , x 2 ,······,x N
aparecen una serie de conceptos
generales que se mencionan a continuación: 67
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Frecuencia absoluta
f : Se denomina frecuencia absoluta del valor x de la variable X, el
número de veces f que se repite ese valor. Frecuencia relativa
fi
: Se denomina frecuencia relativa del valor x de la variable X la
relación por cociente entre el número de veces que aparece el valor x y el número total de valores de la variable (N).
O sea,
fi =
f/N.
Frecuencia absoluta acumulada F:: Se denomina frecuencia absoluta acumulada del valor xi a
a
la suma de las frecuencias absolutas de los valores de la variable X anteriores o iguales
xi .
Frecuencia relativa acumulada F i : Es la frecuencia absoluta acumulada dividida por el Tabla detotal distribución de frecuencias número de valores de la variable. Su valor es Intervalos #
Li
Ls
Lri
Frec. Acumulada
Lrs
Fi
PM
Ascend. Desced.
Fi =F/ N. FR Acumulada
FR
Ascend. Desced.
Grado Grad. Porc. Porc. Categ. s Acum Acum.
68
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Ejemplo de Tabla de distribuciòn de frecuencia
Dado un muestra de 35 empleados, los cuales se han preguntado la cantidad de familiares que viven con él. Respondiendo de las siguientes forma.
2
11
12
8
3
8
7
10
14
13
9
12
7
10
5
8
2
6
11 6
14
6
3
12
3
8
12
10
5
7
2
4
12
9
Debemos contar los datos para determinar la población N=35.
4 Datos que entran en los intervalos aparentes 2-3
Solución. 1.
Calcular la cantidad de intervalos o clases. K= 1+ 3.32 log N Sustituyendo formula K= 1+3.32 log (35) K= 6.12 = 7
2. Calcular el rango o ancho de clase. R=AT=X mayor – X menor R= 14 -2 R= 12
Formula.
N es la población ósea es la cantidad de datos. K siempre debe ser enteró por lo tanto se aproxima al número siguiente.
Debemos buscar en los datos el número mayor en este caso es 14 y número menor en nuestro caso es 2. Es importante saber que cuando se trabaja con datos decimales el resultado de R decimal sin aproximaciones.
69
CUADERNO DE ESTADISTICA Y PROBABILIDADES
3. Calculamos el índice de clase. ic = R/K El resultado del índice de clase debe ser entero por lo tanto se aproxima, ic=12/7 ojo si los datos fueran decimales el resultado debe ser decimal, y ic=1.71 = 2 dependerá de la cantidad de decimales que tengan los datos, si son dos decimales entonces el resultado de índice de clase debe tener dos decimales y el ultimo lo aproximamos al número siguientes. 4. Construcción de tabla.
Se inicia con el 2 por que es el dato menor, luego el rango según el ic = 2 por lo tanto 2 +1 = 3, se toma en cuenta el dato inicial, luego el siguiente rango inicia es 4 ósea es la cifra que le sigue al 3.
La frecuencia acumulada ascendente se inicia con fi.
2 -3
99.99 -17.14
Frecuencias acumuladas
Intervalos Aparentes Li - Ls
Se resta el
Reales Li - Ls 1.5 - 3.5
Desc
FR %
2.5Restar 6
35
fi
Pm
6
Asc
Frecuencia Relat Acumuladas Asc
Desc
17.14
17.14
99.99
4 -5
3.5 – 5.5
4
4.5
10
29
11.43
28.57
82.85
6 -7
5.5 -7.5
6
6.5
16
25
17.14
45.71
71.42
8 -9
7.5 - 9.5
6
8.5
22
19
17.14
62.85
54.28
10 – 11
9.5 – 11.5
5
10.5
27
13
14.29
77.14
37.14
12 -13
11.5 – 13.5
6
12.5
33
8
17.14
94.28
22.85
14 -15
13.5 – 15.5
2
14.5
35
2
5.71
99.99
5.71
0
99.99
Total
35
El fi se obtiene de la suma de datos según los interva lo s aparentes. Por ejemplo cuantos datos existen entre el dos y el tres. Vamos a contar todos los números que entran en ese rango, aunque se repitan. Para ello se aconseja utiliza r lápices de color para no confundir los datos. En este rango son 6.
Los puntos medios se obtienen: Pm=Ls+Li/2 Pm3=7+6/2=6.5
La frecuencia relativa porcentual se obtiene: Fr=fi/N(100) Fr1= 6/35(100)=17.14
70
CUADERNO DE ESTADISTICA Y PROBABILIDADES
2.3 Graficas de Variables continuas y Discretas Normalmente es posible ver la forma general de una distribución si se recogen cien o más valores y se prepara convenientemente una tabla de frecuencias con diez o veinte clases. Pero la distribución se puede ver aun con mayor claridad en forma de representación gráfica mediante un histograma de frecuencias. El histograma es una representación visual de los datos en la que pueden observarse más fácilmente tres propiedades esenciales de una distribución como son: Forma, tendencia central o acumulación y dispersión o variabilidad. De esta forma, el histograma da una idea del proceso, lo que un simple examen de los datos tabulados no hace. Hay muchos métodos para construir
histogramas.
Cuando los datos son
numerosos, es muy útil reunirlos en clases y se recomienda utilizar entre 4 y 20 clases (o celdas). A menudo conviene elegir un número total de clases igual aproximadamente a la raíz cuadrada del tamaño de la muestra. Las clases deben tener amplitud uniforme y se construye la primera de ellas comenzando con un límite inferior solo un poco menor que el valor más pequeño de los datos. Se construye la última clase finalizando con un límite superior solo un poco mayor que el valor más grande de los datos. Para realizar el histograma se marcan las clases sobre el eje de abscisas, y sobre cada clase se levanta un rectángulo de altura proporcional al número de observaciones de la variable (frecuencia absoluta) que caen en la clase. El agrupamiento de los datos en clases condensa los datos originales, lo que da como resultado una pérdida de algo de detalle. Así, cuando el número de observaciones es relativamente pequeño, o cuando las observaciones solo toman pocos valores, puede construirse el histograma a partir de la distribución de frecuencias de los datos sin agrupar, dando lugar a los diagramas de barras.
71
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Tipos de Gráficos para Variables Aleatorias Variables Contínuas Oji va s
Ascendente
Hi s tograma
Pol ígono de Frecuencia
Variables Discretas Di a grama de Ba rras
Di a grama de Sectores
Di a grama Pol a r
Pi ctogra ma
Descendentes
Gráficos para variables cuantitativas
Para las variables cuantitativas, consideraremos dos tipos de gráficos, en función de que para realizarlos se usen las frecuencias (absolutas o relativas) o las frecuencias acumuladas:
Diagramas diferenciales: Son aquellos en los que se representan frecuencias absolutas o relativas. En ellos se representa el número o porcentaje de elementos que presenta una modalidad dada.
Diagramas integrales: Son aquellos en los que se representan el número de elementos que presentan una modalidad inferior o igual a una dada. Se realizan a partir de las frecuencias acumuladas, lo que da lugar a gráficos crecientes, y es obvio que este tipo de gráficos no tiene sentido para variables cualitativas.
Gráficas para variables continúas.
Las gráficas tienen por finalidad mostrar por medio de puntos, segmentos de recta, curvas, superficies, volúmenes, dibujos, etc. las distintas variaciones que acusan los fenómenos que son susceptibles de medirse o contarse 2.3.1 Componentes de un gráfico.
Un gráfico, al igual que una tabla, está compuesto de las partes siguientes: i.
Identificación del gráfico.
ii.
Título del gráfico.
iii.
Cuerpo del gráfico o gráfico propiamente dicho (incluye la clave o leyenda de ser necesaria esta). 72
CUADERNO DE ESTADISTICA Y PROBABILIDADES
iv.
Pie del gráfico, si fuera necesario aclarar alguna características relevante
2.3.1 Histograma El Histograma es una serie de rectángulos, de base igual al intervalo de clase y altura correspondiente a las frecuencias respectivas. Para que los rectángulos queden yuxtapuestos escribiremos, en el eje de las abscisas, los límites reales inferiores de cada clase, y en las ordenadas las frecuencias absolutas. 2.3.2 Polígono de Frecuencias Se puede realizar de dos maneras: i.
Un polígono de frecuencias se forma uniendo los extremos de las barras de las marcas de clase de un Histograma mediante segmentos.
ii.
También se puede realizar trazando los puntos medios que representan las frecuencias y uniéndolos mediante segmentos
En resumen para construir el polígono de frecuencia se toma la marca de clase que coincide con el punto medio de cada rectángulo de un histograma.
Ejercicio: Construya el histograma y Polígono de la siguiente tabla de frecuencias
10.5
17.5
14
17.5
24.5
21
24.5
31.5
28
31.5
38.5
35
38.5
45.5
42
45.5
52.5
49 40
Pm=Ls+Li/2.
73
CUADERNO DE ESTADISTICA Y PROBABILIDADES
2.3.3
Las ojivas
Se pueden presentar través de dos grandes áreas o grupos: Ojivas para frecuencias Absolutas y Ojivas para frecuencias Relativas, cada una de dichas áreas o grupos se clasifica en: i.
Ojivas ascendentes
ii.
Ojivas descendentes
¿Qué es una ojiva?
Una ojiva viene a ser una curva en forma de ESE (S), en esta gráfica, en el eje de las Abscisas se escribe los limites reales inferiores, los puntos se unen, por una serie de curvas o en su defectos líneas rectas, poligonales, puede extenderse hasta cortar el eje de las Abscisas para realizar su último punto
Gráficos para Variables Discretas
Para estos gráficos no se necesitan introducir dentro de un sistema de coordenadas cartesianas: dependiendo de la presentación que necesite o se tenga que presentar así será el tipo de grafico que se utilizará 2.3.4
Gráfico de barras o Rectángulos
Este grafico está constituido por un conjunto de barras o rectángulos separados por distancias iguales, que representan las distintas categorías o clasificaciones que hacemos del fenómeno que se desea dar a conocer. Estos pueden se verticales y /o Horizontales.
74
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Estante A B C D E F G
Cantidad/cajas 1 2 7 10 5 7 4
Diagrama de Barras de las Cantidades de Tornillos por estante G F E D
C B A 0
2
4
6
8
10
12
2.3.5 Diagrama de Sectores
Se construye en base a un círculo, que representa el total de frecuencias de las distintas categorías, dividido en tantos sectores circulares como categorías tenga el atributo. El diagrama puede hacerse de dos maneras: i. ii.
utilizando ángulos utilizando porcentajes
75
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Así, los ángulos que corresponden a las cuatro modalidades de la tabla adjunta serán: Razon
Número de casos Ángulo(grados)
Rehusaron cirugía
26
234
Rehusaron radiación
3
27
Empeoraron por enfermedad ajena al 10 cancer
90
Otras causas
9
1
Para obtener 234º se procede de la siguiente manera el total de datos es 40 que corresponde al 100% de los datos, además representara 360º de la circunferencia. Mediante una regla de 3 podemos establecer que X
26 * 360º 234º , continuado con 40
este proceso podemos obtener los otros datos de la tabla. Y su representación en un diagrama de sectores será:
76
CUADERNO DE ESTADISTICA Y PROBABILIDADES
2.3.6 Grafico polar
Se construye tomando base una circunferencia cuyo radio es proporcional a la media aritmética de los valores observados. La circunferencia base se divide en tantas partes como categorías tenga el atributo que se desea dar a conocer. Generalmente se usa este grafico para fenómenos que varían con el tiempo.
2.3.7 Pictogramas
Es el grafico a base de dibujos simbólicos o representativos del fenómeno que se quiere dar a conocer. Debe tenerse cuidado de que el dibujo o figura utilizada, reproduzca con claridad lo que se desea representar.
77
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Ejercicios de gráficos
Frecuencia completa con los siguientes datos (población de tornillos) 1.02
6.01
4.22
4.11
3.81
2.84
5.95
3.25
6.77
5.03
3.76
2.67
3.10
5.46
5.81
5.34
5.11
2.78
6.14
4.37
3.66
3.15
5.34
3.52
5.5
2.74
4.21
2.05
4.06
4.7
5.94
3.98
4.56
6.35
4.12
2.99
Cantidad de datos 36.
Solución 1. Calcular la cantidad de intervalos K= 1+3.32 log N K=1+3.32 log 36 La cantidad de intervalos siempre deben K=6.16 = 7 ser enteros. Por lo tanto se aproxima el resultado. 2. Calculando rango R=X mayor – X menor R= 6.77 – 1.02 R=5.75
Recordando que X mayor es la cifra más alta que se encuentra en la población dada y X menor es el número más pequeño que se encuentra en la población.
3. Encontrando el indice de clase ic = R/K ic = 5.75/7 El índice de clase en esta ocasión debe ic = 0.8214 = 0.83 quedarnos con dos decimal porque los datos de la población tienen dos decimales si tuvieran por ejemplo tres entonces el índice de clases quedaría con tres decimales y recordar aproximar el ultimo decimal a utilizar. 4. Construcción de tabla de distribución de frecuencia.
78
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Recordando: fi son los datos que se encuentran en los intervalos aparentes, por ejemplo entre 1.02 y 1.84 se encuentra un solo dato. Por otra parte la fรณrmula para encontrar los puntos medios es: Pm=Ls+Li/2. Para encontrar la frecuencia relativa porcentual: Fr=fi/N(100)
79
CUADERNO DE ESTADISTICA Y PROBABILIDADES
80
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Para dibujar los Gráficos para Variables Discretas la tabla cambia a la siguiente forma Tomaremos los datos de los límites y los llamaremos categorías y las fi serán las fi para nuestros gráficos. 81
CUADERNO DE ESTADISTICA Y PROBABILIDADES
CategorÃa A B C D E F G
fi 1 2 7 10 5 7 4
82
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Ejercicios de diagrama de sectores o diagrama circular. Elabore un diagrama circular por θ y % Pasando a grados
Población N
Categoría
Fi
θ
θ acumulada
θ%
A
1
10
10⁰
2.78
2.78
B
2
20
30⁰
5.56
8.34
C
7
70
100⁰
19.44
27.78
D
10
100
200⁰
27.78
55.56
E
5
50
250⁰
13.89
69.45
F
7
70
320⁰
19.44
88.89
G
4
40
360⁰
11.11
100
total
36
360⁰
100%
83
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Diagrama de Sectores de las Cantidades de Tornillos G 11%
A B 3% 6%
C 19%
F 19%
A B C
D E 14%
E D 28%
F
G
84
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Para el Diagrama Polar Meses Ene Feb Mar Abr May Jun Jul
fi 1 2 7 10 5 7 4
r/segmento 1.56 3.11 10.84 15.56 7.78 10.89 6.22
Diagrama Polar de la Venta de Tornillos en el Primer Semestre de 2016 Feb 20 15
Abr
Ene
10
5 Total
0 Jul
Mar
Jun
May
85
CUADERNO DE ESTADISTICA Y PROBABILIDADES
UNIDAD III Medidas de Tendencia Central 3.1 Medidas de tendencia central para serie de datos. Encuentre la media aritmĂŠtica(X) , media geomĂŠtrica (X G),media armĂłnica (XA),media cuadrĂĄtica (XC) , de la siguiente serie de datos. 3, 6, 5, 4, 8, 9,10 1. Antes de iniciar debe asegurarse que los datos se encuentren ordenados, de lo contrario ordĂŠnelo para que sea una serie de datos. 3, 4, 5, 6, 8, 9,10 Datos ya ordenados. 2. SoluciĂłn. A. Encontrando la media aritmĂŠtica. X=
â&#x2C6;&#x2018; đ?&#x2018;&#x2039;đ?&#x2018;&#x2013; đ?&#x2018;&#x203A;
=
3+4+5+6+8+9+10 7
=
45 7
â&#x2030;&#x2026; 6.43
n es la poblaciĂłn de datos,
B. Encontrando media geomĂŠtrica. 7
đ?&#x2018;&#x203A;
XG= â&#x2C6;&#x161;á´¨xi = â&#x2C6;&#x161;3đ?&#x2018;&#x2039;4đ?&#x2018;&#x2039;5đ?&#x2018;&#x2039;6đ?&#x2018;&#x2039;8đ?&#x2018;&#x2039;9đ?&#x2018;&#x2039;10 â&#x2030;&#x2026; Segunda forma de calcular XG
5.93
SĂmbolo de multiplicaciĂłn
â&#x2C6;&#x2018; log đ?&#x2018;Ľđ?&#x2018;&#x2013;
XG= Antilog(
xi 3 4 5 6 8 9 10 total
đ?&#x2018;&#x203A;
Log xi 0.47712 0.60205 0.69897 0.77815 0.90308 0.95424 1 5.41361
)
SE recomienda la construcciĂłn de una tabla para encontrar la suma de log de xi, ya se sabe que xi es la serie de datos.
Sustituyendo en formula. XG=antilog(
5.41361 7
) â&#x2030;&#x2026; 5.9
Nota: debido a que de seguro no te acuerdas como se obtiene el antilog, explicamos: En tu calculadora presiona SHIFT seguido por la tecla log.
86
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Al finalizar los cĂĄlculos de las medias, se debe realizar la siguiente comprobaciĂłn:
C. Calculando media armĂłnica XA XA=
1 â&#x2C6;&#x2018;1
=
1 1 1 1 1 1 1 1 + + + + + + 3 4 5 6 8 9 10
7
đ?&#x2018;Ľđ?&#x2018;&#x2013;
= 5.44
XCâ&#x2030;Ľ X â&#x2030;Ľ XG â&#x2030;Ľ XA Sustituyendo resultados
Segunda forma de cĂĄlculo de XA đ?&#x2018;&#x203A;
7
XA= â&#x2C6;&#x2018; 1 = 1 đ?&#x2018;Ľđ?&#x2018;&#x2013;
1 1 1 1 1 1 + + + + + + 3 4 5 6 8 9 10
= 5.44
6.87â&#x2030;Ľ6.43â&#x2030;Ľ5.9â&#x2030;Ľ5.44 Como podemos visualizar se cumple tal comprobaciĂłn.
D. Calculando Media cuadrĂĄtica Mc= Xc= â&#x2C6;&#x161;
â&#x2C6;&#x2018; đ?&#x2018;Ľđ?&#x2018;&#x2013; 2 đ?&#x2018;&#x203A;
=â&#x2C6;&#x161;
32+42+52+62+82+9 2+102 7
= 6.87
3.1.1 Ejemplo moda para serie de datos 2, 4, 4, 5, 5, 5, 7,8 Serie de datos SoluciĂłn: La moda se define como el nĂşmero que mĂĄs se repite en la serie de datos en este caso es 5 y es una moda unimodal, ya que solo es una cifra la que se repite, pero si el caso fuera que 4, 4, 4, 5, 5, 5 dado que ambos nĂşmeros se repiten la misma cantidad de veces, pasarĂa hacer bimodal.
3.1.2 Ejemplo mediana para serie de datos
1, 3, 5, 6, 9, 7,8
1, 3, 5, 6, 7,8,9
1. Contamos la cantidad de datos. El cual contiene 7 datos. 2. Verificar la formula a utilizar. Si es impar es n+1/2 pero si es par n/2 y n/2 + 1.
En este ejercicio se utiliza la formula n+1/2= 7+1/2=4 Ojo: la respuesta no es esa, debemos ir a nuestra serie de datos y contar de izquierda a derecha hasta 4 que es nuestro resultado. Por lo tanto nuestra mediana es = 6
1, 3,5, 6 ,7,8,9
87
CUADERNO DE ESTADISTICA Y PROBABILIDADES
3.1.3 Ejercicio utilizando una serie de datos par.
3, 4, 5, 8, 10, 11, 12,14
Serie de datos
Formula: n/2= 8/2=4
n/2+1=8/2+1=5
Contamos en nuestra serie de dato:
Contamos en nuestra seri de datos: 3,4,5,8,10,11,12,14
3,4,5, 8 ,10,11,12,14, este serĂĄ v nuestro dato p1.
Este serĂĄ p2.
Sustituimos en la siguiente formula: đ?&#x2018;?1+đ?&#x2018;?2
Md=
2
=
8+10 2
=9
Por lo tanto se concluye que la mediana es 9. Que es el nĂşmero que se encuentra entre 8 y 10.
88
CUADERNO DE ESTADISTICA Y PROBABILIDADES
3.2 Medidas de tendencia central (datos agrupados) 3.2.1 Moda para datos agrupados en frecuencia
Es el valor que representa el mayor valor absoluto de los datos. ÂżMo? Mo.=4 Xi
Fi
2
3 3
4
4
5
6
3
3.2.2 Media para datos agrupados
Media AritmĂŠtica
Media GeomĂŠtrica
=â&#x2C6;&#x2018; X; * Fi / n
G
A= n / â&#x2C6;&#x2018; Fi / Xi
G= Antilog â&#x2C6;&#x2018; Fi*log Xi / N
đ?&#x153;&#x2039;đ?&#x2018;&#x2039;đ?&#x2018;&#x2013;đ?&#x2018;&#x201C;đ?&#x2018;&#x2013;
Ejercicio 1 Xi
Fi
Xifi
Xi fi
Xi/Fi
3
2
6
9
0.66
4
1
4
4
0.25
5
3
15
125
0.6
6
2
12
36
0.33
8
1
8
8
0.125
9
45
1.965
= 45/9 = 5 G = 9â&#x2C6;&#x161; 9x4x125x36x8 = â&#x2C6;&#x161;1296000 =4.77 A = 9/1.965 = 4.58 3.2.3 Mediana para datos agrupados
A) Si existe una frecuencia acumulada igual a n/2 1. Calculamos las frecuencias acumuladas 89
CUADERNO DE ESTADISTICA Y PROBABILIDADES
2. Si existe una frecuencia acumulada igual a n/2 entonces la mediana es la medida aritmética de valor de la variable correspondiente a dicha fórmula y ejemplo inmediato posterior.
Xi
Fi
Fa
6
7
7
Med = N/2
7
8
15
Buscamos el valor de la Fa= 25
8
10
25
Media = 8+9/2 = 8.5
9
15
40
10
10
50
CALCULAMOS 50/2
=
25
3. Si no hay ninguna Fr acumulada igual a n/2 4. Se calcula las Fr. Acumuladas 5. Si no hay ninguna Fr. Acumulada igual a n/2 entonces la mediana es el valor de la variable que corresponde a la primera Fr. Acumulada mayor que n/2
Xi
Fi
Fr
23
4
4
24
6
10
25
12
22
26
10
32
27
8
40
40
1
en
2º
Fa n/2 = 20
Med= 25
3.3 Medidas de Tendencia Central para datos agrupados en tablas de distribución 3.3.1 Media Aritmética
-
Método corto ó puntos medios 90
CUADERNO DE ESTADISTICA Y PROBABILIDADES
- Metodo abreviado 1 -
Metodo abreviado 2
Método: Método corto o puntos medios
= ∑ Fi Pm / N 1° Método abreviado ó Método de desviación de media
= A + ∑ Fid / N
d=Pm-A
A: Media supuesta suponga que puede ser cualquier punto medio. 2º Método abreviado ó Método de desviación de clase
= 4 + ∑ Fi d’ /N * iC d’ = Desviación en unidades de clase
Ejercicio resuelto de la Media Aritmética. Paso 1 Construimos la tabla de distribución del Fr. (Igual nos servirá para encontrar las otras medidas de tendencia central)
i.
K= 1+3.32 log (35) – 6.12 ≅ 7
ii.
R= May – Men 26-2 = 24
iii.
IC = R/K = 24/7 = 3.42 = 4
91
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Li
Ls
Lri
Lrs
Fi
Pm
FixPm
D
FixD
d’
Fid’
Fi/pm
LogP
FiL
m
ogP m
2
5
1.5
5.5
6
35.
21
-16
-96
-5
-30
1.714
0.544
3.2 64
6
9
5.5
9.5
9
7.5
67.5
-12
-108
-4
-36
1.200
0.875
7.8 75
10
13
9.5
13.5
4
11.5
46
-8
-32
-3
-12
0.347
1.060
4.2 42
14
17
13.5
17.5
4
15.5
62
-4
-16
-2
-8
0.258
1.190
4.7 61
18
21
17.5
21.5
6
19.5
117
0
0
-1
-6
0.307
1.290
7.7 4
22
25
21.5
25.5
5
23.5
117.5
4
20
0
0
0.212
1.371
6.8 55
26
29
25.5
29.5
1
27.5
27.5
8
8
1
1
0.036
1.439
1.4 39
35
458.5
-224
-91
4.074
36. 176
= 458.5/35 = 13.1 Paso 2: 1º Método abreviado corto
i. ii.
Escoger “A” que puede ser igual que Pm
A= 19.5
Encontrar los “d”
d1 = Pm1 - A = 3.5-19.5
d2 = Pm2-A = 7.5-19.5
d1 = -16 = A + ∑ Fid / N
3º
= 19.5 + (-224/35) = 13.1 Paso 3: 2° Método abreviado desviación de clase
i. ii.
Escoger “A” = 23.5 Encontrar las desviaciones en unidades de interv. d’ = A + ∑ Fid’ / N x IC = = 23.5 + (-91/35) x4 = 13.1
92
CUADERNO DE ESTADISTICA Y PROBABILIDADES Paso 4: Encuentre IA
Y= a =
y
6
= N / â&#x2C6;&#x2018; (Fi/Pmi)
3.3.2 La Media GeomĂŠtrica
Para los datos agrupados en tablas de distribuciĂłn de Fr. Mg= â&#x2C6;&#x161; Pm1 f1. Pm2 f2 Mg= Antilog [ â&#x2C6;&#x2018; (Fi.log Pm1)/N] 4= 35/4.074 = 8.59 G = 35â&#x2C6;&#x161;(3.5)6 (7.5)9 (12.5)4 (15.5)4 (19.5)6 (23.5)5 (27.5)1 G = 35â&#x2C6;&#x161;1.5099đ?&#x2018;Ľ1036 G = 10.80 G = Antilog [36.176/35] = Ant. (1.0336) G = 10.80
3.3.3 La Moda T. de Distribucion de Fr.
Mo.= Lri + A1 / A1+A2 * iC A1= Fi modas â&#x20AC;&#x201C; F. anterior A2= Fi modas â&#x20AC;&#x201C; F. posterior Paso 1 Encontrar la clase Modal
Clase modal es la que tiene mayor Fi (frecuencia) Fi= 9 Paso 2 Encontrar los valores de Lri y iC
Lri= 5.5 y iC = 4
Paso 3: Encontrar los Î&#x201D;
Î&#x201D;1 (frecuencia modal-frecuencia anterior)= 9-6=3 Î&#x201D; 2 (Frecuencia modal â&#x20AC;&#x201C; frecuencia posterior)= 9-4=5 Paso 4: Sustituir en la fĂłrmula Mo
Mo = 5.5 + (3/ 3+5) x 4 = 7
Tiene que estar entre 1 rango de Lri y Lrs, 5.5 y 9.5
93
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Notas Importantes Si el enlace Modal está en principio o al final la Fr. Ante es 0 poster es 0
Si existieran dos Fi con igual Fr se saca dos modas
3.3.4 La Mediana
Fórmula: Me = Lri + ( n/2 – Faa / Fr) * Tc Faa = Fr acumulada anterior a la clase mediana Paso 1: Determinar la posición mediana
N/2 = 35/2 = 17.5 La clase mediana será la cual en su frecuencia contenga el número que acabamos de encontrar. Paso 2: Determinar la clase mediana
Es el intervalo que va de 10-13
Paso 3: en la clase mediana determinamos los datos
Fan 15
Fr. Mediana =4
iC = 4 Lri med = 9.5
Paso 4: Sustituimos los valores en la fórmula Me
Me = 9.5 + [(17.5 – 15 )/ 4] x 4 Me = 12
3.4 Medidas de tendencia central para datos agrupados en tabla de distribución de frecuencia. Dada la siguiente dispersión de datos elabore una tabla de distribución y encuentre la media aritmética, media geométrica, media armónica y media cuadrática. 2 3 4 15 6 7
6 2 18 7 9 12
20 21 23 26 25 7
14 12 13 9 6 8
14 5 13 2 22 23 94
CUADERNO DE ESTADISTICA Y PROBABILIDADES
18
17
19
19
24
Solución. 1. Encontrando el valor de K.
Solución.
5.
Calcular la cantidad de intervalos o clases. K= 1+ 3.32 log N Sustituyendo formula K= 1+3.32 log (35) K= 6.12 = 7
Formula.
N es la población ósea es la cantidad de datos. K siempre debe ser enteró por lo tanto se aproxima al número siguiente.
6. Calcular el rango o ancho de clase. R=AT=X mayor – X menor R= 26 -2 R= 24
Debemos buscar en los datos el número mayor en este caso es 26 y número menor en nuestro caso es 2. Es importante saber que cuando se trabaja con datos decimales el resultado de R decimal sin aproximaciones.
7. Calculamos el índice de clase. ic = R/K ic=24/7 ic=3.42 = 4
El resultado del índice de clase debe ser entero por lo tanto se aproxima, ojo si los datos fueran decimales el resultado debe ser decimal, y dependerá de la cantidad de decimales que tengan los datos, si son dos decimales entonces el resultado de índice de clase debe tener dos decimales y el ultimo lo aproximamos al número siguientes.
8. Construcción de tabla.
95
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Ver explicaciĂłn en datos agrupados en tabla de distribuciĂłn de frecuencia.
Interva l os Apa rentes Li - Ls 2 -5
Rea l es Li - Ls 1.5 - 5.5
fi
Pm
Elegir un Pm cualquiera menos los extremos, dâ&#x20AC;&#x2122; =0, se debe seguir hacia arriba signo negativo y hacia abajo signo positivo.
Elegir un Pm cualquiera menos los extremos. A=15.5. d =0 D= Pm-A = 3.5-15.5= -12
Frecuenci as a cumulad as As Desc c
Frecuenci a Rel a t Acumul a da s
FR %
As c
Des c
6
3.5
6
35
17.14
17.14
100
6 -9
5.5 â&#x20AC;&#x201C; 9.5
9
7.5
15
29
25.71
42.85
82.86
10 -13
9.5 -13.5
4
11.5
19
20
11.43
54.28
57.15
14- 17
13.5 - 17.5
4
15.5
23
16
11.43
65.71
45.72
18â&#x20AC;&#x201C; 21
17.5 â&#x20AC;&#x201C; 21.5
6
19.5
29
12
17.14
82.85
34.29
22 -25
21.5 â&#x20AC;&#x201C; 25.5
5
23.5
34
6
14.29
97.14
17.15
26 -29
25.5 â&#x20AC;&#x201C; 29.5
1
27.5
35
1
2.86
100
2.86
Fi * Pm
d
Fi * d
dâ&#x20AC;&#x2122;
Fi * d â&#x20AC;&#x2122;
Fi l og Pm
21
-12
-72
-4
-24
3.264408
67.5
-8
-72
-3
-27
7.875551
46
-4
-16
-2
-8
4.242791
62
0
0
-1
-4
4.761326
117
24
24
0
0
7.740207
117.5
40
40
1
5
6.855339
27.5
12
12
2
2
1.439332
-57
36.178954
458.5 Tota l
35
Clase mediana
0
-84
0
Intervalo modal, fi mayor
1. Encontrando la media aritmĂŠtica. A. MĂŠtodo corto o punto medio. Sustituir datos de resultados de tabla. M. AritmĂŠtica=
â&#x2C6;&#x2018; đ?&#x2018;&#x201C;đ?&#x2018;&#x2013;â&#x2C6;&#x2014; đ?&#x2018;&#x192;đ?&#x2018;&#x161; đ?&#x2018;&#x203A;
=
458.5 35
= 13.1
B. Metodo abreviado o desviaciĂłn de de unidades de intervalos de clase. A= 15.5 (ver tabla en columna d) M. aritmĂŠtica= A+
â&#x2C6;&#x2018; đ?&#x2018;&#x201C;đ?&#x2018;&#x2013;â&#x2C6;&#x2014;đ?&#x2018;&#x2018; đ?&#x2018;&#x203A;
= 15.5 +
(â&#x2C6;&#x2019;85) = 35
13.1
C. Metodo abreviado o desviaciĂłn de unidades de intervalos de clase. Sustituyendo datos.
96
CUADERNO DE ESTADISTICA Y PROBABILIDADES
A= 19.5 (confirme en tabla en dâ&#x20AC;&#x2122;), ic = 4 M. aritmĂŠtica= A+
â&#x2C6;&#x2018; đ?&#x2018;&#x201C;đ?&#x2018;&#x2013;â&#x2C6;&#x2014;đ?&#x2018;&#x2018;â&#x20AC;˛ đ?&#x2018;&#x203A;
đ?&#x2018;&#x2013;đ?&#x2018;? =19.5 +
( â&#x2C6;&#x2019;56) 35
(4) = 13.1
2. Calculo media geomĂŠtrica. A. mĂŠtodo 1 đ?&#x2018;&#x203A;
M. geomĂŠtrica= â&#x2C6;&#x161;â¨&#x2026;đ?&#x2018;&#x192;đ?&#x2018;&#x161;đ?&#x2018;&#x201C;đ?&#x2018;&#x2013; 35
M. G= â&#x2C6;&#x161;3.56 â&#x2C6;&#x2014; 7.59 â&#x2C6;&#x2014; 11.54 â&#x2C6;&#x2014; 19.56 â&#x2C6;&#x2014; 23.55 â&#x2C6;&#x2014; 27.51= 10.806
B. mĂŠtodo 2
Ver resultado en tabla M.G= đ?&#x2018;&#x17D;đ?&#x2018;&#x203A;đ?&#x2018;Ąđ?&#x2018;&#x2013;đ?&#x2018;&#x2122;đ?&#x2018;&#x153;đ?&#x2018;&#x201D;(
â&#x2C6;&#x2018; đ?&#x2018;&#x201C;đ?&#x2018;&#x2013;â&#x2C6;&#x2014;log đ?&#x2018;&#x192;đ?&#x2018;&#x161; đ?&#x2018;&#x203A;
36.17854
) = đ?&#x2018;&#x17D;đ?&#x2018;&#x203A;đ?&#x2018;Ąđ?&#x2018;&#x2013;đ?&#x2018;&#x2122;đ?&#x2018;&#x153;đ?&#x2018;&#x201D; (
35
) = 10.80
3. Calculando media armonica. A. Metodo 1. M. Armonica=
B.
1 đ?&#x2018;&#x201C;đ?&#x2018;&#x2013; â&#x2C6;&#x2018; đ?&#x2018;&#x192;đ?&#x2018;&#x161; đ?&#x2018;&#x203A;
=
1 6 9 4 4 6 5 1 + + + + + + 3.5 7.5 11.5 15.5 19.5 23.5 27.5 35
= 8.5787
Metodo 2. đ?&#x2018;&#x203A;
M.A= â&#x2C6;&#x2018; đ?&#x2018;&#x201C;đ?&#x2018;&#x2013; = đ?&#x2018;&#x192;đ?&#x2018;&#x161;
35 6 9 4 4 6 5 1 + + + + + + 3.5 7.5 11.5 15.5 19.5 23.5 27.5
= 8.5844
Nota: el resultado puede variar por algunas dĂŠcimas. 4. Calculando media cuadrĂĄtica. M.C = â&#x2C6;&#x161;
â&#x2C6;&#x2018; đ?&#x2018;&#x201C;đ?&#x2018;&#x2013;â&#x2C6;&#x2014; đ?&#x2018;&#x192;đ?&#x2018;&#x161;2 đ?&#x2018;&#x203A;
6 = â&#x2C6;&#x161;
(3.52)+9 (7.52)+4(11.52)+4(15.52)+6(19.52)+5(23.52)+1(27.52) 35
= 14.9940 Indicaciones: DespuĂŠs de haber calculado las media debemos comprobar por si hay algĂşn 97
CUADERNO DE ESTADISTICA Y PROBABILIDADES
error. Verificando:
M.C > AritmĂŠtica > M. G > ArmĂłnica. 14.994 > 13.1 > 10.81 > 8.5844
5. Encontrando moda. ď&#x192;&#x2DC; Encontrar la clase o intervalo modal. â&#x2013;ł1
Para ello la formula : Mo= Lri+â&#x2013;ł1+â&#x2013;ł2 (đ?&#x2018;&#x2013;đ?&#x2018;?) 6-9 (Para encontrar el intervalo se debe ir a la tabla y buscar el valor mayor de fi ). ď&#x192;&#x2DC; Encontramos valores. Lri = 5.5 ic=4
Es el que se encuentra en la clase modal. 6-9
ď&#x192;&#x2DC; Calculando los valores
Fi mayor, verificar tabla
Valor que esta antes que fi mayor Ăłsea arriba, verificar tabla.
Î&#x201D;1=Fmodal â&#x20AC;&#x201C; Fant. = 9-6=3 Î&#x201D;2= Fmodal â&#x20AC;&#x201C; Fposterior= 9-4= 5 ď&#x192;&#x2DC; Sustituyendo valores en formula.
Mo= 5.5+
3
3+5
(4) = 7
6. Encontrando mediana 7. Determinar la posiciĂłn mediana. đ?&#x2018;&#x203A; 35 = = 17.5 2 2 A. Determinar la clase mediana. Buscar en la frecuencia acumulada. Intervalos aparentes. = 10 -13 B. DeterminaciĂłn de datos. Lri= 9.5
Para determinar la clase debemos ir a la frecuencia acumuladas ascendentes y buscar el valor igual o el valor que le sigue. En este caso es 19. De acĂĄ se determina la clase .
98
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Faa= 15 Fmediana= 4 ic=4
Faa= frecuencia acumulada ascendente.
C. Aplicando.
Fmediana= fi.
Me= đ??żđ?&#x2018;&#x;đ?&#x2018;&#x2013; + (
= 9.5 + (
đ?&#x2018; â&#x2C6;&#x2019;đ?&#x2018;&#x201C;đ?&#x2018;&#x17D;đ?&#x2018;&#x17D; 2
đ?&#x2018;&#x201C;.đ?&#x2018;&#x161;đ?&#x2018;&#x2019;đ?&#x2018;&#x2018;đ?&#x2018;&#x2013;đ?&#x2018;&#x17D;đ?&#x2018;&#x203A;đ?&#x2018;&#x17D;
17.5â&#x2C6;&#x2019;15 )4 4
)
= 12
3.5 Medidas de posiciĂłn para datos agrupados
El fi se obtiene de la suma de datos segĂşn los intervalos aparentes. Por Las medidas ejemplo cuantos datos existen entre el dos y el tres. Vamos a contar todos los nĂşmeros que entran en ese rango, aunque se repitan. Para ello se aconseja utilizar lĂĄpices de color para no confundir los datos. En este rango
de posiciĂłn dividen a la poblaciĂłn en partes iguales
99
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Los Cuartiles, dividen a la población en 4 partes iguales: Q1, Q2, Q3 Los Deciles, dividen a la población en 10 partes iguales: D1, D2, D3, D4, D5, D6, D7, D8, D9 Los Percentiles, dividen a la población en 100 partes iguales: P1, P2, P3,… P99. 3.5.1 Fórmulas para determinar los cuantiles en serie de datos
CUANTILES TIPO
SERIE PAR
SERIE IMPAR
POSICIÓN
K*n/4
K(n+1)/4
POSICIÓN DECÍLICA
K*n/10
K(n+1)/10
POSICIÓN
K*n/100
K(n+1)/100
CUANTÍLICA
PERCENTÍLICA Ejemplos de cuantiles para serie de datos:
Determinar Q3, D8, P70 CUANTILES Q3
D8
SERIE PAR 3, 8, 10,12, 14, 18, 20, 22, 23, 24 Paso 1 Encontrar la posición cuartílica K*n/4= 3x10/4 = 7.5 Paso 2 Encontrar el valor de la posición cuartílica (ordenar la serie; y contar hasta la posición cuartílica) Q3=7.5=Q3=21 ya que es el número intermedio entre 20 y 22, y que corresponde al 50% que rebasa al 7. Paso 1 Encontrar la posición decílica K*n/10= 8x10/10 = 8
SERIE IMPAR 4, 6, 8,9,10, 12, 16, 18, 20, 21, 23, 24, 25 Paso 1 Encontrar la posición cuartílica K*(n+1)/4= 3x(13+1)/4 = 10.5 Paso 2 Encontrar el valor de la posición cuartílica (ordenar la serie; y contar hasta la posición cuartílica) Q3=22 ya que es el número intermedio entre 21 y 22, y que corresponde al 50% que rebasa al 10
Paso 1 Encontrar la posición decílica K*(n+1)/10= 8x(13+1)/10 = 11.2
100
CUADERNO DE ESTADISTICA Y PROBABILIDADES
P70
Paso 2 Encontrar el valor de la posición decílica (ordenar la serie; y contar hasta la posición decílica) D8=22 ya que es el número que se encuentra en la posición 8 Paso 1 Encontrar la posición percentílica K*n/100= 70x10/100= 7 Paso 2 Encontrar el valor de la posición percentílica (ordenar la serie; y contar hasta la posición percentílica) P8=20 ya que es el número que se encuentra en la posición 7
Paso 2 Encontrar el valor de la posición decílica (ordenar la serie; y contar hasta la posición decílica) D8= 11.2 =23.2 ya que es el número intermedio entre 23 y 24, y que corresponde al 0.2 que rebasa al 11. Paso 1 Encontrar la posición percentílica K*(n+1)/100= 70x(13+1)/100= 9.8 Paso 2 Encontrar el valor de la posición percentílica (ordenar la serie; y contar hasta la posición percentílica) P8=20.8 ya que es el número que se encuentra en la posición 9.8
101
CUADERNO DE ESTADISTICA Y PROBABILIDADES
3.5.2 Cuantiles: Cuartiles, Deciles, Percentiles para datos agrupados en Tablas de Distribución de Fecuencias
CUARTILES Qn = Lri + n*k-Faa/ F. cuartilica x iC DECILES
Dn = Lri + n*k/10 – Faa / F. decilica x iC
PERCENTILES Pn = Lri + n*k/10 – Faa / F. percent x iC
Ejemplo de medidas de posición para datos agrupados en Tablas de Distribución de F recuencias Clase Cuartílica Clase Decílica Clase Percentílica
Lri 1.5 5.5 9.5 13.5 17.5 21.5 25.5
Lrs 5.5 9.5 13.5 17.5 21.5 25.5 29.5
Fi 6 9 4 4 6 5 1 35
ASC 6 15 19 23 29 34 35
DES 35 29 20 16 12 6 1
Posición Cuantílica Posición Decílica
Posición Percentílica
Paso 1: Encontrar la posición cuanttílica
(Según corresponda aplicar las fórmulas detalladas arriba) Q2= K*n/4
=2x35/4=17.5
D6=K*n/10
=6x35/10=21
P69=K*n/100 =69x35/100=24.5 Paso 2: Encontrar la clase cuantílica
Se debe ubicar en la columna de las Faa y escogemos la clase en la cual la Faa contenga a la posición encontrada en el paso anterior; esa clase es la clase cuantílica. Ver figura Paso 3: De la posición cuantílica determinamos los siguientes datos Para Q2: Lri=
9.5
F cuantilica=4
Faa=
15
iC=4
102
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Para D6: Lri=
13.5
F cuantilica=4
Faa=
19
iC=4
Para P69: Lri=
17.5
F cuantilica=6
Faa=
23
iC=4
Paso 4: Sustituir los valores en la fรณrmula
Q2=9.5+[(17.5-15)/4]*4
=12
D6=13.5+[(21-19)/4]*4
=15.5
P69=17.5+[(24.5-23)]*4
=17.54
103
CUADERNO DE ESTADISTICA Y PROBABILIDADES
UNIDAD IV Medidas de Dispersión 4,1 Medidas de dispersión Se llama dispersión de un conjunto de datos al grado en que los diferentes valores numéricos de los datos tienden a extenderse alrededor del valor medio utilizado. Este grado de dispersión se mide por medio de los indicadores estadísticos llamados medidas de dispersión, entre ellas tenemos las más comunes el rango, la varianza, y la desviación típica. Un promedio no dice nada acerca de la diseminación de los datos. El promedio no es representativo cuando se tiene una amplia dispersión. Se puede comparar cuán dispersas están dos o más distribuciones. Una medida de dispersión puede utilizarse para evaluar la confiabilidad de dos o más promedios. Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un valor representativo, las medidas de dispersión nos dicen hasta qué punto estas medidas de tendencia central son representativas como síntesis de la información. Las medidas de dispersión cuantifican la separación, la dispersión, la variabilidad de los valores de la distribución respecto al valor central. Distinguimos entre medidas de dispersión absolutas, que no son comparables entre diferentes muestras y las relativas que nos permitirán comparar varias muestras. Las medidas de centralización y dispersión nos dan información sobre una muestra. Nos podemos preguntar si tiene sentido usar estas magnitudes para comparar dos poblaciones. Por ejemplo, si nos piden comparar la dispersión de los pesos de las poblaciones de elefantes de dos circos diferentes,
nos dará información útil.
¿Pero qué ocurre si lo que comparamos es la altura de unos elefantes con respecto a su peso? Tanto la media como la desviación típica, y, se expresan en las mismas unidades que la variable. Por ejemplo, en la variable altura podemos usar como unidad de longit ud el metro y en la variable peso, el kilogramo. Comparar una desviación (con respecto a la media) medida en metros con otra en kilogramos no tiene ningún sentido.
104
CUADERNO DE ESTADISTICA Y PROBABILIDADES
El problema no deriva sólo de que una de las medidas sea de longitud y la otra sea de masa. El mismo problema se plantea si medimos cierta cantidad, por ejemplo la masa, de dos poblaciones, pero con distintas unidades. Este es el caso en que comparamos el peso en toneladas de una población de 100 elefantes con el correspondiente en miligramos de una población de 50 hormigas. El problema no se resuelve tomando las mismas escalas para ambas poblaciones. Por ejemplo, se nos puede ocurrir medir a las hormigas con las mismas unidades que los elefantes (toneladas). Si la ingeniería genética no nos sorprende con alguna barbaridad, lo lógico es que la dispersión de la variable peso de las hormigas sea prácticamente nula (¡Aunque haya algunas que sean 1.000 veces mayores que otras!) CV: δ/X X100 % Grados de representatividad de la media aritmética para el CV Ejemplo: Encuentre el C. variabilidad pág. 97 ejemplo 78 del libro de estadística x ̅=13.96 δ=6.07 Encontrar e C.variabilidad C.V =δ/7 X 100%= 6.07/13.90 X100%=43.67% la x ̅ Clase de representatividad d-menor =0
⟶ Promedio (30-0)/2
D Mayor=30 Promedio 15
4.2 Medidas de Dispersión para Serie de Datos Ejemplo 1 Encuentre las medidas de dispersión para la siguiente serie 3, 6, 7, 8, 10, 12 Pasos para encontrar las medidas de dispersión 1. Determinamos el rango
105
CUADERNO DE ESTADISTICA Y PROBABILIDADES
đ?&#x2018;&#x2026;đ?&#x2018;&#x17D;đ?&#x2018;&#x203A;đ?&#x2018;&#x201D;đ?&#x2018;&#x153; = đ?&#x2018;&#x2039;đ?&#x2018;&#x2013; đ?&#x2018;&#x161;đ?&#x2018;&#x17D;đ?&#x2018;Śđ?&#x2018;&#x153;đ?&#x2018;&#x; â&#x20AC;&#x201C; đ?&#x2018;&#x2039;đ?&#x2018;&#x2013; đ?&#x2018;&#x161;đ?&#x2018;&#x2019;đ?&#x2018;&#x203A;đ?&#x2018;&#x153;đ?&#x2018;&#x; đ?&#x2018;&#x2026; = 12 â&#x20AC;&#x201C; 3 đ?&#x2018;&#x2026; = 9 2. Encontramos la DesviaciĂłn Media a) đ?&#x2018;&#x2039; =
â&#x2C6;&#x2018; đ?&#x2018;&#x2039;đ?&#x2018;&#x2013; đ?&#x2018;&#x203A;
= 7.67
b) |đ?&#x2018;&#x2039;đ?&#x2018;&#x2013; â&#x2C6;&#x2019; đ?&#x2018;&#x2039;|
đ?&#x2018;&#x2039;đ?&#x2018;&#x2013;
(đ?&#x2018;&#x2039;đ?&#x2018;&#x2013; â&#x2C6;&#x2019; đ?&#x2018;&#x2039;) 2 21,81 2,79 0,45 0,11 5,43 18,75 â&#x2C6;&#x2018;49,33
|đ?&#x2018;&#x2039;đ?&#x2018;&#x2013; â&#x2C6;&#x2019; đ?&#x2018;&#x2039;| 4,67 1,67 0,67 0,33 2,33 4,33 â&#x2C6;&#x2018;14
3 6 7 8 10 12
c)
đ??ˇđ?&#x2018;&#x20AC; =
â&#x2C6;&#x2018;|đ?&#x2018;&#x2039;đ?&#x2018;&#x2013;â&#x2C6;&#x2019;đ?&#x2018;&#x2039;đ?&#x2018;&#x2013; | đ?&#x2018;&#x203A;
=
14 6
= 2.33
3. Encontramos la desviaciĂłn TĂpica đ?&#x2018; = â&#x2C6;&#x161;
â&#x2C6;&#x2018;(đ?&#x2018;&#x2039;đ?&#x2018;&#x2013; â&#x2C6;&#x2019; đ?&#x2018;&#x2039;)2 (49,33) = â&#x2C6;&#x161; = â&#x2C6;&#x161;8.22333 = 2,87 đ?&#x2018;&#x203A; 6
4. Encontramos la varianza â&#x2C6;&#x2018;(đ?&#x2018;&#x2039;đ?&#x2018;&#x2013; â&#x2C6;&#x2019; đ?&#x2018;&#x2039;) đ?&#x2018;&#x2030;(đ?&#x2018;Ľ) = đ?&#x2018; 2 = = 8.22333 đ?&#x2018;&#x203A; 5. Encontramos el coeficiente de variabilidad đ?&#x2018; 2.87 đ??śđ?&#x2018;&#x2030; = â&#x2C6;&#x2014; 100% = â&#x2C6;&#x2014; 100% = 37.42 7.67 đ?&#x2018;&#x2039;
4.3 Medidas de DispersiĂłn para Datos Agrupados a) Datos Agrupados en frecuencia 1. đ?&#x2018;&#x2026;đ?&#x2018;&#x17D;đ?&#x2018;&#x203A;đ?&#x2018;&#x201D;đ?&#x2018;&#x153; = đ?&#x2018;&#x2039;đ?&#x2018;&#x161;đ?&#x2018;&#x17D;đ?&#x2018;Śđ?&#x2018;&#x153;đ?&#x2018;&#x; â&#x20AC;&#x201C; đ?&#x2018;&#x2039;đ?&#x2018;&#x2013; đ?&#x2018;&#x161;đ?&#x2018;&#x2019;đ?&#x2018;&#x203A;đ?&#x2018;&#x153;đ?&#x2018;&#x; 2. đ??ˇđ?&#x2018;&#x20AC; =
â&#x2C6;&#x2018; đ?&#x2018;&#x201C;đ?&#x2018;&#x2013; (đ?&#x2018;&#x2039;đ?&#x2018;&#x2013;â&#x2C6;&#x2019; đ?&#x2018;&#x2039; đ?&#x2018;&#x203A;
106
CUADERNO DE ESTADISTICA Y PROBABILIDADES
â&#x2C6;&#x2018; đ?&#x2018;&#x201C;đ?&#x2018;&#x2013;(đ?&#x2018;&#x2039;â&#x2C6;&#x2019;đ?&#x2018;&#x2039;) 2
3. đ?&#x2018; = â&#x2C6;&#x161;
đ?&#x2018;&#x203A;
4. đ?&#x2018;&#x2030; (đ?&#x2018;Ľ ) = đ?&#x2018; 2 =
â&#x2C6;&#x2018; đ?&#x2018;&#x201C;đ?&#x2018;&#x2013;(đ?&#x2018;&#x2039;â&#x2C6;&#x2019;đ?&#x2018;&#x2039;) 2 đ?&#x2018;&#x203A;
Ejemplo đ?&#x2018;&#x2039;đ?&#x2018;&#x2013;
đ?&#x2018;&#x201C;đ?&#x2018;&#x2013; 3 4 5 8 9
đ?&#x2018;&#x201C;đ?&#x2018;&#x2013;đ?&#x2018;&#x2039;đ?&#x2018;&#x2013;
2 1 4 3 1 â&#x2C6;&#x2018;11
6 4 20 24 9 â&#x2C6;&#x2018;63
|đ?&#x2018;&#x2039; â&#x2C6;&#x2019; đ?&#x2018;&#x2039;| 2,73 1,73 0,73 2,27 3,27
đ?&#x2018;&#x201C;đ?&#x2018;&#x2013;|đ?&#x2018;&#x2039; â&#x2C6;&#x2019; đ?&#x2018;&#x2039;| (đ?&#x2018;&#x2039;đ?&#x2018;&#x2013; â&#x2C6;&#x2019; đ?&#x2018;&#x2039;)2 5,46 7,45 1,73 2,99 2,92 0,53 6,81 5,15 3,27 10,69 â&#x2C6;&#x2018;20,19
đ?&#x2018;&#x201C;đ?&#x2018;&#x2013;(đ?&#x2018;&#x2039;đ?&#x2018;&#x2013; â&#x2C6;&#x2019; đ?&#x2018;&#x2039;)2 14,91 2,99 2,13 15,46 10,69 â&#x2C6;&#x2018;46,18
Paso 1 - Encontrar la media aritmĂŠtica para datos agrupados en frecuencia đ?&#x2018;&#x2039;=
â&#x2C6;&#x2018; đ?&#x2018;&#x201C;đ?&#x2018;&#x2013;đ?&#x2018;&#x2039;đ?&#x2018;&#x2013; 63 = = 5,73 đ?&#x2018;&#x203A; 11
Paso 2 - Encontramos las desviaciones ď&#x201A;ˇ
DesviaciĂłn media đ??ˇđ?&#x2018;&#x20AC; =
ď&#x201A;ˇ
â&#x2C6;&#x2018; đ?&#x2018;&#x201C;đ?&#x2018;&#x2013;(đ?&#x2018;&#x2039;đ?&#x2018;&#x2013; â&#x2C6;&#x2019; đ?&#x2018;&#x2039;) 20,19 = = 1,84 đ?&#x2018;&#x203A; 11
DesviaciĂłn tĂpica â&#x2C6;&#x2018; đ?&#x2018;&#x201C;đ?&#x2018;&#x2013; (đ?&#x2018;&#x2039; â&#x2C6;&#x2019; đ?&#x2018;&#x2039;) 2 46,18 đ?&#x2018; = â&#x2C6;&#x161; = â&#x2C6;&#x161; = â&#x2C6;&#x161;4,1981 = 2.05 đ?&#x2018;&#x203A; 11
ď&#x201A;ˇ
Varianza đ?&#x2018;&#x2030; (đ?&#x2018;Ľ) = đ?&#x2018; 2 =
ď&#x201A;ˇ
â&#x2C6;&#x2018; đ?&#x2018;&#x201C;đ?&#x2018;&#x2013; (đ?&#x2018;&#x2039; â&#x2C6;&#x2019; đ?&#x2018;&#x2039;)2 đ?&#x2018;&#x203A;
=
46,18 = 4,1981 11
Coeficiente de variabilidad đ??śđ?&#x2018;&#x2030; =
đ?&#x2018; đ?&#x2018;&#x2039;
â&#x2C6;&#x2014; 100% =
2,05 â&#x2C6;&#x2014; 100% = 35.78 5,73
4.3.1 DesviaciĂłn Media (Datos agrupados en Frecuencia)
Dm= â&#x2C6;&#x2018; F [x- ] /N
107
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Ejemplo: Xi
|
Fi
|
XiFi
4
2
8
3
3
9
2
2
4
6
4
24
5
2
10 55
17.23
= 55/13 = 1.325
Dm= 17.23/13 = 1.325
Desviación media de T. de distribución de Frecuencia Dm= ∑ Fi | pm- | / N Ejercicio Fi
Pm
20-30 7
25
30-40 12
35
40-50 21
45
50-60 18
55
60-70 12
65
70
702.9 = ∑ Fipm /n = 47.28 Dm= 703.9/70 = 10.04
4.3.2 Desviación típica para datos agrupados
= √∑ Fi (Xi- )2 /N ó √∑ Fi (Xi-Xi2 /N Problema 68, Pág. 95
108
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Xi
Fi
Xi Fi
(X- )
Fi (X- )2
2
2
4
8.065
16.13
3
4
12
3.385
13.54
4
7
28
0.705
4.935
5
4
20
0.025
0.1
6
3
18
1.345
4.035
7
2
14
4.665
9.33
8
2
16
9.985
19.97
9
1
9
17.305
17.305
25
121
85.66
= 121/25 = 4.84 = √ 85.66/25 = √ 3.426
= 1.850
V= (1.850)2 = 3.422
Simetría: X=Md = Mo Asimetría positiva o ala derecha. X>Md>Mo
109
CUADERNO DE ESTADISTICA Y PROBABILIDADES
UNIDAD V Nociones de Probabilidad 5.1 Teoría de Conjuntos ¿Qué es un conjunto? Grupo de objetos que reciben el nombre de elementos o miembros del conjunto Formas de expresar conjuntos
5.1.1 Notación por: extensión, comprensión Al número de elementos se le llama cardinal del conjunto Q y se representa por n(Q) Ejemplo: B= {x; x; x; y; y; z; z} cardinal =n (B)=3 A= {a; b; c; d; e} cardinal =n(A)=5 Estrechez: diferencia o similitud entre conjuntos Relación de pertenencia Є, no pertenencia *** 5.1.2 Determinación de conjuntos por extensión Se indica cada uno de los elementos del conjunto Ejemplo: números pares mayores que cinco y menores que veinte 5><20 110
CUADERNO DE ESTADISTICA Y PROBABILIDADES
A= {6;8;10;12;14;16;18} 5.1.3 Determinación de conjuntos por comprensión Una propiedad que caracteriza a todos los elementos del conjunto Ejemplo: P= {números dígitos} P= {0;1;2;3;4;5;6;7;8;9} Otra forma de expresarlo P= {X/X = dígito}
5.1.4 Conjunto especial
Conjunto unitario Conjunto finito Conjunto especial
Conjunto infinito Conjunto vacío Conjunto universal
Conjunto Vacío Es un conjunto que no tiene elementos, también se le llama conjunto nulo. Generalmente se le representa por los símbolos:
o{ }
Ejemplo: M = {números mayores que 9 y menores que 5} 111
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Conjunto Unitario Es el conjunto que tiene un solo elemento. F = {x / 2x + 6 = 0} Conjunto Finito Es el conjunto con limitado número de elementos. E = {x / x es un número impar positivo menor que 10} Conjunto Infinito Es el conjunto con ilimitado número de elementos. R = {x / x < 6} Conjunto Universal Es un conjunto referencial que contiene a todos los elementos de una situación particular, generalmente se le representa por la letra U El universo o conjunto universal de todos los números es el conjunto de los NÚMEROS COMPLEJOS.
112
CUADERNO DE ESTADISTICA Y PROBABILIDADES
5.1.5 Características de los Conjuntos
Características de los Conjuntos • Se denotan con letras mayúsculas • se escriben entre llaves {} • No se acostumbra repetir elementos • El número qde elementos que tienen un conjunto se llama cardinalidad del conjunto se representa como "η (Q)" • Para indicar pertenencia utilizamos el símblo ∈ • Para indicar la no pertenecia ∉
5.1.6 Operaciones básicas con diagramas de Venn Los diagramas de Venn se deben al filósofo inglés John Venn (1834-1883) Estos sirven para representar conjuntos de manera gráfica mediante dibujos ó diagramas que pueden ser círculos, rectángulos, triángulos o cualquier curva cerrada. Unión de Conjuntos
113
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Intersecciรณn
Diferencia de conjuntos
Conjunto universal
114
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Conjunto A y Complemento de A
Para cualquier conjunto A dentro del conjunto universal U, el complemento de A, denotado A’, es el conjunto de elementos en U que no son elementos de A. Esto es:
5.1.7 Cardinalidad n(A =
n(A) + n(B) – n (A
n (A(C)) = n(A) + n(B) + n(C) - n(A - n(C) – n(BC) + n(A(C))
Ley de Morgan:
(AB)c = Acc
(Ac = Acc
A – B = Ac
Complemento Sub Conjuntos (Inclusión) Sea A{1,2,3,4} B{2,4,6,8} C{3,4,5,6} a) A-B = {1,3}
A B
b) C-A = {5,6} c) B-C = {2,8} d) B-A = {6,8} e) B-B = Ø 1. A∩(BUC) = {2,3,4}
C
115
CUADERNO DE ESTADISTICA Y PROBABILIDADES
2. (A∩B)U(A∩C) = {2,3,4}
Ejemplo 1 Sea M un conjunto con 45 elementos, y sea N otro conjunto con 25 elementos. Si M ∩ N contiene 15 elementos, haga un diagrama de Veen y establezca ¿cuántos contendrá M U N?
M= 45 N=25 n(M∩N) = 15 45 + 25 – 15 = 55 Total de elementos
El diagrama adjunto explica la situación Los 15 elementos de la intersección pertenecen a M y a N, a la vez. Para determinar cuántos hay en la unión, esos 15 elementos sólo deben contarse una vez. Por tanto, en M U N habrá 30 + 15 + 10 = 55. Y se cumple que η (A B) = 45 + 25 − 15 = 55
116
CUADERNO DE ESTADISTICA Y PROBABILIDADES
5.2 Técnicas de conteo Las técnicas de conteo son aquellas que son usadas para enumerar eventos difíciles de cuantificar
117
CUADERNO DE ESTADISTICA Y PROBABILIDADES
5.2.1 Principios de Conteo
Principio de Multiplicación Definición.- Si un suceso Pl ocurre de n1 maneras diferentes y otro suceso P2 ocurre de n2 maneras diferentes entonces el suceso Pl Y P2 ocurren de n1 por n2 maneras diferentes. Esto se conoce como principio de multiplicación o principio fundamental del anális is combinatorio. Ejemplo: •
Diana, alumna de la materia de estadística, quiere ir al baile de fin de ciclo que sus amigos harán, como todos los años, para dicha fiesta ella puede usar uno cualquiera de sus 4 vestidos, uno cualquiera de sus 3 pares de zapatos y una de sus 2 bolsas. ¿De cuántas maneras diferentes puede asistir al baile y cuales son ellas?
Técnica de Casillas
4
3
2
24
Técnica de Árbol
118
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Principio de la Adición Si una primera operación puede realizarse de m maneras y una segunda operación puede realizarse de n maneras, entonces una operación o la otra pueden efectuarse de m + n maneras. Ejemplo: Juan decide comprar un carro para trasladarse a su nuevo empleo en Ford le ofrecen 3 modelos diferentes y 2 formas de pago, en Volkswagen le ofrecen 4 modelos y 3 formas de pago y en Nissan le ofrecen 3 modelos y 3 formas de pago; cuantas alternativas diferentes tiene Juan ? Marca
Modelo
Pago
Totales
Ford
3
2
6
Volkswagen
4
3
12
Nissan
3
2
9 Total 27
5.2.2 Factorial de un número = n!
El factorial de un número entero "n” ( n!) es ese mismo número multiplicado por su antecesor (n-1), luego por el antecesor de este (n-2), y así sucesivamente hasta ser multiplicado por "1". n! = n(n-1)! 0! = 1 FACTORIAL DE UN NUMERO 10
X
9
X
8
X
7
X
6 X
5
X
4
X
3
X
2
X
1 3628800 Excel 10 3628800 =FACT(10)
OPERACIONES CON FACTORIALES (4! X 6!) (3! X 5!)
4 3
X X
3 2
X X
2 1
X X
1 5
X X
6 X 4 X
5 3
X X
4 2
X X
3 1
X X
2 1
X
1= 1= =
17280 720 24
119
CUADERNO DE ESTADISTICA Y PROBABILIDADES
5.2.3 Métodos y técnicas de conteo
5.3 Variaciones, Permutaciones y Combinaciones
5.3.1 Variaciones Se llama variaciones ordinarias de m elementos tomados de n en n (m ≥ n) a los distintos grupos formados por n elementos de forma que:
No entran todos los elementos.
Sí importa el orden.
No se repiten los elementos.
Variación con repetición
10
VR
4
x
22
VR
3
=
10
4
x 22
3
=
106,480,000
Ejemplo 3 Hay una liguilla de 4 equipos No se utilizan todos los elementos Si importa el orden No se repiten (VARIACIÓN SIN REPETICIÓN)
120
CUADERNO DE ESTADISTICA Y PROBABILIDADES
V
2 4
=
4
x
3
=
12
5.3.2 Permutaciones Sí entran todos los elementos. Sí importa el orden. No se repiten los elementos. Permutaciones:
1. Se utilizan todos los elementos 2. Interesa el orden Pn = n! Permutación circular:
PCn = Pn-1 = (n-1)! Permutación con repetición:
5.3.3 Combinaciones Se llama combinaciones de m elementos tomados de n en n (m ≥ n) a todas las agrupaciones posibles que pueden hacerse con los m elementos de forma que: No entran todos los elementos. No importa el orden. No se repiten los elementos Además hay que definir si se repiten o no los elementos para hacer la elección de la técnica a utilizar PR – VR – CR Variaciones sin repetición:
Uso en calculadora nPr= Variaciones nCr= Combinaciones
121
CUADERNO DE ESTADISTICA Y PROBABILIDADES
2
V
= 3!
3
= 3!
(3-2)!
1!
Ejemplo 1 A un concurso literario se han presentado 10 candidatos con sus novelas, el cuadro de honor lo forman el ganador, un finalista y un accésit, ¿Cuántos cuadros de honor pueden formar? 10 = m 3=n 1) ¿Voy a utilizar todos los elementos? NO (solo se utilizan tres) 2) ¿Interesa el orden? SI (primero, segundo, tercero) VARIACION 3) ¿Se repiten los elementos? NO (solo puede haber uno en cada plaza) VARIACION SIN REPETICIÓN
3
V
= 10!
10
= 10!
(10-3)!
= 10x9x8
= 720
7!
Por casillas: En el primero tenemos diez elementos a disposición, en el segundo ya solo tenemos nueve y en el tercero solo contamos ya con 8 elementos para elegir 10
+
9
+
8
=
720 El resultado es el mismo
Ejemplo 2 ¿Cuántos números de tres cifras se pueden formar con los dígitos 1, 2, 3, 4, 5? 1) ¿Voy a utilizar todos los elementos? NO (solo se utilizan tres) 2) ¿Interesa el orden? SI (primero, segundo, tercero) VARIACION 3) ¿Se repiten los elementos? NO (solo puede haber uno en cada plaza) VARIACION SIN REPETICIÓN
122
CUADERNO DE ESTADISTICA Y PROBABILIDADES
V
3 5
= 5! (5-3)!
= 5!
= 3x4x5
= 60
2!
Fórmula de variación con repetición
Combinaciones con repetición
Triángulo de Tartalia Ejemplos Se tienen 4 dígitos y 3 letras para la elaboración de placas ¿Cuántas placas hay con un determinado bloque de letras? 1) ¿Voy a utilizar todos los elementos? NO (solo se utilizan tres) 2) ¿Interesa el orden? SI (primero, segundo, tercero) VARIACION 3) ¿Se repiten los elementos? SI
123
CUADERNO DE ESTADISTICA Y PROBABILIDADES
5.4 Principios de la probabilidad Probabilidad: valor entre cero y uno, inclusive, que describe la posibilidad relativa de que ocurra un evento. Las probabilidades constituyen una rama de las matemáticas que se ocupa de medir o determinar cuantitativamente la posibilidad de que un suceso o experimento produzca un determinado resultado Experimento: proceso que conduce a la ocurrencia de una de varias observaciones posibles. Evento: conjunto de uno o más resultados de un experimento.
La probabilidad mide la frecuencia con la que se obtiene un resultado (o conjunto de resultados) al llevar a cabo un experimento aleatorio, del que se conocen todos los resultados posibles, bajo condiciones suficientemente estables En un experimento Consta de: -
Suceso elemental: cada uno de los resultados posibles.
-
Espacio muestral (E): conjunto formado por los sucesos elementales.
5.4.1 Enfoques de la probabilidad
1. Clásico o Laplaciano: Este se relaciona con los juegos de envite y azar Richard Von Mises (1883-1953) P(x) = # de casos favorables al evento # de casos posible
2. Enfoque Frecuencista: P(x) = # de veces que se repite un evento # de veces que se repite el experimento
3. Enfoque subjetivo: De acuerdo a las características, sucesos, marco teórico, marco de referencia que tiene un perito. 124
CUADERNO DE ESTADISTICA Y PROBABILIDADES
La subjetividad puede fallar, está basada en un marco de referencia
5.4.2 Características de una Probabilidad de un suceso:
Una probabilidad es una función que asigna a cada suceso A, un nº (su probabilidad, P(A)), de manera que: 1.- 0 ≤ P(A) ≤ 1 2.- P (E) = 1 Si A y B son incompatibles, entonces P(A U B) = P(A) + P (B) Si A y B tiene elementos en común: Entonces P(A U B) = P(A) + P (B) – P(A ∩B)
Ejemplo 1 En una urna hay 5 bolas amarillas, 7 verdes, 8 rojas, 3 negras, se extrae una bola, Calcule la probabilidad que sea: a) Verde b) Roja c) Amarilla d) No roja e) No negra
Paso #1 Definimos el experimento E {Extracción de bolas de una urna} Paso #2 Definimos el evento o suceso a estudiar A {Que la bola sea de color rojo}
P(A) =# de casos favorables al evento # de casos posible
125
CUADERNO DE ESTADISTICA Y PROBABILIDADES
P(A) =
8 = 23
0.3478
=
34.78%
A {Que la bola sea de color verde}
P(B) =
7 = 23
0.3043
=
30.43%
C {Que la bola sea de color amarillo}
P(C) =
5 = 23
0.2174
=
21.74%
D {Que la bola no sea de color rojo}
P(D) =
15 = 23
0.6522
=
65.22%
E {Que la bola no sea de color negro}
P(E) =
20 = 23
0.8696
=
86.96%
Ejemplo 2 Se tiene una caja con 3dulces de menta y 7 dulces de chocolate A) ¿Cuál es la probabilidad que los dos dulces sean de menta; si devuelve el dulce a la caja?
B) Que los dos dulces sean de menta pero no se devuelve a la caja
Probabilidad condicionada
Debe ocurrir algo previo P(A|B) = P (A∩B) P(B)
Probabilidad Total
No es una intersección 126
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Primero debe ocurrir B para que ocurra A 0.1 0.1
=
1
A
B
0.08 0.1
=
0.8
A
B
5.4.3 Probabilidad Total P(B) = P (A1∩B)
+ P (A2∩B) + … P (An∩B)
P(B|A1) = P (A1∩B)
+ P (A2∩B) = P (A1) P(B|A1)
P(A1)
Diagrama de árbol Ejemplo 1 En un aula el 70% de los alumnos son mujeres, de ellas el 10% son fumadoras, de los hombres son fumadores el 20%
127
CUADERNO DE ESTADISTICA Y PROBABILIDADES
H
M
B= Fuman P(B) = P (H∩B) 0.3 x 0.2 +
+ P (M∩B)
0.7 x 0.1
P(B) = 0.13 = 13%
P(A|B) = P (B∩H) P(B)
= 0.30x 0.2 = 0.46 0.13
46%
Diagrama de Árbol Fuma
Mujer
No Fuma Estudiantes Fuma
Hombre
No fuma
Esperanza Matemática
La esperanza matemática o valor esperado de una variable aleatoria discreta es la suma del producto de la probabilidad de cada suceso por el valor de dicho suceso. Propiedades: 1. 0 ≤ P(x) ≤ 1 2. ∑ P(x) = 1 3. P(x) = 1
128
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Ejemplo 1 Se lanza una moneda al aire, buscar el número de caras posibles Se grafica un diagrama de árbol para encontrar el resultado Caras posibles: Diagrama de árbol CARA
2
CRUZ
1
CARA
CARA
CRUZ
1 CRUZ
0 5.5 Distribución de probabilidades Variables aleatorias. Se llama variable aleatoria (v. a) a toda aplicación que asocia a cada elemento del espacio muestral (E) de un experimento, un número real. También se puede decir de una manera formal que: “Una variable aleatoria: es una función que asocia un número real con cada elemento del espacio muestral” La clasificación más importante divide a las v. a.
en dos grupos, según el número de
resultados que pueden tomar. •
V.a. discretas toma un número finito de valores
129
CUADERNO DE ESTADISTICA Y PROBABILIDADES
(o un nĂşmero infinito pero numerable). â&#x20AC;˘ 5.5.1
V.a. Continuas toma sus valores en un intervalo de valores, por tanto, el nĂşmero de valores es infinito.
Propiedades de f(x) discretas
Si f (x) es la funciĂłn de masa de probabilidad de X, entonces se verifica que Estas dos propiedades son equivalentes a los axiomas 1 y 2 de la definiciĂłn de probabilidad los cuales dicen: 1 La probabilidad estĂĄ siempre entre 0
y 1
2 La probabilidad del espacio muestral siempre es: 1 5.5.2 Calculo de Media y DesviaciĂłn EstĂĄndar para una DistribuciĂłn Discreta
Media o valor esperado de x. Para determinar la media de la distribuciĂłn discreta se utiliza la siguiente fĂłrmula:
đ?&#x153;&#x2021; = đ??¸(đ?&#x2018;&#x2039;) = â&#x2C6;&#x2018; đ?&#x2018;&#x2039;đ?&#x2018;&#x2013; â&#x2C6;&#x2014; đ?&#x2018;&#x192;(đ?&#x2018;&#x2039;đ?&#x2018;&#x2013;) DesviaciĂłn estĂĄndar. Para determinar la desviaciĂłn estĂĄndar de la distribuciĂłn discreta se utiliza la siguiente fĂłrmula:
Varianza
đ?&#x153;&#x17D; 2 = â&#x2C6;&#x2018; đ?&#x2018;Ľ 2 đ?&#x2018;&#x192;đ?&#x2018;Ľ â&#x2C6;&#x2019; đ?&#x153;&#x2021; 2
130
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Propiedades de la Esperanza Si X e Y son variables aleatorias, del mismo espacio muestral, y k un número real 1) E(X +k)=E(X)+k 2) E(kX) = k E(X) 3) E(X +Y)= E(X)+E(Y) (la esperanza de la suma es la suma de las esperanzas) Varianza Propiedades. Si X es una variable aleatoria y k un número real 1) Var(X + k) = Var(X) 2) Var(kX)
= k2Var(X)
5.5.3 Función de Distribución
Definición: Es la aplicación o función F(x) que asigna a cada valor x, de la variable aleatoria discreta X la probabilidad de que la variable tome valores menores o iguales que xi, es decir:
Las distribuciones discretas más comunes son: Distribución binomial
La distribución binomial es típica de las variables que proceden de un experimento que cumple las siguientes condiciones: 1)
El experimento está compuesto de n pruebas iguales, siendo n un número natural fijo.
2)
Las pruebas son estadísticamente independientes,
131
CUADERNO DE ESTADISTICA Y PROBABILIDADES
La media y la varianza de la variable binomial se calculan como: Media = μ = n p Varianza = σ2 = n p q Distribución hipergeométrica
Una variable tiene distribución hipergeométrica si procede de un experimento que cumple las siguientes condiciones: 1)
Se toma una muestra de tamaño n, sin reemplazamiento, de un conjunto finito de N
objetos. 2)
K de los N objetos se pueden clasificar como ‚éxitos y N - K como fracasos.
X cuenta el número de ‚éxitos obtenidos en la muestra. El espacio muestral es el conjunto de los números enteros de 0 a n, ó de
0 a K,
si K < n.
Las pruebas no son independientes entre sí.
Distribución de Poisson
Una variable de tipo Poisson cuenta ‚éxitos (es decir, objetos de un tipo determinado) que ocurren en una región del espacio o del tiempo. El experimento que la genera debe cumplir las siguientes condiciones: El número de éxitos que ocurren en cada región del tiempo o del espacio es independie nte de lo que ocurra en cualquier otro tiempo o espacio disjunto del anterior.
132
CUADERNO DE ESTADISTICA Y PROBABILIDADES
La probabilidad de un ‚éxito en un tiempo o espacio pequeño es proporcional al tamaño de este y no depende de lo que ocurra fuera de él.
Distribuciones Conjuntas Variables Discretas
El conjunto de ternas (x, y, f(x, y)) es una distribución de probabilidad conjunta de las VA discretas X e Y si satisface las condiciones:
x
y
f ( x, y ) 1
f( x , y) ≥ 0 para todo (x, y) F(X=x, Y=y)= f (x, y) Dadas dos VA discretas X e Y, se denomina función de distribución conjunta F(x,y) a la función:
F ( x, y) f ( X x, Y y) f ( xi , y j ).....(x, y) 2 xi x y j y
Distribuciones Marginales
Sean X, Y dos VA discretas con distribución de probabilidad conjunta F(x,y). Las distribuciones marginales de X e Y vienen dadas por:
g X ( x) f ( x, y) y
hY ( y ) f ( x, y ) x
133
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Esperanza o media de distribuciones conjunta y marginal
La covarianza de dos variables aleatorias X y Y con medias μx μy, respectivamente, está dada por:
Distribución condicional de la distribución conjunta
Sean X y
Y dos variables aleatorias, discretas, la distribución condicional de la variable
aleatoria Y, dado que X =x es f ( y / x)
f ( x, y ) , g ( x) 0 g ( x)
De manera similar, la distribución condicional de la variable aleatoria X, dado Y =y es: f ( x / y)
f ( x, y ) , h( y ) 0 h( y )
Variable Aleatoria Continua:
Definición de función de densidad:
134
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Dada una variable aleatoria continua X decimos que f(x) es una función de densidad, si la probabilidad de que X tome valores en el intervalo (a, b) es igual al área encerrada por la gráfica de f(x ), el eje x y las rectas x =a, x=b. Se cumple: 1.- f ( x ) ≥0 para todo valor de x
2.-
En estas condiciones, P(a ≤ X ≤ b) (es decir, la probabilidad de que la variable X esté entre los valores a y b), se calcula como: b
P (a X b) f ( x)dx a
IMPORTANTE: En consecuencia, la probabilidad de que la variable X tome un valor determinado, es CERO: a
P ( X a ) f ( x)dx 0 a
Por lo tanto: P ( a X b) P ( a X b) P ( a X b) P ( a X b) 135
CUADERNO DE ESTADISTICA Y PROBABILIDADES
DEFINICION (Función de distribución): Dada una variable aleatoria continua X, con función de densidad f( x ), la función de distribución F(x) es la función que para cada valor de la variable nos da la probabilidad de que X tome ese valor, o cualquier otro inferior. x
F ( x) P ( X x) f (t )dt a
La función de distribución cumple: 1. La derivada de la función de distribución, es la función de densidad. F ' ( x) f ( x)
2. Por lo que se verifica: P(a X b) F (b) F (a)
Media, varianza, desv. Típica de una Variable continua Media o esperanza matemática:
x f ( x)dx
Varianza
x 2 f ( x)dx x 2 f ( x)dx 2
2
Desviación Típica
2
136
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Propiedades de la Varianza 1. Var (c X) = c2 Var (x)
para todo C, que pertenezca a los reales
2. La varianza se puede obtener también mediante la formula Var ( x) = E ( x2 ) - ( E (x) )2 3. Si X y Y son variables aleatorias independientes se tiene que : Var ( X + Y ) = Var ( x) + Var ( Y )
Distribución Conjunta
Las distribuciones marginales de X y Y son :
g ( x)
f ( x, y)dy
h( y) f(x,y) dx -
Las distribuciones condicional de las variables aleatorias continuas X y Y. La distribuc ió n condicional de la variable aleatoria Y, dado que X = x es:
f ( x, y ) para g( x) 0 g ( x) f ( x, y ) f ( x / y) para h( y ) 0 h( y )
f ( y / x)
137
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Para calcular la media o esperanza matemĂĄtica se tiene que :
ď ( x, y) ď&#x20AC;˝ Eď &#x203A;g ď&#x20AC;¨ X , Y ď&#x20AC;Šď ? ď&#x20AC;˝
ď&#x201A;Ľ ď&#x201A;Ľ
ď&#x192;˛ ď&#x192;˛ g ď&#x20AC;¨x, y ď&#x20AC;Š f ( x, y)dxdy
ď&#x20AC;ď&#x201A;Ľď&#x20AC;ď&#x201A;Ľ
La covarianza se calcula:
ď ł XY ď&#x20AC;˝ E ď &#x203A;ď&#x20AC;¨X ď&#x20AC; ď x )(Y ď&#x20AC; ď y ď&#x20AC;Šď ? ď&#x20AC;˝ ď&#x201A;Ľ ď&#x201A;Ľ
ď&#x192;˛ ď&#x192;˛ ď&#x20AC;¨x ď&#x20AC; ď ď&#x20AC;Š( x ď&#x20AC; ď x
y
) f ( x, y )dxdy
ď&#x20AC; ď&#x201A;Ľď&#x20AC; ď&#x201A;Ľ
TambiĂŠn se puede calcular por
ď łxy ď&#x20AC;˝ Eď&#x20AC;¨ X , Y ď&#x20AC;Š ď&#x20AC; ď x ď y Ejemplo 1 La siguiente expresiĂłn representa la cantidad de ejercicios resueltos de los alumnos de estadĂsticas 3
đ?&#x2018;&#x201C;(đ?&#x2018;Ľ) = { (đ?&#x2018;Ľ â&#x2C6;&#x2019; 1)(3 â&#x2C6;&#x2019; đ?&#x2018;Ľ) 4
si
a) Verificar si es una distribuciĂłn 1) đ?&#x2018;&#x201C;(đ?&#x2018;Ľ) â&#x2030;Ľ 0
1â&#x2030;¤đ?&#x2018;Ľ â&#x2030;¤3
â&#x2C6;&#x17E;
2) â&#x2C6;Ťâ&#x2C6;&#x2019;â&#x2C6;&#x17E; đ?&#x2018;&#x201C;(đ?&#x2018;Ľ)đ?&#x2018;&#x2018;đ?&#x2018;Ľ = 1
CondiciĂłn 1 - Evaluando 3
3
đ?&#x2018;&#x201C;(đ?&#x2018;Ľ = 1) = (1 â&#x2C6;&#x2019; 1)(3 â&#x2C6;&#x2019; 1) = 0
đ?&#x2018;&#x201C;(đ?&#x2018;Ľ = 3) = (3 â&#x2C6;&#x2019; 1)(3 â&#x2C6;&#x2019; 3) = 0
4
4
El resultado es mayor o igual a 0, por lo tanto se cumple la condiciĂłn 1 CondiciĂłn 2 â&#x20AC;&#x201C; Evaluando â&#x2C6;&#x17E;
3
â&#x2C6;Ť đ?&#x2018;&#x201C; (đ?&#x2018;Ľ)đ?&#x2018;&#x2018;đ?&#x2018;Ľ = â&#x2C6;Ť â&#x2C6;&#x2019;â&#x2C6;&#x17E;
1
3 (đ?&#x2018;Ľ â&#x2C6;&#x2019; 1)(3 â&#x2C6;&#x2019; 1)đ?&#x2018;&#x2018;đ?&#x2018;Ľ = 1 4
â&#x2C6;&#x17E;
3 3 â&#x2C6;Ť đ?&#x2018;&#x201C; (đ?&#x2018;Ľ)đ?&#x2018;&#x2018;đ?&#x2018;Ľ = â&#x2C6;Ť (â&#x2C6;&#x2019;đ?&#x2018;Ľ 2 + 4đ?&#x2018;Ľ â&#x2C6;&#x2019; 3)đ?&#x2018;&#x2018;đ?&#x2018;Ľ 4 1 â&#x2C6;&#x2019;â&#x2C6;&#x17E; 3
â&#x2C6;&#x17E; 3 đ?&#x2018;Ľ 3 4đ?&#x2018;Ľ 2 â&#x2C6;Ť đ?&#x2018;&#x201C; (đ?&#x2018;Ľ)đ?&#x2018;&#x2018;đ?&#x2018;Ľ = [â&#x2C6;&#x2019; + â&#x2C6;&#x2019; 3đ?&#x2018;Ľ] 4 3 2 â&#x2C6;&#x2019;â&#x2C6;&#x17E; 1
138
CUADERNO DE ESTADISTICA Y PROBABILIDADES
∞ 3 33 4(3) 2 13 4(1) 2 ∫ 𝑓 (𝑥)𝑑𝑥 = [(− + − 3(3)) − (− + − 3(1))] 4 3 2 3 2 −∞ ∞ 3 1 ∫ 𝑓 (𝑥)𝑑𝑥 = (−9 + 18 − 9) − ( − + 2 − 3) 4 3 −∞ ∞ 3 4 ∫ 𝑓 (𝑥)𝑑𝑥 = [− ( − )] 4 3 −∞ ∞ 3 4 ∫ 𝑓 (𝑥)𝑑𝑥 = ( ) ( ) = 1 4 3 −∞
El resultado de la condición 2 es igual a 1, por lo tanto la condición 2 se cumple b) Encontramos la esperanza 𝐸 (𝑥) = 𝑀(𝑥) 𝑀(𝑥) = ∫ 𝑥𝑓(𝑥) 𝑑𝑥 3 3 𝑀(𝑥) = ∫ 𝑥 ( (𝑥 − 1)(3 − 𝑥)) 𝑑𝑥 4 1 3 3 𝑀(𝑥) = ∫ 𝑥 (𝑥 − 1)(3 − 𝑥) 𝑑𝑥 4 1 3
𝑀(𝑥) = ∫ (−𝑥 3 + 4𝑥 2 − 3𝑥)𝑑𝑥 1 3
3 𝑥 4 4𝑥 3 3𝑥 2 ] 𝑀(𝑥) = [− + − 4 4 3 2 1 Ahora procedemos a evaluar 3 34 4(3)3 3(3)2 14 4(1)3 3(1)2 ) − (− + )] 𝑀(𝑥) = [(− + − − 4 4 3 2 4 3 2 3 81 27 1 4 3 𝑀(𝑥) = [(− + 36 − ) − (− + − )] 4 4 2 4 3 2 3 9 15 3 8 𝑀(𝑥) = [( ) − ( )] = ( ) 4 4 12 4 3 𝑀(𝑥) = 2 c) Encontramos la varianza 𝑉(𝑥) = 𝑆 2 𝑉(𝑥) = 𝑆 2 = ∫ 𝑥 𝑓(𝑥)𝑑𝑥 − 𝑀(𝑥)2 3 3 𝑉(𝑥) = 𝑆 2 = ∫ 𝑥 2 (𝑥 − 1)(3 − 𝑥) 𝑑𝑥 − (2)2 4 1 3 𝑉(𝑥) = 𝑆 2 = ∫ 𝑥 2 (−𝑥 2 + 4𝑥 − 3)𝑑𝑥 − 4 4
139
CUADERNO DE ESTADISTICA Y PROBABILIDADES
3 3 â&#x2C6;Ť (â&#x2C6;&#x2019;đ?&#x2018;Ľ 4 + 4đ?&#x2018;Ľ 3 â&#x2C6;&#x2019; 3đ?&#x2018;Ľ 2 )đ?&#x2018;&#x2018;đ?&#x2018;Ľ â&#x2C6;&#x2019; 4 4 1 3 đ?&#x2018;Ľ 5 4đ?&#x2018;Ľ 4 3đ?&#x2018;Ľ 3 ]â&#x2C6;&#x2019; 4 đ?&#x2018;&#x2030;(đ?&#x2018;Ľ) = đ?&#x2018;&#x2020; 2 = [â&#x2C6;&#x2019; + â&#x2C6;&#x2019; 4 5 4 3 Evaluando 3 35 15 đ?&#x2018;&#x2030;(đ?&#x2018;Ľ) = đ?&#x2018;&#x2020; 2 = [( + 34 â&#x2C6;&#x2019; 33 ) â&#x2C6;&#x2019; (â&#x2C6;&#x2019; + 14 â&#x2C6;&#x2019; 13 )] â&#x2C6;&#x2019; 4 4 5 5 3 243 1 đ?&#x2018;&#x2030;(đ?&#x2018;Ľ) = đ?&#x2018;&#x2020; 2 = [(â&#x2C6;&#x2019; + 81 â&#x2C6;&#x2019; 27) â&#x2C6;&#x2019; (â&#x2C6;&#x2019; + 1 â&#x2C6;&#x2019; 1)] â&#x2C6;&#x2019; 4 4 5 5 3 27 1 đ?&#x2018;&#x2030;(đ?&#x2018;Ľ) = đ?&#x2018;&#x2020; 2 = [( ) + ( )] â&#x2C6;&#x2019; 4 4 5 5 21 1 đ?&#x2018;&#x2030;(đ?&#x2018;Ľ) = đ?&#x2018;&#x2020; 2 = â&#x2C6;&#x2019;4= 5 5 đ?&#x;? ( ) đ?&#x2018;˝ đ?&#x2019;&#x2122; = đ?&#x2018;ş = đ?&#x;&#x17D;. đ?&#x;? đ?&#x2018;&#x2030;(đ?&#x2018;Ľ) = đ?&#x2018;&#x2020; 2 =
d) Encontrado S
1 đ?&#x2018;&#x2020; = â&#x2C6;&#x161;đ?&#x2018;&#x2020; 2 = â&#x2C6;&#x161; = 0.4472 5 DISTRIBUCION CONJUNTA Ejercicio đ?&#x2018;&#x201C;(đ?&#x2018;Ľ, đ?&#x2018;Ś) = {3đ?&#x2018;Ľ(1 â&#x2C6;&#x2019; đ?&#x2018;Ľđ?&#x2018;Ś) đ?&#x2018; đ?&#x2018;&#x2013; 0 â&#x2030;¤ đ?&#x2018;Ľ â&#x2030;¤ 1, 0 â&#x2030;¤ đ?&#x2018;Ś â&#x2030;¤ 1 Encuentre ď&#x201A;ˇ ď&#x201A;ˇ ď&#x201A;ˇ ď&#x201A;ˇ
Si es una distribuciĂłn conjunta Encuentre las distribuciones marginales de cada una de las variables Calcular la esperanza matemĂĄtica o media Calcule la varianza
a) Determinar si es una distribuciĂłn de conjunto â&#x2C6;&#x17E; 1) đ?&#x2018;&#x201C;(đ?&#x2018;Ľ, đ?&#x2018;Ś) â&#x2030;Ľ 0 2) â&#x2C6;Źâ&#x2C6;&#x2019;â&#x2C6;&#x17E; đ?&#x2018;&#x201C;(đ?&#x2018;Ľ, đ?&#x2018;Ś) đ?&#x2018;&#x2018;đ?&#x2018;Ľđ?&#x2018;&#x2018;đ?&#x2018;Ś = 1
Verificando la condiciĂłn 1 đ?&#x2018;&#x201C;(đ?&#x2018;Ľ = 0, đ?&#x2018;Ś = 0) = 3(0)(1 â&#x2C6;&#x2019; 0 â&#x2C6;&#x2014; 0) = 0 đ?&#x2018;&#x201C;(đ?&#x2018;Ľ = 1, đ?&#x2018;Ś = 0) = 3(1)(1 â&#x2C6;&#x2019; 1 â&#x2C6;&#x2014; 0) = 3
140
CUADERNO DE ESTADISTICA Y PROBABILIDADES
𝑓(𝑥 = 0, 𝑦 = 1) = 3(0)(1 − 0 ∗ 1) = 0 𝑓(𝑥 = 1, 𝑦 = 1) = 3(1)(1 − 1 ∗ 1) = 0 Se cumple la condición 1 Verificando la condición 2 ∞
1
∬ 𝑓(𝑥, 𝑦) 𝑑𝑥𝑑𝑦 = ∬ 3𝑥 (1 − 𝑥𝑦) 𝑑𝑥𝑑𝑦 −∞
0
∞
1
1
∬ 𝑓(𝑥, 𝑦) 𝑑𝑥𝑑𝑦 = ∫ [∫ (3𝑥 − 3𝑥 2 𝑦)𝑑𝑥] 𝑑𝑦 −∞
0
∞
0 1
1
3𝑥 2 3𝑥 2 𝑦 ∬ 𝑓(𝑥, 𝑦) 𝑑𝑥𝑑𝑦 = ∫ [ ] 𝑑𝑦 − 2 3 0 −∞ 0 Evaluando ∞
1
∬ 𝑓(𝑥, 𝑦) 𝑑𝑥𝑑𝑦 = ∫ [( −∞
0
3(1)2 3(0) 2 − 13 𝑦) − ( − 03 𝑦)] 𝑑𝑦 2 2
∞ 1 3 ∬ 𝑓(𝑥, 𝑦) 𝑑𝑥𝑑𝑦 = ∫ [( − 𝑦) − 0] 𝑑𝑦 2 −∞ 0 1
∞
3 𝑦2 ∬ 𝑓(𝑥, 𝑦) 𝑑𝑥𝑑𝑦 = [ 𝑦 − ] 2 2 0 −∞ ∞
3 12 3 02 3 1 ∬ 𝑓(𝑥, 𝑦) 𝑑𝑥𝑑𝑦 = [( (1) − ) − ( (0) − )] = − = 1 2 2 2 2 2 2 −∞
Dado que el resultado es igual a 1, la condición cumple Encontrando las marginales ∞
𝒈(𝒙) = ∫ 𝒇(𝒙, 𝒚)𝒅𝒚 −∞ ∞
𝑔(𝑥) = ∫ 3𝑥(1 − 𝑥𝑦)𝑑𝑦 −∞ 1
𝑔(𝑥) = ∫ 3𝑥(1 − 𝑥𝑦)𝑑𝑦 0
141
CUADERNO DE ESTADISTICA Y PROBABILIDADES
1
3𝑥 2 𝑦 2 | 𝑔(𝑥) = 3𝑥𝑦 − 2 0 𝑔(𝑥) = 3𝑥(1) −
3𝑥 2 (1) 2 − (0) 2
3 𝑔(𝑥) = 3𝑥 − 𝑥 2 2
∞
𝒉(𝒚) = ∫ 𝒇 (𝒙, 𝒚)𝒅𝒙 −∞ 1
ℎ(𝑦) = ∫ 3𝑥(1 − 𝑥𝑦) 𝑑𝑥 0 1
3𝑥 2 3𝑥 3 ℎ(𝑦) = − 𝑦| 2 3 0 3( 1) 2
ℎ(𝑦) = ( ℎ(𝑦) =
− 13 𝑦) −(0)
2
3 −𝑦 2
∞
b) 𝑀(𝑥, 𝑦) = ∬−∞ 𝑔 (𝑥, 𝑦)𝑓(𝑥, 𝑦)𝑑𝑥𝑑𝑦 1
𝑀(𝑥, 𝑦) = ∬ (𝑥, 𝑦)(3𝑥(1 − 𝑥𝑦))𝑑𝑥𝑑𝑦 0 1
1
𝑀(𝑥, 𝑦) = ∫ [∫ (3𝑥 2 𝑦 − 3𝑥 3 𝑦 2 ) 𝑑𝑥] 𝑑𝑦 0 1
0 1
3𝑥 3 3𝑥 4 𝑦 2 ] 𝑑𝑦 𝑀(𝑥, 𝑦) = ∫ [ 𝑦− 3 4 0 0 Evaluando 1 3 𝑀(𝑥, 𝑦) = ∫ [(13 𝑦 − 14 𝑦 2 ) − (0) ] 𝑑𝑦 4 0
142
CUADERNO DE ESTADISTICA Y PROBABILIDADES
1
3 𝑀(𝑥, 𝑦) = ∫ (𝑦 − 𝑦 2 ) 𝑑𝑦 4 0 1
𝑀(𝑥, 𝑦) =
𝑦 2 3𝑦 3 | − 2 4(3) 0
𝑀(𝑥, 𝑦) = (
12 1 2 1 1 1 − 1 ) − (0) = − = = 0.25 2 4 2 4 4
c) Covarianza 𝑆𝑦 = 𝑀(𝑥, 𝑦) − 𝑀 (𝑥)𝑀(𝑦) Encontramos 𝑀(𝑥) y 𝑀(𝑦) 𝑀(𝑥) = ∫ 𝑥𝑔 (𝑥)𝑑 (𝑥) 1
3𝑥 3 3𝑥 4 𝑀(𝑥) = − 4| 3 2𝑥 0
𝑀(𝑥) = 13 −
3(1) 4 3 5 =1− = 8 8 8
𝑀(𝑦) = ∫ 𝑦ℎ(𝑦)𝑑𝑦 1 3 ( ) ∫ 𝑀 𝑦 = 𝑦 ( − 𝑦) 𝑑𝑦 2 0 2 3𝑦 𝑦3 3 1 5 𝑀( 𝑦 ) = − = − = 2 3 4 3 12 5 5 ( ) Covarianza = 0.25 − ( ) ( ) = −0.01041 8
12
143
CUADERNO DE ESTADISTICA Y PROBABILIDADES
CONCLUSIÓN Se ha cumplido con recopilar las clases vistas durante el periodo de clases comprendido en el ciclo 2-2016, de la cátedra de Estadística y Probabilidades. Decir que lo que se ha compilado en este cuaderno de clases es todo lo que tiene que ver con la estadística, es limitar el estudio de las ciencias exactas; Esta es la base para que podamos realizar las aplicaciones en nuestros centros de trabajo y desarrollar proyectos de manera confiable. El dominio de las técnicas estadísticas y de probabilidad será nuestra competencia para desarrollar en las proyecciones y la estandarización de los sistemas que involucran la vigilancia de eventos. Podemos recomendar a los lectores o compañeros que consultan este cuaderno; que se programen eficazmente para lograr un aprovechamiento de los conocimientos técnicos que ofrece esta materia; igualmente buscar el apoyo del catedrático en los temas que les causen dificultad.
144
CUADERNO DE ESTADISTICA Y PROBABILIDADES
Bibliografía Cuaderno clase Estadística y probabilidades Ciclo 02– 2016, Ing. Roy Donaldo Silva
145