ESTADÍSTICA Cuaderno de Clase Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo FEEM Institución Universitaria ESUMER
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo TABLA DE CONTENIDO
0. 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.7.1 0.7.2 1.
1.1 1.1.1
1.1.2
PRESENTACIÓN …………………………………………………………………………………….. PROBLEMA …………………………………………………………………………………………… OBJETO ……………………………………………………………………………………………….. OBJETIVO …………………………………………………………………………………………….. SISTEMA DE CONOCIMIENTOS …………………………………………………………………… SISTEMA DE HABILIDADES ……………………………………………………………………….. VALORES ……………………………………………………………………………………………… MÉTODOS Y MEDIOS ………………………………………………………………………………. MÉTODOS ……………………………………………………………………………………………. MEDIOS ……………………………………………………………………………………………….. UNIDAD DE APRENDIZAJE 1: ESTADÍSTICA DESCRIPTIVA ……………………………….. Introducción …………………………………………………………………………………………… Objetivo de aprendizaje …………………………………………………………………………….. Competencias a desarrollar ………………………………………………………………………… UNIDAD TEMÁTICA 1: ORGANIZACIÓN, PROCESAMIENTO Y ANÁLISIS DESCRIPTIVO DE LA INFORMACIÓN …………………………………………………………… CONCEPTOS BÁSICOS …………………………………………………………………………….. Población ……………………………………………………………………………………………… Muestra ………………………………………………………………………………………………… Unidad o Elemento de Investigación …………………………………………………………….. Variable ……………………………………………………………………………………………….. Base de Datos ……………………………………………………………………………………….. TABLAS DE FRECUENCIA …………………………………………………………………………. Para una variable cualitativa ……………………………………………………………………… Frecuencia absoluta …………………………………………………………………………………. Porcentajes …………………………………………………………………………………………… Para una variable cuantitativa sin agrupar por intervalos ………………………………….. Frecuencia relativa …………………………………………………………………………………… Frecuencia absoluta acumulada …………………………………………………………………… Frecuencia relativa acumulada …………………………………………………………………….. Para una variable cuantitativa agrupada por intervalos ……………………………………… Marcas de clase ……………………………………………………………………………………… Amplitud de los intervalos ………………………………………………………………………….. Conformación de los intervalos ……………………………………………………………………. Conteo de las frecuencias absolutas …………………………………………………………….. TABLAS DE FRECUENCIA PARA DOS O MAS VARIABLES ………………………………… Tablas de clasificación cruzada para dos variables ……………………………………………. Tablas de clasificación cruzadas para tres o más variables …………………………………..
1 1 1 1 1 1 2 2 2 2 3 3 3 3
4 4 4 4 4 4 5 5 5 6 6 7 7 8 8 9 9 10 10 11 11 11 12
i
ESTADÍSTICA Mary Nieves Cruz Zuluaga
1.1.3.
1.1.4.
1.1.5.
1.1.6. 1.1.7. 1.2. 1.2.1.
1.2.2.
Facultad de Estudios Empresariales y de Mercadeo
GRÁFICOS ESTADÍSTICOS ……………………………………………………………………….. Gráfico de pastel o circular …………………………………………………………………………. Diagrama de barras …………………………………………………………………………………. Histograma de frecuencias …………………………………………………………………………. Polígono de frecuencias ……………………………………………………………………………. Ojiva ……………………………………………………………………………………………………. Gráfico lineal (para series de tiempo) …………………………………………………………….. Diagrama de disperción y función de ajuste …………………………………………………….. MEDIDAS DE TENDENCIA CENTRAL ……………………………………………………………. LA MEDIA …………………………………………………………………………………………….. Media aritmética simple …………………………………………………………………………….. Media aritmética ponderada ……………………………………………………………………….. Propiedades de la media ………………………………………………………………………….. LA MEDIANA …………………………………………………………………………………………. La mediana para datos desagrupados …………………………………………………………… La mediana para datos agrupados ………………………………………………………………… LA MODA ……………………………………………………………………………………………… MEDIDAS DE VARIABILIDAD ……………………………………………………………………… La varianza ……………………………………………………………………………………………. La desviación típica o estándar ……………………………………………………………………. Coeficiente de variación ……………………………………………………………………………. Rango o Recorrido ………………………………………………………………………………….. EJEMPLOS DE APLICACIÓN RESUELTOS (Unidad Temática 1): Organización, procesamiento y análisis descriptivo de la información ……………………… EJEMPLOS DE APLICACIÓN PROPUESTOS (Unidad Temática 1): Organización, procesamiento y análisis descriptivo de la información ……………………… UNIDAD TEMÁTICA 2: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN …………………….. CONCEPTOS BÁSICOS …………………………………………………………………………….. Regresión …………………………………………………………………………………………….. Diagrama de disperción (Nube de puntos) ………………………………………………………. Función de ajuste ……………………………………………………………………………………. Dato real ………………………………………………………………………………………………. Dato pronosticado …………………………………………………………………………………… Coeficiente de correlación lineal ………………………………………………………………….. ANÁLISIS DE REGRESIÓN LINEAL ……………………………………………………………… Ajuste lineal …………………………………………………………………………………………… Estimación de los parámetros …………………………………………………………………….. Cálculo del pronóstico ………………………………………………………………………………. Error residual …………………………………………………………………………………………. Coeficiente de correlación …………………………………………………………………………. Cálculo del coeficiente de correlación ……………………………………………………………
13 13 14 16 16 17 17 18 19 19 19 19 19 20 20 20 22 23 23 24 24 24 25 47 71 71 71 71 71 71 72 72 72 72 73 74 74 75 76
ii
ESTADÍSTICA Mary Nieves Cruz Zuluaga 1.2.3. 1.2.4. 1.2.5. 2.
2.1. 2.1.1.
2.1.2.
2.1.2.1. 2.1.2.2. 2.1.3. 2.1.3.1. 2.1.3.2. 2.2. 2.2.1.
2.2.2.
Facultad de Estudios Empresariales y de Mercadeo
ANÁLISIS DE REGRESIÓN EN UNA SERIE DE TIEMPO …………………………………….. EJEMPLOS DE APLICACIÓN RESUELTOS (Unidad temática 2): Análisis de regresión y correlación ……………………………………………………………….. EJEMPLOS DE APLICACIÓN PROPUESTOS (Unidad Temática 2): Análisis de regresión y correlación ……………………………………………………………….. UNIDAD DE APRENDIZAJE 2: ESTADÍSTICA INFERENCIAL ………………………………… Introducción …………………………………………………………………………………………… Objetivo de aprendizaje …………………………………………………………………………….. Competencias a desarrollar ………………………………………………………………………… UNIDAD TEMÁTICA 1: TEORÍA DE PROBABILIDADES ………………………………………. CONCEPTOS BÁSICOS DE PROBABILIDAD ……………………………………………………. Enfoques básicos de las probabilidades ………………………………………………………. Enfoque frecuentista ………………………………………………………………………………… Enfoque clásico ………………………………………………………………………………………. Enfoque subjetivo ……………………………………………………………………………………. Axiomas básicos de probabilidades ……………………………………………………………. DISTRIBUCIÓN NORMAL DE PROBABILIDAD …………………………………………………. Estandarización ………………………………………………………………………………………. Representación gráfica de la Normal Estandarizada ……………………………………………. Tabla de la distribución Normal Estandarizada ………………………………………………. Manejo de la tabla de la Normal Estandarizada …………………………………………………. Áreas hacia la izquierda …………………………………………………………………………….. Áreas hacia la derecha ……………………………………………………………………………… Áreas entre dos valores ……………………………………………………………………………. EJEMPLOS DE APLICACIÓN RESUELTOS DE LA NORMAL …………………………………. EJEMPLOS DE APLICACIÓN PROPUESTOS DE LA NORMAL ………………………………. DISTRIBUCIÓN BINOMIAL DE PROBABILIDAD ……………………………………………….. EJEMPLOS DE APLICACIÓN RESUELTOS DE LA BINOMIAL ……………………………….. EJEMPLOS DE APLICACIÓN PROPUESTOS DE LA BINOMIAL ……………………………… UNIDAD TEMÁTICA 2: TEORÍA DE MUESTREO ………………………………………………. CLASES DE MUESTREO …………………………………………………………………………… Muestreo aleatorio simple ………………………………………………………………………….. Muestreo aleatorio simple con reposición ……………………………………………………… Muestreo aleatorio simple sin reposición ………………………………………………………… Muestreo estratificado ………………………………………………………………………………. Muestreo por conglomerados …………………………………………………………………….. Muestreo sistemático (Muestreo tipificado) ………………………………………………………. CÁLCULO DEL TAMAÑO DE MUESTRA …………………………………………………………. Valor de Z …………………………………………………………………………………………….. Valor de S …………………………………………………………………………………………….. Valor de E …………………………………………………………………………………………….. Relación entre tamaño poblacional y muestral ………………………………………………….. Relación entre nivel de confianza, márgen de error y error de estimación …………………. Total de muestras posibles a extraer de una población ……………………………………….
78 78 88 92 92 92 92 92 92 93 93 93 93 93 94 96 96 98 100 100 100 102 103 109 113 114 118 120 120 120 120 121 122 122 123 123 123 125 125 126 127 129
iii
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
2.2.2.1. EJEMPLOS DE APLICACIÓN RESUELTOS DE TAMAÑO DE MUESTRA …………………… 2.2.2.2. EJEMPLOS DE APLICACIÓN PROPUESTOS DE TAMAÑO DE MUESTRA …………………. REFERENCIA BIBLIOGRÁFICA ……………………………………………………………………………….. SOBRE LA AUTORA …………………………………………………………………………………………….
129 141 146 147
iv
CUADERNILLO DE ESTADÍSTICA 0. PRESENTACIÓN El cuadernillo de Estadística son notas de clase que constituyen material de apoyo para el proceso de enseñanza-aprendizaje en ésta área del conocimiento, para los programas de pregrado de la Institución Universitaria Esumer. Contiene los aspectos fundamentales que todo profesional debe conocer para procesar estadísticamente información concerniente a diversas aplicaciones económico-administrativas. Se maneja un lenguaje técnico, sencillo y de fácil comprensión, sin alejarse de la rigurosidad matemática que implica las ciencias básicas; se considera el aspecto teórico y el enfoque práctico donde se proponen actividades para que los estudiantes realicen el trabajo independiente que ha de complementar su formación, gracias a la metodología clara y didáctica que permite visualizar explicaciones paso a paso en cada una de las diferentes etapas de la solución de problemas o situaciones aplicadas al mercadeo, ventas, administración y procesos de producción, entre otras. 0.1. PROBLEMA Procesamiento e interpretación de volúmenes de información, a través de la Estadística, durante la gestión táctica y operativa de los procesos financieros, administrativos y de mercadeo dentro de las organizaciones, para la optimización del manejo de herramientas y metodologías que garanticen la implementación de mejores prácticas que generen valor y equilibrio organizacional bajo un pensamiento integral, sistémico y prospectivo. 0.2. OBJETO Herramientas de la estadística aplicadas a situaciones de la gestión táctica y operativa de los procesos financieros, administrativos y de mercadeo dentro de las organizaciones. 0.3. OBJETIVO Una vez el estudiante curse esta asignatura estará en capacidad de utilizar las herramientas estadísticas que le permitan efectuar la lectura, descripción y análisis de alternativas de solución a problemas durante la gestión táctica y operativa de los procesos administrativos, financieros y de mercadeo dentro de las organizaciones, para la optimización de los mismos, la generación de valor y el equilibrio organizacional a través de la Estadística, enmarcados dentro de un compromiso social, trabajo en equipo, actitud prospectiva e innovadora, solidaridad, servicio y honestidad. 0.4. SISTEMA DE CONOCIMIENTOS Unidad de Aprendizaje 1: Estadística Descriptiva Unidad de Aprendizaje 2: Estadística Inferencial 0.5. SISTEMA DE HABILIDADES
Analizar con lógica-matemática el procesamiento e interpretación de volúmenes de información durante la gestión táctica y operativa en procesos administrativos, financieros y de mercadeo dentro de las organizaciones a través de la estadística descriptiva. Analizar con lógica-matemática el procesamiento e interpretación de volúmenes de información durante la gestión táctica y operativa en procesos administrativos, financieros y de mercadeo dentro de las organizaciones a través de la estadística inferencial. 1
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
0.6. VALORES Solidaridad y compromiso social. Innovación, apertura y disponibilidad al cambio. Orientación del Servicio al Cliente Honestidad Actitud Prospectiva Trabajo en Equipo 0.7. MÉTODOS Y MEDIOS 0.7.1. MÉTODOS Sincrónico (presencial y virtual) Asincrónico (virtual) Productivo (presencial y virtual) Reproductivo (presencial y virtual) Colaborativo (presencial y virtual) 0.7.2. MEDIOS Aula de clase presencial y virtual Computador con software Excel Computador con acceso a Internet Calculadora Científica Libros-Documentos físicos y virtuales Links a sitios de internet Plataforma virtual Objetos virtuales de aprendizaje OVAS Chat Foro Wiki Correo electrónico Tablero (Pizarra blanca, marcador borrable) Proyección del Computador al Televisor vía puertos HDMI o RGB
2
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
1. UNIDAD DE APRENDIZAJE 1: ESTADÍSTICA DESCRIPTIVA Introducción La Estadística es una disciplina que trata la recopilación, organización, presentación, análisis e interpretación de información, con el fin de realizar una toma de decisión efectiva (Martinez, 2008). Describe un conjunto de datos a través de la organización de los mismos y el cálculo de medidas representativas, medidas que al ser interpretadas hablan o describen al conjunto de datos. La importancia de la Estadística radica en sus grandes aplicaciones en las diferentes actividades que implican manejo de información. En todas las áreas del saber humano se maneja información de alguna índole, de ahí que la Estadística es una herramienta vital para ayudar en el procesamiento, organización, análisis y presentación de resultados. Es una herramienta de vital importancia en la toma de decisiones, los métodos estadísticos se aplican a diario tanto en el sector público como en el privado, es indispensable su aplicación en estudios económico-administrativos, econométricos, financieros, portafolio de inversiones, ventas, procesos de producción, políticas económicas y administrativas, elaboración de presupuestos de inversión, campañas electorales, control de calidad, análisis demográfico, entre otras. La información recolectada ha de ser organizada a través de Tablas de Frecuencia y Gráficos, para conocer realmente lo que acontece con la misma. Igualmente es importante complementar la descripción utilizando medidas de tendencia central y de variabilidad para profundizar aún más en el comportamiento de la serie de datos. La importancia de conocer la distribución o comportamiento de la información incide directamente en la buena toma de decisiones que se ha de realizar posterior al análisis descriptivo de la información. Existen múltiples situaciones en que dos o más variables se relacionan entre sí, el grado de dependencia de una variable respecto a otra debe tenerse en cuanta dentro de los análisis descriptivos. El hecho de que una variable este en función de otra, no puede pasar desapercibido y amerita un estudio profundo de la situación porque el comportamiento de la una afecta a la otra. Bajo esta circunstancia el análisis del comportamiento conjunto de las dos variables y los pronósticos efectuados han de tenerse muy presentes para la buena toma de decisiones. Objetivo de aprendizaje Aplicar de forma adecuada las técnicas de la estadística descriptiva para el procesamiento, organización y análisis de la información. Competencias a desarrollar Organizar, procesar y analizar de forma descriptiva la información. Realizar análisis de Regresión y Correlación.
3
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
1.1. UNIDAD TEMÁTICA 1: ORGANIZACIÓN, PROCESAMIENTO Y ANÁLISIS DESCRIPTIVO DE LA INFORMACIÓN 1.1.1. CONCEPTOS BÁSICOS POBLACIÓN La población en el campo de la estadística no se entiende únicamente como el total de personas de una zona geográfica determinada, la población también puede estar constituida por el total de establecimientos, total de objetos, total de plantas, total de animales, entre otros. Es indispensable delimitar muy bien la población, cada investigación, cada problema en particular por solucionar, tiene su respectiva población. Cuando la investigación se lleva a cabo consultándole a todos los elementos de la población se habla de censo. MUESTRA Es una parte representativa de la población. Hablar de representatividad no es seleccionar las mejores unidades o elementos a criterio del investigador, nunca deberá entenderse en este sentido. La representatividad está asociada con el concepto de selección aleatoria de unidades. Cuántas unidades debe tener la muestra (tamaño de la muestra)? y cuáles unidades deben entrar a formar parte de esta muestra?, son dos problemas o interrogantes que se resuelven a través de las Técnicas de Muestreo o lo que se llama simplemente como Teoría de Muestreo. La representatividad de la muestra se alcanza con procesos aleatorios (muestreo aleatorio simple), esto significa que cada unidad o elemento de la población tiene igual posibilidad de ser seleccionado para entrar a formar parte de la muestra. Dependiendo del caso particular de la investigación, para el cálculo del tamaño de muestra, se empleará la técnica de muestreo que más se ajuste al caso (muestreo aleatorio simple, muestreo estratificado, muestreo por conglomerados, entre otros). UNIDAD O ELEMENTO DE INVESTIGACIÓN Una unidad está representada por uno y sólo un elemento de la población (en caso de trabajar con censo), o por un elemento de la muestra (en caso de trabajar con muestreo). VARIABLES Es todo aquello que se desea medir, consultar o averiguar sobre cada unidad o elemento de investigación. Se clasifican en dos grandes grupos: variables cualitativas y variables cuantitativas. VARIABLES CUALITATIVAS Cuando lo que se desea medir, consultar, se refiere a una cualidad, atributo o característica; generalmente está expresado en palabras o códigos que no son precisamente valores numéricos sobre los cuales sea lógico efectuar operaciones aritméticas. Por ejemplo: el estado civil, color de ojos, preferencia musical, estrato económico, entre otras. VARIABLES CUANTITATIVAS Cuando lo que se desea medir, consultar, se refiere a un valor numérico sobre el cual sea lógico efectuar operaciones aritméticas. Las variables cuantitativas se encuentran a su vez clasificadas en dos grandes grupos, cuantitativas discretas y cuantitativas continuas. 4
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
VARIABLES CUANTITATIVAS DISCRETAS Es aquella que sólo admite valores enteros. Ejemplo: número de hermanos, número de personas a cargo, número de cargos ocupados, número de llegadas tarde al mes, volumen de ventas (en número de unidades). VARIABLES CUANTITATIVAS CONTINUAS Es aquella que admite valores fraccionarios. Si los datos originales no están expresados con cifras decimales, no significa que se trate necesariamente de una variable cuantitativa discreta, porque lo importante es el significado de la variable, lo que representa, para poder clasificarla en continúa o discreta. Ejemplo: volumen de ventas (en dinero), ingresos, gastos, arriendo. BASE DE DATOS Está constituida por toda la información que se recolectó. Cada fila representa a cada unidad o elemento de investigación y cada columna representa a cada variable, aunque también pueden existir columnas que representen datos de identificación. Esta base de datos también es conocida con el nombre de Sábana de Datos. Unidad de Variable 1 Variable 2 Variable 3 ... investigación Elemento 1 Elemento 2 Elemento 3 Elemento 4 ... ...
1.1.2. TABLAS DE FRECUENCIA Las tablas de frecuencia se pueden elaborar para variables cualitativas y cuantitativas (discretas y continuas). Se puede hacer alusión a frecuencia absoluta, relativa, absoluta acumulada y relativa acumulada. Cada una de las cuales tiene sus características e interpretaciones particulares. A medida que se explica el diseño de las tablas de frecuencia se menciona las propiedades y características de las diferentes clases de frecuencias. PARA UNA VARIABLE CUALITATIVA Para una variable cualitativa, la frecuencia hace referencia al número de veces que se repite determinada característica o atributo. El diseño de la tabla puede elaborarse de la siguiente manera:
5
ESTADÍSTICA Mary Nieves Cruz Zuluaga CARACTERÍSTICA
NÚMERO DE ELEMENTOS
Facultad de Estudios Empresariales y de Mercadeo PORCENTAJE
Atributo 1
f1
P1 %
Atributo 2
f2
P2 %
Atributo 3 . . . Atributo m TOTALES
f3 . . . fm N
P3% . . . Pm % 100%
Cada uno de los atributos de la variable constituyen cada una de las categorías de la variable, en este caso se cuenta con m categorías cada una con su respectiva frecuencia absoluta. Las categorías son mutuamente excluyentes porque un elemento o unidad de investigación no puede pertenecer simultáneamente a varias categorías a la vez. FRECUENCIA ABSOLUTA Las frecuencias absolutas las identificamos con fi , se puede visualizar en la segunda columna. Características de las frecuencias absolutas ( fi ): 1. Las frecuencias absolutas siempre son valores enteros y positivos. Se encuentran entre o y n.
Siendo n el total de elementos o unidades de investigación. 2. La sumatoria de las frecuencias absolutas es igual a n. ∑
PORCENTAJES Es la representación porcentual o en términos relativos de cada una de las respectivas frecuencias absolutas. Se calcula de la siguiente manera: fi Pi *100 n La sumatoria de los Pi es igual al 100% de la información.
6
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
PARA UNA VARIABLE CUANTITATIVA SIN AGRUPAR POR INTERVALOS Para una variable cuantitativa sin agrupar en intervalos, la frecuencia hace alusión al número de veces que se repite determinado valor de la variable. En este caso existirá una frecuencia respectiva para cada valor diferente que tome la variable. Xi
fi
hi
Fi
Hi
X1
f1
h1
F1
H1
X2
f2
h2
F2
H2
X3
f3
h3
F3
H3
X4 . . . . . . Xm
f4 . . . . . . fm
h4 . . . . . . hm
F4 . . . . . . Fm
H4 . . . . . . Hm
TOTAL
n
1
///////////
////////////
Esta tabla contiene m renglones (filas). Xi = cada uno de los diferentes valores que tiene la variable o cada una de las categorías de la variable. m= número de valores diferentes que asume la variable. fi= frecuencia absoluta. Es el número de veces que se repite el valor X i dentro de la serie de datos original. hi= frecuencia relativa. Fi= frecuencia absoluta acumulada. Hi= frecuencia relativa acumulada. FRECUENCIA RELATIVA (hi)
f Es la relación entre la frecuencia absoluta i y el total de datos n . f Es el grado de representatividad de la i frente al total n . f Es el peso o ponderación de la i dentro del total n . Es la representación porcentual (aún sin multiplicar por 100) de cada una de las respectivas frecuencias absolutas. Las hi se calculan así:
Características de las frecuencias relativas: 1. Las frecuencias relativas siempre son valores fraccionarios positivos. 2. Las frecuencias relativas siempre se encuentran entre 0 y 1 0 hi 1 7
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
3. La sumatoria de las frecuencias relativas siempre es igual a 1 m
hi 1 i 1
FRECUENCIAS ABSOLUTAS ACUMULADAS (Fi) Es ir acumulando las frecuencias absolutas (fi), así: F1 = f1 F2 = f1 + f2 F3 = f1 + f2 + f3 F4 = f1+ f2+ f3+ f4 Fm = f1+ f2+ f3 + ….+ fm También, se tiene que: F2= F1+ f2 F3=F2+ f3 F4=F3+ f4 Fm= F m-1 + fm Características de las frecuencias absolutas acumuladas: 1. El primer valor de las Fi siempre es igual al primer valor de las fi. F1 = f1 2. El último valor de las Fi siempre es igual a n. Fm = n 3. Las Fi siempre son valores enteros entre 0 y n. FRECUENCIAS RELATIVAS ACUMULADAS (Hi) Es ir acumulando las frecuencias relativas (hi), así: H1 = h1 H2 = h1 + h2 H3 = h1 + h2 + h3 H4 = h1+ h2+ h3+ h4 Hm = h1+ h2+ h3 + ….+ hm También, se tiene que: H2= H1+ h2 H3=H2+ h3 H4=H3+ h4 Hm= H m-1 + hm Características de las frecuencias relativas acumuladas: 1. El primer valor de las Hi siempre es igual al primer valor de las hi. H1 = h1 8
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
2. El último valor de las Hi siempre es igual a 1. Hm = 1 3. Las Hi siempre son valores fraccionarios entre 0 y 1. PARA UNA VARIABLE CUANTITATIVA AGRUPADA POR INTERVALOS Para una variable cuantitativa agrupada (organizada por intervalos), la frecuencia se refiere al número de valores dentro de la serie de datos que se encuentran incluidos en el intervalo respectivo. En este caso existirán tantas frecuencias como intervalos posea la tabla que se elabore. Nº
Intervalos
Xi
fi
hi
Fi
Hi
1
Li - Ls
X1
f1
h1
F1
H1
2
Li - Ls
X2
f2
h2
F2
H2
3
Li - Ls
X3
f3
h3
F3
H3
4 … … m
Li - Ls . . . . . . Li - Ls
X4 . . . . . . Xm
f4 . . . . . . fm
h4 . . . . . . hm
F4 . . . . . . Fm
H4 . . . . . . Hm
/////////
n
1
///////////
////////////
TOTAL
Esta tabla contiene m renglones que coinciden con el número de intervalos. Los intervalos representan cada una de las diferentes categorías que asume la variable. Aquí un elemento o unidad de investigación no puede pertenecer simultáneamente a varias categorías. m= número de intervalos ó número de marcas de clase. Xi= marca de clase del intervalo i-ésimo. fi= frecuencia absoluta del intervalo i-ésimo.. Es el número de valores dentro de la serie de datos original que se encuentran incluidos en el intervalo i-ésimo. hi= frecuencia relativa. Fi= frecuencia absoluta acumulada. Acumulación de las fi hasta el intervalo i-ésimo. Hi= frecuencia relativa acumulada. Acumulación de las hi hasta el intervalo i-ésimo. MARCAS DE CLASE (Xi) Es el punto medio del intervalo. Para su cálculo se suma el límite inferior del intervalo más el límite superior del mismo intervalo y luego se divide sobre 2. Luego de tener calculada la primera marca de clase, las siguientes pueden ser calculadas siguiendo esta misma metodología o teniendo presente la amplitud que tienen los intervalos (C ) y la anterior marca de clase, así: Li Ls Xi 2 En esta fórmula se trabaja con el límite inferior (Li) y el límite superior (Ls) del respectivo intervalo iésimo. Si se desea calcular la primera marca de clase (X1) nos ubicamos en el intervalo i=1 (primer intervalo). 9
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Para las siguientes marcas de clase, se puede ir sumando la amplitud de los intervalos. Xm = X m-1 + C Por ejemplo, X2 = X1 + C X3 = X2 + C X4 = X3 + C AMPLITUD DE LOS INTERVALOS (C ) La amplitud de los intervalos es un número constante C, el cual puede ser entero o decimal. CONFORMACIÓN DE LOS INTERVALOS Los intervalos se conforman teniendo presente el rango o recorrido de toda la serie de datos, el número de intervalos deseado m y la amplitud constante C de los intervalos. Procedimiento: Paso 1: Identificar dentro de la serie de datos original el valor mayor y el valor menor. Xmáx. = Valor máximo o mayor Xmín. = Valor menor o mínimo. Paso 2: Calcular el Rango R. R = Xmáx - Xmín Paso 3: Calcular el número de intervalos (m) El número de intervalos puede ser calculado utilizando la siguiente fórmula, o también a criterio subjetivo del investigador, en otras palabras el investigador puede definir el número de intervalos con los cuales desea trabajar. m = 1 + 3.3Log(n) Paso 4: Calcular o definir la amplitud que van a tener los intervalos C. R C m Se puede trabajar con el valor que de C o con una aproximación siempre por encima del resultado, sin importar la regla de aproximación de decimales. (nunca aproximar por debajo). Paso 5: Calcular el nuevo Rango (R*) R* = C.m Paso 6: Comparar el nuevo rango (R*) con el rango inicial R. Siempre se debe cumplir la condición de que el nuevo rango sea mayor o igual al rango inicial (nunca menor). Condición: R* R En caso de no cumplirse esta condición modificar los valores de C y de m ó de uno sólo (el que se desee). Lo más conveniente es que R* sea igual a R o tienda a ser igual al R, esto es que el incremento del rango no sea muy alto (un valor pequeño).
10
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Paso 7: Calcular el incremento del Rango (ΔR) ΔR = R* - R Repartir el incremento del rango en dos partes iguales (dividir el ΔR sobre dos), de la siguiente manera: Xmín – (ΔR/2) = Li del primer intervalo Xmáx + (ΔR/2) = Ls del último intervalo Paso 8: Conformar los intervalos. Primer intervalo: Al límite inferir del primer intervalo sumarle el valor de la amplitud C, para obtener el límite superior de ese intervalo. Segundo intervalo: Asignar como límite inferior del segundo intervalo el límite superior del primero, y luego sumar de nuevo el valor de C, para obtener el límite superior del segundo intervalo. Continuar de la misma manera hasta llegar al último intervalo (el m-ésimo intervalo). CONTEO DE LAS FRECUENCIAS ABSOLUTAS (fi) Para el conteo de las frecuencias absolutas correspondientes para cada intervalo, se debe primero tomar la decisión sobre cuál de los dos límites quedará abierto y cuál cerrado, recordar que abierto significa que no se incluye el valor respectivo, y límite cerrado significa que si se incluye el valor respectivo; este detalle es muy importante para no alterar las frecuencias y por consiguiente el total de datos que arroja la sumatoria de las frecuencias absolutas. Si se cierra el límite superior y se deja abierto el límite inferior el único intervalo que quedará cerrado en sus dos extremos es el primero; por el contrario si se cierra el límite inferior y se deja abierto el superior, el único intervalo que quedará cerrado en sus dos extremos es el último. TABLA DE FRECUENCIA PARA DOS O MÁS VARIABLES Las tablas de frecuencia para dos o más variables reciben el nombre de tablas bivariadas o multivariadas. La metodología para su elaboración es a través de cruce de variables. Cruzar variables es analizar simultáneamente las variables, si se trata del cruce de dos variables es analizar simultáneamente las dos variables respectivas, si se trata de tres variables es analizar simultáneamente las tres variables respectivas, y así sucesivamente. El análisis de clasificación cruzada se elabora a través del diseño de cuadros o tablas de doble entrada. TABLAS DE CLASIFICACIÓN CRUZADA PARA DOS VARIABLES Se conoce también con el nombre de tabla de doble entrada. En la parte superior se ubica una variable y en la parte izquierda la otra, cada una con sus respectivas categorías. Las frecuencias absolutas ubicadas en cada uno de los cruces reciben el nombre de frecuencia absoluta conjunta y los totales de las mismas por columna o por fila se identifican como frecuencias absolutas marginales. La sumatoria de los totales por fila y de los totales por columna siempre deben sumar lo mismo.
11
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Tabla de clasificación cruzada bivariada.
Variable 2
Variable 1 Categ.1
Categ.2
Categ.3
...
Total
Categ.n
Categ.1 Categ.2 ... Categ.m Total Para analizar porcentajes en una tabla de doble entrada se tienen tres opciones o posibilidades: Porcentajes con base en cada uno de los totales por fila. Porcentajes con base en cada uno de los totales por columna. Porcentaje con base en el gran total, es decir, el total ubicado en la esquina inferior derecha de la tabla. Para las interpretaciones de los porcentajes se debe tener en cuanta cuál de las alternativas anteriores fue la elegida para elaborar los respectivos cálculos. TABLAS DE CLASIFICACIÓN CRUZADA PARA TRES O MÁS VARIABLES Para tres variables: Se tienen dos alternativas de diseño, una es colocar dos variables en la parte superior y una en la parte izquierda, la otra alternativa es colocar dos variables en la parte izquierda y una variable en la parte superior. La elección de cuáles van en un lado y cuales en otro depende de las necesidades de cada caso particular dentro de la investigación. Un diseño puede ser como el que se muestra a continuación, existen otros diseños los cuales dependen de las características como se desee organizar la información recolectada. Tabla de clasificación cruzada trivariada. Variable 3
Categoria 1 (Variable 1) Cat 1 (Var 2) Cat 2 (Var 2) ...
Categoria 2 (Variable 1) Cat 1 (Var 2) Cat 2 (Var 2) ...
...
TOTAL
Cat 1 (Var 3) Cat 2 (Var 3) Cat 3 (Var 3) ... TOTAL
Las frecuencias absolutas que se ubican en cada uno de las posiciones de cruce se denominan frecuencias absolutas conjuntas y las ubicadas en cada una de las casillas de totales (por fila y columna) se denominan frecuencias absolutas marginales.
12
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Los porcentajes se calculan con base en los totales por filas, columna o el gran total; la interpretación y análisis del porcentaje respectivo depende del total que se haya tomado como base para el cálculo. El gran total se ubica en la esquina inferior derecha de la tabla y debe ser igual tanto por filas como por columnas. Para más de tres variables: El diseño depende de las necesidades particulares que se tengan al efectuar el cruce. Si se tienen cuatro variables para cruzar: Ubicar dos en la parte superior de la tabla y dos en la parte izquierda. Ubicar tres en la parte superior y una en la izquierda. Ubicar una en la parte superior y tres en la parte izquierda. Si se tienen cinco variables para cruzar: Ubicar dos en la parte superior y tres en la izquierda. Ubicar tres en la parte superior y dos en la izquierda. Ubicar una variable en un lado y cuatro en el otro. Para el cálculo y análisis de los porcentajes se debe tener en cuenta cuál de todos los totales o subtotales se toma como base. 1.1.3. GRÁFICOS ESTADÍSTICOS Los gráficos son una manera de complementar la información que se encuentra organizada en una tabla, para asimilar de manera visual el comportamiento de la variable. Los gráficos más utilizados son: Gráfico de Pastel o Circular La circunferencia se divide en sectores que representan los diferentes porcentajes, los 360 grados de la circunferencia representan el 100% de los datos. Se utiliza cuando las categorías de la variable son mutuamente excluyentes.
13
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Diagrama de Barras Cada barra representa una categoría de la variable y su altura está asociada con la frecuencia absoluta y/o relativa de la respectiva categoría. Este gráfico puede ser utilizado para variable cuantitativa discreta y para variable cualitativa con categorías mutuamente excluyentes y también categorías no mutuamente excluyentes.
Concepto de los bachilleres encuestados sobre Esumer
45 44.1 40 42.6 35
Porcentaje
30 25 20 10.9
15 10
2.5
5
0.0
0 Excelente
Bueno
Regular
Malo
Ninguno
Grado de conocimiento que poseen los empresarios de los programas de Esumer
70% 60%
65.0% 50% 40% 30%
40.0%
20%
20.0%
20.0%
10% 0%
ME
AF
CI
ASI
14
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Diagrama de Barras Bivariado
Estudiantes de Pregrado en cada uno de los niveles de conocimiento de Inglés 60.0%
53.2%
51.4%
50.0% 40.0%
49.5%
39.6%
49.5% 38.7% Básico
32.4%
31.5%
25.2%
30.0%
20.7%
Intermedio
14.4%
20.0%
12.6%
Avanzado
10.0% 0.0% Escuchar
Hablar
Leer
Escribir
Áreas en las que el empresario considera que Esumer podría ofrecerle servicios de Postgrado, Consultoría y Extensión Pregrado
Postgrado
0.0% Cio.Internac. 0.0%
Consultoría/Asesoría
Extensión
8.3%
2.8%
8.3% Mercadeo
19.4%
8.3% 5.6%
2.8% Sistemas 0.0% 2.8% 2.8% 5.6% Financiera 0.0%
Administrativa
0%
13.9%
5.6% 8.3% 8.3% 5.6% 8.3%
5%
10%
15%
20%
25%
15
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Histograma de frecuencias Se parece al gráfico de barras con la diferencia de que no hay espacio entre barra y barra, las barras son consecutivas debido a que el histograma se utiliza para visualizar el comportamiento de una variable cuantitativa continua, organizada por intervalos. Generalmente en el eje X (eje horizontal) se ubican los intervalos y en el eje Y (eje vertical) se ubican las frecuencias absolutas y/o relativas. La altura de cada barra del histograma representa la frecuencia absoluta y/o relativa del intervalo respectivo.
Polígono de Frecuencias Se toma como base para su elaboración al Histograma de frecuencias, se unen con una línea los puntos medios de las alturas de cada una de las barras, esta gráfica lineal resultante es llamada Polígono. En otras palabras se está trabajando con las marcas de clase y las frecuencias absolutas de cada intervalo.
Polígono de Frecuencias Núm. de Almacenes (fi)
25 20 15 10 5 0 20
35
50
65
80
95
Volumen de Ventas ($ mill)
16
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Ojiva Se toma como base las marcas de clase de cada intervalo y las frecuencias absolutas acumuladas, se unen mediante una línea arrojando como resultado un gráfico lineal ascendente por tratarse de frecuencias absolutas acumuladas.
Núm.de Almacenes (Fi)
Ojiva 60 50 40 30 20 10 0 20
35
50
65
80
95
Volumen de Ventas ($mill)
Gráfico lineal (para series de tiempo) Para analizar el comportamiento de una variable a través del tiempo, o lo que es lo mismo para analizar dos variables conjuntamente siendo una de ellas el tiempo. En el eje X (eje horizontal) se ubica el tiempo, en el eje Y (eje vertical) se ubica la otra variable, se señalan puntos de cruce para cada unidad de tiempo con su respectivo valor de la variable y luego se unen los puntos con una línea, la cual va mostrando el movimiento ascendente o descendente a través del tiempo que puede presentar la variable analizada.
Captación ( $mill)
Gráfico lineal-Serie de tiempo 34 32 30 28 26 24 22 20 18 16 14 2002
2004
2006
2008
2010
2012
2014
17
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Diagrama de dispersión y función de ajuste. Llamada también Nube de Puntos. Es utilizado para estudiar la relación existente entre variables, cada punto representa una coordenada en el plano cartesiano (X,Y) haciendo referencia al dato real u original. Sobre el Diagrama de Dispersión se grafica la Función de Ajuste que representa a la serie de datos originales. Los puntos que conforman la función de ajuste se llaman datos pronosticados.
Regresión y Correlación 2500
y = 0,4481x + 243,15
Gasto
2000 1500 1000 500 0 0
500
1000
1500
2000
2500
3000
3500
4000
Ingreso
18
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
1.1.4. MEDIDAS DE TENDENCIA CENTRAL LA MEDIA Es la medida de tendencia central más importante y utilizada. Tiene en cuenta cada uno de los valores de la serie de datos, se ve afectada por valores altos y bajos, así como también por las respectivas frecuencias (Martinez, 2008). La media es el promedio de la serie de datos. Se identifica con X , M(X) o también con la letra . Media aritmética simple
X
X
X
X
i
Para datos desagrupados
n i
fi
n
X X i hi
Para datos agrupados Para datos agrupados y ponderados
Media aritmética ponderada Es utilizada cuando los diferentes valores de la variable tienen diferente peso o ponderación, la ponderación está representada por los porcentajes de representatividad que tiene cada valor de la variable.
X X i hi En esta fórmula los hi los respectivos pesos o ponderaciones. PROPIEDADES DE LA MEDIA: 1. La sumatoria de las desviaciones respecto a la media siempre es igual a cero. La expresión estadística X i X se conoce con el nombre de desviación respecto a la media. La
desviación respecto a la media puede ser positiva o negativa dependiendo si el valor de X i se encuentra por encima o por debajo de la media, e incluso puede ser igual a cero si el valor de X i coincide con el de la media.
X
X X f i
i
X 0 i
0
Para datos sin agrupar. Para datos agrupados.
2. La media aritmética de una constante es igual a la constante misma. M(K) = k KK 19
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
3. La media aritmética de una constante por una variable es igual a la constante por la media de la variable. M(KX) = K.M(X) KX K X
4. La media de una variable más una constante es igual a la media de la variable más la constante. M(X+K) = M(X) + K X K X K
5. La media total: Cuando tenemos una población dividida en subgrupos y para cada uno de los subgrupos conocemos su respectiva media y el total de datos, siendo el objetivo calcular la media total, es decir la media para todo el grupo o media poblacional, se calcular a través de la aplicación de la siguiente fórmula (Media de medias).
Xt
X n n i
i
i
Xt
= media total o general.
X i = media de cada subgrupo i. ni = total de datos del subgrupo i. LA MEDIANA Es el valor que ocupa la posición central en una serie de datos, lo que significa que el 50% de los datos se encuentran por encima de la mediana o son valores superiores a la mediana y el otro 50% se encuentran por debajo de la mediana o son valores inferiores a la mediana (Mendenhall, 2012). Se identifica con Me. El cálculo de la mediana implica tener preliminarmente los datos organizados en orden ascendente, y se halla de manera diferente en caso de tener los datos desagrupados o agrupados. LA MEDIANA PARA DATOS DESAGRUPADOS Para n impar: Ordenar los datos de menor a mayor.
n 1 Me es el valor de la variable que ocupa la posición 2 20
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Para n par: Ordenar los datos de menor a mayor.
n n Me es el promedio de los valores de la variable que ocupan las posiciones y 1 2 2 LA MEDIANA PARA DATOS AGRUPADOS Para variable continua: Cuando los datos están agrupados en una tabla de frecuencia los valores ya se encuentran organizados de menor a mayor. Pasos a seguir:
n 1. Calcular 2 2. Buscar este resultado en la columna de las Fi frecuencias absolutas acumuladas. 3. Efectuar las indicaciones que se presentan a continuación, en caso de encontrar o no este valor. En caso de encontrarlo Señalar el valor de
n en la columna de las Fi 2
En caso de no encontrarlo Señalar el inmediatamente menor a
n en la 2
columna de las Fi e inmediatamente identificarlo con Ir al renglón siguiente y señalar Li
el nombre de F i-1.
M e = Li Ir al renglón siguiente y señalar la correspondiente frecuencia absoluta f
i
y el respectivo límite inferior
del intervalo L i Aplicar la siguiente fórmula:
n Fi 1 M e Li c 2 fi
21
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Para variable discreta. Pasos a seguir:
n 1. Calcular 2 2. Buscar este resultado en la columna de las frecuencias absolutas acumuladas. 3. Aplicar las indicaciones dadas a continuación, en caso de encontrar o no el valor respectivo.
En caso de encontrarlo
En caso de no encontrarlo
n n Señalar el valor de en la columna de Señalar el inmediatamente menor a 2 2 las Fi
en la columna de las Fi .
Señalar el valor de la variable ubicada en Ir al renglón siguiente y señalar el ese mismo renglón e identificarla como X i-1 correspondiente valor de la variable e y el valor de la variable ubicada en el identificarlo como Xi renglón siguiente e identificarla como Xi Aplicar la siguiente fórmula: Aplicar la siguiente fórmula:
Me
X i 1 X i 2
Me Xi
LA MODA Es el valor de la variable que se repite con mayor frecuencia. Se identifica con Md. Md = Xi
Asociado con el fi más alto.
22
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Siendo Xi un valor particular de la variable, en caso de estar analizando una tabla para variable discreta, o un valor particular de una marca de clase en caso de estar trabajando con una tabla para variable continua. 1.1.5. MEDIDAS DE VARIABILIDAD Utilizadas para analizar como varían, oscilan, van cambiando o se van distribuyendo los valores de la variable. LA VARIANZA Se identifica con Var(X), V(X),
x2
o simplemente
2
Es un cálculo estadístico preliminar para poder hallar la desviación típica o estándar, en otras palabras la varianza y la desviación típica o estándar van de la mano. La varianza se define como el promedio de las desviaciones cuadráticas respecto a su misma media (Spiegel, 2010). Toma como referencia para el análisis de la variabilidad el promedio o media de la variable.
Varianza para datos desagrupados
X Var ( X )
i
2
X
n
Varianza para datos agrupados
X Var ( X )
i
X
2
fi
n
OBSERVACIÓN: En las anteriores fórmulas para la varianza el n representa el total de datos que se están analizando, sin hacer diferencia entre población y muestra. Cuando el estudio implica hacer diferencia en cuanto a la población y a la muestra, hay que tener presente que N representa tamaño poblacional y n tamaño muestral. Al estar trabajando con muestreo la varianza cambia por el nombre de cuasivarianza o varianza muestral, la cuasivarianza está dada por:
X Var ( X )
i
X
2
fi
n 1
23
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Cuando se refiere a la cuasivarianza se deja de identificar con 2 y pasa a reconocerse con el símbolo de S 2 . PROPIEDADES DE LA VARIANZA 1. La varianza siempre es un valor positivo. Var ( X ) 0 2. La varianza de una constante K es igual a cero. Var(K)=0 3. La varianza de una variable más o menos una constante es igual a la varianza de la variable. Var ( X K ) Var ( X )
4. La varianza de una constante por una variable es igual a la constante al cuadrado por la varianza de la variable.
Var ( KX ) K 2Var ( X ) LA DESVIACIÓN TÍPICA O ESTÁNDAR Se identifica con
x
ó
Mide el promedio de variabilidad de los datos tomando como referencia la media de la variable, es decir analiza el grado de alejamiento o de dispersión de los datos alrededor de la media. La desviación típica o estándar es la raíz cuadrada de la varianza.
Var (X ) COEFICIENTE DE VARIACIÓN Se identifica con CV. Permite comparar la variabilidad de dos o más distribuciones expresadas en unidades de medidas diferentes, con el fin de determinar cuál de ellas tiene una mayor o menor variabilidad relativa. Se expresa en términos porcentuales. ̅
CV
100
CV
X
S
100
X
EL RANGO O RECORRIDO Se identifica con la letra R. 24
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Es la diferencia entre el valor máximo y el mínimo de la serie de datos alusiva a la variable.
R X máx X mín Simplemente muestra el recorrido de la variable, es decir el espacio en unidades dentro del cual se en cuanta los datos, pero no toma en cuenta como están distribuidos los datos entre el valor máximo y el valor mínimo. No debe utilizarse como medida de dispersión cuando se tienen observaciones extremas. Esta medida no permita saber nada acerca de los valores intermedios de la variable y tampoco tiene en cuenta aquellos valores con mayor peso, ponderación o importancia según la frecuencia. 1.1.6. EJEMPLOS DE APLICACIÓN RESUELTOS (Unidad Temática 1): Organización, procesamiento y análisis descriptivo de la información. Ejemplo 1: Los siguientes datos representan el volumen de exportación mensual (en millones de pesos) de un grupo de almacenes distribuidores de electrodomésticos. 35.8
60.2
49.3
64
62.3
72.4
65
49
65
52.7
31
58
64.7
35
48
79.5
83
77
53
67.5
40.6
50.3
64
80
37.6
36.4
84.7
20
34
63
52
37
36
42
38.9
94.1
68.3
80
60
54.8
53
55
74
50
20.7
67
40
54.2
71
54
95
55.3
Organizar la información recolectada en una Tabla de Frecuencias con 5 intervalos. Hallar las frecuencias absolutas y relativas. Hallar las frecuencias absolutas y relativas acumuladas. Interpretar y Interpretar y Calcular la media, la mediana y la moda. Interpretar cada uno de los resultados obtenidos. Calcular la desviación típica o estándar. Interpretar el resultado obtenido. Graficar el Histograma y el Polígono de frecuencias. Solución:
25
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Intervalos
̅
20 - 35
27,5
5
0,096
5
0,096
137,5
4078,37
35 - 50
42,5
13
0,250
18
0,346
552,5
2390,36
50 - 65
57,5
20
0,385
38
0,731
1150
41,47
65 - 80
72,5
10
0,192
48
0,923
725
2702,74
80 - 95
87,5
4
0,077
52
1
350
3953,89
Total
///////
52
1
///////////
////////
2915
13166,83
∑
26
ESTADÍSTICA Mary Nieves Cruz Zuluaga
(
( ) √
Facultad de Estudios Empresariales y de Mercadeo
)
(
)
∑
( )
√
Interpretaciones: = 10 Existen 10 almacenes con un volumen de ventas entre $ 65 y $ 80 millones = 48 Existen 48 almacenes con un volumen de ventas inferior a $ 80 millones. Existen 48 almacenes con un volumen de ventas entre $ 20 y $ 80 millones. = 0.385 El 38.5% de los almacenes tienen ventas entre $ 50 y $ 65 millones = 0.731 El 73.1% de los almacenes venden por debajo de $ 65 millones. El 73.1% de los almacenes venden entre $ 20 y $ 65 millones. ̅
El volumen promedio de ventas es de $ 56.06 millones. La venta promedio de los almacenes fue de $ 56.06 millones El 50% de los almacenes venden por debajo de $56 millones y el otro 50% de los
almacenes tienen ventas superiores a $ 56 millones. La mayoría de almacenes venden aproximadamente $57.5 millones. Existe una cantidad representativa de almacenes con un volumen de ventas aproximadamente de $ 57.5 millones. En promedio las ventas se encuentran alejadas o dispersas alrededor de la media en $ 15.91 millones. Es decir algunos almacenes venden por encima de la media y otros por debajo de la media, algunos se aproximan más al valor de la media y otros se alejan, el promedio de alejamiento de estos volúmenes de venta respecto a la media es de $ 15.91 millones.
27
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Ejemplo 2: Los siguientes datos representan el precio (en millones de pesos) de 62 casas unifamiliares de cierta zona de la ciudad.
Se pide: a) Organizar los datos en una tabla de frecuencias. b) Elaborar el polígono de frecuencias. c) Calcular la media, la mediana y la moda. d) Calcular la desviación típica o estándar. Analizar e interpretar los resultados obtenidos. Solución:
28
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Se aplica los pasos descritos para la conformación de los intervalos. 5) Nuevo Rango R*.
1)
2) R=125-71 = 54 3) Número de intervalos m=? Puede calcularse con la fórmula o a criterio del investigador (opinión subjetiva).
4) Amplitud de cada intervalo C=?
Se aproxima a número entero en caso de desear trabajar con una amplitud entera. Observación: Los pasos 3 y 4 pueden efectuarse con opinión subjetiva del investigador dependiendo de cómo se desee que queden conformados los intervalos, lo único que siempre hay que tener presente es que el nuevo rango sea igual o mayor al rango inicial, cuando sea mayor se recomienda que no se aleje demasiado del valor del rango inicial.
Se puede trabajar con estos valores de C y m porque El nuevo rango cumple la condición de 6) Incremento del rango
7) Repartir el incremento en dos partes iguales, Se corre hacia la izquierda del y hacia la derecha del .
El valor de 70 constituye el límite inferior del primer intervalo. El valor de 126 constituye el límite superior del último intervalo. Se inicia la conformación de los intervalos, a 70 se le suma la amplitud para obtener el límite superior del primer intervalo, éste valor (78) también constituye el límite inferior del segundo intervalo, se continúa de manera idéntica hasta llegar al último intervalo. Para el conteo de las frecuencias absolutas es indispensable aclarar en los intervalos cual límite queda abierto y cual cerrado.
29
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Para los intervalos en la tabla de frecuencias que se presenta, se tienen las siguientes observaciones, con el objeto de facilitar el conteo de las frecuencias absolutas: Primer intervalo: Límite inferior cerrado, límite superior cerrado. Segundo intervalo: Límite inferior abierto, límite superior cerrado. Tercer intervalo: Límite inferior abierto, límite superior cerrado. Intervalo n-ésimo: en este caso séptimo intervalo, límite inferior abierto, límite superior cerrado. Siguiendo esta metodología de dejar abierto el límite inferior y cerrado el superior, el único intervalo que queda cerrado en sus dos extremos es el primero. Esto es muy importante porque, si existe un valor en la serie de datos recolectada que quede precisamente en uno de los límites, al hacer el conteo de frecuencias absolutas se puede tener claridad dentro de cuál intervalo es incluido dicho valor.
Algunas interpretaciones y/o análisis de los cálculos estadísticos efectuados en la tabla de frecuencias son:
f 3 12 Existen 12 casas unifamiliares con un precio entre 86 y 94 millones (sin incluir el 86), expresado de otra forma entre 86,000001 y 94 millones. El valor 86,000001 (en millones de pesos) significa $ 86.000.001 (pesos).
h5 0.1935 El 19.35% de las casas unifamiliares están avaluadas entre 102,000001 y 110 millones de pesos.
F3 22 Existen 22 casas avaluadas a un precio inferior o igual a 94 millones, es decir entre 70 y 94 millones de pesos (por debajo de 94 millones).
H 5 0.8387 El 83.87% de las casas se encuentran avaluadas a un precio inferior o igual a 110 millones, es decir entre 70 y 110 millones de pesos (por debajo de 110 millones).
30
ESTADÍSTICA Mary Nieves Cruz Zuluaga 7
f i 1
i
Facultad de Estudios Empresariales y de Mercadeo
62 La sumatoria de las frecuencias absolutas es igual al total de datos recolectados, en
este caso n 62 7
h i 1
i
1 La sumatoria de las frecuencias relativas es igual a 1(uno), equivalente al 100% de los
datos.
F7 62 El último valor de la columna de las frecuencias absolutas acumuladas es igual al total de datos.
H 7 1 El último valor de la columna de las frecuencias relativas acumuladas es igual a 1 (uno).
Media, mediana y moda:
31
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
La Mediana: M e Se calcula
n 62 31 2 2
Se busca este valor en la columna de las frecuencias absolutas acumuladas: en este caso particular no se encuentra este valor. Como no se encuentra el valor se señala el inmediatamente menor a 31, en este caso es 22 que corresponde a la tercera frecuencia absoluta acumulada, se le asigna el nombre de
Fi 1 22 .
Se pasa al renglón siguiente, en éste señalamos el valor de la frecuencia absoluta y del límite inferior, se tiene por lo tanto que:
f i 18 Li 94
n Fi 1 Se sustituyen los valores en la fórmula para la mediana M e Li C 2 fi 31 22 M e 94 8 94 8(0.5) 94 4 98 18 M e 98
32
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Interpretación: El 50% de las casas tienen un valor inferior a 98 millones y el otro 50% un precio por encima de 98 millones. La Moda: M d Se visualiza en la columna de las frecuencias absolutas el valor más alto, en este caso corresponde a f 4 18 , por lo tanto la moda es el valor de la marca de clase X 4 asociada con ésta frecuencia absoluta.
Md X4 M d 98 Interpretación: El precio más frecuente para las casas unifamiliares es de aproximadamente 98 millones de pesos. Se presenta con mayor frecuencia que el precio asignado a la casas unifamiliares se encuentra cercano a 98 millones (cercano por debajo y por encima). Observación: La media, la mediana y la moda arrojaron un mismo valor, lo que indica que la variable precio tiene un comportamiento simétrico (se distribuye simétricamente), X M e M d . Desviación típica o estándar: x Para calcular la desviación típica o estándar se hace indispensable conocer el valor de la varianza porque x Var (X ) , también puede ser expresada x x2 . Para hallar la varianza se necesita calcular la sumatoria de las desviaciones cuadráticas respecto a la media para luego promediarla.
33
ESTADĂ?STICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
34
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Ejemplo 3: La siguiente base de datos hace referencia a un grupo de compañías ubicadas dentro de un departamento determinado del país. Se especifica para cada compañía el sector económico al que pertenece, la zona de ubicación y la vinculación actual de aprendices dentro de su planta de personal. Códigos de la base de datos: Sector económico: Agrícola (A), Industrial (I), comercial(C), financiera (F). Ubicación geográfica: Zona norte (N), Zona sur (S), occidente (O), oriente ®. Vinculación de aprendices: Si vinculan (S), No vinculan (N). Observación: los códigos ha utilizar en la base de datos también pueden ser números o palabras, en este caso se utiliza letras. Se pide: a) Cuál es la unidad o elemento de investigación. b) Cuáles son las variables de esta investigación con sus respectivas categorías. c) Elaborar tres tablas de frecuencia univariadas para: Sector económico, ubicación geográfica y vinculación de aprendices. Calcular porcentajes e interpretar algunos datos, elaborar gráficos. d) Elaborar una tabla de frecuencias (bivariada) de doble entrada para la Zona y el sector económico.
Cuáles son los diferentes porcentajes que se pueden calcular. Analizar e
interpretar algunos resultados. Elaborar gráfico. e) Elaborar una tabla de frecuencias (bivariada) de doble entrada para el sector económico y la vinculación de aprendices. Cuáles son los diferentes porcentajes que es posible calcular. Analizar e interpretar algunos resultados. Elaborar gráfico. f) Elaborar una tabla de frecuencias (trivariada) de tres entradas para el sector económico, zona y vinculación de aprendices. Cuáles son los diferentes porcentajes que se pueden calcular. Analizar e interpretar algunos resultados. Elaborar gráfico.
35
ESTADĂ?STICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Base de datos:
36
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Solución: a) Unidad o elemento de investigación: cada una de las compañías. b) Variables: V1: Sector económico. Categorías de la variable V1: Agrícola, industrial, comercial, financiero. V2: Ubicación geográfica. Categorías de la variable V2: Norte, sur, occidente, oriente. V3: Vinculación de aprendices. Categorías de la variable V3: Si, No. c) Tablas de frecuencia univariadas
37
ESTADĂ?STICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
38
ESTADĂ?STICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
39
ESTADĂ?STICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
40
ESTADĂ?STICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
41
ESTADĂ?STICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
42
ESTADĂ?STICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Algunas interpretaciones: Fila 5, columna 1: El 66.7% de las empresas comerciales ubicadas en la zona norte no vinculan aprendices dentro de su planta de personal. Fila 12, columna 2: El 90.9% de las empresas del sector financiero ubicadas en la zona sur no vinculan aprendices dentro de su planta de personal. Fila 16, columna 1: El 33.3% de las empresas del sector industrial ubicadas en la zona sur no vinculan aprendices dentro de su planta de personal.
43
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Tabla con porcentajes por columna:
Interpretación: Fila 5, columna 1: El 14.3% de las empresas que no vinculan aprendices pertenecen al sector industrial y están ubicadas en la zona norte. Fila 11, columna 2: El 13.9% de las empresas que si vinculan aprendices dentro de su planta de personal pertenecen al sector financiero y se ubican en la zona oriental. Fila 1, columna 2: El 5.6% de las empresas que si vinculan aprendices se dedican a la actividad económica agrícola y están ubicadas en la zona norte.
44
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Tabla de porcentaje con base en el gran total:
Algunas interpretaciones:
Fila 3, columna 1: El 2% de las compañías pertenecen al sector agrícola, están ubicadas en la zona oriental y no vinculan aprendices. Fila 12, columna 2: El 20% de las empresas pertenecen al sector financiero, están ubicadas en la zona sur y si vinculan aprendices en su planta de personal. Fila 16, columna 2: El 4% de las compañías pertenecen al sector industrial, están ubicadas en la zona sur y si vinculan aprendices en su planta de personal.
45
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Tabla de porcentaje con base en los sub-totales por filas:
Algunas interpretaciones: Fila 1, columna 2: El 28.6% de las compañías del sector agrícola están ubicadas en la zona norte y si vinculan aprendices en su planta de personal. Fila 12, columna 1: El 4.3% de las empresas del sector financiero están ubicadas en la zona sur y no vinculan aprendices en su planta de personal. Fila 14, columna 1: El 12.5% de las empresas del sector industrial están ubicadas en la zona occidental y no vinculan aprendices.
46
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
1.1.7. EJEMPLOS DE APLICACIÓN PROPUESTOS (Unidad Temática 1): Organización, procesamiento y análisis descriptivo de la información. Ejemplo propuesto 1: Los siguientes datos representan los ingresos quincenales de 50 personas en miles de pesos. 251
325
225
480
501
369
422
307
297
428
258
436
369
325
326
247
505
324
502
498
458
509
258
406
568
365
436
407
325
225
286
307
309
279
305
269
365
568
357
421
457
402
456
368
269
369
358
228
405
227
a) Agrupar los datos en una tabla de frecuencias. b) Construir un polígono de frecuencias absolutas. c) Calcular la media, la mediana y la moda. d) Calcular la varianza y la desviación típica o estándar Nota: Interpretar cada uno de los resultados obtenidos. Ejemplo propuesto 2: Los siguientes datos representan el volumen de exportación mensual (en millones de pesos) de un grupo de empresas dedicada a la distribución de artículos de cuero: Volumen de exportación Núm.Empresas 150 – 200
4
200 – 250
12
250 – 300
25
300 – 350
20
350 – 400
10
400 - 450
3
47
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Se pide: a) Graficar el histograma de frecuencias b) Calcular la media, la mediana y la moda c) Calcular la desviación típica o estándar. Nota: Interpretar cada uno de los resultados. Ejemplo propuesto 3: En la siguiente tabla se observa la distribución de frecuencias de los Gastos quincenales (en miles de pesos) de un grupo de personas de un sector determinado de la ciudad: Gastos
Núm.perosnas
300 – 400
8
400 – 500
15
500 – 600
27
600 - 700
14
700 – 800
9
800 – 900
3
Se pide: a) Graficar el histograma y el polígono de frecuencias b) Calcular la media, la mediana y la moda c) Calcular la desviación típica o estándar. Nota: Interpretar cada uno de los resultados. Ejemplo propuesto 4: Una muestra aleatoria de automóviles del mismo tipo nos señala cuántas millas recorren por galón de gasolina. 25 33 27 28 29 28 29
27
30
31
27
32
28
26
33
35
25
27
31
30
35
26
35
30
35
33
26
28
33
31
33
35
25
25
26
29
27
25
29
33
31
28
26
27
32
30
30
32
29
29
34
35
34
29
31
32
25
29
27
28
48
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Se pide: a) Construir una tabla de frecuencias con 5 intervalos b) Elaborar un polígono de frecuencias c) Calcular la media, la mediana y la moda d) Calcular la desviación típica o estándar Nota: Interpretar cada uno de los resultados obtenidos. Ejemplo propuesto 5: En una fábrica el departamento de producción está dividido en tres secciones. Se sabe que en la sección A con 100 empleados la asistencia promedio es de 240 días al año. En la sección B con 80 empleados la asistencia promedio es de 216 días al año. Si la asistencia media en todo el departamento es de 226.5 días al año. ¿Cuántos empleados hay en la sección C, donde la asistencia promedio es de 200 días al año ? Ejemplo propuesto 6: De un grupo de 200 obreros que laboran en una fábrica, 120 de ellos trabajan de día y 80 trabajan de noche. Se sabe que el salario medio de los 200 trabajadores es de $ 360.000. Los del turno de día reciben en valor medio un 25% menos que los trabajadores de la noche. Cuál es el salario medio de cada grupo? Ejemplo propuesto 7: El volumen de ventas semestral en millones de pesos de 50 establecimientos comerciales se muestra a continuación:
Se pide: a) Construir una tabla de frecuencias con 7 intervalos y una amplitud de 4. b) Elaborar un polígono de frecuencias c) Calcular la media, la mediana y la moda d) Calcular la desviación típica o estándar Nota: Interpretar cada uno de los resultados obtenidos. 49
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Ejemplo propuesto 8: El departamento de personal de una empresa del sector financiero desea analizar el comportamiento del ingreso semanal en miles de pesos de un grupo de 31 empleados de nivel ejecutivo. La información recolectada se muestra a continuación:
Se pide: a) Organizar la información en una tabla de frecuencias con 5 intervalos. b) Graficar el polígono y la Ojiva. c) Calcular la media, la mediana y la moda. d) Calcular la varianza y la desviación típica o estándar. Observación: Analizar e interpretar los resultados obtenidos Ejemplo propuesto 9: Un grupo de papelerías especializadas en el país importa lapiceros de marcas prestigiosas, el nivel de importación bimestral en millones de pesos, se presenta a continuación:
a) Calcular las frecuencias relativas, absolutas acumuladas y relativas acumuladas. b) Graficar el histograma, el polígono de frecuencias y la ojiva. c) Calcular la media, la mediana y la moda. d) Calcular la varianza y la desviación típica o estándar. Observación: Analizar e interpretar los resultados obtenidos. 50
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Ejemplo propuesto 10: Elegir dos tablas de frecuencias de alguno de los ejemplos anteriores y desarrollar los cálculos necesarios para demostrar que la sumatoria de las desviaciones respecto a la media es igual a cero (propiedad de la media). Ejemplo propuesto 11: Explique por qué para calcular el grado de alejamiento de los datos alrededor de la media, se toma el promedio de las desviaciones cuadráticas respecto a la media y no solamente las desviaciones respecto a la media. Ejemplo propuesto 12: Según sus conocimientos sobre frecuencia absoluta, absoluta acumulada, relativa y relativa acumulada. Justifique estadísticamente si es verdadero o falso el siguiente caso particular:
Ejemplo propuesto 13: Analizar y explicar por qué la varianza de una constante por una variable es igual a la constante al cuadrado por la varianza de la variable. Var ( KX ) K 2Var ( X ) Ejemplo propuesto 14: La siguiente expresión algebraica representa la relación entre el precio de un artículo y la cantidad de unidades que está dispuesto a ofrecer el comerciante a dicho precio. Siendo X cantidades y Y el 2 precio. La función lineal de Oferta está dada por X 7Y 14 . 5 Calcular la media y la varianza de X, si se sabe que la media y la desviación típica de Y son 4 y 0.3 respectivamente. Ejemplo propuesto 15: La siguiente tabla señala la cantidad de latas (con un contenido individual de 8 oz.) de cervezas ingeridas al mes por un grupo de 37 consumidores.
51
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Se pide: a) Completar los espacios en blanco y señalar claramente los cálculos estadísticos empleados para encontrar los valores respectivos. b) Analizar e interpretar h3 y H 3 . c) Qué significa f 5 .? d) Graficar el polígono de frecuencias. e) Calcular la media, la mediana y la moda. f) Calcular la desviación típica o estándar. Observación: Analizar e interpretar los resultados obtenidos. Ejemplo propuesto 16: La distribución de frecuencias del ingreso quincenal (en miles de pesos $) de un grupo de empleados de una compañía se presenta a continuación:
a) Calcular las frecuencia relativas e interpretar h 2 y h 4 . b) Graficar el histograma y el polígono. c) Calcular la media, la mediana y la moda. d) Calcular la desviación típica o estándar. Observación: Analizar e interpretar los resultados obtenidos. Ejemplo propuesto 17: La percepción que tienen un grupo de empleados sobre el clima laboral que reina dentro de la empresa donde están vinculados es la siguiente:
52
ESTADÍSTICA Mary Nieves Cruz Zuluaga
a) b) c) d) e) f) g)
Facultad de Estudios Empresariales y de Mercadeo
Cuál es la variable y cómo se clasifica? Cuáles son las categorías de la variable, a qué clasificación pertenecen y por qué? Cuál es la unidad o elemento de investigación ? Calcular las frecuencias relativas y analizarlas. Elaborar el gráfico de pastel o circular. Elaborar el gráfico de barras. Hallar la moda e interpretarla.
Ejemplo propuesto 18: Una empresa dedicada a la producción de ambientadores con atomizador, realiza una investigación entre las amas de casa del barrio “El Porvenir” de una ciudad, se seleccionan aleatoriamente 50 de ellas para analizar el tiempo de permanencia del aroma después de esparcirlo en el ambiente del hogar. a) Definir la población (tamaño de la población). b) Cuál es el tamaño de la muestra. c) Cuál es la variable. d) Cómo se clasifica esta variable. Ejemplo propuesto 19: Cuál es la diferencia y cuál la similitud entre marca de clase y mediana. Ejemplo propuesto 20: El nivel de exportación mensual (en millones de pesos $) de un grupo de empresas confeccionistas de vestidos ejecutivos para dama y caballero, es el siguiente: Exportación mensual (millones de pesos)
Núm. Empresas confeccionistas
7- 9
3
9 - 11
8
11 - 13
15
13 - 15
32
15 - 17
12
17 - 19
7
19 - 21
5
21 - 23
2
a) Cuál es el volumen de exportación promedio mensual. b) Cuál es el promedio del grado de alejamiento de los volúmenes de exportación mensual alrededor de dicho promedio? c) De cuántas medias se está hablando en el numeral anterior, explicar a qué hace referencia cada una de ellas y cómo se calculan. d) Graficar el polígono de frecuencias. Interpretar los resultados obtenidos 53
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Ejemplo propuesto 21: De acuerdo a los conocimientos sobre frecuencia absoluta, absoluta acumulada, relativa y relativa acumulada; justificar estadísticamente si es verdadero o falso el siguiente caso particular: H 5 0.65
F4 30 f5 6 n 50 Ejemplo propuesto 22: Explicar cuál es el motivo por el cual la desviación típica siempre es un valor positivo. Ejemplo propuesto 23: Las unidades vendidas de computadores en el semestre anterior por un consorcio conformado de 76 agencias distribuidoras en el país, se muestra a continuación:
a) Graficar el histograma. b) Calcular la moda. c) En promedio cuántos computadores vendió el consorcio en el semestre? d) Calcular las frecuencias relativas. e) Calcular la desviación típica o estándar. Observación: Analizar e interpretar los resultados obtenidos. Ejemplo propuesto 24: El gerente de ventas de un gran almacén de materiales para la construcción y remodelación desea efectuar auditoria sobre el proceso de despacho de mercancía y facturación de la mismas. Un estudio previo sobre el cálculo del tamaño de muestra indica que para llevar a buen término esta auditoria se debe seleccionar una muestra aleatoria de 70 registros de solicitud y despacho de mercancía.
54
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Para cada registro se analiza: Forma de solicitud: Personal, teléfono, fax, correo electrónico. Tiempo transcurrido desde recibida la solicitud hasta que es despachada (en horas). Elaboración de la factura: cálculos correctos y sin enmendaduras, cálculos incorrectos y/o con enmendaduras. Valor o monto de la factura (en miles de pesos). Forma de pago de la mercancía. El almacén sólo vende bajo las siguientes alternativas de pago: de contado, a la semana, a los quince días y al mes. Existencia del sello en la factura: Si posee sello o no plasmaron el sello. Firma de recibido: posee firma de la persona que recibe la mercancía o no hay firma que respalde la conformidad de quien recibe la mercancía. Registro de devoluciones: en caso de que la mercancía o parte de ella presente baja calidad. Si presenta registro o no lo presenta. A continuación se muestra la base de datos con la información recolectada. En esta base de datos los códigos que identifican a cada categoría de la variable son números, pero igualmente si el investigador opta por utilizar letras y/o palabras puede hacerlo. Columna 1: Conteo de los registros. Columna 2: Número de la factura Columna 3: Forma de solicitud del pedido. Personal (1) Teléfono (2) Fax (3) E-mail (4) Columna 4: Tiempo de despacho (en horas). Columna 5: Elaboración de la factura. Sin errores (1) Con errores (2) Columna 6: Valor o monto de la factura ( en miles de pesos $). Columna 7: Forma de pago. Contado (1) A la semana (2) A los 15 días (3) Al mes (4) Columna 8: Existencia de sello. Si (1) No (2) 55
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Columna 9: Firma de recibido. Si (1) No (2) Columna 10: Registro de devolución. Si (1) No (2) Se pide: a) b) c) d)
Definir la unidad o elemento de investigación. Hacer un listado de las variables que se trabajan en esta investigación. Clasificar cada variable y especificar sus categorías respectivas. Elaborar la tabla de frecuencia para cada variable con su respectivo gráfico y analizar las frecuencias relativas.
e) Efectuar tabla de clasificación cruzada bivariada (con frecuencias absolutas) entre registro de devolución y el monto de la factura, elaborar gráfico. Calcular tres tablas con porcentajes: por filas, por columnas y con base en el gran total, interpretar los resultados obtenidos en cada tabla. f) Efectuar tabla de clasificación cruzada bivariada (con frecuencias absolutas) entre el valor o monto de la factura y la forma de pago, elaborar gráfico. Calcular tres tablas con porcentajes: por filas, por columnas, con base en el gran total, interpretar los resultados obtenidos en cada tabla. g) Efectuar tabla de clasificación cruzada bivariada (con frecuencias absolutas) entre el monto de la factura y el tiempo de despacho, elaborar gráfico. Calcular tres tablas con porcentajes: por filas, por columnas y con base en el gran total, interpretar los resultados obtenidos. h) Elaborar tabla de clasificación cruzada trivariada (con frecuencias absolutas) entre forma de solicitud, monto de la factura y forma de pago, efectuar gráfico. Calcular tablas con porcentajes: por filas, por columnas, con base en subtotales y con base en el gran total, interpretar los resultados obtenidos.
56
ESTADĂ?STICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
57
ESTADĂ?STICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
58
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Ejemplo propuesto 25: La dirección académica de una universidad reconocida en la ciudad, requiere efectuar una investigación sobre el perfil del estudiante de pregrado. La investigación es de carácter urgente lo que imposibilita recolectar la información necesaria sobre toda la población actual de estudiantes, se opta por aplicar muestreo, el cálculo del tamaño de muestra arroja un total de 125 estudiantes. La información recolectada a través de una encuesta aparece registrada en la siguiente base de datos:
59
ESTADĂ?STICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
60
ESTADĂ?STICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
61
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Número de Registro
Unidad académica
Semestre
Sexo
Trabajo
Tipo de matrícula
Estrato
106
1
10
2
2
2
4
107
1
1
1
2
2
3
108
1
9
1
1
1
3
109
4
4
2
2
2
3
110
2
9
2
2
2
6
111
2
10
2
1
2
4
112
4
1
2
2
2
4
113
1
9
2
2
2
6
114
4
3
2
2
1
4
115
4
10
1
2
2
4
116
3
7
2
2
2
4
117
1
1
1
2
2
4
118
1
4
1
1
2
3
119
1
7
2
1
2
4
120
1
1
1
2
2
4
121
4
3
2
2
2
4
122
4
7
1
2
2
4
123
2
4
1
2
1
4
124
2
1
2
2
1
5
125
1
3
2
1
1
3
Especificaciones del contenido de la base de datos: Los códigos utilizados para identificar las categorías de cada variable son números, pero igualmente si el investigador opta por utilizar letra y/o palabras puede hacerlo. Columna 1: Unidad académica a la que pertenece el estudiante. Comunicación (1) Sicología (2) Economía (3) Contaduría (4) Columna 2: Semestre que cursa el estudiante Se identifica del 1 al 10. Columna 3: Sexo que identifica al estudiante Masculino (1) Femenino (2) Columna 4: Trabajo remunerado actual Si (1) No (2) 62
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Columna 5: Tipo de matrícula que posee el estudiante Tiempo parcial (1) Tiempo completo (2) Columna 6: Estrato al que pertenece el estudiante Se identifica del 1 al 6 Se pide: a) Cuál es la unidad o elemento de investigación.? b) Identificar las variables, clasificarlas y especificar las categorías que posee cada una de ellas. c) Elaborar una tabla de frecuencia para cada variable, con el gráfico respectivo. Analizar las frecuencias relativas y especificarlas dentro de la tabla en términos porcentuales. d) Efectuar una tabla de clasificación cruzada (bivariada) con frecuencias absolutas para la unidad académica y el sexo. Elaborar el gráfico respectivo. Calcular tres tablas de frecuencia con porcentajes: por filas, por columnas y con base en el gran total. Analizar e interpretar los resultados obtenidos en estas tablas. e) Efectuar una tabla de clasificación cruzada (bivariada) con frecuencias absolutas para el semestre que cursa y trabajo actual. Elaborar el gráfico respectivo. Calcular tres tablas de frecuencias con porcentajes: por filas, por columnas y con base en el gran total. Analizar e interpretar los resultados obtenidos en cada una de estas tablas. f) Efectuar una tabla de clasificación cruzada (trivarada) con frecuencias absolutas para la unidad académica, sexo y trabajo actual. Efectuar varias tablas con porcentajes: por filas, por columnas, con base en el gran total, con base en subtotales. Analizar e interpretar los resultados obtenidos. g) Efectuar varias tablas de clasificación cruzada (cuatrivariada) con frecuencias absolutas para unidad académica, sexo, estrato y tipo de matrícula. Diseñar el gráfico correspondiente para cada tabla de frecuencia. Con base en cada una de las tablas anteriores elaborar otras tablas de frecuencia donde se visualice porcentajes: por filas, por columnas, con base en el gran total, con base en subtotales por filas, con base en subtotales por columna. Analizar e interpretar cada uno de los resultados obtenidos. Ejemplo propuesto 26: Para cada uno de los enunciados siguientes especificar si es una proposición falsa o verdadera, además justificar estadísticamente el valor de verdad asignado. a) El momento de orden 1 respecto a la media es igual a 1. b) Cuando los datos de la variable son muy heterogéneos la varianza arroja un valor negativo. c) La estadística sólo se puede aplicar en aquellos casos en que se tengan datos numéricos. d) La varianza es lo mismo que el momento de orden 3 respecto a la media. e) Una serie de datos numéricos puede llegar a tener varias medias. f) Una serie de datos numéricos puede llegar a tener varias modas. g) Una serie de datos cualitativa sólo tiene una media. h) En una serie de datos cualitativa es imposible calcular la moda. i) Siempre la desviación respecto a la media es un valor positivo. 63
ESTADÍSTICA Mary Nieves Cruz Zuluaga
j) k) l) m)
Facultad de Estudios Empresariales y de Mercadeo
Los momentos respecto a la media son promedios. La varianza es un promedio. La mediana es una medida de dispersión. La desviación típica o estándar es negativa cuando los datos son decrecientes.
Ejemplo propuesto 27: Para cada uno de los siguientes enunciados especificar si puede ser considerada alguna variable, en caso afirmativo indicar cuál sería el nombre, clasificarla en cualitativa o cuantitativa, además definir cuál es el elemento o unidad de investigación. a) El peso en gramos de cada uno de los 200 pollos adquiridos en un restaurante para su posterior preparación y venta. b) Los números telefónicos de un grupo de empleados de una compañía. c) El número de páginas de un libro. d) El número de libros en finanzas existentes en cada una de las bibliotecas de las universidades del departamento. Ejemplo propuesto 28: Los siguientes datos representan el gasto presupuestal anual (en millones de pesos) en la dependencia de Bienestar Institucional de 48 establecimientos educativos de secundaria de carácter privado.
Se pide: a) Calcular las frecuencias relativas y analizarlas. b) Elaborar el polígono de frecuencias. c) Calcular la media, la mediana y la moda. d) Calcular la desviación típica o estándar. e) Calcular el rango. Observación: Analizar e interpretar los resultados obtenidos.
64
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Ejemplo propuesto 29: Los siguientes datos muestran las preferencias de un grupo de ciudadanos por cada uno de los candidatos electorales.
Se pide: a) b) c) d) e) f)
Cuál es la unidad o elemento de investigación. Definir la variable, clasificarla e indicar las categorías que posee. Elaborar un gráfico de pastel o circular. Calcular las frecuencias relativas e interpretarlas. Calcular la moda e interpretarla. Elaborar un gráfico de barras.
Ejemplo propuesto 30: Los clientes que llegan a una entidad bancaria para llevar a cabo una transacción financiera tardan determinado tiempo (en minutos), se recolecta la información en un grupo de ellos de manera aleatoria, para analizar la distribución de frecuencias del tiempo, la información recolectada es la siguiente:
Se pide: a) Organizar el tiempo en una tabla de frecuencias con 6 intervalos y una amplitud de 8. b) Graficar el histograma. c) Calcular la media, la mediana y la moda. d) Calcular la desviación típica o estándar. Observación: Analizar e interpretar los resultados obtenidos. 65
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Ejemplo propuesto 31: Una corporación dedicada al trabajo social desea analizar la distribución y/o comportamiento del gasto destinado para la alimentación semanal (en miles de pesos $) efectuado por un grupo de personas cabeza de hogar de una zona determinada de la ciudad, para tal fin recolecta la siguiente información:
Se pide: a) Organizar el gasto en una tabla de frecuencia. b) Graficar el polígono. c) Calcular media, mediana y moda. d) Calcular desviación típica o estándar. e) Calcular el rango. Observación: Analizar e interpretar los resultados obtenidos. Ejemplo propuesto 32: Una cadena de mini-mercados tiene 8 agencias de venta en la zona norte, 7 en el occidente, 12 en el oriente y 20 en el sur. El volumen de venta promedio de toda la cadena es de $91.9 millones anuales. Se sabe que en el occidente el volumen de venta promedio fue de $38 millones, y en el oriente 96 millones. Calcular el volumen de ventas promedio para el norte y el sur, si además se sabe que el volumen de ventas promedio del sur es dos veces y medio el del norte. Ejemplo propuesto 33: La producción diaria en metros de tela en una textilera durante el último mes, se registra a continuación:
66
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Se pide: a) Calcular las frecuencias relativas, absolutas acumuladas y relativas acumuladas. b) Graficar el histograma y el polígono. c) Calcular la media, la mediana y la moda. Qué relación existe entre estos valores, qué se puede concluir de la distribución de frecuencias de la producción de tela en metros. d) Calcular la varianza y la desviación típica o estándar. Observación: Analizar e interpretar los resultados obtenidos. Ejemplo propuesto 34: Los siguientes datos hacen referencia al gasto anual en publicidad (en miles de pesos $) de un grupo de almacenes distribuidores de maletines y correas en cuero.
Se pide: a) Calcular frecuencias relativas, absolutas acumuladas y relativas acumuladas. b) Elaborar el histograma de frecuencias. c) Calcular la media, la mediana y la moda. d) Calcular la desviación típica o estándar. e) Calcular el rango. Observación: Analizar e interpretar los resultados obtenidos. Ejemplo propuesto 35: Una compañía está dividida en tres secciones. La sección 1 cuenta con 80 empleados. La sección 2 cuenta con 130 empleados y ganan en promedio un 15% menos que la sección 1. La sección 3 cuenta con 100 empleados y ganan en promedio un 15% más que la sección 2. Se sabe que el salario promedio de toda la compañía es de $ 750.000. ¿Cuál es el ingreso promedio de cada sección?
67
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Ejemplo propuesto 36: La captación semanal (en millones de pesos $) de las agencias a nivel nacional de una corporación de ahorro y vivienda presenta la siguiente distribución de frecuencias:
a) Calcular las frecuencias relativas e interpretarlas. b) Elaborar el polígono de frecuencias. c) Calcular la media, la mediana y la moda. d) Calcular la desviación típica o estándar. Observación: Analizar e interpretar los resultados obtenidos. Ejemplo propuesto 37: Una urbanización posee tres torres la A, la B y la C. Sus apartamentos están destinados todos para el arriendo (ninguno de los habitantes es propietario). El arriendo promedio de todos los apartamentos de la urbanización es de $367.000 . La torre A cuenta con 18 apartamentos y el promedio de arriendo es de $360.000. La torre C posee 12 apartamentos y tiene un arriendo promedio de $450.000. Calcular el número de apartamentos de la torre B si se sabe que el arrendamiento promedio de esta torre es de $280.000. Ejemplo propuesto 38: La distribución de frecuencias para el volumen de importación anual (en millones de pesos $) de materia prima necesaria para la fabricación de un producto nacional por parte de una reconocida empresa con diferentes sucursales dentro del territorio, se visualiza a continuación:
68
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
a) b) c) d)
Calcular las frecuencias relativas e interpretarlas. Graficar el polígono de frecuencias Calcular la media, la mediana y la moda. Qué se puede concluir con relación a la forma de la distribución y comportamiento de la variable importación con base en el resultado de las tres medidas de tendencia central. e) Calcular la desviación típica o estándar. Interpretar los resultados obtenidos. Ejemplo propuesto 39: Los siguientes datos hacen referencia a la distribución de personas dentro de la muestra para una población potencial de consumidores de una bebida alimenticia, según su edad y el sexo. Especificaciones del contenido de la base de datos: Los códigos utilizados para identificar las categorías de cada variable son números, pero igualmente si el investigador opta por utilizar letra y/o palabras puede hacerlo. Columna 1: Número de registro de la persona. Columna 2: Consumir la bebida. Si (1) No (2) Columna 3: Edad de la persona. De 6 a 10 años De 11 a 14 años De 15 a 18 años De 19 a 22 años De 23 a 26 años De 27 a 30 años De 31 a 34 años
(1) (2) (3) (4) (5) (6) (7)
Columna 4: Clasificación de la persona según el Sexo. Masculino (1) Femenino (2) Se pide: a) Calcular tres tablas de frecuencia (cruzadas) porcentuales: por filas, por columnas y con base en el gran total. b) Elaborar el gráfico respectivo para cada una de las anteriores tablas. c) Calcular una tabla de frecuencia para la edad. d) Utilizando la tabla de frecuencia para la edad, calcular la edad promedio de los consumidores. e) Cuál sexo (masculino o femenino) es el que más consume esta bebida y cuál es el porcentaje de representatividad?. f) Elaborar una gráfica de pastel para visualizar la distribución del sexo (masculino o femenino) de los consumidores de esta bebida. 69
ESTADĂ?STICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
70
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
1.2. UNIDAD TEMÁTICA 2: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN El objetivo principal de la regresión y correlación es identificar el tipo de relación y asociación entre variables. La regresión se encarga de determinar el tipo de relación entre las variables y la correlación determina que tan intensa es dicha relación. Existen diversos tipos de regresión dependiendo de la tendencia que presenten los datos originales y de la función de ajuste utilizada para hacer la representación de dicha relación. En este curso corresponde estudiar el análisis de regresión lineal simple, que se presenta en aquellos casos en que los datos muestren una tendencia lineal. 1.2.1. CONCEPTOS BÁSICOS REGRESIÓN Es una técnica estadística que estudia la relación entre variables cuantitativas (Martinez, 2008). Con base en el número de variables que se relacionan dentro del estudio la regresión se clasifica en simple (dos variables) o múltiple (más de dos variables), la regresión múltiple también se conoce como análisis multivariante. Con base en el tipo de asociación existente entre las variables tratadas la regresión puede ser lineal, parabólica, exponencial, logarítmica, entre otras. DIAGRAMA DE DISPERSIÓN (Nube de puntos) Es la representación gráfica de la información original en un plano. Cuando se estudia la relación entre dos variables se utiliza el plano cartesiano, dentro del cual se ubican los puntos, cada uno con sus respectivas coordenadas (X,Y), los puntos que se localizan en el plano constituyen los datos reales u originales, siendo X la variable independiente y Y la variable dependiente, identificadas como la abscisa y la ordenada. El objetivo de elaborar la nube de puntos es visualizar la tendencia que siguen los datos originales, y de esta forma decidir cuál de los tipos de asociación utilizar para el cálculo de la función de ajuste. FUNCIÓN DE AJUSTE Corresponde a la función matemática empleada para el ajuste o representación matemática de la relación existente entre las variables (Wackerly, 2007). La función de ajuste es utilizada para efectuar pronósticos, los cuales se identifican como los datos pronosticados. Los datos reales y los pronosticados deben ser semejantes, parecidos, con valores muy cercanos, porque de lo contrario no tiene sentido utilizar la función de ajuste hallada para pronosticar debido a que los pronósticos no presentarían alta confiabilidad. DATO REAL Los datos reales son aquellos que se recolectan, aquellos que en realidad han acontecido, llamados también datos originales. Los datos reales son el punto de partida para el análisis de regresión y correlación porque constituyen la materia prima para todo el estudio. El dato o punto real se identifica con las coordenadas ( X ,Y )
71
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
DATO PRONOSTICADO Son los datos que se calculan utilizando la función de ajuste hallada precisamente con los datos reales. Se le asigna un valor a la variable X para poder pronosticar el valor de la variable Y. El dato pronosticado se identifica con las coordenadas ( ̂ ) COEFICIENTE DE CORRELACIÓN LINEAL Es un cálculo estadístico que nos permite mirar el nivel de confiabilidad en los pronósticos realizados, el grado de intensidad o asociación de las variables, además define si la relación entre las dos variables es directamente o inversamente proporcional (Douglas, 2008). 1.2.2. ANÁLISIS DE REGRESIÓN LINEAL AJUSTE LINEAL Es utilizada cuando la tendencia que presentan los datos reales u originales es lineal, tendencia no significa que todos y cada uno de los puntos reales ubicados en el plano formen exactamente una línea recta sino que mirándolos de manera conjunta o global se pueda determinar un comportamiento lineal, de tal forma que pueda ser calculada la función de una línea recta que pase muy cerca de la mayoría de datos originales, quedando algunos puntos sobre la línea ajustada, otros por debajo e incluso algunos sobre la misma línea. Algunas nubes de puntos que representan tendencia lineal se presentan a continuación:
En el análisis de la regresión lineal se calcula la función de ajuste Y = a + bX, hallando los valores de los parámetros a y b a partir de los datos reales u originales. La función Y = a + bX, es conocida en cálculo como la función lineal, luego de hallar los valores de a y de b, se escribe estadísticamente
Y a bX a = Término independiente. Intercepto con el eje Y. Es aquel valor que toma la variable dependiente Y cuando la variable independiente X se hace cero. b = pendiente de la línea recta. Es el grado de incremento o de disminución de la variable dependiente Y, cuando la variable independiente X se incrementa en una unidad. 72
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
La pendiente es positiva (+) cuando la relación entre las variables X y Y es directamente proporcional; es decir al aumentar el valor de la variable X también aumenta el valor de la variable Y. La pendiente es negativa (-) cuando la relación entre X y Y es inversamente proporcional; es decir al aumentar el valor de la variable X el valor de la variable Y disminuye. ESTIMACIÓN DE LOS PARÁMETROS Para estimar o calcular los parámetros a y b, se utiliza el método de los mínimos cuadrados (Martinez, 2008), de la siguiente manera:
Se llega a un sistema de dos ecuaciones con dos incógnitas, siendo las incógnitas los valores de a y de b. Ecuación 1. Ecuación 2.
Y na b X XY a X b X
2
Para encontrar los valores de a y de b, se soluciona simultáneamente este sistema por alguno de los métodos de solución simultánea de ecuaciones, igualación sustitución, reducción, determinantes o con la utilización de álgebra lineal como eliminación Gaussiana, Gauss-Jordan, pivoteo, entre otros. Por ejemplo si utilizamos determinantes, llegamos a los siguientes valores de a y de b:
Y X XY X n X X X
2
a
2
n b
X n
X
Y XY X X
2
Y X XY X Y X XY X n X X X n X X 2
2
2
n XY X Y
n X 2 X X
2
n XY X Y n X 2 X
2
2
73
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Otra alternativa que agiliza el cálculo, es hallar el valor de b mediante algún proceso algebraico, puede ser determinantes y luego encontrar el de a, despejándolo de la Ecuación 1, así:
a
Y b X n
Todo lo que se necesita conocer para calcular los valores de a y de b, es obtenido a partir de los puntos (X,Y) reales u originales, siendo n el total de datos o puntos originales que han sido recolectados para el estudio. Se recomienda elaborar una tabla que facilite la obtención de los valores necesarios para el cálculo de los parámetros de a y b; ésta puede ser diseñada con las siguientes columnas: X
Y
XY
X
Y
XY
X2
X
2
Luego de conocer los valores respectivos de a y de b, se concluye que la función de ajuste está dada por:
Y a bX
Este ajuste es considerado óptimo porque hace mínima la suma de los cuadrados de los errores. CÁLCULO DEL PRONÓSTICO El cálculo del pronóstico Y para la variable Y, dado (conociendo) un valor de X, se obtiene,
sustituyendo los valores respectivos de a, b y X en la función de ajuste hallada Y a bX . ERROR RESIDUAL ei Es cada una de las distancias verticales entre el dato real y el dato pronosticado (Levine, 2006). Todos los datos pronosticados caen sobre la recta ajustada y los datos reales algunos se ubican por encima, por debajo o sobre la línea de ajuste, entre más pequeña sea esta distancia el pronóstico será más confiable.
74
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
ei Yi Yi
Ésta distancia debe ser mínima para que exista un buen ajuste o una buena bondad de ajuste; la sumatoria de todos los residuales debe ser igual a cero o muy cercano a cero.
e
i
0 Un error es positivo cuando el dato real se ubica por encima de la función de ajuste, es decir el dato real es mayor al dato pronosticado . Un error es negativo cuando el dato real se ubica por debajo de la función de ajuste, es decir el dato real es menor al dato pronosticado .
Un error es igual a cero cuando el dato real se ubica exactamente sobre la función de ajuste, es
decir cuando el dato real es igual al dato pronosticado Yi Yi . La recta ajustada minimiza la sumatoria de los errores residuales cuadráticos, en otras palabras: La
función Y a bX minimiza
2
Yi Yi ei 2 .
COEFICIENTE DE CORRELACIÓN (r) El coeficiente de correlación se denota con la letra r. Es aquel valor que se encarga de dar el grado de asociación entre la variable dependiente Y y la variable independiente X (Devore, 2012). El rango de valores dentro del cual siempre se encuentra el coeficiente de correlación es: límite inferior -1 y límite superior 1, así: 1 r 1 . El signo del coeficiente de correlación debe coincidir siempre con el signo del parámetro b. El signo del coeficiente de correlación indica si la relación entre las variables es inversamente o directamente proporcional.
75
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
El valor en absoluto del coeficiente de correlación indica el grado de asociación entre las variables, es la fuerza de la relación entre las variables y la confiabilidad en los pronósticos. Si r=1, la relación entre X y Y es directamente proporcional en un 100%. En este caso todos los datos reales caen sobre la línea ajustada, todos los datos reales son idénticos a los pronosticados, por lo tanto al utilizar la función de ajuste para efectos de pronósticos, la confiabilidad es del 100%. Si r=-1, la relación entre X y Y es inversamente proporcional en un 100%. En este caso todos los datos reales caen sobre la línea ajustada, todos los datos reales son idénticos a los pronosticados, por lo tanto al utilizar la función de ajuste para efectuar pronósticos, la confiabilidad es del 100%. Si r=0, no existe relación lineal entre las variables, la función lineal de ajuste no puede ser utilizada para pronosticar. Entre más cercano se encuentre el valor de r de -1 o de 1, implica un grado mayor de asociación y relación entre las variables y entre más cercano se encuentre a cero (0) menor será el grado de relación. CALCULO DEL COEFICIENTE DE CORRELACIÓN
r
Cov( XY ) Var ( X )Var (Y )
Cov(XY)= covarianza de XY Var(X)= varianza de X Var(Y)= varianza de Y Las varianzas siempre son valores positivos, la covarianza puede ser positiva o negativa, por tal motivo el signo de r depende del signo que tenga la covarianza. La covarianza se calcula como el promedio del producto de las desviaciones respecto a la media para cada variable, asi:
Cov( X , Y )
X
i
X Yi Y
n
X = media de la variable X Y = media de la variable Y 76
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Otra forma de calcular la covarianza es: Cov( X , Y ) M ( XY ) M ( X ).M (Y )
Cov( X , Y ) XY X .Y
La Covarianza de X,Y es igual a la media de (XY) menos la media de X por la media de Y.
M ( XY )
XY n
M (X )
X
M (Y )
Y
n
n
Las varianzas para cada variable se calculan así:
X Var ( X )
i
X
2
n
Var ( X ) M ( X 2 ) M ( X )
Y Var (Y )
i
Y
2
2
n
Var (Y ) M (Y 2 ) M (Y )
2
77
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
1.2.3. ANÁLISIS DE REGRESIÓN EN UNA SERIE DE TIEMPO Una serie de tiempo nos muestra el comportamiento de una variable a través del tiempo, utilizando la regresión como aplicación dentro de las series temporales se cuenta con dos variables, donde una de ellas es el tiempo (Martinez, 2008). La variable X siempre se asocia con el tiempo y la variable Y es aquella que se desea analizar a través del tiempo. Como el tiempo es identificado en este tema con días, meses, semestres, bimestres, años, entre otros; es en este sentido como se hace indispensable asignarle a cada identificación del tiempo un número y de ahí en adelante consecutivos. Es muy importante tener en cuenta los consecutivos de X en el momento de efectuar un pronóstico. Si la serie de tiempo presenta una tendencia lineal se procede a aplicar los mismos pasos explicados en Regresión Lineal. A continuación se muestran varios ejemplos de asignación de valores consecutivos para X, dado una identificación de tiempo mensual, de igual manera se aplica para las otras identificaciones del tiempo.
1.2.4. EJEMPLOS DE APLICACIÓN RESULETOS (Unidad Temática 2): ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Ejemplo 1: El departamento de personal de una empresa determinada desea analizar la relación existente entre el Ingreso y el Gasto mensual ($ miles) de un grupo de empleados. Para ello cuenta con la siguiente información: 78
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Ingreso
850
930
1147
1268
2567
2890
3123
3542
3720
Gasto
717,5
553,5
951,2
575,6
1540,3
1415,8
1690,7
1893,9
1829,1
Elaborar el diagrama de dispersión Calcular la función de ajuste, graficarla e interpretarla. Pronosticar de cuánto será el Gasto cuando el Ingreso sea de $ 3.250.420 Hallar el coeficiente de correlación e interpretarlo. Solución:
79
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Ingreso
Gasto
X
Y
X2
XY
850
717,5
722500
609875
1894293,44
273889,41
720296,40
930
553,5
864900
514755
1680480,11
472442,39
891027,51
1147
951,2
1315609
1091026,4
1164960,44
83893,90
312622,90
1268
575,6
1607824
729860,8
918402,78
442550,17
637525,93
2567
1540,3
6589489
3953950,1
116053,78
89673,63
102014,53
2890
1415,8
8352100
4091662
440453,44
30609,45
116112,17
3123
1690,7
9753129
5280056,1
804011,11
202370,02
403370,48
3542
1893,9
12545764
6708193,8
1730978,78
426481,56
859203,43
3720
1829,1
13838400
6804252
2231040,11
346044,60
878657,71
20037
11167,6
55589715
29783631,2 10980674,00 2367955,12
4920831,07
Función de Ajuste ̂ Valor de b ∑
(∑ )(∑ ) (∑ )
∑
(
) (
( )
)( (
) )
Como b tiene signo positivo, entonces la relación entre el Ingreso y el Ahorro es directamente proporcional. Valor de a ∑
∑
(
)
Se sustituyen los valores de a y de b: ̂
80
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
La función de ajuste que representa de forma adecuada la relación entre el Ingreso y el Gasto está dada por: ̂ Pronóstico pedido: ̂
(
)
Se pronostica que para un Ingreso de $ 3.250.420 el gasto será aproximadamente de $ 1.699.660 Media de la variable X ̅
∑
Media de la variable Y ∑
̅
Varianza de X ∑
( )
Varianza de Y ∑
( )
Covarianza de XY (
)
∑
Coeficiente de correlación r ( √
( )
) ( )
√(
)(
)
La relación entre el Ingreso y el Ahorro es directamente proporcional. 81
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
El nivel de confiabilidad en los pronósticos realizados utilizando la función de ajuste es del 97%. Ejemplo 2: Una empresa realiza un estudio económico para analizar la relación entre el comportamiento de los precios y la demanda de su principal producto. Para ello cuenta con la siguiente información: Variable X: Precio (miles de $). Variable Y: Demanda (Número de unidades).
Se pide: Elaborar el diagrama de dispersión o nube de puntos. ¿Qué tendencia se visualiza en el gráfico? Calcular la función de ajuste y graficarla sobre el diagrama. Pronosticar el número de unidades demandadas para un precio de $15.000 Calcular el coeficiente de correlación e interpretarlo. Solución: X
Y
XY
X2
5
100
500
25
94,37
768,08
-269,22
7
90
630
49
59,51
313,80
-136,65
9
86
774
81
32,65
188,08
-78,37
12
72
864
144
7,37
0,08
0,78
17
60
1020
289
5,22
150,94
-28,08
23
55
1265
529
68,65
298,80
-143,22
30
43
1290
900
233,65
857,65
-447,65
103
506
6343
2017
501,43
2577,43
-1102,43
82
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Función de Ajuste ̂ Valor de b ∑
(∑ )(∑ ) (∑ )
∑
(
) (
( )
)( (
) )
Como b tiene signo negativo, entonces la relación entre el precio y la demanda es inversamente proporcional. Valor de a ∑
∑
(
)(
)
Se sustituyen los valores de a y de b: ̂ 83
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
La función de ajuste que representa de forma adecuada la relación entre el precio y la demanda está dada por: ̂ Pronóstico pedido: ̂
(
)
Se pronostica que para un precio de $ 15.000 se demandarán aproximadamente 72 unidades. Media de la variable X ̅
∑
Media de la variable Y ∑
̅
Varianza de X ∑
( )
Varianza de Y ∑
( )
Covarianza de XY (
)
∑
Coeficiente de correlación r ( √
( )
) ( )
√(
)(
)
La relación entre el precio y el número de unidades demandadas es inversamente proporcional. El nivel de confiabilidad en los pronósticos realizados utilizando la función de ajuste es del 97%.
84
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Ejemplo 3: Una entidad financiera desea analizar el comportamiento que ha venido presentando el nivel de captación anual ($ millones). Para ello cuenta con los siguientes registros reales: Año
Captación
2004
21
Graficar el comportamiento de la variable a través del tiempo.
2005
22,3
Calcular la función de ajuste, graficarla e interpretarla.
2006
23,8
Pronosticar el nivel de captación para el año 2014.
2007
20,2
Calcular el coeficiente de correlación y analizar su resultado.
2008
24
2009
26,3
2010
27,8
2011
32,5
2012
31
Solución: Año
X
Y
XY
X2
2004
1
21
21
1
16
19,65
17,73
2005
2
22,3
44,6
4
9
9,82
9,40
2006
3
23,8
71,4
9
4
2,67
3,27
2007
4
20,2
80,8
16
1
27,39
5,23
2008
5
24
120
25
0
2,05
0,00
2009
6
26,3
157,8
36
1
0,75
0,87
2010
7
27,8
194,6
49
4
5,60
4,73
2011
8
32,5
260
64
9
49,94
21,20
2012
9
31
279
81
16
30,99
22,27
Total
45
228,9
1229,2
285
60
148,86
84,70
85
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Función de Ajuste ̂ Valor de b ∑
(∑ )(∑ ) (∑ )
∑
(
) (
( )
)( ( )
)
Como b tiene signo positivo, entonces la relación entre el Ingreso y el Ahorro es directamente proporcional. Valor de a ∑
∑
(
)(
)
Se sustituyen los valores de a y de b: ̂ La función de ajuste que representa de forma adecuada el comportamiento de la captación a través de los años, está dada por: 86
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
̂ Pronóstico pedido: Para el año 2014, corresponde una asignación de X = 11 ̂
(
)
Se pronostica que para el año 2014, el nivel de captación será aproximadamente de $ 33.89 millones. Media de la variable X ̅
∑
Media de la variable Y ∑
̅
Varianza de X ∑
( )
Varianza de Y ∑
( )
Covarianza de XY (
)
∑
Coeficiente de correlación r ( √
( )
) ( )
√(
)(
)
Trabajando con todas las cifras decimales de Cov(XY), Var(X) y Var(Y) el valor de r = 0.90 El nivel de confiabilidad en el pronóstico realizado utilizando la función de ajuste hallada es del 90%.
87
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
1.2.5. EJEMPLOS DE APLICACIÓN PROPUESTOS (Unidad Temática 2): ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Ejemplo propuesto 1: Una empresa descubre que sus utilidades netas (en millones de $) se incrementan al aumentar la cantidad gastada en publicidad (en millones de $) del producto. La empresa dispone de los siguientes registros:
a) Graficar el diagrama de dispersión y probar visualmente que la nube de puntos presenta una tendencia lineal. b) Calcular la función de ajuste lineal y graficarla sobre el diagrama. c) Pronosticar de cuánto es la utilidad si el gasto en publicidad es de $14 millones. d) Calcular el coeficiente de correlación. Interpretar resultados. Ejemplo propuesto 2: El departamento de personal de una compañía desea analizar el comportamiento del ahorro quincenal de sus empleados en relación con el salario quincenal devengado por los mismos, para ello cuenta con la siguiente información: Ingreso Ahorro quincenal quincenal ( miles (miles de de $) $) 500 100
a) Graficar el diagrama de dispersión. b) Hallar la función de ajuste lineal, graficarla e interpretarla.
600
80
550
90
700
200
un ingreso quincenal de $ 758.000
720
120
d) Cuál es el grado de confiabilidad en los
730
150
800
200
820
180
830
210
850
220
c) Pronosticar de cuánto será el ahorro para
pronósticos que se realicen.
88
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Ejemplo propuesto 3: La utilidad de una compañía dedicada a distribuir equipos de computador para oficinas presenta las siguientes utilidades en cada uno de los años respectivos: Año
2004
2005
2006
2007
2008
2009
2010
2011
2012
Utilidad (millones de $)
6
6,5
7
7,2
7,3
7,6
8
8,3
7,9
a) b) c) d)
Graficar el diagrama de dispersión. Calcular la función de ajuste lineal, graficarla e interpretarla. Pronosticar de cuánto será la utilidad para el año 2014 y 2015 Hallar el coeficiente de correlación e interpretarlo.
Ejemplo propuesto 4: La junta de estudiantes de una institución educativa intenta determinar si el precio de entrada a la sala de videos ejerce algún efecto sobre el número de estudiantes que utilizan la instalación. Se cuenta con la siguiente información sobre el precio (en miles de pesos por hora) y el número de estudiantes que entran al recinto.
a) Graficar el diagrama de dispersión (Probar visualmente que los datos originales presentan una tendencia lineal). b) Calcular la función de ajuste lineal y graficarla. c) Calcular el coeficiente de correlación d) Pronosticar de cuánto es el número de estudiantes que ingresan al recinto si el precio es de $1.900 Interpretar los resultados obtenidos. Ejemplo propuesto 5: Un comerciante desea analizar si las ventas semanales (en miles de $) tienen relación alguna con el espacio asignado para vender (en metros cuadrados). De acuerdo a eventos pasados se recopiló la siguiente información:
89
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
a) Graficar el diagrama de dispersión. b) Calcular la función de ajuste lineal, graficarla e interpretarla. c) Realizar dos pronósticos (los que desee) e interpretarlos. d) Cuál es el grado de confiabilidad en los pronósticos efectuados.
Ejemplo propuesto 6: Ejemplo propuesto 7: El pasivo pensional ( millones de $) de una entidad estatal viene presentando el siguiente comportamiento, a través de los semestres, durante los últimos años. Año
2008
2009
2010
2011
2012
Semestre
1
2
1
2
1
2
1
2
1
2
Pasivo Pensional (millones de $)
7
8
10,8
3
14,8
21,1
26,5
30
30,2
31
a) b) c) d)
Graficar el diagrama de dispersión. Calcular la función de ajuste lineal, graficarla e interpretarla. Pronosticar de cuánto será el pasivo pensional para el segundo semestre del 2014. Hallar el coeficiente de correlación e interpretarlo.
Ejemplo propuesto 8: El presupuesto ejecutado de egresos de una Caja de Compensación Familiar viene mostrando el siguiente comportamiento en los últimos años: Año
2004
2005
2007
2008
2009
2010
2011
2012
Presupuesto Ejecutado de Egresos (millones de $)
114
120,3
122
135,7
141,3
150
158,2
160,3
90
ESTADÍSTICA Mary Nieves Cruz Zuluaga
a) b) c) d)
Facultad de Estudios Empresariales y de Mercadeo
Graficar el diagrama de dispersión Calcular la función de ajuste lineal, graficarla e interpretarla. Pronosticas el presupuesto ejecutado de egresos para los años 2013 y 2014 Hallar el coeficiente de correlación y analizarlo.
Ejemplo propuesto 9: La población (en millones de habitantes) de una zona determinada del país viene presentando el siguiente comportamiento a través del tiempo: Año
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
Población (millones de habitantes)
72,35
78,41
85
86,24
88,21
90,17
92,15
93,24
94,36
95
a) Graficar el diagrama de dispersión b) Calcular la función de ajuste lineal, graficarla e interpretarla. c) Pronosticar cuántos habitantes aproximadamente tendrá la zona para el año de 2015 d) Cuál es el grado de confiabilidad en los pronósticos. Ejemplo propuesto 10: Analizar la relación existente entre el Ahorro y el Gasto en recreación mensual (en millones de $) de un grupo de empleados de una compañía, si se cuenta con la siguiente información real: Ahorro mensual (miles de $)
350
480,23
328
450,15
500
510,21
457,54
560,3
541,87
580
Gasto mensual en recreación (miles de $)
102
215,32
150,1
180,93
215,01
200
137,25
250
224
350
a) Graficar el diagrama de dispersión. b) Calcular la función de ajuste lineal, graficarla e interpretarla c) Pronosticar de cuánto será el Gasto mensual en recreación si se cuenta con un nivel de Ahorro mensual de $ 550.000 d) Hallar el coeficiente de correlación y analizar su resultado. Ejemplo propuesto 11: Los siguientes datos se refieren al comportamiento de la Utilidad trimestral (millones de pesos) de una empresa dedicada a la fabricación de artículos de cuero. Año
2009
2010
2011
2012
Trimestre
3
4
1
2
3
4
1
2
3
4
1
2
3
4
Utilidad (millones de $)
4,5
4
4,2
4,8
5,7
6
6,3
5,4
6,8
7,1
7
8
8,6
9
a) b) c) d)
Graficar el diagrama de dispersión Calcular la función de ajuste lineal, graficarla e interpretarla Pronosticar la Utilidad para el segundo trimestre del 2014 y el primer trimestre del año 2015 Hallar el coeficiente de correlación e interpretarlo 91
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
2. UNIDAD DE APRENDIZAJE 2: ESTADÍSTICA INFERENCIAL Introducción Tiene sus bases en la estadística descriptiva. Infiere o pronostica para la población tomando como base la muestra. Emplea técnicas probabilísticas, análisis de muestreo, intervalos de confianza, pruebas de hipótesis (Newbold, 2013). Conocer el grado de certeza de la ocurrencia de un evento es importante porque brinda seguridad frente a los pronósticos y análisis descriptivo de la información. La distribución y comportamiento de las variables, desde el punto de vista frecuentista presenta relación directa con el enfoque probabilístico, por tal motivo es fundamental profundizar en el análisis de distribuciones de probabilidad, para contribuir adecuadamente a una toma de decisiones acertada. En todo estudio de investigación interviene el manejo de la información, la consecución de la misma puede efectuarse a través de un Censo o de un Muestreo. Cuando se elige trabajar con Muestreo significa que en el proceso se toma una parte representativa de la población, identificada como muestra, para efectuar análisis y estimativos de la Población. Es importante porque se deducen características de la Población utilizando sólo una Muestra. Son muchos los casos en que tomar toda la Población es imposible o requiere de mucho tiempo y dinero, por tal motivo la teoría del Muestreo es una solución estadística buena para ejecutar la investigación y analizar la población objetivo. Objetivo de aprendizaje Aplicar de forma adecuada las técnicas de la estadística inferencial para conocer el grado de certeza de la ocurrencia de un evento, así como deducir propiedades y estimativos de una población a partir de una muestra. Competencias a desarrollar Calcular probabilidades utilizando e identificando diferentes distribuciones de probabilidad. Calcular el tamaño de muestra y realizar estimativos de la población. 2.1. UNIDAD TEMÁTICA 1: TEORÍA DE PROBABILIDADES 2.1.1. CONCEPTOS BÁSICOS DE PROBABILIDAD Probabilidad: Es una medida estadística que se emplea para expresar el grado de certeza de la ocurrencia de un evento o suceso (Devore, 2012). Experimento: Cualquier proceso que genere una serie de datos, en cada realización presenta un resultado. Espacio muestral: Conjunto de todos los resultados posibles del experimento. Se denota por . Punto muestral: Es cada uno de los elementos del espacio muestral.
92
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Suceso o evento: Subconjunto del espacio muestral. Se denota con las letras mayúsculas del alfabeto A, B, C, … Aunque en determinadas ocasiones también pueden ser denotados por alguna expresión algebraica que esté representando determinada situación. ENFOQUES BÁSICOS DE LAS PROBABILIDADES Existen tres formas básicas de visualizar o analizar las probabilidades, éstas son: Enfoque frecuentista Se basa en las frecuencias relativas para su análisis. Recordar hi
fi n
Es la proporción de veces que ocurre un suceso o evento, siendo f i el número de veces que se repite el suceso y n el total de casos posibles. Enfoque clásico Es la relación o proporción entre el número de casos favorables para el evento A y el total de casos posibles. N(A)= número de casos favorables para el evento A n( ) = número total de casos posibles. P(A)= probabilidad de que ocurra el evento A.
P( A)
n( A) n ( )
Enfoque subjetivo Es el que se basa en la experiencia o conocimiento que tenga el investigador (persona) sobre el evento o suceso. AXIOMAS BÁSICOS DE PROBABILIDAD
La probabilidad siempre es un valor positivo. P A 0
La probabilidad del suceso posible o seguro
, es uno (1).
P 1
La probabilidad del suceso imposible
, es igual a cero (0). 93
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
P 0
La probabilidad de un evento siempre es un valor entre cero (0) y uno (1). 0 P A 1
La probabilidad de que ocurra el evento A ó B. P(A U B) = P(A) + P(B) para eventos incompatibles.
P( A B) P( A) P( B) P A B para eventos compatibles.
La
probabilidad de la unión de eventos contrarios, A ó A’, es igual a la
probabilidad del evento seguro. P(A U A’ ) = P() P(A U A’ ) = 1 P(A) + P(A’ ) = 1 P(A) = 1 – P(A’) 2.1.2. DISTRIBUCIÓN NORMAL DE PROBABILIDAD Se utiliza cuando al hacer el análisis descriptivo de una variable continua a través de la tabla de frecuencias, se observa que las frecuencias absolutas comienzan a crecer hasta llegar a un punto máximo a partir del cual comienzan a decrecer de forma simétrica. Al graficar el histograma y luego el polígono sobre éste, se observa que el polígono tiene una forma de campana, éste polígono se llama función de la Normal.
94
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Conocida también con el nombre de distribución Gaussiana. Es una de las distribuciones de probabilidad más importantes y utilizadas, su campo de aplicación es muy amplio, en comercio, economía, mercadeo, medicina, sicología, entre otras ramas; también es indispensable para el análisis de la estadística inferencial (Devore, 2012). Tiene forma de campana (campana de Gauss), es simétrica, sus sesgos se extienden a través del eje X sin llegarlo a cortar, es por ello que el eje x es una asíntota horizontal. La función f(x) que representa a la distribución de probabilidad Normal está dada por:
f ( x)
1 e 2
1 x 2
2
media de la variable X
desviación típica o estándar de la variable X e = base de los logaritmos naturales (Ln), equivale a 2.71828
valor de “pi”, equivale a 3.14159265 … X
La forma que toma la campana de Gauss, depende de los valores respectivos de
y de
dentro de la función f(x), siendo su forma simétrica apuntada, achatada o normal.
Los sesgos, donde existen áreas representativas bajo la curva de la normal se extienden más o
menos a 3 desviaciones estándar de la media, sin embargo éstos sesgos continúan infinitamente acercándose al eje x pero sin tocarlo, las áreas bajo la curva de la Normal por fuera de éste rango de X constituyen áreas demasiado pequeñas y por lo tanto no muy representativas (Mendenhall, 2012).
95
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Las áreas bajo la curva de la distribución Normal representan valores de probabilidades, toda el área bajo la curva de la Normal vale 1. Para calcular áreas bajo la función de la Normal se debe desarrollar la integral de la función respectiva, sin embargo existe una tabla que puede ser utilizada independientemente de los valores que tome X, con el único requisito de que la variable X se distribuya normalmente con una media de y una desviación típica o estándar de . La tabla que se puede utilizar recibe el nombre de Tabla de la Normal Estandarizada, siempre antes de buscar el valor de probabilidad dentro de la tabla se debe haber efectuado con antelación el proceso de Estandarización de la variable X. ESTANDARIZACIÓN Estandarizar la variable X, consiste en transformarla en otra que recibirá el nombre de Z, mediante la siguiente operación algebraica (Martínez, 2008):
Z
x
Los parámetros de la nueva serie de datos Z, están dados por: La media de Z siempre es igual a cero.
z 0 La varianza de Z siempre es igual a uno.
z2 1 Por lo tanto la desviación típica o estándar de Z siempre es igual a 1.
z 1 Representación gráfica de la Normal Estandarizada Siempre que se grafique una función de densidad de probabilidad, es recomendable tabular la serie de datos para facilitar el gráfico en el plano cartesiano. En este caso la función de densidad de probabilidad a graficar está dada por la siguiente expresión matemático-estadística: 1
1 2Z2 f (Z ) e 2 Para el gráfico se coloca en la abscisa los valores de Z y en la ordenada los valores arrojados por la función de densidad de probabilidad f(Z), la tabulación está dada por: 96
ESTADĂ?STICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
97
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
TABLA DE LA DISTRIBUCIÓN NORMAL ESTANDARIZADA Existen tres tabulaciones o diseños de tablas de Normal Estandarizada, dependiendo si los valores de probabilidades que se hallan dentro de la tabla corresponden a áreas a la izquierda de un valor de Z, área a la derecha de un valor de Z o un área entre dos valores de Z. A continuación se presenta la tabla de la Normal Estandarizada , con el cálculo para áreas a la izquierda de un valor de Z determinado, esto significa encontrar la probabilidad de que Z sea menor o igual a un valor particular o específico de Z p , se escribe PZ Z p .
98
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo Tabla Normal Estandarizada - Áreas hacia la izquierda de Z
Z -3,5 -3,4 -3,3 -3,2 -3,1 -3,0 -2,9 -2,8 -2,7 -2,6 -2,5 -2,4 -2,3 -2,2 -2,1 -2,0 -1,9 -1,8 -1,7 -1,6 -1,5 -1,4 -1,3 -1,2 -1,1 -1,0 -0,9 -0,8 -0,7 -0,6 -0,5 -0,4 -0,3 -0,2 -0,1 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4 3,5
0,00 0,0002 0,0003 0,0005 0,0007 0,0010 0,0013 0,0019 0,0026 0,0035 0,0047 0,0062 0,0082 0,0107 0,0139 0,0179 0,0228 0,0287 0,0359 0,0446 0,0548 0,0668 0,0808 0,0968 0,1151 0,1357 0,1587 0,1841 0,2119 0,2420 0,2743 0,3085 0,3446 0,3821 0,4207 0,4602 0,5000 0,5398 0,5793 0,6179 0,6554 0,6915 0,7257 0,7580 0,7881 0,8159 0,8413 0,8643 0,8849 0,9032 0,9192 0,9332 0,9452 0,9554 0,9641 0,9713 0,9772 0,9821 0,9861 0,9893 0,9918 0,9938 0,9953 0,9965 0,9974 0,9981 0,9987 0,9990 0,9993 0,9995 0,9997 0,9998
0,01 0,0002 0,0003 0,0005 0,0007 0,0009 0,0013 0,0018 0,0025 0,0034 0,0045 0,0060 0,0080 0,0104 0,0163 0,0174 0,0222 0,0281 0,0351 0,0436 0,0537 0,0655 0,0793 0,0951 0,1131 0,1335 0,1562 0,1814 0,2090 0,2389 0,2709 0,3050 0,3409 0,3783 0,4168 0,4562 0,5040 0,5438 0,5832 0,6217 0,6591 0,6950 0,7291 0,7611 0,7910 0,8186 0,8438 0,8665 0,8869 0,9049 0,9207 0,9345 0,9463 0,9564 0,9649 0,9719 0,9778 0,9826 0,9864 0,9896 0,9920 0,9940 0,9955 0,9966 0,9975 0,9982 0,9987 0,9991 0,9993 0,9995 0,9997 0,9998
0,02 0,0002 0,0003 0,0005 0,0006 0,0009 0,0013 0,0018 0,0024 0,0033 0,0044 0,0059 0,0078 0,0102 0,0132 0,0170 0,0217 0,0274 0,0344 0,0427 0,0526 0,0643 0,0778 0,0934 0,1112 0,1314 0,1539 0,1788 0,2061 0,2358 0,2679 0,3015 0,3372 0,3745 0,4129 0,4522 0,5080 0,5478 0,5871 0,6255 0,6628 0,6985 0,7324 0,7642 0,7939 0,8212 0,8461 0,8686 0,8888 0,9066 0,9222 0,9357 0,9474 0,9573 0,9656 0,9726 0,9783 0,9830 0,9868 0,9898 0,9922 0,9941 0,9956 0,9967 0,9976 0,9982 0,9987 0,9991 0,9994 0,9995 0,9997 0,9998
0,03 0,0002 0,0003 0,0004 0,0006 0,0009 0,0012 0,0017 0,0023 0,0032 0,0043 0,0057 0,0075 0,0099 0,0129 0,0166 0,0212 0,0268 0,0336 0,0418 0,0516 0,0630 0,0764 0,0918 0,1093 0,1292 0,1515 0,1762 0,2033 0,2327 0,2643 0,2981 0,3336 0,3707 0,4090 0,4483 0,5120 0,5517 0,5910 0,6293 0,6664 0,7019 0,7357 0,7673 0,7967 0,8238 0,8485 0,8708 0,8907 0,9082 0,9236 0,9370 0,9484 0,9582 0,9664 0,9732 0,9788 0,9834 0,9871 0,9901 0,9925 0,9943 0,9957 0,9968 0,9977 0,9983 0,9988 0,9991 0,9994 0,9996 0,9997 0,9998
0,04 0,0002 0,0003 0,0004 0,0006 0,0008 0,0012 0,0016 0,0023 0,0031 0,0041 0,0055 0,0073 0,0096 0,0125 0,0162 0,0207 0,0262 0,0329 0,0409 0,0505 0,0618 0,0749 0,0901 0,1075 0,1271 0,1492 0,1736 0,2005 0,2297 0,2611 0,2946 0,3300 0,3669 0,4052 0,4443 0,5160 0,5557 0,5948 0,6331 0,6700 0,7054 0,7389 0,7703 0,7995 0,8264 0,8508 0,8729 0,8925 0,9099 0,9251 0,9382 0,9495 0,9591 0,9671 0,9738 0,9793 0,9838 0,9875 0,9904 0,9927 0,9945 0,9959 0,9969 0,9977 0,9984 0,9988 0,9992 0,9994 0,9996 0,9997 0,9998
0,05 0,0002 0,0003 0,0004 0,0006 0,0008 0,0011 0,0016 0,0022 0,0030 0,0040 0,0054 0,0071 0,0094 0,0122 0,0158 0,0202 0,0256 0,0322 0,0401 0,0495 0,0606 0,0735 0,0885 0,1056 0,1251 0,1469 0,1711 0,1977 0,2266 0,2578 0,2912 0,3264 0,3632 0,4013 0,4404 0,5199 0,5596 0,5987 0,6368 0,6736 0,7088 0,7422 0,7734 0,8023 0,8289 0,8531 0,8749 0,8944 0,9115 0,9265 0,9394 0,9505 0,9599 0,9678 0,9744 0,9798 0,9842 0,9878 0,9906 0,9929 0,9946 0,9960 0,9970 0,9978 0,9984 0,9989 0,9992 0,9994 0,9996 0,9997 0,9998
0,06 0,0002 0,0003 0,0004 0,0006 0,0008 0,0011 0,0015 0,0021 0,0029 0,0039 0,0052 0,0069 0,0091 0,0119 0,0154 0,0197 0,0250 0,0314 0,0392 0,0485 0,0594 0,0721 0,0869 0,1038 0,1230 0,1446 0,1685 0,1949 0,2236 0,2546 0,2877 0,3228 0,3595 0,3974 0,4364 0,5239 0,5636 0,6026 0,6406 0,6772 0,7123 0,7456 0,7764 0,8051 0,8315 0,8554 0,8770 0,8962 0,9131 0,9279 0,9406 0,9515 0,9608 0,9686 0,9750 0,9803 0,9846 0,9881 0,9909 0,9931 0,9948 0,9961 0,9971 0,9979 0,9985 0,9989 0,9992 0,9994 0,9996 0,9997 0,9998
0,07 0,0002 0,0003 0,0004 0,0005 0,0008 0,0011 0,0015 0,0021 0,0028 0,0038 0,0051 0,0068 0,0089 0,0116 0,0150 0,0192 0,0244 0,0307 0,0384 0,0475 0,0582 0,0708 0,0853 0,1020 0,1210 0,1423 0,1660 0,1922 0,2206 0,2514 0,2843 0,3192 0,3557 0,3936 0,4325 0,5279 0,5675 0,6064 0,6443 0,6808 0,7157 0,7486 0,7794 0,8078 0,8340 0,8577 0,8790 0,8980 0,9147 0,9292 0,9418 0,9525 0,9616 0,9693 0,9756 0,9808 0,9850 0,9884 0,9911 0,9932 0,9949 0,9962 0,9972 0,9979 0,9985 0,9989 0,9992 0,9995 0,9996 0,9997 0,9998
0,08 0,0002 0,0003 0,0004 0,0005 0,0007 0,0010 0,0014 0,0020 0,0027 0,0037 0,0049 0,0066 0,0087 0,0113 0,0146 0,0188 0,0239 0,0301 0,0375 0,0465 0,0571 0,0694 0,0838 0,1003 0,1190 0,1401 0,1635 0,1894 0,2177 0,2483 0,2810 0,3156 0,3520 0,3897 0,4286 0,5319 0,5714 0,6103 0,6480 0,6844 0,7190 0,7517 0,7823 0,8106 0,8365 0,8599 0,8810 0,8997 0,9162 0,9306 0,9429 0,9535 0,9625 0,9699 0,9761 0,9812 0,9854 0,9887 0,9913 0,9934 0,9951 0,9963 0,9973 0,9980 0,9986 0,9990 0,9993 0,9995 0,9996 0,9997 0,9998
0,09 0,0002 0,0002 0,0003 0,0005 0,0007 0,0010 0,0014 0,0019 0,0026 0,0036 0,0048 0,0064 0,0084 0,0110 0,0143 0,0183 0,0233 0,0294 0,0367 0,0455 0,0559 0,0681 0,0823 0,0985 0,1170 0,1379 0,1611 0,1867 0,2148 0,2451 0,2776 0,3121 0,3483 0,3859 0,4247 0,5359 0,5753 0,6141 0,6517 0,6879 0,7224 0,7549 0,7852 0,8133 0,8389 0,8621 0,8830 0,9015 0,9177 0,9319 0,9441 0,9545 0,9633 0,9706 0,9767 0,9817 0,9857 0,9890 0,9916 0,9936 0,9952 0,9964 0,9974 0,9981 0,9986 0,9990 0,9993 0,9995 0,9997 0,9998 0,9998
99
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
MANEJO DE LA TABLA DE LA NORMAL ESTANDARIZADA Para proceder a realizar ejemplos de aplicación se hace necesario aprender previamente a manejar la Tabla de la Normal Estandarizada, son cuatro aspectos fundamentales que se deben tener en cuenta: 1. Cómo se saca un valor de la tabla? 2. Cómo se escribe y lee? 3. Cómo se grafica? 4. Aprender a utilizar la tabla para hallar también áreas hacia la derecha y entre dos valores. ÁREAS HACIA LA IZQUIERDA Las áreas hacia la izquierda se encuentran directamente en la tabla. Ejemplo 1:
Ejemplo 2:
Área a la izquierda de Z=0.39
Área a la izquierda de Z = - 1.95
P (Z ≤ 0.39) = ? P (Z ≤ 0.39) = 0.6517
P ( Z ≤ -1.95 ) = ? P ( Z ≤ -1.95 ) = 0.0256
ÁREAS HACIA LA DERECHA Para hallar las áreas hacia la derecha se tiene en cuenta que toda el área bajo la curva de la Normal vale 1, luego si a toda esa área se le quita el área de la izquierda queda entonces el área de la derecha.
100
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Ejemplo 3: Área hacia la derecha de Z = 1.62
P ( Z ≥ 1.62 ) =? P ( Z ≥ 1.62 ) = 1 - P ( Z ≤ 1.62 ) = 1 - 0.9474 = 0.0526 Ejemplo 4: Área hacia la derecha de Z = - 0.85
P ( Z ≥ - 0.85 ) =?
101
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
P ( Z ≥ - 0.85 ) = 1 – P ( Z ≤ - 0.85 ) = 1 - 0.1977 = 0.8023 ÁREAS ENTRE DOS VALORES Para el área entre dos valores se toma el área a la izquierda del mayor valor y luego se le resta el área a la izquierda del menor valor. Ejemplo 5: Área entre Z = -1.52 y Z = 0.93
P ( -1.52 ≤ Z ≤ 0.93 ) = ? P ( -1.52 ≤ Z ≤ 0.93 ) = P ( Z ≤ 0.93 ) - P ( Z ≤ -1.52 ) = 0.8238 - 0.0643 = 0.7595
Ejemplo 6: Área entre Z = 0.45 y Z = 1.28
P ( 0.45 ≤ Z ≤ 1.28 ) = ? P ( 0.45 ≤ Z ≤ 1.28 ) = P ( Z ≤ 1.28 ) - P ( Z ≤ 0.45 ) = 0.8997 - 0.6736 = 0.2261
102
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
2.1.2.1. EJEMPLOS DE APLICACIÓN RESUELTOS DE LA NORMAL Ejemplo 1 (La Normal): El Ingreso mensual de un grupo de personas presenta un comportamiento Normal con una media de $ 2.800.000 y una desviación típica o estándar de $ 435.000. Si se selecciona aleatoriamente un empleado dentro del grupo: a) Cuál es la probabilidad de que su Ingreso se inferior a $ 2.000.000 ? b) Cuál es la probabilidad de que el Ingreso esté por encima de $ 2.598.000 ? c) Cuál es la probabilidad de que su Ingreso se encuentre entre $ 2.500.000 y $ 3.200.000 ? Solución: µ = 2.800.000 δ = 435.000 a) P ( X ≤ 2.000.000 ) = ?
Estandarización Z=
P ( Z ≤ - 1.84 )= ? P ( Z ≤ -1.84 ) = 0.0329
La probabilidad de que el ingreso sea inferior a $ 2.000.000 es de 0.0329 El grado de certeza o de seguridad de que el ingreso sea inferior a $ 2.000.000 es del 3.29% 103
ESTADÍSTICA Mary Nieves Cruz Zuluaga
b) P ( X ≥ 2.598.000) =?
Facultad de Estudios Empresariales y de Mercadeo
Estandarización
Z=
P ( Z ≥ - 0.46 ) =? P ( Z ≥ - 0.46 ) = 1 - P ( Z ≤ - 0.46 ) = 1 - 0.3228 = 0.6772
La probabilidad de que el Ingreso sea superior a $ 2.598.000 es de 0.6772 El grado de certeza o de seguridad de que el Ingreso sea superior a $ 2.598.000 es del 67.72% c) P ( 2.500.000 ≤ X ≤ 3.200.000)= ? P ( -0.69 ≤ Z ≤ 0.92 ) =?
Estandarizaciones: Z= Z=
P ( -0.69 ≤ Z ≤ 0.92 ) = P ( Z ≤ 0.92 ) – P ( Z ≤ -0.69 ) = 0.8212 - 0.2451 = 0.5761 104
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
La probabilidad de que el ingreso se encuentre entre $ 2.500.000 y $ 3.200.000 es de 0.5761 El grado de certeza o de seguridad de que el ingreso se encuentre entre $ 2.500.000 y $ 3.200.000 es del 57.61% Ejemplo 2 (La Normal):
El volumen de exportación mensual (en millones de pesos) de una compañía de electrodomésticos presenta un comportamiento Normal, con una media de $22500 y una desviación típica o estándar de $2250. Calcular la probabilidad de: a) El volumen de exportación mensual sea mayor a $21000 millones. b) El volumen de exportación mensual se encuentre entre $24000 y 26000 millones. c) El volumen de exportación mensual no sea superior a $19000 millones.
105
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Solución: a) P( X 21000) 1 P( X 21000) 21000 22500 P( X 21000) 1 P Z 2250 P( X 21000) 1 P( Z 0.67) P( X 21000) 1 0.2514 P( X 21000) 0.7486
La probabilidad de que el volumen de exportación mensual sea mayor o igual a $21000 millones es de 0.7486. El grado de certeza de que el volumen de exportación sea mayor o igual a $21000 millones es del 74.86%. b) P(24000 P(24000 P(24000 P(24000
X X X X
26000) P( X 26000) P( X 24000) 26000) P( Z 1.56) P( Z 0.67) 26000) 0.9406 0.7486 26000) 0.1920
La probabilidad de que el volumen de exportación mensual se encuentre entre $24000 y $ 26000 millones es de 0.1920. El grado de certeza de que el volumen de exportación mensual se encuentre entre $24000 y $ 26000 millones es del 19.20%.
106
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
c) P( X 19000) P( Z 1.56) P( X 19000) 0.0594
La probabilidad de que el volumen de exportación mensual se encuentre por debajo (menor o igual) de $ 19000 millones es de 0.0594. El grado de certeza de que el volumen de exportación sea como máximo de $19000 millones es del 5.94%. Ejemplo 3 (La Normal):
La vida útil de las pilas de una cierta marca están distribuidas normalmente. Si el 6.68% de las pilas duran más de 56 horas y el 30.85% duran menos de 52 horas. Cuál es la media y la desviación estándar?. Solución: X= vida útil de las pilas (en horas). P( X 56) 0.0668 P( X 52) 0.3085 P( X 56) 1 0.0668 0.9332
Estandarizando, se obtiene las siguientes expresiones estadísticas:
Se busca en la tabla de la normal estandarizada el valor de la probabilidad 0.9332 y se extrae el valor de Z=1.5, de igual manera se busca la probabilidad 0.3085 y se encuentra un Z=-0.5.
107
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Plantear el siguiente sistema de ecuaciones de 2x2, las dos incógnitas son precisamente y . Primera ecuación: Segunda ecuación:
56
52
1.5 0.5
Se resuelve simultáneamente el sistema por algún método algebraico (igualación, sustitución, reducción o determinantes) o por métodos de álgebra lineal (eliminación Gaussiana, Jordan Gauss, pivoteo, entre otros.). Por el método de igualación: se despeja la misma variable en ambas ecuaciones, se iguala quedando una ecuación en términos de una sola variable, se despeja la variable, el valor encontrado se sustituye en alguna de las ecuaciones para hallar el valor de la otra variable.
Igualando se tiene:
56 1.5 52 0.5 Se despeja el valor de , así:
1.5 0.5 52 56 2 4 2 4 4 2 2
Se sustituye el valor de de las ecuaciones, así:
en alguna
La vida útil media de las pilas y su desviación típica o estándar es de:
53 horas y 2 horas. La representación gráfica se muestra a continuación:
108
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
2.1.2.2. EJEMPLOS DE APLICACIÓN PROPUESTOS DE LA NORMAL Ejemplo propuesto 1-La Normal: Hallar el área bajo la curva normal: a) Entre Z= -1.20 y Z= 2.40 b) Entre Z= 1.23 y Z= 1.87 c) Entre Z= -2.35 y Z= -0.50 d) A la izquierda de Z= 2.35 e) A la derecha de Z= -1.82 Nota: Graficar cada numeral. Ejemplo propuesto 2-La Normal: Las ventas anuales a crédito ( por club) de un almacén se distribuyen normalmente, con una media y una desviación típica o estándar de: = 35.7 (millones de pesos) y = 2.8 . (millones de pesos). Calcular las siguientes probabilidades: a) Probabilidad de que las ventas anuales por club, estén por debajo de $38.7 millones. b) Probabilidad de que las ventas anuales por club, sean superiores a $ 31.5 millones. c) Probabilidad de que las ventas anuales por club se encuentren entre $30.2 y $37.5 millones. Nota: Graficar cada numeral y analizar resultados obtenidos.
109
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Ejemplo propuesto 3-La Normal: Si el gasto semanal en loncheras para niños de pre-escolar se encuentra distribuido normalmente con una media de $10 mil y una desviación estándar de $2 mil, emplear la tabla y calcular las siguientes probabilidades: a) P(X<12) b) P(X>11) c) P(X>9) d) P(X>9.5) e) P(9<X<12) Nota: Graficar cada numeral y analizar los resultados obtenidos. Ejemplo propuesto 4-La Normal: Suponiendo que las estaturas X de los alumnos de un colegio se encuentran distribuidas normalmente con una media igual a 169 cm y una desviación estándar igual a 3 cm (Emplear la tabla para calcular la probabilidad) a) Probabilidad de que un estudiante tenga una estatura inferior a 165 cm? b) Qué porcentaje de alumnos tendrá una estatura entre 165 y 170 cm? Nota: Graficar y analizar resultados. Ejemplo propuesto 5-La Normal: El peso promedio de las frutas de un gran cargamento es de 15 lb. Con una desviación estándar de 1.62 lb.; si sus pesos están distribuidos normalmente ¿Qué porcentaje de frutas tendrá un peso entre 15 lb y 18 lb?. Graficar. Ejemplo propuesto 6-La Normal: Si la vida media de cierta marca de baterías es de 30 meses, con una desviación estándar de 6 meses. ¿ Qué porcentaje de estás 110aterías puede esperarse que tengan una duración de 24 a 36 meses?. Se supone que su duración tiene una distribución Normal. Graficar. Ejemplo propuesto 7-La Normal: En cierto negocio el salario medio mensual es de $ 386.000 y la desviación estándar es de $ 4.500. Si se supone que los salarios tienen una distribución normal, ¿Qué porcentaje de empleados percibe salarios entre $ 380.000 y 385.000? Graficar. Ejemplo propuesto 8-La Normal: Dos estudiantes fueron informados de que habían recibido referencias tipificadas de 0.8 y –0.4, respectivamente, en un examen de legislación. Si sus puntuaciones fueron 88 y 64, respectivamente, hallar la media y la desviación típica (o estándar) de las puntuaciones del examen. 110
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Ejemplo propuesto 9-La Normal: La media del peso de 500 deportistas (mayores de edad) es de 75.5 kl. Y la desviación típica es de 6 kl. Suponiendo que los pesos se distribuyen normalmente, hallar cuántos deportistas pesan: a) Entre 60 y 75.5 kl. b) Más de 92.5 kl. Ejemplo propuesto 10-La Normal: El gasto promedio semanal en transporte de un grupo de empleados es de $15.000 y la desviación estándar es de $3.500. Se sabe que 647 empleados tienen un gasto mayor de $ 16.300 ¿Cuál es el número total de empleados? Ejemplo propuesto 11-La Normal: Una revista publicó un estudio donde se indica que los salarios mensuales para Contadores titulados, presenta un comportamiento normal con una media de $2.750.000 y una desviación típica o estándar de $430.000. Cuál es la probabilidad de que: a) Un contador titulado gane entre $1.500.000 y $3.000.000. b) Un contador titulado gane más de $2.598.000 Graficar cada caso e interpretar. Ejemplo propuesto 12-La Normal: Una fábrica de neumáticos produce llantas con una vida útil media de 85.000 Km. Y una desviación estándar de 6.800 Km. La vida útil se encuentra distribuida normalmente. a) Cuál es la probabilidad de que una llanta dure más de 91.000Km. b) Hallar el valor del Kilometraje límite donde el 7.3% de los neumáticos duran menos de dicho valor (en Km). c) Cuál es la probabilidad de que un neumático dure entre 80.000 Km y 93.000 Km. Graficar cada caso e interpretar. Ejemplo propuesto 13-La Normal: El nivel de comisión mensual obtenida por un grupo de vendedores se encuentra distribuida normalmente. El 3.15% ganan por concepto de comisión más de $980.000 el 85.3% obtienen menos de $574.000. Determinar la comisión promedio y la desviación estándar. Graficar. Ejemplo propuesto 14-La Normal: La vida útil media de un circuito electrónico es de 1.200 horas y la desviación típica o estándar de 250 horas. Si la vida útil se distribuye normalmente, cuál es la probabilidad de que el circuito dure más de 1.300 horas. Graficar e interpretar.
111
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Ejemplo propuesto 15-La Normal: La media de los diámetros de una muestra de arandelas producidas por una máquina es de 0.502 pulgadas y la desviación típica de 0.005 pulgadas. Las arandelas se consideran buenas o aceptables si su diámetro se encuentra entre 0.496 y 0.508 pulgadas. Determinar el porcentaje de arandelas defectuosas producidas por la máquina, si se sabe que los diámetros presentan una distribución normal. Graficar e interpretar. Ejemplo propuesto 16-La Normal: Un digitador estima que el costo de transcribir e imprimir una tesis para obtener título profesional es una variable aleatoria que se distribuye normalmente con una media de $ 1.700.000 y una desviación típica de $ 95.000. Cuál es la probabilidad de que el costo de transcribir e imprimir una tesis se encuentre entre $1.320.000 y 1.900.000. Graficar. Ejemplo propuesto 17-La Normal: El puntaje obtenido en un examen por un grupo de personas durante el proceso de admisión para laborar en una empresa se distribuye normalmente con una media de 700 puntos y una desviación típica de 120 puntos. Se decide no tener como referencia de posibles alternativas de elección al 5% de personas con puntaje más bajo. Cuál es ese puntaje mínimo necesario para ser tenido en cuenta dentro del proceso de admisión? Graficar. Ejemplo propuesto 18-La Normal: Una compañía de reparación de fotocopiadoras sabe que el tiempo invertido en hacer un servicio se puede representar como una variable aleatoria normal con una media de 75 minutos y una desviación típica de 20 minutos. Qué proporción de servicios se hacen en menos de una hora. Graficar.
112
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
2.1.3. DISTRIBUCIÓN BINOMIAL DE PROBABILIDAD Es una distribución de probabilidad para una variable discreta X, la variable X representa el total de “éxitos” dentro de n ensayos. La palabra “éxito” siempre estará asociada con la característica de interés que se esté analizando dentro de la ocurrencia del evento (Mendenhall, 2012). Es una distribución de probabilidad con aplicaciones en inspección de calidad, ventas, mercadeo, investigación de operaciones, entre otras. Nomenclatura: Total de casos posibles, o total de ensayos. Total de éxitos dentro de los n ensayos. Probabilidad de éxito, en otras palabras es la probabilidad de que ocurra la característica de interés. Total de elementos que poseen la característica de interés (éxito) El valor de p es una proporción, siempre se encuentra entre 0 y 1.
La probabilidad p es conocida con estudios preliminares y se calcula como la relación entre el total de casos favorables para la característica de interés sobre el total de casos posibles.
Probabilidad de fracaso, es decir la probabilidad de que no ocurra o no se presente la característica de interés. También es una proporción y se puede calcular como la relación entre el total de casos que no son favorables para la característica de interés (b) dividido por el total de casos posibles.
El valor de q también puede calcularse como el complemento de p, de la siguiente forma:
Siempre la unión de p con q representa el 100%, en términos relativos 1, por lo tanto se cumple que:
De donde
, o también
113
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
La función de distribución de probabilidad de la BINOMIAL está dada por:
( )
( )
Con La variable X toma valores positivos y enteros (variable discreta) La media y la desviación típica o estándar de la distribución Binomial, están dados por:
√ La expresión ( ) representa combinaciones de n en X, se calcula de la siguiente forma: ( )
(
)
se lee n factorial. El factorial de un número se calcula así: (
)
Por definición Por ejemplo, 5 ! = 5 x 4 x 3 x 2 x1 = 120 Observación: Por tratarse de una función de distribución de probabilidad, se tiene que la sumatoria de todos los valores de ( ) ∑ ( )
2.1.3.1. EJEMPLOS RESUELTOS DISTRIBUCIÓN BINOMIAL Ejemplo 1: Un grupo de 17 jóvenes estudiantes de género masculino, en buen estado de salud que se encuentran culminando el nivel de secundaria, es llevado a las instalaciones militares para ser sometidos a un sorteo y definir quiénes de ellos deben prestar el servicio militar, como requisito para obtener la libreta respectiva. Cada uno de ellos debe seleccionar al azar una balota de una urna en la que se encuentran dos balotas, una de color negra y otra blanca. Seleccionar la negra significa
114
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
que debe prestar el servicio militar y seleccionar la blanca significa que el estudiante se exime de prestar el servicio militar y le es otorgada la libreta militar. a) Cuál es la probabilidad de que exactamente 2 de ellos tengan que prestar el servicio militar? b) Cuál es la probabilidad de que como máximo 5 de ellos tengan que prestar el servicio militar? c) Cuál es la probabilidad de que entre 7 y 9 estudiantes de ellos les toque prestar el servicio militar? Solución: De acuerdo a las preguntas que se han formulado la característica de interés es “Tener que prestar el servicio militar”. Como se tienen dos balotas (1 blanco, 1 negra), la probabilidad de éxito para cada uno de los estudiantes, está dada por:
Por lo tanto el valor de la proporción de fracasos o probabilidad de no poseer la característica de interés, es de:
El total de ensayos está representado por el total de estudiantes que se presentan:
a)
(
)
(
)
( )
(
( ) )
) Luego ( , el grado de certeza o de seguridad de que exactamente 2 estudiantes de los 17 que se presentan les toque prestar el servicio militar es del 0.1037%, una probabilidad muy bajita que ni siquiera llega al 1%. b)
(
)
( ( )
) (
( )
( )
( )
( )
( )
( )
)
115
ESTADÍSTICA Mary Nieves Cruz Zuluaga
( )
(
)
( )
(
)
( )
(
)
( )
(
)
( )
(
)
(
)
Facultad de Estudios Empresariales y de Mercadeo
∑ ( )
( ) , el grado de certeza o de seguridad de que como máximo 5 estudiantes de los 17 que se presentaron tengan que prestar el servicio militar es del 7.17% c)
(
)
( )
(
)
( )
(
)
( )
(
)
(
)
∑ ( )
( ) , el grado de certeza o de seguridad de que presten el servicio militar entre 7 y 9 estudiantes de los 17 que se presentaron es del 51.9%. Ejemplo 2: El 20% de los empaques producidos por una máquina son defectuosos. Determinar la probabilidad de que de 4 empaques tomados al azar: 116
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
a) Exactamente uno sea defectuoso b) Ninguno sea defectuosos c) Por lo menos uno sea bueno. d) Entre 1 y 3 sean buenos. Solución: Para los numerales a) y b) los valores de p y de q son:
Para los numerales c) y d) los valores de p y q son:
a)
( ) ( ) ( ) El grado de certeza de que exactamente uno sea defectuoso es del 41%
b)
( ) ( ) El grado de certeza de que ninguno sea defectuoso es del 41%
c)
( ( )
)
( )
( )
( )
( )
( )
( )
( ) El grado de certeza de que por lo menos 1 sea bueno es del 99.84% d)
(
)
( )
( )
( )
( )
( )
( )
(
( )
( )
( )
)
El grado de certeza de que entre 1 y 3 sean buenos es del 58.88%.
117
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Ejemplo 3: Un vendedor de seguros vende pólizas a 5 hombres todos de la misma edad (48 años) y en buen estado de salud. La probabilidad de que un hombre de esa edad viva 30 años más es de 2/3. Hallar la probabilidad de que dentro de 30 años: a) Vivan solamente 2 hombres b) Vivan al menos 3 hombres Solución:
a)
( ( )
)
( )
( )
El grado de certeza o de seguridad de que vivan solamente 2 hombres es del 16.13% b)
(
)
( )
( )
( )
( )
( )
( )
( )
( )
( )
( ) El grado de certeza o de seguridad de que vivan al menos 3 hombres es del 79.5 %
2.1.3.2. EJEMPLOS PROPUESTOS DISTRIBUCIÓN BINOMIAL Ejemplo propuesto 1- Binomial: Todos los días se selecciona de manera aleatoria 6 unidades de un proceso de manufactura, con el propósito de verificar el porcentaje de unidades defectuosas en la producción. Con base en información pasada, la probabilidad de tener una unidad defectuosa es de 0.12. La gerencia ha decidido detener la producción cada vez que una muestra de 6 unidades tenga dos o más defectuosas. ¿Cuál es la probabilidad de que en cualquier día, la producción se detenga?
118
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Ejemplo propuesto 2 – Binomial: Un club nacional de automovilistas comienza una campaña telefónica con el propósito de mercadear y aumentar el número de personas afiliadas al club. Con base en su experiencia se sabe que 1 de cada 20 personas que reciben la llamada se unen al club. Si en un día 14 personas reciben la llamada telefónica, cuál es la probabilidad de que por lo menos 3 personas de ellas se unan al club?
Ejemplo propuesto 3 – Binomial: En el departamento de cartera de una entidad financiera se ha detectado que el 15% de los usuarios que le adeudan al banco a través de su tarjeta de crédito no pagan el monto de la deuda completa en un mes determinado. Si se han seleccionado de forma aleatoria 25 cuentas, cuál es la probabilidad de que exactamente 7 de ellas no sean pagadas. Ejemplo propuesto 4 – Binomial: El departamento de personal de una cadena de almacenes importante de la ciudad contrata personal estudiantil universitario de los primeros semestres en época de vacaciones decembrinas para atender la gran afluencia de clientes que se presenta en esta época del año, por experiencia pasada se sabe que generalmente el 30% de los estudiantes son contratados laboralmente en esta época. Si se seleccionan aleatoriamente 10 estudiantes: a) Cuál es la probabilidad de que exactamente 4 de ellos sean contratados? b) Cuál es la probabilidad de que entre 5 y 8 estudiantes sean contratados? c) Cuál es la probabilidad de que como mínimo 8 de ellos sean contratados? Ejemplo propuesto 5 – Binomial: El 8% de las tuercas producidas en un proceso salen defectuosas. Si se seleccionan de forma aleatoria 30 tuercas, cual es la probabilidad de que: a) Como máximo 5 de ellas estén malas. b) Entre 12 y 15 tuercas se encuentren defectuosas. c) De que exactamente 8 de ellas sean defectuosas.
119
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
2.2. UNIDAD TEMÁTICA 2: TEORIA DE MUESTREO Las investigaciones estadísticas donde se toman todos los elementos de la población para realizar el estudio se denominan Censo. Existen otros estudios que al igual que el censo buscan hacer inferencias de la población, pero sin tomar todos los elementos de la misma, estas investigaciones se conocen bajo el nombre de estudios de muestreo (Mendenhall, 2012). El muestreo es una técnica estadística a través de la cual se trabaja con una parte representativa de la población con el objetivo de hacer inferencias para toda la población, surgen interrogantes básicos por solucionar como: ¿Cuántos elementos de la población se deben tomar para que conformen la muestra?, ¿Cuáles elementos de la población deben ser elegidos para conformar la muestra?, ¿Cómo debe hacerse el proceso de selección de los elementos?; todos estos interrogantes se analizan dentro de las técnicas de muestreo para tomar decisiones al respecto. Dentro de esta temática se hace diferencia entre el significado de la letra n minúscula y la N mayúscula, así:
2.2.1. CLASES DE MUESTREO MUESTREO ALEATORIO SIMPLE Una muestra de tamaño n extraída de una población de tamaño N, es aleatoria cuando todas las muestras posibles tienen igual probabilidad de ser seleccionadas. Hay dos aspectos básicos a tener en cuenta, estos son: el tamaño de la muestra n y la forma de extraer de la población N este tamaño de muestra. El tamaño de la muestra hace referencia al número de elementos que se han de extraer de la población. La forma de extraer los elementos hace referencia al proceso de selección, éste ha de ser aleatorio, que todos y cada uno de los elementos de la población tengan igual probabilidad de ser seleccionados para formar parte de la muestra, para esto puede utilizarse tabla de números aleatorios o generarlos a través del sistema; se recomienda tener a mano un listado codificado de la población para poder extraer del listado poblacional el elemento indicado por la generación de números aleatorios. El muestreo aleatorio simple puede hacerse con reposición o sin reposición dependiendo del caso particular y de las necesidades del investigador. Muestreo Aleatorio Simple con reposición Significa que al extraer un elemento de la población para que forme parte de la muestra, éste vuelve de nuevo a ser incluido dentro del gran total poblacional (se repone) teniendo la posibilidad de ser seleccionado en otra oportunidad. El total de posibles muestras es N n , todas las posibles muestras tienen igual probabilidad de ser seleccionadas, ésta probabilidad es de
1 . Nn
120
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Durante el proceso de selección de las unidades, cada unidad tiene igual probabilidad de ser seleccionada, cada vez que se extrae una unidad, la probabilidad de ser seleccionada viene dada 1 por . N Muestreo Aleatorio Simple sin reposición Significa que al extraer un elemento de la población para que forme parte de la muestra, éste no se incluye de nuevo en el gran total poblacional (no se repone), perdiendo la posibilidad de ser seleccionado en otra oportunidad. N! N El total de posibles muestras es N C n , se lee combinaciones de N en n, todas n! ( N n)! n las muestras tienen igual probabilidad de ser seleccionadas, ésta probabilidad está dada por
1 N n
.
Durante el proceso de selección de las unidades, cada que se extrae de la población una unidad para que forme parte de la muestra, la probabilidad de que una unidad sea seleccionada dentro de las que quedan va cambiando, así: Momento de selección o
Total
de
elementos Probabilidad de que una unidad
extracción de la unidad
existentes en la Población sea seleccionada
Momento 1. MO1
N
1 N
Momento 2. MO2
N-1
1 N 1
Momento 3. MO3
N-2
1 N 2
Momento 4. MO4
N-3
1 N 3
........
......
........
......
Momento n-ésimo. MOn
N-(n-1)
1 N (n 1)
121
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
MUESTREO ESTRATIFICADO Se identifica también como muestreo aleatorio estratificado. Una muestra estratificada es la obtenida mediante la separación de los elementos de la población en grupos que presentan ciertas características comunes. Generalmente dentro de estratos se presenta homogeneidad y entre estratos heterogeneidad. Se utiliza el procedimiento de afijación proporcional, que particiona el tamaño de la muestra n en forma proporcional al tamaño de los estratos en la población. L= total de estratos N= tamaño de la población n= tamaño de la muestra
N i = tamaño poblacional del estrato i n i = tamaño muestral del estrato i Wi = peso o ponderación del estrato i N N1 N 2 N 3 ... N l l
N Ni i 1
n n1 n 2 n3 ... nl l
n ni i 1
ni nWi Wi
Ni N
MUESTREO POR CONGLOMERADOS Una muestra por conglomerados es una muestra aleatoria en la cual cada unidad de muestreo es un grupo de elementos (llamado conglomerado), los elementos dentro de un conglomerado generalmente están juntos físicamente. Una muestra por conglomerados se obtiene seleccionando aleatoriamente un conjunto de m colecciones muestrales llamados conglomerados y posteriormente llevando a cabo un censo en
122
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
cada uno de los conglomerados. El tamaño m se calcula siguiendo la misma metodología del cálculo del tamaño de muestra, con la única diferencia que M es el total poblacional. M= número de conglomerados de la población o tamaño poblacional de conglomerados. m= número de conglomerados de la muestra o tamaño muestral de conglomerados.
n i = número de elementos del i-ésimo conglomerado. MUESTREO SISTEMÁTICO (MUESTREO TIPIFICADO) La metodología empleada para seleccionar los elementos de la muestra inicia con una unidad de arranque que es seleccionada de forma aleatoria o al azar, a partir de ésta los elementos se seleccionan por intervalos regulares, cada K elementos; por tal motivo se denomina muestra sistemática de 1 en K. 2.2.2. CÁLCULO DEL TAMAÑO DE MUESTRA Al iniciar una investigación aplicando muestreo, una decisión fundamental es determinar el tamaño óptimo de la muestra, denotado por n, de tal forma que los costos de recolección de información no sean demasiado altos y al mismo tiempo asegurando cierto grado de confianza en las inferencias o pronósticos para la población elaborados a partir de dicha muestra. El tamaño de la muestra también se ve afectado por el tiempo predeterminado durante el cual se debe llevar a buen término los resultados de la investigación, por el recurso humano (encuestadores) de que se disponga, así como por el recurso económico destinado a la investigación. La fórmula general para calcular el tamaño de muestra es la siguiente:
n
n0 n 1 0 N
Siendo:
n0
Z 2 *S 2 E2
De ésta fórmula se desprenden muchas otras que existen para calcular tamaño de muestra, las cuales han sido halladas empleando sustituciones y operaciones algebraicas en la misma. A continuación se explica la forma como se halla cada una de las letras que conforman el
.
Valor de Z Se extrae de la tabla de la Distribución Normal Estandarizada El valor de Z cambia dependiendo del nivel de confiabilidad con que se desee trabajar la investigación.
123
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Pasos para hallar en valor de Z: 1° Definir el nivel de confiabilidad, éste se denota como (1-). El nivel de confiabilidad es establecido por el investigador o por la persona que contrata el estudio. La única condición para establecer de forma adecuada el nivel de confiabilidad es que sea un valor alto preferiblemente superior al 90%. 2° Despejar (Grado de incertidumbre) 3° Calcular /2 4° Calcular 1- /2 5° Buscar el valor de esta probabilidad (1-/2) por dentro de la tabla y mirar cual es el valor de Z correspondiente (Los valores de Z están en el borde de la tabla). En caso de no encontrarse el valor exacto de (1-/2) se ubica el más aproximado, para identificar luego el valor de Z, sin embargo para una mayor precisión puede ser aplicada la técnica de interpolación de datos. Ejemplo 1 (Valor de Z): Cuál será el valor de a ser sustituido en la fórmula del tamaño de muestra si se desea trabajar la investigación con un nivel de confiabilidad del 95%. Solución:
Ejemplo 2 (Valor de Z): Cuál será el valor de Z =? a ser sustituido en la fórmula del tamaño de muestra si se desea trabajar la investigación con un nivel de confiabilidad del 97.3% Solución:
124
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Valor de S La varianza muestral, identificada también como cuasivarianza, se calcula de la siguiente forma Sacando raíz cuadrada a ambos lados se tiene que: √ proporción de elementos que poseen la característica de interés principal proporción de elementos que no poseen la característica de interés principal. Los valores de éstas proporciones se encuentran entre 0 y 1, y la suma de ellas es igual a 1
Por lo tanto si se conoce el valor de , el valor de
puede ser calculado como
Los valores de p y de q se pueden hallar de tres formas diferentes dependiendo del caso en que se adapte mejor la situación. Caso 1: Si se cuenta con estudios anteriores similares al que se está realizando, se procede a sacar éstos valores de dicho estudio anterior. Caso 2: Si no se cuenta con estudios anteriores, se puede optar por sacar una muestra piloto La cantidad de elementos que conforman la muestra piloto se puede definir a criterio subjetivo por parte del investigador, se ha de tener presente que esta muestra piloto no es el tamaño de muestra definitivo, sino simplemente una cantidad de elementos previos al estudio que han de servir para calcular valores aproximados de p y de q.
Siendo total de elementos que en la muestra piloto poseen la característica de interés. Caso 3: Cuando no se cuenta con investigaciones anteriores y tampoco se desea sacar una muestra piloto, entonces se le asigna a las proporciones los siguientes valores: Bajo esta circunstancia se supone que el 50% de los elementos poseen la característica de interés y el otro 50% no la poseen, la única ventaja de esta asignación es que se está siendo totalmente imparcial, motivo por el cual se ha aceptado este supuesto para trabajar, sin embargo nadie puede asegurar que esto siempre ocurra o sea una realidad. Valor de E El error de estimación =? Puede ser establecido a criterio subjetivo del investigador, con la única condición de que sea un valor pequeño, preferiblemente menor al 5%. Si se establece que el margen para el error de estimación sea del 5%, entonces el valor de E a sustituir en la fórmula del tamaño de la muestra es Si el investigador indica que el margen para el error de estimación sea por ejemplo del 3%, entonces el valor de E a sustituir en la fórmula del tamaño de muestra sería de . 125
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
RELACIÓN ENTRE EL TAMAÑO POBLACIONAL Y EL MUESTRAL Se tiene la creencia que el tamaño de la muestra n crece indefinidamente a medida que aumenta el tamaño poblacional, simbolizado por N, esta creencia es errónea, ya que existe un punto en el cual el tamaño de la muestra permanece constante, aunque el tamaño de la población aumente. A continuación se visualiza el comportamiento del tamaño de la muestra en relación con el tamaño poblacional, a través de un ejemplo particular. Ejemplo: Calcular los diferentes tamaños de muestra dependiendo del tamaño poblacional, para una confianza del 95% y un error de estimación del 5%, en una investigación de la cual no existen estudios preliminares y donde la variable más relevante es cualitativa. Solución: En este caso se tienen los siguientes valores Z=1.96 S2=(0.5)(0.5)=0.25 E=5%=0.05 Se sustituyen estos valores en las fórmulas para el cálculo del tamaño de muestra, y se obtienen los resultados siguientes: RELACIÓN ENTRE EL TAMAÑO POBLACIONAL Y EL MUESTRAL Para el caso de un nivel de confianza del 95%. Tamaño Poblacional
Tamaño de muestra
N
n
1000
278
2000
322
3000
341
4000
350
5000
357
10000
370
20000
377
50000
381
100000
383
500000 ó más
384
126
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
El análisis matemático-estadístico del motivo por el cual el tamaño de la muestra se estabiliza aunque el tamaño de la población aumente, es el siguiente:
Cuando N tiende a ser muy grande o tiende a infinito, la división tiende a cero (0). Por tal motivo se estabiliza el tamaño de la muestra precisamente en , porque al efectuar operaciones siempre se estaría dividiendo
para obtener el valor de n.
RELACIÓN ENTRE NIVEL DE CONFIANZA, MARGEN DE ERROR Y ERROR DE ESTIMACIÓN.
= Margen de error
2
2
Nivel de Confianza
1 2
2
Estimador parámetro. poblacional
E = Error de estimacion
127
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
El Nivel de Confianza 1 se refiere a la confianza, probabilidad o grado de certeza de que la muestra permita estimar el parámetro poblacional. El Margen de Error se refiere al grado de error o probabilidad de que las muestras no permitan estimar el parámetro poblacional. Conocido también como error de tipo 1, nivel de significación o probabilidad de rechazar la hipótesis dado que es verdadera, siendo la hipótesis en este caso, una proposición donde se afirma que el parámetro poblacional está dado por el estimador obtenido con la muestra, es una probabilidad establecida con el objetivo de minimizar el error de tipo 1, la región bajo la curva de la distribución normal se denomina región crítica o zona de rechazo. Existen muchas posibles muestras que pueden ser seleccionadas de una misma población, por tal motivo se habla de distribuciones muestrales. Una muestra puede arrojar resultados diferentes a los obtenidos por otra muestra de la misma población, bajo éstas circunstancias es posible pensar en muestras que sí estimen el parámetro poblacional y otras que tal vez no estimen adecuadamente el parámetro poblacional. El valor de se refiere al margen de error de las muestras que no permiten estimar el parámetro poblacional. El Error de Estimación (E) se refiere a la precisión con que el estimador refleja el verdadero valor del parámetro poblacional. El Estimador es un cálculo estadístico realizado con la información obtenida en la muestra y es utilizado para estimar el valor del parámetro poblacional, por ejemplo: Para una variable cuantitativa, la media muestral X es el estimador de la media poblacional (parámetro). Para una variable cualitativa, la proporción muestral p es el estimador de la proporción poblacional p (parámetro). En términos generales se denota al estimador con el símbolo
y al parámetro poblacional con el
símbolo . Cuanto más cercanos se encuentren entre si los valores del estimador y del parámetro mayor es la precisión y por lo tanto menor el Error de estimación E, de tal forma que al restarlos entre sí, ésta diferencia tienda a cero. De manera general, se tiene:
0
E 0 Observación: El Nivel de confianza 1
y el Margen de error se complementan (el uno es el
complemento del otro). El Nivel de confianza 1 y el Error de estimación (E) no son el complemento el uno del otro.
128
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
TOTAL DE MUESTRAS POSIBLES A EXTRAER DE UNA POBLACIÓN. Todas las posibles muestras de tamaño n extraídas de una población de tamaño N, tienen igual probabilidad de ser seleccionadas. El total de posibles muestras al emplear muestreo sin reposición (no se repone el elemento
N! N seleccionado) está dado por , en este caso la probabilidad de que una muestra n n!.(N n)! sea seleccionada, está dada por
1 N n
.
El total de posibles muestras al emplear muestreo con reposición (se repone el elemento seleccionado) está dado por N n , en este caso la probabilidad de seleccionar una muestra, está dada por
1 . Nn
2.2.2.1. EJEMPLOS RESUELTOS DE CÁLCULO DEL TAMAÑO DE MUESTRA Ejemplo 1-Cálculo del tamaño de muestra Una comunidad religiosa presta el servicio de educación, la rectora desea realizar un estudio a padres de familia con hijos cursando secundaria, en 8 colegios de la misma comunidad, la madre superiora ha contratado un equipo de investigadores para que apliquen técnicas de muestreo, debido a que no dispone del suficiente tiempo como para encuestar a todos los padres de familia (Censo), debido a que ha de tomar una decisión a nivel administrativo en el corto tiempo. Se desea trabajar el estudio con un nivel de confianza del 95.56% y un margen para el error de estimación del 2.8%. La población de padres de familia se encuentra distribuida de la siguiente forma: Colegio
Total padres flia
1
500
2
1200
3
900
4
3000
5
1600
6
800
7
725
8
1520
129
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Se toma una muestra piloto de 20 padres de familia, seleccionados aleatoriamente entre los diferentes colegios. Calcular el tamaño de muestra necesario en caso de que la característica más relevante dentro de la investigación sea: Padres de familia con un Ingreso mensual superior a dos salarios mínimos legales vigentes (SMLV). Cuántos padres de familia se deben seleccionar en cada uno de los 8 colegios. La muestra piloto arrojo los siguientes resultados: Ingreso Padre de superior a familia 2 SLMV 1 no 2
si
3
no
4
si
5
si
6
no
7
si
8
si
9
si
10
si
11
no
12
si
13
si
14
si
15
si
16
no
17
no
18
si
19
si
20
si
130
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Solución: El tamaño poblacional
Facultad de Estudios Empresariales y de Mercadeo
∑
Colegio
Total padres flia (Ni)
1
500
2
1200
3
900
4
3000
5
1600
6
800
7
725
8
1520
Total
10245
Valor de Z:
N = 10245
Valor de S:
(
Se sustituyen los valores de fórmula del tamaño de muestra
(
) ( (
Valor de E:
)(
)
en la fórmula de
. Posteriormente este resultado en la
. Así:
) )
131
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Se deben encuestar
Facultad de Estudios Empresariales y de Mercadeo
padres de familia.
Los 979 padres de familia deben ser seleccionados teniendo en cuenta a los 8 colegios, por tal motivo se realiza la repartición de acuerdo a los pesos o ponderaciones que representa cada uno de los colegios. El valor de cada se calcula así:
Colegio
Total padres flia (Ni)
Wi
ni
1
500
0,04880429
48
2
1200
0,11713031
115
3
900
0,08784773
86
4
3000
0,29282577
287
5
1600
0,15617374
153
6
800
0,07808687
76
7
725
0,07076623
69
8
1520
0,14836506
145
Total
10245
1
979
Conclusión: El tamaño de la muestra es de 979 padres de familia los cuales deben ser seleccionados de forma aleatoria, encuestando 48 en el colegio 1, 115 en el colegio 2 y así sucesivamente como se muestra en la columna de los Ejemplo 2-Cálculo del tamaño de muestra Dado un tamaño poblacional, un nivel de confianza del 95% y diferentes errores de estimación, calcular el tamaño de muestra respectivo, suponiendo que no existen estudios preliminares y que la variable más importante dentro del estudio es cualitativa. Se pide llenar la siguiente tabla:
132
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Calcular los valores de la tabla
Solución: Nivel de confianza (1 ) 0.95
1 0.95 0.05
2 1
0.025
2
0.975
Z 1 1.96 2
Z 1.96 Para un error de estimación del 4%
133
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Z 2 .S 2 n0 E2
n0
2 1.96 .0.25 600.25 0.042
N=1000
N=2000
N=3000
N=4000
N=5000
N=10000
134
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
N=20000
N=50000
N=100000
De igual manera se obtienen los restantes tamaños de muestra para cada uno de los diferentes errores de estimación, quedando así:
135
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Ejemplo 3-Cálculo del tamaño de muestra Se desea efectuar una investigación, donde la característica principal dentro del estudio es “Empresas Exportadoras”, las empresas se encuentran clasificadas según su tamaño en tres grupos, grandes, medianas y pequeñas. La Población se encuentra distribuida de la siguiente forma: Clasificación
Total Empresas
Grande
351
Mediana
527
Pequeña
875
Se desea trabajar con un nivel de confiabilidad del 96.24% y con un margen para el error de estimación del 3.5%. Se tomó una muestra piloto de 17 empresas, la cual arrojó los siguientes resultados: Empresa 1 2 3 4 5 6 7 8 9 10
Exportación no no si no si si si no si no
Empresa 11 12 13 14 15 16 17
Exportación si si no no si si si
Calcular el tamaño de muestra, es decir cuántas empresas se deben visitar para realizar el estudio?. Solución: Valor de Z Valor de S Valor de E
(
)(
) 136
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Tamaño de la población
Facultad de Estudios Empresariales y de Mercadeo
∑
Se sustituyen los valores en la fórmula de
(
) ( (
El valor de
:
) )
se sustituye en la fórmula del tamaño de muestra .
El tamaño de la muestra es de 571 empresas, cada una de ellas se debe seleccionar de forma aleatoria o al azar. Para la distribución de este tamaño se han de tener presente los pesos o ponderaciones de cada subgrupo poblacional. Clasificación
Ni
Wi
Grande
351
0,20022818
114
Mediana
527
0,300627496
172
Pequeña
875
0,499144324
285
Total
1753
1
ni
571
Conclusión: Para realizar el estudio a través de muestreo con las indicaciones asignadas, se han de visitar 571 empresas, distribuidas de la siguiente forma: Empresas grandes 114, empresas medianas 172 y pequeñas empresas 285. Ejemplo 4-Cálculo del tamaño de muestra Una empresa productora de artículos de aseo, necesita realizar una investigación de mercados, para tomar decisiones administrativas, sobre las cuales influye la comercialización y mercadeo de su detergente en polvo para el lavado de ropa. La Población está constituida por el total de casas ubicadas en el Sector Urbano de cierta ciudad, la cual se encuentra distribuida de la siguiente forma:
137
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Zona del sector urbano
Facultad de Estudios Empresariales y de Mercadeo
Núm. de casas
Norte
573
Sur
950
Oriental
725
Occidental
638
Cuál será el tamaño de la muestra, si no se tienen estudios preliminares y tampoco se opta por sacar una muestra piloto. La investigación se desea trabajar con un nivel de confiabilidad del 93.86% y un margen para el error de estimación del 4%. Solución: Valor de Z
Valor de S
(
Se sustituyen los valores de
(
) ( ( )
Se toma el valor de
Valor de E
)(
)
en la fórmula de
.
)
y se sustituye en la fórmula del tamaño de muestra .
138
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Zona
Facultad de Estudios Empresariales y de Mercadeo
Núm.Casas (Ni)
Wi
ni
Norte
573
0,1985447
91
Sur
950
0,32917533
151
Oriental
725
0,25121275
115
Occidental
638
0,22106722
101
Total
2886
1
459
Conclusión: el tamaño de muestra es de casas, es decir se deben visitar para aplicarles la encuesta del estudio a 459 casas, las cuales se han de seleccionar de forma aleatoria, la repartición de este tamaño de muestra en cada una de las zonas se hace teniendo presente los pesos o ponderaciones , quedando de la siguiente forma: En la zona norte 91 casas, en la Sur 151, en la oriental 115 y en la occidental 101. Ejemplo 5-Cálculo del tamaño de muestra Tomando como referencia el Ejemplo 4, calcular el tamaño de muestra si se desea trabajar con un nivel de confiabilidad del 94.64% y un error de estimación del 5%. Se considera que la principal variable dentro de la investigación es “Consumo del producto”. Como no se tienen estudios anteriores, se opta por sacar una muestra piloto, conformada por 30 familias, con las cuales se obtuvo la siguiente información, luego de preguntar en cada una de las casas si se consumía o no dicho producto. Casa 1 2 3 4 5 6 7 8 9 10
Consumo si no si si no si si no no si
Casa 11 12 13 14 15 16 17 18 19 20
Consumo si no si no no si si si no si
Casa 21 22 23 24 25 26 27 28 29 30
Consumo si si no si no si si si si si
139
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Solución: Valor de Z
Valor de S
(
Se sustituyen los valores de
(
) ( ( )
Se toma el valor de
Valor de E
)(
)
en la fórmula de
.
)
y se sustituye en la fórmula del tamaño de muestra .
140
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Zona
Facultad de Estudios Empresariales y de Mercadeo
Núm.Casas (Ni)
Wi
ni
Norte
573
0,1985447
58
Sur
950
0,32917533
97
Oriental
725
0,25121275
74
Occidental
638
0,22106722
65
Total
2886
1
294
Conclusión: el tamaño de muestra es de casas, es decir se deben visitar para aplicarles la encuesta del estudio a 294 casas, las cuales se han de seleccionar de forma aleatoria, la repartición de este tamaño de muestra en cada una de las zonas se hace teniendo presente los pesos o ponderaciones , quedando de la siguiente forma: En la zona norte 58 casas, en la Sur 97, en la oriental 74 y en la occidental 65. 2.2.2.2. EJEMPLOS PROPUESTOS DE CÁLCULO DEL TAMAÑO DE MUESTRA Ejemplo 1: La Secretaría de Planeación de un municipio determinado efectúa un estudio en cuatro zonas rurales (veredas del municipio), respecto a la distribución de familias que viven en casa propia o arrendada, bajo el supuesto de que en cada casa vive una familia.
La característica de interés es poseer vivienda propia, además no existen estudios preliminares al respecto. Se opta por extraer una muestra piloto , la cual arrojó los siguientes resultados:
141
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Calcular el tamaño de muestra si se desea trabajar con un nivel de confianza del 95% y un error de estimación del 3%. Ejemplo 2: El gobierno actual de un país está sumamente preocupado por el nivel educativo de sus dirigentes y líderes políticos, para adelantar un proyecto de capacitación académica se pretende desarrollar una investigación para detectar el porcentaje de profesionales y no profesionales que ejercen cargos públicos y sus respectivas necesidades de capacitación. Se tiene una población de 3785 dirigentes políticos, calcular el tamaño de muestra utilizando un nivel de confianza del 97% y un margen para el error de estimación del 4%. a) Cuál es el procedimiento a seguir en caso de existir estudios preliminares que contengan la proporción de profesionales. b) Especificar y efectuar el procedimiento en caso de no existir estudios preliminares al respecto y de no optar por extraer una muestra piloto. c) Especificar y efectuar el procedimiento en caso de no existir estudios preliminares al respecto y de optar por extraer inicialmente una muestra piloto. Ejemplo 3: Uno de los varios planes de mercadeo de una empresa procesadora de leche y lácteos consiste en suministrar gratuitamente litros de leche a familias de estrato 1 con población infantil. Se dona un litro de leche diario por cada dos niños que existan en la familia. Con este proyecto al mismo tiempo contribuye a programas de solidaridad y aporte alimenticio a la población más necesitada de la región. Existe un convenio con una cadena de supermercado reconocida en el medio, dependiendo de la cantidad de leche donada se comprometen a distribuir y vender entre la población con poder adquisitivo el triple de lo donado.
142
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
La población ubicada en el estrato 1 del municipio, está distribuida así:
La donación se hará a toda la población, sin embargo para efectos de planeación en la producción dentro de la planta procesadora de leche se requiere calcular un tamaño de muestra de las familias con población infantil. Se pide: Calcular el tamaño de muestra con una confianza del 96% y un margen para el error de estimación del 3%, cuántas familias cada región forman parte de la muestra. Ejemplo 4: Una empresa organiza viajes vía aérea para ejecutivos de tres empresas multinacionales diferentes que requieren desplazarse a otros países para asistir a seminarios y juntas de negocios. Cada ejecutivo efectúa en promedio 3 viajes semestrales, el gasto promedio por viaje de cada ejecutivo, en cuanto a pasaje y estadía es de $2.800.000,00 dinero que ingresa a la agencia de viajes por concepto de prestación de servicios. El total de la población de ejecutivos de las tres multinacionales es el siguiente, de los cuales algunos tienen asignadas labores dentro de la misma ciudad y otros viajan al extranjero.
Calcular el tamaño de muestra de ejecutivos con un nivel de confianza del 95% y un margen para el error de estimación del 3%. Ejemplo 5: Para una investigación en el área económico-administrativa se requiere calcular el tamaño de muestra de las empresas de una región clasificadas en grandes, medianas y microempresas. Es de anotar que no existen estudios preliminares en esa región respecto a la temática. La población de empresas de la región es la siguiente:
143
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
a) Justifique si se recomienda trabajar con una muestra piloto para calcular el tamaño de muestra, qué aspectos se necesita conocer para tal fin. Cuál sería el procedimiento a seguir en caso de que la variable más importante dentro del estudio fuese el atributo de existencia de buen clima laboral en la empresa. b) En caso de optar por calcular el tamaño de muestra sin utilizar una muestra piloto, cómo se calcularía el tamaño de muestra. Qué cantidad de empresas forman parte de la muestra dentro de cada clasificación. Ejemplo 6: En una institución universitaria se sabe por estudios preliminares que el 75% de las personas (entre empleados y alumnos) asisten a los eventos programados por Bienestar Institucional. Para adelantar una investigación con el objetivo de analizar los logros de cada uno de los eventos culturales, así como las sugerencias a tener en cuenta para futuras programaciones, se requiere calcular un tamaño de muestra con un nivel de confianza del 96% y un margen para el error de estimación del 5%. La población universitaria cuenta con 130 empleados y 2415 alumnos. Ejemplo 7: Una empresa de utensilios plásticos para el hogar, contrata los servicios de una empresa publicitaria para analizar si justifica o no, mercadear su producto a través de la televisión en el Canal Regional, durante las horas de la noche entre las 7:00 pm y 10:00 pm. La investigación se delimita físicamente a toda la zona de cobertura del canal regional, esta zona se encuentra divida en siete sectores, el número de viviendas por sector es el siguiente:
a) Tomar una muestra piloto y calcular la proporción de viviendas en las cuales existe un adulto responsable viendo la televisión en el canal regional durante ese lapso de tiempo. b) Utilizar el resultado de esa proporción como herramienta para calcular el tamaño de muestra para la investigación definitiva con un nivel de confianza del 95% y un margen para el error de estimación del 3%. Cuántas viviendas dentro de cada sector forman parte del tamaño de la muestra.
144
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
Ejemplo 8: Para una investigación efectuada a empresarios del departamento de Antioquia, donde la principal característica de interés son aquellos empresarios con dominio de la temática en Logística de la Distribución. Se toma la Población de acuerdo a la base de datos suministrada por la Cámara de Comercio, la cual muestra la siguiente distribución:
Región
Núm.Empresarios (Ni)
Norte
2500
Sur
1780
Oriente
1200
Occidente
3295
Se tomó una muestra piloto de 28 empresarios, los cuales suministraron información respecto a la característica principal (Conocimiento en Logística), la cual arrojó los siguientes resultados: Empresario
Dominio de la Logística
Empresario
Dominio de la Logística
Empresario
Dominio de la Logística
Empresario
Dominio de la Logística
1
si
8
no
15
no
22
si
2
no
9
si
16
si
23
si
3
si
10
si
17
no
24
si
4
si
11
no
18
no
25
no
5
no
12
si
19
si
26
si
6
si
13
no
20
si
27
si
7
no
14
si
21
si
28
no
Se desea trabajar la investigación con un nivel de confiabilidad del 96.24% y con un margen para el error de estimación del 4.12%. Calcular el tamaño de muestra, describir o interpretar el resultado obtenido, especificar la distribución en cada una de las regiones, así como la forma en que se debe seleccionar a cada empresario que formará parte de la muestra. Efectuar procedimiento completo.
145
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
REFERENCIA BIBLIOGRAFICA Cruz, M. (2005). Estadística para Educación Superior. Medellín: Esumer. Devore, J. (2012). Probabilidad y Estadística para Ingeniería y Ciencias. Estados Unidos: Cengage Learning. Douglas, L. (2008). Estadística aplicada a los negocios y la economía. México: McGraw-Hill. Levine, D. (2006). Estadística para administración. México: Prentice-Hall. Martínez, C. (2008). Estadística y Muestreo. Colombia: Ecoe. Mendenhall, W. (2012). Introducción a la Probabilidad y la Estadística. Estados Unidos: Cengage Learning. Newbold, P. (2013). Estadística para Administración y Economía. México: Pearson. Spiegel, M. (2010). Probabilidad y Estadística. México: McGraw-Hill. Wackerly, D. (2007). Estadística Matemática con aplicaciones. España: Thomson.
146
ESTADÍSTICA Mary Nieves Cruz Zuluaga
Facultad de Estudios Empresariales y de Mercadeo
MARY NIEVES CRUZ ZULUAGA
Egresada de la Facultad de Estadística e Informática de la Universidad de Medellín (Colombia). Especialista en Gerencia de Proyectos de la Institución Universitaria Esumer, Medellín (Colombia). Magister en Dirección de Empresas de la Universidad Pablo de Olavide, Sevilla (España). Docente investigadora de tiempo completo en la Institución Universitaria Esumer. Móvil: 316.447.48.02 E-mail: marynievescruz@yahoo.es mncruz@esumer.edu.co
147