Omar Jesús Alcalá Velasque
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
Universidad Católica Andrés Bello Caracas, 2012
HA29.5 E8A5 Alcalá Velasque, Omar Jesús Tópicos de estadística aplicados a las ciencias sociales / Omar Alcalá Velasque.— Caracas: Universidad Católica Andrés Bello, 2012.
289 p. ; 23 cm. ISBN 978-980-244-633-9 1.CIENCIAS SOCIALES - MÉTODOS ESTADÍSTICOS. 2. ESTADÍSTICA. I. Título
Tópicos de estadística aplicados a las ciencias sociales Omar Alcalá Velasque Universidad Católica Andrés Bello Montalbán - La Vega / Caracas Apartado 20.332 Diseño y producción: PUBLICACIONES UCAB Diagramación: ISABEL VALDIVIESO Corrección de pruebas: ANA TERESA RODRÍGUEZ Diseño de portada: ISABEL VALDIVIESO Impresión: SWITT PRINT, C.A. © Universidad Católica Andrés Bello Segunda edición Caracas, 2012 ISBN: 978-980-244-633-9 Hecho el Depósito de Ley Depósito Legal n°: 1f5920105101555
Reservados todos los derechos. No se permite reproducir, almacenar en sistemas de recuperación de la información ni transmitir alguna parte de esta publicación, cualquiera que sea el medio empleado —electrónico, mecánico, fotocopia, grabación, etc.—, sin el permiso previo de los titulares de los derechos de propiedad intelectual.
Índice
DEDICATORIA
5
UN PRIMER MOMENTO
9
CAPÍTULO I
15
I. UN POCO DE HISTORIA
17
II. DEFINICIONES BÁSICAS
39
EJERCICIOS COMPLEMENTARIOS
48
CAPÍTULO II
55
I. MANEJO Y CLASIFICACIÓN DE DATOS ESTADÍSTICOS
57
II. GRÁFICOS DE DATOS ESTADÍSTICOS
70
EJERCICIOS COMPLEMENTARIOS
88
CAPÍTULO III
109
I. MEDIDAS DE TENDENCIA CENTRAL
111
EJERCICIOS COMPLEMENTARIOS
134
II. MEDIDAS DE VARIABILIDAD
146
III. MEDIDAS DE SESGO Y CURTOSIS
160
EJERCICIOS COMPLEMENTARIOS
167
CAPÍTULO
IV
I. ANÁLISIS DE REGRESIÓN II. ANÁLISIS DE CORRELACIÓN EJERCICIOS COMPLEMENTARIOS CAPÍTULO
V
I. MÉTODO DE SERIES DE TIEMPO II. ANÁLISIS DE SERIES EN EL TIEMPO EJERCICIOS COMPLEMENTARIOS
CAPÍTULO
VI
I. ¿QUÉ ES UN NÚMERO ÍNDICE?
II. TIPOS DE NÚMEROS ÍNDICE III. CÁLCULO DE NÚMEROS ÍNDICE EJERCICIOS COMPLEMENTARIOS BIBLIOGRAFÍA
177 179 189 198 213 216 219 238 253 255 256 259 281 293
Dedicatoria
A Mariela, un gran apoyo. ร ngel y Samantha, mis mรกs insignes lectores. Para mis alumnos, siempre hay una historia detrรกs de las cifras. La soluciรณn de un problema bien propuesto muchas veces resulta hermosa. Kolmogรณrov
INTRODUCCIÓN
UN PRIMER MOMENTO
Al observar nuestro entorno, nos vemos invadidos por un cúmulo de información que, en muchos casos, se presenta de forma numérica, como: número de personas que pertenecen a algún estrato social, porcentaje de votantes en una elección, porcentaje de carros de una cierta marca vendidos en un período determinado, el índice de precios al consumidor de un país, el incremento de la inflación, etc. Todo esto induce a preguntarnos cómo interpretar estos datos y qué significación tienen para nosotros: es aquí donde la estadística surge como un medio que nos permite darle una respuesta a estas preguntas. Si se revisa un catálogo de información de cualquier universidad, se descubrirá que el estudio estadístico se requiere en muchos programas académicos, ¿por qué pasa esto? Además, existen diferencias entre programas; ¿cuáles son las diferencias entre los cursos de Estadística impartidos en una Facultad de Ingeniería, en la Escuela de Psicología o Sociología de una universidad, y los de un instituto o Escuela de Administración y Contaduría? La mayor diferencia son los ejemplos utilizados. Básicamente, el contenido del curso es el mismo, su cambio deriva de las aplicaciones que se hacen en la Escuela de Administración y Contaduría donde interesan cosas como las ganancias, horas de trabajo, y salarios. En la Escuela de Psicología interesan los resultados de las pruebas, y en una Facultad de Ingeniería pueden interesar cuántas unidades son producidas por una máquina en especial. Sin embargo, las tres áreas tienen interés en lo que es un valor típico y en la canti-
10
OMAR JESÚS ALCALÁ VELASQUE
dad de variación existente en la información. Es posible que también exista una diferencia en el nivel de matemáticas requerido. Un curso de Estadística en ingeniería generalmente requiere del Cálculo, los cursos de Estadística en escuelas de administración y en la educación, generalmente consisten en un curso orientado a aplicaciones. Entonces, ¿por qué se requiere estudiar Estadística en tantas carreras? La primera razón, mencionada anteriormente, es que en todas partes encontramos información numérica. Si se revisan los periódicos, revistas de información, revistas de negocios, publicaciones de interés general o revistas de deportes, el lector se sentirá bombardeado con información numérica. Presentamos aquí algunos ejemplos: • El BCV reporta que para el I trimestre del año 2002 el índice de remuneraciones había experimentado un incremento del 1,5%1. • El INE (Instituto Nacional de Estadística), reporta que para el primer semestre de 2002 el porcentaje de hogares pobres en el estado Falcón es de 48%2. ¿Cómo podemos determinar si las conclusiones presentadas son razonables?, ¿las muestras fueron suficientemente grandes?, ¿cómo se seleccionaron las unidades de la muestra? Para poder ser un consumidor con conocimientos sobre esta información, necesitamos poder leer los cuadros, las gráficas y entender la discusión de la información numérica. El entender los conceptos básicos de la Estadística será de gran ayuda. La segunda razón para tomar el curso de Estadística es que las técnicas estadísticas se utilizan para tomar decisiones que afectan 1 Página web del Banco Central de Venezuela: www.bcv.org.ve 2 Medición de Pobreza Primer trimestre 2002. Instituto Nacional de Estadística
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
11
nuestro común hacer diario, esto quiere decir que afectan nuestro bienestar personal. He aquí algunos ejemplos: Las compañías de seguros utilizan análisis estadísticos para establecer las tarifas de los seguros de casa, automóvil, vida y salud. Existen tablas que resumen la probabilidad de que una mujer de 35 años de edad viva el año siguiente, los siguientes cinco años, etc. Las primas del seguro de vida se pueden establecer basándose en estas probabilidades. Los investigadores médicos estudian las tasas de cura de enfermedades, basándose en el uso de diferentes medicamentos y distintas formas de tratamiento. Por ejemplo, ¿cuál es el efecto de tratar cierto tipo de daño a la rodilla con cirugía o con terapia física? Si se toma una aspirina diaria, ¿se reducirá el riesgo de sufrir un ataque cardiaco? La tercera razón para tomar el curso de Estadística es que el conocimiento de los métodos estadísticos ayuda a entender por qué se toman ciertas decisiones y aportan una mejor comprensión acerca de la manera en la que nos afectan. La razón básica por la cual se realiza este trabajo es recopilar y organizar el contenido referente a la cátedra de Estadística I de la Escuela de Administración y Contaduría, así como incorporar ejercicios con valores y datos del contexto nacional, ya sea de fuentes oficiales o de institutos de investigación social y/o económica que permitan, en caso de su consulta por parte del alumno, una sensibilización hacia nuestra realidad y un marco de referencia de nuestra problemática social y económica. En el primer capítulo mencionaremos "un poco de historia" de la estadística tanto en su desarrollo universal como en lo nacional, destacando la evolución de la estadística en Venezuela desde la época de la colonia hasta nuestros días; recorriendo las tres etapas fundamentales en las que se divide, la primera la preestadística, la segunda
12
OMAR JESÚS ALCALÁ VELASQUE
la protoestadística y por último la estadística. Mencionaremos los pioneros nacionales y extranjeros que influyeron de forma predominante en la estadística como ciencia y como empresa. Enunciaremos en este capítulo, los conceptos básicos de la estadística, con la finalidad de incorporarlos, a modo de vocabulario, en los demás capítulos del trabajo, y que nos permitan entretejer los elementos más complejos, a partir de los básicos. Con el énfasis en el cálculo de razones, proporciones y porcentajes, siendo este último de gran uso en la estadística en general. En el capítulo II, veremos cómo manejar y clasificar los datos estadísticos, llevando a cabo esta labor con el auxilio de las Distribuciones de Frecuencias. Asimismo conoceremos las distintas Gráficas para presentar una información estadística, observando las reglas básicas para hacerlas representativas de la situación concreta que desean reflejar. En el caso de las Distribuciones de Frecuencias, haremos énfasis en los Histogramas y las Ojivas. Para el capítulo III, estudiaremos los pilares de cualquier estudio estadístico, es decir, las medidas descriptivas de una Distribución de Frecuencias, comenzando con las Medidas de Tendencia Central, a continuación las de Variabilidad y por último la de Sesgo y Curtosis; tomando en cuenta que estas medidas enmarcan el resumen del comportamiento de dicha distribución. Hasta este punto habremos trabajado en la parte de la estadística conocida como Estadística Descriptiva. En el capítulo IV, comenzaremos el estudio de las relaciones entre dos variables, a partir del Modelo de Regresión simple y el Análisis de Correlación. Enfocaremos el estudio de regresión por medio del modelo lineal (ecuación de la recta) y el análisis de correlación del tipo lineal. Con este último podremos determinar el grado de interconexión entre las variables. Avanzando en esta misma vía, estudiaremos, en el capítulo V, el modelo en Series Cronológicas o de Tiempo. Este modelo permite determinar el patrón histórico de una
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
13
serie de datos de una variable y por medio de este proyectar al futuro su comportamiento. Culminaremos nuestro trabajo con el estudio de los Números índice. Valores de gran utilidad para el mundo económico y social de un país. Estudiaremos los distintos tipos de índice como son los de cantidad, precio y valor. Enfocaremos el estudio, con mayor profundidad, en el Índice de Precios al Consumidor (IPC), por ser un indicador económico de gran importancia en Venezuela. Por medio de un ejemplo, veremos cómo calcular de forma básica el IPC de los bienes y servicios que, como familia, comúnmente consumimos, para así obtener una aproximación del índice de inflación que tanto afecta nuestra calidad de vida. Cada capítulo tiene una serie de Ejercicios complementarios seleccionados de la bibliografía consultada, así como ejercicios de mi autoría realizados con base en datos nacionales extraídos de diferentes fuentes, en su mayoría gubernamental. Deseamos que este trabajo permita, a sus lectores, adentrarse de forma satisfactoria en el mundo de la estadística y obteniendo las herramientas básicas para entender el contexto que nos envuelve para así saber tomar de él lo que es válido y representativo. Una vez dijo Benjamín Disraeli: "Existen tres tipos de mentiras, las mentiras ordinarias, las grandes mentiras y las mentiras estadísticas"3. El conocimiento que nos brinda la estadística nos permite estar atentos y velar porque los datos que manejamos sean confiables y las decisiones que tomemos, basados en ellos, sean las más acordes.
3 Tomado de Levin & Rubin. Estadística para administradores, Editorial Pearson, p. 5.
CAPÍTULO 1 I. UN POCO DE HISTORIA II. DEFINICIONES BÁSICAS
1. UN POCO DE HISTORIA
UNIVERSAL
En sus orígenes, se puede decir que las antiguas civilizaciones: China, Egipcia, Hebrea, Griega, etc., utilizaron la Estadística, aunque de una manera rudimentaria y asistemática, en los recuentos de población y riquezas. Se puede revisar el Antiguo Testamento (la Biblia), en el libro de los Números, el cual contiene informes sobre levantamientos de censos. Los chinos también efectuaron censos hace más de cuarenta siglos, así como los griegos con fines tributarios, sociales (división de tierras) y militares (cálculo de recursos y hombres disponibles). Pero fueron los romanos quienes emplearon, de manera más efectiva, los recursos de la Estadística. Cada cinco años realizaban un censo de la población y los funcionarios públicos tenían la obligación de anotar los nacimientos, las defunciones y los matrimonios, sin olvidar los recuentos periódicos del ganado y de las riquezas contenidas en las tierras conquistadas. Según la Biblia para el tiempo del nacimiento de Jesús, sucedía uno de estos censos de la población bajo la autoridad del Imperio. En la Edad Media, los gobernantes empezaron llevar un registro de sus propiedades; por ejemplo, en el año 762 de nuestra era, Carlomagno pidió la descripción detallada de las propiedades de la Iglesia. Por el año 1806, Guillermo El Conquistador ordenó que se escribiera el Domesay Book, un registro de la propiedad, extensión y valor de la tierra en Inglaterra. Este trabajo fue el primer resumen es-
18
OMAR JESÚS ALCALÁ VELASQUE
tadístico en Inglaterra'. Los métodos estadísticos permanecieron casi olvidados durante el resto de la Edad Media. Durante los siglos XV al XVII, hombres notables como Leonardo Da Vinci, Nicolás Copérnico, Galileo Galilei y Sir Francis Bacon, hicieron grandes operaciones apegados al método científico, de tal forma que al entrar en la palestra política los llamados Estados Nacionales y surgir como fuerza el comercio internacional, existía ya un método capaz de aplicarse a los datos económicos. Para fines de la década de 1500, durante el brote de peste en Inglaterra, el gobierno comenzó a publicar estadísticas semanales de los decesos. Esa costumbre permaneció por mucho tiempo y para 1632 estos Bills of Mortality (Cuentas de Mortalidad) contenían los nacimientos y fallecimientos por sexo. En 1662, el capitán John Graunt usó estos libros que abarcaban ya treinta años de data registrada y efectuó predicciones sobre el número de personas que morirían de varias enfermedades y sobre las proporciones de nacimientos de hombres y mujeres que cabría esperar. Este trabajo concentrado en su obra Natural and Political Observation... Made upon the Bills of Mortality (Observaciones Políticas y Naturales... Hechas a partir de las Cuentas de Mortalidad), fue un esfuerzo innovador en el análisis estadístico. El primer empleo de los datos estadísticos para fines no políticos data de 1691 y estuvo a cargo de Gaspar Neumann, profesor alemán que vivía en Breslau. Él quería destruir la antigua creencia popular, común en esa época, de que en los años terminados en siete fallecía más gente que en los restantes, y para lograrlo investigó pacientemente los datos en los archivos parroquiales de la cuidad. Luego de revisar miles de partidas de defunción logró determinar que en tales años no fallecía más gente que en los restantes.
1 Levin & Rubin. Estadística para administradores. Editorial Pearson, p. 4.
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
19
El profesor de la Universidad de Gothinga Godofredo Achenwall, fue quien acuñó para el año 1760 la palabra "estadística", que extrajo del término italiano statista2 (estadista), creía que los datos de la nueva ciencia harían de ella una aliada eficaz del gobernante de un país. Para el período de 1800 a 1820, se desarrollaron dos conceptos matemáticos fundamentales para la teoría Estadística, a saber, la teoría de los mínimos cuadrados desarrollada por Laplace, Gauss y Legendre; y la teoría de los errores de observación de Laplace y Gauss. A finales del siglo XIX, Sir Francis Galton ideó el método conocido como Correlación, que tenía por objeto medir la influencia relativa de los factores sobre las variables. De aquí partió el desarrollo del coeficiente de correlación creado por Karl Pearson. A modo de resumen la Estadística se puede agrupar en tres grandes fases: 1.-Los Censos Desde el momento en que se requería conocer la población de un país para regular su acción y conocer las riquezas existentes en su territorio, hasta los actuales para planificar las inversiones que permitan atender a los ciudadanos se hacen necesarios los censos; y estarán en uso quizá por siempre. 2.- De la Descripción de los Conjuntos a la Aritmética de la Política Las ideas mercantilistas se inician con fuerza, a partir de la estadística como herramienta política; esto tiene su origen desde la escuela inglesa que proporciona un nuevo progreso al superar la visión descriptiva de la estadística. 2 Muchos autores asumen que la palabra utilizada por Achentall fue del latín: Status que significa "Estado", para uso de este trabajo es indiferente la referencia etimológica usada ya que nos son válidas ambas.
20
OMAR JESÚS ALCALÁ VELASQUE
3.- Estadística y Cálculo de Probabilidades3 El cálculo de probabilidades se incorpora rápidamente como instrumento de análisis extremadamente poderoso para el estudio de fenómenos económicos y sociales, y en general para el estudio de fenómenos no deterministas. LA ESTADÍSTICA EN VENEZUELA4 Para los años de la Gran Colombia, El Libertador redactó un "Método" a seguir en la educación de su sobrino Fernando Bolívar. En ese programa se destaca una solicitud de Simón Bolívar: "La estadística es un estudio necesario en los tiempos que atravesamos y deseo que la aprenda mi sobrino". Remontando el pasado, para 1580 el Gobernador de Caracas Don Juan de Pimentel, a pedido de la Corona, remitió a España un informe sobre todos los ramos de la administración e incluyó un empadronamiento que dio un total de 2.000 habitantes, que podemos ubicar como el primer censo. Se deben a Pimentel dos aportes de primer orden a la primitiva Estadística venezolana: la creación de los Archivos del Ayuntamiento y de los Registros Eclesiásticos y el se3 Dejamos para un estudio posterior la historia del azar y el cálculo de probabilidad que posee una influencia suprema en la estadística, pero que no va a ser estudiado en este trabajo. 4 Para esta parte hemos tomado como bibliografía principal, el único libro existente que habla de la Historia de la Estadística en Venezuela. Estadística en la Historia de Venezuela. Manuel Alfredo Rodríguez. Ediciones Ministerio de Fomento 1973. Publicación que se realizó con motivo de cumplirse los 100 años de la creación de la Dirección General de Estadística por parte del Presidente Antonio Guzmán Blanco el 9 de enero de 1871. Cabe destacar la poca investigación que se ha realizado en este aspecto en la bibliografía venezolana. 5 Estadística en la Historia de Venezuela Manuel Alfredo Rodríguez. Ediciones Ministerio de Fomento 1973, p. 11.
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
21
gundo censo de 1693, mientras reina en España Carlos II El Hechizado. El 23 de diciembre de ese año toma posesión del gobierno de Venezuela el Maestre de Campo, don Francisco de Berroterán. Para la fecha Caracas tenía 6.000 habitantes, en posesión de estos datos Berroterán emprendió una obra que se concretó en la edificación de las Casas Reales, la nueva cárcel, el Cuartel de Santa Ana, el Polvorín y las fortificaciones de Caracas. El 31 de agosto de 1730 atracaron en La Guaira las fragatas "San Joaquín" y "San Ignacio" y la galera "Guipúzcoa", que traían, en calidad de pasajero, a Pedro José Olavarriaga, Director General de la recién creada Compañía Guipuzcoana, y al Coronel de Infantería Sebastián García de la Torre, nuevo Gobernador y Capitán General de la Provincia de Venezuela. Según el historiador Mario Briceño Perozo, se trata de uno de los emprendedores más osados que haya pisado tierras de América. Según comenta Manuel Alfredo Rodríguez, "entre los títulos que pueden otorgársele con justicia están los de introductor en Venezuela de la estadística económica y benefactor de Puerto Cabello y San Felipe"6. Olavarriaga, acompañado por Pedro Martín Beato, trae amplios poderes del virrey Villalona para reprimir el comercio ilegal que se presentaba en la provincia de Venezuela y en contra de don Diego de Matos Montañés y Machado, Superintendente y Juez de Comisos y del gobernador Marcos Francisco de Betancourt y Castro. Olavarriaga y Beato sustanciaron el expediente el cual dio como veredicto la absolución de Matos en casi todos los cargos y la aplicación de sanciones a parientes de este por actos de contrabando o exceso de autoridad. Como consecuencia, se establece una guerra entre el Gobernador y los representantes del Virrey que trae la separación del cargo del Gobernador Marcos y su prisión. Asume el cargo el Capitán don Diego de Portales y Meneses quien arremete contra Olavarriaga y Bea6 Ídem, p. 38.
22
OMAR JESÚS ALCALÁ VELASQUE
to, y los pone presos. En estos acontecimientos de enfrentamientos, Olavarriaga redacta su famosa "Instrucción General de la Provincia de Venezuela", fundamento estadístico y especie de programa para la acción de la futura Compañía Guipuzcoana. Citando el libro de Manuel Rodrigues, Baralt admite que "dio a sus paisanos las más exactas noticias que hasta entonces tuvieron de las riquezas y situación del suelo, inspirándoles el deseo de ocuparse del comercio por medio de una compañía regular y privilegiada"7 El historiador Arístides Rojas atribuye al obispo Mariano Martí el mérito de haber contribuido de forma brillante, a la obra estadística, iniciada por el obispo Diego Antonio Díez Madroñero. El 14 de agosto de 1770, este ilustre prelado, obispo Martí, toma posesión de la diócesis de Caracas y Venezuela. El 8 de diciembre comienza su amplia carrera y labor estadística que culmina en Guarenas el 30 de mayo de 1784. Se considera, sin duda, la mejor fuente de información estadística sobre las fuerzas vivas de La Colonia para la época que se hizo el registro. Monseñor Martí visitó 350 cuidades, villas y sitios, y en todos levantó el censo, registró las fechas de su fundación y recolectó noticias de gran importancia. El censo de Caracas, levantado por el Obispo en 1772, arrojó como resultado 18.669 habitantes y el de La Guaira 3.643; para ese momento contaba Caracas con 78 sacerdotes y 2.809 casas. Las cifras parroquiales daban cuenta de 6.055 habitantes en Catedral, 6.509 en San Pablo, otros 3.128 en Altagracia y 2.287 en la Candelaria. Para 1784 quedó registrado que la parte de Venezuela visitada por el prelado contaba con 333.532 habitantes que formaban 55.561 familias y se alojaban en 49.980 casas; en lo civil ,visitó 19 cuidades, 9 villas y 189 pueblos, y en lo eclesiástico 228 iglesias, 16 hospicios y 188 cofradías.8
7 Ídem, p. 51. 8 Mem, p. 64.
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
23
El obispo Martí murió en Caracas, el 20 de febrero de 1792. El trabajo censal del obispo Martí enmarca el momento más brillante de la Estadística demográfica en los años de La Conquista y Colonización de Venezuela. Para Miguel Tejera con el obispo Martí inicia la Estadística en Venezuela y sus trabajos poseen el mérito de haberse hecho de forma tan metódica que difícilmente podrían rechazarse sus apreciaciones en lo que corresponde a la parte de Venezuela que visitó. Para la segunda mitad del siglo XVIII, se evidencia una inexistencia de estadísticas oficiales propiamente dichas en Venezuela. Se encuentran algunos registros que no son confiables por el método usado para su cómputo así como por lo dispar de las cifras que se tienen a través de distintas fuentes. Para inicios de los ochocientos, el científico Alejandro de Humboldt y el agente francés, Francisco Depons, formulan unas hipótesis, en materia demográfica, de gran relevancia. Depons fue el primero en publicar su obra sobre Venezuela titulada Viaje a la Parte Oriental de Tierra Firme en América Meridional (1806) Este viajero permaneció en Venezuela desde el 8 de marzo de 1801 hasta el 3 de junio de 1804. Los cálculos de la población de Venezuela hechos por Depons dan como resultado 728.000 habitantes, de los cuales asignó 500.000 a la Provincia de Caracas incluyendo Barinas; 100.000 a Maracaibo; 80.000 a Cumana; 34.000 a la Guayana y 14.000 a la Isla de Margarita. En cuanto a la etnias, estimó en dos décimas partes de blancos, tres de esclavos, cuatro de mantuanos y el resto de indios, y fijó el número de esclavos en 218.400. Depons hizo una crítica bien fundamentada a la Estadística y los censos locales: No he logrado ni aun a fuerza de múltiples indagaciones, el cuadro exacto de la población de las provincias independientes de la Capitanía General de Caracas. El censo del país no existe en los archivos del Gobierno y los de la Intendencia carecen también de este documento que, en todas las naciones es la base de una administración ilustrada9. 9 Ídem, p. 93.
24
OMAR JESÚS ALCALÁ VELASQUE
Al tratar de indagar en los archivos del episcopado logró encontrar alguna información en los censos eclesiásticos que no era fidedigna ya que era costumbre, en la época, el negocio de la venta de las cartelas de confesión, esto es, la práctica de algunas almas piadosas, o viejas —como las califica Manuel Rodríguez— que se confesaban muchas veces y vendían los certificados a quienes no lo hacían, estos traficantes del sacramento aumentaban su valor monetario a medida que se acercaba la visita pastoral para recoger los certificados, base para el censo eclesial. El Barón Alejandro de Humboldt arriba a Venezuela el 16 de julio de 1799, iniciando un recorrido por la geografía venezolana que culminó el 24 de noviembre de 1800. Se plantea, como problema, la estadística demográfica de nuestro país. A partir de 1805 comienza a editar su gran obra Viaje a la Regiones Equinocciales del Nuevo Continente (1799 a 1804). Humboldt calcula la población de la Capitanía General en 785.000 habitantes para 1800 y en 800.000 para 1810. Para 1800 asignó 370.000 habitantes a la Provincia de Caracas, 110.000 a la de Cumaná y Barcelona, 140.000 a la de Maracaibo, 32.000 a la de Coro, 75.000 a la de Barinas, 40.000 a la de Guayana y 18.000 a la isla de Margarita. Este período de tiempo de la Historia de Venezuelam suele llamarse la etapa preestadístican. En ella, por lo general, los datos son dispersos, fragmentados y muy discontinuos en el tiempo y en el espacio; además no fueron recopilados o recolectados con el fin fundamental de hacer estadística, salvo algún caso aislado, no fueron reelaborados y, de ninguna manera, analizados críticamente. Pero los datos existen y son susceptibles de ser utilizados para la estadística histórica y como fuente de información de un tiempo de la vida de nuestra Patria. 10 Aproximadamente de la tercera década del siglo XVI a finales del siglo XVIII 11 Diccionario de Historia de Venezuela. Fundación Polar. Caracas 1997. p, 275
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
25
La historiografía señala el inicio de la segunda etapa llamada protoestadística a comienzos del siglo XIX. Su inicio está asociado al médico José Domingo Díaz, el primer venezolano que escribe libro de estadística el cual se publicó en el Semanario de Caracas (1810). Este médico fue un defensor de la causa realista; egresado de la Real y Pontificia Universidad de Caracas, entre sus principales aportes está el iniciar la compilación de la bibliografía científica venezolana; fue, además, principal propagador de la vacuna antivariólica. En el libro de Manuel Rodríguez el historiador Ricardo Archila señala: su sentido estadístico, el cual solía aplicar con mucha frecuencia y amplitud de usos. Por ejemplo en el caso concreto se valió de cuadros estadísticos muy llamativos, por cuanto su lineamiento es el mismo que se utiliza en la actualidad para demostrar el índice de mortalidad en los hospitales. Hasta calculó, con fines de economía, el valor de las hospitalidades. Curioso detalle y por eso nos hacemos eco de la cifras: en el año 1809 el valor de una fue 7 reales y 6 maravedís y en el período de 1815 a 1817, de 6 reales, 3 marevedís y mediou. Su publicación se hizo en el Semanario de Caracas, un periódico aparecido en la capital después del hecho del 19 de abril; circulaba los domingos y desde el 4 de noviembre de 1810 hasta el 21 de julio de 1811 circularon treinta ediciones. Para José Domingo Díaz, el objetivo de su trabajo estadístico en el periódico era vincular la ejecución de los censos poblacionales a la mejora de la calidad de vida y el aumento del bienestar económico de los habitantes. Su trabajo se inicio con la lista de la cuidades, villas y pueblos de la Provincia de Caracas, Vicarías y Parroquias de su Obispado y Ayuntamientos y Tenientazgos de la jurisdicción civil. En relación a las cifras eclesiales la Provincia tenía un Obispo, 15 prebendados, 339 eclesiásticos seculares, más los colegiales a su cargo, 154 eclesiásticos regulares o de clausura, 180 12 Ídem. p, 106
26
OMAR JESÚS ALCALÁ VELASQUE
pilas bautismales, 236 iglesias públicas, 17 conventos, 19 hospitales, 3 colegios y una universidad, a más de 317 locos. En las entregas del semanario, Díaz fue desglosando la vida económica de la Provincia, por ejemplo a partir del número III, dio cabida a las cifras comparativas de las rentas de la real Hacienda, Tabaco y Diezmos; también tocó el tema de la agricultura con el estudio del cacao y el café; así como la universidad. En 1816 publica un libro donde usa la estadística como un arma política. Dicha publicación se enmarcaba en un estudio comparativo del estado de la población en la Provincia de Caracas, entre 1810 y 1816, y alude a cifras atribuidas en 1810 a 80 localidades con las de otra lista de 78 poblaciones a las cuales asignó sus cálculos de población dando como resultado 221.741 víctimas en territorio de la Provincia, y responsabiliza exclusivamente a los patriotas. El escrito se titula A los Autores y Agentes del 19 de Abril y no está exento de polémica. El 11 de junio de 1810, Su Alteza la Suprema Junta Gubernativa de las Provincias de Venezuela expidió una Convocatoria a elecciones de Diputados y Reglamento de las misma. Fue el primer censo con fines electorales levantado en Venezuela. La exposición y las normas fueron suscritas por el presidente José de las Llamozas, el vicepresidente Martín Tovar Ponce y el secretario de Estado Juan Germán Roscio. El censo de 1811 dio a Venezuela una población de un millón de habitantes. Esta cifra se considera un tanto exagerada; en el congreso no hubo una aceptación unánime de ella y creó una polémica y un debate sobre el cálculo. La Estadística se usó como arma política por las fracciones en disputa dentro del Congreso. En los años subsiguientes, durante la Guerra de Independencia, la estadística se utilizó por parte de los realistas y los patriotas como arma de ataque que justificaba la acción emprendida por cada parte en conflicto.
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
29
Estalla en Venezuela para 1858 la Guerra Federal, que trastocaría la vida político-institucional de país. Al triunfo de la Federación (1863) fue necesario recomenzar de nuevo. El Presidente Gral. Juan Crisóstomo Falcón, el 25 de julio de ese año, emana un decreto que organiza el gabinete y crea el Ministerio de Fomento a cargo del Sr. Guillermo Iribarren. En la primera memoria, el ministro menciona algunas consideraciones sobre la utilidad de la Estadística, manda a editar, para distribuir gratuitamente, unos 20.000 ejemplares de la obra Elementos de la Ciencia Estadística por Sampaio, traducida al español por Vicente Días Canseco. En 1864, el Sr. Mariano de Briceño, escribió en la memoria de Hacienda que es imposible que una Nación pueda dar pasos acertados en el camino del progreso sino lleva como guía la luz de la estadística. Ella es la que recoge, clasifica y aprecia los hechos del movimiento social de los cuales se deriva el conocimiento exacto de la acción que en el futuro se ha de emplear para utilizar prontamente la experiencia16. Para 1865, el Congreso aprobó una Ley que mandaba ejecutar el Censo de Población y fue promulgada por el Gral. Antonio Guzmán Blanco en su carácter de Vicepresidente encargado de la Presidencia. Para 1870 Guzmán Blanco toma el poder por la fuerza y se mantiene en el gobierno hasta 1877, período conocido en la historia de Venezuela, como el "Septenio". El 9 de enero de 1871, decreta la creación de la Dirección General de Estadística anexa al Ministerio de Fomento. Dicha Dirección tenía por sede Caracas y se encargaría de centralizar la actividad estadística. La creación de la Dirección General de Estadística, por parte del General Guzmán Blanco, inaugura en Venezuela la tercera eta16 ídem, p. 161.
30
OMAR JESÚS ALCALÁ VELASQUE
pa, llamada Etapa Estadística. En la cual los datos recolectados se utilizarán en la planificación de políticas públicas, infraestructura, salud, educación, etc. Declara Guzmán Blanco que el censo de la población y la estadística nacional es de competencia del Ejecutivo Federal, y reconoce que Venezuela... "carece de los datos y nociones más indispensables acerca de sus elementos de vida física, moral política e industrial. Ignorándose el censo siquiera aproximado de su población"17 . Se le confío la guía de la Dirección al Gral. Andrés Aurelio Level, marino de guerra nacido en Cumaná e hijo de Andrés Eusebio Level, estadístico y escritor. A su cargo estuvo la realización de los censos de 1874 y 1881, la publicación del Anuario Estadístico de Venezuela y de los Apuntes Estadísticos de los Estados, los Territorios y el Distrito Federal. En 1876, publicó un libro titulado Las revoluciones en Venezuela a la luz de la Estadística. Para 1879, cuando triunfa la Revolución Reivindicadora, Guzmán Blanco, en decreto de fecha 8 de marzo, aprueba un plan para reorganizar la Estadística Nacional. Al presentar su memoria y cuenta, ante el Congreso de 1873, dice Guzmán Blanco: "También organicé, desde el principio de la Dictadura una oficina de estadística, cuyos trabajos veréis en tomo separado, creyendo que los estimaréis como los estimo yo. Sin estadística la ciencia administrativa está condenada al empirismo"18 . Está claro que el caudillo vislumbró, como nadie en su época, la importancia de la Estadística como factor de desarrollo y brindó a Venezuela una actividad continua y planificada en un rubro de gran importancia. Se puede afirmar que con Guzmán Blanco nació la Estadística Nacional. Los censos, bajo la Dirección General de Estadística en Venezuela, comenzaron el 3 de junio de 1873 cuando Guzmán Blanco 17 Diccionario de Historia de Venezuela. Fundación Polar. Caracas 1997, p. 279. 18 Ídem, p. 177. Las cursivas son nuestras.
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
31
decreta su levantamiento, dándose inicio al Primer Censo Nacional de Población. El cual arrojó como resultado 1.784.194 habitantes. El segundo censo, y último de la era guzmancista, fue decretado el día 1 de febrero de 1881; según sus resultados la- población de Venezuela era de 2.075.245 habitantes distribuidos en ocho grandes estados. Esta cantidad suponía un aumento de 291.051 personas sobre la cifra de 1874. Para este trabajo se destaca la habilidad de Level quien, con base en la información recopilada, calcula que para el Segundo Centenario del Libertador (1983) la población de Venezuela será "cuando menos" de 18.732.509 habitantes19. Para los años 1880 en adelante, destacaron por su afición y dedicación al hecho estadístico personajes como: Miguel Tejera, Gral. Manuel Landaeta y Telasco Macpherson. El primero, fue Ministro de Obras Públicas en 1880 y 1886, en 1875 publicó en París Venezuela Pintoresca e Ilustrada, una relación histórica, geográfica, estadística, comercial e industrial del país desde el descubrimiento hasta 1870.20 El General Landaeta publicó, en 1889, por disposición del presidente en ejercicio Juan Pablo Rojas Paúl, Gran Recopilación Geográfica, Estadística e Histórica de Venezuela21. Por su parte, Telasco escribió el Diccionario Histórico-Estadístico-Geográfico y Bibliográfico del estado Lara (1883), además fue miembro de número de la Academia Nacional de la Historia. El tercer censo nacional (último del siglo XIX) fue decretado por el presidente Raimundo Andueza Palacios, el 26 de agosto de 1886. Dio como resultado nacional 2.323.527 habitantes con un au19 Para el censo llevado a cabo en 1990, el número de habitantes de Venezuela se contabilizó en 18.105.265. Lo cual muestra la habilidad del Gral. Level y la importancia de los cálculos que realizó. 20 Estadística en la Historia de Venezuela Manuel Alfredo Rodríguez. Ediciones Ministerio de Fomento 1973, p. 196 21 ídem, p. 196.
32
OMAR JESÚS ALCALÁ VELASQUE
mento de 248.282 personas sobre la cifra de 1881. A partir de 1891, sobreviene un largo período de inactividad censal que habría de prolongarse hasta 1920. Para 1903, el ministro Arnaldo Morales consignó en la Memoria de su despacho estas palabras: 'Alterada la paz pública no ha podido continuarse la organización de la Estadística Nacional, tan útil en todos los sentidos puesto que es uno de los más certeros medios para conocer el verdadero estado material y moral del País"22. Al país le tocó pasar, en esos años, por varias revueltas que fueron en desmedro del estudio estadístico. El 20 de febrero de 1904, el Ministro de Fomento general Diego Bautista Ferrer reinstaló la Sección de Estadística y el 14 de mayo le confirió el rango de Dirección General de Estadística e Inmigración, por decreto de 11 de noviembre de 1904. El entonces Presidente Provisional de Venezuela, general Cipriano Castro, dispuso el funcionamiento de una Dirección General de Estadística plenamente autónoma y anexa al Ministerio de Fomento. Como un gran éxito puede catalogarse la selección de Pedro Manuel Ruiz como Director de la renovada Dirección General. En el prólogo de su libro Demografía Nacional definió la Estadística como un 'medio de conocimiento' que si no se analizan los elementos útiles, si no se los presenta sistemáticamente y en su totalidad, si en la presentación no vive la luz del arte especial a cada género de estudio y si en este arte no hay vuelo sin divagaciones caprichosas, el empirismo hace inútil la Estadística para sus fines esenciales"23. Para 1904 se comenzó a publicar periódicamente el Boletín de Estadística y se preparaban dos trabajos de suma importancia sobre Población de Venezuela según el Censo Último (1891) de acuerdo con la división Política de 1904 y Trabajo sobre las Pesas y Medidas. Además restableció la publicación de los Anuarios Estadísticos. 22 Ídem, p. 203. 23 ídem, p. 206.
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
33
En 1912, Ruiz influye en la redacción de la primera Ley formal de Estadística promulgada por el Presidente Gómez y en 1913 elabora un Informe de Estadística Venezolana. Podemos mencionar que a su salida de la administración pública edita un libro personal, que se convierte en una referencia obligada para cualquier conocedor de la Ciencia Estadística, su título La Guerra, que constituye un verdadero alarde de conocimientos estadísticos a nivel mundial. Compuesto por una introducción Histórico-Política, los nueve capítulos restantes ofrecen una completa descripción estadística de los países en conflicto al detallar: población, estado económico, la eventual poda de la guerra, los ejércitos efectivos y su organización, las flotas, las influencias del conflicto en la economía Americana y también la superficie, población y el comercio de los países beligerantes. En el curso de los años siguientes el trabajo estadístico fue elevado al nivel prioritario por los gobiernos en cuanto a lo que representa la información estadística en los distintos ámbitos del quehacer nacional. En el año económico 1925-1926 la exportación petrolera tuvo un valor neto de Bs. 191.837.496, mientras que la cantidad correspondiente al café fue de Bs. 115.120.251. Había comenzado la era del petróleo en Venezuela y los censos llevados a cabo posteriormente ilustran los cambios generados por su influjo. Veamos brevemente el devenir de los censos hechos luego de la entrada en escena del petróleo como rubro principal de exportación en Venezuela. El Cuarto Censo fue levantado el 1 de enero de 1920 y concedió a Venezuela aproximadamente 2.411.952 habitantes. El Quinto Censo de 1926 se llevó a cabo durante los días 31 de enero y 1, 2 y 3 de febrero con el resultado de 3.026.878 habitantes. El Sexto Censo Nacional de Población tuvo lugar el 26 de diciembre de 1936 y según sus resultados la población venezolana era de 3.491.159 habitantes. En los cuadros siguientes presentamos, en primer lugar, un resumen de los resultados, aproximados, de los censos llevados a cabo
34
OMAR JESÚS ALCALÁ VELASQUE
en Venezuela, desde 1883 hasta el último en 2001.24 Y en segundo lugar, la cantidad por género. Tasa de crecimiento de la población en Venezuela 1873 - 2001 Crecimiento Ce o
Población
Densidad 1/ (Hab / Km2) Absoluto
1873 (7 Nov.)
1.732.411
1,9
1881 (27 Abr.)
2.005.139
2,2
1891(15 Ene.)
2.221.572
1920 (1 Ene.)
-
-
272.728
15,7
2,0
2,5
216.433
10,8
1,1
2.479.525
2,8
257.953
11,6
0,4
1926 (31 Ene.)
2.814.131
3,1
334.606
13,5
2,1
1936 (26 Dic.)
3.364.347
3,7
550.216
19,6
1,7
1941 (7 Dic.)
3.850.771
4,3
486.424
14,5
2,8
1950 (26 Nov.)
5.034.838
5,6
1.184.067
30,7
3,0
1961 (26 Feb.)
7.523.999
8,4
2.489.161
49,4
4,0
1971 (2 Nov.)
10.721.522
11,9
3.197.523
42,5
3,4
1981 (20 Oct.)
14.516.735
16,2
3.795.213
35,4
3,1
1990 (21 Oct.)
18.105.265
20,1
3.588.530
24,7
2,5
2001 (30 Oct.)
23.232.553
25,7
5.127.288
28,3
2,3
1/ : Nota : Fuentes
-
Tasa Anual Relativo Geométrica (%)
La superficie del país es de 916.445 Km2. Para el cálculo de la densidad no se incluyen 13.245 Km2 correspondiente a los Lagos de Valencia y Maracaibo El 2001 incluye los resultados del Censo General y del Censo de Comunidades Indígenas, realizados simultáneamente. Instituto Nacional de Estadísticas, I.N.E - Censo 2001
24 http://iies.faces.ula.ve/Censo2001/censo01.htm. Universidad de Los Andes. Instituto de Investigaciones Económicas y Sociales. (online Noviembre 2006).
35
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
Resultados de los Censos Poblacionales25
-
TOTAL 1.525.362 2.075.245 2.290.228 2.362.905 2.890.720 3.364.347 3.850.771 5.034.838 7.523.999 10.721.522 14.516 735 18.105.265
ANO 1873 1881 18 1 1920 1926 1936 1941 1950 1961 1971 1981 1990
Censos de
MASCULINO 743.016 1.005,510 1.1 9.843 1.134.259 1.414.590 1,652.130 1.908.545 2..552.491 3.821,722 5.357.157 7.259 9.019157
NINO 782,346 1.009.727 1 170.385 1.220.726 1.476.130 1.712.217 1.942.226 2.482.347 3,702 .277 5.364.365 7.256.923 9.085 508
Población -Venezuela (1873-2001)
25.000.CM 22.202.1Z 21>X1.1X. 17.500.9:: 15.000.X: 12.500.CW 10.013.000
5.000.00.0 2.000.000
•11
Malliallia ■ 573
158:
'181t.
IS2e
25 http://mipagina.cantv.net/jbhuerta/censos.htm. (online Noviembre 2006) José B. Huerta P. Consultoría y Desarrollo Gerencial. La diferencia que puede el lector observar entre los cuadros se debe a la aproximación que hace el ente encargado cuando publica los resultados de un censo y a la difícil tarea que representa para los investigadores disponer de la data real de los censos realizados entre finales del siglo XIX y principios del siglo XX.)
36
OMAR JESÚS ALCALÁ VELASQUE
La realización de censos oficiales en Venezuela se inició en 1873, obedeciendo a la Ley del 9 de enero de 1871, en la que se creaba la Dirección General de Estadística y Censos Nacionales, adscrita al Ministerio de Fomento. A partir de 1873, se celebraron censos en 1881, 1891, 1920 y 1926. En líneas generales, estos censos han sido los que han obtenido resultados que han generado la mayor cantidad de anormalidades y de inconsistencias. En el tiempo que media entre el primero 1873 y el último 1926 el país atraviesa por situaciones sociales y políticas que alteran los resultados. Por tales circunstancias, es sumamente difícil establecer parámetros de confiabilidad y de aceptación de los datos. No obstante, es a partir de 1936 que los Censos en Venezuela comienzan a evolucionar de tal forma que pueden ser catalogados como censos modernos, por la amplitud en su radio de acción y utilidad. Aun cuando debe hacerse notar que este se dio en un momento histórico de transición en Venezuela y se presentaron muchas dificultades en su realización, sin embargo fue un entrenamiento para evitar errores en los siguientes censos. El censo de 1941 (VII censo nacional de Población) fue el primer censo que cubrió, además de los temas de población, los de vivienda; a partir de entonces de les han denominado "Censos Generales de Población y Vivienda", este puede considerarse como el cierre de un ciclo de transición censal hacia los censos modernos. Desde 1944 que se promulga la Ley de Estadística y Censos Nacionales que establecía el levantamiento de censos de población y vivienda cada 10 años a partir de 195026. Los subsiguientes censos han permitido conocer de manera más confiable, por el tipo de metodología, confiabilidad, alcance y apoyo tecnológico el estimado del total de la población Venezolana. En términos generales, desde su creación en 1871 y hasta el 1 de enero de 1978, la conducción de los asuntos estadísticos correspondió 26 Instituto Nacional de Estadística (INE) XIII Censo de Población y Vivienda 2001.
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
37
al Ministerio de Fomento, por intermedio de la Dirección General de Estadísticas y Censos Nacionales. A partir de esa fecha entró en funcionamiento la Oficina Central de Estadística e Informática (OCEI) creada el 21 de diciembre de 1977, como órgano auxiliar del Presidente de la República y del Consejo de Ministros. En 1991, se inició un proceso mediante el cual se buscaba la consolidación de la OCEI como organismo productor y difusor de la información estadística requerida por el país. La reestructuración puesta en marcha produjo una modernización general del aparato de recolección, procesamiento y divulgación de la información estadística en Venezuela. No sólo se logró una mejor calidad de los datos sino una capacidad verdaderamente novedosa para su difusión. La apertura de los servicios de correo electrónico, de página web, conjuntamente con el desarrollo de productos electrónicos, como los discos compactos, diversificaron las vías de la divulgación estadística y potenciaron la capacidad informativa que, desde 1969, se había concentrado en el Centro de Documentación. El dato estadístico se convirtió así, en un elemento cada vez más disponible para el investigador, el planificador y el encargado de tomar decisiones, en general. El dominio de la estadística como basamento de la toma de decisiones, tanto de los entes gubernamentales como de los diversos componentes de la sociedad civil, condujo a una revolución en la demanda de datos de la sociedad venezolana. La estadística devino en un instrumento imprescindible para el análisis y planificación; ello significó la aceptación progresiva de la OCEI como institución rectora de un sistema estadístico en desarrollo. Pero mientras este cambio se producía, las bases legales que sustentaban la función estadística permanecieron invariables. El atraso que supuso mantener en vigencia una ley desde 1994 devino en el estudio de una nueva legislación que pusiera a tono con los nuevos tiempos y tecnologías el que hacer de la estadística y su
OMAR JESÚS ALCALÁ VELASQUE
38
análisis en Venezuela. En 1997, y dentro del proceso de reestructuración que se había puesto en marcha con el apoyo del Programa de las Naciones Unidas para el Desarrollo, se inició la elaboración de una nueva Ley de Estadísticas y Censos Nacionales. El proyecto formulado apuntó hacia el establecimiento de una legislación congruente con las nuevas concepciones de la información estadística y la revolución tecnológica experimentada en el mundo del procesamiento y la difusión estadística. El proyecto fue enviado a la Asamblea Nacional en 1999, y en mayo de 2001, en el marco de la Ley Habilitante, fue finalmente aprobada la Ley de la Función Pública Estadística. Con esta nueva ley se define y regula la función estadística en general y las relaciones del Estado con el sector privado en el desempeño de esa función, tomando en cuenta los grandes cambios experimentados en la sociedad desde 1944. Con esta ley se crea el Instituto Nacional de Estadística (INE), encargado, en la actualidad, de todo lo relacionado con la estadística en la República Bolivariana de Venezuela. Puede consultarse su página en Internet en la dirección: www.ine.gov.ve A modo de cierre, la Estadística en la Historia de Venezuela puede separarse en tres etapas: 1. Preestadística Comprende el parte del siglo XVI y concluye a fines del siglo XVIII. Llamada así dado que los datos recolectados son dispersos, incompletos, muy variables en su ejecución en el tiempo, llevados de forma no científica, pero sí sistemática. Además, no fueron realizados con un propósito de estudios completo y profundo que derivara en una planificación emanada del gobierno para verificar el estado del país o, en este tiempo, de la Provincia de Venezuela. Los datos se encuentran recopilados en la Relaciones Geográficas, las Matrículas Parroquiales y la Cuentas de la Real Hacienda.
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
39
2. Protoestadística Inicia a comienzos del siglo XIX hasta aproximadamente 1870. Se caracteriza por un mayor formalismo en la recolección de datos y un uso formal de los resultados emanados para planificar algunas acciones que todavía son aisladas y no representan un gran impacto en la sociedad. Destaca la labor realizada por el médico venezolano José Domingo Díaz, primer venezolano en escribir un libro sobre Estadística. Las ediciones del Correo del Orinoco dan cuenta de otra labor encomiable para la Estadística en Venezuela. 3. Estadística Inicia en 1871 con la creación, por parte del Gral. Guzmán Blanco, de la Dirección General de Estadística, ente adscrito al Ejecutivo, por lo cual, a partir de allí, se inicia en Venezuela un trabajo estadístico centralizado en una oficina gubernamental, con políticas claras de ejecución de censos y manejo de la información, así como la publicación frecuente de los resultados. II. DEFINICIONES BÁSICAS ¿QUÉ ES LA ESTADÍSTICA?
La Estadística es la ciencia 27 que tiene por objeto el estudio de los fenómenos aleatorios. La misma está ligada con los métodos científicos en la recolección, recopilación, organización, presentación y análisis de datos; obtenidos de una población o de una muestra 27 Tomado de Lind, Marchal y Wathen. Estadística Aplicada a los Negocios y la Economía. McGraw Hill. Cabe destacar que estos autores, de todos los que se consultaron para este trabajo, son los únicos que dan una definición rigurosa de la Estadística en cuanto ciencia.
40
OMAR JESÚS ALCALÁ VELASQUE
tomada de dicha población, y que sirve en la elaboración de modelos teóricos que tratan de explicar la realidad28. CLASIFICACIÓN
Los administradores aplican alguna técnica estadística en su desempeño laboral en instituciones tanto privadas como oficiales o públicas. Estas técnicas son tan amplias y diversas que los estadísticos, por lo general, las dividen en dos categorías o ramas: 1)Estadística Descriptiva: Rama que se encarga de describir, analizar y representar un grupo de datos utilizando métodos numéricos y gráficos que resumen y presentan la información contenida en ellos29. No pretende ir más allá del conjunto de datos investigados. 2) Estadística Inferencial: Parte de la Estadística que, apoyándose en el cálculo de probabilidades y a partir de datos muestrales, efectúa estimaciones, decisiones, predicciones y otras generalizaciones sobre un conjunto mayor de datos. ELEMENTOS QUE CARACTERIZAN A LOS PROBLEMAS ESTADÍSTICOS
1) La población de interés y el procedimiento científico que se empleó para tomar la muestra de la población. 28 Autores como Kazmier o Spiegel definen la Estadística como un conjunto de técnicas o como el estudio de los métodos científicos que emplean la recolección, organización análisis e interpretación de datos. Ver Kazmier. Estadística Aplicada a la Administración y la Economía Serie Schaum. Spiegel. Estadística. Serie Schaum. 29 Ver Estadística. Metodología y Aplicaciones. David Salama Editorial Principios.
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
41
2) La muestra y el análisis matemático de su información. 3) Las inferencias estadísticas que resultan del análisis de la muestra. 4) La probabilidad de que las inferencias sean correctas. CONCEPTOS BÁSICOS 1. Datos: son los hechos, medidas o números que han sido recopilados como resultados de observaciones; se deben reunir, analizar y resumir para su presentación e interpretación. Pueden ser cuantitativos (siempre numéricos) o cualitativos (que pueden ser numéricos o no, ya que son etiquetas o nombres asignados a un atributo de cada elemento). Por ejemplo: el sexo de una persona es masculino o femenino, pero podría ser codificado con 1 o 2 y en este caso, los números sólo servirían para indicar la categoría y no tendrían significación numérica. 2. Toma de datos: es la recopilación de una serie de datos que no han sido ordenados numéricamente. Ejemplo: el conjunto de estaturas de 100 estudiantes, sacados de una lista alfabética de una universidad. 3. Individuos o elementos: seres u objetos que contienen cierta información que se desea estudiar. 4. Población (N): es el conjunto de todas las observaciones o de los elementos de interés, en un determinado estudio, que poseen, al menos, una propiedad común. Este conjunto puede ser un número finito de datos o una colección grande (virtualmente infinita) de datos. Por ejemplo, se puede considerar como una población finita el número de estudiantes de un período académico en la Universidad X, mientras que el conjunto de todos los resultados posibles al lanzar una moneda de forma sucesiva constituye una población infinita.
OMAR JESÚS ALCALÁ VELASQUE
42
5. Parámetro: es cualquier medida descriptiva de una población, por ejemplo, la media poblacional o la proporción poblacional. 6. Muestra (n): es un subconjunto de la población, sin embargo, nos interesa que ese subconjunto seleccionado de la población sea representativo, esto significa que debe contener las características relevantes de la población en la misma proporción en que están incluidas en dicha población. Las muestras pueden ser probabilísticas (aleatoria simple, estratificadas, por conglomerados, etc.) o no probabilísticas (por juicio, por cuota, etc.). 7. Estadístico: es cualquier medida descriptiva de una muestra y se usa como base para estimar el parámetro correspondiente de la población. Por ejemplo, la media muestral o la proporción muestral. 8. Caracteres: son propiedades, rasgos o cualidades de los elementos de la población. Estos caracteres pueden dividirse en cualitativos y cuantitativos. Tradicionalmente, a los caracteres cualitativos se les ha llamado atributos y a sus distintas formas de presentación modalidades, mientras que los cuantitativos han recibido el nombre de variables y los posibles resultados de sus observaciones valores. A menos que se especifique lo contrario, se utilizará la expresión de variable como nombre genérico para la descripción de cualquier tipo de carácter. 9. Variable: es un carácter de la muestra o de la población que se observa. Se dividen según: I. Cualitativas Tipo II. Cuantitativas I. Cualitativa: la característica de estudio es no numérica; por ejemplo: la preferencia religiosa, el sexo, el color del cabello, el estado civil, etc. A su vez se clasifican en:
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
43
• Nominal: los valores del atributo no poseen un orden de jerarquía, por ejemplo: el color de ojos. Las categorías que se derivan en el uso de esta variable deben ser mutuamente excluyentes, es decir, la propiedad de un grupo de categorías determina que un dato se incluya en sólo una categoría; y además debe ser exhaustiva, el dato debe aparecer en, al menos, una categoría3°. • Ordinal: los atributos poseen un orden de jerarquía, por ejemplo: evaluación cualitativa del desempeño de un obrero: (1) Deficiente, (2) Regular, (3) Bueno, (4) Excelente II. Cuantitativa: es aquella que asume valores numéricos acompañados de una unidad de medida; por ejemplo: calificaciones de un examen. A su vez se clasifican en: • Continua: es aquella que puede tomar cualquier valor dentro de un intervalo, por lo general los valores de una variable continua proceden de mediciones. Ejemplos: la estatura, el tiempo en realizar una transacción bancaria, la presión de aire en un caucho, etc. • Discreta: es aquella que sólo puede tomar determinados valores en un intervalo, por lo general son números enteros, y suelen ser el resultado de un conteo. Ejemplo: el número de hijos de una familia, el número de habitaciones de una casa, etc. Por ejemplo: el número de personas por hogar es una variable discreta, así como el número de componentes ensamblados en una fábrica. El tiempo trascurrido antes de la primera falla de un aparato y el número promedio de personas por hogar en una comunidad extensa son casos de variable continua, no debe confundirse el número de personas por hogar con el número promedio de personas ya que el 30 Lind, Marchal y Wathen. Estadística Aplicada a los Negocios y la Economía. McGraw Hill, p. 11.
OMAR JESÚS ALCALÁ VELASQUE
44
segundo puede ser un valor fraccionario al ser un promedio, mientras que el primero es un valor puntual asociado a una variable discreta. 10. Fuentes para la recolección de datos: a fin de que un análisis estadístico resulte útil en el proceso de toma de decisiones, los datos de entrada iniciales deben ser apropiados ya que si son ambiguos o tienen algún tipo de error, es posible que no se puedan compensar estas deficiencias. Son variados los métodos que pueden utilizar los investigadores para obtener los datos necesarios para su estudio, entre estos tenemos: • Buscar datos publicados por fuentes gubernamentales, industriales o particulares. • A través del diseño de un experimento. • A través de encuestas, entrevistas, cuestionarios, etc. • Internet. 11. Escalas de medida: las variables pueden clasificarse, también, según su escala medida. La forma en que se clasifican puede afectar la forma como se emplean en el análisis. Las variables pueden ser: (a) nominales, (b) ordinales, (c) de intervalo y (d) de razón. Dado que medir es un proceso que permite asignar número o establecer una correspondencia entre objetos y observaciones, en términos teóricos, una escala de medición puede tener uno o más de los siguientes atributos matemáticos: magnitud, un intervalo igual entre unidades adyacentes y un punto cero absoluto. Una medida nominal se crea cuando se emplean nombres para establecer las categorías dentro de las cuales las variables pueden registrarse exclusivamente. Por ejemplo, el sexo puede clasificarse como "hombre" o "mujer", así como asignarle un número (codificar) con un "0" o un "1" respectivamente. - Mediciones en escalas nominales. Nombres o clasificaciones que se utilizan para datos en categorías distintas y separados. En esta es-
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
45
cala no se pueden emplear las operaciones de suma, resta, multiplicación, división o proporciones. A diferencia de una medida en escala nominal, una medida en escala ordinal, sí muestra un ordenamiento o jerarquización de los datos. Las observaciones se clasifican con base en algunos criterios. Por ejemplo, el desempeño en una labor determinada puede evaluarse por medio de una escala como "deficiente", "bueno", "excelente": Al igual que con los datos nominales, los número pueden emplearse para ordenar los rangos, con respecto a ejemplo anterior podemos tener una escala "1", "2", y "3", al igual que con los datos nominales, la magnitud de los números no es importante, el rango depende sólo del orden de los valores.
- Medidas en escalas ordinales. Son las que clasifican las observaciones en categorías con un orden significativo. Cuando emplee esta escala no se pueden realizar las operaciones de suma, resta, multiplicación, división o proporciones. La escala de intervalo representa un nivel más alto de medición que la escala ordinal. En una escala de intervalo las variables se miden de manera numérica, y al igual que los datos ordinales, llevan inherente un rango u ordenamiento. Posee las propiedades de magnitud e intervalos igual entre unidades adyacentes, pero no cuenta con un cero absoluto. Por ejemplo la escala de temperatura Celsius, es de tipo de intervalo, 70 grados no es sólo una temperatura más alta que 60 grados, sino que la misma diferencia de 10 grados existe entre 90 y 100 grados celcius, sin embargo el hecho que un cuerpo tenga por temperatura cero grados, no implica que él no tenga temperatura. Medidas en escala de intervalo. Medidas en una escala numérica en la cual el valor de cero es arbitrario pero la diferencia entre valores es importante. En esta escala puede emplear las operaciones suma, resta. No puede utilizar multiplicación, división ni proporciones
OMAR JESÚS ALCALÁ VELASQUE
46
De todos los cuatro niveles de medida, sólo la escala de razón se basa en un sistema numérico en el cual el cero es significativo. Goza de todas las propiedades de una escala de intervalo y, además, cuanta con un punto cero absoluto. Por ejemplo variables como el peso, la edad, tiempo. Medidas en escala de razón. Medidas numéricas en las cuales cero es un valor fijo en cualquier escala y la diferencia entre valores es importante. En esta escala usted puede emplear todas las operaciones matemáticas. RAZONES, PROPORCIONES Y PORCENTAJES Una de las funciones de los métodos estadísticos es la de resumir todos los datos de una serie de valores, para poner de manifiesto las características más importantes de dicha serie. La forma más simple de cumplir esta función es convertir los datos de valores absolutos en relativos, esta conversión se hace necesaria debido a que los valores relativos pueden contener todas las informaciones que interesan, lo que no se logra con los absolutos (como para la comparación de dos poblaciones de cantidades de diferentes unidades). Para ello debemos conocer el significado de razón, proporción y porcentaje. 1. Razón: Cociente de dos números o, en general, de dos cantidades comparables entre sí. R=
número de individuos que poseen cierta característica número de individuos que no poseen dicha característica
3 Ejemplo: Si en una determinada zona existen 32.000 nativos y 8.000 extranjeros, la razón de nativo a extranjero se determina de la siguiente manera:
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
47
La característica viene dada por el hecho de ser nativo, luego: 32.000 4 = — = por cada 4 nativos hay 1 extranjero. 1 8.000 2. Proporción: es una razón, en la cual el denominador es el número total de unidades enunciadas. Siguiendo con el ejemplo anterior: 32.000 - 0,80 Proporción de nativos: 4.000 Proporción de extranjeros:
8. 8.000 - 0,20 40.000
3. Porcentaje: se llama tanto por ciento de un número a una o varias de las 100 partes iguales en que se puede dividir dicho número. Por ejemplo, el 5% de 80, significa que el 80 se divide en 100 partes iguales y de ellas se toman 5. También es una medida que se obtiene al multiplicar por 100 a las proporciones.
0 Ejemplos: 1. Un agente cobra el 15% de comisión por cada operación que realice. Si en una determinada comisión el agente recibió Bs. 6.900 de comisión. ¿Cuál fue el monto de la operación? En este caso Bs. 6.900 representan el 15 % del precio total de la operación, por lo cual para obtener su valor calculamos 15% 6.900 X
100%
X = Bs. 46.000 2. Si una persona logra que un artículo cuyo precio era de Bs. 4.500 se lo rebajen a Bs. 3.600. ¿Cuál fue el porcentaje de descuento que le hicieron?
48
OMAR JESÚS ALCALÁ VELASQUE
Para el cálculo del porcentaje podemos realizar la siguiente cuenta: 4.500-3.600 = 0,2 20%, por lo tanto el porcentaje de 4.500 descuento fue 20%
Á EJERCICIOS COMPLEMENTARIOS VARIABLES CONTINUAS Y DISCRETAS
1. En los siguientes tipos de valores, designe con la letra D las variables discretas y con la letra C las variables continuas: a) b) c) d) e)
Peso del contenido de una paquete de cereal Diámetro de un cojinete Número de artículos defectuosos producidos Número de individuos en un área geográfica Número promedio de clientes contactados por representantes de ventas durante el mes anterior f) Monto de ventas en dólares , (R: a) C, b) C, c) D, d) D, e) C, f)D)
( ( ( (
) ) ) )
() ()
2. Identifique cada una de las siguientes afirínaciones como ejemplos de variable (Ca) cualitativa o (Cn) cuantitativa: a) Los puntajes registrados por las personas que presentan el examen escrito para obtener el permiso de conducir ( ) b) Si el conductor de una motocicleta tiene o no un permiso vigente para conducir motocicleta () c) El número de televisores que hay en una casa () d) La marca de jabón que se utiliza en un baño () e) El valor de un cupón de descuento usado en la compra de
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
una caja de cereal de maíz f) La cantidad de peso que una persona ha perdido el mes pasado luego de seguir una dieta rigurosa. g) Los promedios de bateo de los jugadores de la liga mayor de béisbol h) Las decisiones de un jurado en juicios por delitos i) La aplicación de protectores solares antes de exponerse al Sol (siempre, a veces, rara vez, nunca) j) Las razonas por las que un gerente no procede contra el bajo desempeño de un empleado R: a) Cn, b) Ca, c) Cn, d) Ca, e) Cn, f) Cn, g) Cn, h) Ca, i) Ca, j) Ca
49
( ) ( ) () ()
3. Indique el nivel de medición de las siguientes variables. Variable a) Promedio b) Altura c) Penamuer d) Autoplac e) Estlab f) Pobciud g) Marcauto
Nivel de Definición operacional y codificación medición (cómo se mide y registra la variable) Promedio de calificaciones académicas Altura física en centímetros Escala de actitud de 10 reactivos acerca del apoyo a la pena de muerte que va de 0 a 40 Número de placa del automóvil Estatus laboral: 1=inexperto, 2= semiexperto, 3=experto Población dentro de los límites de la cuidad Marca de automóvil
Solución: razón, intervalo, razón, nominal, ordinal, intervalo, nominal.
50
OMAR JESÚS ALCALÁ VELASQUE
RAZONES, PROPORCIONES Y PORCENTAJES
1)En una fiesta, el 50% de los invitados son hombres. De todos los hombres de la fiesta, el 40% son calvos y de ellos el 50% habla inglés. Si 4 calvos hablan inglés. ¿Cuántas mujeres hay en la fiesta? (R: 20) 2) Efectuar dos descuentos consecutivos, primero de un 10% y luego de un 20%, es equivalente a efectuar un solo descuento de... (R 28%) 3) Si Pedro tuviera un 15% menos de la edad que tiene, tendría 34 años. Hallar su edad actual. 4) Si una mercancía costo Bs. 2.380 de adquisición. ¿A qué precio debe venderla un comerciante para ganar el 15% sobre el precio de venta? (R: Bs. 2.800) 5) En una oferta se anuncia que los artículos han sido rebajados en un 30%. Si el precio de un artículo en esa oferta es de Bs. 630. ¿Cuál era el precio del artículo antes de la oferta? (R: Bs. 900) 6) Un artículo, después de haber sido aumentado en un 20%, cuesta Bs. 1.380. ¿Cuánto costaba inicialmente? (R: Bs. 1.150) 7) Una rifa reparte Bs. 1.000.000 en dos premios. Al primer premio le corresponde un 60%, y al segundo premio el 40% restante. Si el billete cuesta Bs. 500 y lo compran entre tres personas, de las cuales, la primera aporta Bs. 300, la segunda Bs. 150 y la tercera Bs. 50. ¿Cómo deberían repartirse entre ellas cada uno de los premios, en caso de que el billete resultara premiado? 8) En una primera caja, el porcentaje de piezas defectuosas es del 1% mientras que en una segunda caja es del 10%. Si el número total de piezas en la segunda caja representa el 150% del número total de piezas en la primera. ¿Cuál sería el porcentaje de piezas defectuosas, si se unieran los contenidos de las dos cajas? (R: 6,4%)
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
51
9) Se vende un artículo en Bs. 90 con pérdida sobre el costo de un tanto por ciento igual a 1/10 del precio de costo. ¿Cuál es la pérdida? (R: Bs.10) 10)Si el 10% de X es igual al 25% de 16, ¿cuál es el valor de X? (R: X = 40) 11)Gasté el 15% y el 12% de mi dinero, me quedaron Bs. 365, ¿cuánto tenía al principio? 12) Un hombre vendió dos caballos cobrando Bs. 5.400 por cada uno. En uno de los caballos ganó el 20% de lo que le había costado y en el otro perdió el 20% de lo que le había costado. ¿Ganó o perdió en total? ¿Cuánto? 13)Al sueldo de un empleado se le hace un aumento del 20% al comenzar el año, y en julio un aumento de 10% sobre el total. ¿Qué porcentaje de su sueldo del año anterior estará recibiendo en agostos? (R: 132%) 14) Si yo gasto el 30% de lo que tengo y luego gasto el 20% de lo que me queda, y si quedo con Bs. 1.680, ¿cuánto tenía originalmente? (R:Bs. 3.000) 15)Al venderse un lápiz se ha hecho un descuento de 20% del precio de venta, pero se ha ganado el 20% del precio de costo. Halla el precio de costo sabiendo que el precio de lista es de Bs. 150. 16) El 70% de los habitantes de un país hablan un idioma y el 60% de la misma población habla otro idioma. ¿Qué porcentaje de la población habla dos idiomas, sabiendo que cada habitante habla al menos uno de ellos? 17) Si gasto el 30% del dinero que tengo y gano el 28% de lo que me queda, perdería Bs. 156. ¿Cuánto dinero tenía? 18)Al vender cinta ganando Bs 8 por cada metro, la ganancia es el 25% del costo. ¿Cuánto cuesta el metro de cinta? (R: Bs. 32)
52
OMAR JESÚS ALCALÁ VELASQJE
19)Al vender una silla perdiendo $ 80, la pérdida sufrida es el 40% del costo. ¿Cuánto costó la silla? (R: Bs. 200) 20) ¿Cuál es el porcentaje de pérdida sobre el costo si se vende por Bs. 1.710 un auto que había costado Bs. 1.800? (R: 5%) 21) ¿Cuál es el porcentaje de de ganancia sobre el costo cuando se vende en $ 90 lo que ha costado $ 80? (R: 12,5%) 22) Un comerciante compra artículos con un descuento del 25% del precio de lista y los vende un 25% más que el precio de lista. ¿Cuál es su porcentaje de ganancia sobre el costo? (R: 66,6%) 23) Se compran artículos a un 10% menos que el precio de catálogo y se venden a un 10% más que el precio de catálogo. ¿Qué porcentaje del costo se gana? (R: 22,2%) 24) No quise vender una casita cuando me ofrecían por ella $ 3.840, con lo cual hubiera ganado el 28% del costo y algún tiempo después tuve que venderla por $ 3.750. ¿Qué porcentaje del costo gané al hacer la venta? (R: 25%) 25) Vendí una mesa por $ 792, perdiendo el 12% del costo. ¿A cómo habría tenido que venderla para ganar el 8% del costo? (R: $ 972) 26) Un hombre vendió dos celulares cobrando $ 5.400 por cada uno. En uno de los celulares ganó el 20% de lo que le había costado y en el otro perdió el 20% de lo que le había costado. ¿Ganó o perdió en total? ¿Cuánto? (R: Perdió $ 450) 27) Se vendieron dos casas a Bs. 12.960 cada una. En una se ganó el 8% del costo y en la otra se perdió el 8% del costo. ¿Se ganó o se perdió en total y cuánto? (R: Se perdieron Bs. 166,96)
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
53
28) Vendí dos casas a $ 7.200 cada una. En una perdí el 25% del precio de venta y en la otra gané el 25% del costo. ¿Gané o perdí en total y cuánto? (R: Perdí $ 360) 29) Un hombre dispuso de $ 600 invirtiendo 30% en libros, el 12% en paseos, el 18% en ropa, el 15% en limosna y el resto lo dividió en partes iguales entre tres parientes. ¿Cuánto recibió cada uno de éstos? (R: $ 50) 30) Se vende un reloj en $ 150. Si se hubiera vendido en $ 15 más se hubiera ganado $ 20. ¿Cuál ha sido el porcentaje de ganancia sobre el precio de venta? (R: 3,3%)
CAPÍTULO
II I . Manejo y clasificación de datos estadísticos II. Gráficos de datos estadísticos
I. MANEJO Y CLASIFICACIÓN DE DATOS ESTADÍSTICOS DISTRIBUCIONES DE FRECUENCIA
Una vez que se han recolectado y tabulado los datos, los mismos deben ser presentados de una manera organizada para facilitar el acceso a la información que contienen. Ahora bien, si el conjunto de datos es grande, la mejor manera de examinar estos datos es presentarlos en forma resumida, elaborando tablas y gráficas apropiadas, de esta forma se pueden extraer las principales características de los datos. Aunque en el proceso de agrupamiento generalmente se pierde parte del detalle original de los datos, tiene la importante ventaja de presentarlos a todos en un sencillo cuadro que facilita asimilar la información. Como podemos manejar diversos tipos de datos, empezaremos primero con datos cuantitativos y luego con los cualitativos. PARA DATOS CUANTITATIVOS Para el manejo de datos cuantitativos, se establecerán los siguientes conceptos: 1) Frecuencia Absoluta (f): es un número que indica la cantidad de veces que se repite un dato en una serie. 2) Distribución de frecuencias: es un resumen tabular de un conjunto de datos que muestra la cantidad de elementos en cada uno de los diferentes grupos o clases que deben ser mutuamente excluyentesl. 1 Lind, Marchal y Wathen. Estadística Aplicada a los Negocios y la Economía. McGraw Hill, p. 25.
58
OMAR JESÚS ALCALÁ VELASQUE
3) Distribución de frecuencias para datos no agrupados: es una tabla compuesta por dos columnas, en una se ubican los valores de la variable y en otra sus respectivas frecuencias absolutas. 0 Ejemplo 1 Supongamos que los siguientes datos corresponden al peso en Kilogramos (Kg.) de un grupo de estudiantes: 56, 58, 61, 62, 67, 68, 70, 75, 56, 58, 61, 68, 75, 58, 68, 68. Al construir la tabla de distribución de frecuencias obtenemos: Peso (Kg.) 56 58 61 62 67 68 70 75
fi 2 3 2 1 1 4 1 2
4) Distribución de frecuencias para datos agrupados: es una tabla resumen en la cual los datos se encuentran divididos en grupos ordenados numéricamente. A estos grupos se les denomina clases o categorías. • Pasos para la construcción de la tabla de distribución de frecuencias para datos agrupados: Para la construcción de una distribución de frecuencias para datos agrupados se plantean los siguientes pasos: I. Rango de la variable: es el valor de la distancia entre los valores extremos de la serie, su fórmula es: R = Valor mayor — Valor menor 2. Selección del número de clases: el número de clases (k) que se utilizan depende, primordialmente, de la cantidad de da-
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
59
tos que se tengan, es una decisión arbitraria; sin embargo, en términos generales, se recomienda que la distribución de frecuencias deba tener al menos 5 clases y no más de 15, es decir: 5 k _-15 (si no existen suficientes clases, o si hay demasiadas, la información que se puede obtener es reducida). Entre las expresiones que se pueden utilizar para calcular el número de clases tenemos: k > Log n donde "d" es el número de clases y "n" el númeLog d ro total de observaciones. k = fr1 donde "n" el número total de observaciones. k = 1+3,322 Log n (regla de Sturges) y "n" el número total de observaciones. Estas reglas no deben tomarse como un factor determinante o definitivo2, ellas son empíricas, por ejemplo, si el número de observaciones que tenemos es 100, es un buen criterio agrupar las observaciones en V100 = 10 intervalos, pero si el número de observaciones fuese muy alto como por ejemplo n = 1000000, este segundo criterio nos da un número excesivo de intervalo (1000) por lo que en estos casos habrá que hacer uso del sentido común para determinar el número de intervalos. 3. Amplitud de clase: es el recorrido de los valores que se encuentran dentro de una clase. Es recomendable al elaborar la tabla que todas las clases tengan la misma amplitud porque facilita la interpretación estadística de cualquier utilización posterior que se pueda hacer de los datos. 2 Algunos autores consultados para este trabajo, sugieren otras formas para determinar el número de clases, corno por ejemplo la fórmula 2k, según la cual el número de intervalos será el valor de k que genere una cantidad que supere el total de datos que se tienen registrados. Estadística. Serie Schaum.
60
OMAR JESÚS ALCALÁ VELASQUE
Mediante la expresión: rango de la variable Amplitud del intervalo = número de clases que se desean
K
obtenemos un valor que sirve de guía para establecer el tamaño de los intervalos, el valor numérico que obtengamos de la fórmula anterior lo podemos redondear dependiendo de nuestra conveniencia, pero en cualquier caso, se toma con un grado de aproximación no mayor a aquel con el que se registran los datos. A manera de información: aunque anteriormente se recomendó que todas las clases tengan el mismo tamaño, existen casos donde esta regla no puede o no debe aplicarse; por ejemplo, si se tuviera a mano la lista de impuestos pagados por la población en un año, estas cantidades (supuestas) pueden encontrarse en un intervalo de Bs. 0 a Bs. 10.000.000, aun a pesar de que se eligiesen 20 clases para la distribución de frecuencia, con intervalos de igual longitud, cada clase tendría una cobertura de Bs. 500.000. Lo anterior daría origen a una situación en la que casi todas las observaciones caerían en la primera clase, en casos como este, es preferible seleccionar una escala más pequeña en el extremo inicial que la utilizada para el extremo superior. También sería posible reducir el número de clases que se requieren cuando unos cuantos de los valores son mucho menores o mucho mayores que el resto, mediante clases abiertas. Aunque se deben evitar cuando sea posible ya que dificultan calcular ciertas medidas o ciertas descripciones adicionales que puedan ser de interés. Ejemplos de clases abiertas: 10 o Menos 11 a 15 16 a 20 21 o más
10 o Menos 11 a 15 16 a 20 21 a 25
11 a 15 16 a 20 21 a 25 26 o más
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
61
La primera columna es abierta en ambos extremos, es decir la primera clase y la última; la segunda columna, es abierta en el extremo inferior o la primera clase y la última, es abierta en la última clase. 4. Establecimiento de los límites de clase: para construir la tabla de distribución de frecuencias se necesitan establecer límites claramente definidos para cada una de las clases, de manera que se eviten problemas como: • El solapamiento entre clases (no debe existir duda en la ubicación de los datos en las clases). • Que no se incluyan a todas las observaciones. Por ejemplo: Supongamos que se tiene un conjunto de datos (entre ellos está el valor de 60 y el de 70) y se decide agruparlos, dando como resultado los siguientes intervalos: 50-60 60-70 Se presenta el solapamiento. ¿A qué clase pertenece el 60 ó el 70? 70-80
51-59 61-69
Se presenta la exclusión de valores. ¿Ninguna clase contiene al 60 ó a170?
71-79
Los valores correspondientes a la primera columna son los límites inferiores. El límite inferior (1i) se define como el valor mínimo posible de los datos que se asignan a la clase. Los valores correspondientes a la segunda columna son los límites superiores (li,i)•
62
OMAR JESÚS ALCALÁ VELASQUE
• Observaciones sobre los límites de clase: 1.Una forma de obtener la amplitud de un intervalo es mediante la diferencia entre dos límites superiores consecutivos o dos límites inferiores consecutivos. 2. Es de hacer notar que la selección de los límites de clase es subjetiva y para conjuntos de datos que no contienen muchas observaciones, la selección de un conjunto específico de límites de clase y no otro, puede dar una imagen distinta al lector; sin embargo, al aumentar el número de observaciones de los datos, las alteraciones en la selección de los límites de clase afectan cada vez menos la concentración de los datos. 3. Algunos autores difieren en la forma en que toman los límites cuando construyen las tablas de distribución de frecuencias (básicamente según el tipo de variable con la cual trabaje), unos toman los intervalos de tal manera que son cerrados en el límite inferior y abiertos en el superior, entre los tipos de notación que se pudieran presentar tenemos: [50-60]
50 a menos de 60
50 - <60
[60-70]
60 a menos de 70
60 - <70
Esta forma de notación es particularmente útil si se trabajan con variables continuas. Estos límites son llamados reales o fronteras de clase. Los límites reales son aquellos que reflejan la unidad más pequeña que se emplea para tomar las observaciones. Otra forma de establecer los límites es con el uso de los imaginarios o de escritura que son aquellos que reflejan el mismo grado de precisión que el de las observaciones presentadas. En general es preferible trabajar con los límites reales por la comodidad que brindan al momento de calcular otros valores asociados a una distribución de frecuencias, como por ejemplo las medidas de tendencia central3. 3 Ver el capítulo III.
63
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
0 Ejemplo 2 Los datos 23, 24, 18, 14, 20, 13, 38, 19, 16, 24, 11, 16, 18, 20, 23, 19, 32, 36, 15, 10, 20 son parte de un total de 80 datos que serán utilizados para construir una tabla de distribución de frecuencias, suponemos que los cálculos para determinar el número de clases y la amplitud ya fueron realizados dando como resultado que el número de clases es 6 y la amplitud es 5. En la tabla se encuentran los datos que han sido agrupados: li
li+,
10 15 20 25 30 35
14 19 24 29 34 39
Los límites tal y como están en la tabla anterior son los imaginarios, los límites reales calculados a partir de los imaginarios correspondientes a la tabla anterior serían: 1.
1,,,
9,5 14,5 19,5 24,5 29,5 34,5
14,5 19,5 24,5 29,5 34,5 39,5
En la práctica los límites reales se obtienen promediando el límite superior de una clase con el inferior de la siguiente. Al trabajar con límites reales, se puede obtener la amplitud mediante la diferencia entre el límite superior y el inferior de una misma clase.
OMAR JESÚS ALCALÁ VELASQUE
64
Como observación se debe estar pendiente de que al tomar límites, los valores adecuados de los límites de clase con datos cuantitativos continuos dependen de la exactitud de los datos con los cuales se trabaja. Utilizando los mismos valores para construir la tabla mediante intervalos abiertos y cerrados o reales, sin pasar por los imaginarios, tenemos:
I,
li+,
[10- 15) [15 - 20) [20 - 25) [25 - 30) [30 - 35) [35 - 40)
5. Establecimiento de la marca de clase (x2: la marca de clase es un punto representativo del intervalo. Si este es acotado tomamos como marca de clase al punto medio del intervalo (se asume que los valores de la variable se distribuyen de manera uniforme dentro del intervalo). Se obtiene como un promedio aritmético entre los límites superior e inferior de cada intervalo de clase. 1 +1 x - i+1 i i 2
6. Frecuencia relativa de clase (h): es el valor que se obtiene al dividir la frecuencia absoluta de clase entre el número total de observaciones, por lo que indica la proporción de la cantidad total de datos que pertenecen a una clase. f.
h.=
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
65
Distribución de frecuencias relativas: es una tabla donde se presentan las frecuencias relativas de clase. 8. Frecuencia acumulada de clase (F2: es la frecuencia total de todos los valores que hasta su límite superior existen en la serie. Si trabajamos con intervalos cerrados y abiertos, para esta definición de frecuencia acumulada, no incluimos el valor del límite superior. Observación: esta definición es válida para distribuciones acumuladas "menor que". 9. Distribución de frecuencias acumuladas "menor que": es una tabla que contiene las frecuencias acumuladas de cada clase, para hallar esta distribución en una clase determinada lo que se hace es sumar la frecuencia de esa clase a la de las clases anteriores. Las distribuciones de frecuencias acumuladas nos permite ver cuántas observaciones se encuentran por arriba o debajo de ciertos valores. 10. Frecuencia relativa acumulada (19: es el cociente de la frecuencia acumulada de cada clase con respecto a la frecuencia total, muestra la proporción de elementos con valores menores o iguales al límite superior de cada clase. Si trabajamos con intervalos cerrados y abiertos, para esta definición de frecuencia relativa acumulada, no incluimos el valor del límite superior Hi=
F.
11. Distribución de frecuencias relativas acumuladas: es una tabla que contiene las frecuencias relativas acumuladas. Cuando se pida construir una tabla de distribución de frecuencias consideraremos a todas las distribuciones anteriores.
OMAR JESÚS ALCALÁ VELASQUE
66
tl Ejemplo 3 Un investigador desea determinar cómo varían los pesos de los obreros de una empresa y toma una muestra de 50 hombres para registrar luego sus pesos en Kilogramos (Kg). Los datos obtenidos fueron los siguientes: 65 64 64 63 64
63 65 65 65 64
65 64 64
63 72 71
69 68 68
67 66 66
53
58
60
55 56
63 63
70 69
67 67
66 66
57 58
57 59 59 60
60 61 61 61
61 62 62 62 62
Construir la tabla de distribución de frecuencias: 1. Cálculo del rango de la variable: R = 72 — 53 = 19 2. Selección del número de clases: -\in. = j95::-.,- 7,071; tomamos 7 clases, por ser un cantidad que sólo toma valores enteros. 3. Cálculo de la amplitud del intervalo: a =
L79 = 2,7; toma-
mos a = 3, ya que se debe tratar de aproximar el valor a la magnitud de los valores de la variable. 4. Establecimiento de los límites, considerando los imaginarios, y construcción la tabla:
67
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
Tabla 1. Distribución de Frecuencias li
li+i
f
xi
Fi
hi
% hi
H.
% H.
53 56 59 62 65 68 71
55 58 61 64 67 70 73
2 5 9 15 12 5 2
54 57 60 63 66 69 72
2 7 16 31 43 48 50
0,0400 0,1000 0,1800 0,3000 0,2400 0,1000 0,0400
4 10 18 30 24 10 4
0,0400 0,1400 0,3200 0,6200 0,8600 0,9600 1,0000
4 14 32 62 86 96 100
=1
n = 50
1=100
Interpretaciones En la columna % hi: 18 significa que el 18% de los obreros tienen un peso entre 59 y 61 Kg. En la columna de % Hi: 32 significa que el 32% de los obreros tienen un peso igual o inferior a 61 Kg. Si utilizamos intervalos cerrados y abiertos o límites reales, la tabla será: Tabla 2. Distribución de Frecuencias li
i+1
[53 - 56) [56 - 59) [59 - 62) [62 - 65) [65 - 68) [68 - 71) [71 - 74)
fi
xi
Fi
hi
% hi
Hi
% Hi
2 5 9 15 12 5 2
54,5 57,5 60,5 63,5 66,5 69,5 72,5
2 7 16 31 43 48 50
0,0400 0,1000 0,1800 0,3000 0,2400 0,1000 0,0400
4 10 18 30 24 10 4
0,0400 0,1400 0,3200 0,6200 0,8600 0,9600 1,0000
4 14 32 62 86 96 100
68
OMAR JESÚS ALCALÁ VELASQUE
Interpretaciones: En la columna % hi: 18 significa que el 18% de los obreros tienen un peso que va desde 59 Kg, pero son menores de 62 Kg. En la columna % Hi: 62 significa que el 62% de los obreros tienen un peso inferior a 65 Kg. PARA DATOS CUALITATIVOS Hasta ahora solo hemos analizado la construcción de distribuciones numéricas, pero el problema general que implica construir distribuciones cualitativas es casi el mismo. Una vez más debemos decidir cuántas clases utilizar y qué tipo de elementos contendrá cada categoría, asegurándonos que se puedan acomodar todos los datos y que no se presenten ambigüedades. Como las categorías a menudo se escogen antes de que se recolecten los datos, es prudente incluir una categoría marcada con el título "otros", la ventaja de trabajar con datos cualitativos es que no tenemos que preocuparnos por los límites de clase, las fronteras de clase, las marcas de clase, etc. La construcción de una tabla de frecuencias para datos cualitativos requiere sólo del conteo del número de elementos o individuos que caen dentro de cierta clase o tienen determinada característica.
0 Ejemplo 4 La siguiente tabla pertenece a los planes de estudios superiores de un grupo de 548 estudiantes del último año del bachillerato: Planean ir a la universidad Quizá vayan a la universidad Planea ir o quizá vayan a una escuela vocacional No irán a ninguna universidad
fi 240 146 57 105
h. 0,4379 0,2703 0,1055 0,1944
%.h.. 43,79 27,03 10,55 19,44
69
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
Para la tabulación de datos cualitativos también se pueden usar tablas de contingencia o tabulación cruzada4, su valor consiste en que proporciona una idea de la relación entre las variables (ya sean ambas cualitativas, ambas cuantitativas o combinación de ambas). Veamos cómo usarlas a través del siguiente ejemplo: El Ejemplo 5
Un prestamista local tiene en la actualidad 120 cuentas, su contable le comunica que de las 25 cuentas comprendidas entre O y 4.999 dólares, 10 vencen ahora, 5 vencieron hace tiempo y el resto son morosas; lo que implica para el deudor el peligro de ver ejecutada la deuda por el prestamista. De las 37 cuentas situadas en el intervalo de 5.000 a 9.999 dólares, 15 vencen ahora, 10 han vencido hace tiempo y el resto son morosas. Hay 39 cuentas en el intervalo de 10.000 a 14.999 dólares que indican que 11 vencen ahora, 10 vencieron hace tiempo y el resto son morosas. Del resto de las cuentas, en el intervalo de 15.000 o más, 5 vencen ahora, 7 han vencido y el resto son morosas. El prestamista quiere ver una tabla de contingencia de estas cuentas, para lo cual le pide a su contable que la elabore: 5.000 - 9.999
10.000 - 14.999
15.000 o más
Totales
10 5
15 10
11 10
5 7
41 32
10 25
12 37
18 39
7 19
47 120
Cuentas O - 4.999 Condición
Vencen ahora Vencieron hace tiempo Morosas Totales
Esta tabla de doble entrada le permite visualizar las condiciones de pagos de las cuentas al prestamista. Por ejemplo el valor 41 en la columna de totales le indica que hay 41 cuentas que vencen ahora. El valor 37 en la fila de totales indica que hay ese número de cuentas con 4 También llamadas Tablas de doble entrada.
70
OMAR JESÚS ALCALÁ VELASQUE
valores que van desde 5.000 hasta 99.999. Y por último el valor 18, ubicado en la tercera fila de la tercera columna, indica que se tienen 18 cuentas en condición de morosas con un valor que va desde 10.000 hasta 14.999. II. GRÁFICOS DE DATOS ESTADÍSTICOS PRESENTACIÓN GRÁFICA DE DATOS
La afirmación "una imagen vale más que mil palabras" se puede aplicar al ámbito de la estadística descriptiva diciendo que "un gráfico bien elaborado vale más que mil tablas de frecuencia". Cada vez es más habitual el uso de gráficos o imágenes para representar la información obtenida; de todas maneras, debemos ser prudentes al emplear o interpretar gráficos, puesto que una misma información se puede representar de formas muy diversas y no todas ellas son pertinentes, correctas o válidas. Pictogramas Son presentaciones gráficas que se hacen por medio de dibujos, que en la mayoría de los casos son semejantes al fenómeno que se quiere representar. Por ejemplo, si se fuese a representar la población de un determinado estado clasificado por distritos, se identifica a esta población a través de figuras humanas; por medio de estos dibujos se expresan las frecuencias de las modalidades de la variable. También estos gráficos se hacen representando en diferentes escalas un mismo dibujo, la escala de los dibujos debe ser tal que el área de cada uno de ellos sea proporcional a la frecuencia de la modalidad que representa.
71
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
0 Ejemplo 6 Casas censadas en dos ciudades durante un fin de semana por el Municipio ABC
Ciudad Alfa: 500 casas Ciudad Beta: 2000 Casas
GRÁFICO DE MÁXIMO-MÍNIMO-AL CIERRE
Como su nombre lo indica, son gráficos que presentan el valor máximo, el mínimo y el último valor de una variable seleccionada durante un período determinado; el ejemplo quizá más conocido es el índice Dow Jones. 0 Ejemplo 7 Junio 9 Junio 10 Junio 13
Máximo 181,07 180,65 180,24
Mínimo 178,17 178,28 178,17
Al cierre 178,88 179,11 179,35
72
OMAR JESÚS ALCALÁ VELASQUE
La gráfica es: Grafico de máximo-mínimo al cierre del Índice Dow Jones 5— a) 181 — 0180,5 180 — 0 5 179.5 — 179 — 0 178,5 12 178fi -5177.5 — 177 — 176.5
-
181,07 180,65
179,35
- 179,11
178,88
178,28
178,17
9 de Junio
180,24
10 de Junio
178,17
13 de Junio
Días de junio seleccionados
GRÁFICOS CIRCULARES, DE SECTORES O DE PASTEL
Este tipo de gráfico considera al círculo como la totalidad del fenómeno, en consecuencia, se dividirá al mismo en tantos sectores como componentes tenga el fenómeno a representar; son bastante útiles para visualizar diferencias de porcentajes, para representar datos cualitativos, etc. • Pasos para su construcción 1. Buscamos los porcentajes que representan a cada elemento. 2. Cada porcentaje se multiplica por 3,6 y eso nos daría el valor de los ángulos centrales. 3. Utilizar un transportador para ubicar cada ángulo. También es posible hallar los ángulos centrales estableciendo una regla de tres entre la totalidad del fenómeno (al cual le corresponden 360°) y la frecuencia de cada parte del fenómeno.
73
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
0 Ejemplo 8 Para estudiar sus actitudes hacia aspectos sociales, a 1200 personas se les preguntó si se está gastando "muy poco", "más o menos de lo debido" o "demasiado" en programas de bienestar social. Trace un gráfico circular para desplegar los resultados que se muestran en la tabla siguiente: Opinión Muy poco Más o menos de lo debido Demasiado
fi 296 360 544
hi
% hi
0,24666... 0,3 0,45333...
24,666 30,0 45,333
Porcentaje de actitudes hacia aspectos sociales
O Ouy ■ Más > menas de la dpkida ❑ Demasiada
Luego, los ángulos centrales serán: 24,666...*3,6 88,8 grados 30,00*3,6 = 108 grados 45,333...*3,6 163,2 grados
74
OMAR JESÚS ALCALÁ VELASQUE
GRÁFICOS DE TALLO Y HOJA
Es un diseño ideado por John Tukey que proporciona una impresión visual rápida del número de observaciones o de datos de una clase. Cada observación del conjunto de datos se divide en dos partes: tallo y hoja, aunque hay bastante flexibilidad en cuanto al procedimiento que pueda seguirse, en ocasiones es conveniente considerar todos los dígitos de una observación menos el último como el tallo y este último dígito se considera como la hoja. Entre las ventajas que tiene podemos mencionar que es más fácil de construir que un histograma y dentro de un intervalo de clase, este gráfico da más información que un histograma porque muestra los valores reales. O Ejemplo 9 Construir un diagrama de tallo y hoja para la colección de 25 calificaciones en un examen de álgebra: 78 64 98 67 84
59 65 82 57 87
81 79 75 68 65
65 85 59 71 76
80 54 89 67 94
• Pasos para la construcción 1. Coloque los tallos en forma vertical usando un segmento de línea vertical, llamado tronco, para separar los tallos de las hojas, es decir tome el primer dígito de los valores de la variable y ordénelos en forma creciente como se observa a continuación:
75
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
5 6 7 8 9 2. Coloque cada hoja a la derecha de su tallo. Es decir, el segundo dígito que se presenta en los valores de la variable, como se observa a continuación: 5 9749 6 4575785 7 8
86195
9
84
5429710
Aunque no importa el orden en que las hojas se coloquen en un tallo, es recomendable que se ordenen porque esto facilita el conteo. 3. Cabe resaltar que no hay una cantidad única de renglones o tallos, si creemos que nuestro diagrama original condensa demasiado los datos, podemos alargarlo usando dos o más renglones para cada uno o más dígitos. 0 Ejemplo 10 6
89
7 7
233 566
8 8
011234 56
9
1224
76
OMAR JESÚS ALCALÁ VELASQUE
Es posible encontrar la siguiente notación: 5* 9 7 4 9 6* 4 5 7 5 6 7* 4 5 6 8 9 0 El asterisco es para indicar que el número es de dos cifras. Ejemplo: 59,57,64, etc.
12* 9 7 4 9 13* 4 5 7 5 6 14* 4 5 6 8 9 O El asterisco es para indicar que el número es de tres cifras. Ejemplo: 129, 135, etc.
3** 45 75 61 4** 45 68 90 Los asteriscos son para indicar que el número es de tres cifras. Ejem, plo: 345, 468, etc.
GRÁFICO DE TRAZOS
Es un tipo de gráfico en donde se localizan los puntos en un sistema de coordenadas y luego se conectan los puntos sucesivos con trazos rectos. 0 Ejemplo 11 La tabla muestra la población del país XYZ (en millones) en los años de 1860 a 1900 Año Población
1860 1870 1880 1890 1900 31,4 39,8 50,2 62,9 76,0
Población en m illones
Población del País XYZ entre 1860 y 1900
80 70 60 50 40 30 20 10 -
76 2.9 0.2 9.8
14
Año 1860 Año 1870 Año 18801' Año 1890 Ario 1900
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
77
Se debe indicar el cero siempre que sea posible; en caso de que no lo sea, y si tal omisión pudiera provocar alguna conclusión errónea, es aconsejable advertirlo de algún modo (por lo general, con un corte en el eje). GRÁFICO DE BARRAS
Consiste en una serie o conjunto de rectángulos que de acuerdo a su longitud y anchura representan un fenómeno. Se puede utilizar para representar datos cualitativos y cuantitativos. • Observaciones 1. En el eje donde irá la base del rectángulo se especifican los indicadores o nombres que se usan para cada una de las bases. 2. La escala que se debe tomar para la base debe ser la misma para cada rectángulo. 3. La separación que exista entre las barras debe ser la misma, depende del número de barras a construir y del espacio con que se cuenta. 4. En el eje vertical se puede representar una escala de frecuencias, frecuencias relativas o de porcentajes. Entre los tipos de gráficos de barra tenemos: a. Gráficos de barras simples: son aquellos que representan una sola característica. 0 Ejemplo cuantitativo El siguiente cuadro muestra el Producto interno bruto a precios constantes 1997 (millones de Bs.) como año base hasta el 20045 5 Instituto Nacional de Estadística (INE): República Bolivariana de Venezuela en Cifra. N° 2. Año 2005.
78
OMAR
JESÚS ALCALÁ VELASQUE
2004 2003 1999 2000 2001 2002 1998 JIS 1 S JIS 1 S IS JIS IS JIS IS JIS 1 S JIS IS 21,1 20,9 19,3 20,2 19,9 21,0 20,5 21,8 19,1 19,4 16,2 19,4 20,0 Producto Interno Bruto (Millones de Bs.)
25 20 15 10 — 5
1
--t
o I Sem II Sem 1 Sem II Sem I Sem II Sem I Sem II Sem I Sem II Sem I Sem II Sem I Sem 1998 1998 1999 1999 2000 2000 2001 2001 2002 2002 2003 2003 20134
0 Ejemplo cualitativo Los siguientes datos corresponden al número de estudiantes de cierta universidad, de acuerdo con su lugar de origen. Lugar de origen Número de estudiantes
Norteamericano 1500
Latinoamericano 500
Europeo 200
Estudiantes de la universidad de acuerdo a su origen o
E 2333 .73 1533 D 1033 E33 _
E33
E z
Nortea meric
o
o
o o
1 Latinoameric
1
,T1
233
130
117, ,."777711
o o o
o
o
W
Lugar de origen
o
Asiático 100
79
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
b. Gráficos de barras compuestas: son aquellos que representan varias características, siendo útiles para propósitos comparativos. 0 Ejemplos cuantitativos La tabla muestra el número de toneladas de trigo y de maíz producidos por una cooperativa durante los años 1995 al 1999.
Toneladas
Año 1995 1996 1997 1998 1999 200 185 225 250 240 Toneladas de trigo 80 90 100 85 75 Toneladas de maíz Toneladas de trigo y maíz producidos por una cooperativa entre 1995 y 1999 300 250 200 150 100 50 0
200
75
250
225
240
185 90
Eirrig o 00
85
80
• M aíz
E 1 Año Año Año Año Año 1995 1995 199 1998 1999
Ario
l ec" e
400 350 300 250 200 150 100 50
■ Maíz O Trigo
Año Año Año Año Año 1995 1996 1997 1998 1999
Arlo
80
OMAR JESÚS ALCALÁ VELASQUE
Es posible realizar los gráficos de barras no sólo en forma vertical, sino también horizontal. 0 Ejemplo Las áreas de algunas regiones (en millones de millas cuadradas) están dadas en la siguiente tabla: Área Región
1,9 Europa
3,3 Oceanía
6,9 América del sur
10,4 Asia
9,4 América del norte
Área (en millones de millas cuadradas) de algunas regiones 1 1 0,4
America del sur
1 6,9
E uro
1,9
o
15 Áreas en rnil nesde rnillascu dradas
GRÁFICAS DE LAS DISTRIBUCIONES DE FRECUENCIA
Histogramas Son gráficos de barras en los cuales no hay separación entre los rectángulos que se forman, se construye mediante la representación de las clases de una distribución de frecuencias en el eje horizontal y las frecuencias en el eje vertical. A través de él se pueden visualizar tres características de los datos: forma, acumulación o tendencia posicional y la dispersión o variabilidad.
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
81
• Pasos para la construcción: 1. Se trazan dos ejes de coordenadas sobre un plano. 2. Se llevan sobre el eje horizontal a los límites de clase (si se trabajan con límites imaginarios y reales, se toman los reales). 3. En el eje vertical podemos representar no sólo el número de frecuencias, también podemos colocar la proporción y el porcentaje de observaciones para cada intervalo de clase, por eso tenemos varios tipos de nombres. 4. Se levantan perpendiculares por los límites de cada clase hasta la frecuencia de clase respectiva. 5. Se unen las dos perpendiculares que representan cada clase. Sobre el eje vertical Número de observaciones. Proporción de observaciones.
Nombre Histograma de frecuencias. Histograma de frecuencias relativas.
Porcentaje de observaciones.
Histograma porcentual
Observaciones 1. Los histogramas no se pueden utilizar con respecto a distribuciones de frecuencias de clases abiertas (a menos que la persona cierre el intervalo de una manera conveniente). 2. El histograma representa las frecuencias de los intervalos mediante áreas y no mediante alturas; sin embargo, si los intervalos de clase tienen todos igual tamaño entonces el área de los rectángulos representa las frecuencias. Por ello las alturas de los rectángulos son proporcionales a las frecuencias de clase y se acostumbra, en tal caso, a tomar las alturas numéricamente iguales a las frecuencias de clase. Si los intervalos de clase no son de igual tamaño, las áreas no representan a las frecuencias, por lo tanto, es necesario ajustar la altu-
82
OMAR JESÚS ALCALÁ VELASQUE
ra de los rectángulos (estas alturas deberán ser calculadas para que las superficies sean proporcionales a las frecuencias de clase). 3. Algunos autores indican que para tener una buena legibilidad por lo general es preferible indicar los límites imaginarios de clase, aunque la base de los rectángulos sea con los límites reales. Del ejemplo 3 sobre el investigador que deseaba determinar cómo variaban los pesos de los obreros de una empresa y el cual tomaba una muestra de 50 hombres para registrar luego sus pesos en Kilogramos, se obtuvo la siguiente tabla:
Tabla 1, si se trabajan con límites reales
Tabla 2, si se trabajan con intervalos abiertos y cerrados.
Tabla 1: Distribución de frecuencias del peso (en Kg) de 50 empleados 1. 52,5 55,5 58,5 61,5 64,5 67,5 70,5
1 i+i 55,5 58,5 61,5 64,5 67,5 70,5 73,5
f
x.
F.
h.
% hi
H.
% Hi
2 5 9 15 12 5 2
54 57 60 63 66 69 72
2 7 16 31 43 48 50
0,0400 0,1000 0,1800 0,3000 0,2400 0,1000 0,0400
4 10 18 30 24 10 4
0,0400 0,1400 0,3200 0,6200 0,8600 0,9600 1
4 14 32 62 86 96 100
Tabla 2 : Distribución de frecuencias del peso (en Kg) de 50 empleados
83
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
1 -1,, [53 — 56) [56 — 59) [59 — 62) [62 — 65) [65 — 68) [68 — 71) [71 — 74)
fi 2 5 9 15 12 5 2
x, 54,5 57,5 60,5 63,5 66,5 69,5 72,5
F, 2 7 16 31 43 48 50
h, 0,0400 0,1000 0,1800 0,3000 0,2400 0,1000 0,0400
% h, 4 10 18 30 24 10 4
H, 0,0400 0,1400 0,3200 0,6200 0,8600 0,9600 1,0000
% H, 4 14 32 62 86 96 100
Sin importar con cual tabla se trabaje, la forma de los histogramas será la misma. La diferencia está en los valores que se colocarán en el eje horizontal (para la tabla 1 se toman límites reales mientras que para la tabla 2 los intervalos abiertos y cerrados). Utilizando los valores de la tabla 2 tenemos las siguientes gráficas: Histow-ania de frecuencias relativas
fi 16 — 14 — 12 10 — 864— 2—
0,32 — 0.28 — 0,24 0,20 — 0,16 — 0,12 — 0.08 — 0.04 —
o
Histow-arna de frecuencias
J
53 56 59 62 65 68 71 74 Peso en Kilogramos
o4
53 56 59 62 65 68 71 74 Peso en Kilogramos
Como se ve, los histogramas tienen la misma forma. Esto se debe a que en las situaciones anteriores el tamaño relativo de cada rectángulo es la frecuencia de esa clase comparada con el número total de observaciones. Por último:
84
OMAR JESÚS ALCALÁ VELASQUE
Yohi.
Histog-arna de frecuencias porcentual
32 — 28 — 24 — 20 — 16 — 12 — 8— 4— 53 56 59 62 65 68 71 74 Peso en Kilogramos
Polígonos de frecuencias Son gráficos de línea trazados sobre las marcas de clase de cada intervalo, puede obtenerse uniendo los puntos medios de los techos de los rectángulos del histograma y tomando en cuenta que se deben extender ambos extremos del polígono hasta el eje horizontal en aquellos puntos que serían las marcas de clase adyacentes a cada extremo. A medida que crece el número de clases y de observaciones, el polígono se vuelve cada vez más suave y curvo. Este polígono suavizado recibe el nombre de curva de frecuencia. Al igual que sucede con los histogramas, tenemos el nombre del polígono según lo que se indique en el eje vertical; de esta forma tenemos polígonos de frecuencia, polígonos de frecuencia relativa y polígonos porcentuales. Una de las ventajas de los polígonos es que nos permite hacer la comparación entre dos o más conjuntos de datos.
85
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
hi
fi
Polígono de frecuencia relativa
Polígono de frecuencia
0,32 0,28 0,24 0,20 11,16 0,120,08 0,04 o kr. kr, 1.1
, C1*
Peso en Kilogramos
Peso en Kilogramos
Por último: %hi Polígono de frecuencia porcentual 32 \
28 24 20 16 12 //
40 r1'f
Sen
1
i
i
1
1
1
I., 1 4r7 1 •1 Iri .."") C—n Cr C' '.0". C? ,..., ..c. ..,o ,0 '.0
Peso en Kilogramos
1
\ 1
I, ' kr'
...-..i ....-■ r— I:—
86
OMAR JESÚS ALCALÁ VELASQUE
Tanto el histograma como el polígono de frecuencias nos permiten observar algunas características resaltantes de la serie (puntos altos, puntos bajos, puntos de concentración, tendencia de los valores, etc.) Aunque las dos representaciones son similares en su propósito, el histograma tiene la ventaja de que representa cada clase como un rectángulo, en el cual la altura de la barra representa la frecuencia absoluta asociada a dicha clase. A su vez, el polígono de frecuencias tiene la ventaja sobre el histograma de permitir comprar directamente dos o más distribuciones de la frecuencia6 . Ojiva Es la gráfica de una distribución de frecuencias acumuladas, los intervalos de las clases se ubican en el eje horizontal; las frecuencias acumuladas (ojiva propiamente dicha), las frecuencias relativas acumuladas (ojiva relativa) y las frecuencias acumuladas porcentuales (ojiva porcentual) se muestran en el eje vertical. Podemos construir ojivas "o más" o las ojivas "menor que", la diferencia entre ambas gráficas es que la primera tiene pendiente negativa y decrece, mientras que la segunda tiene pendiente positiva y crece. Se trabajarán ojivas del tipo "menor que" y, si para su construcción se está trabajando con límites reales e imaginarios, tomamos a los límites reales. La ventaja de trabajar con ellas es la facilidad (con respecto a otras gráficas) para interpolar entre los puntos trazados.
6 Para una mayor profundización de las semejanzas y deferencias de las gráficas de una distribución de frecuencias consultar.: Lind, Marchal y Wathen. Estadística Aplicada a los Negocios y la Economía. McGraw Hill, p. 35.
87 TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
..,....---' /
50 45 40 35 n 25 20 15 10 5
1,0 0,9 0,8 0,6 0,5 0,4 0,3 0,2 0,1 0
Ojiva
Fi
HiOjiva relativa
53 56 59 62 65 SS 71 74 Peso en Kilogramos
1 i 1i .
,i /
/ .. 53 56 59 62 65 os 71 74 Peso en Kilogramos
Por último: 9/0Hi 100 90 80 70 60 50 40
Ojiva porcentual
í
30
20 10 O 1 s3 56 59 62 65 6S 71 74
Peso en Kilogramos
88
OMAR JESÚS ALCALÁ VELASQUE
Á EJERCICIOS COMPLEMENTARIOS DISTRIBUCIONES DE FRECUENCIAS
1) La tabla muestra una distribución de frecuencias de la duración de 400 tubos de radio comprobados en la L & M Tube Company. Duración (horas)
Número de tubos
[300-400) [400-500) [500-600) [600-700) [700-800) [800-900) [900-1.000) [1.000-1.100) [1.100-1.200)
14 46 58 76 68 62 48 22 6 n = 400
Completar la tabla para luego determinar: a. Límite superior de la quinta clase b. Límite inferior de la octava clase c. Marca de clase de la séptima clase d. Tamaño del intervalo de clase e. Frecuencia de la cuarta clase f.
Frecuencia relativa de la sexta clase
g. Porcentaje de tubos cuya duración es menor a las 600 horas h. Porcentaje de tubos cuya duración es mayor o igual a 900 horas i.
Porcentaje de tubos cuya duración es al menos de 500 horas pero menor de 1000 horas
89
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
j. Construir un histograma y un polígono de frecuencias k. Construir un histograma y un polígono de frecuencias relativas 1. Construir una ojiva porcentual m. Estimar el porcentaje de tubos con duraciones de menos de 560 horas n. Estimar el porcentaje de tubos con duraciones de 970 o más horas o. Estimar el porcentaje de tubos con duraciones entre 620 y 890 horas Respuestas: a. 800 hrs.
f 15,55%
n. 10,60%
b. 1.000 hrs.
g. 29,5%
o. 46,15%
c. 950 hrs.
h. 19,00%
d. 100 hrs.
i. 78,00%
m. 23,70% e. 76 tubos 2) Los diámetros interiores de las arandelas producidas por una compañía pueden medirse con una aproximación de milésimas de pulgada, si las marcas de clase de distribución de frecuencias de estos diámetros vienen dadas en pulgadas por los números: 0,321; 0,324; 0,327; 0,.330; 0,333 y 0,336. Respuestas: a.El tamaño de intervalo de clase a. 0,003 pulg. 6.0,3195; 0,3225; 0,33255; ...; b. Los límites reales de clase 0,3375 pulg. c. 0,320-0,322; 0,323-0,325; 0,326c. Los límites imaginarios de clase 0,328; ...; 0,335-0,337 3) La siguiente tabla muestra los diámetros en pulgadas de nuestra muestra de 60 cojines de bolas fabricados por una compañía. Hallar:
90
OMAR JESÚS ALCALÁ VELASQUE
0,738
0,729
0,743
0,740
0,736
0,741
0,728
0,737 0,736
0,736 0,742
0,735 0,740
0,724 0,728
0,733
0,730 0,732
0,732
0,730
0,739 0,734
0,737
0,731
0,735
0,745 0,733 0,735 0,732
0,735
0,727 0,746
0,735 0,742 0,725
0,731 0,736 0,733
0,726
0,737
0,739 0,734
0,735 0,732
0,734 0,732
0,738
0,739
0,736
0,741
0,727 0,736
0,735 0,744
0,735
0,729
0,734
0,730
0,740
0,738
Construir una tabla de distribución de frecuencias (con límites reales e imaginarios) de los diámetros y grafique: a. Un histograma b. Un polígono de frecuencias relativas c. Una ojiva y una ojiva porcentual Determinar: d. El porcentaje de cojinetes de bolas que tienen diámetros superiores a 0,732 pulgadas e. El porcentaje de cojinetes de bolas que tienen diámetros no superiores a 0,736 pulgadas f. El porcentaje de cojinetes de bolas que tienen diámetros entre 0,730 y 0,738 pulgadas 4) A continuación, se ofrece una distribución de frecuencia del peso de 150 personas que utilizaron un elevador cierto día.
91
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
Clase [75-90) [90-105) [105-120) [120-135) [135-150) [150-165) [165-180) [180-195) [195-210) [210-225)
fi 10 11 23 26 31 23 9 9 6 2
Construya un histograma con esos datos. 5) Homero Willis, capitán de un barco pesquero de Salter Path (North Carolina) tiene la creencia de que la pesca mínima para recuperar la inversión debe ser de 5.000 libras por viaje. A continuación tenemos los datos de una muestra de la pesca de 20 salidas al mar que el barco de Homero ha hecho recientemente: 6.500 7.000 4.600 4.800
6.700 5.600 8.100 7.000
3.400 4.500 6.500 7.500
3.600 8.000 9.000 6.000
2.000 5.000 4.200 5.400
Tomando 4 clases y con una amplitud de 2.000, construya una tabla de distribución de frecuencias y una ojiva que le ayude a contestar las siguientes preguntas: a. ¿Aproximadamente qué proporción de los viajes recupera y sobrepasa la inversión según Homero? b. ¿Que pescas del barco de Willis superan el 20%? Respuestas: a. Aproximadamente 0,325 b. Aproximadamente 4.300 libras.
92
OMAR JESÚS ALCALÁ VELASQUE
6) Antes de construir una presa sobre un río, se efectuaron una serie de pruebas para medir el flujo de agua que pasa por el lugar de la presa. Los resultados de las pruebas se usaron para preparar la siguiente distribución de frecuencia: Flujo del río (miles de galones por minuto) [1.001-1.051) [1.051-1.101) [1.101-1.151) [1.151-1.201) [1.201-1.251) [1.251-1.301) [1.301-1.351) [1.351-1.401)
Frecuencia 7 21 32 49 58 41 27 11
n = 246 a. Con los datos de la tabla anterior construya una distribución de frecuencias. b. Construya una ojiva relativa. c. Por medio de la ojiva relativa, estime qué proporción del flujo ocurre en menos de 1300 galones por minuto. R: c) 0,842 7) Nora Velarde, asesora de una pequeña empresa de corretaje, intenta diseñar programas de inversión que fuesen atractivos para jubilados. Ella sabe que si un inversionista potencial pudiera obtener un cierto nivel de intereses, estaría dispuesto a invertir su capital, pero debajo de un cierto nivel de intereses, no estaría dispuesto a hacerlo. De un grupo de 50 sujetos, Nora obtuvo los datos siguientes con respecto a los diferentes niveles de créditos requeridos por cada individuo para que pueda invertir 1.000 dólares:
93
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
Punto de diferencia ($) [70 - 75) [75 - 80) [80 - 85) [85 - 90) [90 - 95) [95 - 100) [100 - 105) [105 - 110)
fi 2 5 10 14 11 3 3 2
n = 50 a. Construya la distribución de frecuencia acumulativa. b. Grafique la distribución de la parte (a) convirtiéndola en ojiva de frecuencia relativa. 8) En la oficina de un diario, el tiempo que se tardan en imprimir la primera plana fue registrado durante 50 días. A continuación se transcriben los datos, aproximados a décimas de minuto: 20,8 25,3 23,7 21,3 19,7
22,8 20,7 20,3 21,5 24,2
21,9 22,5 23,6 23,1 23,8
22,0 21,2 19,0 19,9 20,7
20,7 23,8 25,1 24,2 23,8
20,9 23.3 25,0 24,1 24,3
25,0 20,9 19,5 19,8 21,1
22,2 22,9 24,1 23,9 20,9.
22,8 23,5 24,2 22,8 21,6
20,1 19,5 21,8 23,9 22,7
Construya con los datos una tabla de distribución de frecuencia, usando intervalos de 0,8 minutos. a. Construya un polígono de frecuencias. - \-\
cnt1CA
b. Construya una ojiva. c. Por medio de la ojiva estime qué porcentaje de las veces la primera plana del periódico puede imprimirse en menos de 24 minutos. R: c) aproximadamente un 75,5%.
94
OMAR JESÚS ALCALÁ VELASQUE
9) Un agente de seguros tiene datos sobre la cantidad mensual de pólizas que vendió en los 3 últimos años. Sus datos los ha arreglado en la siguiente distribución de frecuencia: Ventas mensuales [1.000-1.150) [1.150-1.300) [1.300-1.450) [1.450-1.600) [1.600-1.750) [1.750-1.900) [1.900-2.050) [2.050-2.200)
f 1 3 6 4 8 9 3 2
a) Construya una distribución de frecuencias relativas. b) Construya un histograma de frecuencia relativa y un polígono de frecuencias relativas. c) Construya una ojiva porcentual. 10) Una compañía fabrica 15 productos básicos. La compañía conserva el registro del número de cada producto fabricado por mes, a fin de examinar los niveles relativos de producción. Los registros muestran que los siguientes números de cada producto fueron fabricados por ella en el último mes de 20 días laborables: 9.897 10.098 10.123
10.052 10.587 10.507
10.028 9.872 9.910
9.722 9.956 9.992
9.908 9.928 10.237
Construya una tabla de distribución de frecuencias tomando en cuenta: 5 intervalos, a = 200, li = 9.700. a. Construya una ojiva para responder. (1) ¿En cuántos de sus artículos la producción rebasó el punto de equilibrio de 10.000 unidades?
95
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
(2) ¿Qué nivel de producción alcanzó el 25% de sus productos en el mes? R: (1) Entre 7 y 8 productos (2) Aproximadamente 9.919 unidades. 11) En una población estudiada, hay 2.000 mujeres y 8.000 hombres. Si queremos seleccionar una muestra de 250 individuos en dicha población. ¿Cuántos deberán ser mujeres para que la muestra sea considerada representativa? R: 50. 12) Si los siguientes grupos de edad están incluidos en las proporciones indicadas. ¿Cuántos individuos de cada grupo deben ser incluidos en una muestra de 2.500 personas para que la muestra sea representativa? Grupo de edad [12-18) [18-24) [24-30) [30-36) Más de 36
hi 0,1300 0,3400 0,2400 0,1800 0,1100
13) La Kawahondi Computer Company recopiló datos referentes al número de entrevistas que necesitaban sus 40 vendedores para realizar una venta. A Continuación se da una distribución de frecuencias absolutas y relativas del número de entrevistas que se necesitan por vendedor para lograr una venta. Anote los datos faltantes:
96
OMAR JESÚS ALCALÁ VELASQUE
Números de entrevistas [1-11) [11-21) [21-31) [31-41) [41-51) [51-61) [61-71) [71-81) [81-91) [91-101)
fi ? 0 2 ? ? ? 5 ? 5 ?
h. 0,0500 ? ? ? 0,1500 0,2000 ? 0,0000 ?
0,0000
14) Bill Bissey, vicepresidente del Bank One de Indianápolis, lleva un control de la aprobación de préstamos para el desarrollo de empresas locales. A lo largo de los cinco últimos años el préstamo de mayor cuantía fue de 1.2 millones de dólares y el más pequeño de 10.000 dólares. Desea construir una tabla de frecuencias con 10 clases. a) ¿Cuáles serían los límites de las clases? b) ¿Cuál sería el intervalo de clase? 15) Mr. Bissey, el vicepresidente del Bank One de Indianápolis, lleva también un registro de las cuentas de ahorro personal. Los saldos de las 40 nuevas cuentas que se abrieron el último mes fueron: 179,80 112,17 1.150,00 100,00 1.009,10 1.212,43 470,53 780,00 352,00 1.595,10
890,00 1.200,00 1.482,00 695,15 952,51 510,52 783,00 793,10 937,01 217,00
712,10 293,00 579,00 287,00 1.112,52 1.394,05 1.101,00 501,01 711,11 1.202,00
415,00 602,02 312,52 1.175,00 783,00 1.390,00 666,66 1.555,10 1.422,03 1.273,01
97
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
Construir una tabla de distribución de frecuencias con siete clases. 16) Suponga que usted es el estadístico oficial de líneas aéreas KLM y que el presidente del consejo de administración le ha pedido que recoja y organice datos relativos a las operaciones de vuelo. Su interés principal a partir de los valores diarios se centra en la variable de número de pasajeros. Ha obtenido estos datos de los diarios de vuelo de los últimos 50 días y ha reflejado esta información: 68 71 77 83 79
72 74 57 67 69
50 60 70 66 76
70 84 59 75 94
65 72 85 79 71
83 84 74 82 97
77 73 78 93 95
78 81 79 90 83
80 84 91 101 86
93 92 102 80 69
a) Construir la tabla de distribución de frecuencias (trabaje con límites reales). b) Construir un histograma y un polígono de frecuencias. c) Construir una ojiva. 17) A continuación se indican las pérdidas y ganancias, en millones de dólares, de las 50 mayores empresas (por ventas) de la lista de 500 de Fortune en 1.992. El valor más bajo es una pérdida de 4.453 millones de dólares y el más alto una ganancia de 5.600 millones. Construir una tabla de frecuencias de 8 clases, a = 1.500, li = -4.500 (trabaje con límites reales e imaginarios).
98
184,00 -387,00
OMAR JESÚS ALCALÁ VELASQUE
O C=> 0 CD O 0 (=', 0 C> O
r-i CY)‘ ..0 06 C-N1 NI: C) C \ Ln 1-1
CD
0
CD
0
0
OOOOO tr■ Ñ crc crc 06 cr. N1-1 O t-, ■ .D -, (--,1 er-.
y—I
O 0 0 CD 0 O O 0 O 0 C) 0 ''' NI-1 \ 5 C•1 G. '‘ cec 1/1 0 0 N1'' CD CD 00 N. I'`,
O CD O 0 C:) CD O CD 0 , CD 0 CD ■ 5 C:;‘ ,-..-1 06 cec
..0
y-Y..4
t<
en C.- ,I el tn 1.-••4 1-1
0 0 CD C) C> CD CD O 0 O 0 CD t<
C \ d ce) tr1 '
Ir) C. \ re)
\..9
r-'
C)
C,i 0 C.> CD CD 0 0 CD C) 0 CD 0 0 ,
N1 t< en
I
-i _¿ y-4 1-1 y—I t.C1 00 0 00
1
Y-1 1-1
1-1
CD CD CD C:) 0 0 0 0 C:) 0 CD 0 —i ds d ■ 06 CC) N N 00 1-,
''. y—I I
1r1 c) c) Ni-, I•n 1-4 I'
0 0 CD 0 0 CD O 0 CD O 0 0 Crc d 06 t< NI' '' trc tr1 O 1 h, \D N 00 ('',
I.r) C•I C1 C'■
1 - trl (-Ni 1 cNi 1 —1
i
99
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
18) Usted, en su calidad de consultor económico privado, considera necesario leer detenidamente The Wall Street Journal para estar al corriente en su campo profesional. En un reciente informe del WSJ se facilitaban los siguientes datos como porcentajes de ejecutivos en 42 de las mayores empresas de Estados Unidos que tenían problemas de abuso de medicamentos: 5,9 17,5 10,3 12,7 8,4 9,1
8,8
14,3
8,3
9,1
5,1
15,3
17,3 11,5
15,0 17,0
9,9 7,2
7,0 13,7
8,7 9,8 12,3
6,5 7,3
9,3 8,5 6,8 10,0
13,4 11,0
8,5
16,0
10,2
5,5 13,2 11,7
16,7 16,3 15,2 16,3 14,2
a) Construir un diseño de tallo y hojas. b) Construir el histograma correspondiente c) Construir la distribución de frecuencias (trabaje con límites reales e imaginarios) y encontrar las marcas de clase d) Construir el polígono de frecuencias e) Construir una distribución de frecuencias acumuladas y su ojiva correspondiente 19) Según Nielsen Media Research, los cinco programas de TV más vistos a las 8 : 00 PM del 14 de Diciembre de 1997 fueron Congo, The X-Files, Holiday in Your Heart, Ellen Foster y por último Unhappily Ever After. La lista siguiente es una encuesta entre 50 espectadores:
1 00 OMAR JESÚS ALCALÁ VELASQUE
Unhappily Ellen Congo Ellen Ellen Holiday Holiday Congo Con go Ellen
Ellen Ellen Holiday Ellen Ellen X-Files Ellen Holiday Congo Unhappily
Congo X-Files Congo X-Files Holiday X-Files Holiday Congo Ellen Holiday
X-Files Ellen Ellen X-Files Holiday Ellen X-Files X-Files X-Files Congo
X-Files X-Files X-Files Holiday X-Files Ellen Holiday Ellen Holiday Ellen
a) ¿Los datos son cualitativos o cuantitativos? b) Determine la tabla de distribución de frecuencias. c) Trace una gráfica de barras y un diagrama de pastel para estos datos. d) De acuerdo con la muestra: ¿Qué programa tiene la mayor parte del mercado? ¿Cuál lo sigue? e) ¿Qué porcentaje tiene el programa Congo? 20) En Beverage Digest se informa que, con base en las ventas de 1998, las 5 marcas de refrescos que más Se vendieron fueron Coke Classic, Diet Coke, Dr. Pepper, Pepsi Cola y Sprite. La lista siguiente proviene de una muestra de 50 compras de esas marcas:
101
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
Dr. Pepper Coke Classic Diet Coke Diet Coke Pepsi Cola Pepsi Cola Pepsi Cola Diet Coke Coke Classic Coke Classic Coke Classic Dr. Pepper Pepsi Cola Sprite Coke Classic Dr. Pepper Coke Classic Pepsi Cola Diet Coke Coke Classic
Sprite Coke Classic Diet Coke Coke Classic Coke Classic Sprite Pepsi Cola Dr. Pepper Coke Classic Diet Coke
Pepsi Cola Coke Classic Coke Classic Diet Coke Coke Classic Coke Classic Coke Classic Diet Coke Pepsi Cola Coke Classic Coke Classic Sprite Coke Classic Pepsi Cola Dr. Pepper Pepsi Cola Pepsi Cola Pepsi Cola Sprite Pepsi Cola
a) Construir la tabla de distribución de frecuencias b) Construir una gráfica de barras y un diagrama de pastel c) ¿Qué porcentaje de las ventas tienen Pepsi Cola y Coke Classic? R: Pepsi: 26% y Coke Classic: 38% 21) El Union Bank de Suiza realizó una encuesta internacional para obtener datos acerca de los sueldos por hora de los trabajadores y empleados en todo el mundo. Los trabajadores en Los Ángeles ocuparon el séptimo lugar en el mundo, en términos de mayores salarios por hora. Suponga que los siguientes 25 valores son de sueldos por hora de trabajadores en Los Ángeles: 11,50 11,90 13,10 8,40 9,90
9,20 11,75 6,85 9,15 10,05
15,35 12,05 10,25 11,10 8,45
8,00 14,70 5,85 13,65 13,15
9,80 7,05 13,10 9,05 6,65
Elabore una tabla de distribución de frecuencias que use clases de 4,00 a 5,99 ; 6,00 a 7,99 y así sucesivamente. a) Trace un histograma y un polígono de frecuencias.
102
OMAR JESÚS ALCALÁ VELASQUE
22) Suponga que se administra un test de aptitud a todos los aspirantes a puestos oficiales de una región. Se elige al azar una muestra de 50 aspirantes y estos son los resultados: 77 29 34 54 38
44 41 47 50 45
49 45 66 51 51
33 32 53 66 44
38 83 55 80 41
33 58 58 73 68
76 73 49 57 45
55 47 45 61 93
68 40 61 56 43
39 26 41 50 12
a) Construya una tabla de distribución de frecuencias. b) Construya el histograma y el polígono de frecuencias. c) Construya la ojiva. 23) En una empresa el personal se distribuye de acuerdo con su actividad desarrollada en la misma, como se indica a continuación: Actividad Profesional Técnica Operario Ayudante Aseo
Porcentaje 8% 10% 70% 10% 2%
Construya un gráfico circular para ilustrar la situación. 24) Los datos que se muestran a continuación, son los cargos (en miles de bolívares) por los servicios de electricidad, agua y gas durante el mes de julio del 2000 para una muestra de 50 apartamentos de 3 habitaciones en Caracas: 96 157 141 95 108
171 185 149 163 119
202 90 206 150 183
178 116 175 154 151
147 172 123 130 114
102 111 128 143 135
153 148 144 187 191
197 213 168 166 137
127 130 109 139 129
82 165 167 149 158
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
103
Elaborar: a) Un diagrama de tallo y hoja ordenado b) Una tabla de distribución de frecuencias (trabaje con límites reales e imaginarios) c) Un histograma y un polígono de frecuencias d) Un histograma porcentual e) Una ojiva Determinar: a) El porcentaje de apartamentos cuyo gasto no llega a 139 dólares b) El porcentaje de apartamentos cuyo gasto es mayor o igual a 158 dólares c) El porcentaje de apartamentos cuyo gasto es al menos de 120.000 bolívares, pero menor de 196.000 bolívares d) El porcentaje de apartamentos con gastos menores de 135.000 bolívares e) El porcentaje de apartamentos con gastos de 186.000 bolívares o más f) El porcentaje de apartamentos con gastos entre 140.000 y 184.000 bolívares 25)Los datos que se muestran a continuación, muestran la tasa (porcentaje) de estructura de la fecundidad (por mil mujeres) en Venezuela, en los años 1995, 2000 y 20027.
7 Instituto de Investigaciones Económicas y Sociales. UCAB. Temas de Coyuntura. N° 50. Diciembre 2004.
104
OMAR JESÚS ALCALÁ VELASQUE
Estructura 15 — 19 20 — 24 25 — 29 30 — 34 25 — 39 40 — 44 45 — 49
1995 15,5 28,2 24,4 17,6 10,2 3,5 0,2
2000 17,4 27,4 24,8 17,2 9,4 3,2 0,5
2002 17,4 28,0 24,1 17,5 9,5 3,1 0,5
Suponiendo que el número de mujeres en Venezuela es de 100.000: a) Construya una distribución de frecuencias para cada año contemplado en la tabla. b) Construya una ojiva porcentual para el año 1995. c) Construya un histograma porcentual para el año 2002. 26) El INE (Instituto Nacional de Estadística) maneja los siguientes datos de alumnos matriculados por nivel educativo en el año escolar 2002/20038 . Alumnos matriculados por nivel educativo Preescolar Básica 1 a 9 grado Media diversificada y profesional
Año Escolar 2002 - 2003 882.095 4.76.445 512.371
Construya un gráfico circular 27) La siguiente tabla muestra la población proyectada, por grupos de edad en algunos países de América Latina9, en miles de personas a mitad de año.
8 INE. Republica Bolivariana de Venezuela en cifras. N°2. 2005. 9 CEPAL. Anuario Estadístico de América Latina y el Caribe 2004.
105
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
Grupos de edad 0—4 5—9 10 — 14 15 — 19 20 — 24 25 — 29 30 — 34 35 — 39 40 — 44 45 — 49 50 — 54 55 — 59 60 — 64 65 — 69 70 — 74 75 — 79
Belice 33 32 32 29 27 23 20 16 13 11 8 6 4 4 3 2
Costa Rica 392 406 428 446 411 361 311 316 303 254 196 144 107 84 64 48
Venezuela 2.843 2.744 2.717 2.697 2.461 2.230 1.918 1.819 1.672 1.372 1.168 929 678 491 374 271
México 10.892 10.954 10.858 10.351 9.675 9.531 9.163 7.573 6.207 5.236 4.225 3.301 2.619 1.992 1.502 1.039
a) Construya un diagrama de barras para cada país. b) Construya un gráfico circular que muestre el porcentaje del total de personas proyectadas de cada país colocado en la tabla. c) Construya un polígono de frecuencia para Belice. d) Construya una ojiva porcentual para Costa Rica, y calcule con base en ella, el porcentaje de personas mayores de 32 arios. 28) Un asesor de negocios pequeños investiga el desempeño de varias compañías. Las ventas durante 2003, (en millones de bolívares) para las compañías seleccionadas, fueron:
106
OMAR JESÚS ALCALÁ VELASQUE
Venezolana de Cementos Manpa CA
Venta del cuarto trimestre (MM de Bs) 1.645,2 4.757
Acero de Venezuela Eleoriente Capas Falcón Big Cola de Venezuela
8.913 627,1 24.612 191,9
Compañía
El asesor quiere incluir en su informe una gráfica que compare las ventas de las seis compañías. Utilice una gráfica de barras para comparar las ventas del cuarto trimestre de estas compañías y escriba un breve informe resumiendo las gráficas de barras. 29) El histograma siguiente muestra el peso, en Kilogramos, de un grupo de alumnos del primer semestre de administración:
20
1S1
Frecuencia
14 12 10 8
4 2
44 4
5r1 S E. E 6J &3 61..
F'eso
fa
7e1 7'5 7 7:5
107
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
a) ¿Cuántos estudiantes se tomaron para la muestra? b) ¿Cuántos estudiantes tienen un peso superior a 63 kilos? c) ¿Qué porcentaje de estudiantes tiene un peso mayor o igual a 68 Kilogramos? 30) La siguiente tabla presenta la cantidad de minutos que un grupo de ejecutivos de la industria automotriz invierte para ir de casa al trabajo. 23 33 29 28 36
35 16 42 23 38
19 31 32 43 26
21 37 42 41 25
28 31 25 26 48
a) ¿Cuántas clases recomendaría? b) ¿Qué intervalo de clase sugeriría? c) ¿Cuál recomendaría usted que fuera el límite inferior de la primera clase? d) Organice la información en una distribución de frecuencias. e) Comente sobre la forma de la distribución de frecuencias. 31) Completa las siguientes tablas: a. Li
i
xi
.
Fi 5
Hi. 0.273
173 5
0.491 36
320 12
108
OMAR JESÚS ALCALÁ VELASQUE
b. Fi 9.5
hi%
Hi
12 51 35.5 90 34.5
200
f. xi 59.5 109.5
Fi
hi o
Hi %
x 32.5 70
3x 357 8 11
400
32) La siguiente tabla muestra refleja el consumo en litros por semana de una bebida gaseosa en un grupo de 40 personas. xi
Fi
hi%
Hi
Hi %
4 1.495
0.175 52.5 0.825 5 1.72
a. Completa la tabla b. Construya el histograma y el polígono de frecuencia.
CAPĂ?TULO
III I . Medidas de tendencia central II. Medidas de variabilidad III. Medidas de sesgo y curtosis
Se ha visto que los métodos gráficos son extremadamente útiles para lograr una descripción de los datos y es por esto que las representaciones resultantes de las distribuciones de frecuencia nos permitieron discernir las tendencias y patrones de los datos; sin embargo, los métodos gráficos presentan limitaciones cuando se desea tener una mayor exactitud; motivo por el cual, si necesitamos de medidas más exactas de un conjunto de datos, recurrimos a números individuales, llamados estadísticos resumidos. Mediante estos estadísticos podemos describir ciertas características del conjunto de datos que nos permitirán tomar decisiones más rápidas y satisfactorias. Las características más resaltantes para el estudio son: 1)Medidas de tendencia central 2) Medidas de variabilidad 3) Medidas de sesgo y de curtosis 1. MEDIDAS DE TENDENCIA CENTRAL
PROMEDIO
Es un valor típico o representativo de un conjunto de datos. Como tales valores tienden a situarse en el centro del conjunto de datos ordenados según su magnitud; los promedios se conocen también como medidas de centralización o de tendencia central.
112
OMAR JESÚS ALCALÁ VELASQUE
Entre las medidas de tendencia central tenemos: LA MEDIA ARITMÉTICA
Es aquella que representa el promedio aritmético de un conjunto de observaciones, la misma actúa como punto de equilibrio, de manera que las observaciones menores equilibran a las mayores. { x cuando sea para una muestra Notación
pt cuando sea para una población
Fórmulas: Datos no agrupados X +X +X X 1 2 3 ••• n
n
i=1
Datos agrupados
1x' *fl x, *f, + x2 * f2 + x, *f, +...+xg *fg
= i=1
N
f =n
Xi m= i=i
xi son las marcas de clase fi son las respectivas frecuencias absolutas
N
Para los datos agrupados, se calcula una estimación del valor de la media ya que al agrupar por clases no conocemos los valores individuales de cada observación, solo que para facilitar los cálculos se ha de renunciar a la exactitud. 0 Ejemplo 1 Calcular la media aritmética de 8, 3, 5, 12, 10: 8+3+5+8+10 m= = 7,6 5
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
113
LA MEDIA ARITMÉTICA PONDERADA
A veces se asocia a los números de un conjunto de datos, ciertos factores o pesos y es por ello que la media aritmética ponderada es un promedio que se calcula a fin de tener en cuenta la importancia de cada valor para el total global. Notación: x w Fórmula: k 1w. * x.
xw = i=1 wi
w l * x1 +w 2 * x 2 +w 3 * x 3 +...+w k *x k wl ±w 2 ±w3 ±-±w k
i=1
Al calcular la media aritmética a partir de datos agrupados en realidad obtuvimos la media aritmética ponderada utilizando las marcas de clase para los valores de "x" y las frecuencias de cada clase como los pesos, en ese caso E = rwi. 0 Ejemplo 2
Si un examen final de curso se valora como 3 veces los exámenes parciales y un estudiante tiene una nota de examen final de 85 y notas de exámenes parciales de 70 y 90, calcular su nota final.
xw =
1*70 +1*90 + 3*85 1+1+3
=83 puntos
0 Ejemplo 3 Del ejemplo 3 del capítulo II sobre el investigador que deseaba determinar cómo variaban los pesos de los obreros de una empresa y
114
OMAR JESÚS ALCALÁ VELASQUE
tomaba una muestra de 50 hombres para registrar luego sus pesos en kilogramos, se había obtenido la siguiente tabla 21 : li -1,,i
fi
xi
[53 - 56) [56 - 59) [59 - 62) [62 - 65) [65 - 68) [68 - 71) [71 - 74)
2 5 9 15 12 5 2
54,5 57,5 60,5 63,5 66,5 69,5 72,5
Fi 2 7 16 31 43 48 50
hi 0,0400 0,1000 0,1800 0,3000 0,2400 0,1000 0,0400
% hi 4 10 18 30 24 10 4
Hi 0,0400 0,1400 0,3200 0,6200 0,8600 0,9600 1,0000
% Hi 4 14 32 62 86 96 100
Para calcular la media, debemos agregar una nueva columna: 1, -1i+1 [53 - 56) [56 - 59) [59 - 62) [62 - 65) [65 - 68) [68 - 71) [71 - 74)
f 2 5 9 15 12 5 2
xi
xi * fi
54,5 57,5 60,5 63,5 66,5 69,5 72,5
109,0 287,5 544,5 952,5 798,0 347,5 145,0 E= 3.184
x=
3184 = 63,68 Kg 50
Interpretación: en promedio, los obreros presentaron un peso de 63,68 Kg. 1 Una desventaja en el uso de la media para distribuciones de frecuencias, se presenta en aquellas que poseen clases de extremo abierto en la parte inferior o superior de la escala. Para mayor información ver Levin, Rubin, Balderas, Del Valle y Gómez. Estadística para Administración y Economía. Prentice Hall, p. 65.
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
115
• Observaciones sobre la media aritmética 1. Es una medida que toma en consideración todos los valores de la distribución. Esto es positivo, pero por la misma razón es muy sensible a la presentación de observaciones extremas o anómalas que hacen que la media se desplace hacia ellas. En consecuencia no es recomendable usar la media como medida de tendencia central en los casos en los cuales el conjunto de datos no es homogéneo, pues la cantidad obtenida no es representativa del total de los datos. 2. Tiene la ventaja de que es única y siempre se puede calcular (si no hay intervalos con límites tanto inferior como superior no cuantificado). 3. El valor de la media aritmética puede no coincidir con los valores de la variable. • Algunas propiedades de la media aritmética2: 1. La suma algebraica de las desviaciones de un conjunto de números con respecto a su media aritmética es cero. 1=1
(xi —X/
O
2. La media aritmética de una constante es igual a la constante. 3. La media de la suma de dos o más variables es igual a la suma de las medias de dichas variables. X(xi+yi = X xi -E- X yi 4. Si a cada valor de la serie se le agrega una constante, la media de la nueva serie es igual a la media de la serie original más 2 Ver Lind, Marchal y Wathen. Estadística Aplicada a los Negocios y la Economía. McGraw Hill, p. 59. Para este autor la media pude considerarse como un punto de equilibrio de los datos.
116
OMAR JESÚS ALCALÁ VELASQUE
la constante. Igual sucede si a la media se le resta una constante. x= (x.+ k) =x x.+ k
x=(x.+ k) =x x.- k
5. Media de medias: Si fi números tienen-de media m1, f2 números tiene de media m2 ,..., fk números tienen de media mk, entonces la media de todos los números es: Xw =
f l *m1 -Ef 2 * m 2 --Ef3 * in 3 +
k *in k
fl + f2 + f3 ±-±fk
es, decir, la media aritmética ponderada de todas las medias. LA MEDIA GEOMÉTRICA Es una medida de tendencia central que se usa cuando se desea encontrar el promedio de porcentajes, razones, índices o tasas de crecimiento. Se utiliza ampliamente en los negocios y la economía porque frecuentemente interesa conocer el cambio porcentual en ventas, sueldos o cifras económicas (como el producto nacional bruto). El cálculo de la media geométrica es una buena forma de tomar en cuenta efectos multiplicativos como la inflación o el interés compuesto. Notación: MG o G o xg
117
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
Fórmulas: Datos no agrupados MG = .i/x1 *x 2 * x 3 * -- - * x
Datos agrupados mG = 1,11,c fl * x f2 * x f3 * ..* xfg 1 2 g 3 • g /f * log xi MG = antilog i=1 n (
\
i xi son las marcas de clase fi son las respectivas frecuencias absolutas
0 Ejemplo 4 Del ejemplo 3 del capítulo II sobre el investigador que deseaba determinar cómo variaban los pesos de los obreros de una empresa y el cual tomaba una muestra de 50 hombres para registrar luego sus pesos en kilogramos, se había obtenido la siguiente tabla 2: li - li+i
fi
xi
F.
h.
% hi
Hi
% Hi
[53 — 56) [56 — 59) [59 — 62) [62 — 65) [65 — 68) [68 — 71) [71 — 74)
2 5 9 15 12 5 2
54,5 57,5 60,5 63,5 66,5 69,5 72,5
2 7 16 31 43 48 50
0,0400 0,1000 0,1800 0,3000 0,2400 0,1000 0,0400
4 10 18 30 24 10 4
0,0400 0,1400 0,3200 0,6200 0,8600 0,9600 1,0000
4 14 32 62 86 96 100
Para calcular la media geométrica3, debemos agregar una nueva columna: 3 El cálculo de la MG, no es conveniente para la distribución que hemos trabajado desde el inicio, su resolución es sólo ilustrativa del uso de la fórmula para datos agrupados.
OMAR JESÚS ALCALÁ VELASQUE
118
Ii - I, [53 — 56) [56 — 59) [59 — 62) [62 — 65) [65 — 68) [68 — 71) [71 — 74)
fi 2 5 9 15 12 5 2
xi
e log xi
54,5 57,5 60,5 63,5 66,5 69,5 72,5
3,4728 8,7983 16,0358 27,0416 21,8739 9,2099 3,7207
r= 90,153 MG = antilog 90'153 1- 63,5418 Kg 50 ❑ Ejemplo 5 El director ejecutivo de las líneas aéreas White-Knuckle desea determinar la tasa de crecimiento medio de los ingresos a partir de las cifras de la tabla. Si la tasa de crecimiento medio es inferior a la media del sector, que es del 10%, será preciso lanzar una nueva campaña de publicidad. ¿Será necesaria una nueva campaña?
Año Ingresos ($) 1992 50.000 1993 55.000 1994 66.000 60.000 1995 78.000 1996 En primer lugar, se debe determinar el porcentaje que los ingresos de cada año representan respecto de los obtenidos el año anterior. Para hallarlos, se dividen los ingresos resultando:
119
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
Año
Ingresos ($)
Porcentaje del año anterior
1992 1993 1994 1995 1996
50.000 55.000 66.000 60.000 78.000
55/50 = 1,10 66/55 = 1,20 60/66 = 0,91 78/60 = 1,30
MG = 4 1,10*1,20*0,91*1,3 = 1,1179 Este resultado indica un incremento medio del 11,79%; por lo que no es necesaria una nueva campaña. Como se ve, otra aplicación de la media geométrica es encontrar un aumento porcentual promedio en un intervalo de tiempo, también se pudo haber resuelto el problema usando la expresión: MG = n Valor al final del período —1, siendo n el número de años. Valor al principio del período
LA MEDIANA
Es el punto medio de un conjunto de datos representando el valor más central en dicho conjunto, por lo que deja por encima y por debajo la misma cantidad de datos (una vez que estos han sido ordenados). Geométricamente es el valor de "x" que corresponde a la vertical que divide al histograma en dos partes de igual área. Notación: Med
120
OMAR JESÚS ALCALÁ VELASQUE
Fórmulas: Datos no agrupados El valor de la mediana puede coincidir o no con un valor de la serie, todo depende si el número de datos es par o impar. Los pasos son: 1. Organizar por orden ascendente a los datos. 2. Utilizar la fórmula de posicio-
Datos agrupados
n -F Med =li+ 2 fmed
a
*a
en donde: li es el límite inferior (si se trabajan con límites imaginarios y reales, se toman los reales). Fa es la frecuencia acumulada anterior. n+1 f ed es la frecuencia absoluta del internamiento de punto: valo de la mediana. 2 para localizar el lugar que ocu- a es la amplitud. pa el valor de la mediana en el arreglo ordenado. Los pasos son: 3. Si el conjunto tiene un n número impar de elementos, 1. Calcular — 2 el de la mitad será la mediana, 2. Localizar ese valor en Fi, si si contiene un número par de no está, pasar al inmediato elementos, la mediana será el superior. Con esto se halla el promedio aritmético de los intervalo de la mediana. dos que se hallan en la mitad. Aplicar la fórmula sustituy3. endo los valores correspondientes.
0 Ejemplo 6 Datos no agrupados: Sean los números: 3, 4, 4, 5, 6, 8, 8, 8, 10. Usando la fórmula de posicionamiento, el valor ocupado por la posición mediana, entonces la respuesta es 6.
9 +1 = 5 sería la 2
121
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
Sean los números: 5, 5, 7, 9, 11, 12, 15, 18. Usando la fórmula de posicionamiento, el valor 8+1 = 4,5 daría la posición de la mediana; 2 como no hay esa posición, buscamos el promedio de los números que ocupan los puestos 4 y 5, dando como resultado que la mediana será 10. ❑ Ejemplo 7 Datos agrupados: Del ejemplo 3 del capítulo II sobre el investigador que deseaba determinar cómo variaban los pesos de las obreros de una empresa y el cual tomaba una muestra de 50 hombres para registrar luego sus pesos en kilogramos, se había obtenido la siguiente tabla 2: 1, - 1,+1
f
xi
Fi
hi
% hi
Fli
% Fli
[53 - 56) [56 - 59) [59 - 62) [62 - 65) [65 - 68) [68 - 71) [71 - 74)
2 5 9 15 12 5 2
54,5 57,5 60,5 63,5 66,5 69,5 72,5
2 7 16 31 43 48 50
0,0400 0,1000 0,1800 0,3000 0,2400 0,1000 0,0400
4 10 18 30 24 10 4
0,0400 0,1400 0,3200 0,6200 0,8600 0,9600 1,0000
4 14 32 62 86 96 100
Paso 1: n 50
7 =-2 =25 Paso 2: Como 25 no aparece en Fi, pasamos al inmediato superior: 31.
122
OMAR JESÚS ALCALÁ VELASQUE
Paso 3: 25- *3=63,8 kg Med=62+ 25-16 15 Interpretación: El 50% de los obreros tienen un peso igual o inferior a 63,8 Kg aproximadamente. • Observaciones sobre la mediana': 1. Como medida descriptiva, tiene la ventaja de no estar afectada por las observaciones extremas, ya que no depende de los valores que toma la variable, sino del orden de los mismos. Por ello, es adecuado su uso en distribuciones que presentan observaciones extremadamente grandes o pequeñas. 2. Puede ser calculada aún a partir de datos agrupados con clases abiertas. 3. Puede usarse con datos cualitativos. 4. No utiliza toda la información de los datos (solo los valores centrales). 5. Su mayor defecto es que no se ajusta fácilmente al cálculo algebraico, lo que hace que sea difícil de utilizar en otras áreas, como en la inferencia. 6. La mediana es única. LA MODA Es el valor de los datos que se presenta con la mayor frecuencia, por lo que representa el punto más alto en la curva de distribución de un conjunto de datos. 4 En general la mediana se puede calcular para todos los tipos de datos, excepto para los nominales. Lind, Marchal y Wathen. Estadística Aplicada a los Negocios y la Economía. McGraw Hill, p. 63.
123
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
Notación: Mo Fórmulas: Datos no agrupados
Datos agrupados
No hay fórmulas, solo ver cuál valor Al ,a o elemento es el que más se repite. M°=1 i+ vT-N __ li es el límite inferior (si se trabajan con límites imaginarios y reales, se toman los reales). Al es el valor que se obtiene a restar la finodal con la frecuencia anterior. A2 es el valor que se obtiene a restar la fmodal con la frecuencia siguiente. a es la amplitud.
Los pasos para calcular la moda con datos agrupados serían: 1.Ubicar la mayor fi para hallar el intervalo modal 2. Aplicar la fórmula
0 Ejemplo 8 Del ejemplo 3 del capítulo II sobre el investigador que deseaba determinar cómo variaban los pesos de los obreros de una empresa y el cual tomaba una muestra de 50 hombres para registrar luego sus pesos en kilogramos, se había obtenido la siguiente tabla 2: 1. - li+,
fi
xi
[53 — 56) [56 — 59) [59 — 62) [62 — 65) [65 — 68) [68 — 71) [71 — 74)
2 5
54,5 57,5 60,5 63,5 66,5 69,5 72,5
9
15 12 5 2
Fi 2 7 16 31 43 48 50
hi
% hi
Hi
% Hi
0,0400 0,1000 0,1800 0,3000 0,2400 0,1000 0,0400
4 10 18 30 24 10 4
0,0400 0,1400 0,3200 0,6200 0,8600 0,9600 1,0000
4 14 32 62 86 96 100
124
OMAR JESÚS ALCALÁ VELASQUE
Para calcular la moda: 1. Ubicamos la mayor frecuencia absoluta, en este caso es 15 y el mismo pertenece a la cuarta clase. 2. Aplicamos la fórmula: Mo=62+
15-9 *3=64kg (15-9) + (15-12)
Interpretación: la mayoría de los obreros tienen una estatura de 64 pulgadas aproximadamente. • Observaciones sobre la moda: 1. Se puede usar para datos cualitativos y cuantitativos. 2. Se puede emplear aunque existan clases abiertas en la distribución. 3. Puede no ser única, por ello, cuando los conjuntos de datos contiene 2, 3, o más modas, son difíciles de interpretar. 4. Puede que una distribución no tenga moda. 5. El intervalo modal es aquel que posee una barra en el histograma con mayor altura geométricamente, se calcula según la gráfica: fi
Mo
125
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
CUANTILES Si una serie de datos se colocan en orden de magnitud, el valor medio que divide al conjunto de datos en dos partes iguales es la mediana, por extensión de esta idea se puede pensar en aquellos valores que dividen a los datos en cuatro partes iguales, en cien partes iguales, etc. El nombre genérico es el de cuantil y el mismo se define como el valor bajo el cual se encuentra una determinada proporción de los valores de una distribución. Dentro de las medidas de los cuantiles tenemos:
Deciles: Son aquellos valores que dividen en diez partes iguales a un conjunto de datos ordenados. Se representan por DI , D2 , D3
,
....D9.
De esta manera tenemos que: - Dl (primer decil) es el valor por debajo del cual se encuentran como máximo el 10% de las observaciones, mientras que el 90% restante se sitúa por encima de él. - D2 (segundo decil) es el valor por debajo del cual se encuentran como máximo el 20%
de las observaciones, mientras que el 80%
restante se sitúa por encima de él. Y así sucesivamente.
Cuartiles: Son aquellos valores que dividen en cuatro partes iguales a un conjunto de datos ordenados. Se representan por Qi, Q2 , y Q3 . De esta manera tenemos que: -
(primer cuartil) es el valor por debajo del cual se sitúan
a lo sumo el 25% de las observaciones y por encima de éste el 75% restante.
126 OMAR JESÚS ALCALÁ VELASQUE
- Q2
(segundo cuartil) es el valor por debajo del cual se sitúan a lo sumo el 50% de las observaciones y por encima de este e sitú l 50% restante. Está justo en el centro y corresponde a la mediana - Q3 (tercer cuartil) es el valor por debajo del cual se sitúan a lo sumo el 75% de las observaciones y por encima de éste el 25% restante. •
Observación sobre los cuartiles:
Hay algunas variacioraes en las convenciones de cálculo de cuartiles ya que los valores reales calculados pueden variar un poco dependiendo de la convención seguida. Sin embargo, el objetivo de todos los procedimientos de cálculo de cuartiles es dividir los datos en aproximadamente cuatro partes iguales. Percentiles: Son aquellos valores que dividen a un conjuntod e datos ordenados en cien partes iguales. Se representan por P 1, P 2 manera tenemos que: •.... P,,. De esta - P, es el valor por debajo del cual se sitúa a lo sum o el 1% de lor u> datos y por encima de él tenemos el 99% restante. - P2 es el valor por debajo del cual se sitúan a lo sumo el 2% de los datos y por encima de él tenemos el 98% restante. Y así sucesivamente. En forma genérica el p-ésimo percentil es menos un "p" por ciento de los elementos tiene un valor tal que por lo
al menos, un (100-p) por ciento
valor o menos de los elementosdicho de
Es conveniente tomar Y así suces• ile 'se valor n lelvaindeente; el) cuenta que: D D D drernos-DioePsesild,„. o:: 1)20 , s trabaja ' .127 pasos para el dato _ upado upad ei, o e lo_s aagr calero d Percot 7 11 laQr. ° P25'
127
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
0 Ejemplo 9 * Para datos no agrupados: 1. Ordenar los datos de manera ascendente 2. Calcular el índice: i=
100 P
*
-
Si "i" es entero, el p-ésimo percentil es el promedio de los valores de los datos ubicados en los lugares "i" e "i +1".
-
Si "i" no es entero, se redondea. El valor entero inmediato mayor que "i" indica la posición del p-ésimo percentil.
Determinar el
P50
y el P85 de los datos siguientes:
2.350, 2.450, 2.550, 2.380, 2.255, 2.210, 2.390, 2.630, 2.440, 2.825, 2.420, 2.380. 1. Ordenamos de manera ascendente: 2.210, 2.255, 2.350, 2.380, 2.380, 2.390, 2.420, 2.440, 2.450, 2.550, 2.630, 2.825. Para P50'• 2. Calculamos "i": i= Como nos daría: P50-
es entero,
( 50 ) *12=6 100
P50
es el promedio de los 6° y 7°, luego
2.390+2.420 =2.405 2
128
OMAR JESÚS ALCALÁ VELASQUE
Para P85: 2. Calculamos "i": i=
85 10 0
*12=10,2
Como "i" no es entero, redondeamos. El lugar del P85 es el siguiente entero mayor que 10,2 es decir, el lugar 11. Esto nos daría que P85 = 2.630. ❑ Ejemplo 10:
* Para datos agrupados: a. Se aplica la fórmula: n*P F
P =li+
100
a
fp
*a
b. Para aplicar la fórmula, los pasos son: 1. Ubicar el resultado de n)K :' en F. 100 2. Si no está el valor, se pasa al inmediato superior. 3. Al ubicar el valor de Fi determinamos el intervalo de donde se obtendrán los datos para sustituir en la ecuación. Observación: si se trabaja con límites reales e imaginarios, se toman los reales. Por medio de los percentiles, se halla el valor de la variable para un porcentaje dado.
129
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
0 Ejemplo 11 Del ejemplo 3 del capítulo II sobre el investigador que deseaba determinar cómo variaban los pesos de los obreros de una empresa y el cual tomaba una muestra de 50 hombres para registrar luego sus pesos en kilogramos, se había obtenido la siguiente tabla 2: 1, -1.+1
fi
xi
Fi
li
% 11
Hi
°A Hi
[53 - 56) [56 - 59) [59 - 62) [62 - 65) [65 - 68) [68 - 71) [71 - 74)
2 5 9 15 12 5 2
54,5 57,5 60,5 63,5 66,5 69,5 72,5
2 7 16 31 43 48 50
0,0400 0,1000 0,1800 0,3000 0,2400 0,1000 0,0400
4 10 18 30 24 10 4
0,0400 0,1400 0,3200 0,6200 0,8600 0,9600 1,0000
4 14 32 62 86 96 100
a) Calcule e interprete el percentil 15 P15 = • 1 n*P = 50*15 = 7,5
• 100
100
2. P15 = 59 + 7'5-7 * 3 = 59,17 Kg 9 Interpretación: el 15% de los obreros tienen un peso de 59,17 Kg o menos. b) Calcule e interprete el primer cuartil = Q1 = P25
130
OMAR JESÚS ALCALA VELASQUE
1. n*P = 50 *25 = 12,5 100 100 2. 25
= 59+ 12,5-7 19
3=60,83 Kg
Interpretación: el 25% de los obreros tienen un peso de 60,83 Kg o menos. c) Calcular e interpretar el tercer decil. D D3 = P50 n*p _ 50*30 1 00 1. 1 00 P 3 0 = 59 +
15
15-7 *3= 61,67 K Kg 9
Interpretación: el 30% de los obreros tienen un peso de 61,67 Kg o menos. d) Determine el mínimo peso del 25% de los obreros más pesados. P75= 1 n*p _ 50'75 _ 100 100 37, 5 - 31 2. P_ 5 =6+ 37, *3= 66,63Kg 100 Interpretación: el 25% de los obreros de los obreros tienen un peso de 66,63 Kg o más. El hecho de calcular el percentil 75 y no el
131
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
25 se da por el hecho de que los percentiles son valores "menor que" o máximo, pero pueden medirse por su complemento "mayo que" con respecto al máximo valor porcentual 100%. • Rango Percentil Es una expresión mediante la cual podemos hallar el porcentaje, dado un valor de la variable. Dicha expresión se obtiene al despejar "p" en la fórmula de percentiles para datos agrupados, el proceso para hallar el rango percentil es: 1. Ubicar el valor de la variable que nos dan, en el intervalo que le corresponda 2. Una vez ubicado, podemos determinar l., f, etc, para sustituir en la fórmula: (Pp-li)*fi a + P=
*100
n
❑ Ejemplo 12
Del ejemplo 3 del capítulo II sobre el investigador que deseaba determinar cómo variaban los pesos de los obreros de una empresa y el cual tomaba una muestra de 50 hombres para registrar luego sus pesos en kilogramos, se había obtenido la siguiente tabla 2: 1. -1.+ ,
f
x.
F,
[53 - 56) [56 - 59) [59 - 62) [62 - 65) [65 - 68) [68 - 71) [71 - 74)
2 5 9 15 12 5 2
54,5 57,5 60,5 63,5 66,5 69,5 72,5
2 7 16 31 43 48 50
% h. 0,0400 0,1000 0,1800 0,3000 0,2400 0,1000 0,0400
4 10 18 30 24 10 4
% FI, 0,0400 0,1400 0,3200 0,6200 0,8600 0,9600 1,0000
4 14 32 62 86 96 100
132
OMAR JESÚS ALCALÁ VELASQUE
Hallar el porcentaje de obreros cuyos pesos son iguales o inferiores a 67 kilogramos: Ubicamos el valor de 67 en la tabla y vemos que corresponde a la 5'J clase. Sustituimos los valores: (67-65)*12 + 31 3 *100=78% P= 50 Interpretación: el 78% de los obreros tienen pesos iguales o inferiores a 67 Kg. DIAGRAMAS DE BLOQUES Y LÍNEAS O BOXPLOT En su forma más simple, el diagrama de bloques y líneas ofrece una representación gráfica de los datos a través de los cinco números de resumen: X menor, , )(mayor. Q2 , Pasos para construir un boxplot: 1) Construya una recta y marque en ella los 3 cuartiles. 2) Dibuje una caja sobre la recta con los extremos localizados en Q1 y Q3 . 3) Trace un segmento vertical por el punto correspondiente a la mediana dentro de la caja, así la línea de la mediana divide los datos en 2 partes iguales. 4) Se ubican los límites mediante el rango intercuartil: los límites están a 1,5*RI debajo de Q1 y a 1,5*RI arriba de Q3. Se considera que los datos fuera de estos límites son valores atípicos. 5) Se trazan dos líneas punteadas (extensiones o bigotes de la caja): una que va del centro de la primera vertical hasta el valor mínimo dentro de los límites, y la otra que va del centro
133
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
de la segunda vertical hasta el valor máximo dentro de los límites. 6) Se marcan con un asterisco las localizaciones de los valores atípicos. El lugar ocupado por la mediana dentro de la caja es un buen indicador de la simetría, así, mirando la caja, si la línea trazada por la mediana está en el centro la distribución de los datos entonces tiende a ser simétrica, si la línea mediana se acerca al límite inferior, hay indicios de asimetría positiva y si está cerca del límite superior hay indicios de asimetría negativa. Gráficamente:
Limite inferior
Limite sur, erior
xrrusic 1 , 5 4:R1
1 ,1-3":E:I
134
OMAR JESÚS ALCALÁ VELASCUE
Á. EJERCICIOS COMPLEMENTARIOS
MEDIDAS DE TENDENCIA CENTRAL
1) Hallar la media aritmética, la geométrica, la mediana y la moda de los ejercicios (1), (3), (4), (6), (8), (15) y (16) del capítulo II. 2) Hallar la media aritmética, la geométrica, la mediana y la moda de los números: 3, 5, 2, 5, 9, 5, 2, 8, 6. R: x = 5,10 MG = 4,56 H = 3,99 Med = 5 Mo = 5. 3) La tabla muestra el número de habitantes en Venezuela registrados en los censos de 1920 a 20015. CENSO
Número de Habitantes
1920 1926
2.479.525 2.814.131
1936
3.364.347
1941
3.850.771
1950
5.034.838
1961
7.523.999 10.721.522
1971 1981 1990 2001
14.516.735 18.105.265 23.054.210
Calcula el incremento porcentual medio de la Población Venezolana para el período que va de 1920 a 2001. 4) Las calificaciones de un estudiante en las 3 asignaturas del curso fueron 71, 78 y 89. a) Si los pesos asignados a cada asignatura son 2, 4, y 5 respectivamente, ¿cuál es el promedio adecuado para sus calificaciones? R: x = 81,72 puntos 5 Fuente: Atlas Práctico de Venezuela. Ediciones El Nacional. 2003, p. 30.
135
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
b) ¿Cuál será el promedio si todos los pesos fuesen iguales? R: x = 79,33 puntos. 5) La siguiente tabla muestra una distribución de la carga máxima en toneladas que soportan ciertos cables producidos por una compañía. Determinar la media de la carga máxima y la media geométrica: Máximo de carga
Número de cables
[9,3-9,8)
2
[9,8-10,3)
5
[10,3-10,8)
12
[10,8-11,3)
17
[11,3-11,8)
14
[11,8-12,3)
6
[12,3-12,8)
3
[12,8-13,3)
1
R: x= 11,14 Ton. MG = 11,12 Ton. 6) Una serie de números está formada por seis (6), siete (7), ocho (8), nueve (9), diez (10). .Cuál es su media aritmética? R: )7 = 8,25 7) Hallar 2 números cuya media aritmética es 9 y cuya media geométrica es 7,2: R: xl = 14,4 x, = 3,6 8) Un investigador obtuvo las respuestas siguientes a una de las preguntas incluidas en una encuesta de evaluación: totalmente en contra, en contra, ligeramente en contra, un poco de acuerdo, de acuerdo, altamente de acuerdo, totalmente
136
OMAR JESÚS ALCALÁ VELASQUE
de acuerdo. ¿Cuál es la mediana? R: un poco de acuerdo 9) El salario medio anual en una empresa es de $ 15.000. Los de hombres y mujeres fueron, respectivamente, de $ 15.600 y $12.600 en media. Hallar el porcentaje de mujeres empleadas en esa empresa. R: 20% 10) Un conjunto contiene 6 seises, 7 sietes, 8 ochos, 9 nueves y 10 dieses. ¿Cuál es su media aritmética? R: = 8,25 11) La siguiente tabla6 muestra el valor de las exportaciones venezolanas, en miles de dólares, por emisión de certificados de origen según mes de exportación. Año 2000-2005. Período Enero-Julio. Meses Enero Febrero Marzo Abril Mayo Junio
2000
2001
2002
2003
2004
276.279 24.3.978
236.079 326.112
308.764
247.736
405.730
501.302 587.194
382.072 297.485
308.293 304.170 344.697
392.094
285.543 289.446
339.593 362.156 416.175
315.394 298.648
475.554 375.270
421.806
301.545
418.201
403.027
2005
565.562
624.273
415.498
483.770
394.550 472.825
633.868 472.825
a) Calcule el valor promedio de las exportaciones en cada mes en los años contemplados en la tabla. b) Calcule la variación porcentual media de cada mes en los años contemplados en la tabla. 12) Una empresa constructora tiene 2 secciones A y B. Las distribuciones de ingresos diarios de sus empleados son los siguientes: Banco de Comercio Exterior de Venezuela. 2005.
137
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
Sección B
Sección A Ingresos ($)
Frecuencia
Ingresos ($)
Frecuencia
[80-100)
30
[60-90)
10
[100-120)
80
[90-120)
20
[120-140)
40
[120-150)
50
[140-160)
10
[150-180)
20
[160-180)
4
[180-210)
15
[180-200)
1
[210-240)
10
[240-270)
4
¿Cuál es el ingreso de las dos secciones en conjunto? R: Fc sección A = 115,57 $ Fc sección B = 148,02 $ Ingreso promedio pedido Rinedia = 129,80 $ 13)La fábrica promedio de telas Hayes ha elevado el costo del tul en un período que abarca los últimos 5 años en los siguientes porcentajes: Año 1989 1990 1991 1992 1993
Tasa de Interés (%) 5.0 10.5 9.0 6.0 7.5
¿Cuál es el aumento porcentual del costo del tul en ese período? R: 7,58%. 14) La distribución de frecuencia siguiente, representa los pesos en kilogramos de una muestra de paquetes transportados por una compañía aérea:
138
OMAR JESUS ALCALÁ VELASQUE
Pesos ( Kg)
f.
[ 10-11)
1
[ 11-12)
4
[ 12-13)
6
[ 13-14)
8
[14-15)
12
[15-16)
11
[16-17)
8
[17-18) [18-19)
7 6
[19-20)
2
Calcule la media, mediana y la moda de la muestra. R: x = 15,20 kg Me = 15,13 kg Mo = 14,80 kg. 15) Si el precio de un artículo se duplica en un período de 4 años, ¿cuál es el porcentaje medio de incremento anual? R: 18,9% 16)En 1970 y 1980 la población de EE.UU. era de 203,3 y 226,5 millones, respectivamente. a) Hallar el porcentaje medio de crecimiento anual b) Estimar la población den 1974 c) Si el porcentaje medio de crecimiento entre 1980 y 1990 es el la parte a), ¿cuál será la población en 1990? R: a) 1,086% b) 212,3 millones c) 252,3 millones 17)Un profesor decide utilizar un promedio ponderado para obtener las calificaciones de los estudiantes que acuden al seminario que imparte. El promedio de tareas tendrá un valor
139
TÓPICOS DE ESTADISTICA APLICADOS A LAS CIENCIAS SO IA1 f ;-;
de 20% de la calificación del estudiante, el examen semestral 25%, el examen final 35%, el artículo de fin de semestre 10% y los exámenes parciales 10%. A partir de los datos siguientes, calcule el promedio final para cada estudiante del seminario. Estudiante
-1 'arcas
Parciales
Artículo
Ex. Semestral
Ex. Final
1
85
89
94
87
90
2
78 94
84
88
91
92
88
93
3
_
86
_
89
R: = 88,55 puntos Fc, = 87,75 puntos 13 = 89,55 puntos.
18) Para la siguiente distribución de frecuencias, determine la mediana. Clase
fi
F.
[100-150)
12
12
[150-200)
14
26
[200-250)
27
53
[250-300)
58
53
[300-350) [350-400)
72 183 63 246
[400-450)
36 282
[450-500)
18 300
R: Me = 327,08 19) ¿Cuáles son los valores modales para las siguientes distribuciones? Color de cabello
Frecuencia
Tipo de sangre
Frecuencia
Negro
11
AB
4
Castaño
24
12
Pelirrojo
6 18
0 A
Rubio
R: Castaño y Tipo A
B
35 16
140
OMAR JESÚS ALCALÁ VELASQUE
20) Para la siguiente tabla de distribución de frecuencias, calcule la media, la moda y la mediana del conjunto de datos. Días [0- 1) [1-2)
Frecuencia 2 4
[2- 3) [3- 4) [4- 5) [5- 6) [6- 7)
7 5 3 1
R: F(= 3,28 días Mo = 3,33 días Me = 3,28 días. 21) Cuatro grupos de estudiantes, consistentes en 15, 20, 10 y 18 individuos, dieron pesos medios de 162, 148, 153 y 1401b, respectivamente. Hallar el peso medio de todos esos estudiantes. R: Fc= 150 lb 22) Probar que la suma de desviaciones de x1 , x2 ,...,x„ respecto de su media x es cero. 23)Si Z1 = x1 + V, ,
Z, = x, + y, , • • • , Z„y,1 , probar que:
Z = +7
24) Mientras durante un año la relación entre el precio de la leche (un cuarto de galón) el de la hogaza de pan era 3, al año siguiente pasó a ser 2. a) Halla la media aritmética de esas dos relaciones. b) Halla la media aritmética para la relación de precios pan/ leche. c) ¿Es conveniente usar la media aritmética para promediar relaciones?
141
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
d) Halla la media geométrica de esas dos relaciones. e) Halla la media geométrica para cada relación. f) ¿Es conveniente usar la media geométrica para promediar relaciones? R: a) 2,5 b) 0,417 d) Xi_(.; 25) La compañía Birch, fabricante de tableros de circuitos eléctricos, ha producido el siguiente número de unidades en los últimos años: 1989
1990
1991
1992
1993
12.500 13.250 14.310 15.741 17.630
Calcule el aumento porcentual promedio de unidades producidas en este periodo y utilice el resultado para estimar la producción de 1996. R: 8,98% anual y aproximadamente 22.819 unidades producidas para 1996. 26) Hallar los cuartiles, los deciles, P80 y P14 e interpretar su significado de los ejercicios (1), (3), (6), (8), (15) y (16) del capítulo II. 27) A continuación, se presentan las comisiones ganadas, en millones de bolívares, el mes pasado por una muestra de 15 corredores en la oficina de Econoinversiones. 2.038 1.795 1.721 1.637 2.097 2.047 2.205 1.787 2.287 1.940 2.311 2.054 2.406 1.471 1.460
1
o
OMAR JESUS ALCALÁ VELASQUE
142
a) Encuentre el primer cuartil. b) Encuentre el tercer cuartil. b) Q2 = 2205
R: a) Qi = 1721
28) El gerente de la Editorial UCAB tiene un personal de ventas formado por 30 personas, que visitan a los profesores universitarios en toda Venezuela. Cada sábado por la mañana pide a su personal de ventas que le envíe un reporte. Este incluye, entre otras cosas, el número de profesores a los que se les hizo una visita en la semana anterior. A continuación presentamos una lista con los números de visitas realizadas la semana pasada, ordenados del más bajo al más alto. 13
34
13
34
41
53 54 56
20
35 35
45 47
62
26
36
47
67
27
37
47
82
31
38
50
34
41
51
13
41
a) Determine el primer y el tercer cuartil. b) Determine el segundo y el octavo decil. c) Determine el percentil 67. R: a) Q= 33,25 ,
Q3 =
50,25
b) D,= 27,8 D8= 52,6 c) Po.,= 47
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
143
29) La tabla muestra una distribución de frecuencias de puntuaciones de un examen. Puntuación [30 — 40) [40 — 50) [50 — 60) [60 — 70) [70 — 80) [80 — 90) [90 — 100)
Número de estudiantes 1 3 11 21 43 32 9
Hallar: Los cuartiles de la distribución. P1 , e interprete su significado. P. e interprete su significado. La puntuación más baja alcanzada por el 25% más alto del curso y la más alta alcanzada por el 20% más bajo del curso. e) ¿A qué porcentaje corresponde una calificación de 58 puntos? R: a) Q, = 67,14 puntos. Q, = 75,58 puntos. Q, = 83,43 puntos. b) 59,45 puntos. c) 80,81 puntos. d) 83,43 y 64,28 puntos respectivamente. e) 10,66% 30) La siguiente tabla muestra una distribución de frecuencias de puntuaciones de un examen final de álgebra. a) b) c) d)
144
OMAR JESÚS ALCALA VELASQUE
Calificación 90 — 100 80 — 90 70 — 80 60 — 70 50 — 60 40 — 50 30 — 40
Número de Estudiantes 9 32 43 21 11 3 1 120 Total
Hallar: a) La puntuación más baja alcanzada por el 25% más alto del curso. b) La más alta alcanzada por el 20% más bajo de curso c) Interprete las respuestas en términos de percentiles. R: a) 83 b) 64 31) Una distribuidora de fondue de chocolate blanco, registró los consumos de las últimas 70 fiestas en las cuales participaron, los resultados se muestran en la tabla siguiente: . , . Li Li 1 xi Fi h Hi 9 13.75 30 36 65.714 0.129 90 28.15 70
145
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
a. Construir la distribución de frecuencias. b. ¿Qué porcentaje de personas se encuentran consumiendo desde 13.483 litros hasta 16.096 litros? c. ¿Cuál es la cantidad mínima del 15% de los mayores consumidores del chocolate? d. ¿Cuál es el consumo máximo del 23% de los menos consumidores? R: b) 14.997% c) 26.75 litros d) 14.043 32) En un parque infantil, se está evaluando la preferencia de dos marcas de chocolate, uno que llamaremos clase A y el otro clase B. De acuerdo a la cantidad de consumo se realizará una proporción especial al preferido. Chocolate clase A 120 100
78,333
86,666
93 333 '
100
68,333
80 53,333 60 40
36,666
-f..- Hi%
23,333 13,333
20 0 0,295 0,645 0,995 1,345 1,695 2,045 2,395 2,745 3,095 3,445
Chocolate clase B 12
11
10 8 6
*-...►......fi
4
0,12 0,47 0,82 1,17 1,52 1,87 2,22 2,57 2,92 3,27 3,62 3,97
146
OMAR JESÚS ALCADS, VELASQU
a. Construya la tabla de frecuencia para cada tipo de chocolate. b. Sobre la base del cálculo de las medidas de tendencia central, ¿en cuál de los chocolates se hizo la promoción? R: Chocolate clase A. II. MEDIDAS DE VARIABILIDAD
Mientras los estadísticos de tendencia central nos indican los valores alrededor de los cuales se sitúa un grupo de observaciones, los estadísticos de variabilidad o dispersión muestran si los valores de las observaciones están próximos entre sí o están muy separados. Dos conjuntos de datos pueden tener la misma localización central y no obstante, ser muy distintos si uno se halla más disperso que el otro. Por ejemplo, supongamos que usted es un agente de compras de una importante empresa manufacturera, y con regularidad coloca pedidos con dos proveedores distintos. Ambos le indican que necesitan alrededor de 10 días hábiles para surtir sus pedidos. Después de varios meses de trabajar así, encuentra usted que el promedio de días necesarios para surtir los pedidos es, realmente, unos 10 para cada proveedor. Los histogramas que resumen la cantidad de días hábiles requeridos para surtir los pedidos se ven en la figura. Aunque la cantidad promedio es, más o menos, de 10 en ambos casos. ¿Tienen estos el mismo grado de confiabilidad para entregar a tiempo? Observe la dispersión o variabilidad, en los histogramas. ¿Qué proveedor prefiere usted?
147
0,5 —
Dawson Supply Inc. Frecuencia relativa
Frecuencia relativa
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
0,40,4 0,3 0,20,1— 9 10 11 Días hábiles
0,5
J. C. C1ark Distributor
0,4 — 0,3 — 0,2 — 0,1— 7 3 9 10 11 12 13 14 15 Días hábiles
Para la mayoría de las empresas es importante recibir materiales y suministros a tiempo. Las entregas a los siete u ocho días de J. C. Clark Distributor pueden considerarse favorables; sin embargo, algunas de las entregas a los 13 o 15 días podrían ser desastrosas en términos de la utilización de la mano de obra y del cumplimiento de los programas de producción. Este ejemplo ilustra un caso en el que la dispersión o variedad, en los tiempos de entrega puede ser la consideración más importante para seleccionar un proveedor. Para la mayoría de los agentes de compra, la menor dispersión que muestra Dawson Supply, Inc. haría que fuera el proveedor más consistente y preferido. DISPERSIÓN Es el grado en que los datos numéricos tienden a extenderse alrededor de un valor medio. La dispersión de la distribución suministra información complementaria que permite juzgar la confiabilidad de nuestra medida de tendencia central. Si los datos están ampliamente dispersos, la localización central será menos representativa de los datos en su conjunto de lo que sería en el caso de datos que se acumulasen más alrededor de la media. Además, si no conviene tener una amplia dispersión de valores respecto al centro o si esa dispersión implica un riesgo inaceptable, deberemos ser capaces de reconocerlo y no escoger las distribuciones que presentan la máxima dispersión.
148
OMAR JESÚS ALCALÁ VELASQUE
La importancia del estudio y cuantificación de la dispersión proviene de las siguientes razones: primero, nos proporciona información adicional que nos permite juzgar la confiabilidad de las medidas de tendencia central calculadas. Segundo, existen dificultades para el estudio de datos muy dispersos, debemos ser capaces de reconocer esa dispersión amplia para poder abordar estos problemas y tercero, para la comparación entre datos es de mucha importancia el conocer la variabilidad presente en ellos. Por ejemplo, a los analistas financieros les interesa la dispersión de las ganancias de una empresa, las utilidades con una fuerte dispersión indican un riesgo mayor parar los accionistas que las utilidades que permanecen relativamente estables7. Las medidas de dispersión se dividen en dos grandes grupos: 1. Las medidas de dispersión absolutas: son aquellas que vienen expresadas en las mismas medidas que identifican a la serie de datos. 2. Las medidas de dispersión relativas: son relaciones entre medidas de dispersión absolutas y medidas de tendencia central.
7 Otro ejemplo que podemos mencionar es el de una medicina cuya pureza promedio es buena, pero que varía de muy pura a muy impura puede ser peligrosa para la vida humana. Para mayor información ver. Levin, Rubin, Balderas, Del Valle, Gómez. Estadísticas para Administración Economía. Prentice Hall, p. 90.
149
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
MEDIDAS DE DISPERSIÓN ABSOLUTA:
Rango o recorrido Es la diferencia entre el valor más alto y el más bajo observado. Notación: R Fórmula: R =max x , xmm Un rango pequeño indica poca variación, uno grande indica una gran variabilidad. • Observaciones 1. No es muy útil porque sólo toma en cuenta los valores máximo y mínimo de una distribución por lo que no da una idea de la verdadera concentración de los valores.
tiy
rr
0
3
0
3
Igual rango, pero diferente variabilidad 2. No se puede utilizar en distribuciones que tengan intervalos abiertos. 3. Puede ser afectado por observaciones externas.
OMAR JESÚS ALCALÁ VELASQUE
150
RANGO INTERCUARTÍLICO O RANGO INTERCUARTIL.
Es la diferencia entre los valores de Q1 y Q3, esta diferencia refleja la variabilidad de las observaciones del 50% intermedio de los datos y tiene la ventaja de no verse influenciado por valores extremos. Notación: RI Fórmula: RI = Q3 - Qi Gráficamente: 25%25% datos I datos Menor O ---1
Q2 Q
3
Xmayor
A través del rango intercuartil podemos ver (aproximadamente) qué tan lejos de la mediana tenemos que ir en cualquiera de las dos direcciones antes de que podamos recorrer una mitad de los valores del conjunto de datos. Para los efectos del ejemplo 3 del capítulo II, el rango intercuartil es:
Q3 - Qi = (66,63 — 60,83) pulgadas = 5,80 Kg.. Sin embargo, una medida más usada es el rango semi-intercuartil. RANGO SEMI-INTERCUARTÍLICO O RANGO SEMI-INTERCUARTIL Es la semidiferencia entre los valores de Q y Q3, al igual que el rango intercuartílico tiene la ventaja de no verse influenciado por valores extremos.
151 TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
Notación : RSI Fórmula: RSI = Q-3 -2Q-1
66,63-60,83 Utilizando el resultado anterior, tenemos que RSI 2 2,9 Kg. De esto, pudiéramos establecer que un 50% de los pasos caen en el intervalo [63,8±2,9] Kg. DESVIACIÓN MEDIA ABSOLUTA. Se define como el valor promedio de las desviaciones (tomadas en valor absoluto) de los datos con respecto a un término central. Las fórmulas que se indican están dadas tomando a la media. Notación: DMA. Fórmulas:
La desviación media es menos sensible a los efectos inducidos por las observaciones extremas del conjunto de datos, sin embargo, gran parte de los cálculos pierden su significado cuando se aplican valores absolutos.
152 OMAR JESÚS ALCALÁ VELASQUE
VARIANZA
Es la medida del cuadrado de la distanciaromedi p o entre la media y cada elemento de la población. 62
Notación:
para la población
s2 para la muestra Fórmulas:
Nota:
La teoría matemática establece que si pretendemo s estimar la varianza de una población a partir de la varianza, una de sus muestras, resulta que el error cometido es generalmente menor, cuando para la varianza de la muestra se divide por n —1 y no por n, porque el valor resultante da una mejor estimación de la varianza de la población. Sin embargo, para grandes valores de n (n >30) no hay prácticamente diferencia entre dividir por n opor n-1.
0 Ejemplo 13 Del ejemplo 3 del capítulo II sobre el investigador que deseaba determinar cómo variaban los pesos de los obreros de una empresa y el cual tomaba una muestra de 50 hombres para registrar luego sus pesos en kilogramos, se había obtenido la siguiente tabla
2:
153
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
1, -1i,i
f
x,
F,
hi
% hi
Hi
% Fli
[53 - 56) [56 - 59) [59 - 62) [62 - 65) [65 - 68) [68 - 71) [71 - 74)
2 5 9 15 12 5 2
54,5 57,5 60,5 63,5 66,5 69,5 72,5
2 7 16 31 43 48 50
0,0400 0,1000 0,1800 0,3000 0,2400 0,1000 0,0400
4 10 18 30 24 10 4
0,0400 0,1400 0,3200 0,6200 0,8600 0,9600 1,0000
4 14 32 62 86 96 100
Para calcular la varianza agregamos una nueva columna: 1, -1,±i
fi
xi
[53 - 56) [56 - 59) [59 - 62) [62 - 65) [65 - 68) [68 - 71) [71 - 74)
2 5 9 15 12 5 2
54,5 57,5 60,5 63,5 66,5 69,5 72,5
(x.-x)2*f, 168,5448 190,9620 91,0116 0,4860 95,4288 169,3620 155,5848
E= 871,38 52
871,38
49
- 17,7833 Kg2
Algunas propiedades de la varianza: • La varianza de una constante, es cero. • Siempre es una cantidad positiva. • La varianza del producto de una constante por una variable es igual al producto de la constante al cuadrado por la varianza de la variable.
OMAR JESÚS ALCALÁ VELASQUE
154
• Observaciones sobre la varianza 1. Las unidades de la varianza son los cuadrados de las unidades de los datos y en muchas ocasiones no son fáciles de interpretar. 2. Puede sufrir un cambio desproporcionado por la existencia de valores extremos en el conjunto. DESVIACIÓN TÍPICA O ESTÁNDAR Se define como la raíz cuadrada positiva de la varianza.
a para la población
Notación: {
s para la muestra
Fórmulas: Datos no agrupados
Datos agrupados
N 2 (Xi — M)
5
= \ i=1 N n
\ i=1
n-1 ❑
s = \ i=1
N
g
li (xi — 502 S=
g
I(Xi — r11)2 * fi
I (xi — -k- )2 * fi
s = \ i=1
n —1
Ejemplo 14
Tomando el resultado de la varianza calculada en el ejemplo 13, s = 4,2170 Kg.
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
155
Algunas propiedades de la desviación típica: • La desviación típica de una constante es cero. • Siempre es una cantidad positiva. • La desviación típica del producto de una constante por una variable es igual al producto de la constante por la desviación típica de la variable. • Observaciones sobre la desviación típica 1. Entre sus aplicaciones tenemos el teorema de Chebyshev, el cual afirma que para cualquier conjunto de datos, al me nos 1- — 1 de la observaciones están dentro de k desviaciones 1(2 típicas de la media (K >1). En virtud de esto, por ejemplo, k = 2 nos daría 0,75. Lo que significa que si formamos un intervalo de 2 desviaciones típicas por debajo de la media hasta 2 desviaciones típicas por encima de la media, en dicho intervalo se encontrarán como mínimo el 75% de todas las observaciones. 2. Del Teorema de Chebyshev aplicado a una distribución simétrica en forma de campana podemos observar con mayor precisión el resultado de dicho teorema en cuanto a explicar la dispersión de una serie de datos con respecto a su media, a saber lo que denomina la estadística "La Regla Empírica". Regla: Para una distribución de la frecuencia simétrica en forma de campana, aproximadamente 68% de las observaciones estarán entre más o menos una desviación estándar de la media; alrededor de 95% de las observaciones se encontrarán entre más o menos dos desviaciones estándar de la media, y prácticamente todas (99,7%) estarán entre más o menos tres desviaciones estándar de la media. 8 Ver Lind, Marchal y Wathen. Estadística Aplicada a los Negocios y a la Economía. Mc Graw Hill, p. 80.
156
OMAR JESÚS ALCALÁ VELASQUE
2, 611,1,6% 9505% 99,73%
3. Nos permite determinar con mayor grado de precisión dónde se sitúan los valores de una distribución de frecuencia en relación con la media. 4. Las unidades de la desviación típica se expresan en las mismas unidades de los datos. 5. Puede sufrir un cambio desproporcionado por la existencia de valores extremos en el conjunto. MEDIDAS DE DISPERSIÓN RELATIVA Dispersión relativa =
dispersión absoluta promedio
Estas medidas vienen generalmente expresadas en porcentajes y su función es la de determinar entre varias distribuciones la de mayor o menor dispersión. Esto tiene como ventaja que nos permite comparar distribuciones donde las unidades pueden ser diferentes ya que estas medidas son independientes de las unidades utilizadas. Además, varias distribuciones pueden tener un mismo valor para determinada medida de dispersión y ser la variabilidad de sus datos en relación con la media, diferente.
157
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
Coeficiente de variación Mide el grado de dispersión de un conjunto de datos en relación con su media. Notación: CV Fórmulas: CV = —s *100 para la muestra x s CV = — *100 para la población m • Observaciones sobre el coeficiente de variación 1. El CV es un estadístico útil para comparar la dispersión de conjuntos de datos que tienen distintas desviaciones estándar y distintos promedios. 2. El CV pierde su utilidad cuando la media se aproxima a cero. 3. El CV permite apreciar la homogeneidad del conjunto de datos bajo la siguiente escala: CV 26% o más 16% a 25% 11% a 15% 0% a 10%
APRECIACIÓN Muy Heterogéneo Heterogéneo Homogéneo Muy Homogéneo
OMAR JESÚS ALCALÁ VELASQUE
158
❑ Ejemplo 15 Para los efectos del ejemplo 3 del capítulo II, tenemos de este capítulo el ejemplo 3 el valor SZ = 63,68 Kg, y del ejemplo 14 el valor s = 4,2170 KG. Con lo cual podemos calcular el CV. CV=
4'22 *100 = 6,62% 63, 68
Interpretación: la desviación típica de la muestra es el 6,62% del valor de la media de la muestra. Es decir, el conjunto de datos es Muy Homogéneo. COEFICIENTE DE VARIACIÓN CUARTIL Notación: CVq Fórmula: 3 CV = Q
-Q1
q Q3 ± Q1
Es importante destacar que las medidas de dispersión relativa sirven para comparar las variabilidades de dos conjuntos de valores (poblaciones o muestras), mientras que si deseamos comparar a dos individuos de cada uno de esos conjuntos, es mejor usar valores tipificados. VARIABLES TIPIFICADAS Los distintos conjuntos de datos están asociados por lo general a diferentes medias, ya sea porque son de naturaleza diferente o porque al ser la misma característica medida, sus centros no son los mismos.
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
159
Con el propósito de reducir los datos a un mismo punto de referencia y a una escala común, se realiza entre ellos una transformación llamada tipificación. Se conoce por tipificación de una variable "x" a efectuar el cambio de origen y de escala de la variable. Notación: z x—x para muestras s x—m para población =
z= Fórmulas :
S
Esta nueva variable carece de unidades de medida y permite comparar dos o más cantidades que en un principio no son comparables porque aluden a conceptos diferentes. También es aplicable a casos en que se quieran comparar individuos semejantes de poblaciones diferentes. Por ejemplo, si deseamos comparar el nivel académico de dos estudiantes de diferentes universidades, z nos indica cuántas desviaciones estándar está un valor por arriba o por debajo de la media del conjunto de datos al cual pertenece. 0 Ejemplo 16 Un estudiante obtuvo 84 puntos en el examen final de matemáticas, en el que la nota media fue 76, y la desviación típica 10. En el examen final de física obtuvo 90 puntos, siendo la media 82 y la desviación típica 16. ¿En qué examen sobresalió más?
OMAR JESÚS ALCALÁ VELASQUE
160
Examen de matemática
Examen de física
x=7 7
3-c = 82
s = 10
s = 16
x = 84
x = 90
z=
84 — 76 = 0,8 10
z= 90 —82 = O, 5 16
Sobresalió más en matemáticas. III. MEDIDAS DE SESGO Y CURTOSIS Cuando se consideran las características de las distribuciones de una variable, las potencias de los valores de la variable o las de sus desviaciones con respecto a la media, pueden servirnos como información descriptiva de la distribución de dicha variable. MOMENTOS Los momentos son las potencias de los desvíos de los valores de una serie en relación a un valor arbitrario de los mismos valores. Existen "n" momentos, sin embargo, desde el punto de vista práctico se utilizan los 4 primeros (m1 , m2 , m3 , m4). En general tenemos que el r-ésimo momento respecto de cualquier origen A se expresa como: N rx,- AY m = r
i=-1
N
161
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
Utilizando a la media aritmética, tenemos las fórmulas siguientes:
Datos no agrupados
Datos agrupados
N
g
I(Xi -- r i)
(Xi — XY _____
___ i=1
mr
* fi
= 1=1
m r N
n— 1
También se definen los momentos de una variable aleatoria X como los valores esperados de ciertas funciones de X, estos forman una colección de medidas descriptivas que pueden emplearse para caracterizar la distribución de probabilidad de X y especificarla si todos los momentos de X son conocidos. A pesar de que los momentos de X pueden definirse alrededor de cualquier punto de referencia, generalmente se definen alrededor del cero o el valor esperado de X.
MEDIDAS DE SESGO En un análisis estadístico de una serie de valores, no sólo interesa conocer el promedio y la dispersión de los datos, sino también cómo se refleja o se acerca esta serie a una distribución simétrica.
• Sesgo
Es el grado de asimetría de una distribución.
• Curvas simétricas
Son aquellas en las cuales al trazar una línea vertical desde la cumbre de la curva al eje horizontal, se divide su área en dos partes iguales.
OMAR JESÚS ALCALÁ VELASQUE
162
Gráficamente
Moda Me diana Me dia
• Curvas asimétricas Son aquellas curvas en las que al trazar una línea vertical desde su cumbre al eje horizontal, no se divide su área en dos partes iguales y pueden ser: 1) Asimetría positiva (sesgo a la derecha): es una curva que disminuye gradualmente hacia el extremo superior de la escala. .....--------\ ,Me diana
Mo da Me dia
2) Asimetría negativa (sesgo a la izquierda): es una curva que disminuye gradualmente hacia el extremo inferior de la escala.
163
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
Me diana
Media
Mo da
COEFICIENTE DE ASIMETRÍA DE PEARSON
Es el valor que mide el grado de asimetrías de una distribución de frecuencia. Notación: SK Fórmulas: 1. SK =
2. SK =
X — Mo
3(X — Med) s
Si SK > O La asimetría es positiva Si SK = O Hay simetría Si SK < O La asimetría es negativa COEFICIENTE DE ASIMETRÍA DE FISHER
Se puede comprobar que los momentos centrales de orden r impar, son siempre nulos en el caso de una distribución simétrica, el coeficiente de asimetría de Fisher establece:
OMAR JESÚS ALCALÁ VELASQUE
164
Notación: y Fórmula: g =
M. 3 3 S
Si al > O La asimetría es positiva Si al = O Hay simetría Si a l < O La simetría es negativa
0 Ejemplo 17 Del 3 del capítulo II sobre el investigador que deseaba determinar cómo variaban los pesos de los obreros de una empresa y el cual tomaba una muestra de 50 hombres para registrar luego sus pesos en kilogramos, se habían obtenido los siguientes valores: X=
63,68 kg
Mo= 64 kg s = 4,2170 Kg SK = -0,0759 asimetría negativa, sesgo a la izquierda. MEDIDAS DE CURTOSIS • Curtosis Es el grado de pico o de apuntamiento que presenta una distribución. El patrón de referencia es la distribución normal o gaussiana. 1. Curva platicürtica: es aquella que presenta un pico ligero, es achatada.
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
165
r 2. Curva mesocúrtica: es aquella no es ni muy puntiaguda ni muy achatada (es la curva normal).
3. Curva leptocúrtica: es aquella que presenta un pico alto.
EL COEFICIENTE DE CURTOSIS Es la medida que nos da una idea acerca del achatamiento o levantamiento de la curva en relación con la normal. Notación: K Fórmula: K = m4 54
166
OMAR JESÚS ALCALÁ VELASQUE
A
Si K < 3 la distribución es platicúrtica Si K = 3 la distribución es mesocúrtica (normal) Si K > 3 la distribución es leptocúrtica 0 Ejemplo 18 Del ejemplo 3 del capítulo II sobre el investigador que deseaba determinar cómo variaban los pesos de los obreros de una empresa y el cual tomaba una muestra de 50 hombres para registrar luego sus pesos en kilogramos, se había obtenido la siguiente tabla 2: 1 -1i+i
f
xi
Fi
[53 - 56) [56 - 59) [59 - 62) [62 - 65) [65 - 68) [68 - 71) [71 - 74)
2 5 9 15 12 5
54,5 57,5 60,5 63,5 66,5 69,5
2
72,5
2 7 16 31 43 48 50
h.1 0,0400 0,1000 0,1800 0,3000 0,2400 0,1000 0,0400
% hi
H.
% Hi
4 10 18 30 24 10 4
0,0400 0,1400 0,3200 0,6200 0,8600 0,9600 1,0000
4 14 32 62 86 96 100
Para calcular el coeficiente de curtosis debemos agregar una nueva columna: 1i -1i4.1 [53 - 56) [56 - 59) [59 - 62) [62 - 65) [65 - 68)
[68 - 71) [71 - 74)
f 2 5
xi
(xi-x)4*fi
54,5 57,5
14203,6748 7293,2971
9
60,5
920,3457
15 12 5 2
63,5 66,5 69,5 72,5
0,0157 758,8880 5736,6974 12103,315 1=41016,2337
K=
837 0660 ' =2,6470 por lo que la distribución es platicúr316,2383
tica.
167
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
Á. EJERCICIOS COMPLEMENTARIOS
MEDIDAS DE VARIABILIDAD, SESGO Y CURTOSIS
1) Hallar la varianza y la desviación típica de los ejercicios (1), (3), (6), (8), (15) y (16) del capítulo 2. 2) Los datos adjuntos representan el promedio de millas por galón diario por 5 días para los carros A y B, en condiciones similares: A B
20 15
25 27
30 25
15 23
35 35
a) Encuentre la media y el rango de millas por galón para cada carro b) ¿Cuál carro parece haber logrado un rendimiento más consistente, si la consistencia se determina examinando las varianzas? R: a) Ambos carros tienen el mismo rango ( R = 20) Ambos carros tiene la misma media ( x = 25 millas por galón) b) El carro B es más consistente. 3) La tabla de frecuencias exhibe las edades de una muestra de 36 personas que asistieron a una película: f Años 2 8-13 14-19 7 Hallar: 20-25 13 R: 24,5 años La media 26-31 5 La varianza R: 53,48 años2 La desviación típica R: 7,31 años 32-37 9
168
OMAR JESÚS ALCALÁ VELASQUE
4) En un examen final de estadística, la puntuación media de un grupo de 150 estudiantes fue de 78 y la desviación típica fue de 8 puntos. En álgebra, sin embargo, la media final del grupo fue de 73 y la desviación típica 7,6. ¿En qué asignatura hubo mayor dispersión absoluta y en cuál mayor dispersión relativa? R: estadística y álgebra respectivamente. 5) Para comparar la precisión de 2 instrumentos de medición, un técnico de laboratorio estudia mediciones hechas con ambos instrumentos. El primero se usó recientemente para medir el diámetro de un rodamiento y las mediciones tuvieron una media de 4,92 mm. con una desviación estándar de 0,018 mm. El segundo se empleó hace poco para medir la longitud sin extender de un resorte y las mediciones tuvieron una media de 2,54 pulgadas con una desviación estándar de 0,012 pulgadas. ¿Cuál de los 2 instrumentos es relativamente más exacto? R: el primero 6) José Pérez es un directivo de una empresa de planificación financiera que asesora a quienes quieren establecer sus carteras de inversión personales. Hace poco José estaba interesado en las tasas de rendimiento que habían ofrecido dos fondos de inversión diferentes a lo largo de los 5 últimos años. FIVENEZ presentaba tasas de retorno a lo largo de ese período de 12, 10, 13,9 y 11%; mientras que Corporación Dinámica había producido 13, 12, 14, 10, y 6%. Un cliente se puso en contacto con el señor Pérez y expresó su interés por uno de estos fondos de inversión. ¿Cuál de ellos deberá elegir Pérez para su cliente? R: FIVENEZ. 7) La señorita Olga Rodríguez utiliza 2 máquinas diferentes para fabricar productos de salida de papel destinadas a copiadoras Kodak. Los conductos de una muestra de la primera máquina medían 12,2 ; 11,9 ; 11,8 ; 12,1 ; 11,9 ; 12,4 ; 11,3 y 12,3 pulgadas. Los conductos hechos con la segunda máquina medían 12,2 ; 11,9 ;
169
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
11,5 ; 12,1 ; 12,2 ; 11,9 y 11,8 pulgadas. Olga tiene que utilizar la máquina que produzca conductos de tamaños más uniformes. ¿Qué máquina deberá utilizar? R: La segunda máquina. 8) La licenciada Denisse Villalba como directora de vuelo de United necesita información sobre la dispersión del número de pasajeros. Las decisiones en relación con los horarios y el tamaño más eficiente de los aviones dependen de la fluctuación de la carga de pasajeros. En base a esto y tomando en cuenta la siguiente tabla de frecuencias: Pasajeros
f1 2
[50-59) [59-68) [68-77) [77-86)
5 14 18
[86-95) [95-104)
7 4
¿Cuál debió ser la desviación calculada por Denisse? R: 10,79 pasajeros. 10)En un estudio se anotó el número de palabras leídas en 15 segundos por un grupo de 120 sujetos que habían recibido previamente un adiestramiento y 120 individuos que no habían recibido dicha instrucción. Los resultados fueron los siguientes: Número de palabras leídas 25 26 27 28 29 30
No instruidos 56 24 16 — 12 10 2
Instruidos 1 9 21 29 28 32
170
OMAR JESÚS ALCALÁ VELASQUE
Compare la variabilidad en ambos grupos. R: la variabilidad es parecida. 11)La señora Solimar de Ugueto es una agente de inversiones que encuentra 2 valores prometedores. El primero conduce a un rendimiento medio del 10% con una desviación típica del 1,2%; el segundo produce una tasa de rendimiento medio del 20% con una desviación típica del 5%. Con ayuda del CV como medida del riesgo, Lorena aconseja a su cliente más conservador que invierta en el primer valor. ¿Estaría usted de acuerdo? R: sí estaría de acuerdo. 12) La siguiente tabla representa la edad de los empleados que trabajan en cierta empresa: Edad [22-26) [26-30) [30-34) [34-38) [38-42) [42-46) [46-50)
N° de Empleados 12 19 27 29 16 10 7
Calcular: a) Edad promedio b) La edad que se encuentra justo en el 50% de la distribución c) La edad mínima del 40% entre los mayores d) Porcentaje entre 28 y 40 años e) Porcentaje entre x ± s f) Calcule el coeficiente de curtosis e interprete g) Calcule el coeficiente de asimetría e interprete
171
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
R: a) 34,53 b) 34,27 c) 35,93 d) 57,09% e) 64,18% f) 2,38 g) 0,47 13) En un examen final de microeconomía, la puntuación media de 150 estudiantes fue 12,8 puntos y la desviación típica 2,3 puntos. En estadística el promedio fue 10,2 puntos y la desviación típica 1,6 puntos. a) ¿En qué materia hay mayor dispersión relativa? b) ¿En qué materia destaca más un alumno que obtuvo 14 puntos en ambas? R: a) En microeconomía, b) En estadística. 14) En cierta evaluación para optar por una beca, Lucy Mejías obtuvo una calificación de 310 puntos en habilidad verbal y 218 puntos en habilidad numérica. Los parámetros de c/u son: Habilidad verbal:
x=245
s2=900
Habilidad numérica:
x=150
s=24
a. ¿En cuál de las dos pruebas obtuvo mejor calificación? b. ¿En cuál de las dos pruebas el grupo es más homogéneo? R: a) En Habilidad numérica b) En Habilidad verbal. 15) La siguiente tabla representa los resultados en la prueba de aptitud académica de un grupo de 1.000 jóvenes que aspiran ingresar a cierta universidad: Calificación
[300-350)
[350-400)
[400-450)
[450-500)
[500-550)
[550-600)
%Hi
6
28
45
63
95
100
Hallar: a) Porcentaje de aspirantes cuya calificación es superior a 420 puntos pero inferior a 510 b) N° de estudiantes que obtuvieron 500 puntos o más
172
OMAR JESÚS ALCALÁ VELASQUE
c) d) e) f)
La mayor nota del 30% que obtuvo la nota más baja Porcentaje que obtuvo más de 480 puntos Coeficiente de asimetría de Pearson e interprete Coeficiente de curtosis e interprete R: a) 34,6% b) 370 c) 405,88 d) 44,2% e) —0,69 f) 1,99
16) Si la medida de curtosis de una distribución de frecuencias es de 2,30 y la desviación típica es 0,10. ¿Cuánto vale el momento de cuarto orden? R: 0,00023 17) Si el momento de tercer orden de una distribución de frecuencias es de 1,25 y el coeficiente de asimetría es de 0,61. ¿Cuánto vale la varianza de la distribución? R: 1,61 18) El sueldo mensual, en miles de Bs., de los empleados de una empresa es como sigue: Sueldo
[160190)
[190220)
[220250)
[250280)
fi
10
12
12
16
[280310) 15
[310340) 14
[340370) 10
[370400) 8
Elabore una tabla de distribución de frecuencias y calcule: a. ¿Qué sueldo está en el centro de la distribución? b. ¿Qué porcentaje gana Bs. 270.000 o menos? c. ¿Qué intervalo abarca el 70% central? d. Calcule el coeficiente de curtosis e interprete R. a) 277,18 b) 46,04% c) [201,38 ; 350,35] d)1,96 19) Se tiene una distribución simétrica y se conoce que el número de datos es 150, f3 = 30 y f2 = fi + 4. Construya la tabla de frecuencias y calcule el valor por debajo del cual se halla el 60% de la muestra:
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
173
li -1,,, [3 - 6) [6 - 9) [9 - 12) [12- 15) [15- 18) 20) La media aritmética de dos números es igual a 6 y su desviación típica es igual a 2 2 . ¿Cuáles son esos números? R: 4 y 8. 21) Suponga que la tasa de inflación en un país ha sido del 50% para el primer año, 38% para el segundo y del 60% para el tercer año. ¿Cuál ha sido la tasa promedio anual de inflación en ese país durante los últimos tres años? R: 49,06% 22) ¿Cuál debe ser el cuarto momento respecto de la media de una distribución simétrica con desviación típica 15, para que sea: a. Leptocúrtica. b. Mesocúrtica. c. Platicúrtica. R: a) Mayor que 151875 b) Igual a 151875 c) Menor que 151875 23) De la siguiente distribución de calificaciones en cierto examen calcular: 1, -11+i [6 - 8) [8 -10) [10 - 12) [12 - 14) [14 - 16) [16 - 18) F. 3 10 25 42 38 45
174
OMAR JESÚS ALCALÁ VELASQUE
Calcular:
R:
a. Porcentaje de calificaciones entre X ± 2s b. El intervalo donde cae el 60% central c. Porcentaje de los que obtuvieron más de 15 puntos d. La mayor nota del 25% que obtuvo la más baja e. La menor nota del 25% que obtuvo la nota más alta f. Coeficiente de asimetría e interprete g. Coeficiente de curtosis, e interprete
a) 69,01% b) [9,71; 13,69] c) 11,11% d) 10,16 puntos e) 13,34 puntos f) 0,064 g) 2,769
24) En las siguientes tablas se registran los sueldos quincenales (en miles) de 50 obreros de dos fábricas: Fábrica A Fábrica B Sueldo [45 — 55) [55 — 65) [65 — 75) [75 — 85) [85 — 95)
%h. 18 24 26 20 12
Sueldo [45 — 55) [55 — 65) [65 — 75) [75 — 85) [85 — 95)
%h. 12 28 30 22 8
a) ¿En cuál fábrica hay mayor dispersión relativa? b) Un obrero que gana Bs. 140.000 mensuales. ¿Dónde estaría mejor remunerado con respecto a sus compañeros? c) ¿Cuál de las dos distribuciones es más simétrica? R: a) A b) B c) A 25) Un conjunto de datos sobre el peso del contenido de 1000 bolsas de comida para perros marca Gran Chow tiene una media de 22,68 kilogramos y una desviación estándar de 1,04 kilogramos. No se sabe si los datos están distribuidos simétricamente. Los
175
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
fabricantes de Gran Chow esperan que por lo menos 750 de tales bolsas pesen entre 20,59 kilogramos y 24,77 kilogramos. ¿Qué seguridad puede darles? 26) Datos sobre las edades de los 100 mejores ejecutivos de las mejores 500 firmas de la revista Economía hoy revelan una edad media de 56,2 años y una desviación típica de 12,7 años. Su ingreso medio es de $89,432, con s = $16,097. ¿Cuál variable, edad o ingreso, presenta la mayor variación. 27) Dados los siguientes puntajes de 9 pruebas para la clase de Estadística, calcule el coeficiente de sesgo de Pearson. Asuma que estos son datos muestrales. 80 83 87 85 90 86 84 82 88 28) Dos marcas de zapatos para correr fueron evaluados en cuanto a uso y desgaste. Cada una reportó los siguientes números de horas de uso antes que se detectaran un desgaste significativo. Marca A 97 83 75 82 98 65 75
Marca B 78 56 87 54 89 65
¿Cuál zapato parece tener un programa de control de calidad que produzca la mejor consistencia en su desgaste? 29) Las edades de una muestra de turistas españoles que viajan en avión a la Isla de Margarita fueron: 32, 21, 60, 47, 54, 17, 55, 33 y 41. a) Calcula el rango b) Calcula la desviación típica 30) Hallar la desviación típica del conjunto de números de la progresión aritmética 4, 10, 16, 22,..., 154 R: 45
OMAR JESÚS ALCALÁ VELASQUE
176
31) Dados los siguientes valores de la tendencia central para cada distribución, determine si la distribución es simétrica, positivamente sesgada o negativamente sesgada: a. Media = 14, mediana = 12, moda = 10 b. Media = 14, mediana = 16, moda = 18 c. Media = 14, mediana = 14, moda = 14 32) La siguiente tabla presenta las puntuaciones otorgadas a tres tipos de jabones utilizados durante una semana, por amas de casa. A mayor puntuación, mayor preferencia. Cloro y limón Sábila Anti bacterial 40 35 30 39 50 60 55 42 70 60 80 45 130 140 120 48 80 90 51 70 40 30 50 53 20 20 20 57 a. ¿Cuál de las tres distribuciones es más homogénea? b. Se desea saber si la distribución que resultó más homogénea es simétrica o, en el caso que no lo sea, ¿qué tipo de asimetría tiene? c. Determine el apuntamiento para la distribución más homogénea R: a) Jabón con sábila. b) Asimetría negativa c) Platicurtica
Li_ 36 39 42 45 48 51 54
CAPÍTULO
IV I. ANÁLISIS DE REGRESIÓN II. ANÁLISIS DE CORRELACIÓN
1. ANÁLISIS DE REGRESIÓN
Muchos estudios empíricos dependen, en máximo grado, del análisis de regresión y correlación, adquiriendo estas herramientas estadísticas un valor muy grande en el momento de tomar un gran número de decisiones empresariales y económicas. Si los responsables de la toma de decisiones pueden determinar cómo lo conocido se relaciona con el evento futuro, pueden ayudar considerablemente al proceso de toma de decisiones El primero en desarrollar el análisis de regresión fue el científico inglés Sir Francis Galton (1822-1911), comenzando sus experimentos de regresión en el intento de analizar las tendencias hereditarias de los guisantes y las estaturas entre padres e hijos. Para el análisis de regresión es crucial determinar cuál es la variable dependiente y cuál la independiente, esta determinación depende de la lógica común y de lo que el estadístico trate de investigar; por ejemplo, supongamos que las ventas de una empresa dependen (al menos en parte) de la cantidad de publicidad que esta hace, las ventas se consideran la variable dependiente y es función de la variable independiente, que es la publicidad. La variable dependiente Y se denomina también regresando o variable explicada, mientras que la variable independiente X se llama regresor o variable explicativa. Para este tipo de variables resulta interesante, además de analizar la existencia de asociación y su intensidad, establecer el modelo o patrón característico que presenta esta asociación. La regresión y la correlación son en realidad conceptos diferentes, pero que guardan una íntima relación.
180
OMAR JESÚS ALCALÁ VELASQUE
REGRESIÓN
La regresión es una expresión cuantitativa que describe la naturaleza básica de la relación entre la(s) variable(s) dependiente(s) e independiente, el modelo determinará: 1. Si las variables tienden a desplazarse en la misma dirección. 2. Si las variables tienden a desplazarse en sentidos opuestos. 3. La cantidad en que Y cambiará cuando la(s) variable(s) independiente(s) varíe en una unidad. El análisis de regresión se clasifica generalmente en dos tipos', simple y múltiple: -
La simple establece que la variable dependiente Y es función de una sola variable independiente (a veces se le denomina análisis bivariante porque sólo hay implicadas dos variables). La ecuación que describe la relación entre X y Y es lineal y se representa gráficamente por una recta. - La múltiple abarca dos o más variables independientes, por lo que la ecuación de regresión que describe de la mejor manera posible la relación entre las variables resulta curvilínea. • Pasos para el ajuste de curvas: 1) Para hallar una ecuación que relacione las variables, el primer paso es recoger datos que muestren los valores correspondientes de las variables bajo consideración. 2) Realizar un diagrama de dispersión, que es la representación gráfica de las observaciones pareadas de X y Y (lo habitual es colocar la variable dependiente en el eje vertical y la independiente en el horizontal), pudiéndose presentar cualquiera de las siguientes situaciones:
1 En los estudios de regresión y correlación que se llevarán a cabo, sólo se considerarán relaciones lineales.
181
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
a) Relación lineal directa: Y
b) Relación lineal inversa: Y
>x c) Relación curvilínea directa: Y
182
OMAR JESÚS ALCALÁ VELASQUE
d) Relación curvilínea inversa: Y
e) No se manifiesta ninguna relación entre las dos variables: Y
X La inspección visual de la nube de puntos pretende detectar cuál sería el patrón característico que más se asemeja a la nube de puntos formada por la distribución conjunta de las dos variables de interés. 3) Realizar el ajuste según la orientación que proporcione el diagrama. RECTA DE REGRESIÓN Las relaciones entre variables son determinísticas o estocásticas (aleatorias) y en el mundo de las empresas hay muy pocas relaciones que sean exactas, por ejemplo, si suponemos una relación lineal con la
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
183
publicidad para determinar las ventas, casi siempre hay alguna variación en la relación. Cuando la publicidad valga una cantidad determinada xi, las ventas tomarán un determinado valor yi, pero la siguiente vez que la publicidad sea igual al mismo valor anterior xi, las ventas podrían tomar otro valor diferente al yi obtenido antes. La variable dependiente (ventas) presenta un cierto grado de aleatoriedad. Un modelo que refleja esta variación es: Y=ao + ociX+ E (componente aleatorio) dos de las causas que se proponen para la presencia de E son: - El error de medición (por ejemplo, imprecisiones de presupuesto). - El error estocástico (esto se origina porque los fenómenos biológicos y sociales son irrepetibles). Aunque no hubiese error de medición, la continua repetición de un experimento en donde se empleara por ejemplo, exactamente la misma cantidad de alimento para pollos, no se obtendría el mismo peso para todos los pollos; esas diferencias son impredecibles. (El error estocástico se debe tomar como la influencia que muchas variables omitidas tienen sobre Y; cada una de estas influencias tiene un efecto individualmente muy pequeño.) El modelo anterior representa la relación poblacional según la cual Y es regresiva en función de X, ao y al son los parámetros y E es un término aleatorio de error ideado para recoger la variación por encima y por debajo de la recta de regresión debida a todos los demás factores no incluidos en el modelo. Siguiendo con el ejemplo de la publicidad y las ventas, es probable que las ventas estén influidas también por el grado de competencia, los precios relativos, etc. El componente aleatorio E puede ser negativo o positivo en función de si el valor de Y para un valor de X dado, se encuentra por
OMAR JESÚS ALCALÁ VELASQUE
184
debajo o por encima de la recta de regresión. Al componente aleatorio también se le llama término de distorsión, porque "distorsiona" la relación determinista entre X y Y. Dado que la recta verdadera de regresión de la población seguirá siendo desconocida (al igual que la mayoría de los parámetros), lo mejor que se puede hacer es estimarla mediante el modelo: Y = ao + aiX + e Los valores ao y al son estimaciones de los parámetros poblacionales ao y a1; se denominan, respectivamente, constante de regresión y coeficiente de regresión. El término e, es el componente del error, el cual es necesario porque no todas las observaciones de Y y X están en línea recta. Como algunas de las observaciones caen por encima de la recta y otras por debajo de ella, e es una variable aleatoria; sin embargo, se supone que el término de error tendrá un valor medio de cero y una varianza 62 por lo que el modelo para estimar la relación entre Y y X mediante la recta de regresión será: Y = a0 + a1 X • Recta de ajuste óptimo (Método de los Mínimos Cuadrados) La recta de regresión deberá reflejar con la mayor exactitud posible la relación entre las variables dependiente e independiente y además deberá ajustarse a los puntos, mejor que ninguna otra recta que se pudiera trazar. Es decir, se deberá buscar la recta de ajuste óptimo y a través del método de los mínimos cuadrados podemos hallarla. Se llama método de los mínimos cuadrados porque da lugar a una recta que hace mínimos los cuadrados de las distancias verticales desde cada punto de una observación a la recta. Para entender el significado del método debemos recordar que Yi es un valor observado
185
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
real de la variable Y, mientras que Y es un valor de la recta predicho por la ecuación. Y
(Y, - )2 = min. min. es el número más pequeño que se puede obtener si se suman estas desviaciones verticales elevadas al cuadrado entre los puntos y la recta. La diferencia Y1 - CT se llama residuo o error.
Yi error v/ 1• error i r
error Yi X
Los coeficientes a, y ao se obtienen mediante las expresiones: o X2 (11 X)2
al
X2 (11)1)2
I Ixy=a0 Ix+a l Ix2
{ y=ao n+a,Ix o resolviendo el sistema:
A pesar de que una de las aplicaciones del modelo de regresión es predecir, prever o proyectar el valor de la variable dependiente, es una falsa interpretación suponer a priori que exista una relación de causa-efecto entre las dos variables. Hipótesis utilizadas en el método de mínimos cuadrados: 1. El término error es una variable aleatoria que sigue una distribución normal. 2. Dos errores cualesquiera son independientes entre sí (a me-
186
OMAR JESÚS ALCALÁ VELASQUE
nos que se manejen datos de series temporales, porque muchas series temporales varían de forma cíclica.) 3. Todos los errores tienen la misma varianza (a menos que se usen datos transversales.) 4. Las medias de los valores de Y están todas en una recta. Si se quiere estimar el valor de X a partir de un valor dado de Y, debemos hacer un intercambio de las variables en el diagrama de dispersión de modo que X sea la variable dependiente y Y la independiente, quedando: X = 6, + b,Y (curva de regresión de X sobre Y) En general, la recta o curva de regresión de Y sobre X no es la misma que la de X sobre Y. Para hallar los coeficientes b0 y b1 se intercambian las x con las y en las ecuaciones de ao y al respectivamente, quedando: bo = (11 x)
(1,y2)_(Iy),,,,
l2-‹ ) b = n (1, xY) — (1(x) (I, Y)
IY2 — (IY)2
n
1
nIY2 — (1,Y) 2
ERROR TÍPICO DE ESTIMACIÓN GENERALIZADO (SE) El error típico de la estimación es una medida de la cantidad media en que las observaciones reales de Y varían en torno a los predichos por el modelo 'cr .
187
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
2 1(Y —Y1
Se y sobre x
Y = valores de la variable dependiente.
n — k —1
= valores obtenidos mediante la ecuación de estimación que corresponde a cada valor de Y.
1(y .,12
n = número de puntos de datos utilizados para ajustar la línea de regresión (número de observaciones).
Se y sobre x
n — k —1
k = número de variables independientes. Si se trabaja con una recta, se puede calcular el error mediante:
Iy3
Se y sobre x
n—2
Mientras más grande sea el error estándar de la estimación, mayor será la dispersión de los puntos alrededor de la línea de regresión. Suposiciones que se hacen al usar Se: 1. Los valores observados para Y están normalmente distribuidos alrededor de cada válor estimado de 2. La varianza de las distribuciones alrededor de cada valor posible de I es la misma. ❑ Ejemplo 1 Supongamos que un analista toma una muestra aleatoria de 10 embarques recientes por camión realizados por una compañía y registra la distancia en millas y el tiempo de entrega en días. Distancia (millas) Tiempo (días)
825 3,5
215 1,0
1070 4,0
550 2,0
480 1,0
920 3,0
1350 4,5
325 1,5
670
1215
3,0
5,0
188
OMAR JESÚS ALCALÁ VELASQUE
a) Elabore un diagrama de dispersión. DIAGRAMA DE DISPERSIÓN —5 <4
–3
3_2 w_11 17-
Recta de Regresión
•
0 200 400 600 800 1000 1200 1400 DISTACIA (MILLAS)
b) Con base en el diagrama considere si el análisis de regresión lineal parece apropiado. El análisis de regresión lineal es el apropiado ya que los datos se ajustan a él, es decir la recta describe de forma más óptima la relación entre los valores de las variables contempladas. c) En caso afirmativo realice dicho análisis. En este caso procede el análisis de regresión lineal, realicemos entonces los cálculos para dicho análisis. Cálculo de la recta de regresión por el método de los mínimos cuadrados Distancia (x)
Tiempo (y)
xy
x2
y2
825
3,5
2887,5
680625
12,25
215
1
215
46225
1
1070
4
4280
1144900
16
550
2
1100
302500
4
480
1
480
230400
1
920
3
2760
846400
9
1350
4,5
6075
1822500
20,25
325
1,5
487,5
105625
2,25
670
3
2010
448900
9
1215
5
6075
1476225
25
7620
28,5
26370
7104300
99,75
189
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
Coeficientes de la recta: a1 =
(10-26370)—(7620-28 5) '2 (10-7104300)—(7620)
Recta de Regresión
--.
0,0036
(20 —
(28 5-7104300)—(7620-26370) z 0,11 , ' (10-7104300)—(7620)-
= 0,0036x + 0,11
Con base en la recta se puede estimar un valor de Y, por ejemplo, el tiempo de entrega, a partir del momento en que el embarque está listo para su carga, si recorrerá una distancia de 1000 millas: 9- (1000) = 0,0036(1000)+ 0,11= 3,71 días ¿Podría utilizarse esta ecuación para estimar el tiempo de entrega de un embarque que recorrerá 2.500 millas? La respuesta es no, ya que el valor que se va a utilizar está fuera del rango de la variable x, y en ese valor la ecuación no puede garantizar la aproximación, recuerde que el estudio de regresión se circunscribe al rango de los datos fuera de ellos pierde precisión y exactitud. Error típico de estimación: s e(y/x)
99,75— (0,11.28,5)— (0,0036.26370) 0,46 10-2
II. ANÁLISIS DE CORRELACIÓN
El análisis de correlación es la herramienta estadística que podemos usar para describir el grado de interconexión entre las variables. Con frecuencia, el análisis de correlación se utiliza junto con el análisis de regresión para medir qué tan bien la línea de regresión explica los cambios de la variable dependiente Y.
190
OMAR JESÚS ALCALÁ VELASQUE
• Coeficiente de correlación Mide qué tan bien se ajusta una curva de regresión a los datos muestrales. Permite analizar la intensidad de la asociación, por medio de un coeficiente adimensional de la dependencia lineal. •
Coeficiente de correlación lineal producto-momento de Pearson
Para el coeficiente de correlación lineal, el valor absoluto de r indica la fuerza de la relación entre Y y X, mientras que el signo (el signo corresponde al de al , coeficiente de regresión) nos dice si están relacionadas en forma directa o inversa. Para relaciones lineales:
\i[nri(x2 ) (1(41 [n DY 2 ) ( rY)2] r=1
correlación positiva perfecta
r = -1
correlación negativa perfecta
r=O
no hay relación gráfica entre Y y X
Gráficamente: Correlación negativa perfecta
-1
Ninguna correlación
Correlación positiva perfecta
Correlación Correlación negativa positiva moderada mo derada Correlación Correlación Correlación Correlación ne gativa p o sitiva positiva negativa intensa débil intens a débil -0,50 0,50 1
191
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
Es de hacer notar que un coeficiente de correlación alto no indica, necesariamente, una dependencia directa de las variables (correlación espúrea). En la interpretación del coeficiente de correlación lineal producto-momento debe diferenciarse entre magnitud e intensidad. Mientras la intensidad es igual a Ir' e indica la magnitud de la relación, el sentido es igual al signo de r y se corresponde con el signo del coeficiente. Una limitación importante a considerar en el uso de este coeficiente es el hecho de que pueden pasar desapercibidas las relaciones no lineales, motivo por el cual es conveniente acompañar su cálculo con una representación gráfica por medio de un diagrama de dispersión. ❑ Ejemplo 2 Para el ejemplo 1 de este capítulo estamos trabajando de las millas recorridas, tenemos que el coeficiente de correlación:
10(26370) — (7620)(28,5)
r=
= 0,9489
V[(10.7104300)— (7620) 21 [(10.99,75)— (28,5)2 ] Es decir la correlación es positiva intensa. En cuanto al coeficiente de determinación la interpretación será la siguiente: r2=0,9004
El 90,04% de la vaciación de y queda explicada por la variación de x
Desviación total o variación total de Y Es la cantidad en que los valores individuales de Y varían a partir de su media Y , es decir, E (Y, - y )2.
192
OMAR JESÚS ALCALÁ VELASQUE
La desviación o variación total puede descomponerse en dos tipos: 1. Desviación explicada o variación explicada: es aquella parte de la desviación total que queda explicada por nuestro modelo, se obtiene mediante la diferencia entre aquello que nuestro modelo predice y el valor medio de Y, es decir: 'f( - Y . De esta forma, la desviación explicada mide la cantidad de la diferencia total entre Yi e que queda explicada por el modelo de regresión. Var. Explicada = ( i_ yr
)2
2. Desviación no explicada o variación no explicada: es la parte de la desviación total de Yi respecto de Y no explicada por nuestro modelo (ya que esas desviaciones se comportan de modo caótico, impredecible). Para hallarla, hay que calcular la diferencia entre lo que Y era en realidad (Yi) y lo que predijo nuestro modelo ( ). Var. No Explicada = E (Y- )2
Coeficiente de determinación (r2) Es un coeficiente que mide el poder explicativo del modelo de regresión, es decir, la parte de la variación de Y explicada por la variación de X.
2
r=
Variación explicada / — Variación total (y. — V)
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
193
El valor de r2 ha de estar entre 0 y 1 puesto que es imposible explicar más del 100% de la variación de Y. Por ejemplo, si r2 = 0,70 significa que el 70% de la variación de Y está explicada por las variaciones de X. Es evidente que cuanto mayor sea r2, mayor poder explicativo tendrá nuestro modelo. Si la variación explicada es cero, toda la variación es inexplicada y el cociente da cero. Si la variación inexplicada es cero, toda la variación es explicada y el cociente es 1. El coeficiente de determinación es un indicador que, al contrario que el coeficiente de correlación lineal, no está circunscrito únicamente a la asociación lineal, sino que puede ser calculado para cualquier tipo de asociación existente. • Limitaciones del análisis de regresión Aunque el análisis de regresión y correlación demuestra ser muy útil en numerosas ocasiones para tomar decisiones relativas a una gran variedad de asuntos empresariales y económicos, existen determinadas limitaciones a su aplicación e interpretación. 1. Las relaciones encontradas por la regresión deben ser consideradas como relaciones de asociación, pero no necesariamente de causa y efecto. A menos que se tengan razones específicas para creer que los valores de la variable dependiente son ocasionados por los valores de las variables independientes, no se debe inferir causalidad en las relaciones que se encuentren mediante la regresión. 2. Hay que tener cuidado al utilizar el modelo de regresión para predecir Y a partir de valores de X exteriores al recorrido del conjunto de datos original porque fuera de él no se puede asegurar que sea válida la misma relación. 3. Otro fallo del análisis de regresión y correlación es el que se manifiesta cuando dos variables que no tienen nada que ver
194
OMAR JESÚS ALCALÁ VELASQUE
entre sí parecen presentar alguna relación y en estos casos estaríamos en presencia de una correlación espúrea, que es la correlación que ocurre por puro azar, por ejemplo, puede haber una alta correlación entre el número de libros publicados cada año y el número de tormentas en ese mismo año. • Diferencia entre las relaciones lineales y no lineales Hasta los momentos se han estudiado relaciones lineales; en una relación lineal, la variable dependiente cambia una cantidad constante por cada cantidad constante en que cambia la variable o las variables independientes; en una relación curvilínea, la variable dependiente no cambia con una rapidez constante ante cambios constantes en la variable o variables independientes. Debido a que puede ocurrir el caso de que un cierto par de variables sólo sea posible representarlo adecuadamente mediante una forma no lineal sugerida por el diagrama de dispersión, en tales casos caben dos posibilidades: 1. Intentar ajustar directamente a los datos una relación no lineal adecuada. 2. Buscar una transformación inicial de los datos de tal forma que la relación entre los datos transformados aparezca como aproximadamente lineal. Algunas ecuaciones de curvas aproximantes son: 1.Parábolas: Y= ao+a,X+a,X, 2. Curvas exponenciales: Y = abx 3. Curvas potenciales: Y = aXb Para decidir qué curva usar, es útil obtener diagramas de dispersión de variables transformadas.
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
195
• Transformación semilogarítmica: Se presenta cuando la relación entre Y y X es de la forma Y = abx (con a y b mayores que cero). Para hacer la transformación se toman logaritmos a ambos miembros de la ecuación. El diagrama de dispersión de log Y versus X indica una relación lineal y la ecuación tiene la forma log Y = log a + (log b)X. Al tomar log Y = Y', log a = ao, log b= al , nos queda: '= a0 + a1 X • Transformación logarítmica: Se presenta cuando la relación entre Y y X es de la forma Y = aXb, para hacer la transformación se toman logaritmos a ambos miembros de la ecuación. El diagrama de dispersión de log Y versus log X es lineal y la ecuación tiene la forma log Y = log a + b(log X). Al tomar log Y = Y', log a = ao , log X= X', nos queda:'= a0 + a1X' Al igual que ocurría con la recta, se deben evitar juicios subjetivos al construir parábolas u otras curvas aproximantes de ajuste de datos. De todas las curvas que aproximan un conjunto dado de datos y que tiene la propiedad de que Di2 +D22 +D32 +...+ D 2n es mínima, se llama curva de ajuste óptimo, siendo D la desviación, el error o el residual.
(x1•3'1)
•
(x2,y2)
OMAR JESÚS ALCALÁ VELASQUE
196
• Parábola de mínimos cuadrados: La parábola de mínimos cuadrados que aproxima el conjunto de puntos (xi,y,), (x2,y2),..., (x.,y) tiene una ecuación dada por: Y=a0-va1X+a2X2, donde las constantes ao, a1 y a2 se determinan al resolver simultáneamente las ecuaciones: IY=aon+a1 rCa2EX2 E XY=a01X+a,IX2+a2EX3 EYX2=a01X2+alEX3+a21X4 Llamadas ecuaciones normales de la parábola de mínimos cuadrados. 0 Ejemplo 3 Ajuste a una parábola de mínimos cuadrados los siguientes datos: x
1 13
Y
2
3
4
5
24
39
65
106
Graficando los datos tenemos el siguiente diagrama de dispersión: Diagrama de Dispersión
Diagrama de Dispersión 120100 30 )- 60 40 20 -
•
• 1
197
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
La tabla que permite los cálculos de los coeficientes se presenta a continuación: Y 13 24 39 65 106 E = 247
x 1 2 3 4 5 I =15
x3 1 8 27 9 64 16 125 25 / = 55 I = 225 I = x2 1 4
x4 1 16 81 256 625
xy 13 48 117 260 530
x2y 13 96 351 1040 2650
979 I = 968 1, = 4150
Para obtener los coeficientes se debe resolver el siguiente sistema de ecuación: 247 = 5a0 +15a1 +55a2 968 =15a0 +55a1 + 225a2 4150 = 55a0 + 225a1 +979a2 Obteniendo: a0=16,8 ai-7,73 a2=5,07 Por lo tanto la ecuación de regresión cuadrática es: S', =16,8 — 7,73x+5,07x2
198
OMAR JESÚS ALCALÁ VELASQUE
EJERCICIOS COMPLEMENTARIOS
REGRESIÓN Y CORRELACIÓN
1) La tabla siguiente muestra las estaturas redondeadas en pulgadas y los pesos en libras de una muestra de 12 estudiantes tomada al azar entre los estudiantes de ler año en la escuela de administración: Estatura (pulg.) Pesos (lb.)
70
63
72
60
66
70
74
65
62
67
65
68
155 150 180 135 156 168 178 160 132 145 139 152
X = estatura. Y = peso. a) Obtener un diagrama de dispersión para esos datos. b) Ajustar una recta de mínimos cuadrados a los datos, usando: •
X como variable independiente
•
X como variable dependiente
c) Estimar el peso de un estudiante que mide 63 pulg. d) Estimar la estatura de un estudiante que pesa 168 lb. Respuestas:
4.
(b) = -59,3513 + 3,1948 X; = 31,3396 + 0,2302 Y (e) 141,9211 lb. d) 70,0132 pulg
199
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
2) Ajustar una recta de mínimos cuadrados a los datos de la tabla siguiente: X 3 5 6 8 9 11 Y 2 3 4 6 5 8
Usando X como: a) Variable independiente. b) Variable dependiente. c) Hallar '2" cuando X = 5, X = 6 ; hallar X cuando Y = 7 Respuestas: (a) (b)
= -0,3333 + 0,7143 X = 1 + 1,2857 Y
(c) X = 5, ' = 3,2382; X = 12, =7, 5=10
= 8,2383; Y
3) La tabla siguiente presenta las notas en álgebra y física de 10 estudiantes elegidos al azar entre un grupo muy numeroso: Álgebra (X) Física (Y)
75 80 93 65 87 71 98 68 84 77 82 78 86 72 91 80 95 72 89 74
a) Representar los datos b) Hallar una recta de mínimos cuadrados usando X como variable independiente y luego como dependiente c) Si un estudiante tiene 75 puntos en álgebra. ¿Cuál es su nota esperada en física? d) Si un estudiante tiene 95 puntos en física. ¿Cuál es su nota esperada en álgebra?
200
OMAR JESÚS ALCALÁ VELASQUE
Respuestas: (b) X;
ICC 9G 35 -
= 29,1290 + 0,6613 = -14,3939 + 1,1501
Y
PI C -
*
(c)
= 78,7265 puntos.
15 CC
515
3C
31
.9C
95
le(
(d) 1= 94,8656 puntos.
4) Suponga que usted tiene a su cargo el dinero de la región de Piedmont, se le dan los siguientes datos de antecedentes sobre el suministro de dinero y el producto nacional bruto (ambos en millones de dólares): Suministro de dinero (X) 2,0 2,5 3,2 3,6 3,3 4,0 4,2 4,6 4,8 5,0
Producto Nacional Bruto (Y) 5,0 5,5 6,0 7,0 7,2 7,7 8,4 9,0 9,7 10,0
a) Desarrolle la ecuación de estimación para predecir el PNB del suministro de dinero. b) ¿Cómo interpreta la pendiente de la línea de regresión? c) Calcule e interprete el error estándar de la estimación. Respuestas: (a) = 1,1681 + 1,7156 X (b) Seyx = 0,3737
201
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
5) Un estudio hecho por el departamento de transporte de Atlanta, Georgia, acerca del efecto de los precios de los boletos de los autobuses sobre el número de pasajeros produjo los siguientes resultados: 30
35
40
45
50
55
60
Precio del boleto (centavos)
25
Pasajeros por 100 millas
800 780 780 660 640 600 620 620
a) Represente gráficamente los datos.
= 640, 714 pasajeros
b) Desarrolle la ecuación de estimación que mejor describa estos datos. c) Pronostique el número de pasajeros por 100 millas si el precio del boleto fuera de 50 centavos. d) Calcule el error típico de estimación. Respuestas:
CC
(b)Pasajeros estimados = 952,6190 — 6,2381 precio del boleto. (e) = 640,714 pasajeros. (d) Seyx = 38,0610 pasajeros.
6) La señorita Érika Pérez, estudiante del primer semestre de administración, elabora un estudio de compañías que se están dando a conocer. Tiene curiosidad por ver si existe o no relación significativa entre el tamaño de la oferta (en millones de dólares) y el precio por acción. a) Dados los siguientes datos, desarrolle la ecuación lineal que mejor ajuste los datos:
202
OMAR JESÚS ALCALÁ VELASQUE
Precio (precio por acción) (Y) 12,00 4,00 5,00 6,00 13,00 19,00 8,50 5,00 15,00 6,00 12,00 12,00 6,50 3,00
Tamaño de la oferta (millones de $) (X) 108,00 4,40 3,50 3,60 39,00 68,40 7,50 5,50 375,00 12,00 51,00 66,00 10,40 4,00
b) Calcule el coeficiente de determinación de la muestra. c) ¿Debería Érika usar esta ecuación de regresión con propósitos descriptivos, o buscar en otra parte variables explicativas adicionales? Respuestas: (a) Precio estimado = 7,5294 + 0,0285 tamaño oferta. (b) r2 = 0,3418 7) En la tabla se presentan datos muestrales relativos al número de horas de estudio fuera de clases durante un período de tres semanas de alumnos de un curso de estadística aplicada a la administración y a sus calificaciones en el examen final de ese período. Estudiante muestreado Horas de estudio (x) Calificación en examen (y)
1 20 64
2 16 61
3 34 84
4 23 70
5 27 88
6 32 92
7 18 72
8 22 77
203
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
a) Elabore un diagrama de dispersión para estos datos y observe si se cumplen los supuestos de linealidad e igualdad de las varianzas condicionales. b)Determine la línea de regresión de mínimos cuadrados y trácela en el diagrama elaborado. c) Calcule el error estándar del estimador. d)Use la ecuación de regresión determinada en el punto b) para estimar la calificación en el examen de un estudiante que dedicó 30 horas al estudio del material del curso. Respuestas:
(b) j) =1,49x+ 40,08 (c) sx 6,16 y (d) 85 puntos (aproximadamente)
4 4 4
4
8) Se seleccionó al azar la siguiente muestra de observaciones:
y
4 4
5 6
3 5
6 7
10 7
a) Determina el coeficiente de correlación e interprételo. b) Determina el coeficiente de determinación e interprételo. Respuestas: (a) r= 0,7522 (Correlación positiva intensa) (b) r2= 0,5658 9) En la tabla se presentan los precios del petróleo venezolano2, en dólares por barril, durante el año 2005: 2 Fuente: Ministerio de Energía y Minas. http://www.mem.gob.ye/preciopetroleo/index.php.
204 OMAR JESÚS ALCALÁ VELASQUE
Ene Feb Mar Abr May Jun Jul Ago 34,66 37,05 43,32 42,70 37,17 45,95 48,45 54,02
Sept 54,42
Oct 50,80
Nov Dic 47,08 48,60
a) Elabore un diagrama de dispersión para estos datos y observe si se cumplen los supuestos de linealidad. b) Determine la línea de regresión de mínimos cuadrados y trácela en el diagrama elaborado. c) Determine el coeficiente de determinación a interprételo. Respuestas:
b) y = 1,4252x+36,0875 x: número del mes c) r2= 0,6154 31
En el gráfico cada mes se ha cambiado por un número que lo identifique para realizar los cálculos de la recta.
10) La siguiente tabla muestra el número de bacterias por unidad de volumen que están presentes en un cultivo después de un cierto número de horas. Número de horas
1
2
3
4
5
Número de bacterias por unidad de volumen
18
21
33
54
61
a) Calcule el coeficiente de correlación lineal. b) Diga qué tipo de relación (directa, inversa o independencia) existe entre ambas variables. c) Determine la recta de regresión de y, número de bacterias por unidad de volumen, sobre x, número de horas. d) ¿Qué número de bacterias cabe esperar que habrá, transcu-
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
205
rridas 2,5 horas? ¿Y cuando pasen 6 horas? e) ¿Qué tiempo deberá pasar para que el número de bacterias del cultivo sea de 27? Respuestas: a) r = 0,9725 b) Directa c) j)=11,9x+1,70 11) Dada la difícil situación por la que atraviesa actualmente la empresa QUEMALAPATA, en la que hemos empezado a trabajar, se propone la reducción de determinados gastos. Para ello se estudia la relación que existe entre dos variables como son: los gastos en publicidad (variable X) y los beneficios (variable Y). De ambas variables disponemos de los siguientes datos: Año Gasto en publicidad (millones Bs) Beneficios (millones Bs)
1993 1994 1995 1996 1997 10,4 9 8 7,5 7 67 65 50 45 33
a) ¿Se puede considerar que ambas variables guardan algún tipo de relación? ¿Cuál sería la variable dependiente y cuál la independiente? b) Realizando un gráfico adecuado, ¿se puede suponer que la relación que las une es de tipo lineal? c) Construye las dos rectas de regresión mínimo cuadrática asociada con las variables. d) Si la empresa para el próximo año realizará un esfuerzo para poder invertir Bs. 11.500.000 en publicidad, ¿cuáles resultarían ser sus beneficios? ¿Con qué fiabilidad realizaría usted la predicción?
206
OMAR JESÚS ALCALÁ VELASQUE
e) ¿Cuáles resultarían ser sus beneficios si la predicción se efectúa considerando tan solo como variable explicativa el tiempo? ¿Cuál sería la fiabilidad de esta otra predicción? Comente los resultados. Respuestas: b) gráfica: 9e=acte :Gasto - 5e7e15: 70
(c) y= 9,81x-30,21
•
(x: gasto)
0 20 10 o
O, 088y +3, 77 lo
11
GasiD9n ptia c4act
12) Almacenes 011as Lindas está estudiando el efecto de su última campaña publicitaria. Se escogió personal al zar y se les llamó para preguntarles cuántas ollas habían comprado la semana anterior y cuantos anuncios de 011as Lindas habían visto o leído durante el mismo período. Número de anuncios 011as compradas
3 11
7 18
4 9
2 4
0 7
4 6
1 3
2 8
a) Desarrolle la ecuación de estimación que mejor ajuste los datos.
b) Calcule el coeficiente de correlación y el coeficiente de determinación e interprete cada uno. Respuesta. (a) 011as compradas = 3,3308+ 1,71 anuncios (b) r = 0,7867, r2 = 0,6189 13) Un consultor está interesado en el grado de precisión con que un nuevo índice de desempeño laboral mide lo que es importante
207
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
para la corporación. Una forma de verificarlo es analizar la relación entre el índice de evaluación del trabajo y el salario de un empleado. Se tomó una muestra de ocho empleados y se recabó la información del salario (en miles de bolívares) y el índice de evaluación del trabajo (1 a 10, donde 10 es la mejor calificación) 9 36
Índice (x) Salario (y)
7 25
8 33
4 15
7 28
5 19
5 20
6 22
a) Desarrolle la ecuación de estimación que mejor describa estos datos b) Calcule el error estándar de estimación para estos datos. c) Calcule el coeficiente de determinación de la muestra e interprételo. 14) La Fundación de Protección a las Cigüeñas desea mostrar con estadísticas que, contrariamente a la creencia popular, las cigüeñas sí traen a los bebés. Para esto ha recolectado datos sobre el número de cigüeñas y el número de bebés (ambos en miles) en varias ciudades grandes de Europa Central. Cigüeñas Bebés
27 35
38 46
13 19
24 32
6 15
19 31
15 20
a) Calcule el coeficiente de determinación de la muestra y el coeficiente de correlación de la muestra para estos datos. b) ¿Contradijo la ciencia estadística la creencia popular? Respuestas. (a) r = 0,9788 ;
r2 = 0,9581
15) Un estudiante de segundo año de la maestría en administración de la UCAB, elabora un estudio de compañías que entran a la bolsa de valores de Caracas por primera vez. Tiene curiosidad por ver si existe o no una relación significativa entre el tamaño de la oferta (millones de bolívares) y el precio de la acción (miles de bolívares).
208
OMAR JESÚS ALCALÁ VELASQUE
a) Dados los siguientes datos, desarrolle la ecuación de estimación que mejor ajuste los datos. Tamaño
Precio
108
12
4,4
4
3,5
5
3,6
6
39
13
68,4
19
7,5
8,5
5,5
5
375
15
12
6
51
12
66
12
10,4
6,5
4
3
b) Calcule el coeficiente de determinación de la muestra. ¿Debe este alumno usar la ecuación de regresión para pronosticar o debe buscar en otra parte variables explicativas adicionales? Respuestas: (a) Precio= 7,5294+0,0285. Tamaño (b) r2 = 0,3412. Debe buscar información en algún otro lado. 16) Ajuste una curva de mínimos cuadrados a los datos de la tabla: X 0
1
2
3
4
5
6
Y 2,4 2,1 3,2 5,6 9,3 14,6 21,9
(a) Represente los datos. (b) Ajuste a una parábola de mínimos cuadrados. Respuesta: (b) 'c( = 2,51 — 1,20 X + 0,73 X2
209
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
17) El tiempo necesario para detener un carro tras percibir un peligro es el tiempo de reacción más el tiempo de frenada. La tabla da la distancia D (en pies) que recorre antes de pararse un carro que circula a V millas por hora, a partir del instante en que se ha percibido el peligro: Velocidad (millas/hora) 20 30 40 50 60 70
Distancia (pies) 54 90 138 206 292 396
(a) Representar los datos (b) Encontrar la curva de mejor ajuste a los datos (c)Estimar D cuando V = 45 millas/hora Respuestas: (b) D = 41,77 — 1,10 V + 0,09 V2 (c) D = 174,52 pies. 18) El número de bacterias por unidad de volumen en un cultivo tras X horas viene dado por: Número de horas 0 1 2 3 4 5 6
Número de bacterias por unidad de volumen 32 47 65 92 132 190 275
OMAR JESÚS ALCALÁ VELASQUE
210
(a) Representar los datos (b) Ajustar una curva de mínimos cuadrados de la forma Y = abx a los datos (c)Estimar Y cuando X = 7 Respuestas: (b) 'iT = 32,144 * 1,4269' (c) 'f( = 387,12 19) La tabla presenta los valores experimentales de la presión P de una masa de gas correspondiente a varios valores del volumen V. Volumen (in3) Presión (lb/in2)
54,3 61,2
61,8 49,5
72,4 37,6
88,7 28,4
118,6 19,2
194 10,1
De acuerdo con la termodinámica existe una relación del tipo PV6 =C, entre las variable P y V, donde 3y C son constantes. a) Hallar los valores de 3y C b) Escribir la ecuación que relaciona P y V c) Estimar P cuando V = 100 in3 Respuestas: C= 16000, 3= 1,40 pv1,40_ 16000
P= 25,1 lb/in2 20) Proyectar la oferta de un cierto producto tomando en cuenta los datos obtenidos en el estudio de mercado. Ver cuál de los métodos o curvas de proyección se ajusta mejor a la nube de puntos. Año 1989 1990 1991
Tiempo (x) 1 2 3
Oferta (y) 100000 120000 140000
211 TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
1992
4
110000
1993
5
170000
1994
6
150000
1995
7
180000
1996
8
200000
1997
9
210000
1998
10
200000
Determinar la oferta para los próximos diez años, suponiendo que el precio del producto se incrementará en 5% con relación al año anterior. Respuesta:
•
2000 00 -
4
1 S Ü000 -
4 e
100000 800 00
12
21) Dados los siguientes conjuntos de puntajes pareados de cinco sujetos: Sujeto Y
1 5 6
2 6 8
3 9 4
4 9 8
5 11
7
212
OMAR JESÚS ALCALÁ VELASQUE
a) Trace un diagrama de dispersión para estos datos. b) Calcule el valor de la r de Pearson. c) Agregue a los datos los siguientes valores para un sexto sujeto: Y=26, X=25. d) Calcule el valor de la r de Pearson para los seis datos. e) ¿Existe diferencia entre las respuestas para las partes b) y d)? Explique dicha diferencia. 22) Un estudio ha demostrado que la correlación entre fatiga e irritabilidad es 0.53. Con base en esta correlación, el autor concluye que la fatiga es un importante factor que produce irritabilidad. ¿Está justificada esta conclusión? Explique su respuesta.
CAPÍTULO V I. MÉTODO DE SERIES DE TIEMPO II. ANÁLISIS DE SERIES EN EL TIEMPO
La planeación a futuro es un aspecto esencial en la administración de cualquier empresa; ya que su éxito, a la larga, se relaciona mucho con lo bien que la administración puede anticipar el futuro y desarrollar las estrategias adecuadas. PRONÓSTICO
Definición: un pronóstico es tan sólo una predicción de lo que sucederá en el futuro • Métodos de pronósticos a) Cualitativos: este método requiere de la opinión de un experto o de un grupo de ellos, tiene la ventaja de que se usan cuando no es posible cuantificar la información sobre la variable que se pronostica y cuando los datos históricos no son aplicables o no están disponibles. b) Cuantitativos: se usan cuando se cumple lo siguiente: b.1) Se dispone de información histórica anterior acerca de la variable que se pronostica. b.2) La información se puede cuantificar. b.3) Se hace la suposición de que el patrón del pasado continuará en el futuro. Si los datos o la información histórica se restringen a valores pasados de la variable, el procedimiento de pronóstico se llama método de serie de tiempo. Otro método se conoce como método causal.
216
L
OMAR JESÚS ALCALÁ VELASQUE
MÉTODO DE SERIES DE TIEMPO
Dado un conjunto de observaciones de una variable tomadas en instantes específicos (generalmente a intervalos iguales), la serie de tiempo consiste en un método cuantitativo utilizado para determinar patrones en los datos recolectados a través del tiempo. Ejemplos: la producción anual de acero en la CVG durante un cierto número de años, el total de ventas de una empresa, la cotización diaria al cierre de la sesión bursátil de ciertas acciones, etc. • Gráficos de series en el tiempo: Una serie en el tiempo que involucra a una variable Y (cotización, producción anual, etc) se representa por un gráfico de Y respecto de t. Se puede pensar en este tipo de gráfico como aquel que describe un punto moviéndose con el paso del tiempo bajo la influencia de fuerzas económicas, sociológicas, psicológicas, etc. • Objetivo del método Descubrir un comportamiento en los datos históricos para entonces extrapolarlo al futuro. • Componentes de una serie de tiempo El patrón o comportamiento de los datos en una serie de tiempo tiene diversos componentes, el supuesto normal es que se combinan cuatro componentes separados: la tendencia, el cíclico, el estacional y el irregular, para definir valores específicos de la serie de tiempo. 1. Componente de tendencia: en el análisis de serie de tiempo, las mediciones pueden efectuarse cada hora, día, semana, mes o año, o en cualquier otro intervalo. Aunque los datos de serie de tiempo presentan, por lo general, fluctuaciones
217
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
aleatorias, esta serie puede mostrar también desplazamientos o movimientos graduales hacia valores relativamente mayores o menores a lo largo de un lapso importante de tiempo. La dirección general en la que el gráfico parece progresar en un largo período de tiempo o el desplazamiento gradual de la serie de tiempo se llama tendencia de esa serie. Este desplazamiento es por lo común, el resultado de factores a largo plazo, como cambios en la población, las características demográficas de la misma, la tecnología y/o las preferencias del consumidor. Un ejemplo de este componente es el incremento de los costos de vida registrados en el IPC (de un año a otro el costo de la vida varía bastante, pero al examinar por un periodo largo, la tendencia es hacia un aumento estable). 0 Ejemplos de posibles patrones de tendencia en series de tiempo: Y
Y
Y
Y • s. •
• •A
Tiemp o
Tiemp o
4, • •
• Tiemp o
2. Componente cíclico: aunque una serie de tiempo puede presentar una tendencia a través de periodos grandes, sus valores no caerán con exactitud sobre la línea de tendencia, de hecho, con frecuencia estas series temporales presentan secuencias alternas de puntos abajo y arriba de la línea de tendencia, luego, toda secuencia recurrente de puntos arriba y debajo de la línea de tendencia, que duran más de un año, se pueden atribuir a un componente cíclico de la serie.
218
OMAR JESÚS ALCALÁ VELASQUE
Y
Tiemp o
Muchas series de tiempo presentan comportamiento cíclico con tramos regulares de observaciones abajo y arriba de la línea de tendencia. En general, este componente de la serie se debe a movimientos cíclicos de la economía a través de varios años; por ejemplo, los períodos de inflación moderada seguidos de períodos de inflación rápida pueden determinar series de tiempo que se alternan abajo y arriba de una línea de tendencia ascendente en general(en el gráfico las observaciones se hicieron a intervalos de un año)
3. Componente estacional: mientras que la tendencia y los componentes cíclicos de una serie de tiempo se identifican analizando los movimientos de datos históricos a través de varios años, hay muchas series de tiempo que muestran un patrón regular dentro de un período de un año o menos. El componente estacional está ligado a patrones de cambio en el lapso de un año que tienden a repetirse anualmente, un ejemplo de esta componente es el brusco aumento de precios al consumo antes de la navidad cada año. Con el fin de poder detectar esta componente los intervalos de tiempo necesitan ser medidos en unidades pequeñas como días, semanas, meses, trimestres, etc. 4. Componente irregular: el componente irregular de la serie de tiempo se debe a sucesos del azar (inundaciones, huelgas, elecciones, etc.). Se suele suponer que tales sucesos producen variaciones que pierden su influencia tras poco tiempo, sin embargo, cabe la posibilidad de que sean tan intensos que den lugar a nuevos movimientos cíclicos o de otro tipo.
219
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
II. ANÁLISIS DE SERIES EN EL TIEMPO El análisis de series en el tiempo consiste en describir (matemáticamente, en general) los movimientos componentes que están presentes, para ello requiere investigar los factores T, C, E, I. En símbolos el modelo a utilizar presenta la siguiente estructura: Y = T * C * E * I (modelo multiplicativo, sin embargo, algunos estadísticos prefieren el modelo aditivo). • Suavizamiento de series en el tiempo Hay tres métodos cuyo objetivo es "suavizar" (reducir) las fluctuaciones de la serie de tiempo. Estos son adecuados para una serie de tiempo estable; esto es, una que no presenta grandes efectos de tendencia, cíclicos o estacionales, porque se adaptan bien a cambios en el nivel de la serie. Estos métodos son: promedios móviles, promedios móviles ponderados y suavizamiento exponencial, de ellos sólo trabajaremos con los promedios móviles. • Promedios móviles Dado un conjunto de números y1 , y2 , y3 , ... , etc. Definimos un promedio móvil de orden N como la sucesión de medias aritméticas: Y-1 +y2 ± • • • 4- Y- N Y2 +Y 3 + • • • ± YN+1 Y3 + y4 ±" • + Y N+2
,
,
en donde
N N N las sumas del numerador se llaman totales móviles de orden N. Si los datos se dan anualmente o mensualmente, un promedio móvil de orden N se llama, respectivamente, un promedio móvil de N años o de N meses.
OMAR JESÚS ALCALÁ VELASQUE
220
0 Ejemplo 1. La tabla muestra la población agricultora (en millones) de un país. Año Población
1973 1974
1975
1976 1977 1978
1979
1980
1981
1982
1983
9,26
8,86
8,25
7,81
7,55
7,24
7,01
6,88
7,03
9,47
8,01
Construir: a) Un promedio móvil de 5 años. Año
1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983
Datos
9,47 9,26 8,86 8,25 7,81 8,01 7,55 7,24 7,01 6,88 7,03
Total móvil Promedio de 5 años móvil de 5 años
43,65 42,19 40,48 38,86 37,62 36,69 35,71
8,73 8,44 8,10 7,77 7,52 7,34 7,14
221
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
b) Un promedio móvil de 4 años.
c) Un promedio móvil centrado de 4 años.
Año Datos Total Promedio móvil móvil de de 4 4 arios años 1973 9,47
Año Datos Total Total Promedio móvil móvil de móvil de 4 2 años centrado años para la de 4 años columna 3 1973 9,47
1974 9,26 35,84
8,96
1974 9,26
34,18
8,55
1975 8,86
1975 8,86
35,84 70,02
8,75
67,11
8,39
64,55
8,07
62,23
7,78
60,42
7,55
58,49
7,31
56,84
7,11
34,18
1976 8,25 32,93
8,23
1976 8,25
1977 7,81
32,93 31,62
7,91
1977 7,81
1978 8,01
31,62 30,61
7,65
1978 8,01
1979 7,55
30,61 29,81
7,45
1979 7,55
1980 7,24
29,81 28,68
7,17
1980 7,24 28,68
1981 7,01 28,16
7,04
1981 7,01 28,16
1982 6,88 1982 6,88 1983 7,03 1983 7,03
• Estimación de la tendencia: De las cuatro componentes de una serie temporal, la tendencia representa la dirección a largo plazo de la serie; existen tres razones por las cuales es útil estudiar las tendencias: a) Permite describir un patrón histórico. b) Permite proyectar patrones pasados hacia el futuro. c) En muchas situaciones, permite eliminar la componente de tendencia de una serie. Las tendencias pueden ser lineales o curvilíneas, para ello podemos ajustar la línea de tendencia mediante el método de mínimos
222
OMAR JESÚS ALCALÁ VELASQUE
cuadrados estudiado anteriormente, mediante el método "a mano", el método del promedio móvil o por el método de semipromedios. Usualmente una manera de describir la componente que corresponde a la tendencia es ajustando una recta mediante el método de mínimos cuadrados.
O Ejemplo 2 Considere los datos que se presentan en la tabla, los cuales ilustran el número de naves cargadas en la ciudad de Puerto Cabello entre 1985 y 1992: Año Número
1985 1986 1987 1988 1989 1990 1991 1992 98 105 116 119 135 156 177 208
Encontrar la ecuación que describe la tendencia de las naves cargadas: X
Codificando
Y
xY
x2
98
-686 -525
49 25
-348 -119
9 1
135 468
1
885
25
X-X=x 1985
1985-1988,5 = -3,5
1986 1987
1986-1988,5 = -2,5
-3,5 * 2 = -7 -2,5 * 2 = -5
105
1987-1988,5 = -1,5
-1,5 * 2 = -3
116
1988
1988-1988,5 = -0,5
-0,5 * 2 = -1
119
1989 1990
1989-1988,5 = 0,5 1990-1988,5 = 1,5
0,5 * 2 = 1 1,5 * 2 = 3
135
1991
1991-1988,5 = 2,5
1992
1992-1988,5 = 3,5
2,5 * 2 = 5 3,5 * 2 = 7
177 208
1456
49
E= 1114
E= 1266
X= 168
l, = O
156
— 15908 X= =1988,5 8
ao =
1114*168-0*1266
=139,2500
8*168-0
a1=
8*1266-0*1114 8*168-0
=7,5357
57' =139,25+ 7,5357X
9
223
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
Podemos utilizar la ecuación de segundo grado en una serie de tiempo para describir una tendencia. En el caso que vamos a estudiar utilizaremos el modelo descrito en el capítulo IV referido al análisis de regresión, ejemplo 3. ❑ Ejemplo 3 En los últimos años, la venta de relojes electrónicos ha aumentado con una rapidez significativa. Determine la ecuación cuadrática de tendencia de los datos contenidos en la siguiente tabla: Ventas anuales de relojes electrónicos de cuarzo Año (x) Ventas unitarias en millones (y)
1991
1992
1993
1994
1995
13
24
39
65
106
Si observamos la gráfica del comportamiento histórico de los datos obtenemos: Tendencia parabólica
100 80 cc 13 c 60 To • = E 40 •
20 o 1990
1991
1992
1993 Tiempo
1994
1995
1996
224
OMAR JESÚS ALCALÁ VELASQUE
Los cálculos para obtener la ecuación se resumen a continuación: Y
x
t
t2
t3
t4
ty
t2y
13 24
1991 1992
1 2
1
1 16
13
13
39 65 106
1993 1994 1995
3 4 5
1 4 9
48 117
96 351 1040 2650
1, = 247
16 25
8 27 64 125
81 256 625
I,=15 E = 55 / = 225 / = 979
260
530 1, = 968 / = 4150
La ecuación es la siguiente: y = 5,07r 2 — 7, 73t +16,8 • Por medio de la recta podemos estimar algún valor que nos sea de utilidad, como por ejemplo pronosticar las ventas de relojes para el año 2000, que en nuestra escala auxiliar del tiempo equivale a 10, por lo tanto: .y.' = 5,07(10)2 — 7,73(10)+16,8 = 446,5 • Con base en la tendencia secular histórica concluimos que las ventas de relojes deberá ser aproximadamente 446.500.000 unidades para 2000. Sin embargo este pronóstico debe evaluarse con cuidado ya que sugiere un incremento sustancial en comparación con una lineal. La pendiente de la tendencia parabólica tiende a cambiar con el tiempo, por lo tanto no es un buen estimador a largo plazo. Al utilizar el método de la ecuación de segundo grado se deben considerar ciertos factores que pueden estar frenando la tasa de crecimiento de la variable. • Estimación de la componente cíclica Como mencionamos anteriormente esta componente de la serie de tiempo se presenta como una oscilación arriba y debajo de la línea de tendencia en períodos mayores a un año. El procedimiento para su análisis se denomina método de residuos.
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
225
Al observar una serie de tiempo con datos anuales, solo tomamos en cuenta las componentes de tendencia, cíclica e irregular, dado que la variación estacional pasa por un ciclo completo y regular cada año y no afecta más un año que otro. Dado que podemos describir la tendencia utilizando una línea, podemos aislar de ella la componente cíclica e irregular restantes. Para este análisis supondremos que la componente cíclica explica la mayor parte de la variación que quedó sin explicar por la componente de tendencia. Si empleamos una serie de tiempo compuesta por datos anuales, podemos encontrar la fracción de la tendencia dividiendo el valor real (y) entre el valor de tendencia correspondiente ( por cada valor de la serie de tiempo y luego se multiplica por 100. Este resultado da la medida de la variación cíclica como un porcentaje de la tendencia. A continuación la fórmula a emplear: Porcentaje de tendencia= y
x100
Y 0 Ejemplo 4 La cooperativa de granjeros El Maíz taqui desea medir las variaciones en las cosechas de maíz de sus miembros durante 8 años. La tabla da el volumen de cereal (en decenas de miles) cosechado cada uno de los 8 años. La columna y contiene los valores de la tendencia lineal para cada período (calculada con el procedimiento empleado en el ejemplo 2). Puede observarse en el gráfico el valor real y el valor estimado para los ocho años y dónde los valores reales quedan por arriba y por abajo.
226
OMAR JESÚS ALCALÁ VELASQUE
Año (x)
Volumen (y)
1998 1999 2000 2001 2002 2003 2004 2005
7,5 7,8 8,2 8,2 8,4 8,5 8,7 9,1
Volumen estimado (Ssr ) 7,6 7,8 8,0 8,2 8,4 8,6 8,8 9,0
Fluctuaciones cíclicas alrededor de la línea de tendencia
-
Recta de Tendencia
1987
1995
1999
2C1117
21:CI
2(1:2
2CC4
ICC:S
Tiempo
A continuación determinamos el porcentaje de tendencia para cada año de la muestra en la columna 4 de la tabla 1. Podemos observar en esta columna la variación de las cosechas reales alrededor de la tendencia estimada. Podemos atribuir esta variación cíclica a factores como las lluvias y cambios de temperatura. Sin embargo; debido a que estos factores son relativamente impredecibles, no podemos determinar un patrón específico futuro de variación con el método de los residuos.
227
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
Ario (x) 1998 1999 2000 2001 2002 2003 2004 2005
Volumen (y) 7,5 7,8 8,2 8,2 8,4 8,5 8,7 9,1
Volumen estimado yr
Porcentaje de tendencia
7,6 7,8 8,0 8,2 8,4 8,6 8,8 9,0
98,7 100,0 102,5 100,0 100,0 98,8 98,9 101,1
• Estimación de la componente estacional (índice estacional) Con el fin de medir la variación estacional normalmente se usa el método de razón de promedio móvil. Esta técnica proporciona un índice que describe el grado de variación estacional; el índice está basado en una media de 100, con el grado de estacionalidad medido por las variaciones con respecto a la base. Los pasos necesarios para determinar el índice estacional vienen con el siguiente ejemplo: 0 Ejemplo 5 La administración de un albergue tiene los siguientes datos acerca de la ocupación trimestral correspondiente a un periodo de 5 años: Año I trimestre 1861 1988 1921 1989 1834 1990 1991 1837 2073 1992
II trimestre 2203 2343 2154 2025 2414
III trimestre 2415 2514 2098 2304 2339
IV trimestre 1908 1986 1799 1965 1967
228
OMAR JESÚS ALCALÁ VELASQUE
Para mejorar su servicio, la administración desea establecer el patrón temporal de demanda de cuartos por parte de la clientela para considerar varios planes de empleo de personal durante los períodos de más afluencia. Calcule el índice temporal: 1) Calcular el total móvil de los 4 trimestres para la serie temporal 2) Calcular el promedio móvil de 4 trimestres, dividiendo cada uno de los totales de 4 trimestres entre 4 3) Centrar el promedio móvil de 4 trimestres (si el número de períodos es impar, este paso no es necesario) 4) Calcular el porcentaje del valor real con respecto al valor de promedio móvil 5) Reunir las respuestas obtenidas en el paso 4 organizándolas por trimestre y calcular la media modificada (la misma se calcula descartando los valores más alto y más bajo de cada trimestre, promediando los valores restantes) 6) Ajuste de la media modificada Antes de que podamos identificar la componente de tendencia o la cíclica de una serie temporal, debemos eliminar la variación estacional; el método de razón de promedio móvil permite identificar la variación estacional de una serie temporal y dichos índices se utilizan para eliminar de una serie temporal los efectos de la estacionalidad. A este proceso se le denomina desestacionalización o destemporalización de una serie temporal. Para destemporalizar dividimos cada uno de los valores reales de la serie entre el correspondiente índice temporal (expresado como fracción de 100). Una vez eliminada la variación estacional, podemos calcular la línea de tendencia desestacionalizada, que luego podemos proyectar hacia el futuro.
229
TÓPICOS DE ESTADISTICA APLICADOS A LAS CIENCIAS SOCIALES
Luego, los pasos quedan reflejados en la siguiente tabla: Tabla 2. Cálculo del índice estacional de la ocupación Año (1)
1988
Trimestre (2)
I
1861
II
2203
III IV 1989
I II III IV
1990
I II III IV
1991
I II III IV
1992
Ocupación (3)
I II
Total móvil de 4 trimestre (4) Paso 1
Promedio móvil de 4 trimestre (5) = (4) /4 Paso 2
8387
2096,75
8447
2111,75
8587
2146,75
8686
2171,50
8764
2191,00
8677
2169,25
8488
2122,00
8072
2018,00
7885
1971,25
7888
1972,00
7759
1939,75
7965
1991,25
8131
2032,75
8367
2091,75
8756
2189,00
8791
2197,75
8793
2198,25
2415 1908 1921 2343 2514 1986 1834 2154 2098 1799 1837 2025 2304 1965 2073 2414
Promedio % de valores reales con respecto al promedio de móvil valores móviles centrado de 4 trimestres (7)--(3)- *100 (6) (6) Paso 3 Paso 4
índice temporal 100
Ocupación desestacionalizada
(8)
(9) = (3) / (8)
90,3 / 100
2061
106,6 / 100
2067
2104,250
114,8
112,1 / 100
2154
2129,250
89,6
91,0 / 100
2097
2159,125
89,0
90,3 / 100
2181,250
107,4
106,6 / 100
2180,125
115,3
112,1 / 100
2145,625
92,6
91,0 / 100
2070,000
88,6
90,3 / 100
1994,625
108,0
106,6 / 100
1971,625
106,4
112,1 / 100
1955,875
92,0
91,0 / 100
1965,500
93,5
90,3 / 100
2012,000
100,6
106,6 / 100
2062,250
111,7
112,1 / 100
2140,375
91,8
91,0 / 100
2193,375
94,5
90,3 / 100
2198,000
109,8
106,6 / 100
III
2339
112,1 / 100
IV
1967
91,0 / 100
230
OMAR JESÚS ALCALÁ VELASQUE
Paso 5: Media modificada
El total de índices debió haber
Año
I trimestre
II trimestre
III trimestre
IV trimestre
1988
-
-
114,8
89,6
I trimestre: 182,5 / 2 dado 400 y no 404,10. = 91,25
1989
89,0
107,4
115,3
92,6
II trimestre: 215,4 / 2 Para corregir este error se = 107,70
1990
88,6
108,0
106,4
92,0
III trimestre: 226,5 / 2 = 113,25
1991
93,5
100,6
111,7
91,8
IV trimestre: 183,8 / 2 índices trimestrales por una = 91,90
1992
94,5
109,8
-
-
E= 182,5
E=
E=
E_
215,4
226,5
183,8
(total de índices) 404,10
multiplica cada uno de los
constante de ajuste (paso 6)
Los valores de la columna 7 aún contienen las componente cíclica e irregular de la serie temporal, sin embargo, al eliminar los valores más alto y más bajo de cada trimestre se reducen las variaciones cíclica e irregular extremas y cuando promediamos los valores restantes, se suavizan todavía más estas componentes. Paso 6: El índice se encuentra
Trimestre
Índices desajustados * constante de ajuste
Índice temporal
dividiendo la suma
I
91,25 * 0,9899
90,3
Media de los índices temporales
deseada de los índices
II
107,70 * 0,9899
106,6
400 / 4 = 100
(400) entre la suma real
III
113,25 * 0,9899
112,1
(404,10) en este caso
IV
91,90 * 0,9899
91,0
=
E 400
231
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
• Problema que incluyen las componentes de una serie de tiempo Para analizar un problema que involucre las componentes estudiadas en este capítulo, veremos el caso de una compañía que se especializa en la producción de herramientas para uso industrial. Para pronosticar las ventas con base en sus patrones históricos, la compañía ha recolectado la información en la tabla adjunta. El procedimiento para describir la serie de tiempo consistirá primero en desestacionalizar la serie para luego desarrollar la línea de tendencia y por último pronosticar. Ventas por Trimestre (Millones de Bs.) Año I trimestre 16 1991 15 1992 17 1993 17 1994 18 1995
II trimestre 21 20 24 25 26
III trimestre 9 10 13 11 14
IV trimestre 18 18 22 21 25
Con los datos de la tabla comenzaremos por desestacionalizar la serie de tiempo; a similitud de la tabla 2 del ejemplo 4.
232
OMAR JESÚS ALCALÁ VELASQUE
Tabla 3. Cálculo del índice estacional
TrimesArio tre (1) (2)
1991
I II III IV
1992
I
Ventas (3)
% de valores reales ProProcon respecto al proTotal medio medio medio de valores móvil móvil móvil móviles de 4 tri- de 4 tri- centrado mestre de 4 trimestre (3) (4) (5) = (4) mestres (7) = (6) * 100 Paso 1 /4 (6) Paso 2 Paso 3 Paso 4
16 21 64
16,00
63
15,75
62
15,50
63
15,75
63
15,75
65
16,25
69
17,25
72
18,00
76
19,00
76
19,00
77
19,25
75
18,75
74
18,50
75
18,75
76
19,00
9 18 15 20
II III
10 18
1993
I
17 4 24
III
IV
1994
I II III
IV
13
n 17 25 11
21
índice temporal
Ventas desestacionalizada
100 (8)
(9) = (3) / (8)
0.951
16,8
1,299
16,2
15,875
56,7
0,612
14,7
15,625
115,2
1,139
15,8
15,625
96,0
0.951
15,8
15,750
127,0
1,299
15,4
16,000
62,5
0,612
16,3
16,750
107,5
1,139
15,8
17,625
96,5
0.951
17,9
18,500
129,7
1,299
18,5
19,000
68,4
0,612
21,2
19,125
115,0
1,139
19,3
19.000
89,5
0.951
17,9
18,625
134,2
1,299
19,2
18,625
59,1
0,612
18,0
18,875
111,3
1,139
18,4 Continúa.
233
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
Continuación. 1995
18 79
19,75
83
20,75
26
II
19,375
92,9
0.951
18,9
20,250
128,4
1,299
20,0
III
14
0,612
22,9
IV
25
1,139
21,9
Paso 5 Año
I trimestre
1991
-
II trimestre
III trimestre
IV trimestre
56,7
115,2
Media modificada I trimestre: 188,9 / 2 = 94,45
1992
96,0
127,0
62,5
96,5
129,7
68,4
107,5 115,0
II trimestre: 258,1 / 2 = 129,05
1993 1994
89,5
134,2
59,1
111,3
IV trimestre: 226,3 / 2 = 113,15
1995
92,9
128,4
-
-
1, = 258,1
E =121,6
E =226,3
=
I, 188,9
III trimestre: 121,6/ 2 = 60,80
(total de índices) = 397,45
Los valores de la columna 7 aún contienen las componente cíclica e irregular de la serie temporal, sin embargo, al eliminar los valores más alto y más bajo de cada trimestre se reducen las variaciones cíclica e irregular extremas y cuando promediamos los valores restantes, se suavizan todavía más estas componentes. Paso 6: 400 =1,0064 Constante de ajuste 397,45 Trimestre I II III IV
Índices desajustados * constante de ajuste 94,54*1,0064 129,05*1,0064 60,80*1,0064 113,15*1,0064
Índice temporal 95,1 129,9 61,2 113,9 E = 400,1
234
OMAR JESÚS ALCALÁ VELASQUE
Una vez calculadas las ventas desestacionalizadas procedemos a determinar la recta de tendencia, a través del método de los mínimos cuadrados. La tabla 3, muestra los cálculos empleados para obtener dicha recta, cabe destacar en este punto la codificación de los trimestres de cada año en una nueva escala que sea de fácil manejo para los cálculos ya que ellos son de tipo cíclicos. Tabla 4 Cálculo de la recta de tendencia Año
Trimestre
Codificación Tiempo (x)
Ventas Des.
1991
1
1
II
1992
1993
1994
1995
Total
xy
X2
2
16,8 16,2
16,8 32,4
1 4
III
3
14,7
44,1
9
IV
4
15,8
63,2
16
I II
5 6
15,8 15,4
79,0 92,4
25 36
III
7
16,3
114,1
49
IV
8
15,8
126,4
64
I II
9 10
17,9 18;5
161,1 185,0
81 100
III
11
21,2
233,2
121
IV
12
19,3
231,6
144
I II
13 14
17,9 19,2
232,7 268,8
169 196
III
15
18,0
270,0
225
IV
16
18,4
294,4
256
I II
17 18
18,9 20,0
321,3 360
289 324
III
19
22,9
435,1
361
IV
20
21,9
438
400
210
360,9
4000
2870
(y)
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
235
Cálculo de los coeficientes de regresión para recta de regresión: .3^; = ax + b a=
(20.4000)— (210.360,9 = 0,317 (20.2870) — (210)2
b=
(360 9.2870)— (210.4000) =14,72 ' (20.2870)—(210)2
La recta de regresión para los datos desestacionalizados es: 0,317x+14,72 Hasta ahora hemos identificado dos de las cuatro componentes de una serie cronológica, nos quedan la componente cíclica y la irregular. Para el caso de la cíclica debemos medir la variación desestacionalizada alrededor de la línea de tendencia, según se muestra en la tabla 4. En el caso de la irregular suponemos, en general, que es de corto plazo y relativamente insignificante, por lo cual su incidencia en el estudio puede obviarse. Por lo tanto hemos descrito la serie cronológica utilizando las componentes estacional, de tendencia y cíclica.
OMAR JESÚS ALCALÁ VELASQUE
236
Tabla 5. Identificación de la variación cíclica Año Trimestre. Ventas (y) (1) (2) Desestacionalizas (3) 1991 I 16,8
Tendencia ) (4) 111,7
II
16,2
0,317(1) 14,72 =15,04 0,317(2) 14,72 =15,35
III
14,7
0,317(3)+14,72=15,67
93,8
IV
15,8
0,317(4)+14,72=15,99
98,8
I
15,8
0,317(5)+14,72=16,31
96,9
II
15,4
0,317(6)+14,72=16,62
92,6
I
16,3
0,317(7)+14,72=16,94
96,2
IV
15,8
0,317(8)+14,72=17.26
91,6
1
17,9
0,317(9)+14,72=17,57
101,9
II
18,5
0,317(10)+14,72=17,89
103,4
III
0.317(11)+14,72=18,21
116,4
IV
21,2 19,3
0,317(12)+14,72=18,52
104,2
I
17,9
0.317(13)+14,72 =18,84
95,0
II
19,2
0,317(14)+14,72=19,16
100,2
I
18,0 18,4
0,317(15)+14,72=19,48 0.317(1. 6)+14,72=19.79
92,4
IV
18,9
0,317(17)+14,72=20.11
94,0
II
20,0
0.317(18)+14,72=20,43
II
22,9
0,317(19)+14,72=20.74
97,9 110,4
IV
21,9
0317(20)+14,72 =21,06
104,0
1992
1993
Valores según la recta (4)
1994
1995 I
105,5
93,0
Con base en la recta de tendencia, podemos determinar, por ejemplo, las ventas en el tercer semestre de 1996, teniendo en cuenta la codificación de tiempo empleada en este trimestre el valor es x = 23. Sustituyendo este valor en la recta tenemos: 0,317(25)+14,72=22,65. Por lo tanto la estimación de ventas desestacionalizadas para 1996III es Bs. 22.650.000. Ahora, con este valor la administración de la empresa debe estacionalizar esta estimación multiplicándola por el índice estacional correspondiente al tercer trimestre, expresado como una fracción de 100.
237
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
22,65x
61 2
' =13,86
100
De este análisis se desprende que la compañía estima las ventas para el trimestre 1996-111 en Bs. 13.860.000. Debemos aclarar, sin embargo, que esta estimación sólo toma en cuenta la componente de tendencia. La variación irregular no se puede pronosticar matemáticamente. Recuerde, además, que la variación cíclica fue meramente una descripción del comportamiento pasado y no un pronóstico del comportamiento futuro. En el gráfico de la serie de tiempo se observan la línea de tendencia, las ventas, las ventas desestacionalizadas y el promedio móvil centrado de cuatro trimestres.
d.. Tic a po
Ventas tabla 2
Recta de tendencia
Ventas Promedio móvil centrado desestacionalizadas de 4 trimestres I
7
I
I
10 11 1 12 14 19 19 17 10
Trimestres {codificados}
238
OMAR JESÚS ALCALÁ VELASQUE
Á EJERCICIOS COMPLEMENTARIOS SERIES DE TIEMPO
1) Tipo de cambio promedio del mes. (Bolívares por dólar) AÑO 2000
AÑO 2001
ENERO
651,15
ENERO
698,70
FEBRERO
657,51 665,12
FEBRERO
701,58
MARZO
MARZO
704,52
ABRIL
671,91
ABRIL
708,64
MAYO
678,53
MAYO
713,39
679,54 684,21
JUNIO
715,68
JULIO AGOSTO
720,99 729,81
SEPTIEMBRE
687,89 689,06
SEPTIEMBRE
741,94
OCTUBRE
691,46
OCTUBRE
742,07
NOVIEMBRE
694,31
NOVIEMBRE
697,34
DICIEMBRE
743,73 750,91
JUNIO JULIO AGOSTO
DICIEMBRE
AÑO 2002 ENERO
760,55
FEBRERO
883,12
MARZO
945,97
ABRIL
875,29
MAYO
946,23
JUNIO
1.195,49
JULIO
1.327,73
AGOSTO
1.371,93
SEPTIEMBRE
1.453,70
OCTUBRE
1.448,52
NOVIEMBRE
1.363,10
DICIEMBRE
1.317,17
FUENTE: El Nacional Abril 2004
239
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
a) Calcule la recta de estimación, con base en los datos del año 2000-2001. Calcule con la recta de estimación, el precio del dólar para ABRIL 2002 y compárelo con la tabla del año 2002. Calcule, con la recta de estimación, el precio del dólar para MARZO 2003. b) Calcule la recta de estimación con base en los datos del año 2002. Calcule, con la recta de estimación, el precio del dólar para MARZO de 2003 y compare el resultado con el establecido en la pregunta 1. (Nota: Dólar Marzo 2003: Bs. 1600. Tipo de cambio único establecido por el gobierno) Gráficos:
Tipo de cambio promedio 760 740 720 700 680 660 640 EFMAMJJ ASONDEF MAMJ J ASOND
N 112
2000
2001
Tipo de cambio promedio 1550 1350
te
1150 950 750 550 EFMAMJJASONDEFMAMJJASOND
2001
2002
240
OMAR JESÚS ALCALÁ VELASQUE
2) El número de académicos que poseen computadoras personales en la Universidad de la Haya ha aumentado drásticamente entre 1990 y 1995: Año Número de PC
1990 50
1991 110
1992 350
1993 1020
1994 1950
1995 3710
a) Desarrolle la ecuación de estimación lineal que mejor describa los datos. b) Desarrolle la ecuación de estimación cuadrática que mejor describa los datos. c) Estime el número de computadoras personales que habrá en uso en la universidad en 1999, utilizando ambas ecuaciones. d) Si hay 8000 académicos en la universidad, ¿qué ecuación es mejor pronosticador? ¿Por qué? 3) El señor González invirtió los ahorros de toda su vida en un negocio de limpieza de alfombras en 1986. Desde entonces, la reputación del señor González se ha propagado y el negocio ha crecido. Los números promedio de casas que ha limpiado por mes cada año son: Año 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996
Casa Limpiadas 6,4 11,3 14,7 18,4 19,6 25,7 32,5 48,7 55,4 75,7 94,3
241
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
a) Encuentre la ecuación lineal que describa la tendencia de estos datos. b) Estime el número de casas limpiadas mensualmente en 1997, 1998 y 1999. Respuestas: a) y =8,11x-12,08. x representa los años, suponiendo la escala auxiliar en la cual 1986 = 1 4) Ingeniería Catastrófica CA, una compañía especializada en la construcción de dispositivos de filtrado anticontaminante, ha registrado los siguientes niveles de ventas durante los últimos nueve años: Año
1987
1988
1989
1990
1991
1992
1993
1994
1995
13
15
19
21
27
35
47
49
47
Ventas (miles de Bs)
a) Grafique los datos. b) Desarrolle la ecuación de estimación lineal que mejor describa estos datos y grafique la recta en la gráfica del inciso a). c) Desarrolle la ecuación de estimación cuadrática que mejor describa los datos y grafique la ecuación en la gráfica del inciso a). d) ¿Según el conocimiento adquirido al respecto, el mercado favorece a b) o c) como método de estimación más preciso? R: a) gráfica b) 5;=5,13t +4,66 , (en la escala de t se ha coloca do la escala 1987=1)
60 SO 40 30
c) j,=0,1t2+3,96t+6,81
20 10
o 1988
1966
1990
1992
1994
1996
242
OMAR JESÚS ALCALÁ VELASQUE
5) Un ingeniero de la UCAB desarrolló un ratón para computadora ergonómico en 1999 y las ventas han ido en aumento desde entonces. A continuación se presentan los datos en términos de miles de ratones vendidos por año: Año Número vendido
1999 82,4
2000 125,7
2001 276,9
2002 342,5
2003 543,6
2004 691,5
2005 782,4
2006 889,5
a) Desarrolle la ecuación de estimación lineal que mejor describa estos datos. b) Desarrolle la ecuación de estimación cuadrática que mejor describa los datos. c) Estime el número de ratones que venderá en 2008 usando ambas ecuaciones. d) Si se supone que la tasa de crecimiento de las ventas de ratones decrecerá pronto con base en la oferta y la demanda, ¿qué modelo será un mejor pronosticador para su respuesta en c)? 6) El dueño de la compañía Luzconsol está examinando el número de casas que utilizan un panel solar para generar electricidad que iniciaron su construcción en la región durante los últimos siete meses. Junio Julio Ago. Sep. Oct. Nov. Dic Mes 43 50 Número de casas 16 17 25 28 32
a) Grafique estos datos. b) Desarrolle la ecuación de la estimación lineal que mejor describa estos datos, y grafique la recta en la gráfica del inciso a). 7) La tabla muestra la población agricultora (en millones) de un país. Año Población
1973
1974
1975
1976
1977
1978
9,47
9,26
8,86
8,25
7,81
8,01
1979 7,55
1980
198
1982
1983
7,24
7,01
6,88
7,03
243
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
Usar el método de mínimos cuadrados para ajustar una recta a los datos del problema. 8) La tabla presenta los datos de ventas trimestrales de la compañía fabricante de software de gráficos: Año I trimestre 500 1995 450 1996 350 1997 550 1998 1999 550 2000 750
II trimestre 350 350 200 350 400 500
III trimestre 250 200 150 250 350 400
IV trimestre 400 300 400 550 600 650
Calcule los índices estacionales 9) Utilice los siguientes porcentajes del promedio real respecto al promedio móvil que describen el flujo de efectivo en el Banco de Villa Carbono, durante un período de 4 años, para calcular el índice estacional de cada semestre. Año 1992 1993 1997 1995
Primavera 87 85 54 88
Verano 106 110 105 104
Otoño Invierno 125 86 127 83 128 87 124 88
R: Primavera: 85,15; Verano: 104,46; Otoño: 85,64, Invierno 124,75 10) El dueño de la empresa Cobranzas El Paga rápido ha recopilado las siguientes cifras trimestrales del nivel de cuentas por cobrar durante los últimos 5 años (miles de bolívares):
244
OMAR JESÚS ALCALÁ VELASQUE
Año I trimestre 102 1991 110 1992 111 1993 115 1994 122 1995
II trimestre 120 126 128 135 144
III trimestre 90 95 97 103 110
IV trimestre 78 83 86 91 98
a) Calcule un promedio móvil centrado de 4 trimestres. b) Encuentre el porcentaje de valores reales respecto al promedio móvil para cada período. c) Determine los índices estacionales y los índices estacionales modificados. R: c) Índices estacionales: I trim: 105,86; II trim: 122,36; III trim: 91,59; IV trim: 79,86 Índices modificados: I trim: 105,95; II trim: 122,46; III trim: 91,67; IV trim: 79,93 11) María Álvarez, directora de personal de una compañía farmacéutica registró las siguientes tasas de ausentismo porcentual por cada trimestre de un período de 4 años: Año I trimestre 5,6 1992 1993 5,7 1994 5,3 5,4 1995
II trimestre 6,8 6,7 6,6 6,9
III trimestre 6,3 6,4 6,1 6,2
IV trimestre 5,2 5,4 5,1 5,3
a) Elabore un promedio móvil centrado de 4 trimestres. b) ¿Qué puede concluir acerca del ausentismo en el inciso a)? 12) Utilice los siguientes porcentajes de promedios reales respecto a los promedios móviles que describen las ventas estacionales de
245
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
artículos deportivos en un período de 5 años, para calcular el índice estacional de cada estación: Año Béisbol Fútbol Básquetbol Jockey 116 128 77 96 1992 125 131 69 1993 92 84 84 117 113 1994 97 118 126 89 1995 81 121 124 91 1996 R: Béisbol: 89,0. Fútbol: 117,1. Básquetbol: 116,7. Jockey: 77,2 13) Un fabricante importante de resortes para automóvil ha determinado los siguientes porcentajes de promedio real respecto al promedio móvil que describen las necesidades trimestrales de dinero en efectivo de la compañía para los 6 años anteriores: Año 1990 1991 1992 1993 1994 1995
Primavera 108 112 109 110 108 106
Verano 128 132 134 131 135 129
Otoño 94 88 84 90 89 93
Invierno 70 68 73 69 68 72
Calcule el índice estacional para cada trimestre. 14) El Hotel Aquí Caben Todos acaba de tabular los datos del número de clientes (en miles) que ha tenido durante cada estación en los últimos 5 años. Calcule el índice estacional de cada trimestre. Si el hotel contrata 15 personas en verano, ¿cuál deberá ser el número de empleados en el invierno?
247
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
Año Invierno 1992 452 1993 474 1994 494 1995 506 1996 527
Primavera 385 397 409 429 454
Verano 330 356 375 398 421
Otoño 385 399 415 437 482
a) Determine los índices estacionales y desestacionalice estos datos (usando un promedio móvil centrado de 4 trimestres) b) Calcule la recta de mínimos cuadrados que mejor describa estos datos. c) Identifique la variación cíclica de los datos con el método del residuo cíclico relativo. d) Represente gráficamente los datos originales, los datos desestacionalizados y la tendencia. 17) Los siguientes datos describen el desempeño de comercialización de un productor regional de cerveza: Ventas por Trimestre (cientos de miles de bolívares) Año
I trimestre
II trimestre
III trimestre
IV trimestre
1991 1992
19 21
24
25
28
38 44
1993
23
31
41
23
1994
24
35
48
21
23
a) Calcule los índices estacionales para estos datos. b) Desestacionalice estos datos utilizando los índices del inciso a). c) Encuentre la recta de mínimos cuadrados que mejor describa la tendencia en las ventas desestacionalizadas de cerveza. d) Identifique la componente cíclica en esta serie de tiempo calculando el porcentaje de tendencia.
248
OMAR JESÚS ALCALÁ VELASQUE
18)Flash Airlines, una línea aérea regional, ha estimado el número de pasajeros para el mes de diciembre en 595.000 (desestacionalizado). ¿Cuántos pasajeros debe prever la compañía si el índice estacional de diciembre es de 128? 19)Un grupo de investigación ecológica ha medido el nivel de contaminación por mercurio en el océano en cierto punto de la costa oriental de un país africano. Se encontraron los siguientes porcentajes de mercurio en el agua. Enero Febrero Marzo Abril Mayo Junio Julio Agosto Septiembre Octubre Noviembre Diciembre
1993 0,3 0,7 0,8 0,8 0,7 0,7 0,6 0,6 0,4 0,7 0,3 0,5
1994 0,4 0,9 0,7 0,9 0,5 0,8 0,7 0,7 0,4 0,6 0,3 0,4
1995 0,2 0,6 0,6 0,9 0,7 0,7 0,8 0,8 0,5 0,6 0,3 0,5
Construya un promedio móvil centrado de 4 meses y grafíquelos junto con los datos originales. 20) La empresa Magna Internacional es una compañía canadiense dedicada a la manufactura de componentes para automóviles, como paneles modelados para puertas. En el informe anual de Magna de 1992 se dio una lista de las ganancias anuales de la compañía correspondientes a los 10 años anteriores (en millones de dólares canadienses):
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
Año 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992
249
Ganancia 302,5 493,6 690,4 1027,8 1152,5 1458,6 1923,7 1927,2 2017,2 2358,8
a) Encuentre la línea de tendencia de mínimos cuadrados para estos datos. b) Grafique los datos anuales junto con la línea de tendencia. ¿Las variaciones de la tendencia parecen ser aleatorias o cíclicas? c) Utilice un paquete de computación estadístico que obtenga regresión para encontrar la tendencia parabólica de mejor ajuste para estos datos. ¿Es c, el coeficiente de x2, significativamente diferente de cero? ¿Cuál de los modelos de tendencia recomendaría usted para pronosticar las ganancias de Magna para 1993? Explique su respuesta. d) Pronostique las ganancias de la empresa para 1993. 21) La tienda de bicicletas Ruedas Depinga ha determinado, a partir de un análisis de tendencias pasadas, que las ventas de primavera (desestacionalizadas) deberán ser de 165 bicicletas. Si el índice estacional de primavera es 143, ¿cuántas bicicletas deberá vender la tienda esta primavera?
250
OMAR JESÚS ALCALÁ VELASQUE
22) En el momento de terminar el programa de autopistas interestatales de Estados Unidos, ¿de qué utilidad serán los viejos datos a los fabricantes de equipo pesado de remoción de tierra cuando intentan pronosticar sus ventas? ¿Qué nuevos datos sugeriría usted que utilizaran en su pronóstico? 23) Como parte de una investigación realizada por un departamento federal referente a la psicología de la actividad criminal, una encuesta acerca del número de homicidios y asaltos producidos en el curso de un año produjo los siguientes resultados: Estación
Primavera
Verano
Otoño
Invierno
Número de Homicidios y Asaltos
31.000
52.000
39.000
29.000
a) Si los índices estacionales respectivos son 84, 134, 103 y 79, ¿cuáles son los valores desestacionalizados de cada estación? b) ¿Cuál es el significado del índice estacional de 79 para el invierno? 24) El número de casos confirmados de SIDA reportados en una clínica de salud local durante el período de 5 años de 1998 a 1992 fueron 2,4, 7, 13 y 21, respectivamente. a) Desarrolle la recta de regresión lineal para estos datos. b) Encuentre la curva de segundo de mínimos que se ajusta a los datos. c) Construya una tabla de los casos reales de cada año, las estimaciones lineales obtenidas con la regresión del inciso a) y los valores de la curva de segundo grado del inciso b). d) ¿Qué regresión parece ser el mejor estimador? 25) El sistema de transporte público de la Alcaldía de Villaviciosa recolectó información del número de pasajeros por estación durante 1994 y 1995. Los datos desestacionalizados (en miles de pasajeros) son:
251
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
Año 1994 1995
Primavera 593 640
Verano 545 560
Otoño Invierno 610 575 600 555
a) Si los índices estacionales utilizados para desestacionalizar fueron 110, 73, 113 y 104, respectivamente, encuentre el número real de pasajeros (en miles) para estas ocho estaciones. b) ¿En qué estación de 1995 se tuvo el menor número de pasajeros? ¿Y el mayor? c) Si la ecuación lineal de estimación para estos datos desestacionalizados es 9- = 584, 75 — 0, 45x (con x medida a medio trimestre y x = O entre los trimestres de invierno de 1994 a primavera de 1995), ¿cuál es el número esperado de viajes reales (en miles) para el otoño de 1996? 26) El administrador de un restaurante desea mejorar el servicio que brinda a sus clientes y el horario de sus empleados, basándose en la afluencia diaria de clientes durante las últimas cuatro semanas. El número de clientes atendidos en el restaurante en ese período fue: Lun Mar Mié Jue Vie Sab Dom 653 1 706 345 385 310 416 597 702 664 761 Semana 2 418 333 400 515 598 711 625 535 311 387 393 3 822 803 650 4 406 412 377 444
Determine los índices estacionales (diarios) para estos datos. (Utilice un promedio móvil de 7 días) 27) Suponga que las ventas de televisores de una pequeña cadena de aparatos electrodomésticos durante 1991-1995 fueron los siguientes:
252
OMAR JESÚS ALCALÁ VELASQUE
Año Ventas
1991 230
1992 250
1993 265
1994 300
1995 310
a) Desarrolle la ecuación de estimación de segundo grado para estos datos. b) ¿Qué indica la magnitud de los coeficientes a, b y c respecto a la elección de una ecuación de segundo grado para estos datos? 28) La compañía Calientamás ha registrado las siguientes cifras (en cientos de miles) correspondientes a las ventas totales en su línea de hornos microondas durante los últimos 5 años: Año Ventas
1991 3,5
1992 3,8
1993 4
1994 3,7
1995 3,9
La ecuación que describe la tendencia de estos volúmenes de ventas es: y^ = 0, 07x + 3, 78y las unidades de x son años. a) ¿Qué año tuvo el más alto porcentaje de tendencia? b) ¿Qué año estuvo más cercano a la línea de tendencia? 29) Probar que si todos los números de una sucesión se aumentan (o disminuyen) en una constante, el promedio móvil también aumenta (o disminuye) en esa misma constante. 30) Demostrar que si todo número de una sucesión se multiplica (o divide) por una constante no nula, el promedio móvil queda también multiplicado (o dividido) por esta constante.
CAPÍTULO VI I. ¿QUÉ ES UN NÚMERO ÍNDICE? II. TIPOS DE NÚMEROS ÍNDICE III. CÁLCULO DE NÚMEROS ÍNDICE
Planificar requiere de alguna información de lo que ha pasado en ciertos períodos de tiempo. En el capítulo anterior vimos una forma de evaluar esos cambios a través del estudio de una serie cronológica, ahora bien, otra forma de evaluar esos cambios es con la ayuda de los números índice. Por ejemplo, el administrador de una fábrica requiere comparar el costo de producción de un artículo este mes con respecto al costo que tenía hace seis meses; Defensa Civil requiere comparar el porcentaje de accidentes viales en Venezuela en cada temporada vacacional para organizar los planes y las acciones con la finalidad de disminuir su incidencia'. O un economista requiere medir los cambios porcentuales en el precio de los alimentos en un determinado período para conocer cómo la inflación afecta o genera este cambio. Para definir los cambios que se producen se requiere definir y determinar el grado de este. Por lo general, los números índice son los que permiten ver esas diferencias. Con esto nos cabe preguntar
I. ¿QUÉ ES UN NÚMERO ÍNDICE? Un número índice mide cuánto ha cambiado una variable con el tiempo, o dicho de otra formal, es un valor relativo, expresado 1 Para 1994 la tasa por 100.00 habitantes de fallecidos por accidentes viales según residencias en el estado Mérida fue de 30,3%, mientras que para 1995 fue 26%. Datos tomados de Mortalidad por Accidentes Viales como Problema de Salud Pública en el Estado Mérida durante el Quinquenio 1994-1998 de Lucy Uzcátegui. Tesis para el título de TSU en Estadísticas de Salud. Universidad de Los Andes. 2 Este concepto es según Leonard Kazmier. Estadística Aplicada a la Administración y a la Economía. Mc Graw Hill.
256
OMAR JESÚS ALCALÁ VELASQUE
como porcentaje, que mide las diferencias entre un período dado con respecto a un período base determinado. Las medidas pueden referirse a cantidad, precio o valor.3 La recopilación de número índice no es una innovación reciente, para 1764 el italiano G. R. Carli, los incorporó por primera vez en un reporte que hizo acerca de las fluctuaciones de precios en Europa entre 1.500 y 1.750. Hasta 1900, aproximadamente, ningún enfoque sistemático en la recolección y el reporte de datos en forma de índice fue evidente el estudio de las fluctuaciones económicas. II. TIPOS DE NÚMEROS ÍNDICE Para el estudio de los números índice se toman en cuenta los siguientes: índice de precios, índice de cantidad e índice de valor. El primero es el que más utilidad tiene ya que compara niveles de precios de un período a otro. El de mayor uso en los países es el índice de precios al consumidor (IPC); según la definición del Banco Central de Venezuela, el IPC "es un indicador estadístico que tiene como objeto medir el cambio promedio en un período determinado, en los precios al nivel del consumidor de una lista de bienes y servicios representativos del consumo familiar, con respecto al nivel de precios vigente para el año escogido como 1Dase"4. Por otra parte el índice de cantidad mide cuánto cambia el número o la cantidad de una variable con el tiempo. Y por último el
3 Note el lector que el número índice es un porcentaje cuyo valor base en el tiempo es siempre 100. 4 Para mayor información consulte www.bcv.org.ve, el link: ¿Qué es el IPC? Por ejemplo para Noviembre 2006 el IPC experimentó una variación de 0,74 con respecto al mes anterior acumulando un valor de 595,93.
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS. SOCIALES
257
índice de valor, mide los cambios en el valor monetario total, es decir, mide el cambio del valor del dinero de una variables. En general un índice mide el cambio de una variable en un determinado período. Si el número índice mide el cambio en una sola variable como los salarios por día en la industria manufacturera, se dice que, es un índice sencillo; es decir, es la razón de dos variables y esa razón se convierte en un porcentaje. Ahora bien, un número índice puede ser compuesto al reflejar un grupo de variables que cambian. El ya mencionado IPC mide el nivel general de precios para bienes y servicios específicos en la economía; o sea, combinan los precios individuales de bienes y servicios para formar un número índice de precios compuesto. Existen ciertos factores que afectan o distorsionan los números índice. Los cuatro más frecuentes son los siguientes: 1. Dificultad para encontrar datos adecuados: si al realizar un estudio por un administrador de ventas que desea calcular un índice que describa la variación estacional en las ventas de un determinado artículo, pero si las ventas de este artículo se registra anualmente no se tiene la información necesaria para dicho estudio. 2. Falta de comparación de índices: se da cuando se intenta comparar un índice con otro después de que ha habido un cambio básico en lo que se mide. Si por ejemplo, la asociación de compradores de automóviles compara índices de precios en los automóviles de 1990 a 2000 y encuentra que los precios han aumentado sustancialmente. Esta comparación, sin embargo, no toma en cuenta el aumento en la calidad de 5 Este índice combina los cambios de precio y cantidad para presentar un índice con más información. Ver Levin, Rubin y Otros. Estadística para Administración y Economía. 7a Ed. Prentice Hall, p. 721.
258
OMAR JESÚS ALCALÁ VELASQUE
los autos debido a los avances tecnológicos logrados por los fabricantes en ese período. 3. La ponderación no apropiada de factores: si, se calcula un índice compuesto, como el IPC, por ejemplo, es necesario tomar en cuenta que los cambios en algunas variables son más importantes que en otras. El efecto en la economía debido a un aumento de Bs. 10 al precio del litro de gasolina sin plomo, no se ve contrarrestado por una disminución de la misma cantidad en el precio de los inmuebles. Por lo tanto, debe asignarse un peso mayor al precio de la gasolina que a la disminución en el precio de los inmuebles. 4. Seleccionar una base no apropiada: es necesario considerar cómo y por qué se seleccionó el período base antes de aceptar una aseveración basada en la comparación de números índice. Por ejemplo si una compañía de petróleos desea mostrar un aumento significativo en sus ganancias podría tomar un año de recesión como base de las utilidades del petróleo. Esto produciría un índice que mostraría que las ganancias por ventas de petróleo tuvieron un aumento significativo, pero si desea dar otra imagen podría tomar como año base el de mayor ganancia registrada y generar un índice que mostraría que las ganancias obtenidas son marginales o quizá con perdida para la compañía.
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
259
III. CÁLCULO DE NÚMEROS ÍNDICE 1. INDICES SIMPLES Sea
Pn
el precio de una mercancía en el período dado y po el
precio en el período base6. La fórmula general para el índice simple de precios, o relativo de precios es:
I
.100
P PO De igual manera, si qo indica la cantidad de un artículo producido o vendido en el período dado y
go la cantidad en el período base,
la fórmula general para calcular el índice simple de cantidad es:
I = (1n .100 qo Y por último, el valor de un producto en un período determinado es igual al precio del producto multiplicado por la cantidad producida (o vendida). Sea
y popo
pngn el valor de un producto en el período dado
el valor del producto en el período base. La fórmula general
para determinar un índice simple de valor es:
IPq = P n qn 100 Poqo Veamos el cálculo de estos índices, por medio del siguiente ejemplo:
I = Pnqn 100 Pq
POCIO
6 En cuanto al año base Lind, Marchal y Wathen, plantean que un período base no necesita ser un solo año. Ver "Elaboración de Números Índice" en Estadística Aplicada a los Negocios y a la Economía. Mc Graw Hill 2a Ed., p. 623.
260
OMAR JESÚS ALCALÁ VELASQUE
❑ Ejemplo 1 En referencia a la tabla que se muestra a continuación, determine los índices simples de precios, de cantidad y de valor de las tres mercancías consideradas, usando 1999 como año base. Precios y consumo de tres mercancías en una zona metropolitana en particular, 1999 y 2004 Mercancía Unidad de cotización
Leche Pan Huevos
Precio Promedio (Bolívares) 2004 1999 2900 1800 450 275 2460 3600
Litro Pieza de 1 libra Docena
Consumo Per Cápita (mensual) 1999 15,0 12,1 2,1
Indice simple de precios: De la leche:
2900 .100 =161,1 I= P 1800
Del pan:
450 .100=163,6 I= P 275
De los huevos:
3600 .100=164,3 I= P 2460
Índice simple de cantidad: De la leche:
18 5 I = ' .100=123,3 q 15
Del pan:
13 4 I = ' .100=110,7 q 12,1
2004 18,5 13,4 1,9
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
261
1 I= .100 = 90,5 q 2,1
De los huevos: Índice simple de valor: De la leche:
I=
(2900)(18,5) . 100=198,7 (1800)(15,0)
Del pan:
I=
(450)(13,4) .100=181,2 (275)(12,1)
De los huevos: I = (3600) (1, 9) .100 =132,4 (2460)(2,1) 2. ÍNDICE DE AGREGADOS NO PONDERADOS La denominación de agregado quiere decir que se suman todos los valores a considerar. No ponderado significa que todos los valores considerados tienen la misma importancia. Esto hace que su cálculo sea sencillo. Para calcular este índice de agregados no ponderados se suman todos los elementos del compuesto o grupo para el período considerado y luego se divide este resultado entre la suma de los mismos elementos durante el período base. La fórmula general empleada en este caso es la siguiente: =
.100 clo
donde, q,:cantidad de cada elemento del grupo en el año para el que se desea el índice.
262
OMAR JESÚS ALCALÁ VELASQUE
q0 : cantidad de cada elemento del grupo en el año base. El uso de la fórmula general para calcular el índice de agregados no ponderados funciona igual si se toma en cuenta tanto la cantidad como el valor, eso por el hecho de ser un porcentaje para el cual la unidad no se tiene en cuenta. 0 Ejemplo 2 Supongamos los valores de la tabla del ejemplo 1 de este capitulo y se nos pide calcular el índice de agregados no ponderados de los elementos contenidos en la tabla: Precios y consumo de tres mercancías en una zona metropolitana en particular, 1999 y 2004 Mercancía
Unidad de cotización
Precio Promedio (Bolívares)
Consumo Per Cápita (mensual)
1999
2004
1999
2004
Leche
Litro
1800
2900
15,0
18,5
Pan
Pieza de 1 libra
275
450
12,1
13,4
Huevos
Docena
2460
3600
2,1
1,9
Eq0=29,2
Zpi=33,8
Ip0 =4534 Ep1=6950
Indice de agregados no ponderados de precios: I(NP)p
6950 . 100 =153,3
= 4535
Indice de agregados no ponderados de cantidad: 33,8 I(NP) = .100 =115,8 q 29,2
263
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
A partir de los índices calculados podemos observar el cambio en estos tres productos entre 1990 y 2004, siendo este de 153,3. Si consideramos que estos elementos son representativos del índice general de precio podemos afirmar que en este período los precios sufrieron un incremento del 53,3 %. Sin embargo, no podemos esperar que una muestra de sólo tres elementos refleje de forma precisa el comportamiento de todos los bienes y servicios, por lo cual el cálculo realizado es solo una aproximación burda. 0 Ejemplo 3 Supongamos que agregamos a nuestra tabla del ejemplo 1 una nueva mercancía, por ejemplo el cambio de precio y cantidad de los porta retratos, y se nos pide calcular el índice de agregados no ponderados de los elementos contenidos en la tabla: Precios y consumo de cuatro mercancías en una zona metropolitana en particular, 1999 y 2004 Precio Promedio (Bolívares)
Mercancía Unidad de cotización Leche Pan Huevos Porta retratos
Litro Pieza de 1 libra Docena 1 pieza
Consumo Per Cápita (mensual)
1999
2004
1999
2004
1800 275
2900 450
15,0 12,1
18,5 13,4
2460 3500
3600 5100
2,1 0,9
1,9 0,2
Ip0=8035
Zp1=12050
Zq0=30,1
Ip1 =34
Indice de agregados no ponderados de precios: I(NP) = P
12050 .100 =149,9 8035
264
OMAR JESÚS ALCALÁ VELASQUE
Índice de agregados no ponderados de cantidad: I(NP), =
34 .100 =113 30,1
Teniendo en cuenta el primer índice de precios de 153,3 observamos una disminución del valor al situarse en 149,9, pero hagamos una aclaratoria: el segundo cálculo toma en cuenta un elemento cuyo uso en el consumo no es representativo ya que una familia promedio consume al mes más huevos que porta retratos, por lo cual la variación no puede considerarse significativa. Con esto queremos poner en evidencia la principal desventaja de un índice no ponderado de agregados; a saber, no le da peso o ponderación al cambio de precio de un producto de uso muy común que de uno de uso poco común. Para evitar esta distorsión se hace necesario el cálculo de un índice que tome en cuenta un factor de ponderación, el cual se denomina índice de agregados ponderados. El cual analizaremos en la próxima sección. 3. ÍNDICE DE AGREGADOS PONDERADOS Como mencionamos anteriormente, para evitar la distorsión que produce tomar en cuenta un artículo de uso poco común al cálculo de un índice de agregados es a menudo aconsejable asignar una importancia mayor a los cambios de unos artículos que a otros. Esta ponderación nos permitirá manejar más información para el cálculo que sólo el tiempo como variable, que produce un cambio en los valores de la serie. El problema fundamental para el cálculo de este índice es que debemos decidir cuánto peso asignar a cada una de las variables en la muestra.
265
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
, P1q
La fórmula general para su cálculo es: I(P) = P
.100
Po q
I
donde, pi : precio de cada elemento del grupo en el año para el que se
desea el índice. po :precio de cada elemento del grupo en el año base q : factor de ponderación de cantidad seleccionado
0 Ejemplo 4 Supongamos los elementos de la tabla del ejemplo 3 a los cuales se ponderó de acuerdo con el volumen de ventas mensuales, para calcular su índice de agregados ponderados de precios. Volumen y precios de cuatro mercancías en una zona metropolitana en particular, 1999 y 2004. Mercancía
Leche Pan Huevos Porta retratos
Volumen (miles)
20000 (litros) 50000 (piezas) 3500 (docenas) 6000 (unid)
Precio Promedio (Bolívares) 1999 2004 1800 2900
1999 36000000
2004 58000000
275
450
13750000
22500000
2460
3600
8610000
12600000
3500
5100
2100000
3060000
Ep0q=52711000
Ep0q=96160000
Ventas Ponderadas (mensuales)
266
OMAR JESÚS ALCALÁ VELASQUE
Índice de agregados ponderados de precios: 96160000 I(P)p = .100 =182,4 52711000 Existen, en general, tres formas de calcular un índice agregado ponderado de precios, que se diferencian en el período utilizado para calcularlo. El primero, conocido como índice de Laspeyres, pondera los precios con las cantidades asociadas con el año base antes de sumarse. El segundo, llamado índice de Paasche, pondera los precios según las cantidades asociadas con el año dado para el cálculo. Y el tercero, el índice de promedio ponderado de relativos, el cual toma el índice simple de precios de cada mercancía en lo individual y lo pondera con un valor de la forma pq . Los valores usados pueden corresponder al año base o a un año dado cualquiera. Habitualmente se emplea el año base. Pasaremos a describir cada uno de forma más precisa. • Índice de Laspeyres7 El índice de Laspeyres, que toma en cuenta las cantidades consumidas durante el período base permite a los administradores comparar el índice de un período directamente con el índice de otro. Por ejemplo, si el administrador de un fabricante de maquinaria pesada conoce que el índice de precios para 1999 es de 102,1 y 108,3 para 2004, utilizando los precios y las cantidades de 1997 como base. La compañía llega a la conclusión de que el nivel general de los precios ha aumentado el 6,2 % de 1999 a 2004. Para calcular este índice, la compañía primero calcula el producto del precio del período actual por la cantidad del período base para cada elemento del grupo y 7 El índice de Lapeyres es el que emplea el Banco Central de Venezuela para calcular el IPC (Índice de Precios al Consumidor). www.bcv.org.ve/pdf/infoipc.pdf (Enero, 2007).
267
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
después suma los valores resultantes. Luego multiplica el precio base por la cantidad del período base para cada elemento del compuesto y suma todos los valores resultantes. Al dividir estas cantidades y multiplicarlas por 100, el administrador convierte este valor en un porcentaje sujeto a interpretación y análisis. La fórmula general para calcular el índice de Laspeyres (I(L)) es la siguiente: I(L) =
1,1319.0 .100 L Poqo
donde, p1 : precios en el año para el que se desea el índice p0: precios en el año base q0: cantidades vendidas en el año base En el siguiente ejemplo, veremos cómo calcular el índice de Laspeyres. 0 Ejemplo 5 Suponga que deseamos determinar los cambios en el nivel de precios entre 2000 y 2003. Mercancía
Leche (1 litro)
Cantidad Precio Promedio Promedio (Bolívares) consumida 2000 2003 en 2000 por Base Actual po una familia p1 cl . 120 litros
Pan (1 pieza) 192 piezas Huevos (docena) 24 docenas
2000
2003
Poqo
Piqo
1900
2105
228.000
252.600
285 2.600
390 3.250
54.720 62.400
74.880 78.000
poq„ = 345120 li p ego = 405480
268
OMAR JESÚS ALCALÁ VELASQUE
Índice de precios de Laspeyres: I(L) =
405480 .100 =117,5 345120
Si se selecciona una muestra representativa de los bienes y servicios, podemos concluir que el índice general de precios para 2003 es de 117,5, o dicho de otra forma los precios para 2003 en comparación con 2000 se incrementaron en 17,5%. Una ventaja del índice de Laspeyres es la posibilidad de compararlo con otro; si conocemos los precios de 2001, en el ejemplo anterior podríamos obtener el índice y comparar el incremento o la baja en el valor de dicho índice; otra ventaja es que muchos productos de uso común no se tabulan cada año, por lo cual su influencia no afecta los cálculos. La mayor desventaja que posee este índice es que no toma en cuenta los cambios en los patrones de consumo. Es decir, los productos consumidos en grandes cantidades en un año determinado, no necesariamente tendrán la misma importancia años después. • Índice de Paasche Mencionamos anteriormente que este índice, al igual que el de Laspeyres, toma en cuenta los valores de las cantidades en el período actual, a diferencia de Laspeyres que toma los valores en el año base. Para su cálculo se emplea una fórmula análoga a la de Laspeyres, con el cambio en el valor de la cantidad a emplear para dicho cálculo. I(P) =
IPiclo IPoclo
.100
269
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
donde, pi: precios en el año para el que se desea el índice. po: precios en el año base. cantidades vendidas en el año que se desea el índice. En el siguiente ejemplo, veremos como calcular el índice de Paasche. 0 Ejemplo 6 Supongamos la tabla del ejemplo 5, pero cambiando los valores de cantidad del año 2000 por los del 2003 y determinemos el índice de precios de Paasche. Cantidad promedio consumida de tres artículos por una familia en 2003 Mercancía
Cantidad Promedio consumida en 2003 por una familia
(q1) Leche (1 130 litros litro) Pan (1 200 piezas pieza) Huevos 20 docenas (docena)
Precio Promedio (Bolívares) 2000 2003 Base Actual (N) (Pi)
2000
2003
Poqi
(Piqi)
1.900
2.105
247.000
273.650
285
390
57.000
78.000
2.600
3.250
52.000
65.000
E poq0=356.000
E p1q0=416.650
Índice de precios de Laspeyres: I(P) =
416650 .100 =117 356000
270
OMAR JESÚS ALCALÁ VELASQUE
Con base en este índice podemos afirmar que el nivel de precios entre 2000 y 2003 aumentó el 17%. Observando el índice de Laspeyres se observa una diferencia con respecto al de Paasche la cual es representada por el cambio en los patrones de consumo de las tres variables consideradas. Este índice es de mucha utilidad porque combina los efectos de los cambios de precio y los patrones de consumo. Por lo tanto, es un mejor indicador de cambios generales de la economía que el índice de Laspeyres. La gran desventaja de este índice radica en el hecho de tener que tabular las cantidades para cada período a examinar. Lo cual puede traer como consecuencia una gran inversión para conocer estos valores. Además, como las medidas de cantidad utilizadas para obtener este índice dependen del período de estudio, si este cambia, la comparación entre dos índices de Paasche no permite atribuir los cambios solo a los precios. En consecuencia es difícil comparar índices con distintos períodos con el uso del índice de Paasche. • Índices de promedio ponderado de relativos de cantidad En tiempo de inflación, un índice de promedio ponderado de relativos de cantidad proporciona una media más confiable de la producción de renglones de la economía como materia prima y bienes terminados. De forma análoga, la producción agrícola se mide mejor si se utiliza un índice de cantidad, ya que no toma en cuenta los efectos engañosos producidos por la fluctuación de precios. A menudo se utiliza este índice para medir mercancías que están sujetas a considerables variaciones de precios. El método para calcular un índice de cantidad de promedio ponderado de relativos es el mismo que utilizamos para el índice de precios. La fórmula general que se emplea es la siguiente:
271
TÓPICOS DE ESTADÍSTICA APLICADOS A LES c,w_c,kks SOCIALES
ch .100 (chp I(PR) =_~
qo
n
1/Png.
donde, q1: cantidades en el año para el que se desea el índice q0 : cantidades en el año base I D, y qn :
cantidades y precios que determinan los valores utilizados para los pesos En el siguiente ejemplo, veremos cómo calcular el índice. Cabe resaltar que puede calcularse este índice para precios en lugar de cantidad. 0 Ejemplo 7 Suponga los tres elementos de la siguiente tabla y determine el índice de promedio ponderado de relativos de cantidad. Cantidad en millones de toneladas de tres artículos agrícolas con sus precios respectivos en 1999 y 2002 Elementos Cantidades Precio por (millones de Tonelada Toneladas) para 1999 1999 2002 en MM de Bs
Porcentaje Relativo
Valor Básico
Relativos ponderados
Trigo
29
24
3,80
83 (*)
110,20
9146,60
Maíz
3
2,5
2,91
83
8,73
724,59
12
14
6,50
117
78,00 (**)
9126,00 (***)
1=1916,93
E=18997,19
Fríjol soya
de
272
OMAR JESÚS ALCALÁ VELASQUE
Para el cálculo de (*) se realiza la siguiente operación: 3-1-- .100 =1:.100 = 83 go Para el cálculo de (**) se realiza la siguiente operación: 13,4) .100 =12.6,50 = 78,00 Para el cálculo de (***) se realiza la siguiente operación: .100.p0q0 =117.78= 9126 go
Índice de cantidad de promedio ponderado de relativos: I(PR) =
18997,19 = 96 196,93
ÍNDICE DE PRECIOS AL CONSUMIDOR
El índice de precios al consumidor (IPC) es un índice de mucho valor para determinar el comportamiento económico de un país. Mide los cambios en el precio de la canasta básica fija de bienes y servicios de un período a otro. En Venezuela el cálculo de este índice está a cargo del BCV, institución que calcula el IPC mensual, su variación mensual y su variación anual. Cabe aclarar que no hay un solo índice ya que el BCV calcula el IPC para el área Metropolitana de Caracas, así como para otras cuidades del país como Maracaibo. En resumen el IPC tiene varias funciones importantes. Permite a los consumidores determinar el grado en que varía su poder de compra debido a los incrementos de los precios. En este aspecto, es una manera de revisar los salarios, pensiones y otros ingresos, con el fin de ajustarlos en relación a la inflación. Además es un indicador económico que permite medir la inflación.
273
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
El índice, en Venezuela, incluye alrededor de 287 rubros que representan el 93% del gasto de consumo total que realizan los hogares del área metropolitana de Caracas. Para recabar la información de los precios de esta cantidad de artículos mensualmente los encuestadores del BCV visitan alrededor de 2000 establecimientos de diferentes tipos, obteniendo un total de 32000 precios. Para garantizar la mayor confiabilidad y veracidad de la información recopilada cada encuestador tiene un cuestionario que le indica de forma detallada de los artículos a los cuales debe registrar el precio y los establecimientos donde debe hacerlo. Estos rubros se agruparon en 13 grupos cuya estructura de ponderación para el cálculo del IPC es la siguiente: Estructura de ponderaciones de la Canasta Familiar' Grupos de Bienes y Servicios 1.Alimentos y bebidas alcohólicas 2. Bebidas alcohólicas y tabacos 3. Restaurantes y hoteles 4. Vestido y calzado 5. Alquiler de vivienda 6. Servicios de la vivienda 7. Mobiliarios, equipos del hogar y mantenimiento 8. Salud 9. Transporte 10. Comunicaciones 11. Esparcimiento y cultura 12.Servicios de educación 13. Bienes y servicios diversos Total General
Ponderaciones 22,9 1,5 6,1 6,5 15,1 3,5 5,6 4.2 13,3 5,2 5,1 4,8 6,2 100,0
8 Gerencia de Estadísticas Económicas del BCV. El termómetro de la Inflación. Banco Central de Venezuela. Marzo 2000.
274
OMAR JESÚS ALCALÁ VELASQUE
Cualquier persona puede calcular por medio del IPC la inflación en un período determinado, si conoce los precios de los rubros de la canasta básica familiar que habitualmente compra su familia. Veamos cómo realizarlo por medio de un ejemplo. 0 Ejemplo 8. Calcula tu propia tasa de inflación Para iniciar el cálculo debe conocer la lista de artículos que habitualmente consume y luego calcular las ponderaciones de los artículos que reflejan la importancia de cada uno en su canasta. Estas ponderaciones las puede calcular al dividir el gasto en bolívares de cada bien o servicio comprado, entre el gasto total de la canasta y luego multiplicarlo por 100 para convertirlo en un porcentaje. Teniendo esta información solo queda conocer los precios de los bienes y servicios en el período base y en el período considerado. Pasos para el cálculo del Índice 1. Calcular los relativos de precio de cada uno de los artículos y servicios de la canasta considerada, los cuales se obtienen al dividir los precios de la canasta considerada entre los precios del período base. 2. Se multiplica cada relativo de precio por su respectiva ponderación determinada en el período base. 3. Se obtiene el índice de precios sumando los valores calculados en el punto 2. Veamos el siguiente cuadro que refleja los bienes y servicios comprados por la Familia González y el cálculo de la ponderación de cada elemento.
275
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
Determinación de la estructura de ponderación de la Familia González (2)
(1) Canasta de bienes y servicios
Precio unitario (período base)
Gasto (período base)
Estructura de Ponderación
460,00
920,00
(920/406.120)x100 = 0,2
8.000,00
96.000,00
(96.000/406.120)x100 = 23,6
250.000,00
250.000,00
(250.000/406.120)x100= 61,6
2 tubos
1.100,00
2.200,00
(2.200/406.120)x100 = 0,5
Estacionamiento
1 mes
5.000,00
5.000,00
(5.000/406.120)x100 = 1,2
Condominio
1 mes
25.000,00
25.000,00
(25.000/406.120)x100 = 6,3
1 consulta
20.000,00
20.000,00
(20.000/406.120)x100 = 4,9
2 cortes
3.500,00
7.000,00
(7.000/406.120)x100 = 1,7
40.6120
100 %
Arroz
Cantidades
(3) =(1)x(2)
2 Kg
Almuerzos en restaurantes
12 almuerzos
Alquiler de Vivienda
1 mes
Crema Dental
Consulta Médica (Odontólogo) Corte de cabello Total
OMAR JESÚS ALCALÁ VELASQUE
276
Cálculo del índice (1)
(2)
(3)
(4) = (3)/
(5) = (4)x(1)
(2)
Canasta de Ponderación bienes y ser- (período base) vicios
Precio unitario (período base)
Precio uniRelativo tario (período Precios considerado)
de Ponderación por relativos de precio
0,2
460,00
500,00
1,0869
0,2
Almuerzos en restaurantes
23,6
8.000,00
8.900,00
1,1125
26,3
Alquiler de Vivienda
61,6
250.000,00
250.000,00
1,0000
61,6
Crema Dental
0,5
1.100,00
1.150,00
1,0454
0,5
Estacionamiento
1,2
5.000,00
5.200,00
1,0400
1,2
Condominio
6,3
25.000,00
25.000,00
1,0000
6,3
Consulta Médica (Odontólogo)
4,9
20.000,00
21.000,00
1,0500
5,2
Corte de cabello
1,7
3.500,00
3.600,00
1,0285
1,8
Total
100
Arroz
103,1
El índice calculado de esta forma permite conocer la variación en el período considerado y permite compararlo con el del mes anterior o el año anterior, con el fin de conocer la variación promedio registrado por los bienes y servicios. En el caso del ejemplo de la Familia González el incremento del índice (103,1%) representa un aumento promedio en su canasta básica del 3,1% (103,1 - 100 = 3,1), es decir sus gastos se incrementaron de Bs. 406.120 a 418.709,72 (406.120x1,031 = 418.709,72). Observando la tabla de los ocho rubros contemplados, 5 de ellos registraron un aumento superior al IPC. El arroz, por ejemplo, fue de 8,7% y el de la consulta médica 5%, los almuerzos un 11,25%. Con estos datos nos podríamos preguntar: ¿Por qué un aumento del 3,1%
277
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
en el IPC? Esto se debe a que el alquiler de vivienda que representa el 61,6% del presupuesto no registró aumento en el período considerado influyendo de forma significativa en el resultado final del IPC general. • Usos especiales del Índice de Precios al Consumidor Además de medir las variaciones en los precios de bienes y servicios, el IPC se utiliza para determinar el ingreso real de una persona, para la deflación de las ventas u otras variables, para calcular el poder de compra de la moneda y establecer los incrementos en el costo de la vida. Para calcular el ingreso real se debe conocer el ingreso monetario de la persona y el IPC considerando el año base y el año de estudio. Supongamos que el Señor Ramírez ganaba en 1997 Bs. 1.440.000 con un IPC = 100 (Año base 1997) por lo tanto su ingreso real era Bs. 1.440.000 anual, pero en 2006 el salario anual para el Señor Ramírez es Bs. 6.147.900, con un IPC acumulado de 614,839, con lo cual su ingreso real anual es de Bs. 999.934,94 con respecto al año 1997. Con esto se observa el descenso en la calidad de vida del Señor Ramírez por causa de la inflación, veamos en el siguiente cuadro los cálculos realizados: Año Ingreso anual 1997 1.440.000 2006 6.147.900
IPC (1997 =100) 100 614,83
Ingreso real 1.440.000 999.994,34
Cálculo del ingreso (1.440.000/100)x100 (6.147.900/614,83)x100
La fórmula general empleada en los cálculos es la siguiente: Cálculo del ingreso real Ingreso Re al =
ingreso monetario .100 IPC
9 IPC. www.bcv.org.ve/ (Enero 2007)
278
OMAR JESÚS ALCALÁ VELASQUE
Otro uso del IPC es el cálculo del poder de compra de la unidad monetaria, por ejemplo en el caso de Venezuela permite medir el poder de compra de un bolívar. Suponga que el IPC en este mes es de 627,1210 y queremos determinar el poder de compra de un bolívar en comparación con el año base 1997 = 100, entonces aplicamos la siguiente fórmula: Poder de compra del bolív ar =
Bs. 1 .100 IPC
1 Poder de compra del bolívar = Bs. .100 = 0,16. El IPC de 627,12 627,12 indica que los precios se sextuplicaron desde 1997 hasta el mes de enero 2007, por lo tanto el poder de compra del bolívar se redujo en su sexta parte. Es decir un bolívar de 1997 vale en la actualidad 16 centavos de bolívar. PROBLEMAS EN LA CONSTRUCCIÓN Y EL USO DE NÚMERO ÍNDICE Para el cálculo de números índice se utilizan compuestos de muchos elementos y cubren períodos largos de tiempo, esto produce medidas relativamente precisas de los cambios. Sin embargo, hasta los mejores números índices son imperfectos. • Problemas en su construcción 1. Selección de un elemento que se incluye en el compuesto o grupo. Calcular el IPC supone tener claro los rubros que componen la canasta básica de bienes y servicios, lo cual trae como consecuencia la pregunta: ¿Cuánto ha cambiado de 10 IPC enero 2007. www.bcv.org.ve/ (Enero 2007).
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
279
un período a otro el precio de cierto grupo de productos y servicios adquiridos por ciudadanos de ingresos moderados? A partir de esta pregunta, podemos conocer qué elementos deberán incluirse en el cálculo ya que reflejan las compras de las familias urbanas de ingresos moderados. 2. Selección de los pesos apropiados. En los párrafos anteriores ya hablamos de la importancia de la selección de los pesos o ponderaciones de los elementos del compuesto. De debe tener en cuenta que los pesos en un período pueden cambiar en otro relativamente cercano, por lo tanto se debe mantener un seguimiento que permita conocer los patrones de consumo de las familias de ingresos promedio para ajustar las ponderaciones. 3. Selección del período base. Por lo común se toma un período en el cual las variables económicas se encuentran estables, es decir que no se tome un período donde se encuentre un pico o una depresión de una fluctuación. Una "técnica para evitar le elección de un período anómalo consiste en promediar los valores de varios períodos consecutivos para determinar un valor normal" (Levin-Rubin 2004). Por ejemplo, en Venezuela el BCV inició en el cuarto trimestre de 1996 el Programa de Actualización de las Estimaciones Macroeconómicas (Pracem), donde se incluyó un cambio en el año base del IPC "adoptándose como nuevo año base 1997, en razón de las modificaciones estructurales e institucionales demostradas por la economía venezolana desde el año 1984, anterior ario IDase"11.
11 Gerencia de Estadísticas Económicas del BCV. El termómetro de la Inflación. Banco Central de Venezuela. Marzo 2000, p. 4.
282
OMAR JESÚS ALCALÁ VELASQUE
Artículo
Precio 1995 ($) 0,77
Precio 2005 ($)
Huevos (docena)
1,85
1,84
Leche (galón)
0,88
1,01
Manzanas (libra)
1,46
1,56
Jugo de Naranja (galón) Café (libra)
1,58
1,70
4,40
4,62
Pan blanco (libra)
0,89
R: 115,6; 99,5; 114,8; 106,8; 107,6 y 105,0 respectivamente. 5. El vicepresidente de ventas de Copiadoras Fácil está examinando la tasa de comisión para los empleados durante los últimos 3 años. A continuación, se listan las ganancias por comisiones, en miles de bolívares, de los cinco mejores vendedores de la compañía: 1993
1994
1995
Roberto Carlos
48,50
55,10
63,80
Diego Alejandro Juan Andrés
41,90
46,20
60,15
38,75
43,50
46,70
Luís Alberto
36,30
45,40
39,90
María Juliana
33,85
38,30
50,20
Considerando a 1993 como año base (1993 = 100), exprese las ganancias por comisiones de 1994 y 1995 en términos de un índice de agregados no ponderados. R: 1993:100; 1994: 114,7; 1995: 130,8 6. En un esfuerzo por obtener una medida de las dificultades económicas, el Fondo Monetario Internacional (FMI) recolectó datos sobre el comportamiento de los precios, en dólares, de cinco productos principales importados por un grupo de países menos desarrollados. Utilizando el año 1992 como año base, exprese los precios de 1995 en términos de un índice de agregados no ponderados.
283
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
Producto Precios 1992 Precios 1995
AB 127 532 152 651
C 2290 2314
DE 60 221 76 286
R: 107,7 7. Con el fin de negociar con el sindicato, los representantes de la administración de una fábrica grande están recopilando datos sobre el nivel de los salarios. Los datos siguientes corresponden al pago base, en dólares, por las diferentes clases de trabajo realizados en la planta durante un período de cuatro años: Salario por hora 1992
1993
1994
1995
Clase A
8,48
9,32
10,34
11,76
Clase B
6,90
7,52
8,19
8,76
Clase C
4,50
4,99
5,48
5,86
Clase D
3,10
3,47
3,85
4,11
Usando al año 1992 como período base, calcule el índice de salarios de agregados no ponderados para 1993, 1994 y 1995. R: 110,1; 121,2 y 130,1 respectivamente. 8. La Srta. Romero, administradora de un pequeño hospital rural, recolectó información concerniente a los alimentos adquiridos por la cocina del hospital. Para las mercancías enumeradas, el precio correspondiente indica el precio promedio de ese año, en euros. Utilizando 1994 como período base, exprese los precios de 1993 y 1995 en términos de un índice de agregados no ponderados. Mercancía Lácteos Carnes Vegetales Frutas
1993 2,34 3,19 0,85 1,11
R: 95,2 y 102,7 respectivamente.
1994 2,38 3,41 0,89 1,19
1995 2,60 3,36 0,94 1,18
284
OMAR JESÚS ALCALÁ VELASQUE
9. La Editorial Casa Tomada empezó su negocio de publicación de libros de textos universitarios en 1998. La editorial está interesada en determinar cuánto han cambiado sus ventas en comparación con el primer año de operaciones. Un resumen de los registros de la compañía muestra cuántos libros nuevos publicó cada año en las áreas siguientes: Biología Matemáticas Historia Inglés Sociología Física Química Filosofía
1998 48 32 19 16 24 10 27 11
1999 53 37 15 20 18 26 26 8
2000 50 35 22 21 26 32 30 15
Utilizando 1998 como año base, calcule el índice de cantidad de agregados no ponderados para 1999 y 2000. Interprete los resultados para la compañía editorial. R: 1999: 108,6; 2000: 123,5 10. A continuación, presentamos los precios, en dólares, de la pasta de dientes (255 g), el champú (198 g), las pastillas para la tos (paquete de 100) y el desodorante (56 g) en agosto de 2000 y agosto de 2003 también incluimos las cantidades compradas. Utilice agosto de 2000 como año base. Artículo Pasta dental Champú Tabletas para la tos Desodorante
Agosto de 2000 Precio Cantidad 6 2,49 4 3,29 2 1,59 1,79 3
Agosto de 2003 Precio Cantidad 6 2,69 5 3,59 1,79 3 4 2,29
285
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
a) Determine los índices de precios simples. b) Determine los índices 'de precios de agregados no ponderados. c) Determine los índices de cantidad de agregados no ponderados. R) a) Pasta: 108,03; Champú: 109,12; Tableta: 112,58 y Desodorante: 127,93 b) 113,1 11.En referencia a la tabla del problema 10, determine el índice de precios de a) Laspeyres y b) de Paasche. R: a) I(L) = 111,7; b) I(P) = 112,2 12. Homero Simpson, propietario de un viñedo en California, recolectó la siguiente información que describe los precios y cantidades de cosechas para el período 1992-1995. Precio (por tonelada) Tipo de uva Ruby Barbera Chenin
1992
Cantidad cosechada (toneladas)
108
1993 109
1994 113
1995 111
93 97
96 99
96 106
101 107
1992 1280 830 1640
1993 1150 860 1760
1994 1330 850 1630
1995 1360 890 1660
Determine el índice de Paasche para cada año, utilice 1993 como período base. R: 1992: 98,2; 1993: 100; 1994: 104,3; 1995: 105,1 13. Software Digital ha desarrollado una participación de mercado sustancial en la industria de las PC. Los precios y números de unidades de sus cuatro mejores computadoras de 1993 a1996 fueron:
286
OMAR JESÚS ALCALÁ VELASQUE
Número vendido (miles)
Precio de venta (euros) Modelo SD 107 SD Electra SD Vectra SD 801
1993 1894 2506 1403 1639
1994 1906 2560 1440 1650
1995 1938 2609 1492 1674
1996 1957 2680 1499 1694
1993 84,6 38,4 87,4 75,8
1994 86,9 42,5 99,4 78,9
1995 98,4 55,6 109,7 82,4
1996 107,5 67,5 134,6 86,4
Construya un índice de Laspeyres para cada uno de los 4 años, con 1993 como período base. R: 1993: 100; 1994: 101,4; 1995: 103,1; 1996: 104,9. 14.En referencia a la tabla del problema 13, determine un índice de Paasche para cada año, con 1994 como año base. R: 1993: 98,6; 1994: 100; 1995: 101,6; 1996: 103,5. 15.El Sr. Hidalgo es propietario de un puesto de frutas situado en la esquina de un pequeño poblado. Después de escuchar varias quejas de que sus precios cambiaban constantemente en verano, ha decidido ver si esto es cierto. Basándose en los datos siguientes, ayude al Sr. Hidalgo a calcular los índices de precios de agregados ponderados para cada mes. Utilice el mes de junio como período base. ¿El resultado que obtuvo es un índice de Laspeyres o de Paasche? Fruta Manzana Naranja Durazno Patilla Melón
Precio por libra ($)
N° de libras vendidas
Julio 0,64 0,65
Agosto 0,69 0,70
Junio
0,90 1,10 0,89
0,85 0,95 0,90
Junio 0,59 0,75 0,87 1,00 0,95
R: Julio: 102,1; agosto: 97,3
150 200 125 350 150
287
TÓPICOS DE ESTADÍSTICA APLICADOS A LAS CIENCIAS SOCIALES
Laspeyres para los precios del año 2000 de los artículos de oficina de la tabla del problema 4. 16. Determine el índice de precios de
R: I(L) = 113,6 17. Determine el índice de precios de Paasche para los precios del año 2000 de los artículos de oficina de la tabla del problema 4. R: I(P) = 113,7 18. A continuación se reportan los precios y números de diversos artículos producidos por una máquina pequeña y una planta troqueladora. Use el 2.000 como base. 2000 Artículo Arandelas
Precio ($)
2003 Cantidad
Precio ($)
Cantidad
17.000
0,10
20.000
Clavijas
0,07 0,04
125.000
0,03
130.000
Pernos
0,15
40.000
0,15
42.000
Tuercas
0,08
62.000
0,10
65.000
a) Determine el índice de precios de Laspeyres. b) Determine el índice de precios de Paasche. R: a) I(L) = 102,92; b) I(P) = 103,32 19. Como parte de la evaluación de una posible adquisición, un conglomerado de la Ciudad de Maturín recolectó la siguiente información de ventas: Precio promedio anual (Miles de Bs.) Producto
1993
Valor total en bolívares (miles) 1993
1995
Calculadoras Radios
27
20
150
30
TV portátiles
157
42 145
900 1.370
288
OMAR JESÚS ALCALÁ VELASQUE
Calcule el índice de precios de promedio ponderados de relativos usando el valor en bolívares de cada producto en 1993 como el conjunto de pesos apropiados y 1995 como año base. R: 108,9 20. La directiva del club deportivo Las Gacelas de Coro, dueños del estadio Los Médanos, recolectó información de los precios y el volumen de boletos durante los 4 últimos años. Precio anual promedio (miles de bolívares) 1993 1994 1995 1992 Asientos VIP Asientos generales
Boletos vendido (x 10 000) 1993
1994
1995
6,50 7,25 7,50 8,10 26
27
31
28
3,50 3,85 4,30 4,35 71
80
89
90
1992
Calcule un índice de precios de promedios ponderados de relativos para cada año de 1992 a 1995, utilizando el año 1993 para ponderar y como año base. R: 1992: 90,4; 1993: 100; 1994: 108,5; 1995: 112,5 21. Un grupo de interés público de Falcón ha investigado el costo de la mano de obra en las reparaciones de automóviles para tres cuidades principales (Coro, Punto fijo y Cumarebo). Con la siguiente información, construya un índice de precios de promedios ponderado de relativos utilizando los precios de 2001, en miles de bolívares, como base. Tipo de reparación Cambio de bomba de agua Frenos Balanceo de cauchos Afinación (menor)
2001 35 189 26 16
R: 2001: 100; 2003: 106,4; 2005: 114,8
2003 37 205 29 16
2005 41 216 30 18
LTICA TICA APLICADOS A LAS CIENCIAS TÓPICOS DE ESTADÍS
289
SOCIALES
22. Infotech investigó el precio unitario y el valor total de los chips de memorias importados por Estados Unidos en 1994 y 1996. Precios 1994 $ 42 $ 180 $ 447
Producto Chip de 1 mega bites Chip de 4 mega bites Chip de 16 mega bites
1996 $ 65 $ 247 $ 612
Venta total en miles de dólares 1994 957 487 349
Calcule un índice de precios de promedios ponderados de relativos para 1996, utilizando el valor del dólar para cada producto de 1994 como el conjunto adecuado de los pesos y 1994 como año base. R: 146,5 23. Una empresa de Egipto que fabrica equipo pesado ha recolectado la siguiente información respecto a los principales productos de la compañía. Calcule el índice de cantidad de agregados ponderados de relativos, use las cantidades y los precios de 1995, en miles de dólares, como la base y los precios. Cantidades producidas Producto Barcaza de río Carros de ferrocarril Camiones de carga
1993 92 456
1994
52
Costo de producción por unidad
118 475
1995 85 480
1995 33 56
56
59
116
R: 1993: 94,7; 1994: 101,3; 1995: 100. 24. Después de conminar a una compañía de productos químicos a que obligara a sus empleados a manejar ciertos compuestos químicos peligrosos con guantes protectores, el Departamento de Salud Pública está ahora interesado en ver si esta reglamentación ha
290
OMAR JESÚS ALCALÁ VELAS1UE
tenido el efecto de frenar el número de fallecimientos por cáncer en esta área. Antes de que entrara en vigor la reglamentación, el cáncer no solamente se había extendido entre los trabajadores de la compañía, sino también entre sus familiares, amigos cercanos y vecinos. Los siguientes datos muestran las cifras obtenidas en 1973 antes de la reglamentación y las que se obtuvieron después, en 1993. Grupo de edad Menos de 4 años 4 a 15 años 16 a 35 años 36 a 60 años Más de 60 años
N° de habitantes en 1973 5000 4000 24000 19000 7000
Fallecimientos en 1973 400 295 1230 700 1100
Fallecimientos en 1993 125 200 1000 450 935
Utilice un índice de agregados ponderados para el número de fallecimientos, tome la población de 1973 como los pesos para ayudar al Departamento de Salud Pública a entender qué ha sucedido a la tasa de incidencia de cáncer. R: 75,5 25. Los datos siguientes indican el valor (en millones de dólares) de los principales productos exportados por un país en desarrollo. Determine índices de valores de agregados no ponderados para los años 1993 y 1995, con base en 1991. Mercancía Café Azúcar Cobre Zinc
1991 834 96 241 142
1993 1.436 118 258 125
R: 1991: 100; 1993: 147,5; 1995: 138,5
1995 1.321 122 269 106
291
TÓPICOS DE ESTADISTICA APLICADOS A LAS CIENCIAS SOCIALES
26. Una investigación realizada por la Asociación Nacional de Lácteos produjo la siguiente información. Construya un índice de Laspeyres con 1991 como período base. Precio por unidad 1991 $ 1,45 $ 1,60 $ 0,70
Producto Queso (libra) Leche (galón) Mantequilla (libra)
1995 $ 1,49 $ 1,61 $ 0,80
Cantidad total en miles de dólares 1991 2.6 47,6 3,1
R: I(L) = 101,1 27.¿Qué problema se presentaría al comparar índices de precios que describen las ventas de computadoras durante la última década? 28. La información siguiente describe las ventas unitarias de un almacén de bicicletas durante 3 años: Modelo Deportivo Excursionismo Campo traviesa De carreras
Número Vendido 1995 1993 1994 45 48 56 64 71 67 28 35 27 21 16 28
Precio ($) 1993 89 104 138 245
Calcule índices de cantidad de promedio ponderado de relativos, utilizando los precios y las cantidades de 1993 para ponderar los valores, con 1993 como año base. R: 1993: 100; 1994: 101,6; 1995: 116,7 29. ¿Por qué debe ser precavido al escoger un período base? 30. Un fabricante europeo de automóviles recolectó la siguiente información de la venta de carros de un fabricante estadounidense:
292
OMAR JESÚS ALCALÁ VELASQUE
Tamaño Subcompacto Compacto Sedán
Precio anual promedio (miles de dólares) 1991 1993 1995 62 68 70 80 76 78 106 90 98
Unidades vendidas (miles) 1991 32 45 462
1993 65 68 325
1995 86 73 386
a) Calcule los índices de precios ponderados de relativos utilizando los precios y las cantidades de 1993 como base y pesos. b) Calcule los índices de precios de promedio de ponderados de relativos utilizando los valores totales en dólares para cada ario como peso y el año 1993 como período base. R: a) 1992: 92,5; 1993: 100; 1994: 106,9 b) 1992: 92,2; 1993: 100; 1994: 106,9