45 minute read
Estadística
Ciencia matemática que se ocupa el recolectar, analizar e interpretar datos que buscan explicar las condiciones en aquellos fenómenos de tipo aleatorio. Ciencia que recopila, organiza, analiza e interpreta la información numérica o cualitativa mejor conocida como datos, de manera que pueda llevar a conclusiones válidas.
DIVISIÓN DE ESTADÍSTICA
Advertisement
Estadística descriptiva: Se dedica a la descripción, visualización y resumen de datos originarios a partir de los fenómenos de estudio. Los datos pueden ser resumidos numérica o gráficamente. Ejemplos básicos de parámetros son: la media y la desviación estándar.
Estadística inferencial:
Se dedica a la generación de los modelos, inferencial y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y extraen inferencias acerca de la población bajo estudio.
a) Población
Se refiere al conjunto de todos los elementos representativos con características comunes para una investigación. Así, el conjunto de “todos los estudiantes escritos en “Sexto Perito Contador” en un colegio o instituto de la República de Guatemala” es un ejemplo de una población bien definida y con características comunes para una investigación. Comúnmente el termino población se asocia con un conjunto de personas. Sin embargo, en estadística la población puede ser un conjunto de animales, plantas, u objetos; el conjunto de todos los animales que hay en el zoológico “La Aurora”, es un ejemplo de población.
b) Muestra
Son subconjuntos, es decir la selección parcial de algunos de los elementos de la población. Conjunto de cosas, personas o datos elegidos al azar, que se consideran representativos del grupo al que pertenecen y que se toman para estudiar o determinar las características del grupo.
c) Variables
Es cada una de las características que pueden observarse de un elemento de la muestra. Siguiendo con el ejemplo de las piezas se puede medir grosor, peso, resistencia, etc. Además de los datos a medir es necesario especificar, cuando sea preciso, la unidad de medida (por ejemplo, el grosor en centímetros o en milímetros). Las variables pueden ser clasificadas en dos grupos: • Cualitativas: Toman valores no numéricos. Dentro de este grupo diferenciamos: o Nominativas: no existe ningún orden entre las categorías de variables. Por ejemplo: el grupo sanguíneo (A, B, AB, 0) o el color del pelo (moreno, rubio, pelirrojo). o Binarias: cuando toman dos valores posibles -si/no, presencia/ausencia- (por ejemplo: casado sí o no, tener el carnet de conducir sí o no). o Ordinales: existe un cierto orden entre las categorías de las variables, por ejemplo, el nivel de estudios (sin estudios, básico, secundarios, etc.) o categoría dentro de una empresa (peón, encargado, etc.)
• Cuantitativas: Toman valores numéricos. Dentro de éstas se agrupan en: o Discretas: tomas valores aislados, normalmente números enteros, por ejemplo, número de hermanos o de hijos. o Continuas: teóricamente puede tomar cualquier valor numérico, por ejemplo: el peso de un individuo. Aunque en la práctica todas tomarían valores discretos por la imposibilidad de tener aparatos lo suficientemente sensibles para realizar mediciones intermedias.
Toma de Muestras o Muestreo
Según la cantidad de elementos de la muestra que se han de elegir de cada uno de los estratos, existen dos técnicas de muestreo estratificado: Asignación proporcional: el tamaño de la muestra dentro de cada estrato es proporcional al tamaño del estrato dentro de la población.
Estimación de Parámetros
En una población cuya distribución es conocida, pero desconocemos algún parámetro, podemos estimar dicho parámetro a partir de una muestra representativa. Un estimador es un valor que puede calcularse a partir de los datos muestrales y que proporciona información sobre el valor del parámetro.
Contraste de Hipótesis
Dentro de la inferencia estadística, un contraste de hipótesis (también denominado test de hipótesis o prueba de significación) es un procedimiento para juzgar si una propiedad que se supone en una población estadística es compatible con lo observado en una muestra de dicha población. Fue iniciada por Ronald Fisher y fundamentada posteriormente por Jerzy Neyman y Karl Pearson.
Diseño Experimental
El diseño experimental es una técnica estadística que permite identificar y cuantificar las causas de un efecto dentro de un estudio experimental. En un diseño experimental se manipulan deliberadamente una o más variables, vinculadas a las causas, para medir el efecto que tienen en otra variable de interés. El diseño experimental prescribe una serie de pautas relativas qué variables hay que manipular, de qué manera, cuántas veces hay que repetir el experimento y en qué orden para poder establecer con un grado de confianza predefinido la necesidad de una presunta relación de causa y efecto.
Interferencia bayesiana
La inferencia bayesiana es un tipo de inferencia estadística en la que las evidencias u observaciones se emplean para actualizar o inferir la probabilidad de que una hipótesis pueda ser cierta. El nombre «bayesiana» proviene del uso frecuente que se hace del teorema de Bayes durante el proceso de inferencia. El teorema de Bayes se ha derivado del trabajo realizado por el matemático Thomas Bayes.
Método no paramétrico
La estadística no paramétrica es una rama de la estadística inferencial que estudia las pruebas y modelos estadísticos cuya distribución subyacente no se ajusta a los llamados criterios paramétricos. Su distribución no puede ser definida a priori, pues son los datos observados los que la determinan.
Método Estadístico
El método estadístico consiste en una secuencia de procedimientos para el manejo de los datos cualitativos y cuantitativos de la investigación. En este artículo se explican las siguientes etapas del método estadístico: recolección, recuento, presentación, síntesis y análisis. El Método Estadístico como proceso de obtención, representación, simplificación, análisis, interpretación y proyección de las características, variables o valores numéricos de un estudio o de un proyecto de investigación para una mejor comprensión de la realidad y una optimización en la toma de decisiones. Este método posee de etapas para su realización las cuales son: 1. Recolección 2. Recuento 3. Presentación 4. Descripción 5. Análisis
Análisis e Interpretación Estadística
Esto se realiza mediante dos tareas íntimamente ligadas: el análisis y la interpretación de resultados. El análisis consiste básicamente en dar respuesta a los objetivos o hipótesis planteados a partir de las mediciones efectuadas y los datos resultantes.
Análisis de Resultados
El análisis del resultado obtenido por un determinado fondo es un proceso que se desarrolla en dos etapas. Primero, se compara la rentabilidad del fondo respecto a su índice de referencia. Luego, se analiza los métodos utilizados por los gestores para llegar a ese resultado.
Interpretación
Es la vinculación de los resultados de los análisis de datos con la hipótesis de investigación, con las teorías y con conocimientos ya existentes y aceptados. Tipos de problemas que podríamos tener con las interpretaciones de ciertos datos específicos: Atenuación de la escala de medida. Como han de interpretarse ejecuciones que alcanzan sistemáticamente o nunca pueden alcanzar, los límites de la escala de medida. Este problema se puede resolver haciendo un estudio piloto, detectando estos fallos y ampliando la escala en la nueva interpretación.
TIPOS DE REPRESENTACIONES GRAFICAS
Cuando se muestran los datos estadísticos a través de representaciones gráficas, se ha de adaptar el contenido a la información visual que se pretende transmitir. Para ello, se barajan múltiples formas de representación: • Diagramas de barras: muestran los valores de las frecuencias absolutas sobre un sistema de ejes cartesianos, cuando la variable es discreta o cualitativa. • Histogramas: formas especiales de diagramas de barras para distribuciones cuantitativas continuas.
• Polígonos de frecuencias: formados por líneas poligonales abiertas sobre un sistema de ejes cartesianos. • Gráficos de sectores: circulares o de tarta, dividen un círculo en porciones proporcionales según el valor de las frecuencias relativas. • Pictogramas: o representaciones visuales figurativas. En realidad son diagramas de barras en los que las barras se sustituyen con dibujos alusivos a la variable. • Cartogramas: expresiones gráficas a modo de mapa. • Pirámides de población: para clasificaciones de grupos de población por sexo y edad.
FUENTES DE INFORMACIÓN DEL PROYECTO
Los datos que utilizaras son los mismos que graficaras manualmente de los ejercicios que estarán definidos en esta unidad, de modo que pueda escoger los datos que prefiera. Una segunda opción es que visites las páginas del Banguat, INE, de cualquier ministerio del gobierno de Guatemala, que contenga cuadros estadísticos, los cuales te puedan servir de insumo en le elaboración de tu proyecto.
Las Fuentes Primarias
Las fuentes primarias son aquellas más cercanas posible al evento que se investiga, es decir, con la menor cantidad posible de intermediaciones. Por ejemplo, si se investiga un accidente automovilístico, las fuentes primarias serían los testigos directos, que observaron la acción ocurrir. En cambio, si se investiga un evento histórico, la recopilación de testimonios directos sería una fuente primaria posible.
Fuentes de Información Secundaria
Las fuentes de información secundaria, en cambio, se basan se basan en las primarias y les dan algún tipo de tratamiento, ya sea sintético, analítico, interpretativo o evaluativo, para proponer a su vez nuevas formas de información. Por ejemplo, si se investiga un evento histórico, las fuentes secundarias serian aquellos libros escritos al respecto tiempo después de ocurrido a lo ocurrido, basándose en fuentes primarias o directas si lo que se investiga como el ejemplo anterior, es un accidente, entonces un resumen un resumen de los testimonios de los testigos, escritos por la policía, constituye una fuente secundaria.
Fuentes de Información Terciaria
Se trata de aquellas que recopilan y comentan las fuentes primarias y/o secundarias, siendo así una lectura mixta de testimonios e interpretaciones, por ejemplo. Atendiendo al caso del accidente, una fuente terciaria al respecto sería el archivo policial completo, en el que figuran fotos, testimonios, etc.
REPRESENTACIÓN DE GRÁFICAS
Existen muy diversos tipos de gráficas, generalmente aplicándose unas u otras en función de lo que se pretenda representar o simplemente de las preferencias del autor. A continuación, indicamos algunas de las más conocidas y comunes.
1. Gráfico de barras
El más conocido y utilizado de todos los tipos de gráficos es el gráfico o diagrama de barras. En éste, se presentan los datos en forma de barras contenidas en dos ejes cartesianos (coordenada y abscisa) que indican los diferentes valores. El aspecto visual que nos indica los datos es la longitud de dichas barras, no siendo importante su grosor. Generalmente se emplea para representar la frecuencia de diferentes condiciones o variables discretas (por ejemplo, la frecuencia de los diferentes colores del iris en una muestra determinada, que solo pueden ser unos valores concretos). Únicamente se observa una variable en las abscisas, y las frecuencias en las coordenadas.
2. Gráfico circular o por sectores
El también muy habitual gráfico en forma de “quesito”, en este caso la representación de los datos se lleva a cabo mediante la división de un círculo en tantas partes como valores de la variable investigada y teniendo cada parte un tamaño proporcional a su frecuencia dentro del total de los datos. Cada sector va a representar un valor de la variable con la que se trabaja. Este tipo de gráfico o diagrama es habitual cuando se está mostrando la proporción de casos dentro del total, utilizando para representarlo valores porcentuales (el porcentaje de cada valor).
3. Histograma
Aunque a simple vista muy semejante al gráfico de barras, el histograma es uno de los tipos de gráfica que a nivel estadístico resulta más importante y fiable. En esta ocasión, también se utilizan barras para indicar a través de ejes cartesianos la frecuencia de determinados valores, pero en vez de limitarse a establecer la frecuencia de un valor concreto de la variable evaluada refleja todo un intervalo. Se observa pues un rango de valores, que además podrían llegar a reflejar intervalos de diferentes longitudes. Ello permite observar no solo la frecuencia sino también la dispersión de un continuo de valores, lo que a su vez puede ayudar a inferir la probabilidad. Generalmente se utiliza ante variables continuas, como el tiempo.
4. Gráfico de líneas
En este tipo de gráfico se emplean líneas para delimitar el valor de una variable dependiente respecto a otra independiente. También puede usarse para comparar los valores de una misma variable o de diferentes investigaciones utilizando el mismo gráfico (usando diferentes líneas). Es usual que se emplee para observar la evolución de una variable a través del tiempo. Un ejemplo claro de este tipo de gráficos son los polígonos de frecuencias. Su funcionamiento es prácticamente idéntico al de los histogramas aunque utilizando puntos en vez de barras, con la excepción de que permite establecer la pendiente entre dos de dichos puntos y la comparación entre diferentes variables relacionadas con la independiente o entre los resultados de distintos experimentos con las mismas variables, como por ejemplo las medidas de una investigación respecto a los efectos de un tratamiento, observando los datos de una variable pretratamiento y postratamiento.
5. Gráfico de dispersión
El gráfico de dispersión o gráfico xy es un tipo de gráfico en el cual mediante los ejes cartesianos se representa en forma de puntos todos los datos obtenidos mediante la observación. Los ejes x e y muestran cada uno los valores de una variable dependiente y otra independiente o dos variables de la que se esté observando si presentan algún tipo de relación. Los puntos representados el valor reflejado en cada observación, lo que a nivel visual dejará ver una nube de puntos a través de los cuales podemos observar el nivel de dispersión de los datos.
Se puede observar si existe o no una relación entre las variables mediante el cálculo. Es el procedimiento que se suele usar, por ejemplo, para establecer la existencia de rectas de regresión lineal que permita determinar si hay relación entre variables e incluso el tipo de relación existente.
6. Gráfico de caja y bigotes
Los gráficos de caja son uno de los tipos de gráficas que tienden a utilizarse de cara a observar la dispersión de los datos y cómo éstos agrupan sus valores. Se parte del cálculo de los cuartiles, los cuales son los valores que permiten dividir los datos en cuatro partes iguales. Así, podemos encontrar un total de tres cuartiles (el segundo de los cuales se corresponderían con la mediana de los datos) que van a configurar la “caja “en cuestión. Los llamados bigotes serían la representación gráfica de los valores extremos. Este gráfico es útil a la hora de evaluar intervalos, así como de observar el nivel de dispersión de los datos a partir de los valores de los cuartiles y los valores extremos.
7. Gráfico de áreas
En este tipo de gráfico se observa, de manera semejante lo que ocurre con los gráficos de líneas, la relación entre variable dependiente e independiente. Inicialmente se hace una línea que une los puntos que marcan los diferentes valores de la variable medida, pero también se incluye todo lo situado por debajo: este tipo de gráfica nos permite ver la acumulación (un punto determinado incluye a los situados por debajo). A través de él se pueden medir y comparar los valores de diferentes muestras (por ejemplo, comparar los resultados obtenidos por dos personas, compañías, países, por dos registros de un mismo valor….). Los diferentes resultados pueden apilarse, observándose fácilmente las diferencias entre las diversas muestras.
8. Pictograma
Se entiende por pictograma a un gráfico en el que, en vez de representar los datos a partir de elementos abstractos como barras o círculos, se emplean elementos propios del tema que se está investigando. De este modo se hace más visual. Sin embargo, su funcionamiento es semejante al del gráfico de barras, representando frecuencias de la misma manera
9. Cartograma
Este gráfico resulta de utilidad en el terreno de la epidemiología, indicando las zonas o áreas geográficas en las que aparece con mayor o menor frecuencia un determinado valor de una variable. Las frecuencias o rangos de frecuencias se indican mediante el uso del color (requiriéndose una leyenda para comprenderse) o el tamaño.
10. Gráfico de anillos
Un gráfico de anillos es esencialmente un gráfico de sectores con un área del centro cortada. Sin embargo, los gráficos de anillos tienen una ligera ventaja sobre los gráficos de sectores, que a veces son criticados por centrarse en los tamaños relativos de las piezas entre sí y a la carta en su conjunto, sin dar ninguna indicación de los cambios en comparación con otros gráficos circulares. Un gráfico de anillos aborda parcialmente este problema de énfasis, para que el espectador se centre más en los cambios de los valores globales, prestando atención a la lectura de la longitud de los arcos, en lugar de comparar las proporciones entre las rebanadas. También los gráficos de anillos pueden ocupar menos espacio, con la ventaja sobre los gráficos de sectores de prestarse a mostrar información también en su espacio interior en blanco.
11. Histograma
Es una gráfica de la distribución de un conjunto de datos. Es un tipo especial de gráfica de barras, en la cual una barra va pegada a la otra, es decir no hay espacio entre las barras. Cada barra representa un subconjunto de los datos. Muestra la acumulación o tendencia, la variabilidad o dispersión y la forma de la distribución.
12. Polígono de Frecuencia
Es un gráfico que se obtiene a partir de un histograma, uniendo los puntos medios de los techos, o bases superiores, de los rectángulos. Se acostumbra a prolongar el polígono hasta puntos de frecuencia cero. Un polígono de frecuencia permite ver con gran claridad las variaciones de la frecuencia de una clase a otra. Son muy útiles cuando se pretende comparar dos o más distribuciones, ya que, así como es difícil representar dos o más histogramas en un mismo gráfico, resulta muy sencillo hacerlo con dos o más polígonos de frecuencias. La suma de las áreas de los rectángulos de un histograma de amplitud constante, es igual al área limitada por el polígono de frecuencias y el eje X.
13. Ojiva
Es el polígono frecuencial acumulado, es decir, que permite ver cuántas observaciones se encuentran por encima o debajo de ciertos valores, en lugar de solo exhibir los números asignados a cada intervalo. La ojiva apropiada para información que presente frecuencias mayores que el dato que se está comparando tendrá una pendiente negativa (hacia abajo y a la derecha) y en cambio la que se asigna a valores menores, tendrá una pendiente positiva. Una gráfica similar al polígono de frecuencias es la ojiva, pero ésta se obtiene de aplicar parcialmente la misma técnica a una distribución acumulativa y de igual manera que éstas, existen las ojivas "mayor que" y las ojivas "menor que".
INTERPOLACIONES
La interpolación lineal es un procedimiento muy utilizado para estimar los valores que toma una función en un intervalo del cual conocemos sus valores en los extremos (x1, f(x1)) y (x2,f(x2)). Para estimar este valor utilizamos la aproximación a la función f(x) por medio de una recta r(x) (de ahí el nombre de interpolación lineal, ya que también existe la interpolación cuadrática). La expresión de la interpolación lineal se obtiene del polinomio interpolador de Newton de grado uno.
Recta de Interpolación Lineal
Veamos los pasos que tenemos que seguir para hallar la recta de regresión: • 1º. Dados los puntos de la función (x1, y1) y (x2, y2), queremos estimar el valor de la función en un punto x en el intervalo x1<x<x2.
• 2º. Para hallar la recta de interpolación nos fijaremos en la siguiente imagen:
Para ello utilizamos la semejanza de los triángulos ABD y CAE, obteniendo la siguiente proporcionalidad de segmentos: AB/AC=BD/CE.
• 3º. Despejando el segmento BD (ya que el punto D es el que desconocemos) obtenemos:
BD=(AB/AC)∙CE. Traduciendo al lenguaje algebraico obtenemos que:
Y despejando y, obtenemos:
La misma expresión que se obtiene al utilizar el polinomio interpolador de Newton que ya habíamos comentado. Recordad que y1=f(x1) y análogamente y2=f(x2).
Representación Tallo Hoja
Permite obtener simultáneamente una distribución de frecuencias de la variable y su representación gráfica. Para construirlo basta separar en cada dato el último dígito de la derecha (que constituye la hoja) del bloque de cifras restantes (que formará el tallo). El diagrama de tallo y hojas (Stem-and-Leaf Diagram) es un semigráfico que permite presentar la distribución de una variable cuantitativa. Consiste en separar cada dato en el último dígito (que se denomina hoja) y las cifras delanteras restantes (que forman el tallo).
Es especialmente útil para conjuntos de datos de tamaño medio (entre 20 y 50 elementos) y que sus datos no se agrupan alrededor de un único tallo. Con él podemos hacernos la idea de qué distribución tienen los datos, la asimetría, etc.
El nombre de tallo y hojas hace referencia a la ramificación de una planta, siendo los dígitos delanteros marcan el tallo donde se encuentra el número y el dígito final la hoja.
TABLAS DE FRECUENCIA
Es una tabla que muestra la distribución de los datos mediante sus frecuencias. Se utiliza para variables cuantitativas o cualitativas ordinales. Es una herramienta que permite ordenar los datos de manera que se presentan numéricamente las características de la distribución de un conjunto de datos o muestra.
Construcción de la Tabla de Frecuencias
1. En la primera columna se ordenan de menor a mayor los diferentes valores que tiene la variable en el conjunto de datos. 2. En las siguientes columnas (segunda y tercera) se ponen las frecuencias absolutas y las frecuencias absolutas acumuladas. 3. Las columnas cuarta y quinta contienen la las frecuencias relativas y las frecuencias relativas acumuladas. 4. Adicionalmente (opcional) se pueden incluir dos columnas (sexta y séptima), representando la frecuencia relativa y la frecuencia relativa acumulada como tanto por cien. Estos porcentajes se obtienen multiplicando las dos frecuencias por cien.
Elementos de las Tablas de Frecuencias
• Datos: Los datos son los valores de la muestra recogida en el estudio estadístico
• Frecuencia absoluta: La frecuencia absoluta (ni) es el número de veces que aparece un determinado valor en un estudio estadístico. Número de veces que se repite el í-esimo valor de la variable. La suma de las frecuencias absolutas es igual al número total de datos, que se representa por n
• Frecuencia absoluta acumulada: La Frecuencia absoluta acumulada (Ni) es la suma de las frecuencias absolutas de todos los valores inferiores o iguales al valor considerado. o N1 = n1 o N2 = n1 + n2 = N1 + n2 o N3 = n1 + n2 + n3 = N2 + n3 o Nk = n.
Se interpreta como el número de observaciones menores o iguales al í-esimo valor de la variable.
• Frecuencia relativa: La frecuencia relativa (fi) es la proporción de veces que se repite un determinado dato. La frecuencia relativa es el cociente entre la frecuencia absoluta de un determinado valor y el número total de datos. o fi = ni/n o La suma de las frecuencias relativas es igual a 1.
• Frecuencia relativa acumulada: La frecuencia relativa acumulada (Fi) es el número de observaciones menores o iguales al í-esimo valor de la variable pero en forma relativa. o F1 = fl o F2 = f1+ f2 = F1 + f2 o F3 = f1+ f2 + f3 = F2 + f3 o Fk = 1
Tabla de frecuencia de datos no agrupados
Los datos no agrupados son las de observaciones realizadas en un estudio estadístico que se presentan en su forma original tal y como fueron recolectados, para obtener información directamente de ellos. La Tabla de frecuencia de datos no agrupados indica las frecuencias con que aparecen los datos estadísticos sin que se haya hecho ninguna modificación al tamaño de las unidades originales. En estas distribuciones cada dato mantiene su propia identidad después que la distribución de
frecuencia se ha elaborado. En estas distribuciones los valores de cada variable han sido solamente reagrupados, siguiendo un orden lógico con sus respectivas frecuencias. La tabla de frecuencias de datos no agrupados se emplea si las variables toman un número pequeños de valores o la variable es discreta.
Tabla de frecuencia de datos agrupados
La Tabla de frecuencia de datos agrupados aquella distribución en la que los datos estadísticos se encuentran ordenados en clases y con la frecuencia de cada clase; es decir, los datos originales de varios valores adyacentes del conjunto se combinan para formar un intervalo de clase. La tabla de frecuencias agrupadas se emplea generalmente si las variables toman un número grande de valores o la variable es continua.
En este caso se agrupan los valores en intervalos que tengan la misma amplitud denominados clases. A cada clase se le asigna su frecuencia correspondiente. Las clases deben ser excluyentes y exhaustivas, es decir que cada elemento de la muestra debe pertenecer a una sola clase y a su vez, todo elemento debe pertenecer a alguna clase. Cada clase está delimitada por el límite inferior de la clase y el límite superior de la clase. Los intervalos se forman teniendo presente que el límite inferior de una clase pertenece al intervalo, pero el límite superior no pertenece intervalo, se cuenta en el siguiente intervalo. No existe una regla fija de cuantos son los intervalos que se deben hacer; hay diferentes criterios, la literatura especializada recomienda considerar entre 5 y 20 intervalos. El número de intervalos se representa por la letra "K". El Recorrido es el límite dentro del cual están comprendidos todos los valores de la serie de datos,. Es la diferencia entre el valor máximo de una variable y el valor mínimo que ésta toma en una investigación cualquiera. R = Xmax. - Xmin.
La Amplitud de la clase es la diferencia entre el límite superior e inferior de la clase y se representarán por "Ci" Ci = R/K Se considerará la misma amplitud para todos los intervalos.
La Marcas de clases (Xi) representa a la variable a través de un valor. Se calcula como el punto medio de cada clase, o bien la semi suma de la clase La tabla de frecuencias puede representarse gráficamente en un histograma. Normalmente en el eje vertical se coloca las frecuencias y en el horizontal los intervalos de valores.
MEDIDAS DE TENDENCIA CENTRAL Promedio o Media
La media de tendencia central, más conocida y utilizada en la media aritmética o promedio aritmético. Se presenta por la letra griega µ cuando se trata del promedio del universo o población y por Ȳ cuando se trata del promedio de la muestra.
Series Simples
En primer término, es necesario definir lo que se entiende por una serie estadística y posteriormente se hará lo mismo para las series estadísticas simples y agrupadas. Series estadísticas de observaciones cuantitativas. Cuando ya se ha efectuado el proceso de recolección de la información cuantitativa, esta debe ser organizada para poder manejarla eficientemente y efectuar su óptimo análisis. La manera en que ha de organizarse la información, depende en gran parte del volumen de información recabada.
Cuando ya se ha efectuado el proceso de recolección de la información cuantitativa, esta debe ser organizada para poder manejarla eficientemente y efectuar su óptimo análisis. La manera en que ha de organizarse la información, depende en gran parte del volumen de información recabada. Esto es, la información se organiza mediante series estadísticas, que según el número de datos pueden clasificarse en simples o agrupadas. En primer término, es necesario definir lo que se entiende por una serie estadística y posteriormente se hará lo mismo para las series estadísticas simples y agrupadas. Se catalogan así a las series en las que, a cada dato del hecho estudiado, se le asigna de manera unívoca el valor extraído de la observación. En otras palabras, debido a que se cuenta con pocos elementos, será posible indicar qué valor de la característica de interés pertenece a determinado sujeto; o bien, cuando se cuente con pocos datos, estos pueden ser manejados con facilidad en forma de listado.
Datos agrupados y sus medidas estadísticas
Cuando los valores de la variable son muchos, conviene agrupar los datos en intervalos o clases para así realizar un mejor análisis e interpretación de ellos. • Para construir una tabla de frecuencias con datos agrupados, conociendo los intervalos, se debe determinar la frecuencia absoluta (fi) correspondiente a cada intervalo, contando la cantidad de datos cuyo valor está entre los extremos del intervalo. Luego se calculan las frecuencias relativas y acumuladas, si es pertinente.
• Si no se conocen los intervalos, se pueden determinar de la siguiente manera: (recuerda que los intervalos de clase se emplean si las variables toman un número grande de valores o la variable es continua). - Se busca el valor máximo de la variable y el valor mínimo. Con estos datos se determina el rango. - Se divide el rango en la cantidad de intervalos que se desea tener, (por lo general se determinan 5 intervalos de lo contrario es ideal que sea un numero impar por ejemplo 5, 7, 9) obteniéndose así la amplitud o tamaño de cada intervalo. - Comenzando por el mínimo valor de la variable, que será el extremo inferior del primer intervalo, se suma a este valor la amplitud para obtener el extremo superior y así sucesivamente.
• Otra forma de calcular la cantidad de intervalos es aplicando los siguientes métodos: Método Sturges: k = 1 + 3,332 log n donde: k= número de clases n= tamaño muestral
Debemos tener en cuenta 2 cosas. Primero que el número de intervalos me tiene que dar impar, segundo que el resultado se redondea generalmente a la baja. Si al redondear a la baja nos da como resultado un número par debemos redondear al alza. Este es el método que tiene mayor precisión.
MEDIDAS ESTADÍSTICAS Y SUS DATOS AGRUPADOS 1. Media Aritmética Por Datos Agrupados
Se calcula sumando todos los productos de marca clase con la frecuencia absoluta respectiva y su resultado dividirlo por el número total de datos:
2. Moda
Es el valor que representa la mayor frecuencia absoluta. En tablas de frecuencias con datos agrupados, hablaremos de intervalo modal. La moda se representa por Mo. Todos los intervalos tienen la misma amplitud.
3. Mediana
Es el valor que ocupa el lugar central de todos los datos cuando éstos están ordenados de menor a mayor. La mediana se representa por Me. La mediana se puede hallar sólo para variables cuantitativas.
Cálculo de la mediana para datos agrupados
La mediana se encuentra en el intervalo donde la frecuencia acumulada llega hasta la mitad de la suma de las frecuencias absolutas. Es decir, tenemos que buscar el intervalo en el que se encuentre: N/2. Luego calculamos según la siguiente fórmula:
FORMULAS ESTADÍSTICAS PARA DATOS AGRUPADOS
• Media La media se calcula usando la siguiente fórmula:
Ejemplo 1 Determina la media de la siguiente distribución:
En la tabla, agregamos una columna donde colocaremos todos los valores de x.f :
Calculamos los valores de x.f :
Finalmente, calculamos el valor de la media, dividiendo la suma de valores de la columna x.f entre n.
El valor de la media sería 9,810.
• Mediana Para estimar la mediana, hay que seguir 2 pasos: Encontrar el intervalo en el que se encuentra la mediana usando la fórmula:
Usar la fórmula de la mediana:
Donde: Li: límite inferior del intervalo en el cual se encuentra la mediana. n: número de datos del estudio. Es la sumatoria de las frecuencias absolutas. Fi-1: frecuencia acumulada del intervalo anterior al que se encuentra la mediana. Ai: amplitud del intervalo en el que se encuentra la mediana. fi: frecuencia absoluta del intervalo en el que se encuentra la mediana.
Ejemplo 2 Encontrar la mediana de la siguiente distribución:
Este valor, lo buscamos en la columna de frecuencias acumuladas. Si no aparece, buscamos el valor que sigue. Como vemos, después del 11 sigue el 14, por lo tanto, la mediana se ubica en el intervalo 3.
Ahora, aplicamos la fórmula de la mediana:
El valor de la mediana, sería: Me = 9,667.
• Moda Para estimar la moda, se siguen los siguientes pasos: Encontrar el intervalo en el cual se encuentra la moda, que es el intervalo con mayor frecuencia absoluta. Usar la siguiente fórmula para estimar el valor de la moda:
Donde: Li: límite inferior del intervalo en el cual se encuentra la moda. fi-1: frecuencia absoluta del intervalo anterior en el que se encuentra la moda. fi: frecuencia absoluta del intervalo en el que se encuentra la moda. fi+1: frecuencia absoluta del intervalo siguiente en el que se encuentra la moda. Ai: amplitud del intervalo en el que se encuentra la moda.
Ejemplo 3 Encontrar la moda de la siguiente distribución:
Primero, encontramos el intervalo en el cual se encuentra la moda, es decir, el intervalo con mayor frecuencia absoluta. El intervalo 3, tiene la mayor frecuencia absoluta (6), por lo tanto, aquí se encontrará la moda.
Ahora, aplicamos la fórmula para estimar la moda:
Por lo tanto, el valor de la moda sería: Mo = 9,333.
MEDIDAS DE DISPERSIÓN PARA SERIES SIMPLES
Medidas de dispersión. Parámetros estadísticos que indican como se alejan los datos respecto de la media aritmética. Sirven como indicador de la variabilidad de los datos. Las medidas de dispersión más utilizadas son el rango, la desviación estándar y la varianza
Rango: Indica la dispersión entre los valores extremos de una variable. se calcula como la diferencia entre el mayor y el menor valor de la variable. Se denota como R.
Desviación Media: Es la media aritmética de los valores absolutos de las diferencias de cada dato respecto a la media.
Desviación Estándar: La desviación estándar mide el grado de dispersión de los datos con respecto a la media, se denota como s para una muestra o como σ para la población.
Varianza: Es otro parámetro utilizado para medir la dispersión de los valores de una variable respecto a la media. Corresponde a la media aritmética de los cuadrados de las desviaciones respecto a la media. Su expresión matemática es:
Coeficiente de Variación: Permite determinar la razón existente entre la desviación estándar (s) y la media. Se denota como CV. El coeficiente de variación permite decidir con mayor claridad sobre la dispersión de los datos.
LOS DATOS AGRUPADOS Y SUS MEDIDAS ESTADÍSTICAS
Cuando los valores de la variable son muchos, conviene agrupar los datos en intervalos o clases para así realizar un mejor análisis e interpretación de ellos. •Para construir una tabla de frecuencias con datos agrupados, conociendo los intervalos, se debe determinar la frecuencia absoluta (fi) correspondiente a cada intervalo, contando la cantidad de datos cuyo valor está entre los extremos del intervalo. Luego se calculan las frecuencias relativas y acumuladas, si es pertinente. • Si no se conocen los intervalos, se pueden determinar de la siguiente manera: (recuerda que los intervalos de clase se emplean si las variables toman un número grande de valores o la variable es continua).
Se busca el valor máximo de la variable y el valor mínimo. Con estos datos se determina el rango.
Se divide el rango en la cantidad de intervalos que se desea tener,(por lo general se determinan 5 intervalos de lo contrario es ideal que sea un numero impar por ejemplo 5, 7, 9) obteniéndose así la amplitud o tamaño de cada intervalo.
Comenzando por el mínimo valor de la variable, que será el extremo inferior del primer intervalo, se suma a este valor la amplitud para obtener el extremo superior y así sucesivamente.
• Otra forma de calcular la cantidad de intervalos es aplicando los siguientes métodos:
Método Sturges: k = 1 + 3,332 log n
donde: k= número de clases n= tamaño muestral
Debemos tener en cuenta 2 cosas. Primero que el número de intervalos me tiene que dar impar, segundo que el resultado se redondea generalmente a la baja. Si al redondear a la baja nos da como resultado un número par debemos redondear al alza. Este es el método que tiene mayor precisión.
Método Empírico: este método depende del criterio del evaluador de los datos, por lo tanto es arbitrario. Dice lo siguiente.
5 ≥ k ≥ 20
ASIMETRÍA
La simetría de una distribución de frecuencias hace referencia al grado en que valores de la variable, equidistantes a un valor que se considere centro de la distribución, poseen frecuencias similares.
Es un concepto más intuitivo a nivel visual, especialmente, si se observa una representación gráfica (diagrama de barras, histograma…) de la distribución de frecuencias. Ésta será simétrica si la mitad izquierda de la distribución es la imagen especular de la mitad derecha.
Media y mediana coinciden en las distribuciones simétricas. Si sólo hay una moda (distribución unimodal), el valor de ésta también será igual a las dos anteriores.
En distribuciones unimodales, el nivel de simetría se suele describir de acuerdo a tres grandes categorías: distribuciones simétricas, distribuciones asimétricas positivas (o sesgada a la derecha) y distribuciones asimétricas negativas (o sesgada a la izquierda). Tomando como eje de referencia a la moda, estas categorías de asimetría vienen definidas por el diferente grado de dispersión de los datos a ambos lados (colas) de ese eje virtual. La cola más dispersa en el lado de los valores altos de la variable caracteriza a la asimetría positiva; si en el lado de los más bajos, a la asimetría negativa; y si la dispersión es igual o muy similar a ambos lados, a una distribución de frecuencias simétrica.
En caso de asimetría, los valores de la media, mediana y moda difieren. En concreto si la asimetría es positiva: media>mediana>moda. Si la asimetría es negativa: media<mediana<moda.
A continuación, se presentan diferentes índices estadísticos que permiten cuantificar el nivel de asimetría de una variable. Destacar antes que para variables nominales no tiene sentido el plantear este tipo de índices, dado que no existe un orden intrínseco a los valores de la variable.
• Índice de asimetría para variables ordinales: Se basa en las distancias entre los cuartiles a fin de establecer un resumen de la asimetría de la distribución.
NOTA: oscila entre -1 y 1 lo cual facilita la comprensión.
• Índice de asimetría para variables cuantitativas: Primer coeficiente de Pearson: se basa en la relación existente entre la media y la moda en distribuciones unimodales asimétricas.
Interpretación del coeficiente de Pearson: los valores menores que 0 indican asimetría negativa; los mayores, asimetría positiva y cuando sea cero, o muy próximo a cero, simétrica. No está limitado a un rango de valores.
• Coeficiente de asimetría de Fisher: Se basa en las desviaciones de los valores observados respecto a la media. La interpretación de los resultados proporcionados por este coeficiente es igual a la del primer coeficiente de Pearson.
Y para el caso de datos tabulados:
Acorde al tipo de variable que nos ocupa, El histograma representa la mejor opción en la visualización de la asimetría de una variable, por otro lado, el diagrama de caja y bigotes (boxplot) también constituye una opción válida para tal fin. A continuación, se presenta un ejemplo con ambos tipos de gráficos superpuestos, en que se muestran 3 variables que ilustran distribuciones con diferente nivel de asimetría:
CURTOSIS
El apuntamiento o curtosis de una distribución de frecuencias no tiene un referente natural como en el caso de la simetría, sino que se sustenta en la comparación respecto a una distribución de referencia, en concreto, la distribución normal o campana de Gauss. En consecuencia, su obtención sólo tendrá sentido en variables cuya distribución de frecuencias sea similar a la de la curva normal –en la práctica ello se reduce, básicamente, a que sea unimodal y más o menos simétrica.
El apuntamiento expresa el grado en que una distribución acumula casos en sus colas en comparación con los casos acumulados en las colas de una distribución normal cuya dispersión sea equivalente. Así, de forma análoga a la asimetría, se diferencian 3 grandes categorías de apuntamiento: 1. Distribución platicúrtica (apuntamiento negativo): indica que en sus colas hay más casos acumulados que en las colas de una distribución normal. 2. Distribución leptocúrtica (apuntamiento positivo): justo lo contrario. 3. Distribución mesocúrtica (apuntamiento normal): como en la distribución normal.
Coeficiente de apuntamiento de Fisher para variables cuantitativas: se basa en las desviaciones de los valores observados respecto a la media.
Y para el caso de datos tabulados:
Interpretación: el valor de este coeficiente para la distribución normal será igual a 0, o sea que cualquier distribución para la que se obtenga un valor de K igual o próximo a 0 significará que su nivel de apuntamiento es como el de la distribución normal (mesocúrtica). Valores mayores que 0, expresan que la distribución es leptocúrtica, mientras que si son menores que 0 ponen de manifiesto que la distribución es platicúrtica. No está limitado a un rango de valores.
Curva de Lorenz
Es una forma gráfica de mostrar la distribución de la renta en una población. En ella se relacionan los porcentajes de población (abscisas) con porcentajes de la renta (ordenadas) que esta población recibe. En la curva de Lorenz en el eje de abscisas, por tanto, se representa la población «ordenada» de forma que los percentiles de renta más baja quedan a la izquierda y los de renta más alta quedan a la derecha. El eje de ordenadas representa las rentas.
Índice de Gini
Mide el grado de la distribución de la renta (o del consumo) entre los individuos de un país con respecto a una distribución con perfecta igualdad. El índice de Gini mide la concentración de la renta. Su valor puede estar entre cero y uno. Cuanto más próximo a uno sea el índice Gini, mayor será la concentración de la riqueza; cuanto más próximo a cero, más equitativa es la distribución de la renta en ese país. El valor 0 representa la igualdad perfecta y el 1, la desigualdad total. Son dos indicadores relacionados entre sí que miden el grado de distribución de la renta en un país.
Teorema de Chebyschev
La desigualdad de Chebyshev es un teorema utilizado en estadística que proporciona una estimación conservadora (intervalo de confianza) de la probabilidad de que una variable aleatoria con varianza finita, se sitúe a una cierta distancia de su esperanza matemática o de su media. Su expresión formal es la siguiente:
X = Valor estimado µ = Esperanza matemática del valor estimado Ϭ = Desviación típica del valor esperado k = Número de desviaciones típicas
Partiendo de esta expresión general y desarrollando la parte que queda dentro del valor absoluto tendríamos lo siguiente:
Si prestamos atención a la expresión anterior, se aprecia que la parte de la izquierda no es más es un intervalo de confianza. Este nos ofrece tanto una cota inferior, como una superior para el valor estimado. Por lo tanto, la desigualdad de Chebyshev nos dice la probabilidad mínima, de que el
parámetro poblacional se encuentre dentro de una determinada cantidad de desviaciones típicas por encima o por debajo de su media. O dicho de otra manera, nos da la probabilidad de que de que el parámetro poblacional se encuentre dentro de ese intervalo de confianza. La desigualdad de Chebyshev proporciona cotas aproximadas para el valor estimado. A pesar de tener cierto grado de imprecisión, es un teorema bastante útil dado que se puede aplicar a un amplio abanico de variables aleatorias independientemente de sus distribuciones. La única restricción para poder utilizar esta desigualdad es que k tiene que ser mayor que 1 (k>1).
Formula del Teorema de Chebyshev
Para poder investigar este teorema, primero es necesario comparar los cálculos con la regla general 68-95-99.7 para distribuciones normales. Dado que esos números representan los datos que se encuentran dentro de los límites, se utiliza la desigualdad de Chebysgev para los datos dentro de los límites. Esta fórmula es la siguiente:
Probabilidad = 1 – (1 / k 2)
Donde, matemáticamente, los valores menores o iguales a 1 no son válidos para este cálculo. Sin embargo, conectar los valores de k para 2 y 3 es más simple de lo que parece. En esos casos de 2 y 3, el Teorema de Chebyshev establece que al menos el 75% de los datos caerán dentro de las 2 desviaciones estándar de la media y se espera que el 89% de los datos caigan dentro de las 3 desviaciones estándar de la media.
Esto es menos preciso que los 95% y 99.7% que se pueden usar para una distribución normal conocida; sin embargo, el Teorema de Chebyshev es cierta para todas las distribuciones de los datos, no solo para una distribución normal.
Transformación de Variables
Una transformación pudiera ser necesaria cuando los residuos exhiban varianza no constante o no normalidad. Las transformaciones también pudieran ser útiles cuando el modelo exhibe una falta de ajuste significativa, lo cual es particularmente importante en los experimentos de análisis de superficie de respuesta. Supongamos que usted incluye todas las interacciones significativas y los términos cuadráticos en el modelo, pero la prueba de falta de ajuste indica la necesidad de términos de orden más alto. Una transformación puede eliminar la falta de ajuste.
Si la transformación corrige el problema, usted puede utilizar el análisis de regresión en lugar de otros análisis, posiblemente más complicados. Un texto apropiado sobre regresión o análisis de experimentos diseñados puede ofrecer una orientación adecuada con respecto a cuáles transformaciones resuelven diferentes problemas.
La transformación de Box-Cox es la transformación de estabilización de la varianza utilizada con más frecuencia.
Datos transformados
Esta gráfica muestra los residuos después de la transformación de estabilización de la varianza. La escala de valores ajustados (eje X) cambia y la varianza se hace constante.
Gráficos de cajas
Es un método estandarizado para representar gráficamente una serie de datos numéricos a través de sus cuartiles. De esta manera, el diagrama de caja muestra a simple vista la mediana y los cuartiles de los datos, pudiendo también representar los valores atípicos de estos.
Componentes del diagrama de caja
El diagrama de caja es compuesto de los siguientes elementos: • Rango (sin datos atípicos) • Datos atípicos. • Rango intercuartil (también conocido como RIC) • Cuartiles (denotados como Q1, Q2 y Q3) • Mediana (Q2) • Mínimo y máximo.
Elaboración manual del diagrama de caja
Para la elaboración de manera manual de este tipo de gráfico, primero obtenemos la media de cada intervalo, y luego la mediana de la tabla de frecuencias en general. Con estos datos utilizamos la fórmula de la media de cada intervalo elevado a la mediana. Los datos obtenidos en esta fórmula son la interpretación.
Ordenar los datos y obtener el valor mínimo, el máximo, los cuartiles Q1, Q2 y Q3 y el rango intercuartílico (RIC): En el ejemplo, para trazar la caja: Valor 7: es el Q1 (25% de los datos) Valor 8.5: es el Q2 o mediana (el 50% de los datos) Valor 9: es el Q3 (75% de los datos) Rango intercuartílico (Q3–Q1)
Los «bigotes», las líneas que se extienden desde la caja, se extienden hasta los valores máximo y mínimo de la serie o hasta 1,5 veces el RIC. Cuando los datos se extienden más allá de esto, significa que hay valores atípicos en la serie y entonces hay que calcular los límites superior e inferior, Li y Ls.
Para ello, se consideran atípicos los valores inferiores a Q1–1.5·RIC o superiores a Q3+1.5·RIC. En el ejemplo: inferior: 7–1.5·2 = 4 superior: 9+1.5·2 = 12 Ahora se buscan los últimos valores que no son atípicos, que serán los extremos de los bigotes.
En el ejemplo: 4 y 12 Marcar como atípicos todos los datos que están fuera del intervalo (Li, Ls).
En el ejemplo: 0,5 y 2,5 Además, se pueden considerar valores extremadamente atípicos aquellos que exceden Q1–3·RIC o Q3+3·RIC.
De modo que, en el ejemplo: inferior: 7–3·2 = 1 superior: 9+3·2 = 15
Utilidad
Proporcionan una visión general de la simetría de la distribución de los datos; si la mediana no está en el centro del rectángulo, la distribución no es simétrica. Son útiles para ver la presencia de valores atípicos también llamados outliers. Pertenece a las herramientas de las estadísticas descriptivas. Permite ver como es la dispersión de los puntos con la mediana, los percentiles 25 y 75 y los valores máximos y mínimos. Ponen en una sola dimensión los datos de un histograma, facilitando así el análisis de la información al detectar que el 50% de la población está en los límites de la caja.
CÁLCULO DE PROBABILIDADES
• La probabilidad mide la mayor o menor posibilidad de que se dé un determinado resultado (suceso o evento) cuando se realiza un experimento aleatorio. • Para calcular la probabilidad de un evento se toma en cuenta todos los casos posibles de ocurrencia del mismo; es decir, de cuántas formas puede ocurrir determinada situación. • Los casos favorables de ocurrencia de un evento serán los que cumplan con la condición que estamos buscando.
• La probabilidad toma valores entre 0 y 1 (o expresados en tanto por ciento, entre 0% y 100%): • El valor cero corresponde al suceso imposible; ejemplo: lanzamos un dado al aire y la probabilidad de que salga el número 7 es cero. • El valor uno corresponde al suceso seguro, ejemplo: lanzamos un dado al aire y la probabilidad de que salga cualquier número del 1 al 6 es igual a uno (100%). • El resto de sucesos tendrá probabilidades entre cero y uno: que será tanto mayor cuanto más probable sea que dicho suceso tenga lugar.
Eventos Compuestos
Evento que incluye dos o más eventos independientes. Un ejemplo es el evento de obtener el mismo lado (la misma cara) al lanzar dos veces una moneda. El resultado del primer lanzamiento no afecta al segundo resultado. Es necesario considerar ambos resultados para determinar el resultado final. En el mundo de las probabilidades, los eventos compuestos son probabilidades de dos o más cosas que pasan al mismo tiempo. Por ejemplo ¿cuál es la probabilidad de que se te olvide hacer la tarea y de que haya un examen sorpresa en la clase?