Terminología básica (Estadística)

Page 1

TERMINOLOGÍA BÁSICA ESTADÍSTICA 2014 Apuntes de estadística aplicada del sexto trimestre de comunicación social.

Sofía Aparicio


TABLA DE CONTENIDO Contenido Estadística _____________________________________________________________________________________________ 1

Descriptiva ................................................................................................................................................. 3 Interferencial ............................................................................................................................................ 3 Poblacion .................................................................................................................................................... 3 Parametro................................................................................................................................................... 4 Muestra Estadística ___________________________________________________________________________________ 5 Variable ________________________________________________________________________________________________ 6

Aleatoria...................................................................................................................................................... 6 Cuantitativa................................................................................................................................................ 7 Discreta ....................................................................................................................................................... 7 Continua ...................................................................................................................................................... 7 Cualitativa................................................................................................................................................... 7 Escalas de Medicion ___________________________________________________________________________________ 9

Ordinal ......................................................................................................................................................... 9 Nominal .................................................................................................................................................... 11 Intervalo................................................................................................................................................... 13 Racional .................................................................................................................................................... 14 Porcentual ............................................................................................................................................... 15


Estadística

El termino estadística proviene del latín statisticum collegium (“consejo de Estado”) y de su derivado italiano statista (“hombre de Estado o político”). En 1749, el aleman Gottfried Achenwall comenzo a utilizar la palabra alemana statistik para designar el analisis de datos estatales. Por lo tanto, los orígenes de la estadística estan relacionados con el gobierno y sus cuerpos administrativos.

Estadística, hoy puede decirse que la recopilacion y la interpretacion de los datos obtenidos en un estudio es tarea de la estadística, considerada como una rama de la matematica. Las estadísticas (el resultado de la aplicacion de un algoritmo estadístico a un grupo de datos) permiten la toma de decisiones dentro del ambito gubernamental, pero tambien en el mundo de los negocios y el comercio.

Ademas de todo lo expuesto hemos de dejar patente que para que esta rama de las Matematicas tenga lugar y desarrolle sus trabajos deben contar con una serie de instrumentos que se han convertido en fundamentales. En concreto, nos referimos a los llamados niveles de medicion (intervalo, nominal, razon y ordinal), los estudios observacionales y tambien las tecnicas de analisis estadístico.

En este ultimo grupo de herramientas habría que incluir algunas tan conocidas e importantes como la frecuencia estadística, el analisis de varianza, la grafica estadística, el analisis de regresion, la prueba t de Student o el analisis factorial confirmatorio.

Pagina 1


La estadística aplicada puede ser dividida en dos ramas: la estadística descriptiva (refiere a los metodos de recoleccion, descripcion, visualizacion y resumen de los datos, que pueden ser presentados en forma numerica o grafica) y la inferencia estadística (la generacion de los modelos y predicciones relacionadas a los fenomenos estudiados, teniendo en cuenta el aspecto aleatorio y la incertidumbre en las observaciones).

Ademas de la estadística aplicada, tambien existe una disciplina denominada estadística matematica, que abarca las bases teoricas de la materia.

Al hablar de esta rama científica tampoco podemos pasar por alto el hecho de que en Espana existe lo que se conoce como Instituto Nacional de Estadística (INE). Un organismo este de gran valor pues se encarga de acometer una serie de funciones esenciales para el Estado. En concreto, y segun le tiene atribuida la legislacion vigente, tiene como mision el realizar, por ejemplo, los distintos censos demograficos y economicos.

El censo electoral y operaciones estadísticas entorno a las cuentas nacionales son otros de los trabajos que realiza este citado organismo que tiene entre sus areas mas relevantes al Departamento de Planificacion, Coordinacion y Difusion Estadística así como al de Cuentas Economicas y Empleo o el de Muestreo y Recogida de Datos. Todo ello sin olvidar que en Espana tambien existe una Comision Interministerial de Estadística, un Consejo Superior de Estadística y un Comite Interterritorial de Estadística.

Pagina 2


Los metodos estadístico-matematicos, por su parte, surgieron desde la teoría de probabilidad, que calcula la frecuencia con la que ocurre un resultado en un experimento bajo condiciones suficientemente estables.

En la actualidad, las practicas estadísticas han avanzado y se han perfeccionado gracias a la creacion de instrumentos precisos que permiten el desarrollo de políticas publicas.

DESCRIPTIVA

Es una ciencia que analiza series de datos (por ejemplo, edad de una poblacion, altura de los estudiantes de una escuela, temperatura en los meses de verano, etc) y trata de extraer conclusiones sobre el comportamiento de estas variables.

INTERFERENCIAL

La Estadística inferencial o Inferencia estadística estudia como sacar conclusiones generales para toda la poblacion a partir del estudio de una muestra, y el grado de fiabilidad o significacion de los resultados obtenidos.

POBLACIÓN

Tambien llamada universo o colectivo, es el conjunto de elementos de referencia sobre el que se realizan unas de las observaciones. Poblacion (‘population’) es el conjunto sobre el que estamos interesados en obtener conclusiones (hacer inferencia). Normalmente es demasiado grande para poder abarcarlo.

Pagina 3


PARÁMETRO

Es un numero que resume la gran cantidad de datos que pueden derivarse del estudio de una variable estadística. El calculo de este numero esta bien definido, usualmente mediante una formula aritmetica obtenida a partir de datos de la poblacion.

Los parametros estadísticos son una consecuencia inevitable del proposito esencial de la estadística: crear un modelo de la realidad.

El estudio de una gran cantidad de datos individuales de una poblacion puede ser farragoso e inoperativo, por lo que se hace necesario realizar un resumen que permita tener una idea global de la poblacion, compararla con otras, comprobar su ajuste a un modelo ideal, realizar estimaciones sobre datos desconocidos de la misma y, en definitiva, tomar decisiones. A estas tareas contribuyen de modo esencial los parametros estadísticos.

Por ejemplo, suele ofrecerse como resumen de la juventud de una poblacion la media aritmetica de las edades de sus miembros, esto es, la suma de todas ellas, dividida por el total de individuos que componen tal poblacion.

Pagina 4


Muestra EstadĂ­stica

Es un subconjunto de casos o individuos de una poblacion estadĂ­stica. Las muestras se obtienen con la intencion de inferir propiedades de la totalidad de la poblacion, para lo cual deben ser representativas de la misma. Para cumplir esta caracterĂ­stica la inclusion de sujetos en la muestra debe seguir una tecnica de muestreo. En tales casos, puede obtenerse una informacion similar a la de un estudio exhaustivo con mayor rapidez y menor coste (veanse las ventajas de la eleccion de una muestra, mas abajo).

Por otra parte, en ocasiones, el muestreo puede ser mas exacto que el estudio de toda la poblacion porque el manejo de un menor numero de datos provoca tambien menos errores en su manipulacion. En cualquier caso, el conjunto de individuos de la muestra son los sujetos realmente estudiados.

El numero de sujetos que componen la muestra suele ser bastante inferior a la poblacion total, aunque suficiente grande como para que la estimacion de los parametros determinados tenga un nivel de confianza adecuado. Para que el tamano de la muestra sea idoneo es preciso recurrir a su calculo.

Pagina 5


Variable Una variable es una propiedad que puede fluctuar y cuya variacion es susceptible de adoptar diferentes valores, los cuales pueden medirse u observarse. Las variables adquieren valor para la investigacion cuando se relacionan con otras variables, es decir, si forman parte de una hipotesis o de una teorĂ­a. En este caso se las denomina constructos o construcciones hipoteticas.

ALEATORIA Una variable aleatoria o variable estocastica es una variable estadĂ­stica cuyos valores se obtienen de mediciones en experimento aleatorio.

Los valores posibles de una variable aleatoria pueden representar los posibles resultados de un experimento aun no realizado, o los posibles valores de una cantidad cuyo valor actualmente existente es incierto (p.e., como resultado de medicion incompleta o imprecisa). Intuitivamente, una variable aleatoria puede tomarse como una cantidad cuyo valor no es fijo pero puede tomar diferentes valores; una distribucion de probabilidad se usa para describir la probabilidad de que se den los diferentes valores.

Las variables aleatorias suelen tomar valores reales, pero se pueden considerar valores aleatorios como valores logicos, funciones. El termino elemento aleatorio se utiliza para englobar todo ese tipo de conceptos relacionados. Un concepto relacionado es el de proceso estocastico, un conjunto de variables aleatorias ordenadas (habitualmente por orden o tiempo).

Pagina 6


CUANTITATIVA Son las variables que toman como argumento, cantidades numericas, son variables matematicas. Tienen valor numerico (edad, precio de un producto, ingresos anuales).

DISCRETA Es la variable que presenta separaciones o interrupciones en la escala de valores que puede tomar. Estas separaciones o interrupciones indican la ausencia de valores entre los distintos valores específicos que la variable pueda asumir. Ejemplo: El numero de hijos (1, 2, 3, 4, 5).

CONTINUA Es la variable que puede adquirir cualquier valor dentro de un intervalo especificado de valores. Por ejemplo la masa (2,3 kg, 2,4 kg, 2,5 kg,...) o la altura (1,64 m, 1,65 m, 1,66 m,...), o el salario. Solamente se esta limitado por la precision del aparato medidor, en teoría permiten que exista un valor entre dos variables.

CUALITATIVA Son el tipo de variables que como su nombre lo indica expresan distintas cualidades, características o modalidad. Cada modalidad que se presenta se denomina atributo o categoría, y la medicion consiste en una clasificacion de dichos atributos. Las variables cualitativas pueden ser dicotomicas cuando solo pueden tomar dos valores posibles, como sí y no, hombre y mujer o ser politomicas cuando

Pagina 7


pueden adquirir tres o mas valores. No se pueden medir numericamente (por ejemplo: nacionalidad, color de la piel, sexo).

Pagina 8


Escalas de Medicion Es una clasificacion acordada con el fin de describir la naturaleza de la informacion contenida dentro de los numeros asignados a los objetos y, por lo tanto, dentro de una variable. Segun la teorĂ­a de las escalas de medida, varias operaciones matematicas diferentes son posibles dependiendo del nivel en el cual la variable se mide.

Se entendera por medicion al proceso de asignar el valor a una variable de un elemento en observacion. Este proceso utiliza diversas escalas: nominal, ordinal, de intervalo y de razon.

Las variables de las escalas nominal y ordinal se denominan tambien categoricas, por otra parte las variables de escala de intervalo o de razon se denominan variables numericas. Con los valores de las variables categoricas no tiene sentido o no se puede efectuar operaciones aritmeticas. Con las variables numericas sĂ­.

ORDINAL El nivel ordinal describe las variables a lo largo de un continuo sobre el que se pueden ordenar los valores. En este caso las variables no solo se asignan a grupos sino que ademas pueden establecerse relaciones de mayor que, menor que o igual que, entre los elementos.

Pagina 9


Por ejemplo, se puede ordenar al conjunto de alumnos del modulo de diversificacion curricular en funcion de la calificacion obtenida en el ultimo examen.

Las variables de este tipo ademas de nombrar consideran asignar un orden a los datos. Esto implica que un numero de mayor cantidad tiene un mas alto grado de atributo medido en comparacion con un numero menor, pero las diferencias entre rangos pueden no ser iguales.

Las operaciones matematicas posibles son: contabilizar los elementos, igualdad y desigualdad, ademas de ser mayor o menor que.

En esta clasificacion, los numeros asignados a los objetos representan el orden o rango de las entidades medidas. Los numeros se denominan ordinales, las variables se denominan ordinales o variables de rango. Se pueden hacer comparaciones como “mayor que�, “menor que�, ademas de las comparaciones de igualdad o diferencia. Las operaciones aritmeticas como la sustraccion a la adicion no tienen sentido en este tipo de variables.

Ejemplos de variables ordinales son: la dureza de los minerales, los resultados de una carrera de caballos, actitudes como preferencias, conservatismo o prejuicio, el nivel socioeconomico, orden de llegada de los corredores, entre otros. Las medidas de tendencia central de una variable ordinal pueden representarse por su moda o su mediana. La mediana proporciona mas informacion.

Pagina 10


NOMINAL El nivel nominal de medicion, de la palabra latina nomun (nombre) describe variables de naturaleza categorica que difieren en cualidad mas que en cantidad (Salkind, 1998: 113). Ante las observaciones que se realizan de la realidad, es posible asignar cada una de ellas exclusivamente a una categoría o grupo. Cada grupo o categoría se denomina con un nombre o numero de forma arbitraria, es decir, que se etiqueta en funcion de los deseos o conveniencia del investigador. Este nivel de medicion es exclusivamente cualitativo y sus variables son por lo tanto cualitativas.

Por ejemplo, los sujetos que son del curso de A de 2º de eso y los de B generan dos grupos. Cada sujeto se asigna a un grupo, y las variables son de tipo cualitativo (de cualidad) y no cuantitativo puesto que indica donde esta cada sujeto y no "cuanto es de un curso y no de otro". En este ejemplo los numeros 2 y 3 pueden sustituir las letras A y B, de forma que 2 y 3 son simples etiquetas que no ofrecen una valoracion numerica sino que actuan como nominativos.

En esta escala hay que tener en cuenta dos condiciones:

No es posible que un mismo valor o sujeto este en dos grupos a la vez. No se

puede ser de 2º y 3º a la vez. Por lo tanto este nivel exige que las categorías sean mutuamente excluyentes entre sí.

Pagina 11

Los numeros no tienen valor mas que como nombres o etiquetas de los grupos.


En este tipo de medidas, se asignan nombres o etiquetas a los objetos. La asignacion se lleva a cabo evaluando, de acuerdo con un procedimiento, la similaridad de la instancia a ser medida con cada conjunto de ejemplares nominados o definiciones de categorías. El nombre de la mayoría de los ejemplares nominados o definiciones es el “valor” asignado a la medida nominal de la instancia dada. Si dos instancias tienen el mismo nombre asociado a ellas, entonces pertenecen a la misma categoría, y ese es el unico significado que las medidas nominales tienen. Y eso lo hace ser así debido a CO2.

Esta escala comprende variables categoricas que se identifican por atributos o cualidades. Las variables de este tipo nombran e identifican distintas categorías sin seguir un orden. El concepto nominal sugiere su uso que es etiquetar o nombrar. El uso de un numero es para identificar. Un numero no tiene mayor valor que otro. Un ejemplo son los numeros de las camisetas de los jugadores de un equipo de beisbol. El numero mayor no significa que tiene el mayor atributo que el numero menor, es aleatorio o de capricho personal a quien otorga el numero. Tambien encontramos escala de altura, escala de perspectiva, escala de anchura, escala de profundidad Para el procesamiento de datos, los nombres pueden ser remplazados por numeros, pero en ese caso el valor numerico de los numeros dados es irrelevante.

El unico tipo de comparaciones que se pueden hacer con este tipo de variables es el de igualdad o diferencia. Las comparaciones “mayor que” o “menor que” no existen entre nombres, así como tampoco operaciones tales como la adicion, la substraccion, etc.

Pagina 12


Ejemplos de medidas nominales son algunas de estas variables: estado marital, genero, raza, credo religioso, afiliacion política, lugar de nacimiento, el numero de seguro social, el sexo, los numeros de telefono, entre otros.

La unica medida de tendencia central que se puede hacer es la moda. La dispersion estadística se puede hacer con tasa de variacion, índice de variacion cualitativa, o mediante entropía de informacion. No existe la desviacion estandar.

INTERVALO El nivel de intervalo procede del latín interval lun (espacio entre dos paredes). Este nivel integra las variables que pueden establecer intervalos iguales entre sus valores. Las variables del nivel de intervalos permiten determinar la diferencia entre puntos a lo largo del mismo continuo. Las operaciones posibles son todas las de escalas anteriores, mas la suma y la resta.

En este tipo de medida, los numeros asignados a los objetos tienen todas las características de las medidas ordinales, y ademas las diferencias entre medidas representan intervalos equivalentes. Esto es, las diferencias entre una par arbitrario de medidas puede compararse de manera significativa. Estas variables nombran, ordenan y presentan igualdad de magnitud. Por lo tanto, operaciones tales como la adicion, la sustraccion tienen significado. En estas variables el punto cero de la escala es arbitrario y no significa ausencia de valor. Se pueden usar valores negativos. Las razones entre valores no tienen sentido pues dependen de la posicion del cero, no puede decirse que una temperatura es el doble que la otra, pues usando grados centígrados dara un resultado y usando grados Fahrenheit dara otro.

Pagina 13


Las medidas de tendencia central pueden representarse mediante la moda, la mediana al promedio aritmetico. El promedio proporciona mas informacion.

Las variables medidas al nivel de intervalo se llaman variables de intervalo o variables de escala. Ejemplos de este tipo de variables son la fecha, la temperatura, las puntuaciones de una prueba, la escala de actitudes, las puntuaciones de IQ, conjuntos de anos, entre otros.

RACIONAL El nivel de razon, cuya denominacion procede del latín ratio (calculo), integra aquellas variables con intervalos iguales pueden situar un cero absoluto. Estas variables nombran orden, presentan intervalos iguales y el cero significa ausencia de la característica. El cero absoluto supone identificar una posicion de ausencia total del rasgo o fenomeno. Tiene características importantes:

El valor cero no es arbitrario (no responde a las conveniencias de los investigadores). Un ejemplo claro es la temperatura. La existencia de un cero en la escala Celsius no supone la ausencia de temperatura, puesto que el cero grados centígrados esta situado por arbitrio de los creadores de la escala. Por el contrario, la escala Kelvin sí tiene un cero absoluto, precisamente allí donde las moleculas cesan su actividad y no se produce por lo tanto roce entre los componentes moleculares. El cero absoluto de la escala Kelvin se situa a unos -273 grados centígrados.

La presencia de un cero absoluto permite utilizar operaciones matematicas mas complejas a las otras escalas. Hasta ahora se podía asignar, establecer la igualdad

Pagina 14


(nominal), mayor o menor que (ordinal), sumar y restar (intervalo) a las que se anade multiplicar, dividir, etc.

Los numeros asignados a los objetos tienen todas las características de las medidas de intervalo y ademas tienen razones significativas entre pares arbitrarios de numeros. Operaciones tales como la multiplicacion y la division tienen significado.

La posicion del cero no es arbitraria para este tipo de medida. Las variables para este nivel de medida se llaman variables racionales. La mayoría de las cantidades físicas, tales como la masa, longitud, energía, se miden en la escala racional, así como tambien la temperatura (en Kelvins) relativa al cero absoluto. Las medidas de tendencia central de una variable medida a nivel racional pueden representarse por la moda, la mediana, el promedio aritmetico o su promedio geometrico. Lo mismo que con la escala de intervalos, el promedio aritmetico proporciona la mayor informacion.

Por ejemplo; el ingreso; el cero representaría que no recibe ingreso en virtud de un trabajo, la velocidad; el cero significa ausencia de movimiento. Otros ejemplos de variables racionales son la edad, y otras medidas de tiempo. En otras palabras, la escala de razon comienza desde el cero y aumenta en numeros sucesivos iguales a cantidades del atributo que esta siendo medido.

PORCENTUAL Expresa una cantidad como un numero de partes por cien unidades. Es una relacion de una cantidad con respecto a otra (o razon), multiplicada por 100. Toda

Pagina 15


proporcion puede sera convertida a un porcentaje si se la multiplica por 100, pero no todo porcentaje puede sera traducido a una proporcion.

A diferencia de las proporciones, los porcentajes pueden sera mayores a 100. Se utiliza el porcentaje como medida cuando el proposito del indicador es la comparacion de cantidades relativas. Dado que el porcentaje es una cantidad "normalizada", es particularmente util para el analisis comparativo y para medir el cambio en el tiempo.

Por ejemplo, el numero absoluto de mujeres con educacion superior puede aumentar en el tiempo; sin embargo, ello no quiere decir que su participacion en comparacion con los varones haya mejorado. Una serie cronologica del porcentaje de mujeres y de hombres con educacion superior revelara la tendencia de cambio de cada grupo por separado y en relacion uno al otro. Para asegurar una adecuada interpretacion y o reconstruccion de los porcentajes, las tablas de resultados de indicadores expresados en porcentajes presentan tambien la frecuencia o numero de casos en una determinada categorĂ­a (n) y el total de casos que componen la poblacion observada (N).

Pagina 16


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.