Organización de datos
Trabajo colaborativo – Organización de datos Entrega final del proyecto
Autor
GILMA ANGELICA GALVIS ORTIZ OSCAR JOSE JARAMILLO DOMINGUEZ
POLITECNICO GRANCOLOBIANO
Organización de datos
Las tablas de frecuencias son agrupaciones de los datos de una determinada base, se realizan con el fin de resumir la información para poder ser analizada, ya que viendo la base de datos completa no es posibles obtener información concreta, específicamente si son bases de datos muy grandes. Los graficas que podemos obtener de cada una de las tablas de frecuencias, también nos presentan en forma resumida los datos para cada variable. En el siguiente trabajo se presentan tablas de frecuencias y gráficos para los diferentes tipos de variables de la Encuesta de Hogares realizada por el Departamento Administrativo Nacional de Estadística (DANE), con el fin de implementar los conceptos vistos
Método Selección de una hoja de la base de datos del archivo en Excel, determinando la población objeto de estudio y la muestra; para cada una de las variables presentadas se identifica la la clasificación de la variable y la escala de medida. Selección de una variable cuantitativa discreta, una cuantitativa continua y dos variables cualitativas y construcción de las tablas de frecuencias y los gráficos correspondientes con la ayuda de la hoja electrónica Excel. Se realizan las medidas de tendencia central, localización y dispersión para cada una de las variables y se analiza teniendo en cuenta el objetivo de la encuesta de hogares
Organización de datos
Resultados
1. Población objeto de estudio Hogares colombianos
2. Muestra Muestra formada por 633 hogares de estrato 2.
3. Clasificación de variables y escala
Variable Número de orden (NID) Número de personas en la familia (PE) Ingresos familiares anuales (ING) Gastos de alimentación anuales (AL) Gastos adicionales anuales (AD) Vivienda propia (V) Tiene automóvil (A) Tiene computador personal (O) Municipio (M)
Clasificación Cualitativa Cuantitativa Cuantitativa Continua Cuantitativa Continua Cuantitativa Continua Cualitativa Cualitativa Cualitativa Cualitativa
Escala Nominal Discreta Razón Razón Razón Nominal Nominal Nominal Nominal
Organización de datos
4. Variables seleccionadas 4.1. Variable cuantitativa discreta – Número de personas en la familia
Número de personas en la familia 1 2 3 4 5 6
Número de Proporción hogares de hogares 118 0,186 175 0,276 162 0,256 125 0,197 46 0,073 7 0,011 633
Número acumulado de hogares 118 293 455 580 626 633
Proporción acumulada de hogares 0,186 0,463 0,719 0,916 0,989 1
Número de hogares Frecuencias
200 150 100 50 0 1
2
3
4
Numero de personas por hogar
5
6
Organización de datos
Proporción de hogares 0,300 Proporcion
0,250 0,200 0,150 0,100 0,050 0,000 1
2
3
4
5
6
Numero de personas por hogar
El gráfico Número de hogares relaciona el número de personas por familia y la frecuencia con la que se presentan en la base de datos y el grafico proporción de hogares relaciona el número de personas por familia y la proporción de hogares que tienen determinado número de personas. En estos gráficos podemos observar que en los hogares de estrato 2 hay 2 o 3 personas en su mayoría, no muy lejos de los hogares que tienen 1 y 4 personas. También podemos notar que generalmente en este estrato no hay muchos hogares que se integren de 5 o 6 personas.
Proporción acumulada de hogares 1,200 Proporcion
1,000 0,800 0,600 0,400 0,200 0,000 1
2
3
4
5
Numero de personas por hogar
6
Organización de datos
La proporción acumulada de hogares nos indica que hasta 4 personas por familia hay un acumulado de aproximadamente el 90% de los hogares, es decir el 90% de los hogares de estrato 2 se componen de hasta 4 integrantes.
4.2. Variable cuantitativa continua – Gastos de alimentación anuales
gastos de alimentación anuales Li Ls 6367 6799,7 6799,7 7232,4 7232,4 7665,1 7665,1 8097,8 8097,8 8530,5 8530,5 8963,2 8963,2 9395,9 9395,9 9828,6 9828,6 10261,3 10261,3 10694
número gastos de medios hogares Xi nj 6583,35 8 7016,05 39 7448,75 72 7881,45 130 8314,15 148 8746,85 127 9179,55 65 9612,25 30 10044,95 8 10477,65 6 633
numero acumulad proporción proporción o de acumulada de hogares hogares de hogares hj Nj Hj 0,0126 8 0,0126 0,0616 47 0,0742 0,1137 119 0,1880 0,2054 249 0,3934 0,2338 397 0,6272 0,2006 524 0,8278 0,1027 589 0,9305 0,0474 619 0,9779 0,0126 627 0,9905 0,0095 633 1,0000
Numero de hogares
Frecuencia de hogares 160 140 120 100 80 60 40 20 0
gastos medios
Organización de datos
En este grafico podemos ver que no hay un intervalo en el cual se agrupen en su mayoría los gastos de alimentación anuales. Podemos notar que se distribuyen en varios intervalos las diferentes familias, el grafico tiene la forma de una distribución normal y vemos que los gastos medios varían entre 7448,75 y 9179,55 para los hogares de estrato 2.
Numero de hogares
Poligono de frecuencias 160 140 120 100 80 60 40 20 0
Gostos medios
En el polígono de frecuencias se unen los puntos medios de los intervalos, y podemos notar, como en el grafico anterior, que esta variable tiende a distribuirse normal acumulando la mayoría de hogares entre los 3 intervalos que se encuentran entre 7665,1 y 8963,2 de gastos de alimentación anuales.
Organizaci贸n de datos
numero de hogares
Frecuencias acumuladas 700 600 500 400 300 200 100 0
Gastos medios
Con las frecuencias acumuladas y el de ojiva podemos observar que en aproximadamente el 90% de los hogares de estrato 2 gastan hasta 9179,55 en alimentaci贸n anualmente, son muy pocos los hogares de estrato 2 que gastan m谩s de este dinero en alimentaci贸n anual.
Ojiva Numero de hogares
700 600 500 400 300 200 100 0
Gastos medios
Organización de datos
4.3. Variables cualitativas: 4.3.1. Tiene automóvil
Tiene automóvil Si (1) No (0) Total
Número hogares
% de hogares 246 38,863% 387 61,137% 633 100%
Tiene automóvil 500 400 300 200 100 0 Si (1)
No (0)
En el histograma vemos que la mayoría de las familias en la muestra de estrato 2 no tienen carro.
% de hogares que tienen automóvil Si (1) 39% No (0) 61%
Organización de datos
En el grafico pastel podemos corroborar lo que nos dice el histograma de que la mayoría de las familias de estrato 2 en la muestra no tienen carro, acá además podemos ver que esa mayoría es un 61% 4.3.2. Vivienda propia
Vivienda propia Si (1) No (0) Total
Número hogares
% de hogares 404 63,823% 229 36,177% 633 100%
Vivienda propia 500 400 300 200 100 0 Si (1)
No (0)
La mayoría de familias en el estrato 2 de la muestra tienen vivienda propia, en el diagrama pastel podemos ver que el porcentaje de hogares en esta muestra que tienen vivienda propia es de 64%
% de hogares que tienen vivienda propia No (0) 36%
Si (1) 64%
Organización de datos
MEDIDAS DE TENDENCIA, LOCALIZACIÓN Y DISPERSIÓN PARA VARIABLES CUANTITATIVAS. Forma de calcular las medidas de tendencia central, localización y dispersión para algunas variables: 1. Para la variable numero de personas en la familia
Media ̅
(
)
(
)
(
)
(
)
(
)
(
)
Mediana
Al observar en la tabla de frecuencias, las frecuencias acumuladas para 1 son 118, para 2 son 293 y para 3 son 455. Es decir que nuestra mediana es 3
Moda Al observar la tabla de frecuencias, 2 tiene la mayor frecuencia (175), por lo tanto la moda es 2.
2. Para la variable gastos alimentarios anuales
Media Es calculada como la marca de clase * la frecuencia en cada clase y dividido por el total de datos: ̅
∑
Organización de datos [(
) )
(
(
(
) )
(
(
)
(
)
(
)
(
(
)
)] ̅
)
8304.58
Mediana Observamos que la frecuencia acumulada
se encuentra en
el intervalo 5 y así calculamos:
Moda Observamos el intervalo que tiene más frecuencias, en este caso (
(
)
)
(
(
)
)
Las variables ingresos anuales y gastos adicionales anuales tienen el mismo procedimiento que esta variable debido a que son datos cuantitativos continuos.
Organización de datos
Resumen medidas de tendencia central, localización y dispersión para algunas variables:
PE
ING
AL
AD
Media
2,727
40927,74
8304,58
4100,18
Moda
2
41849,82
8297,51
4114,63
Q1
2
39752,97
7795,74
3663,86
Q2
3
40900,31
8295,15
4102,08
Q3
4
42599,83
8795,4
4540,56
Desviación
1,2383
5727,98
736,06
634,32
CV
45,41%
13,99%
8,86%
15,47%
En la tabla anterior se resumen las medidas de tendencia central de la muestra seleccionada, es decir de los hogares de estrato 2. Primero vamos a observar que tan homogéneos son los datos para cada una de las variables seleccionadas, esto lo podemos mirar mediante el coeficiente de variación, en la lectura de estos resultados podemos notar que para el numero de personas los datos son relativamente homogéneos, se puede corroborar si observamos que la media es aproximadamente 3, así como la mediana, pero la moda es 2; para el resto de las variables podemos hablar de datos homogéneos ya que tienen un coeficiente de variación inferior a 25%. El ingreso promedio de una familia de estrato 2 es de 40927,74 anuales de los cuales se gasta aproximadamente 8304.58 anuales en alimentación y cerca de 4100.18 anuales en gastos adicionales y podemos notar que los gastos son mayores en alimentación que en lo que se consideran gastos adicionales. Se observa que el 25% de las familias de estratos 2 obtienen como máximo un ingreso de 39752,97 además que el 75% de la población obtiene como máximo un ingreso de 42599,83 y que el máximo y mínimo ingreso que obtienen estas familias es de 43970 y 38007 respectivamente. Acerca del gasto en alimentación se ve que la media es de 8304.58 y que el 25% y 75% del ingreso de las familias de estrato 2 tienen un valor máximo de 7795,74 y 8795,4 respectivamente además
Organización de datos
Lista de referencias
Moore, D. (2004) Estadística aplicada básica. Mozart Art, S.L.
Hopkins, K. Hopkins, B.R. Glass, G. (1997). Estadística básica para las ciencias sociales y del comportamiento. Tercera edición. Prentice Hall.