Taller estadistic by Brenda Lizeth Mateus / Carlos Ospina Yépez / Yenny Castaño

Page 1

TALLER CONCEPTOS BÁSICOS DE ESTADÍSTICA EJERCICIO DE APLICACIÓN DE HERRMIENTAS PARA EL ANALISIS DE VARIABLES CUANTITATIVAS

BRENDA LIZETH MATEUS JENNY MARCELA GOMEZ CASTAÑO CARLOS HUMBERTO OSPINA YEPES

PRESENTADO A: FERNANDO MARTINEZ

INSTITUTO DE ESTUDIOS AMBIENTALES IDEA UNIVERSIDAD NACIONAL DE COLOMBIA BOGOTÁ DC 2017

Página 1 de 8


EJERCICIO DE A PLICAC IÓN DE H ERRAMIENTAS PARA EL ANÁLISIS DE VARIABLES CUANTITATIVAS Se realizó un estudio para valorar el servicio recreativo que presta un parque público cuyo principal atractivo son las actividades recreativas acuáticas. El estudio fue realizado mediante entrevistas realizadas a los visitantes del parque durante la temporada vacacional de fin de año. Se seleccionó una muestra aleatoria de 409 visitantes, en un rango de edad entre 18 y 70 años. Con este ejercicio de valoración se pretende estimar el efecto que tiene una mejora en la calidad del agua y los servicios de diversión acuática sobre las visitas al parque. Las variables que incluye la encuesta son:        

Viajes: representa el número de viajes realizados al parque durante la temporada vacacional. CV1: representa el costo del viaje expresado en pesos, en el que incurre el individuo por visitar el parque. CS1: representa el costo expresado en pesos, en el que incurre el individuo por visitar el parque sustituto más cercano. Agua: variable que toma el valor de uno (1) si el objetivo principal del viaje es disfrutar de las diversiones e infraestructura acuática del parque y cero (0) en los demás casos. Edad: representa la edad del entrevistado. Salario: representa el ingreso mensual promedio del entrevistado. Grupo: representa el tamaño del grupo familiar. Atributo: variable que toma el valor de uno (1) si el encuestado aumentaría el número de visitas al año si se mejorara la calidad del agua, cero (0) en otro caso.

Con base en la información anterior y los datos contenidos en la carpeta de respuestas, desarrolle los siguientes puntos: 1. unificar la base de datos. Tenga en cuenta que los nombres de las columnas son: VIAJES SALARIO

CV1

CS1

AGUA

GRUPO

EDAD ATRIBUTO

Página 2 de 8


VIAJES

SALARIO

CV1

CS1

AGUA

GRUPO

EDAD

ATRIBUTO

4 6 2 6 7 2 1 4 5 6 3 5 6 8 14 6 2 2 5

130150 911050 650750 911050 650750 911050 911050 650750 1431650 650750 1171350 1431650 650750 390450 911050 911050 130150 130150 1431650

5270 4767 4185 6207 6575 5029 5952 3628 6322 5271 6795 3295 2864 6845 4943 5864 5835 5567 7040

1587 1707 1330 1870 769 1260 1196 1642 859 616 372 1487 1293 2450 354 1992 682 707 505

1 0 0 0 1 1 1 1 1 1 1 0 0 0 0 1 1 1 0

20 5 3 3 6 5 5 6 6 5 3 4 4 3 4 7 11 8 7

25 38 42 40 39 30 37 26 30 33 35 32 36 34 31 40 40 40 31

1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1

2. Indique que tipo de variable se encuentran en la base de datos (cualitativas categรณricas, cualitativas dicotรณmicas, cuantitativas continuas, cuantitativas discretas). R/ De acuerdo a las condiciones expuestas en el enunciado del ejercicio, solo existen variables cuantitativas continua y variables cuantitativas discretas. Las variables encontradas en la base de datos son: VARIABLES CUANTITIATIVAS CONTINUAS SALARIO CV1 CS1

VARIABLE CUANTITATIVAS DISCRETAS EDAD NUMERO DE VIAJES ATRIBUTO

Pรกgina 3 de 8


3. Calcule el promedio, mediana, moda, varianza, desviación estándar, rango, valor mínimo y valor máximo para las variables cuantitativas

Media Error típico Mediana Moda Desviación estándar Varianza de la muestra Curtosis Coeficiente de asimetría Rango Mínimo Máximo Suma Cuenta

VIAJES 4,77 0,13 5 5

SALARIO 921232,89 19550,76 911050,00 1431650,00

2,57

395389,57

CV1 5200,45 80,70 5274,36 2864,26

CS1 AGUA GRUPO EDAD ATRIBUTO 1285,21608 0,73594132 5,61613692 37,0464548 0,70171149 30,5668081 0,02182437 0,12890279 0,43328675 0,02264996 1287,94569 1 5 37 1 1292,73868 1 4 40 1

1632,12 618,175438 0,44137059 2,60689766 8,76268232 0,45806713

6,62 156332909559,30 2663828,72 382140,872 0,99

-1,17

0,911

-0,071

13 1 14 1952 409

1301500 130150 1431650 376784250 409

0,194808 6,79591543 76,7846014 0,20982549 1,33 1,66617521 0,84987905 5,41045932 1,87685211 1,22271628

0,25 12172,84 745,98 12918,82 2126982,41 409,00

0,84810783 1,07438394 3930,44277 1 209,772732 0 4140,2155 1 525653,375 301 409 409

1,7190851 0,58427155 0,88503492 19 70 1 1 3 0 20 73 1 2297 15152 287 409 409 409

4. Depure la base de datos empleando la puntuación z para la variable edad. En caso de eliminar registros indique cuantos registros fueron eliminados y justifique el por qué. R/ Después de realizar el ejercicio en el archivo Excel, se encontraron 6 datos con un ZPUNTUACION mayores a 3, lo cual indica que las distancia de las observaciones correspondientes a cada uno de los 6 datos encontrados se encuentran a más de 3 desviaciones estándar y la media, lo que define que los datos son atípicos porque es muy poco probable su ocurrencia, o por los registros se introdujeron de manera errónea en la base de datos o porque el elemento de la muestra no corresponde a la población objetivo

Página 4 de 8


A continuación se presenta la tabla que incluye los valores atípicos encontrados en el desarrollo del ejercicio. VIAJES

SALARIO

CV1

CS1

AGUA GRUPO

4 4 5 4 4 6

$ 1.431.650,00 $ 650.750,00 $ 1.431.650,00 $ 650.750,00 $ 650.750,00 $ 390.450,00

$ 7.121,82 $ 6.767,03 $ 6.229,20 $ 3.704,83 $ 4.364,43 $ 5.244,03

$ 1.653,51 $ 1.360,21 $ 1.979,22 $ 1.376,20 $ 939,73 $ 3.137,73

1 1 0 1 1 0

5 7 4 3 5 6

EDAD 67 64 65 72 3 73

ATRIBUTO ZPUNTUACION 1 1 1 0 0 1

5. Muestre en un histograma la manera en que se distribuye la edad de los encuestados, tomando como rango de clase una década. ¿en qué rango se presenta la mayor cantidad de encuestados? ¿Cuántos encuestados pertenecen a esa clase? R/ De acuerdo con el histograma realizado, los resultados son los siguientes: La mayor cantidad de encuestados se encuentra en el rango de edad de 30 a 40 años, sobre este rango existen 198 personas, como se evidencia en el siguiente gráfico.

RANGO >20 20-30 30-40 40-50 50-60 60-70 70-80

Frecuencia 8 89 198 93 14 5 2

% acumulado 1,96% 23,72% 72,13% 94,87% 98,29% 99,51% 100,00%

Página 5 de 8

3,418307791 3,075946869 3,190067176 3,988909328 -3,885391886 4,103029636


Frecuencia

Histograma 250

120,00%

200

100,00% 80,00%

150

60,00%

100

40,00%

50

20,00%

0

Frecuencia % acumulado

0,00% >20 20-30 30-40 40-50 50-60 60-70 70-80 RANGO

6. Calcule el promedio de viajes que realizan los visitantes agrupando los datos por el salario, ¿Qué relación hay entre estas variables? R/ El promedio de viajes que realizan la población encuestada que corresponde a los visitantes al parque es de 4,7.Como se evidencia en la siguiente tabla dinámica, la relación es directamente entre el salario y número de viajes esto es, a mayor salario, mayor número de viajes, después de un salario de $1,171, 350, el número de visitas no continua con la misma relación de crecimiento, tiende a mantenerse en un promedio de 5 viajes por temporada vacacional, tal como se evidencia en la gráfica.

SALARIOS $ 130.150,00 $ 390.450,00 $ 650.750,00 $ 911.050,00 $ 1.171.350,00 $ 1.431.650,00 TOTAL

Promedio de VIAJES 2,538 4,508 4,733 4,722 5,209 5,080 4,465

Página 6 de 8


7. Grafique en un diagrama de dispersión el salario de los entrevistados (X) y número de viajes (Y) ¿hay alguna relación entre estas variables? R/ El diagrama de dispersión muestra una relación directamente entre las variables analizadas, es decir a mayor salario mayor número de viajes al parque por temporada vacacional, personas con el mismo salaria pueden tener diferentes frecuencias de viajes.

VIAJES 16 14

VIAJES

12 10 8 6

VIAJES

4 2 0 0

500000

1000000

1500000

2000000

SALARIO

8. Calcule el coeficiente de correlación múltiple (R) y el coeficiente de determinación (R2) para las variables salario de los entrevistados (X) y número de viajes (Y) ¿Qué podría concluir del resultado?

Página 7 de 8


Estadísticas de la regresión Coeficiente de correlación múltiple Coeficiente de determinación R^2

0,132125247 0,017457081

El análisis de regresión contradice la relación directa entre el nivel de ingreso y el número de viajes, puesto que el coeficiente de correlación múltiple evidencia una relación directa pero con un nivel de significancia muy bajo del 13,21%, a su vez, el coeficiente de determinación nos demuestra que la variación de los salarios explica la variación de los viajes en un 1,74% , en conclusión si bien existe un nivel de relación, las dos variables no se explican con un alto grado de significancia. 9. Establezca si hay diferencia en el número de viajes entre los entrevistados que van al parque para disfrutar de las diversiones e infraestructura acuática (tratamiento 1), y los que van con otros fines (tratamiento 2). Recuerde que para esto cada columna del archivo Excel debe tener los datos de un “tratamiento” . La relación establecida fue entre las variables agua y viajes Análisis de varianza de un factor RESUMEN Cuenta Suma 409 1952 409 301

Grupos VIAJES AGUA

Promedio 4,772616137 0,73594132

Varianza 6,617288 0,194808

ANÁLISIS DE VARIANZA Origen de las variaciones Entre grupos Dentro de los grupos

Suma de cuadrados 3332,275061

Grados de libertad 1

Promedio de los cuadrados 3332,275061

2779,334963

816

3,406047749

Total

6111,610024

817

F 978,3407

Probabilidad 0,000000%

El nivel de probabilidad es inferior al 5 % lo que quiere decir que las diferencias entre las dos variables son de gran significancia.

Página 8 de 8

Valor crítico para F 3,852879927


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.