Estadistica

Page 1

1. Explique qué es la población en estadística R: Es toda aquella constitución de individuos o elementos que tienen características comunes. 2. Caracterice el muestreo R: Una de las características, para que sea objeto de estudio, es que debe ser valida, es decir, representativa de la población. Ha de tener las mismas características en los caracteres estudiados. 3. Sintetice los tipos de muestreo R: Probabilístico: 4. Determine la ventaja de trabajar con muestras R: en el muestreo, si el tamaño de la muestra es mas pequeño que el de la población, se pueden extraer dos o mas muestras de la misma población. El muestreo es una herramienta de investigación científica. 5. Explique en qué consiste el muestreo estadístico R: Es aquel, en el que todo individuo tiene la misma probabilidad de ser elegido para formar parte de una muestra y todas las probables muestras tienen la posibilidad de ser elegidas. 6. Sintetice el muestreo aleatorio simple R: Es aquel en el que cada elemento de la población tiene la misma probabilidad de ser seleccionado, para integrar la muestra, ejemplo: ambos sexos F/M 7. Explique cómo se usa la tabla de números aleatorios. Mencione tres ejemplos R: Es un conjunto de cifras entre 0 y 9 cuyo orden no obedece ninguna regla de formación, ellas se pueden leer individualmente o en grupos y en cualquier orden,


en columnas hacia abajo, columnas hacia arriba, en fila, diagonalmente, si se desea formar números aleatorios en un determinado rango, basta con calcular la proporción, otra forma de usarlo es sumando dos números tomados de alguna posición o multiplicarlos. Para ser presentadas estas cifras se agrupan en números de 4 dígitos, formando bloques de 5 filas y 10 columnas facilitando de esta forma su lectura que puede iniciarse desde cualquier parte de la tabla. Una tabla de números aleatorios es útil para seleccionar al azar los individuos de una población conocida que deben formar parte de una muestra. 8. Caracterice la medida de tendencia central. Mencione tres ejemplos R: Ejemplo: se encuentran en la parte central de un conjunto de datos. A) Media aritmética, se obtiene al dividir la suma de todos los valores de una variable por la frecuencia total, ejemplo: siguientes notas en matemáticas 4, 7, 7, 2, 5, 3, N= 6 numero total de datos:

9. Elabore un cuadro comparativo entre las distintas medidas de tendencia central Medidas de tendencia central Herramientas

Características

Media (aritmética)

Medida que se obtiene al dividir la suma de todos los valores de una frecuencia total.

Mediana

Moda

Valor central de un conjunto de valores ordenados en la forma creciente o descendente.

Medida que indica cual dato tiene la mayor frecuencia en un conjunto de datos.

Formulas

En caso de que la relación de los números sea impar se utilizara la suma de los dos valores intermedios entre dos.


10. Explique las fórmulas para obtener el valor medio. R: Media

Media, es la sumatoria de los datos entre el numero total de datos 11. Proporcione 3 ejemplos del uso del símbolo ∑Xi R: Expresa la sumatoria de los datos, que queremos saber, la media de las edades. Ejemplo:

Esto quiere decir lo siguiente: el uso de la sumatoria en la media del conjunto de números dividido entre el numero total. 12. Explique qué son las medidas de dispersión R: Son las auxiliares que nos ayudaran a comprender que tan diferentes son los datos de la muestra. Las medidas de dispersión son las variaciones que existen en la muestra, tales como: el rango, desviación estándar. 13. Explique las fórmulas para calcular la desviación estándar. R:


14. Explique el contenido del Teorema de Chebyshev R: 1.- Nos dice que al menos

de las observaciones, caen dentro de 2

desviaciones estándar de la media de tres desviaciones estándar de la media

2.- al menos

caen dentro

.

Para un conjunto cualquiera de observaciones (muestra o población), la proporción mínima de los valores que se encuentran dentro de k desviaciones estándares desde la media es al menos 1 - 1/k2, donde k es una constante mayor que 1.

15. Sintetice el contenido de la Regla empírica R: Para una distribución de frecuencias simétrica de campana, aproximadamente 68% de las observaciones estará a más y menos una desviación estándar desde la media, aproximadamente 95% de tales observaciones se encontrará a más y menos dos desviaciones estándares de la misma; y prácticamente todas las observaciones (99,7%) se hallarán a más y menos tres desviaciones con respecto a la media. 16. Laboratorio: Grafique en barras y dispersión, usando EXCEL, el conjunto de datos siguiente: C calificaciones de un examen, F frecuencia de cada valor. C 0 1 2 3 4 5 6 7 8 9 10 F 1 0 1 0 1 1 3 10 3 2 3 Haga los gráficos e incluya la información necesaria en cada uno para que la presentación de cada uno de ellos sea entendible por otras personas


El eje x representa las calificaciones de los alumnos, mientras que los resultados en el eje y son los resultados obtenidos por los alumnos. 17. Las calificaciones de un examen de estadĂ­stica fueron: 6, 3, 7, 8, 7, 9, 3, 4, 7, 5, 5, 6, 8, 8, 9, 8, 9, 9, 6, 7, 6. 1 Obtenga la media

2 Obtenga la moda 3 3 4 5 5 6 6 6 6

7 7 7 7 8 8 8 8 9 9 9 9

3 Obtenga la mediana = a 7


18. Explique las formas en que puede obtenerse la probabilidad de un evento R: Dentro de las formas encontramos lo siguiente: regla de adición; establece que la probabilidad de ocurrencia de cualquier evento en particular es igual a la suma de las probabilidades individuales, si es que los eventos son mutuamente excluyentes, es decir, que dos no pueden ocurrir al mismo tiempo. P(A o B) = P(A) U P (B) = P(A) + P (B) si A y B son mutuamente excluyente. P(A o B) = P(A) + P (B) − P(A y B) si A y B son no excluyentes. Siendo: P(A) = probabilidad de ocurrencia del evento A. P (B) = probabilidad de ocurrencia del evento B. P(A y B) = probabilidad de ocurrencia simultanea de los eventos A y B. La regla de la multiplicación: establece que la probabilidad de ocurrencia de dos o más eventos estadísticamente independientes es igual al producto de sus probabilidades individuales. P(A y B) = P(A B) = P(A) P (B) si A y B son independientes P(A y B) = P(A B) = P(A) P (B|A) si A y B son dependientes P(A y B) = P(A B) = P (B) P (A|B) si A y B son dependientes. La distribución nominal: probabilidad de ocurrencia de una combinación específica de eventos independientes y mutuamente excluyentes se determina con la distribución binomio, que es aquella donde hay solo dos posibilidades, tales como masculino/femenino o si/no. 1. − Hay dos resultados posibles mutuamente excluyentes en cada ensayo u observación. 2. − La serie de ensayos u observaciones constituyen eventos independientes. 3. − La probabilidad de éxito permanece constante de ensayo a ensayo, es decir el proceso es estacionario. Para aplicar esta distribución al cálculo de la probabilidad de obtener un número dado de éxitos en una serie de experimentos en un proceso de Bermnoulli, se requieren tres valores: el número designado de éxitos (m), el número de ensayos y observaciones (n); y la probabilidad de éxito en cada ensayo (p). Entonces la probabilidad de que ocurran m éxitos en un experimento de n ensayos es: P (x = m) = nCm Pm (1−P) n−m Siendo nCm el numero total de combinaciones posibles de m elementos en un con junto de n elementos. En otras palabras P(x = m) = m!/ {m!(n−m)!}pm(1−p)n−m.


19. Sintetice el espacio muestral. R: dentro de las teorías de probabilidades, el espacio muestral o espacio de muestreo es denotado “E, S, Ω o U” y consiste en el conjunto de todos los posibles resultados individuales de un experimento aleatorio, por ejemplo: si el experimento consiste en lanzar dos monedas, el espacio de muestreo es el conjunto {(cara, cara), (cara, cruz), (cruz, cara) y (cruz, cruz)}. Un evento o suceso es cualquier subconjunto del espacio muestral, llamándose a los sucesos que contengan un único elemento sucesos elementales. En el ejemplo, el suceso "sacar cara en el primer lanzamiento", o {(cara, cara), (cara, cruz)}, estaría formado por los sucesos elementales {(cara, cara)} y {(cara, cruz)}. 20. Explique el contenido de la Ley de los grandes números R: la ley de los grandes números engloba diversos teoremas que describen el comportamiento del promedio de una sucesión de variables aleatorias conforme aumenta su número de ensayos. Estos teoremas prescriben condiciones suficientes para garantizar que dicho promedio converge (en los sentidos explicados abajo) al promedio de las esperanzas de las variables aleatorias involucradas. Las distintas formulaciones de la ley de los grandes números (y sus condiciones asociadas) especifican la convergencia de formas distintas. Las leyes de los grandes números explican por qué el promedio de una muestra al azar de una población de gran tamaño tenderá a estar cerca de la media de la población completa. Cuando las variables aleatorias tienen una varianza finita, el teorema central del límite extiende nuestro entendimiento de la convergencia de su promedio describiendo la distribución de diferencias estandarizadas entre la suma de variables aleatorias y el valor esperado de esta suma: sin importar la distribución subyacente de las variables aleatorias, esta diferencia estandarizada converge a una variable aleatoria normal estándar.


Ley débil: La ley débil de los grandes números establece que si X1, X2, X3,... es una sucesión infinita de variables aleatorias independientes que tienen el mismo valor esperado μ y varianza σ2, entonces el promedio

Converge en probabilidad a μ. En otras palabras, para cualquier número positivo ε se tiene

La ley fuerte de los grandes números establece que si X1, X2, X3,... es una sucesión infinita de variables aleatorias independientes e idénticamente distribuidas que cumplen E (|Xi|) < ∞ y tienen el valor esperado μ, entonces

Es decir, el promedio de las variables aleatorias converge a μ casi seguramente (en un conjunto de probabilidad 1). Esta ley justifica la interpretación intuitiva de que el valor esperado de una variable aleatoria como el "promedio a largo plazo al hacer un muestreo repetitivo". 21. Caracterice la distribución de probabilidad R: La distribución de probabilidad de una variable aleatoria es una función que asigna a cada suceso definida sobre la variable aleatoria la probabilidad de que dicho suceso ocurra. La distribución de probabilidad está definida sobre el conjunto de todos los eventos rango de valores de la variable aleatoria. Cuando la variable aleatoria toma valores en el conjunto de los números reales, la distribución de probabilidad está completamente especificada por la función de distribución, cuyo valor en cada real x es la probabilidad de que la variable aleatoria sea menor o igual que x. dad una variable aleatoria todos son puntos , su función de distribución,

es

Por simplicidad, cuando no hay lugar a confusión, suele omitirse el subíndice se escribe, simplemente,

y


22. Caracterice la distribución normal R: O también llamada distribución de Gauss es una de las distribuciones de probabilidad de una variable continua que con más frecuencia aparece en fenómenos reales. La grafica de su función de densidad tiene una forma acampanada y es simétrica respecto de un determinado parámetro. Esta curva se conoce como campana de Gauss. La importancia de esta distribución radica en que permite modelar numerosos fenómenos naturales, sociales y psicológicos. Mientras que los mecanismos que subyacen a gran parte de este tipo de fenómenos son desconocidos, por la enorme cantidad de variables incontrolables que en ellos intervienen, el uso del modelo normal puede justificarse asumiendo que cada observación se obtiene como la suma de unas pocas causas independientes. Se dice que una variable aleatoria continua X sigue una distribución normal de parámetros μ y σ y se denota X~N(μ, σ) si su función de densidad está dada por:

donde μ ( mu) es la media y σ (sigma) es la desviación típica (σ2 es la varianza). 23. Sintetice la distribución normal estándar R: Se llama distribución normal "estándar" a aquélla en la que sus parámetros toman los valores μ = 0 y σ = 1. En este caso la función de densidad tiene la siguiente expresión:

Su gráfica se muestra a la derecha y con frecuencia se usan tablas para el cálculo de los valores de su distribución


24. Sintetice el contenido del teorema central del límite. R: El teorema central del límite indica que en condiciones muy generales, si Sn es la suma de n variables aleatorias independientes, entonces la función de distribución de Sn se aproxima bien a una distribución normal. Así pues, el teorema asegura que esto ocurre cuando la suma de estas variables aleatorias e independientes es lo suficientemente grande. Teorema del límite central: Sea X1, X2,..., Xn un conjunto de variables aleatorias, independientes e idénticamente distribuidas con media μ y varianza σ2 distinta de cero. Sea Entonces

25. Explique en qué consiste la estimación de la media R: El intervalo de confianza, para la media de una población, con un nivel de confianza de 1 − α, siendo x la media de una muestra de tamaño n y σ la desviación típica de la población, es:

El error máximo de estimación es:

Cuanto mayor sea el tamaño de la muestra, n, menor es el error. Cuanto mayor sea el nivel de confianza, 1-α, mayor es el error. Tamaño de la muestra


Si aumentamos el nivel de confianza, aumenta el tamaño de la muestra. Si disminuimos el error, tenemos que aumentar el tamaño de la muestra. 26. Determine los factores de los cuales depende el intervalo de confianza para la media. Proporcione ejemplos R: como se muestra en la pregunta anterior, los factores para el intervalo de confianza dependen de: 1.- aumentar el nivel de confianza, implica aumentar la muestra. 2.- disminuir el error, también aumenta el tamaño de la muestra, por lo tanto, el factor para el intervalo de confianza depende del tamaño de la muestra. 27. explique qué es una distribución de probabilidad. Proporcione 3 ejemplos R: La distribución de probabilidad de una variable aleatoria es una función que asigna a cada suceso definida sobre la variable aleatoria la probabilidad de que dicho suceso ocurra. La distribución de probabilidad está definida sobre el conjunto de todos los eventos rango de valores de la variable aleatoria. Cuando la variable aleatoria toma valores en el conjunto de los números reales, la distribución de probabilidad está completamente especificada por la función de distribución, cuyo valor en cada real x es la probabilidad de que la variable aleatoria sea menor o igual que x. dad una variable aleatoria todos son puntos , su función de distribución, es Por simplicidad, cuando no hay lugar a confusión, suele omitirse el subíndice

y

se escribe, simplemente, 28. Explique qué es el nivel de significación R: se define como la probabilidad de tomar la decisión de rechazar la hipótesis nula cuando ésta es verdadera (decisión conocida como error de tipo I, o "falso positivo"). La decisión se toma a menudo utilizando el valor p (o p-valor): si el valor P es inferior al nivel de significación, entonces la hipótesis nula es rechazada.


Cuanto menor sea el valor P, más significativo será el resultado. En otros términos, el nivel de significatividad de un contraste de hipótesis es una probabilidad P tal que la probabilidad de tomar la decisión de rechazar la hipótesis nula - cuando ésta es verdadera - no es mayor que P. 29. Explique qué es el nivel de confianza R: El nivel de confianza es la probabilidad a priori de que el intervalo de confianza a calcular contenga al verdadero valor del parámetro. Se indica por 1-α y habitualmente se da en porcentaje (1-α) %. Hablamos de nivel de confianza y no de probabilidad ya que una vez extraída la muestra, el intervalo de confianza contendrá al verdadero valor del parámetro o no, lo que sabemos es que si repitiésemos el proceso con muchas muestras podríamos afirmar que el (1-α) % de los intervalos así construidos contendría al verdadero valor del parámetro. Los valores que se suelen utilizar para el nivel de confianza son el 95%, 99% y 99,9%. 30. Explique qué se entiende por hipótesis nula e hipótesis alternativa R: Hipótesis nula: es una hipótesis construida para anular o refutar, con el objetivo de apoyar una hipótesis alternativa. Cuando se la utiliza, la hipótesis nula se presume verdadera hasta que una evidencia estadística en la forma de una prueba empírica de la hipótesis indique lo contrario. Hipótesis alternativa: son posibilidades alternas, ante las hipótesis de investigación y nula; ofrecen otra descripción o explicación distinta de las que proporcionan este tipo de hipótesis.


Ejemplos: 1.- Un estudio hecho en un sal贸n de clases con 30 alumnos queremos determinar el numero de aprobados y reprobados nos arroja los siguientes resultados. Como resumir铆as los datos en una tabla. Hacer representaci贸n grafica. A= aprobado B= bien F= reprobado A, a, b, f, b, b, f, a, b, a, a, a, b, f, b, f, b, b, b, a, b, f, b, f, a, b, b, f. Tabla: Modalidad A B F

Frecuencia absoluta

Frecuencia relativa

Porcentaje

9/30

30%

14

14/30

46%

7

7/30

23%

30

1

100%

9


La edad de personas de 15 aĂąos en adelante que estĂĄn cursando la primaria en el sistema abierto: 15, 20, 33, 18, 40, 50, 33, 21, 18, 44, 65, 19, 15, 21, 18, 40, 42, 57, 19, 23, 31, 30, 36, 27, 19, 25, 18, 35, 24, 19, 15, 18, 33, 64, 65, 17, 23, 31, 51, 40, 39, 44, 18, 15, 22, 21, 51, 39, 46, 36, 25, 15, 18, 23, 15, 16, 17, 18, 19, 20. Como resumirĂ­a los datos en una tabla. Hacer una grafica y calcular la media, mediana y moda.

Intervalos 15-20 21-26 27-32 33-38 39-44 45-50 51-56 57-62 63-68

Frecuencia absoluta

Frecuencia relativa

Porcentaje

24 10 4 6 8 2 3 1 2 60

24/60 10/60 4/60 6/60 8/60 2/60 3/60 1/60 2/60 1

0.4 0.16 0.06 0.1 0.13 0.03 0.05 0.01 0.03 100%

Frecuencia absoluta acumulada 29 34 38 44 52 54 57 58 60

Frecuencia relativa acumulada 29/60 34/60 38/60 44/60 52/60 54/60 57/60 58/60 60/60 1


Media = 1736/60 = 28.93 Moda = 18 Mediana = 23 31. Caracterice la hipótesis y proporcione 3 ejemplos R: 1.- La hipótesis se caracteriza por establecer mas relaciones entre los hechos y explicar el por que se producen. 2.- Son el planteamiento de una posible solución al mismo problema. 3.- Es una proposición anunciada para responder tentativamente a un problema. Por ejemplo: Nuestro tema de investigación es; “la izquierda política en México” por consiguiente nuestro acotamiento del tema seria “ideología política de los partidos políticos de izquierda en México en la década de los 90´s”, entonces las hipótesis considerables son: 1. La política de izquierda en los años 90´s no tenía fundamento político, sus acciones se basaban en la economía global. 2. La introducción del neoliberalismo con salinas de Gortari elimino las creencias en la política de izquierda verdadera. 3. La política de izquierda se encontraba centralizada en la lucha de clases. 32. Determine qué es el nivel de significación R: El nivel de significación es un concepto estadístico directamente relacionado con la verificación de la hipótesis, es decir, es la probabilidad de tomar la decisión de rechazar la hipótesis nula cuando ésta es verdadera. En síntesis, el nivel de significación es la probabilidad de tomar la decisión de rechazar la hipótesis nula cuando ésta es verdadera -. 33. Proporcione un ejemplo para que se comprenda qué es el nivel de significación 0.05 R: El nivel de significación comprende del 0,05, 0,01 y 0,1. Si un contraste de hipótesis proporciona un valor P inferior a α, la hipótesis nula es rechazada, siendo tal resultado denominado 'estadísticamente significativo'. Cuanto menor


sea el nivel de significatividad, más fuerte será la evidencia de que un hecho no se debe a una mera coincidencia (al azar). En algunas situaciones es conveniente expresar la significatividad estadística como 1 − α. En general, cuando se interpreta una significatividad dada, se debe tomar en cuenta que, precisamente, está siendo probada estadísticamente. Ejemplo: Suponiendo que tenemos un producto a y uno b, y se lo damos a probar a 25 personas cada uno y 15 personas les es agradable el producto a y a 25 el producto b. ¿Existe diferencia significativa entre los productos? Ho (hipótesis nula) = No hay diferencia entre ambos tratamientos. Ha (hipótesis alternativa) = Sí existe diferencia. Tratamiento

A B

N

Porcentaje de respuesta

25 15/25 = 0.60 25 20/25 = 0.80

Si es mayor que el producto de 1.96 * el error estándar, Concluimos que la diferencia es significativa.

34. Sintetice la hipótesis nula e hipótesis alternativa. Proporcione un ejemplo de cada una R: La hipótesis nula es construida para anular o refutar, con el objetivo de apoyar una hipótesis alternativa, se presuma verdadero hasta que exista evidencia. Ho (hipótesis nula) = No hay diferencia entre ambos tratamientos. Ha (hipótesis alternativa) = Sí existe diferencia.


35. Sintetice los pasos para hacer una prueba de hipótesis y describe qué se busca en cada uno de ellos. R: La prueba de hipótesis es cualquier afirmación acerca de una población y/o sus parámetros. Consiste en contrastar dos hipótesis estadísticas que involucran la toma de decisión acerca de las hipótesis, dicha decisión consiste en rechazar o no una hipótesis en favor de la otra. Una hipótesis estadística se denota por “H” y son dos: - Ho: hipótesis nula - e - H1: hipótesis alternativa 1-La hipótesis nula “Ho” 2-La hipótesis alternativa “H1” 3-El estadístico de prueba 4-Errores tipo I y II 5-La región de rechazo (crítica) 6-La toma de decisión

36. Explique en qué consiste el ANVAR R: El análisis de varianza es uno de los métodos estadísticos más utilizados y más elaborados en la investigación moderna. Se utiliza para probar hipótesis preferentes a las medias de población más que a las varianzas de población. 37. Sintetice el uso de la tabla para F R: La distribución F es una distribución de probabilidad continua, también conocida como distribución F de Snedecor, donde una variable aleatoria distribución F se construye como el siguiente cociente:

donde


U1 y U2 siguen una distribución chi-cuadrado con d1 y d2 grados de libertad respectivamente, y

U1 y U2 son estadísticamente independientes.

38. Explique cómo se calculan los grados de libertad para el factor y para el error R: El análisis de varianza lleva a la realización de pruebas de significación estadística, usando la denominada distribución F Una vez que se han calculado las sumas de cuadrados, las medias cuadráticas, los grados de libertad y la F, se procede a elaborar una tabla que reúna la información, denominada "Tabla de Análisis de varianza o ANOVA", que adopta la siguiente forma:= +

Fuente de

Suma de

Grados de

variación

cuadrados

libertad

Intergrupo

SSFactores

t-1

SSError

N-t

SSTotal

N-1

Intragrupo o Error Total

Cuadrado medio

F


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.