Estadística inferencial

Page 1

1. INTRODUCCIĂ“N A LAS INFERENCIAS ESTADĂ?STICAS

1.1.

DEFINICIÓN DE TÉRMINOS

PARĂ METRO

ESTIMADOR

ESTIMACIĂ“N

Medida estadĂ­stica Calculada con todos los elementos de la poblaciĂłn SimbolizaciĂłn mediante alfabeto griego o letras mayĂşsculas

Valor numĂŠrico del estimador

Calculada con la informaciĂłn de la muestra SimbolizaciĂłn Letra griega áśş (estimado) o letras minĂşsculas

POBLACIĂ“N POBLACIĂ“N (TCT) Colectivo en el que estamos considerando la magnitud sujeta a estudio

UNIVERSO (TG) Conjunto de individuos que poseen la caracterĂ­stica o caracterĂ­sticas sujetas a estudio , y ĂŠstas en su conjunto forman la poblaciĂłn

  

SIGNIFICACIÓN ESTAD�STICA    

MUESTRA Subconjunto cualquiera de la poblaciĂłn Debe ser representativa para extrapolar los datos a la poblaciĂłn Lo que se consigue seleccionando sus elementos al alzar ďƒ aleatoria

ANĂ LISIS DE VARIANZA

Se puede extrapolar a la poblaciĂłn Un resultado es estadĂ­sticamente significativo cuando no es probable que haya sido debido al azar Concepto asociado a la verificaciĂłn de hipĂłtesis Es la probabilidad de tomar la decisiĂłn de rechazar đ??ť0 cuando es verdadera



Para verificar si hay diferencias estadĂ­sticamente significativas entre medias cuando tenemos mĂĄs de dos muestras o grupos en el mismo planteamiento đ?œŽ: DESVIACIĂ“N TĂ?PICA đ?œŽ 2 : VARIANZA ďƒ Cuantifica todo lo que hay de diferente entre los sujeto u observaciones

P-valor ≤ đ?›ź ďƒ đ??ť0 es rechazada ďƒ resultado estad. Significativo đ?›ź: 0,05 (5%); 0.01; 0.001 ďƒ nivel de significaciĂłn

MUESTREO  



ALEATORIO SISTEMĂ TICO Extraer elementos de la poblaciĂłn mediante una regla sistematizadora Numerada la poblaciĂłn , se elige aleatoriamente un primer elemento base , partiendo de ĂŠste se aplica la regla para conseguir los demĂĄs hasta conseguir el tamaĂąo muestral adecuado Este procedimiento conlleva el riesgo de dar resultados sesgados si en la poblaciĂłn se dan periodicidades o rachas

ALEATORIO ESTRATIFICADO  Considerar categorías típicas diferentes entre sí (estratos) que poseen: - Gran homogeneidad interna (poca varianza interna) - Ser heterogÊneas entre sí (mucha varianza entre los estratos)  La muestra se distribuye ( se extrae de ) entre los estratos predeterminados según la naturaleza de la población  Dicha distribución-reparto de la muestra se denomina afijación: - Afijación simple : a cada estrato le corresponde igual número de elementos (extracciones) muestrales - Afijación proporcional : la distribución se hace de acuerdo con el peso(tamaùo) relativo de cada estrato - Afijación óptima : Se tiene en cuenta la previsible dispersión de los resultados , de modo que se considera la proporción y la desviación típica

OTRAS: NO-ALEATORIAS: cuotas ,intencional , incidental, bola de nieve , etc‌ ALEATORIAS: por superpoblaciones‌



POR CONGLOMERADOS La unidad muestral es un grupo de elementos de la poblaciĂłn que forman previsiblemente una unidad de comportamiento representativo. Dicha unidad es el conglomerado cuyo comportamiento interno puede ser muy disperso (varianza grande) pero que presumiblemente poseerĂĄ un comportamiento prĂłximo a otros conglomerados (varianza entre conglomerados , pequeĂąa). Los conglomerados se estudian en profundidad hasta conseguir el tamaĂąo muestral adecuado

 

POR UDS. MONETARIAS Este tipo de muestreo es especifico en auditorĂ­a Plantea la selecciĂłn aleatoria no de asientos o partidas sino de unidades monetarias (ordenadas y numeradas) de tal manera que el defecto anterior se subsana al tener una partida cuantiosa mĂĄs probabilidades de ser elegida pues contiene mĂĄs unidades monetarias


1.2.

INFERENCIA

Dentro del proceso de inferencia hay dos tipos de estimación: estimación puntual y por intervalo. Estimación puntual Es un solo valor que representará adecuadamente el comportamiento de una variable, siempre que sea: Insesgado . Un estimador es insesgado/centrado si el valor promedio (media) o esperanza matemática del estimador es igual al valor del parámetro. Cuando un estimador es sesgado se puede introducir una corrección que elimine el sesgo. Linealidad. Un estimador es lineal si se obtiene por combinación lineal de los elementos de la muestra. Consistente . Un estimador es consistente, si a medida que aumenta el tamaño de la muestra, el valor del estimador se acerca al valor del parámetro. Eficiente o de varianza mínima . Si se toman dos muestras aleatorias del mismo tamaño provenientes de la misma población y si con cada una de estas muestras se obtiene un estimador insesgado, es eficiente el que tenga menor varianza. Suficiente . Un estimador es suficiente si para calcularlo se utiliza toda la información suministrada por la muestra.

Estimación de intervalo Determinación de un intervalo en el que quede incluido el valor de la característica con cierto grado de probabilidad (se explica más adelante). Se trataría de un rango dentro del cual esperamos que esté el valor del parámetro. 95%

5

El 5 que he obtenido NO es indicativo de la población porque el 95% de las veces el 6 se queda fuera 6

Métodos de estimación Método por analogía - Aplicar la misma expresión formal del parámetro poblacional a la muestra - En ocasiones presentan sesgos y no son eficientes - Recomendables para muestras de tamaño grande (propiedades asintóticas de consistencia)

 Método de los momentos - Caso particular del método por analogía - Consiste en tomar como estimadores de los momentos de la población a los momentos de la muestra

 Estimadores máximo-verosímiles - Estimación/estimador de mayor credibilidad - Un estimador máximo-verosímil es el que se obtiene maximizando la función de verosimilitud (likelihood) de la muestra - En términos probabilísticos podríamos hablar de que la verosimilitud es la probabilidad de que ocurra o se dé una determinada muestra si es cierta la estimación que hemos efectuado o el estimador que hemos planteado.

1.3.

TEOREMA CENTRAL LÍMITE

Si tenemos un grupo numeroso de variables independientes y todas ellas siguen el mismo modelo de distribución (cualquiera que éste sea), la suma de ellas se distribuye según una distribución normal. Una muestra aleatoria procedente de cualquier distribución con varianza finita

y

distribución aproximadamente normal con media m y varianza /n. Este teorema se aplica tanto a suma de variables discretas como de variables continuas.

, tiene para muestras grandes, una


1.4.



DISTRIBUCIONES EN MUESTREO

DISTRIBUCIONES MUESTRALES PARA UNA POBLACIĂ“N CON DISTRIBUCIĂ“N CUALQUIERA

DISTRIBUCIONES MUESTRALES PARA UNA POBLACIĂ“N CON DISTRIBUCIĂ“N NORMAL

DISTRIBUCIĂ“N DE LA PROPORCIĂ“N MUESTRAL DE UNA CARACTERĂ?STICA

DISTRIBUCIĂ“N DE LA DIFERENCIA DE DOS MEDIAS MUESTRALES CON POBLACIĂ“N NORMAL

Caso particular de la media muestral con distribuciĂłn poblacional desconocida

2. ESTIMACIĂ“N POR INTERVALOS

2.1.

INTERVALO DE CONFIANZA 



Cuando se selecciona una muestra aleatoria y se obtiene un estimador puntual (promedio, proporciĂłn, etc.), no se sabe quĂŠ tan cerca estĂĄ dicha estimaciĂłn del parĂĄmetro ďƒ Construir un intervarlo de confianza * Grado de dispersiĂłn * TamaĂąo de la muestra * Nivel de confianza: probabilidad de que el valor del parĂĄmetro estĂŠ contenido en dicho intervalo o rango Se determinan los valores Z1 y Z2 y a tales que la confiabilidad de que el parĂĄmetro q estĂŠ dentro de los lĂ­mites Z1 y Z2 sea

-a

1 − đ?›ź: nivel de confianza/confiabilidad đ?›ź: nivel de significacia/margen de error




cuanto mayor sea el nivel de confianza prefijado la amplitud del intervalo de estimaciĂłn serĂĄ tambiĂŠn mayor y por tanto la estimaciĂłn serĂĄ menos precisa - A mayor varianza tendremos mĂĄs variabilidad relativa por lo que el intervalo serĂĄ mayor (mĂĄs amplio) - A mayor tamaĂąo muestral el intervalo se hace mĂĄs preciso y por tanto menos amplio - A mayor nivel de confianza , mayor amplitud del intervalo - Si el muestreo es irrestricto, y es de aplicaciĂłn el factor corrector de poblaciones finitas, harĂĄ que disminuya el error , haciendo que el intervalo sea menos amplio El investigador puede modificar

2.2.

INTERVALO DE CONFIANZA PARA LA MEDIA Intervalo de confianza para la media, cuando se selecciona una muestra aleatoria de tamaĂąo n de una poblaciĂłn con distribuciĂłn normal con media

y varianza

conocida

Intervalo de confianza para la media: La media poblacional estarĂĄ entre: Confiabilidad de: đ?&#x;? − đ?œś

2.3.

INTERVALO DE CONFIANZA PARA LA PROPORCIĂ“N

2.4.

INTERVALO DE CONFIANZA PARA LA VARIANZA De una población con distribución normal con media m y varianza � 2 se obtiene una muestra aleatoria de tamaùo n. Para obtener el intervalo de confianza para la varianza (� 2 ) se parte de la expresión:


3. PRUEBA DE HIPĂ“TESIS

HIPÓTESIS   

 

Muestra aleatoria Es un supuesto acerca del valor de un parĂĄmetro de una poblaciĂłn determinada Se plantean dos hipĂłtesis que deben ser mutuamente excluyentes: đ??ť0 : hipĂłtesis nula đ??ť1 : HipĂłtesis alternativa Criterio o regla de decisiĂłn Error tipo I y tipo II

RECHAZO

ACEPTO

đ??ť0

 

 

VERDAD

1−�95%

FALSO

�5% ERROR TIPO II

ERROR TIPO I Nivel de significancia=probabilidad de error tipo I probabilidad de decidirnos por H1, siendo H0 verdadera ERROR TIPO II Tiene mĂĄs impacto

MĂĄs impacto

�5% ERROR TIPO I Nivel de significancia

1−đ?›˝

POTENCIA DE CONTRASTE: contraste simple: 1 − đ?›˝ Un contraste es mayor cuanto mayor es su potencia ↑Mayor potencia ↓Menor error tipo II VarĂ­a entre 0 y 1 Mayores de 0,8 en general Contraste compuesto ďƒ funciĂłn de potencia

REGIĂ“N CRĂ?TICA: đ?‘…1 : aquella regiĂłn del campo de variaciĂłn del estadĂ­stico tal que si contiene al valor evaluado del mismo con los datos muestrales nos llevarĂĄ a rechazar la hipĂłtesis REGIĂ“N DE ACEPTACIĂ“N: đ?‘…0 : Si el valor evaluado del estadĂ­stico pertenece a ella No rechazamos la hipĂłtesis

Θ nivel de significancia PRUEBA DE HIPĂ“TESIS: 1. Planteamiento de las hipĂłtesis 2. Seleccionar el nivel de significancia/margen de error Îą (5%, 1%...) 3. EstadĂ­stica de trabajo 4. Establecer la regla de decisiĂłn 5. Toma de decisiĂłn

4. CONTRASTES PARAMÉTRICOS      

HipĂłtesis paramĂŠtricas con relaciĂłn a una variable aleatoria Realizar inferencias (estimaciones y contrastes de hipĂłtesis) sobre caracterĂ­sticas desconocidas de la poblaciĂłn que resultaban ser parĂĄmetros de la distribuciĂłn de la poblaciĂłn Es necesario conocer la distribuciĂłn de la poblaciĂłn y postular su dependencia de uno o mĂĄs parĂĄmetros Disminuyen su eficiencia precisamente cuanto menor es el tamaĂąo muestral Requieren datos de escala de razĂłn o intervalos MĂĄs "sensibles" a la posible violaciĂłn de las hipĂłtesis de aplicaciĂłn


PRUEBA DE HIPĂ“TESIS ďƒ PARA LA MEDIA ďƒ PARA LA PROPORCIĂ“N ďƒ PARA LA VARIANZA ďƒ EL COCIENTE DE VARIANZAS ďƒ LA DIFERENCIA DE MEDIAS ďƒ LA DIFERENCIA DE PROPORCIONES PRUEBA DE HIPĂ“TESIS PARA LA MEDIA HIPĂ“TESIS

REGLA DE DECISIĂ“N

HIPĂ“TESIS A DOS COLAS

đ??ť0 : đ?œ‡ = đ?‘˜ đ??ť1 : đ?œ‡ ≠đ?‘˜

HIPĂ“TESIS A UNA COLA SUPERIOR

đ??ť0 : đ?œ‡ ≤ đ?‘˜ đ??ť1 : đ?œ‡ > đ?‘˜

HIPĂ“TESIS A UNA COLA INFERIOR

đ??ť0 : đ?œ‡ > đ?‘˜ đ??ť1 : đ?œ‡ ≤ đ?‘˜

5. CONTRASTES NO PARAMÉTRICOS 

  

El tipo de distribuciĂłn de la poblaciĂłn, si existe o no independencia de esta respecto a otra , la presumible homogeneidad de comportamiento frente a diversos valores de un factor , la existencia de rachas ..., hacen necesario su estudio mediante inferencias que no hacen referencia a los parĂĄmetros de la poblaciĂłn Las hipĂłtesis planteadas no harĂĄn referencia al valor o relaciones de valor de los desconocidos parĂĄmetros o ratios de la poblaciĂłn Disminuyen su eficiencia precisamente cuanto mayor es el tamaĂąo muestral Requieren datos ordinales o nominales incluso en escala de intervalo


5.1.

    





CONTRASTE DE BONDAD DEL AJUSTE/PRUEBA CHI-CUADRADO. CORRECIONES DE CONTINUIDAD Y YATES Contraste de adherencia a un ajuste La bondad de ajuste de un modelo estadĂ­stico describe cuĂĄn bien se ajusta un conjunto de observaciones Para comparar valores observados con los valores esperados Se parte de una sola muestra normalmente en datos en forma de escala nominal ďƒ distribuciĂłn de frecuencias observadas Si la poblaciĂłn sigue un determinado modelo teĂłrico de distribuciĂłn de probabilidad cada posible valor de la variable xi tendrĂĄ asociada una determinada probabilidad , segĂşn ese modelo teĂłrico ďƒ distribuciĂłn de probabilidad Si multiplicamos, para cada xi , su probabilidad , Pi , por el nĂşmero total de observaciones, n , obtendremos las frecuencias que teĂłricamente debĂ­an corresponder a cada valor de la variable, segĂşn el modelo, (Pi¡n = n teĂłrica,i ) ďƒ distribuciĂłn de frecuencias teĂłricas La hipĂłtesis a contrastar es el hecho de que la muestra proviene de una distribuciĂłn determinada y planteada de probabilidad , frente a la alternativa de que esto no es asĂ­: HIPĂ“TESIS đ??ť0 : La variable tiene distribuciĂłn X con tales parĂĄmetros đ??ť1 : La variable no tiene la distribuciĂłn X

ESTADĂ?STICA DE TRABAJO

Donde đ?‘›đ?‘Ą,đ?‘– =n.đ?‘?đ?‘–

đ?‘š đ?‘–=1 đ?‘?đ?‘– =1

đ?‘›đ?‘œ,đ?‘– : frecuencia observada en la muestra đ?‘›đ?‘Ą,đ?‘– : frecuencia esperada segĂşn la distribuciĂłn teĂłrica n: tamaĂąo de la muestra m: nĂşmero de variables que se han muestreado (valores distintos) k: nĂşmero de paramĂŠtros estimados a partir de los datos muestrales



đ?‘? 2 es una distribuciĂłn de variable continua



Si la distribuciĂłn de la poblaciĂłn es la utilizada para construir las frecuencias teĂłricas, el estadĂ­stico 2 anterior se distribuye como una đ?‘‹đ?‘š −đ?‘˜âˆ’1 es decir una chi-dos con m-k-1 grados de libertad



Este estadĂ­stico se distribuye siempre como una ď Ł m-k-1 sea cual fuere el modelo teĂłrico (binomial, Poisson ,normal ,exponencial ,cualquiera de los estudiados, u otro diseĂąado "ad hoc"), siempre y cuando la poblaciĂłn se distribuya, efectivamente, segĂşn ese modelo



Teniendo en cuenta esto ,si queremos contrastar la hipĂłtesis de que una cierta poblaciĂłn sigue un modelo determinado, con un nivel de significaciĂłn a , habrĂĄ que diseĂąar una regiĂłn crĂ­tica segĂşn la cual 2 si los datos muestrales nos conducen (bajo el supuesto de la hipĂłtesis) a un estadĂ­stico ď Ł que pertenezca a ella rechazaremos la hipĂłtesis

2

đ?‘‹ 2 es el estadĂ­stico y đ?‘…1 es la regiĂłn crĂ­tica


ďƒ˜

ESTABLECER LA REGLA DE DECISIĂ“N Si đ?‘‹ 2 < đ?‘‹đ?›ź2(đ?‘š −đ?‘˜âˆ’1) ďƒ no rechazaremos la hipĂłtesis de que la poblaciĂłn sigue el modelo de probabilidad planteado Si đ?‘‹ 2 > đ?‘‹đ?›ź2(đ?‘š −đ?‘˜âˆ’1) ďƒ rechazamos la hipĂłtesis

ďƒ˜

CORRECCIĂ“N DE CONTINUIDAD Si alguna de las frecuencias teĂłricas es inferior a 5 serĂĄ necesario subsanar este inconveniente agrupando las observaciones adyacentes

ďƒ˜

CORRECCIĂ“N DE YATES cuando m-k-1 = 1 utilizar como estadĂ­stico el siguiente :

5.2. ďƒ˜ ďƒ˜ ďƒ˜ ďƒ˜

CONTRASTE DE INDEPENDENCIA Probar si existe independencia entre dos variables o atributos, en el conjunto de la poblaciĂłn, a partir de las observaciones de las dos caracterĂ­sticas en una muestra. Caso particular de la bondad de ajuste ďƒ El modelo teĂłrico sujeto a contraste es el de una distribuciĂłn bidimensional con variables independientes Si las dos variables son cualitativas los cuadros de doble entrada se llaman de contingencia Si los dos mĂŠtodos de clasificaciĂłn son independientes o las variables son independientes, la probabilidad de que un elemento seleccionado al azar caiga en la clase ij es el producto de la probabilidad de que caiga en la clase i por la probabilidad de que caiga en la clase j. Entonces, suponiendo independencia de las dos variables:

nij : frecuencia conjunta. Es el nĂşmero de observado de elementos de la muestra que cae en el i-ĂŠsimo nivel de clasificaciĂłn de la variable 2 y el j-ĂŠsimo nivel de clasificaciĂłn de la variable 1. Sea pij la probabilidad de que un elemento seleccionado al azar caiga en el i-ĂŠsimo nivel de clasificaciĂłn de la variable 2 y el j-ĂŠsimo de la variable 1.

ďƒ˜

HIPĂ“TESIS H0 : no existe relaciĂłn o dependencia entre las variables H1 : existe relaciĂłn entre las variables

ďƒ˜

ESTADĂ?STICO DE TRABAJO 2 El estadĂ­stico se distribuirĂĄ con una distribuciĂłnď€ ď Ł con (m-1)(n-1) grados de libertad

ďƒ˜

REGLA DE DECISIĂ“N - El valor de la tabla se halla en una distribuciĂłn chi-cuadrado con (r-1)(c-1) grados de libertad y una confiabilidad de (1-

)

- La frecuencia esperada en cada celda debe ser mayor o igual a cinco (eij 5); si no se cumple ĂŠsta condiciĂłn, se deben unir las clasificaciones adyacentes de menor frecuencia y volver a hacer la prueba


- Si es una celda la que no cumple la condiciĂłn, se puede dejar asĂ­, ya que no afecta seriamente la prueba, salvo que eij <1 - El supuesto de que cada eij 5 es muy importante en una tabla dos por dos ya que sĂłlo tiene 1 grado de libertad. Si no se cumple ĂŠsta condiciĂłn se debe utilizar otro procedimiento - Si T< đ?‘‹ 2đ?‘&#x;−1 đ?‘?−1 (1−đ?›ź) no se rechaza la hipĂłtesis nula

5.3. ďƒ˜ ďƒ˜ ďƒ˜ 

5.4.

   

5.5.

  

CONTRASTE DE HOMOGENEIDAD A travÊs de este contraste pretendemos determinar si varias poblaciones distintas (m) tienen una estructura similar La hipótesis que queremos contrastar es que la distribución de la variable (o atributo) es homogÊnea en las j poblaciones Por lo que se cumplirå que : para i= 1,2,3,‌.n De manera que las frecuencias teóricas deberån verificar:

TEST U DE WILCOXON, MANN Y WHITNEY PARA LA COMPARACIĂ“N DE DOS MUESTRAS INDEPENDIENTES Test debido a Mann y Whitney (1947) y basado en el Wilcoxon para muestras independientes Es en cierto modo el equivalente no paramĂŠtrico del test t para la comparaciĂłn de medias de dos distribuciones Los datos de ambas muestras tienen que estar medidos al menos en escala ordinal Las distribuciones muestrales tengan la misma forma (asimetrĂ­a y curtĂłsis)

TEST DE KRUSKAL WALLIS PARA LA COMPARACIĂ“N DE VARIAS MUESTRAS INDEPENDIENTES Una generalizaciĂłn del test de Mann-Whitney para el caso de k muestras independientes Se examina la hipĂłtesis de que estas muestras provengan de la misma poblaciĂłn o de poblaciones de idĂŠntico comportamiento Es una versiĂłn "no parĂĄmetrica" del AnĂĄlisis de la Varianza


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.