probabilidad_estadistica

Page 1

La probabilidad es el vehículo que permite utilizar la información contenida en una muestra. La estadística es un medio que permite analizar los datos de la población de la cual se obtuvo la muestra, para hacer inferencias o descripciones. La Teoría de la Probabilidad plantea leyes del azar que se utilizan para predecir los resultados de ciertos fenómenos, la estadística estudia los resultados de acciones Repetitivas de fenómenos acontecidos, son sujetos a tratamientos estadísticos para después hacer inferencias con la ayuda de probabilidades estimadas.

m o c

La Investigación y la Estadística.

La Investigación tiene como objetivo la búsqueda del conocimiento y el entendimiento. Trata de descifrar las cosas y consecuencias. La Investigación esta compuesta de la Observación y el Razonamiento. Observación: Es el medio por el cual se obtiene el conocimiento de los hechos. Razonamiento: Lleva a determinar las posibles causas de los hechos.

. l a

La Investigación requiere el uso de las herramientas de la estadística. La estadística puede ofrecer a la Investigación: 1) Descripción, resultado de la información. 2) Inducción, consiste en formular generalizaciones a una población determinada sobre una muestra extraída de la misma.

e l o

Etapas Generales de una Investigación.

1) Determinar que se pretende investigar y su finalidad. Estadística, primero se debe formular el problema o preguntas lo mas precisamente posible. • Formular, plantear y delimitar el problema. • Identificar las variables. • Formular las hipótesis.

g

2) Determinación de la población o universo que será muestreada. 3) Delimitación del trabajo de investigación. Recolectar únicamente los datos que se utilizaran posteriormente. 4) Selección de métodos y técnicas. Deberá definirse si es por variables y por atributos. Si a partir de una muestra deseamos estimar una cierta característica cuantitativa, se dice que se rata de un muestreo de variables; Si quisiéramos estimar una característica cualitativa, se trataría de un muestreo de atributos.


a) Tamaño de la muestra. Se requiere una muestra mayor para muestreo de atributos que para el caso de muestreo de variables, además los elementos de la muestra pueden ser mas caros y la inspección más destructiva. b) Costos. Las medidas reales y los cálculos requeridos pueden ser más costosos por variables que por atributos.

m o c

c) Normalidad. Los planes de variables dependen de la exactitud en la consideración de la normalidad de la distribución de la variable medida. d) Operación. El muestreo de atributos es mas conocido que el de las variables, por eso requiere menos entrenamiento.

. l a

Diseño de experimentos.

El diseño de un experimento es un proyecto para obtener una cantidad de información que se puede adquirir a diferentes precios que depende de la manera que se obtuvieron los datos. El diseño de experimentos es un estudio sobre métodos de muestreo o proceso de muestreo y los problemas de tales métodos que implican. El diseño de experimentos, junto con la cantidad de la muestra, controla la cantidad total de información relevante de la muestra.

e l o

Teoría elemental del muestreo.

g

Para que las conclusiones de la teoría del muestreo e inferencia estadística sean validas, las muestras deben elegirse de forma que sean representativas de la población. El medio por el cual se extrae una muestra de la población, se llama muestra al azar, donde cada miembro de la población tiene la misma posibilidad de ser incluido en la muestra. Conceptos básicos.

El experimento es un proceso por el cual se obtiene una observación o medición. La experimentación se usa para someter a prueba una hipótesis y establecer nuevas relaciones entre las variables. La experimentación puede proporcionar conclusiones erróneas que pueden ser resultado de: 1) Mala interpretación del experimento. 2) Suposiciones originales inadecuadas. 3) El experimento fue pobremente diseñado o mal ejecutado.


El diseño experimental es el plan usado en un experimento. Este implica la asignación de tratamientos a las unidades experimentales y un amplio entendimiento de los análisis, asegurando así que los datos que se obtendrán serán deducciones validas. El diseño de experimentos es una materia que se requiere tanto a la metodología estadística como al análisis económico, es decir, debe hacerse todo esfuerzo para ahorrar tiempo, dinero, personal y materia experimental. Planeamiento de experimentos.

m o c

La clave del éxito en el trabajo experimental consiste en hacerse las siguientes preguntas: ¾ ¿Qué busco? ¾ ¿Por qué mido esto? ¾ ¿Qué significa la medición?

. l a

Y sobre todo las fases iniciales del experimento:

¾ ¿Cuáles serán las variables primarias por investigar? ¾ ¿Qué tipo de control se deberá tener en el experimento? ¾ ¿Qué rango de las variables primarias serán necesarias para poder describir el fenómeno bajo estudio? ¾ ¿Cuál es la exactitud necesaria par efectuar cada medición? ¾ ¿Existen comercialmente los instrumentos o deben ser construidos especialmente para este experimento? ¾ ¿Cuáles son los aspectos de seguridad preventiva necesarios, si dentro del experimento existiera algún tipo de operación peligrosa? ¾ ¿De que fuentes financieras se dispone para financiar el experimento? ¿Qué tanto se apegan las características de los aparatos al presupuesto asignado? ¾ ¿Qué medidas se tomaron para registrar los datos? ¾ ¿Cómo se comporta el fenómeno, para saber así que medir y como comprobarlo?

e l o

g

• Experimento: Cualquier proceso que genere un conjunto de datos; involucra tres procesos: a) Accion b) Observación c) Resultado. Se consideran 2 tipos de experimentos: 1) Aleatorios: Es aquel en que datos y resultados estan libres de determinación. 2) Deterministicos: Son aquellos en que resultados y datos se conocen en forma absoluta.

• Variable experimental: Son las que tienen un efecto sobre el experimento (lo que se va a observar); pueden ser cuantitativas o cualitativas.


Espacio muestral (espacio de eventos, universo, población, censo): Totalidad de todos los resultados posibles de un experimento.

Punto muestral: Es cada resultado en un espacio muestral.

Evento simple: Es cada uno de los resultados del espacio de eventos.

Evento múltiple: Conjunto de eventos simples.

Evento imposible: El que no se define en el espacio de eventos (vacio). Se denota por ∅ .

Conjunto: es una lista bien definida de objetos, por lo que un evento sera un conjunto.

Inclusión o igualdad: Si todos los eventos de A son tambien eventos de B, se dice que A esta contenido en B ( A ⊂ B ).

Complemento: El complemento de A con respecto a S, es el conjunto de todos los elementos de S que no estan en A. Se denota como A'.

g •

. l a

e l o

m o c

Intersecion: La intersección de dos eventos A y B, es el evento que contiene a todos los elementos comunes a A y a B. Se denota como A ∩ B . Eventos mutuamente excluyentes: se les llama asi a los eventos que no tienen elementos en comun. Se denota por A ∩ B = ∅ Union de dos eventos: Es el evento que contiene a todos los elementos que pertenecen a A y/o a B. Se denota por A ∩ B . Tipos de conjuntos: a) Discretos: Si se toman valores enteros. B) Continuos: Si se toman valores entre dos enteros consecutivos.

Propiedades de los conjuntos: Conjunto vacio: A∪∅ = A

A∩∅ = ∅

Conjunto universal: A∪ S = S

A∩ S = A

Conjunto complementario: A ∪ A' = S A ∩ A' = ∅ Propiedad del complemento: ( A ∪ B)' = A'∩ B'

( A ∩ B)' = A'∪ B'


Asociativa: A ∪ ( B ∪ C ) = ( A ∪ B) ∪ C

A ∩ ( B ∩ C ) = ( A ∩ B) ∩ C

Conmutativa: A∪ B = B ∪ A

A∩ B = B ∩ A

Distributiva: A ∪ ( B ∩ C ) = ( A ∪ B) ∩ ( A ∪ C )

A ∩ ( B ∪ C ) = ( A ∩ B) ∪ ( A ∩ C )

m o c

Probabilidad: Existen tres maneras basicas de definir este concepto:

a) Concepto frecuentista: Considera un hecho empiricamente comprobado (estadística) y se observa de que la frecuencia en que ocurre es un suceso que tiende a estabilizarse cuando la frecuencia total aumenta. El problema radica en que nos e define cuantos resultados se deben evaluar.

. l a

b) Concepto subjetivo: la toma de decisiones hace un uso elevado de la experiencia y juicio del sujeto quien tome las decisiones, ya que la probabilidad es en base a una frecuencia relativa o a creencias particulares del individuo. El problema radica en se pueden asignar diferentes probabilidades a un mismo suceso.

e l o

c) Concepto clásico: Considera que todos los evento son igualmente probables; postula que si no hay preferencias la elección se hara al azar. El problema radica en que no se justifica nA (Laplace) al premisa de igualmente probables. PA = nS

g

Si consideramos que es finito el numero de eventos simples asociados a un experimento aleatorio y donde todos y cada uno de ellos son igualmente posibles en su ocurrencia, la probabilidad de un evento A contenido en S, y formado por nA eventos, se obtiene por la relacion que existe entre los eventos favorables respecto al espacio de eventos a decir.

PA =

nA nS

Siempre y cuando el experimento se repita muchas veces.

La probabilidad de un evento A es la suma de los pesso de todos los puntos muestralkes de A; por tanto los limites de probabilidad son: P∅ = 0 0 < PA < 1 Si nA ≠ nS nA' = nS - nA es decir PA' = 1 - PA

PA + PA' = 1


Ley de adicion de probabilidad:

P ( A ∪ B) = PA + PB − P( A ∩ B) P ( A ∪ B) = PA + PB

(Si existe intercesión entre A y B) (Si no existe intersección entre A y B, es decir, si son mutuamente excluyentes)

P ( A ∩ B) = PA * PB

(Si son eventos independientes)

Probabilidad fija o constante (Frecuentista, no subjetiva): Para experimentos en que la probabilidad de la ocurrencia para cada uno de los eventos del espacio se mantiene constante; por lo que si se les pone o no condicion, se les sigue tratando con independencia de eventos.

m o c

Teorema o regla de Bayes: Se utiliza cuando es necesario encontrar la probabilidad condicional de un evento A dado que ya ha ocurrido anteriormente.

P ( A / Hi) P ( Hi / A)

. l a

a priori (ya conocido) a posteriori (se desea conocer)

P( Hi ) * P( A / Hi) ∑ P( Hi) * P( A / Hi)

e l o

Teorema de Bayes:

P ( Hi / A) =

Análisis combinatorio: Consiste en obtener el numero de resultados posibles de un experimento sin necesidad de hacer una enumeración directa.

g •

Conteo: Si una operación puede realizarse en n1 formas, y si por cada una de estas una segunda operación puede llevarse a cabo por n2 formas, y si para cada una de las dos primeras se puede efectuar una tercera en n3 formas, y asi sucesivamente, entonces las secuencia de k operaciones puede hacerse en (n1)(n2)(n3)... nk formas. Notación factorial (n!): Es el producto de los enteros positivos de 1 hasta n.

Se acepta que 0!= 1 .

Permutación: Es un arreglo de todos o parte de, un conjunto de objetos. El numero de permutaciones de n objetos distintos es n!.

Ordenaciones (nOk): El numero de permutaciones de n objetos distintos tomando k a la vez. n! nOk = Interesa su ocurrencia y orden. (n − k )!


El numero de permutaciones diferentes de n objetos iguales, de los cuales n1 son de n! un tipo, n2 son de otro tipo... n1!n2!...nk! Combinaciones (nCk): El numero de combinaciones de n objetos distintos tomando k a la vez. nOk n! nCk = = Interesa su ocurrencia, pero no el orden. k! k!(n − k )!

• •

VA: No puede predecirse antes de realizar el experimento, la VA es una funcion que asocia un numero real a cada elemento del espacio muestral, y a los cuales se les puede asignar una probabilidad.

Tipos de VA: a) VAD, si toma valores enteros. b) VAC, si su dominio esta en el rango de A hasta B. DP= Es el comportamiento de una VA DPVAD= Se la llama asi si a cada valor de una VAD se le asocia una probabilidad; se representa por la tabulacion de Xi vs. Pi, donde la ∑ XiPi = 1 .

• •

m o c

. l a

VA= Variable Aleatoria VAD= Variable Aleatoria Discreta VAC= Variable Aleatoria Continua DP= Distribucion de Probabilidad DPVAD= Distribucion de Probabilidad de una Variable Aleatoria Discreta

e l o

Para las VAD:

Esperanza matemática (E): Si X es una VAD cuya DP es conocida, su E quedara definida por el valor que tiende a presentarse con mas frecuencia si se repite muchas veces el experimento. E = ∑ Hxi − Pxi

g •

Media (Mx): Es el valor donde se encuentra el valor máximo, si se tomara como una grafica con valores continuos. Mx = E = ∑ Hx * Px Varianza o desviación estandar (δx 2 ) : Es una medida de dispersión o variabilidad, define el rango de ocurrencia de la media. δx 2 = ∑ ( Mx − X ) 2 * Px δx = δx 2

Concentración: Donde se concentran los máximos valores en la grafica de X vs. Px Concentración = Mx ± δx


Para las VAC: Estas variables, al tomar todos los valores entre A y B, se solucionan con integrales. Definida una funcion de probabilidad f(x) que generalmente debe ser multiplicada por una constante k que la obliga al area bajo la curva que sea igual a 1. Se tienen las siguientes condiciones: b

P (a ≤ x ≤ b) = ∫ P( x)dx

donde P(x)=kf(x)

m o c

a

a

−∞

P ( x > a ) = ∫ P( x)dx

∫ P( x)dx = 1

P( x ≥ a ) = ∫ P ( x)dx a

. l a

b

P ( x ≤ b) = ∫ P( x)dx −∞

∫ xP( x)dx

Mx =

−∞ ∞

δx 2 = ∫ ( x − Mx)2 Pxdx

δx = δx 2

e l o −∞

g


Distribuciones teóricas de una variable. Muchos fenómenos aleatorios tienden a mantener una continuidad en su ocurrencia (frecuencia relativa), lo que permite elaborar o deducir una formula que se ajuste al comportamiento y que se denomina “Modelo” atendiendo al tipo de variable por analizar, osea, si es discreta o continua. Los modelos más frecuentes son: Caso Discreto: a) Distribución Hipergeometrica (H). b) Distribución Binomial (B). c) Distribución Multinomial (M). d) Distribución Binomial Negativa ( B −1 ). e) Distribución Geométrica (G). f) Distribución de Poisson (P).

m o c

. l a

Caso Continuo: a) Teorema de Tchebyshef (TS) b) Distribución Uniforme o Rectangular. c) Distribución Gamma. d) Distribución Exponencial. e) Distribución Normal o Curva de Gauss. f) Ajuste del caso continuo al caso discreto.

e l o

Distribuciones Discretas

a) Distribución Hipergeometrica (H): Si tenemos un universo finito de “N” objetos del cual extraemos “a” objetos son reemplazo de dicho universo y si existe “a” objetos de cierta característica, la Hipergeometrica se define al calcular la probabilidad que al sacar “n” objetos “x” sea de la característica de “a” y el resto no lo sea.

g

aCx * ( N − a)C (n − x) NCn a q = 1− p P= N

H=

Sin reemplazo

μx = np

δ 2x =

( N − n) npq ( N − 1)

a´) Ajuste de la distribución Hipergeometrica por la Binomial (B): La Hipergeometrica puede ser tratada como Binomial aunque el experimento sea sin reemplazo, ya que si “n” es suficientemente grande, el error que se puede tener al considerar una probabilidad constante, tiende a cero.

Condiciones: 0.05 N ≥ n

“n” y “x” se consideran con el mismo criterio, pero p =

a Es constante. N


b) Distribución Binomial (B): Prueba de Bernoulli: Cuando los intentos o ensayos repetidos son independientes y la probabilidad de éxito permanece constante para cada uno de ellos.

Primero considérese la probabilidad de “x” éxitos y (n-x) fracasos en un orden determinado. Dado que los intentos son independientes, pueden multiplicarse todas las posibilidades correspondientes a los diferentes resultados. Cada éxito ocurre con una probabilidad “p” y cada fracaso con una probabilidad “q=1-p”.

B = (nCx)( p x q ( n− x ) ) μx = np

m o c

Con reemplazo. P=Cte. δ x = npq 2

c) Distribución Multinomial (M):

El experimento Binomial se convierte en Multinomial si cada intento tiene mas de dos resultados posibles. Considérese un experimento que se verifica los eventos E1 , E2 E3..... Ek todos son mutuamente excluyentes y en el que dada uno tiene una probabilidad de verificación p1, p2 , p3..... pk si consideramos que el experimento se repite “n” veces donde cada evento se puede verificar n1 , n2 , n3.....nk = n con reemplazo.

. l a

e l o

La Multinomial se define al calcular la probabilidad de ocurrencia de cada evento, pero en todos sus casos posibles: n! n n n ( p1 1 )( p 2 2 )....( p k k ) M= Con reemplazo. n1 !n 2 !n3 !...nk ! Parámetros: Se tendría que calcular una μx , δ 2 x , y δx para cada VA.

g

d) Distribución Binomial Negativa ( B −1 ). Esta distribución se relaciona con definir el numero de intentos necesarios para que ocurra el r-esimo éxito. Se esta interesado en la probabilidad de que el r-esimo éxito ocurra en el x-esimo intento.

B −1 = ( x − 1)C (r − 1) * p r q x−r r (1 − p) r μx = δ 2x = p2 p B −1 ={qqqpppp....q }

No importa donde hayan ocurrido los otros éxitos (orden).

e) Distribución Geométrica (G): Se refiere a un caso especial de la distribución binomial negativa donde r=1, y con probabilidades “p” y “q”, considera la ocurrencia de una serie de eventos antes de que ocurra la primera falla.

G = pq x−1

La ocurrencia de una serie de eventos antes de que ocurra la primera falla.


G={pppp....q } 1 q 1 μ= p

p q2 q δ2 = 2 p

μ=

δ2 =

f) Distribución de Poisson (P): Esta distribución se aplica básicamente como un ajuste al caso Binomial, ya que cuando se incremente el tamaño de la muestra “n”, el calculo de operaciones puede ser muy laborioso.

m o c

Representa el numero de resultados que ocurren en un intervalo de tiempo dado o en una región especifica. Poisson recomienda que se aplique en lugar de la Binomial cuando: Condiciones: n→∞ siendo p→0 siendo x→0 siendo

. l a

n ≥ 100 p ≤ 0.05 x < 10

El comportamiento de Poisson es exponencial, ya que se concentra la mayor cantidad de probabilidad hacia el origen.

e l o

Binomial y Poisson no son recomendables cuando n → ∞ con cualquier valor de p, q, x, y n cuando se solicitan probabilidades acumuladas, por lo que se usa un ajuste del caso continuo al discreto.

g

Cuando p = P=

λx e − λ x!

1 donde v → ∞ ∴ p → 0 v

μx = δ 2 x = np = λ

λ Tiempo

Distribuciones Continuas

a) Teorema de Tchebyshef (TS):

Este teorema es aplicable a cualquier conjunto de observaciones de una VAC, lo que indica que es aplicable a muestras como a poblaciones. Considera que la fracción de observaciones que caen en un cierto intervalo tienda a tomar el concepto de “al menos”, situación que permite que casi todos los conjuntos de datos lo satisfagan.

Condición: Las distribuciones deben ser de tipo monticular o tipo joroba. El TS considera una VA con parámetros ( μx, δx) y demuestra que para todo valor de k (+) la probabilidad toma los valores:


P ( x − μx ≤ kδ ) ≥ 1 −

1 k2

Al menos 1 −

1 de las observaciones están dentro de kδ k2

b) Distribución Uniforme o Rectangular:

Si se selecciona al azar un numero representado por un punto en el intervalo a ≤ x ≤ b . A=bh

f(x)

m o c

A=(b-a)(h) a

1=(b-a)(h)

b

δ 2x =

A=(b-a)(1/b-a)

. l a

(b − a ) 2 12

μx =

( a − b) 2

c) Distribución Gamma: Esta distribución se relaciona con variables que solo se les puede asociar valores positivos. Lo que indica que su distribución es toda asimétrica o sesgada hacia la derecha (todos los valores positivos), lo que implica que casi toda el área se localiza cerca del origen.

e l o

f ( x) =

α −1 − x / β

(x e

β

α

0

)

α −1 − x

( x e )dx

μ = αβ

δ 2 = αβ 2

α = Parámetro de forma (sesgada o menos sesgada). β = Parámetro de escala (mas o menos apuntalada).

g

d) Distribución exponencial: Es una variante de la distribución Gamma, con la condición de que α = 1 , por lo que Gamma se transforma: b

e− x / β

a

β

f ( x) = ∫

= − (e − x / β )

b

a

μ =δ = β

α =1 x ≥ 0

e) Distribución Normal o Curva de Gauss: Es la VAC que se presenta mas en la practica; se le considera la mas importante en estadística. − ( x − μx ) 2 2σx 2

b

e

a

σx 2π

P=∫

−∞ ≤ x ≤ ∞

μx y σx conocidos.


Condiciones: μx y σx conocidos. Es simétrica con respecto a la media μ ± σ Tiene un máximo para x = μ Se hacen asintótica a los ejes x ± → ∞ El área bajo la curva = 1 Es una curva suavizada y acampanada (Estética; tiene proporción respecto a las curvas). El calculo de probabilidades por Gauss es muy laborioso, así que se puede realizar u cambio de base y elaborar tablas (se pueden encontrar en libros) y así calcular las probabilidades.

m o c

e´) La variable estandarizada Z (Cambio de base):

Para elaborar la tabla se usa z = x −

μ donde “z” es la VA estándar. σx

. l a

Por lo que la función queda:

μ z = x− σx

e− z / 2 f ( z) = ∫ dz a σx 2π 2

b

e l o

σz = x − μ

dz = σdz

f) Ajuste del caso continuo al discreto: El calculo de la Binominal es demasiado laborioso cuando se calcula probabilidades acumuladas, pero si se respetan ciertas condiciones, se podrá aplicar la curva de Gauss al caso Binominal y de Poisson.

Condiciones: np > 5 para nq > 5 para

p ≤ 0.5 p ≥ 0.5

Parámetros:

μ = np

g

σx = npq


La razón fundamental por la cual se utilizan las técnicas estadísticas, es para la toma de decisiones, cuando no se tiene información completa de los hechos o cuando se desea efectuar un pronostico en base a datos históricos. Mientras más información se tenga al momento de efectuar la decisión, es mas posible que dicha decisión sea mejor para la persona que la toma; aun así existe el riesgo de tomar una decisión incorrecta. Actualmente las técnicas estadísticas son utilizadas en casi todas las ramas de todas ciencias, desde las exactas, hasta las sociales, pasando por las astronómicas, medicas y biológicas, entre otras.

m o c

Cuando se requiere información de tipo estadístico, lo mas probable es que se tenga que recolectar de diferentes fuentes. Las fuentes pueden ser recabadas ya sea de fuentes privadas o publicas. Puede suceder que la información requerida no se encuentre disponible, y en tal caso se tenga que recolectar por medio de observaciones, encuestas o muestreos. • •

. l a

Estadística descriptiva o inductiva: Cuando su único objetivo es la de efectuar únicamente el tratamiento de los datos. Estadística inductiva o inferencia: Cuando se quiere obtener conclusiones por el estudio de muestras basándose en el tiempo de la probabilidad.

e l o

Pasos que cubren la estadística descriptiva a la cual se le aplicara al estadística inferencial (no lo veremos en este curso): • Toma de datos: Es al obtención de una colección de los mismos, los cuales no han sido ordenados numéricamente. • Ordenación: Consiste en ordenar los datos de manera ascendente o descendente. • Rango: Diferencia entre el mayor y el menor de los valores. • Numero de grupos o clases (n): Es el numero de paquetes en los cuales deberán d estar incluidos todos los datos, se recomienda trabajar entre 8 y 20 clases. • Intervalo de clase: se refiere a los limites que se deberán de dar para mantener el mejor agrupamiento. • Limites de clase: después de definir el intervalo, se asignan numéricamente los limites de intervalo, de manera que los datos tiendan a concentrarse hacia la parte central. • Marcas de clase (Mc): es el punto de intermedio, este valor es el que se supone que representa a todos los datos del intervalo. • Frecuencia de datos (fi): Es el numero de datos comprendidos en el intervalo. • Histograma: es un grafico de barras de limites Vs. frecuencia. fi • Frecuencia relativa: es el porcentaje de frecuencia parcial: ∑ (100) ∑ fi

g •

Polígono de frecuencias relativas: Se obtiene por el histograma de unir a todas las marcas de clase, en este paso de acepta o rechaza el tratamiento.


• •

Frecuencias acumuladas: Es la suma de frecuencias relativas con respecto al limite superior de clase. Polígono de frecuencias acumuladas (ojiva): Es el grafico de limites Vs. frecuencias acumuladas.

El objetivo de todos los pasos anteriores es calcular los parámetros de tendencia central y de dispersión representativos de la muestra y del tratamiento a aceptar, de modo que se aproxime lo mas posible a una distribución normal (DN).

m o c

Pasos: 1) Se toman los datos (numéricos). 2) Se ordenan.

3) Se obtiene el rango o amplitud (A). A = Mayor − Menor En este paso se consulta una tabla de recomendaciones en al que dice para tal “N” (numero de datos), se recomienda un tal “n” (numero de clases). Numero de datos (N) 15-29 30-59 60-99 100-199 200-499 500-999 1000-1999 2000-3999 4000-7999 8000-14999 1500-34999 35000-69999 70000-149999 150000-299999 300000-499999 500000 en adelante

e l o

. l a

g

4) Intervalo de clase (c): A c= n

Formulas: xmedia: Media aritmética. G: Media geométrica. H: Media armónica.

Numero aprox. de datos a utilizar (n) 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20


Md: Mediana. Mo: Moda o modo. S: Desviación estándar. D.M.: Desviación media. C.V.:Coeficiente de variación.

⎛ ( fidi ) ⎞ ⎟ xmedia = X = z + c⎜⎜ ∑ ⎟ ( fi ) ⎝ ∑ ⎠ ⎛ fs ⎞ Mo = li + c⎜⎜ ⎟⎟ ⎝ fi + fs ⎠

Md = Li + c

1/ H =

o

∑ fi(Mci) ∑ fi

Q=

(T − Fi ) ( Fs − Fi )

T=

∑ fi / Mci ∑ fi

N 2

C.V . =

2

o

∑ fiMci ∑ fi log G =

∑ fi(log Mci) ∑ fi

D.M . =

∑ fi( xmedia − Mci) ∑ fi

m o c

2

. l a

S (100) xmedia

e l o

fi ( xmedia − Mci) S=∑ ∑ fi

xmedia =

S =c

∑ fi(di) ∑ fi

2

⎛ fidi ⎞ ⎟ − ⎜⎜ ⎟ fi ⎝∑ ⎠

2

Si: xmedia, Md, Mo, Q, G y H se parecen, entonces se considera correcto el tratamiento.

g

xmedia de la media = (xmedia + Md + Mo + Q + G + H) / 6

Tabla de acomodo de datos: Limites Mci fi %fi ∑ % fi Fi Mcifi di fidi Md Mo fi ( Mci) 2 filogMci fi/mci

Inf. Sup.

fi(xmedia-Mci)

Fi Fs

si Mo fs

fi(xmedia - Mci)2

fi(di)2

Para saber si realmente tiende a ser normal: xmedia,1S → min 2 / 3 xmedia,2S → min 3 / 4 Según Tchebyshev xmedia,3S → min 8 / 9 o bien, al graficar en papel logarítmico los limites (eje X) Vs.

∑ % fi (eje Y); si tiende a

una recta, es una evidencia que si es normal la grafica (tipo campana de Gauss).


Regresión lineal:

Es la línea que trata de ajustarse mejor a un conjunto de datos en una grafica. Hay varias formas de obtenerla, la mas usada es por el método de mínimos cuadrados, en donde para una ecuación con la forma lineal y = a0 + a1 x1 le corresponden los valores de:

( Y )( X ) − (∑ X )(∑ XY ) a= ∑ ∑ n∑ X − (∑ X ) 2

0

a1=

2

2

n∑ XY − (∑ X )(∑ Y ) n∑ X 2 − (∑ X )

2

m o c

donde “n” es el numero de datos.

• Coeficiente de correlación (r): Indica que tan bien se ajusta una recta (la recta de la regresión lineal, por ejemplo) al conjunto de puntos muéstrales que la producen.

. l a

n∑ XY − (∑ X )(∑ Y )

r=

[n∑ X

2

][

− (∑ X ) n∑ Y 2 − (∑ Y ) 2

2

]

Entre mas tienda a uno, mas confiable será esta recta.

g

e l o


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.