Alicia en el PaĂs de las Simulaciones MariCarmen GonzĂĄlez-Videgaray
24 de agosto de 2013
1
Índice general 1. Distribuciones de probabilidad
8
1.1.
Formas de calcular la probabilidad
. . . . . . . . . . . . . . . . .
8
1.2.
Ajuste de una distribución teórica
. . . . . . . . . . . . . . . . .
9
1.3.
Prueba Ji-Cuadrada de bondad de ajuste
1.4.
Prueba Kolmogorov-Smirnov de bondad de ajuste
. . . . . . . .
11
1.5.
Principales distribuciones teóricas . . . . . . . . . . . . . . . . . .
12
. . . . . . . . . . . . .
2. Distribuciones discretas
2.1.
2.2.
2.3.
Distribución Bernoulli
9
14
. . . . . . . . . . . . . . . . . . . . . . . .
14
2.1.1.
Función masa de probabilidad . . . . . . . . . . . . . . . .
14
2.1.2.
Espacio muestral . . . . . . . . . . . . . . . . . . . . . . .
14
2.1.3.
Parámetros
. . . . . . . . . . . . . . . . . . . . . . . . . .
15
2.1.4.
Grá ca
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
Distribución binomial
. . . . . . . . . . . . . . . . . . . . . . . .
15
2.2.1.
Función masa de probabilidad . . . . . . . . . . . . . . . .
16
2.2.2.
Espacio muestral . . . . . . . . . . . . . . . . . . . . . . .
16
2.2.3.
Parámetros
. . . . . . . . . . . . . . . . . . . . . . . . . .
16
2.2.4.
Grá ca
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
Distribución geométrica
. . . . . . . . . . . . . . . . . . . . . . .
16
2.3.1.
Función masa de probabilidad . . . . . . . . . . . . . . . .
17
2.3.2.
Espacio muestral . . . . . . . . . . . . . . . . . . . . . . .
17
2.3.3.
Parámetros
. . . . . . . . . . . . . . . . . . . . . . . . . .
17
2.3.4.
Grá ca
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
2
3
ÍNDICE GENERAL
2.4.
2.5.
2.6.
2.7.
Distribución binomial negativa o de Pascal . . . . . . . . . . . . .
18
2.4.1.
Función masa de probabilidad . . . . . . . . . . . . . . . .
18
2.4.2.
Espacio muestral . . . . . . . . . . . . . . . . . . . . . . .
18
2.4.3.
Parámetros
. . . . . . . . . . . . . . . . . . . . . . . . . .
19
2.4.4.
Grá ca
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
Distribución hipergeométrica
. . . . . . . . . . . . . . . . . . . .
19
2.5.1.
Función masa de probabilidad . . . . . . . . . . . . . . . .
20
2.5.2.
Espacio muestral . . . . . . . . . . . . . . . . . . . . . . .
20
2.5.3.
Parámetros
. . . . . . . . . . . . . . . . . . . . . . . . . .
20
2.5.4.
Grá ca
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
Distribución uniforme discreta . . . . . . . . . . . . . . . . . . . .
20
2.6.1.
Función masa de probabilidad . . . . . . . . . . . . . . . .
21
2.6.2.
Espacio muestral . . . . . . . . . . . . . . . . . . . . . . .
21
2.6.3.
Parámetros
. . . . . . . . . . . . . . . . . . . . . . . . . .
21
2.6.4.
Grá ca
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
Distribución de Poisson
. . . . . . . . . . . . . . . . . . . . . . .
22
2.7.1.
Función masa de probabilidad . . . . . . . . . . . . . . . .
22
2.7.2.
Espacio muestral . . . . . . . . . . . . . . . . . . . . . . .
23
2.7.3.
Parámetros
. . . . . . . . . . . . . . . . . . . . . . . . . .
23
2.7.4.
Grá ca
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
3. Distribuciones continuas
3.1.
3.2.
Distribución uniforme continua
24
. . . . . . . . . . . . . . . . . . .
24
3.1.1.
Función de densidad . . . . . . . . . . . . . . . . . . . . .
24
3.1.2.
Espacio muestral . . . . . . . . . . . . . . . . . . . . . . .
24
3.1.3.
Parámetros
. . . . . . . . . . . . . . . . . . . . . . . . . .
25
3.1.4.
Grá ca
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
Distribución exponencial . . . . . . . . . . . . . . . . . . . . . . .
25
3.2.1.
Función de densidad . . . . . . . . . . . . . . . . . . . . .
25
3.2.2.
Espacio muestral . . . . . . . . . . . . . . . . . . . . . . .
26
3.2.3.
Parámetros
. . . . . . . . . . . . . . . . . . . . . . . . . .
26
3.2.4.
Grá ca
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
4
ÍNDICE GENERAL
3.3.
3.4.
3.5.
3.6.
Distribución triangular . . . . . . . . . . . . . . . . . . . . . . . .
26
3.3.1.
Función de densidad . . . . . . . . . . . . . . . . . . . . .
27
3.3.2.
Espacio muestral . . . . . . . . . . . . . . . . . . . . . . .
28
3.3.3.
Parámetros
. . . . . . . . . . . . . . . . . . . . . . . . . .
28
3.3.4.
Grá ca
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
Distribución normal
. . . . . . . . . . . . . . . . . . . . . . . . .
28
3.4.1.
Función de densidad . . . . . . . . . . . . . . . . . . . . .
29
3.4.2.
Espacio muestral . . . . . . . . . . . . . . . . . . . . . . .
29
3.4.3.
Parámetros
. . . . . . . . . . . . . . . . . . . . . . . . . .
29
3.4.4.
Grá ca
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
Distribución gamma
. . . . . . . . . . . . . . . . . . . . . . . . .
29
3.5.1.
Función de densidad . . . . . . . . . . . . . . . . . . . . .
30
3.5.2.
Espacio muestral . . . . . . . . . . . . . . . . . . . . . . .
30
3.5.3.
Parámetros
. . . . . . . . . . . . . . . . . . . . . . . . . .
30
3.5.4.
Grá ca
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
Distribución beta . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
3.6.1.
Función de densidad . . . . . . . . . . . . . . . . . . . . .
31
3.6.2.
Espacio muestral . . . . . . . . . . . . . . . . . . . . . . .
31
3.6.3.
Parámetros
. . . . . . . . . . . . . . . . . . . . . . . . . .
32
3.6.4.
Grá ca
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
4. Generadores de v.a. aleatorias uniformes
33
4.1.
Características deseables de un generador de números aleatorios .
33
4.2.
Métodos para generar variables aleatorias
34
4.3.
Generación de v. a. con distribución uniforme continua entre cero y uno
. . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
4.3.1.
Método de los cuadrados medios
. . . . . . . . . . . . . .
35
4.3.2.
Método congruencial multiplicativo . . . . . . . . . . . . .
35
5
ÍNDICE GENERAL
5. Métodos para otras distribuciones
5.1.
5.2.
5.3.
Método de transformación inversa
37
. . . . . . . . . . . . . . . . .
37
5.1.1.
Ejemplo: Distribución uniforme continua . . . . . . . . . .
38
5.1.2.
Ejemplo: Distribución exponencial
. . . . . . . . . . . . .
38
5.1.3.
Ejemplo: Distribución triangular
. . . . . . . . . . . . . .
38
Método de rechazo o de Monte Carlo . . . . . . . . . . . . . . . .
39
5.2.1.
Ejemplo: Distribución Normal Estándar . . . . . . . . . .
39
5.2.2.
Ejemplo: Distribución de Poisson . . . . . . . . . . . . . .
40
Método de simulación directa . . . . . . . . . . . . . . . . . . . .
41
5.3.1.
Ejemplo: Distribución Bernoulli . . . . . . . . . . . . . . .
41
5.3.2.
Ejemplo: Distribución Binomial . . . . . . . . . . . . . . .
41
5.3.3.
Ejemplo: Distribución Geométrica
41
5.3.4.
Ejemplo: Distribución Binomial Negativa
. . . . . . . . .
42
5.3.5.
Ejemplo: Distribución Hipergeométrica . . . . . . . . . . .
42
5.3.6.
Ejemplo: Distribución Normal . . . . . . . . . . . . . . . .
42
5.3.7.
Ejemplo: Distribución de Poisson . . . . . . . . . . . . . .
43
5.3.8.
Ejemplo: Cadena de Markov
44
Bibliografía
. . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
45
Índice de guras 1.1.
Distribución Ji Cuadrada
. . . . . . . . . . . . . . . . . . . . . .
11
1.2.
Regiones de aceptación y rechazo . . . . . . . . . . . . . . . . . .
12
1.3.
Distribuciones teóricas de probabilidad . . . . . . . . . . . . . . .
13
2.1.
Distribución Bernoulli
. . . . . . . . . . . . . . . . . . . . . . . .
15
2.2.
Distribución Binomial
. . . . . . . . . . . . . . . . . . . . . . . .
17
2.3.
Distribución Geométrica . . . . . . . . . . . . . . . . . . . . . . .
18
2.4.
Distribución Binomial Negativa o de Pascal
. . . . . . . . . . . .
19
2.5.
Distribución Hipergeométrica
. . . . . . . . . . . . . . . . . . . .
21
2.6.
Distribución Uniforme Discreta . . . . . . . . . . . . . . . . . . .
22
2.7.
Distribución Poisson
23
3.1.
Distribución Uniforme Continua
. . . . . . . . . . . . . . . . . .
25
3.2.
Distribucion exponencial . . . . . . . . . . . . . . . . . . . . . . .
26
3.3.
Distribución Triangular
. . . . . . . . . . . . . . . . . . . . . . .
28
3.4.
Distribución Normal
. . . . . . . . . . . . . . . . . . . . . . . . .
30
3.5.
Distribución gamma
. . . . . . . . . . . . . . . . . . . . . . . . .
31
3.6.
Distribución beta . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
. . . . . . . . . . . . . . . . . . . . . . . . .
6
Presentación Este texto es una revisión breve de conceptos de probabilidad, estadística y simulación digital. Está dirigido a alumnos universitarios interesados en este tema. Posteriormente le agregaremos algunos conceptos fundamentales al inicio y el manejo de software, tanto de Excel, como de R y Arena. Está dedicado a mi hija querida Estefanía, que es actuaria como yo.
7
Capítulo 1
Distribuciones de probabilidad 1.1.
Formas de calcular la probabilidad
Existen dos formas de calcular la probabilidad de un evento:
• teórica o
a priori
• empírica o
y
a posteriori.
La probabilidad teórica se calcula como la cardinalidad del conjunto de posibilidades del evento de interés, dividida entre la cardinalidad del espacio muestral, es decir, del conjunto de posibilidades totales del fenómeno bajo estudio.
1 2 . Esto lo sabemos sin lanzar o sin tener una moneda, ya que sólo hay una forma de que Por ejemplo, la probabilidad de que una moneda caiga en águila es ocurra águila entre dos posibilidades: águila o sol. En cambio, la probabilidad empírica requiere de la realización de una serie de experimentos. La probabilidad se calcula simplemente como el número de veces que ocurre el evento de interés, entre el número de experimentos. Se supone que si se hace un número grande de experimentos, la probabilidad empírica tenderá a parecerse a la probabilidad teórica. En general siempre es preferible utilizar la probabilidad teórica, cuando sea posible, por las siguientes razones:
• Se cuenta con una función matemática que permite hacer cálculos con facilidad.
• Se maneja el rango completo (la probabilidad empírica puede dejar fuera algunos valores si no ocurren en el experimento). 8
CAPÍTULO 1.
9
DISTRIBUCIONES DE PROBABILIDAD
• Se conocen los momentos de la función.
1.2.
Ajuste de una distribución teórica
Por las razones anteriores, es necesario utilizar un procedimiento para seleccionar la distribución teórica de probabilidad que se ajuste de mejor manera al fenómeno real. Nótese que se ajusta la distribución a los datos y no al revés. Esto implica realizar los siguientes pasos:
1. Revisar con cuidado las características del problema. Por ejemplo, la descripción del fenómeno puede ser orientadora en cuanto a la mejor distribución. 2. Recopilar una muestra representativa del fenómeno, es decir obtener datos. En muchos casos habrá necesidad de tomar muestras en diversos momentos del tiempo. Por ejemplo, supóngase que se observan las llegadas de personas a un banco. Seguramente habrá horas con menos a uencia y horas pico, por lo cual deberán ajustarse diversas distribuciones (o la misma con diversos parámetros) en cada intervalo 3. Observar el rango. Por ejemplo, si los datos observados son discretos, esto indicará que debe elegirse una distribución discreta. Por el contrario, si los datos observados son continuos, habrá que explorar este tipo de distribuciones. 4. Elaborar el histograma y compararlo con distribuciones teóricas. A partir de ello se selecciona una o más distribuciones factibles. Los paquetes estadísticos como
Statgraphics, R, SPSS, Statistica
o
Minitab,
entre otros,
ofrecen funciones especí cas para calcular la tabla de frecuencias y gra car el histograma. En muchos casos es posible gra car el histograma junto con la distribución hipotética. Esto ayudará a seleccionar la mejor distribución. 5. Efectuar una prueba de hipótesis de bondad de ajuste, para veri car si la distribución planteada es realmente apropiada para los datos. Las pruebas de bondad de ajuste que más se utilizan son: Ji-Cuadrada, KolmogorovSmirnov, Corridas, etcétera. Si hay varias distribuciones que cumplen con la prueba seleccionada, se elige aquella que tenga el menor valor para el estadístico
1.3.
X,
o el mayor valor-p (
p-value ).
Prueba Ji-Cuadrada de bondad de ajuste
La prueba de hipótesis Ji-Cuadrada de bondad de ajuste se utiliza para veri car, de manera objetiva y sin intervención del juicio personal, si una distribución de
CAPÍTULO 1.
10
DISTRIBUCIONES DE PROBABILIDAD
probabilidad en particular es apropiada para los datos que se han recopilado. Esta prueba se considera poco e ciente porque es sensible al número y tamaño de clases en que se divida el espacio muestral [3, 2]. Para efectuar esta prueba, una vez obtenida la muestra y elegida una distribución apropiada
f,
se procede de la siguiente forma:
1. Se plantean la hipótesis nula y la hipótesis alternativa, de la siguiente forma:
H0 :
Los datos provienen de la distribución de probabilidad
Ha :
Los datos provienen de cualquier otra distribución.
vs.
f.
2. Se construye un estadístico de prueba que compare los valores de la hipótesis con los de la muestra y que se distribuya aproximadamente como alguna distribución de probabilidad conocida. En este caso el estadístico
X 2:
se distribuye aproximadamente como una Ji Cuadrada con
grados de libertad, donde cuencias y
p
K
K −1−p
es el número de clases de de la tabla de fre-
es el número de parámetros estimados en la distribución.
X2 =
K 2 X (F Ei − F Oi ) i=1
F Ei
3. Dado que el estadístico se distribuye como una Ji-Cuadrada, puede establecerse una región de rechazo y una región de aceptación para la hipótesis. Podemos recordar aquí la grá ca de la distribucion Ji-Cuadrada, que es semejante a una ballena, como puede verse en la Figura 1.1. La región de rechazo estará donde el estadístico sea muy lejano de cero, es decir, en la cola de la distribución, hacia la derecha. La región de aceptación se ubica del lado del cero. Las regiones se dividen por el llamado punto crítico, y corresponde al valor de Ji Cuadrada con utilizar
α = 0.05.
K −1−p
x
para el área de
(1 − α)en
una
grados de libertad. En general se acostumbra
Esto se ejempli ca en la Figura 1.2. De tal manera que
la regla de decisión puede especi carse entonces como: Aceptar
vs.
H0
Rechazar
con un 95 % de con anza si
H0
El valor de a través de
X 2 < χ21−α, K−1−p
.
en caso contrario.
χ21−α, K−1−p,
puede obtenerse de un software estadístico o
Excel, con la función:
PRUEBA.CHI.INV(probabilidad,grados_de_libertad).
CAPÍTULO 1.
DISTRIBUCIONES DE PROBABILIDAD
11
Figura 1.1: Distribución Ji Cuadrada
Existe también software como
EasyFit
que se encarga de evaluar todas
las distribuciones factibles e indicar cuál es la que tiene un estadístico menor. Nota:
Una forma alternativa de hacer la prueba de hipótesis es utilizar el valor
p
o
p-value.
Este valor representa la probabilidad de que la hipótesis
nula sea verdadera, dados los datos de la muestra. Los paquetes estadísticos suelen arrojar también esta probabilidad que es el área bajo la curva que se encuentra hacia la derecha del estadístico. La regla de decisión es muy sencilla: Aceptar
H0 con un 95 % de con anza H0 en caso contrario.
si el valor
p
es mayor que
α = 0.05.
Rechazar
1.4.
Prueba Kolmogorov-Smirnov de bondad de ajuste
Esta prueba se utiliza también para veri car [1]
CAPÍTULO 1.
DISTRIBUCIONES DE PROBABILIDAD
12
Figura 1.2: Regiones de aceptación y rechazo
1.5.
Principales distribuciones teóricas
Las distribuciones teóricas de probabilidad se pueden dividir, según su espacio muestral, en discretas y continuas. En el caso de las distribuciones discretas se hablará de una función masa de probabilidad, mientras que en las continuas se utiliza la función de densidad. En la Figura 1.3 se muestran algunas de las distribuciones teóricas más utilizadas.
CAPÍTULO 1.
DISTRIBUCIONES DE PROBABILIDAD
Figura 1.3: Distribuciones teóricas de probabilidad
13
CapĂtulo 2
Distribuciones discretas Las distribuciones de probabilidad discretas son aquellas cuyo espacio muestral es discreto, es decir, numerable. Para estas distribuciones se cuenta con una funciĂłn masa de probabilidad.
2.1.
DistribuciĂłn Bernoulli
La distribuciĂłn Bernoulli se utiliza para modelar eventos donde la variable aleatoria (v. a.) representa un evento que sĂłlo puede tener dos resultados. Por ejemplo, al lanzar una moneda (ejemplo clĂĄsico), se puede obtener ĂĄguila o sol. En general se suelen denotar los dos eventos por cero (0) y uno (1). De modo que puede considerarse que, para la moneda, ĂĄguila sea 0 y sol sea 1. Entonces la variable aleatoria puede tomar esos dos valores.
2.1.1. FunciĂłn masa de probabilidad La ecuaciĂłn 2.1 representa la probabilidad de un evento Bernoulli:
  p p (x) = 1 â&#x2C6;&#x2019; p   0
x=1 x=0
(2.1)
Otro caso
2.1.2. Espacio muestral Los dos posibles eventos de una distribucion Bernoulli se suelen representar como:
x {0, 1}.
Si bien se acostumbra referirse a ellos como ĂŠxito y fracaso ,
debe recordarse que estos tĂŠrminos son arbitrarios y que no necesariamente son aplicables en la realidad. 14
CAPÍTULO 2.
15
DISTRIBUCIONES DISCRETAS
Figura 2.1: Distribución Bernoulli
2.1.3. Parámetros El único parámetro es la probabilidad de éxito o de que ocurra el evento de interés:
0 ≤ p ≤ 1.
2.1.4. Grá ca La grá ca de esta distribución sería únicamente cero en el origen y
p
en uno,
como se ve en la Figura 2.1. Más información en: Bernoulli distribution. (2009, julio 7). En
Wikipedia, The Free Encyclopedia.
Fecha de consulta; 18:35, agosto 20, 2009, en (Ir a Wikipedia). En general se ecuentra una información apropiada acerca de las distribuciones de probabilidad en la
Wikipedia
2.2.
en inglés.
Distribución binomial
La distribución binomial se usa cuando la v. a. representa el número de éxitos en un conjunto de
n
eventos Bernoulli independientes. Por ejemplo, el
número de soles obtenidos en 28 lanzamientos. En este caso
n = 28
y
p = 0.5.
CAPÍTULO 2.
16
DISTRIBUCIONES DISCRETAS
2.2.1. Función masa de probabilidad La distribución binomial se expresa con la ecuación 2.2, en la cual presenta las combinaciones de
n x
re-
n elementos tomados de x en x; lo cual se calcula
como:
n! (n − x)!x! .
p(x) =
n x
n−x
px (1 − p)
(2.2)
2.2.2. Espacio muestral En este caso la v. a. puede tomar los siguientes valores:
x ∈ {0, 1, 2, . . . , n},
es
decir, puede haber desde cero éxitos hasta el tamaño de la muestra, lo cual representaría que todos los elementos de la muestra contienen la característica de interés.
2.2.3. Parámetros Esta función tiene dos parámetros:
•
n ∈ N,
•
0 ≤ p ≤ 1,
que representa el tamaño de la muestra y que es la probabilidad de éxito .
2.2.4. Grá ca La grá ca de la distribución binomial se aprecia en la Figura 2.2.
2.3.
Distribución geométrica
La distribución geométrica se utiliza cuando la v. a. representa el número de ensayos Bernoulli independientes, necesarios para obtener el primer éxito o elemento con la característica de interés. Por ejemplo, la v. a. puede reprentar el número de hijos que debe tener una pareja, necesarios para que nazca el primer varón.
CAPÍTULO 2.
17
DISTRIBUCIONES DISCRETAS
Figura 2.2: Distribución Binomial
2.3.1. Función masa de probabilidad La ecuación 2.3 representa la probabilidad de obtener el primer éxito , exactamente en es
x
ensayos Bernoulli independientes, donde la probabildad de éxito
p. x−1
p(x) = p (1 − p)
(2.3)
2.3.2. Espacio muestral Dado que se requiere al menos un ensayo para tener un éxito y además es posible que jamás ocurra un evento de este tipo, el espacio muestral es:
x ∈
{1, ..., ∞}.
2.3.3. Parámetros El único parámetro es
p ∈ [0, 1],
que representa la probabilidad de éxito .
2.3.4. Grá ca La grá ca de la función geométrica para un caso especial de Figura 2.3.
p
puede verse en la
CAPÍTULO 2.
18
DISTRIBUCIONES DISCRETAS
Figura 2.3: Distribución Geométrica
2.4.
Distribución binomial negativa o de Pascal
La distribución binomial negativa o distribución de Pascal se usa cuando la v. a. representa el número de ensayos necesarios para obtener el
r-ésimo éxito, en
una serie de ensayos Bernoulli independientes. Por ejemplo, si se pregunta a un grupo de personas si están de acuerdo o no con las políticas del gobierno actual, la v. a. podría ser el número de personas que deben entrevistarse para obtener diez respuestas de acuerdo. En este caso el éxito signi ca que una persona está de acuerdo y
r
sería diez.
2.4.1. Función masa de probabilidad La función masa de probabilidad está de nida en la ecuación 2.4.
p (x) =
x−1 r−1
x−r
pr (1 − p)
(2.4)
2.4.2. Espacio muestral En este caso la variable aleatoria es mínimo de los
r
r
éxitos.
ensayos para obtener
x ∈ {r, r + 1, ..., ∞}. Es decir, se requiere un r éxitos, y es posible que jamas se obtengan
CAPÍTULO 2.
19
DISTRIBUCIONES DISCRETAS
Figura 2.4: Distribución Binomial Negativa o de Pascal
2.4.3. Parámetros Los parámetros de la distribución son:
•
p ∈ [0, 1]
•
r ∈ N.
y
2.4.4. Grá ca La distribución binomial negativa para
r = 10
y
p = 0.5
se ilustra en la Figura
2.4.
2.5.
Distribución hipergeométrica
La distribución hipergeométrica se usa cuando la v.a.
X
representa el nú-
mero de elementos con cierta característica en una muestra aleatoria de tamaño
n
extraída sin reemplazo de una población de tamaño
N,
en la cual hay ele-
mentos de dos tipos: los que poseen la característica y los que no la poseen. La población inicial contiene tanto
N (1 − p)
Np
elementos con la característica de interés (por lo
sin la característica).
La distribucion hipergeométrica se usa mucho en control de calidad, ya que suelen extraerse muestras sin reeemplazo de los productos para revisar si tienen o no algún defecto de fabricación.
CAPÍTULO 2.
20
DISTRIBUCIONES DISCRETAS
2.5.1. Función masa de probabilidad La función masa de esta distribución se muestra en la ecuación 2.5.
p(x) =
Np x
N (1 − p) n−x N n
(2.5)
2.5.2. Espacio muestral El espacio muestral depende de dos aspectos: del tamaño de la muestra y del número de elementos en la población que poseen la característica. Así pues, los valores que puede tomar la variable aleatoria son:
x ∈ {m´ ax [0, n − N (1 − p)] , . . . , m´ın [n, N p]}
2.5.3. Parámetros La distribución hipergeométrica tiene tres parámetros:
• El tamaño de la población: • El tamaño de la muestra:
N ∈ Z+ ,
n ∈ {1, 2, . . . , N }
y
• La probabilidad de que un elemento de la población tenga la característica:
p ∈ (0, 1).
2.5.4. Grá ca Un ejemplo de la función hipergeométrica con
N = 100, n = 20
y
p = 0.5,
se
puede observar en la Figura 2.5.
2.6.
Distribución uniforme discreta
La distribución uniforme discreta se usa cuando todos los valores del espacio muestral tienen idéntica probabilidad de ocurrencia. Se aplica sobre todo en muestreo aleatorio, donde cada elemento debe tener la misma probabilidad de aparecer en la muestra.
CAPÍTULO 2.
21
DISTRIBUCIONES DISCRETAS
Figura 2.5: Distribución Hipergeométrica
2.6.1. Función masa de probabilidad Si el mínimo valor de la v. a. es
a y el máximo es b, y existen n valores puntuales
en este intervalo, la función masa será la correspondiente a la ecuación 2.6.
p(x) =
1 n
2.6.2. Espacio muestral Como es evidente, la v. a. puede tomar los siguientes valores:
x ∈ {a, a + 1, . . . , b = a + (n − 1)}.
2.6.3. Parámetros La distribución uniforme discreta tiene dos parámetros:
• El valor mínimo
a∈Z
• El valor máximo
b ∈ Z,
y de modo que
a < b.
(2.6)
CAPÍTULO 2.
DISTRIBUCIONES DISCRETAS
22
Figura 2.6: Distribución Uniforme Discreta
2.6.4. Grá ca La función uniforme también se llama rectangular, ya que su grá ca corresponde a la Figura 2.6, para
2.7.
a=1
y
b = 10.
Distribución de Poisson
La distribución de Poisson se utiliza mucho en simulación. Se usa cuando la v. a. representa el númeron de ocurrencias de un evento en un intervalo de tiempo o espacio. Por ejemplo, puede usarse para la distribución de llegadas de autos a un estacionamiento, o para el número de errores de ortografía en cada página de unos apuntes.
2.7.1. Función masa de probabilidad La función de Poisson se representa con la ecuación 2.7. Es importante recordar que los tiempos entre ocurrencias de una distribución Poisson se comportan como una distribución exponencial, que se verá en la sección 3.2.
p(x) =
λx e−λ x!
(2.7)
CAPÍTULO 2.
DISTRIBUCIONES DISCRETAS
23
Figura 2.7: Distribución Poisson
2.7.2. Espacio muestral Dado que la v. a. representa el número de ocurrencias de un evento, el espacio muestral es:
x ∈ {0, 1, . . . , ∞}.
2.7.3. Parámetros El único parámetro de esta distribución es
λ ∈ R+ , que representa la intensidad
o promedio de ocurrencias por unidad de tiempo o espacio.
2.7.4. Grá ca La grá ca de la distribucion Poisson para
λ = 10
se muestra en la Figura 2.7.
Capítulo 3
Distribuciones continuas Estas distribuciones se utilizan cuando la v. a. tiene su rango en un intervalo de puntos. Para ellas se cuenta con una función de densidad. A continuación se presentan las principales características de algunas de las distribuciones continuas más usadas.
3.1.
Distribución uniforme continua
Si la va representa algún punto en el intervalo
[a, b],
y todos los puntos tienen
idéntica probabilidad, se usa la función uniforme continua. Casi no se usa para ejemplos reales, pero es la base de la simulación, cuando el rango es de cero a uno. Se usa particularmente para generar variables aleatorias con todo tipo de distibuciones.
3.1.1. Función de densidad La ecuación 3.1 muestra la distribución uniforme continua, también llamada rectangular por su gura.
f (x) =
1 b−a
(3.1)
3.1.2. Espacio muestral En este caso la v.a. puede tomar cualquier punto del intervalo, es decir,
x ∈ [a, b].
Es convieniente recordar aquí que la probabilidad de un punto especí co de una distribucion continua es cero, por lo cual no hace diferencia el tomar un intervalo cerrado o abierto. 24
CAPÍTULO 3.
25
DISTRIBUCIONES CONTINUAS
Figura 3.1: Distribución Uniforme Continua
3.1.3. Parámetros Los parámetros de esta distribución son:
•
a ∈ R,
que representa el valor mínimo, y
•
b ∈ R,
que representa el valor máximo.
3.1.4. Grá ca La Figura 3.1 muestra la grá ca de esta función, para
3.2.
a=0
y
b = 1.
Distribución exponencial
La distribución exponencial se usa cuando la v.a. representa el tiempo entre la ocurrencia de eventos de tipo Poisson. Se utilieza por ejemplo para tiempos entre llegadas, tiempos entre fallas, tiempos de llamadas telefónicas, etcétera.
3.2.1. Función de densidad La ecuación 3.2 represesenta el comportamiento de la distribución exponencial.
f (x) = λe−λx
(3.2)
CAPÍTULO 3.
DISTRIBUCIONES CONTINUAS
26
Figura 3.2: Distribucion exponencial
3.2.2. Espacio muestral Dado que la v. a. representa el tiempo entre dos eventos de tipo Poisson, su rango es
x ∈ (0, ∞).
3.2.3. Parámetros El parámetro es
λ
que representa el promedio de ocurrencias por unidad de
tiempo. De manera que
1 λ representará el tiempo promedio entre ocurrencias.
3.2.4. Grá ca En la Figura 3.2 se observa el comportamiento de la función exponencial para
λ=1
evento por unidad de tiempo.
3.3.
Distribución triangular
La distribución triangular se usa cuando la v.a. tiene tres puntos sencillos de identi car, que generalmente se denominan como:
•
O
que es el valor mínimo o el más optimista .
CAPÍTULO 3.
27
DISTRIBUCIONES CONTINUAS
Likely ).
•
L
que es el valor más probable (
•
P
que es el valor máximo o el más pesimista .
Con estos tres puntos puede formarse un tríángulo de altura h que corresponde a x = L. Como el área del triángulo debe ser uno para conformar una distribución de probabilidad, se tendrá que:
Área del triángulo
=1=
(P − O)h 2
Entonces:
h=
2 P −O
Por lo tanto, el triángulo se forma con los tres puntos:
2 (O, 0), L, P −O y(P, 0).
De manera que se pueden trazar dos rectas, con cada pareja de puntos.
f (x) =
Recta1
si
O≤x≤L
Recta2
si
L≤x≤P
Esta función se utiliza cuando hay tres puntos que distinguen el comportamiento de la v. a. Por ejemplo, en el método PERT (ruta crítica con tiempos estocásticos), se usa para asignar la probabilidad de acuerdo con el tiempo mínimo para completar una acción (tiempo optimista); el tiempo más probable; y el máximo (tiempo pesimista). Aunque no es necesario que sean de esta manera. Por ejemplo, en las cali caciones de esta materia podrían ser 5, 7 y 10, las cali caciones mínima (pesimista), más probable y máxima (optimista).
3.3.1. Función de densidad De acuerdo con lo anterior, la función de distribución estará seccionada y se representa con la ecuación 3.3, que se obtiene de las rectas que pasan por cada pareja de puntos:
f (x) =
2 (x − O) (L−O)(P −O) 2 (P − x)
(P −L)(P −O)
si
O≤x≤L (3.3)
si
L≤x≤P
CAPÍTULO 3.
DISTRIBUCIONES CONTINUAS
28
Figura 3.3: Distribución Triangular
3.3.2. Espacio muestral En este caso puede verse que
x ∈ [O, P ].
3.3.3. Parámetros x
Los parámetros son los tres valores de
ya señalados arriba:
•
O
que es el valor mínimo o el más optimista .
•
L
que es el valor más probable (
•
P
que es el valor máximo o el más pesimista .
Likely ).
3.3.4. Grá ca En la Figura 3.3 se muestra la distribución triangular para
O = 0, L = 7
y
P = 10.
3.4.
Distribución normal
La distribución normal se usa cuando la v.a. tiene una distribución simétrica, agrupada alrededor de la media. Muchos fenómenos tienen este comportamiento,
CAPÍTULO 3.
DISTRIBUCIONES CONTINUAS
29
ya que tienden a un valor central y su probabilidad disminuye al alejarse de este valor. Además, se usa en muchas pruebas estadísticas debido al Teorema del Límite Central, que indica que la suma o el promedio de una muestra grande que provenga de cualquier distribución, tenderá a distribuirse como una normal.
3.4.1. Función de densidad La función de densidad se expresa con la ecuación 3.4.
f (x) = √
1 2πσ 2
e−
(x−µ)2 2σ 2
(3.4)
3.4.2. Espacio muestral Las v. a. con distribución normal son
x ∈ R.
3.4.3. Parámetros La distribución normal tiene dos parámetros:
• La media
µ,
que es el valor hacia el cual tienden a agruparse los datos.
• La desviación estándar
σ,
que es una medida de la dispersión de los datos
con respecto a la media.
3.4.4. Grá ca La Figura muestra la distribución normal estándar, es decir, aquella cuyos parámetros son:
3.5.
µ=0
y
σ = 1.
Distribución gamma
Si un proceso consiste de
k
eventos sucesivos y el tiempo total transcurrido de
k variables exponenciales indepenλ, la distribución de probabilidad de esta suma será una distribución gamma con parámetros λ y k . Esta distribución se puede usar, por ejemplo, para la probabilidad de que fallen k focos de un salón de este proceso puede verse como una suma de dientes, cada una con parámetro
clase.
CAPÍTULO 3.
30
DISTRIBUCIONES CONTINUAS
Figura 3.4: Distribución Normal
3.5.1. Función de densidad La ecuación 3.5 muestra la fución de densidad de una distribución gamma en la cual
k ∈ Z+ . f (x) =
λ k−1 −λx (λx) e (k − 1)!
(3.5)
3.5.2. Espacio muestral En este caso la v. a.
x ∈ (0, ∞).
3.5.3. Parámetros Los parámetros son:
•
k ∈ Z+
•
λ ∈ R+
3.5.4. Grá ca La Figura 3.5 muestra una función gamma con
r=3
y
λ = 1.
CAPÍTULO 3.
31
DISTRIBUCIONES CONTINUAS
Figura 3.5: Distribución gamma
3.6.
Distribución beta
La distribución beta permite generar una gran variedad de pre les. Se utiliza para representar variables físicas cuyos valores se encuentran restringidos a un intervalo de longitud nita y para obtener ciertas cantidades que se conocen como límites de tolerancia en estadística bayesiana, o para redes neuronales.
3.6.1. Función de densidad La ecuación 3.6 representa la función de densidad beta.
f (x) =
Γ (α + β) α−1 β−1 x (1 − x) Γ (α) Γ (β)
Donde:
Γ (n) = (n − 1) Γ (n − 1) Si
n > 0.
3.6.2. Espacio muestral Para la función beta
x ∈ [0, 1].
(3.6)
CAPÍTULO 3.
32
DISTRIBUCIONES CONTINUAS
Figura 3.6: Distribución beta
3.6.3. Parámetros Los parámetros son:
•
α>0
y
•
β>0
.
3.6.4. Grá ca La Figura 3.6 representa la distribución beta para
α = 1.5
y
β = 2.
Capítulo 4
Generadores de v.a. aleatorias uniformes 4.1.
Características deseables de un generador de números aleatorios
Un generador de números es un algoritmo o procedimiento que permite obtener un conjunto de valores que satisfacen las propiedades de alguna distribución de probabilidad. Aún cuando los números resultantes no sean estrictamente aleatorios sino que tengan un origen determinista, lo importante es que se comporten como aleatorios. En ese sentido, el generador debe tener las siguientes características deseables:
1. Debe generar números que se comporten como
aleatorios,
es decir, que
satisfagan una prueba de bondad de ajuste (por ejemplo Ji-Cuadrada o Kolmogorv-Smirnov) para la distribucion de probabilidad que se desea simular. 2. Debe ser
e ciente,
es decír, generar los números con rapidez, con pocos
pasos. 3. Debe requerir
poco o ningún espacio de almacenamiento
4. Debe generar
muchos números diferentes
en memoria.
antes de repetir la misma se-
cuencia (tener un período largo). 5.
No debe degenerar,
es decir, no deben existir uno o más valores para los
cuales el método resulte convergente y el resultado sea siempre el mismo valor.
33
CAPÍTULO 4.
6. Debe ser
GENERADORES DE V.A. ALEATORIAS UNIFORMES
replicable,
34
es decir, debe permitir la posibilidad de generar la
misma secuencia de números si asi se desea, sin necesidad de almacenarlos. 7. Debe ser sencillo de utilizar. 8. Debe ser económico.
4.2.
Métodos para generar variables aleatorias
Existen diversas formas de generar números aleatorios, de las cuales prácticamente utilizaremos una:
1.
Métodos manuales, como el uso de dados, monedas, papeles en una urna, etcétera. Resulta lento y costoso, impracticable para obtener cantidades grandes de datos.
2.
Tablas de números aleatorios. En realidad las tablas existentes se han obtenido de métodos analógicos. En ellas se presentan grandes conjuntos de dígitos y se indican técnicas para seleccionar apropiadamente los valores necesarios. Todavía se utilizan en ámbitos como el control de calidad. Puedes consultar algunas tablas de números aleatorios en Internet y también se venden libros completos que las incluyen.
3.
Generadores analógicos. Los números obtenidos de esta forma pueden considerarse como realmente aleatorios. Por lo general se obtienen de algún aparato que registra un fenómeno real y convierte los registros en números que pueden ser almacenados y utilizados. Sin embargo, exigen almacenamiento en memoria y no son replicables.
4.
Generadores digitales.
Permiten obtener valores aleatorios (con más pro-
piedad llamados seudoaleatorios) a partir de algoritmos deterministas instrumentados en computadoras digitales. Si se eligen correctamente sus características, estos generadores cumplen con todas las propiedades deseables. Es la forma más utilizada en la actualidad.
4.3.
Generación de v. a. con distribución uniforme continua entre cero y uno
Así como en la estadística la distribución uniforme es la piedra angular, dentro de la simulación todos los metodos se basan en la generación de variables aleatorias con distribución uniforme continua entre cero y uno. ¾Cuál es la razón de esto? Como se sabe, toda distribución acumulada, discreta o continua, toma valores que van de cero a uno. Si es posible simular valores para esta distribución, puede
CAPÍTULO 4.
GENERADORES DE V.A. ALEATORIAS UNIFORMES
35
pensarse de manera lógica que habrá alguna forma de proyectarlos o mapearlos para encontrar los valores respectivos de la variable aleatoria. Es decir, aquí se trabaja de manera inversa a como se hace en probabilidad. En probabilidad se parte de la variable y se calcula la probabilidad. Ahora la idea es partir de la probabilidad y obtener la variable. De aquí la importancia de comenzar el proceso con la simulación de la distribución uniforme que, a su vez, será empleada posteriormente para generar cualquier otra distribución. A continuación se analizan brevemente dos métodos para generar valores con distribución uniforme continua entre cero y uno. El primero tiene únicamente valor histórico, ya que no cumple con las propiedades deseables, pero servirá, precisamente, para analizar dichas propiedades.
4.3.1. Método de los cuadrados medios Procedimiento:
1. Seleccionar un número con semilla o, en inglés,
seed.
n dígitos, donde n es par. Este número se llama
2. El número anterior se eleva al cuadrado y, si es necesario, se le agregan ceros del lado izquierdo de manera que se obtenga un número con 3. Se toman los
n
2n.
dígitos del centro como un nuevo número aleatorio.
4. Se repite el proceso, tantas veces como sea necesario. 5. Los números resultantes se dividen entre
10n
para obtener nalmente va-
lores entre cero y uno.
Este método fue propuesto por Von Neumann. Sin embargo, no cumple con las características deseables porque es relativamente lento y suele degenerar con valores pequeños.
4.3.2. Método congruencial multiplicativo Este método se basa en la operación
módulo
y la
relación de congruencia.
El
generador se expresa de manera general con la ecuación recursiva:
ri+1 ≡ a · ri (modm )
(4.1)
Esto se lee como r-i-más-uno es congruente con a por r-i en módulo m . La ecuación se instrumentará en una computadora digital, cuyo tamaño de palabra es
b+1
bits. De estos bits el primero se utiliza para de nir el signo de cada
número, así pues quedarán sólo
b
bits disponibles para almacenar los dígitos
CAPÍTULO 4.
GENERADORES DE V.A. ALEATORIAS UNIFORMES
36
cero o uno. Esto signi ca que el máximo número que puede almacenarse en esta computadora es
2b−1 − 1
y el mínimo es cero (recuérdese que el primer bit del
20 ,
extremo derecho irá multiplicado por
el siguiente a la izquierda por
21
y así
sucesivamente). Por lo tanto, esta computadora trabajará, si más remedio, en módulo
m = 2b ,
así que si se elige este valor como módulo, no será necesario
hacer la operación y, al mismo tiempo, se ocupará la mayor cantidad de números posibles. Así pues, en el generador congruencial multiplicativo, según lo anterior más otras reglas derivadas de la experiencia, conviene usar:
• La semilla r0 debe ser algún número impar entre cero y • El coe ciente
a
debe ser tal que
• El módulo debe ser
a≈2
b+1 2
y
a = 8t ± 3
2b .
para
t = 0, 1, 2, . . .
m = 2b .
Por supuesto, los resultados serán valores enteros entre cero y el módulo, por lo tanto, para obtener valores entre cero y uno bastará dividirlos entre el módulo. Si se supone una computadora extremadamente sencilla, de 4 bits por palabra, el seudocódigo del algoritmo sería:
Leer semilla IY; debe ser entero corto o short int IY:=5*IY IF (IY<0) THEN (IY:=IY+7+1) YFL:=IY*0.125 ENDIF Para otro tipo de computadora, bastaría con modi car este código cambiando el coe ciente y el módulo. Este método es el que utilizan:
• Las calculadoras en sus funciones •
Excel
en la función
Rnd
o
Rand
o
Random.
=aleatorio().
• Los lenguajes de programación generales como C, cétera, en sus funciones
rand
o
Rnd.
Visual Basic, Java, et-
• Los lenguajes de simulación que se verán más adelante.
Capítulo 5
Métodos para otras distribuciones Una vez que se ha visto que es posible generar valores aleatorios uniformes, se pueden considerar tres alternativas para generar variables aleatorias con
quier distribución de probabilidad
cual-
o, eventualmente, cualquier proceso estocás-
tico:
1. El
bueno : Transformación inversa.
2. El
malo : Rechazo o Monte Carlo.
3. El
feo : Simulación directa.
A continuación se explica brevemente cada uno de ellos. Por supuesto, elegir el mejor método será labor de la persona que analiza cada problema en particular.
5.1.
Método de transformación inversa
Es el mejor método porque genera una variable aleatoria por cada iteración. Es por lo tanto el método más e ciente. Simplemente invierte la función de distribución acumulada, a través de estos paso:
1. Se obtiene, si existe, la expresión analítica de la función de distribución acumulada:
FX (x) = P (X ≤ x).
Esta función es una suma para las va-
riables aleatorias discretas o una integral para las continuas. No siempre existe la expresión analítica, como puede ser el caso de la normal. Para estas distribuciones se usará otro método.
37
CAPÍTULO 5.
38
MÉTODOS PARA OTRAS DISTRIBUCIONES
2. Se obtiene un número calculadora, de
r ∼ U nif (0, 1).
¾De dónde? Simplemente de la
Excel ; o del equivalente en algún lenguaje de programación.
3. El número se iguala a la función de distribución:
r = FX (x).
4. El generador se obtiene despejando (si es posible) el valor de
x = F −1 (r).
x,
es decir:
Si no es posible, como pudiera ser el caso de la Poisson,
deberá usarse otro método. Como puede verse, este método es excelente pero no siempre es aplicable. A continuación se muestran algunos ejemplos.
5.1.1. Ejemplo: Distribución uniforme continua El generador para esta distribución se obtiene a rraves de su respectiva función de distribución acumulada, es decir:
ˆx F (x) =
x−a 1 dx = b−a b−a
a
r=
x−a b−a
⇒ x = a + (b − a) r
(5.1)
5.1.2. Ejemplo: Distribución exponencial El generador para esta distribución es:
x=
− ln r λ
(5.2)
5.1.3. Ejemplo: Distribución triangular En esta distribución debe tenerse cuidado porque la función de densidad está dividida en dos partes. De la misma forma, el generador de variables aleatorias tiene dos ecuaciones que son: Si
r≤
c−a b−a x=a+
Si
p
r(c − a)(b − a)
(5.3)
r > c−a b−a x=b−
p (1 − r)(b − c)(b − a)
(5.4)
CAPÍTULO 5.
5.2.
39
MÉTODOS PARA OTRAS DISTRIBUCIONES
Método de rechazo o de Monte Carlo x y evaluar su función
En general el procedimiento consiste en generar valores de
masa o de densidad. Se trata de aceptar los valores con más probabilidad y rechazar los que tengan poca probabilidad. Procedimiento:
1. Encerrar a la función masa o de densidad en un rectángulo. La altura del rectángulo será la función evaluada en la moda y se denota por
M . La ba-
se del rectángulo debe ser el rango; sin embargo hay funciones con rangos in nitos (Poisson, Normal,...), en estas funciones debe truncarse el rango en algún punto razonable, de modo que se consideren la mayoría de los datos. En general puede truncarse en la media más/menos dos desviaciones estándar. OJO: mientras más grande sea el rango considerado, menos e ciente será el método, porque el área de rechazo será mayor. 2. Se generan dos números aleatorios
r1
y
r2
con distribución uniforme con-
tinua entre cero y uno. 3. El primero se usa para generar la variable aleatoria. Si el rectángulo tiene una base que inicia en
a
y termina en
4. Se calcula la función para 5. El otro número uniforme,
b,
x: f (a + r1 (b − a)). r2 ,
se utiliza para calcular un punto sobre el eje
vertical, que se obtendrá como el valor: cero y
x = a + r1 (b − a)
el valor de
M r2 ,
que será una cantidad entre
M.
6. Regla de decisión: se acepta la variable aleatoria
x si M r2 ≤ f (a+r1 (b−a)).
En caso contrario se rechaza la variable y es necesario hacer otra iteración desde el Paso 1.
Conviene organizar estos pasos en una tabla para entender el procedimiento y seguirlo con mayor facilidad.
5.2.1. Ejemplo: Distribución Normal Estándar El ejemplo está resuelto en la hoja de cálculo de
Excel.
Los pasos anteriores
quedan como:
1. La
altura
del rectángulo es la función normal estándar evaluada en la
moda, es decir, en cero. En como:
Excel
el valor de
=distr.norm(0,0,1,falso).
M
se calcularía entonces
El primer valor es
x,
el segundo es
la media, el tercero es la desviación estándar y el último falso indica que sólo se calculará la función de densidad y no la acumulada. La
base
CAPÍTULO 5.
40
MÉTODOS PARA OTRAS DISTRIBUCIONES
del rectángulo estará de nida por la media más/menos dos desviaciones estándar, de manera que
a = −2
y
b = 2.
Estos límites pueden cambiarse,
pero hacerlos mayores en valor absoluto ocasionará que se rechacen más variables. 2. Las dos primeras columnas de la hoja de ro de iteración, contienen los valores
=aleatorio().
r1
y
3. La cuarta columna contiene los valores de
Excel, r2 ,
posteriores al núme-
obtenidos con la función
x = −2 + 4(r1 ).
Se observan
únicamente valores entre -2 y 2. 4. La quinta columna contiene la función normal evaluada en cada valor de
x,
es decir,
f (x).
5. Se calcula el producto
M r2 .
6. En la sexta columna se coloca la regla de decisión: sólo se acepta la variable aleatoria
x
si
M r2 ≤ f (x).
En caso contrario se escribe el texto
Rechazado .
Es posible hacer una grá ca de los valores, de tal manera que destaquen de manera distinta los aceptados y los rechazados. De cualquier forma, el conjunto
Statgraphics ) para aplicarle pruebas de bondad de ajuste con respecto a la normal. Únicamente debe observarse que al hacer el proceso de copia-y-pega de Excel a Statgraphics los datos quedarán como caracteres, ya que incluyen la palabra Rechazado . Al modi car la columna en Statgraphics y hacerla numérica, de resultados obtenidos puede trasladarse a un software estadístico (como
desaparecerán los datos textuales y será posible efectuar las pruebas.
5.2.2. Ejemplo: Distribución de Poisson El ejemplo se muestra también en la hoja de una Poisson con media
a = 0,
ya que el rango
Excel.
Dado que se ha supuesto
λ = 5, conviene usar como base es x ≥ 0; mientras que el valor
por la media más dos desviaciones estándar, es decir:
del rectángulo el valor
b puede√estar b = 5 + 2 5 =. de
dado Si se
amplía el rango, el método será más lento ya que contendrá mayor número de variables rechazadas. Por otro lado, la altura está dada por la función evaluada en la media, en este caso
=Poisson(5,5,falso).
Ahora, en el caso de la Poisson es importante notar que la variable aleatoria
x
debe ser discreta, por lo cual se modi ca el contenido de la cuarta colum-
na, colocando el redondeo a cero decimales o el valor entero (es preferible lo primero).
CAPÍTULO 5.
5.3.
41
MÉTODOS PARA OTRAS DISTRIBUCIONES
Método de simulación directa
Este método requiere de conocer las propiedades de las distribuciones. Se utiliza el método de transformación inversa y se re-crea a través de ellas la variable correspondiente. No hay una regla general (por eso es un poco feo), sino que debe
pensarse
para cada caso.
5.3.1. Ejemplo: Distribución Bernoulli Un ejemplo especí co: una moneda, puede caer en águila (0) con probabilidad de .5 o en sol (1) con probabilidad de 0.5. ¾Cómo simulamos la moneda? Se genera un número Unif(0,1):
• 1 ó sol, si
r
y se establece que el resultado será:
r≤p
• 0 ó águila, en otro caso. De esta manera pueden simularse tantos lanzamientos como sea necesario, como se ve en la hoja de
Excel. Este mismo algoritmo servirá para cualquier distribu-
ción Bernoulli.
5.3.2. Ejemplo: Distribución Binomial Como se sabe, la distribución Binomial realiza el conteo de éxitos en
n
eventos
Bernoulli independientes. Por ello, para simular una variable aleatoria con esta distribución, bastará con simular
n
variables con el algoritmo anterior y sumar
los unos o éxitos resultantes.
5.3.3. Ejemplo: Distribución Geométrica Una vez que se ha podido simular la distribución Bernoulli, es factible construir cualquiera de las distribuciones relacionadas con ella. Por ejemplo, la distribución Geométrica podría representar el número de ensayos necesarios para obtener el primer sol. En el caso de la moneda,
x
representaría el número de volados realizados para
obtener el primer sol (puede ser águila pero habría que cambiar la asignación de valores de uno y cero). Esto también se puede programar dentro de la hoja
Excel, pero conviene ahora utilizar los elementos de programación en Visual Basic o macros. de cálculo
¾En qué consiste el algoritmo? Sencillamente se simula la moneda (o la distribución Bernoulli) como se vio arriba, y se de ne un contador que va registrando el número de ensayos. Se agrega, además, una condición (If) que detendrá la
cuenta en el momento en que se obtenga el primer sol, es decir, el momento en que se obtenga el primer uno.
CAPÍTULO 5.
42
MÉTODOS PARA OTRAS DISTRIBUCIONES
5.3.4. Ejemplo: Distribución Binomial Negativa El algoritmo es idéntico al anterior, pero el conteo se detiene al obtener
r
éxitos
o soles.
5.3.5. Ejemplo: Distribución Hipergeométrica La distribución Hipergeométrica es muy similar a la Binomial, con la diferencia sustancial de que los ensayos sucesivos NO son independientes. Esto es, se trata de muestras
sin reemplazo
de tamaño
n, en las cuales pueden obtenerse elemen-
tos con o sin cierta característica particular. Por ejemplo, puede realizarse una muestra de
n
artículos, sin reemplazo, y registrar cuántos de ellos son defectuo-
sos. El total de la población,
N (1 − p)
N,
tiene
Np
elementos defectuosos y, por ende,
sin problemas. Puesto que la muestra se hará sin reemplazo, habrá
que recalcular el número de elementos defectuosos y no defectuosos después de extraer cada elemento de la muestra. Así pues, se parte de generar una v. a. Bernoulli(p) .Hecho esto, se introduce una pregunta: ¾El valor extraído fue defectuoso, es decir, fue uno? En este caso, deberán ajustarse los valores del total de defectuosos restantes a
N p − 1,
con lo
cual la nueva probabilidad de extraer un defectuoso será:
p∗ =
Np − 1 N −1
(5.5)
En caso contrario el número de elementos defectuosos continúa igual, pero se modi ca el total de elementos, de manera que la nueva probabilidad sería:
p∗ =
Np N −1
(5.6)
El proceso se repite de manera iterativa hasta obtener los muestra. Con esto se habrá obtenido
una
n
elementos de la
variable aleatoria Hipergeométrica.
Será necesario reproducir este algoritmo completo para cada una de las variables necesarias.
5.3.6. Ejemplo: Distribución Normal Una manera muy sencilla de obtener v. a. con distribución normal es atender al teorema del límite central. De acuerdo con este teorema, si se suma un número relativamente grande de variables que procedan de cualquier distribución, la suma de ellas tenderá a comportarse como una normal cuya suma es igual a la suma de las medias y cuya varianza es igual a la suma de las varianzas. Supongamos, por ejemplo, que se simulan doce variables aleatorias Unif(0,1), denotadas cada una por
ri
con
i = 1, 2, . . . , 12.
Entonces la variable
z:
CAPÍTULO 5.
43
MÉTODOS PARA OTRAS DISTRIBUCIONES
z=
12 X
ri − 6
(5.7)
i=1 Tenderá a distribuirse como una
6=0
y
V ar(z) = 12 (1−0) 12 = 1.
normal estándar, puesto que E(z) = 12(0.5) −
Una vez que se cuenta con valores que se distribuyen como normal estándar, es posible generar
cualquier normal, a través de un proceso de des-estandarización
que consiste en multiplicar por la desviación estándar
σ
y sumar la media
µ,
es
decir:
x = zσ + µ
(5.8)
5.3.7. Ejemplo: Distribución de Poisson La mejor forma de simular el número de ocurrencias de un evento Poisson en un intervalo de tiempo o espacio es utilizar la distribución exponencial. Para ello, se identi ca el intervalo de tiempo o espacio a simular, que puede designarse como
t.
Entonces:
1. Se inicializa la variable aleatoria Poisson en cero, es decir: 2. Se genera una variable aleatoria
t1
x = 0.
con el método de transformación in-
versa. 3. Se compara
t1 < t.
Si es verdadero, se procede al siguiente paso; en caso
contrario, el método termina. 4. Se hace
x := x + 1.
5. Se genera una nueva variable aleatoria 6. Se compara
t1 + t2 < t .
t2
de tipo exponencial.
Si es verdadero, se procede al siguiente paso; en
caso contrario el método termina. 7. Se hace
x := x + 1.
8. Se genera una nueva variable aleatoria 9. Se compara
t1 + t2 + t3 < t.
de tipo exponencial.
Si es verdadero, se procede al siguiente paso;
en caso contrario el método termina. 10. ...
t3
CAPÍTULO 5.
MÉTODOS PARA OTRAS DISTRIBUCIONES
44
Cuadro 5.1: Ejemplo de distribución empírica discreta
x
Frec. Rel.
Frec. Rel. Acum
0
0.3
0.3
1
0.2
0.5
2
0.3
0.8
3
0.2
1.0
El procedimiento concluye en la iteración
... + tn ≥ t.
El valor de
x
n,
cuando ocurra que
t1 + t2 + t3 +
contendrá la cuenta de eventos Poisson. Puede verse
a los valores de ti como intervalos de tiempo que se van sumando en una especie de reloj. Al concluir el plazo se revisa el conteo total de eventos ocurridos y esto forma la variable Poisson. Véase como es necesario simular varios números exponenciales para obtener una sola variable Poisson.
Ejemplo: Distribución Empírica
Supóngase que se cuenta con alguna dis-
tribución empírica para un conjunto de observaciones. En este caso tambien es posible simular variables que provengan de dicha distribución. Por ejemplo, si la distribución empírica está dada por la siguiente tabla de frecuencias relativas: La variable aleatoria puede simularse con el siguiente algoritmo:
1. Se genera un valor uniforme 2. Si si
r < 0.3 ⇒ x = 0; 0.8 < r ⇒ x = 3.
si
r.
0.3 < r < 0.5 ⇒ x = 1
; si
0.5 < r < 0.8 ⇒ x = 2;
Para otra distribución empírica bastaría con cambiar los datos correspondientes de las frecuencias relativas acumuladas. Nota: Si la distribución empírica corresponde a una variable aleatoria continua y las observaciones se hacen en intervalos de clase continuos, bastará con hacer una interpolación lineal inversa entre los extremos del intervalo de clase, para encontrar la variable simulada.
5.3.8. Ejemplo: Cadena de Markov También es posible simular procesos estocásticos y, entre ellos, cadenas de Markov. Una cadena de Markov se caracteriza por su matriz de transición. Supónga-
{Xn } n = 0, 1, 2 . . . ,en el cual Xn representa el estado n. Si el espacio de estados es nito y está conS = {0, 1, 2, . . . , k − 1}, es posible caracterizar el proceso por la
se el proceso estocástico
de un sistema en el momento formado por
matriz de transición:
CAPÍTULO 5.
MÉTODOS PARA OTRAS DISTRIBUCIONES
Π=
p00 p10 p20
p01 p11 p21
p02 p12 p22
... ... ...
p0,k−1 p1,k−1 p2,k−1
. . .
. . .
. . .
..
. . .
pk−1,0
pk−1,1
pk−1,2
...
.
x0 = 0 x0 = 1
• En general, si
X0 = x0 .
Entonces:
0.
x0 = j
1.
se simula el siguiente valor utilizando el renglón de
la matriz correspondiente al estado
j.
Hecho esto, se obtendrá el valor simulado de
x1 = j ,
(5.9)
se simula el siguiente valor utilizando el renglón de la matriz
correspondiente al estado
si
se simula el siguiente valor utilizando el renglón de la matriz
correspondiente al estado
• Si
pk−1,k−1
Para simular el proceso, se parte de que inicia en el estado
• Si
45
se simula el siguiente valor
correspondiente al estado
j.
x2
x1 .
De la misma forma entonces,
utilizando el renglón de la matriz
Y así sucesivamente.
BibliografĂa [1] Indra Mohan Chakravarti, Radha Govira Laha, and Jogabrata Roy. Handbook of methods of applied statistics, volume 1. 1967. [2] W. C. M. Kallenberg, J. Oosterho , and B. F. Schriever. The number of classes in chi-squared goodness-of- t tests.
Association, 80(392):959 968, 1985.
[3] C. Arthur Williams.
Journal of the American Statistical
The choice of the number and width of classes for
the chi-square test of goodness of t.
Association, 45(249):77 86, 1950.
46
Journal of the American Statistical
Índice alfabético distribución Bernoulli, 14 distribución beta, 31 distribución binomial, 15 distribución binomial negativa, 18 distribución de Pascal,
véase
dstribu-
ción binomial negativa18 distribución de Poisson, 22 distribución exponencial, 25 distribución gamma, 29 distribución geométrica, 16 distribución hipergeométrica, 19 distribución normal, 28 distribución triangular, 26 distribución uniforme continua, 24 distribución uniforme discreta, 20 función de densidad, 12 función masa de probabilidad, 12, 14 probabilidad empírica, 8 probabilidad teórica, 8
47