Matemáticas Preuniversitarias. "Probabilidad y Estadística" M. en C. Rafael Marín Salguero Versión 2 19 / Diciembre / 2014
Contenido I
Ajuste de curvas
5
1 Mínimos cuadrados 1.1 Ajuste de curvas polinomiales . . . . . . . . . . . . 1.2 Ajuste polinomial y = a0 + a1 x + a2 x2 + ::: + am xm 1.2.1 Ajuste lineal y = a0 + a1 x . . . . . . . . . . 1.2.2 Ajuste cuadrático y = a0 + a1 x + a2 x2 . . . 1.2.3 Ajuste cúbico y = a0 + a1 x + a2 x2 + a3 x3 . . 1.3 Construcción del ajuste polinomial . . . . . . . . . 1.3.1 Caso lineal y = a0 + a1 x . . . . . . . . . . . 1.3.2 Caso cuadrático y = 0 + 1 x + 2 x2 . . . . 1.3.3 Caso cúbico y = c0 + c1 x + c2 x2 + c3 x3 . . . 1.4 Selección del mejor modelo . . . . . . . . . . . . . .
II
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
Estadística básica
6 6 8 11 11 12 13 13 14 15 16
19
2 Elementos de estadística 20 2.1 Variables y escalas de medida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.2 Razones, proporciones, porcentajes y cocientes . . 2.3 Representaciones estadísticas y análisis de grá…cas 2.3.1 Distribuciones de frecuencias . . . . . . . . 2.3.2 Intervalos de clase . . . . . . . . . . . . . 2.3.3 Histogramas y polígonos de frecuencias . . 2.3.4 Distribuciones de frecuencias acumuladas . 2.4 Medidas de tendencia central . . . . . . . . . . . 2.4.1 Media Aritmética . . . . . . . . . . . . . . 2.4.2 Mediana . . . . . . . . . . . . . . . . . . . 2.4.3 Cuartiles, deciles y percentiles . . . . . . . 2.4.4 Moda . . . . . . . . . . . . . . . . . . . . 2.5 Medidas de dispersión . . . . . . . . . . . . . . . 2.5.1 Rango . . . . . . . . . . . . . . . . . . . . 2.5.2 Desviación media . . . . . . . . . . . . . . 2.5.3 Varianza y desviación estándar . . . . . . 2.5.4 Sesgo . . . . . . . . . . . . . . . . . . . . . 2.6 Teorema de Chebyshev . . . . . . . . . . . . . . .
1
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
21 21 21 22 22 24 24 24 24 25 25 26 26 26 26 27 28
III
Probabilidad básica
30
3 Conceptos Básicos 3.1 Conceptos básicos de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1 Eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.2 Representación de eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31 31 31 32
4 Conjuntos 4.1 Operaciones entre conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Leyes del álgebra de conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Composición de eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33 33 36 37
5 Probabilidad clásica y frecuentista 5.1 Función de Probabilidad . . . . . . 5.2 Algunas propiedades elementales de 5.3 Eventos independientes . . . . . . . 5.4 Eventos ajenos . . . . . . . . . . .
. . . .
38 39 40 40 41
. . . . . . .
42 42 42 42 42 43 43 44
6 Cálculo Combinatorio 6.1 Principio de Adición . . . . 6.2 Principio de Multiplicación . 6.3 Ordenaciones con Repetición 6.4 Permutaciones . . . . . . . . 6.5 Ordenaciones sin repetición 6.6 Combinaciones . . . . . . . 6.7 Coe…ciente multinomial . . .
IV
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . . . . . . . . . . la función de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
Probabilidad Condicional
45
7 Probabilidad Condicional 7.0.1 Ejemplo probabilidad condicional 7.1 Probabilidad Total . . . . . . . . . . . . 7.1.1 Ejemplo probabilidad total . . . . 7.2 Teorema de Bayes . . . . . . . . . . . . . 7.2.1 Paradoja del falso positivo . . . .
V
. . . . . . .
. . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
Variables Aleatorias
46 47 49 50 51 52
54
8 Variables Aleatorias 55 8.1 Distribución de una variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . 55 9 Distribución Binomial 9.1 Resumen elementos distribución binomial . 9.1.1 Ejemplo distribución binomial # 1 9.1.2 Ejemplo distribución binomial # 2 9.1.3 Ejemplo distribución binomial # 3
2
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
56 59 59 62 64
10 Distribución Normal 10.1 Función de densidad y de distribución . . . . . . . . . 10.2 Función de distribución de la normal estándar . . . . 10.3 "Estandarización" de una distribución normal . . . . 10.4 Tablas "históricas" de la distribución normal estándar
3
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
66 66 68 71 73
Prefacio Estas notas surgieron de la necesidad de tener un compendio de resultados a los que se pueden acceder de una manera rápida y concreta. Estas notas han sido utilizadas a lo largo de varios años de experiencia docente en un nivel preuniversitario, con la …nalidad de que los estudiantes cuenten con los elementos básicos fundamentales de cada tema que se ve en este ciclo pero sin tener la complejidad de un libro más avanzado en matemáticas. También la idea principal es tener los resultados con un contexto visual y geométrico, ya que así, en mi experiencia personal, los estudiantes pueden entender de una manera más intuitiva los conceptos y resultados generales. En una época donde el conocimiento se está convirtiendo en una cuestión mercantil, y que para acceder a éste a veces se necesita gastar muchos recursos económicos, he realizado estas notas manteniendo el espiritu del acceso libre a la información, por lo que se podrá distribuir estas notas libremente sin ánimo de lucro, ya que de esta manera yo también contribuyo un poco en la divulgación de las matemáticas. Los resultados aquí expuestos no son nada nuevos, han sido compilados de varias fuentes bibliográ…cas, además que he agregado algunas cosas de mi parte, gracias a la experiencia que he tenido en estos años impartiendo cada una de las diferentes asignaturas que hay en el plan de estudios. Quiero agradecer de manera sincera a todos mis amigos y familiares que han estado conmigo apoyando de manera inconsciente en la realización de estas notas, si no hubiera sido por ustedes esta idea que tuve hace varios años jamás se habría concretado. Gracias de corazón a todos ustedes por compartir su amistad y cariño conmigo, siempre han estado conmigo en los buenos y malos momentos, y espero no defraudar esa con…anza. Los contenidos de estas notas se irán mejorando con el paso del tiempo, trataré en un futuro seguir agregando conceptos y/o diagramas que ejempli…quen mejor lo que se está explicando. También quiero agradecer a todos los estudiantes que han tenido la suerte (o mala suerte, dependiendo de cada quién) los momentos que hemos compartido en clase, ya que gracias a ustedes muchos de los contenidos de estas notas se han mejorado sustancialmente. Espero que sigan con ese entusiasmo y no dejen de luchar por lo que deseen. Si alguien encuentra útil estas notas y quisiera aportar comentarios, sugerencias y/o material, me puede mandar un correo a la dirección ramasa79@gmail.com y con gusto leeré los comentarios y, en caso de sugerencia para incluir nuevo material, se actualizará los contenidos. La mayoría de los dibujos e ilustraciones se hicieron con el paquete de cómputo GeoGebra, que es un software de acceso libre, ya que permite el fácil manejo de expresiones algebraicas además de representar grá…camente todo tipo de funciones.
4
Parte I Ajuste de curvas
5
Capítulo 1 Mínimos cuadrados 1.1
Ajuste de curvas polinomiales
En la ciencia y la ingeniería se da, a menudo, el caso de que un experimento produce un conjunto de datos (x1 ; y1 ) ; (x2 ; y2 ) ; :::; (xN ; yN ), siendo los valores fxk g distintas entre sí y N es el total de datos observados. Uno de los objetivos es poder encontrar una fórmula y = F (x) que relacione a las variables. En el caso práctico no es posible encontrar esta función y = f (x) y que satisfaga exactamente todas las relaciones y1 = f (x1 ) y2 = f (x2 ) .. . yN = f (xN ) por lo general, uno esta dispuesto a aceptar un "error" (y este error dependerá de cada observación) f (xk ) = yk + ek donde ek es el error de medición observado en el dato k. La pregunta que uno se hace es ¿cómo poder encontrar "la mejor aproximación" que pase cerca (no por encima de cada uno) de los puntos? Para responder esta pregunta, hay que considerar los errores (también llamados desviaciones o residuos) y están dados como la diferencia del valor estimado por el modelo f (xk ) menos el valor observado yk
Errores de medición ek = f (xk ) Error =
yk para 1
Valor Estimado
6
k
N
Valor Observado
f ( x)
Valores observados Valores estimados Error
x En la literatura existen "normas" que se usan comúnmente para poder cuanti…car la distancia que hay entre los valores estimados y los valores observados. Error Máximo
E1 (f ) = max fjf (xk ) 1 k N
E1 (f ) =
Error Medio
N 1 X jf (xk ) N k=1
v u N u1 X t Error Cuadrático Medio E2 (f ) = jf (xk ) N k=1
yk jg yk j
yk j2
Como no se puede hacer que todos los errores sean cero (ese sería nuestro modelo ideal), ni tampoco se puede hacer que cada uno sea lo más pequeño posible, se tiene que hacer una combinación razonable de ellos tan pequeña como sea posible. Siempre lo ideal será encontrar un modelo donde los errores sean lo más pequeño posible. Una opción muy utilizada en la literatura es la de minimizar la suma de los errores de los errores al cuadrado. Es decir, se puede construir un modelo matemático de la forma f (x) = f (x; a1 ; a2 ; :::; am ) donde cada parámetro a1 ; a2 ; :::; am son los m parámetros que se usarán para construir el mejor modelo y el valor de la variable independiente x. Ejemplos posibles de modelos están dados por los siguientes a) Modelo lineal f (x; a0 ; a1 ) = a0 + a1 x b) Modelo cuadrático f (x; a0 ; a1 ; a2 ) = a0 + a1 x + a2 x2 c) Modelo exponencial f (x; a0 ; a1 ; a2 ) = a0 ea1 x+a2 entonces, entre más complicado sea un modelo matemático, más parámetros se necesitarán, por lo que la búsqueda se vuelve un problema técnicamente complicado. Al proponer un modelo, lo que se busca ahora es calcular la suma de los errores al cuadrado, que en este caso están dados por R2 =
P
[yk
f (xk ; a1 ; a2 ; :::; am )]2
7
y el problema matemático a resolver es poder encontrar el valor de los parámetros ak con k = 1; ::; m que minimicen esta suma
Problema mínimos cuadrados min R2 = min
a1 ;:::;am
a1 ;:::;am
P
[yk
f (xk ; a1 ; a2 ; :::; am )]2
Usando propiedades del cálculo diferencial, para poder encontrar estos parámetros se debe cumplir cada una de las siguientes ecuaciones
Criterio de la primera derivada @ (R2 ) = 0 para i = 1; :::; m @ai que en términos generales es un sistema de ecuaciones no lineales con m restricciones.
1.2
Ajuste polinomial y = a0 + a1x + a2x2 + ::: + amxm
Supongamos que queremos ajustar nuestra pareja de datos (x1 ; y1 ) ; (x2 ; y2 ) ; :::; (xN ; yN ) . El caso más usado en la práctica es poder ajustar funciones polinomiales, ya que en este caso los parámetros serán funciones lineales fáciles de estimar. El modelo a ajustar está dado por f (x; a1 ; a2 ; :::; am ) = a0 + a1 x + a2 x2 + ::: + am xm y la función R2 (la suma de los errores al cuadrado) está dada por 2
R =
N X
yk
(a0 + a1 xk + a2 x2k + ::: + am xm k )
k=1
8
2
Un ejemplo de la construcción de este tipo de funciones se muestra a continuación
Este caso polinomial ya ha sido muy trabajado en la literatura estadística, y se pueden construir sistemas de ecuaciones fáciles de resolver para encontrar estos parámetros a0 ; a1 ; :::; am : Este sistema de ecuaciones lineales se conocen como las "ecuaciones normales" y están dadas por N X
a0 N + a1 a0
N X
xi
i=1
a0
N X i=1
xm i
!
!
i=1
+ a1
+ a1
N X i=1
N X i=1
x2i
xi !
xm+1 i
!
+
xm i
i=1
+
!
+ am
N X
+ am
N X
xm+1 i
i=1
+
+ am
N X i=1
9
x2m i
!
! !
= =
N X
i=1 N X
yi xi yi
i=1
=
.. . N X i=1
xm i yi
o en términos matriciales Xa = y este sistema de ecuaciones1 queda como
Ecuaciones normales ajuste polinomial grado m 2 6 6 6 4
P N P P x2i xi xi .. .. P . m P .m+1 xi xi
P m i P xm+1 xi .. ... P . 2m xi
32 76 76 76 54
3
a0 a1 .. .
2
7 6 7 6 7=6 5 4
am
P P yi x i yi .. P .m xi yi
3 7 7 7 5
Este sistema de ecuaciones lineales simultáneas se puede resolver fácilmente usando la famosa regla de Cramer (para polinomios lineales y cuadráticos) y el método de eliminación Gaussiana (para polinomios al menos tercer grado) .Los coe…cientes de la matriz los podemos encontrar si acomodamos los datos como si estuvieramos trabajando en una hoja de cálculo. k
x
x2
x3
x2m
y
xy
x2 y
xm y
1
x1
x21
x31
x2m 1
y1
x1 y1
x21 y1
xm 1 y1
2
x2
x22
x32
x2m 2
y2
x2 y2
x22 y2
xm 2 y2
3 .. .
x3 .. .
x23 .. .
x33 .. .
x2m 3 .. .
y3 .. .
x3 y3 .. .
x23 y3 .. .
xm 3 y3 .. .
N
xN
x2N
x3N
x2m N
yN
xN yN
x2N yN
xm N yN
P
P
P
xi
P
x2i
P
x3i
P
P
x2m i
yi
xi yi
x2i yi
P
xm i yi
A continuación se mostrarán los casos de las ecuaciones normales para polinomios lineales, cuadráticos y cúbicos. 1
Hay una forma matricial y abreviada de escribir un sistema de ecuaciones lineales 3x + 6y = 5 2x + 10y = 4
3 2
Forma larga
6 10
x y
=
Forma matricial
10
5 4
1.2.1
Ajuste lineal y = a0 + a1 x
Construyendo la tabla fundamental para el caso lineal queda de la forma k
x
x2
y
xy
1
x1
x21
y1
x1 y1
2
x2
x22
y2
x2 y2
3 .. .
x3 .. .
x23 .. .
y3 .. .
x3 y3 .. .
N
xN
x2N
yN
xN yN
P
Suma por columna
P
xi
P
x2i
P
yi
xi yi
Las ecuaciones normales para el caso lineal están dadas por P N P P x2i xi xi
a0 a1
=
P P yi xi yi
y este sistema de ecuaciones se puede resolver con los métodos habituales (suma y resta, Cramer, sustitución, etc.)
1.2.2
Ajuste cuadrático y = a0 + a1 x + a2 x2
Construyendo la tabla fundamental para un ajuste parabólico o cuadrático queda como k
x
x2
x3
x4
y
xy
x2 y
1
x1
x21
x31
x41
y1
x1 y1
x21 y1
2
x2
x22
x32
x42
y2
x2 y2
x22 y2
3 .. .
x3 .. .
x23 .. .
x33 .. .
x43 .. .
y3 .. .
x3 y3 .. .
x23 y3 .. .
N
xN
x2N
x3N
x4N
yN
xN yN
x2N yN
P
P
Suma por columna
P
xi
P
x2i
P
x3i
P
x4i
P
yi
las ecuaciones normales para el caso cuadrático están dadas por
11
xi yi
x2i yi
3 2 P 3 P P 2 32 a y n x x 0 i i i P P P 2 P 3 5 4 a1 5 = 4 5 4 x x x i i i P x2i yi P 2 P 3 P 4 xi a2 xi xi yi xi 2
y este sistema de ecuaciones se puede resolver todavía usando el método de Cramer de 3 variables con 3 incógnitas
Ajuste cúbico y = a0 + a1 x + a2 x2 + a3 x3
1.2.3
La construcción de la tabla fundamental para el caso cúbico está dado por k
x
x2
x3
x4
x5
x6
y
xy
x2 y
x3 y
1
x1
x21
x31
x41
x51
x61
y1
x1 y1
x21 y1
x31 y1
2
x2
x22
x32
x42
x52
x62
y2
x2 y2
x22 y2
x32 y2
3 .. .
x3 .. .
x23 .. .
x33 .. .
x43 .. .
x53 .. .
x63 .. .
y3 .. .
x3 y3 .. .
x23 y3 .. .
x33 y3 .. .
N
xN
x2N
x3N
x4N
x5N
x6N
yN
xN yN
x2N yN
x3N yN
P
P
P
Suma por columna
P
xi
P
x2i
P
x3i
P
x4i
P
x5i
P
x6i
P
yi
xi yi
x2i yi
x3i yi
y las ecuaciones normales están dadas por el siguiente sistema de 4 variables y 4 ecuaciones 2
P PN P x2i 6 6 P x2i P x3i 4 P x3i P x4i xi xi
P 2 P x3i P x4i P x5i xi
P 3 P x4i P x5i P x6i xi
32
3 2 P a0 P yi 7 6 a1 7 6 76 7 6 P x2i yi 5 4 a2 5 = 4 P xi3 yi a3 xi yi
3 7 7 5
y en este caso es necesario recurrir a la computadora para poder resolver "de manera sencilla" este sistema de ecuaciones.
12
1.3
Construcción del ajuste polinomial
Para entender con mayor exactitud el ajuste por mínimos cuadrados, supongamos que tenemos los siguientes datos observados de algúin fenómeno de interes
queremos ajustar tanto un modelo lineal, parabólico y cúbico y poder decidir cuál de estos tres modelos es el que mejor se ajusta. Para ello construimos la tabla fundamental hasta la potencia x6 ; y con todos esos datos obtenemos las ecuaciones normales de los tres modelos. Para el cálculo de la tabla fundamental se recomienda siempre usar la hoja de cálculo. Algo muy importante de recalcar es que los parámetros encontrados serán diferentes en los tres modelos, no son constantes ni iguales.
1.3.1
Caso lineal y = a0 + a1 x
En en este caso las ecuaciones normales están dadas por 7 9 9 125
a0 a1
=
25 79
cuya solución aproximada está dada por a0
3:0403
a1
13
0:4131
y el "mejor modelo lineal" por el método de mínimos cuadrados está dado por
y = 3:0403 + 0:4131x
cuya grá…ca es
1.3.2
Caso cuadrático y =
0
+
1x
+
2x
2
En este caso las ecuaciones normales están dadas por 3 2 2 32 3 7 9 125 25 0 4 9 125 573 5 4 1 5 = 4 79 5 125 573 5141 641 2 cuya solución aproximada está dada por 0
2:8135
1
0:3505
2
0:01719
y entonces el "mejor modelo cuadrático" por el método de mínimos cuadrados está dado por y = 2:8135 + 0:3505x + 0:01719x2
14
cuya grá…ca es
1.3.3
Caso cúbico y = c0 + c1 x + c2 x2 + c3 x3
En este caso las ecuaciones normales están dadas por 2 32 7 9 125 573 6 9 6 125 573 5141 7 6 76 4 125 573 5141 34869 5 4 573 5141 34869 283325 cuya solución aproximada está dada por c0
3:0481
c1
0:2706
c2
3 2 c0 25 6 79 c1 7 7=6 c2 5 4 641 c3 4075
0:0122
c3
3 7 7 5
0:00481
y entonces el "mejor modelo cúbico" por el método de mínimos cuadrados está dado por 0:0122x2 + 0:00481x3
y = 3:0481 + 0:2706x
15
cuya grá…ca es
1.4
Selección del mejor modelo
Se tienen ya los tres modelos ajustados por el método de mínimos cuadrados a) Modelo lineal y = 3:0403 + 0:4131x b) Modelo cuadrático y = 2:8135 + 0:3505x + 0:01719x2 c) Modelo cúbico y = 3:0481 + 0:2706x
0:0122x2 + 0:00481x3
la pregunta natural que uno se hace es ¿cuál modelo me regresa los errores más pequeños? ¿cuál puedo usar con mayor con…anza? Para ello, primero se tienen que calcular los valores estimados y^k = f (xk ); sustituimos los valores de la variable independiente en el modelo seleccionado. Por ejemplo, en nuestro ejemplo x
yobs
y^est
Lineal
4
1
3:0403 + 0:4131( 4) = 1: 387 9
Cuadrático
4
1
2:8135 + 0:3505( 4) + 0:01719( 4)2 = 1: 686 5
Cúbico
4
1
3:0481 + 0:2706( 4)
0:0122( 4)2 + 0:00481( 4)3 = 1: 462 7
esto se tiene que hacer con todos los valores de la variable independiente. Ya que se calcularon
16
todas las estimaciones, lo que procede es encontrar los errores al cuadrado e2k por observación x
yobs
y^est
e2
Lineal
4
1
1: 387 9
(1:3879
1)2 = 0:150 47
Cuadrático
4
1
1: 686 5
(1:6865
1)2 = 0:471 28
Cúbico
4
1
1: 462 7
(1:4627
1)2 = 0:214 09
este proceso continua con todos los valores, como se muestra en la siguiente tabla
(los resultados pueden cambiar un poco debido a la cantidad de cifras decimales que se utilicen en los calculos internos)
Por último, se suman todos los errores al cuadrado por modelo, el modelo que tenga la menor suma de errores al cuadrado será el mejor modelo para poder realizar interpolaciones y extrapolaciones "cercanas" a los valores extremos de la variable independiente. En este caso, el modelo cúbico es el que mejor representa a los datos (interpolación), ya que si observamos las grá…cas
17
globales obtenemos lo siguiente
Azul (lineal), Cafe (Cuadratico), Rosa (Cubico)
Si se quieren hacer extrapolaciones se tiene que tener mucho cuidado, analizando las circunstancias del fen贸meno a estudiar, y visualizar si las curvas cumplir铆an ciertas condiciones del fen贸meno.
18
Parte II Estadística básica
19
Capítulo 2 Elementos de estadística 2.1
Variables y escalas de medida
Propiedades de escala Tipo de variable Escala Orden Cero Distancia Proporcionalidad Nominal No tiene No tiene No tiene No tiene Cualitativas Ordinal No tiene No tiene No tiene No tiene Intervalar Tiene, pero Tiene Tiene No tiene no es único Cuantitativas Razón Tiene, y es Tiene Tiene Tiene único Datos cualitativos: Representan categorías en las que se puede clasi…car una población de personas o cosas, por ejemplo, nacionalidad, religión, sexo, color, forma. Datos cuantitativos: Dan información numérica, como cuántos son, cuánto miden, cuánto pesan, fecha de nacimiento, cuánto duran, temperatura, profundidad, etcétera. Los datos de las tablas de número de hermanos, peso y fecha de nacimiento representan datos cuantitativos. Cuando se trata de datos cuantitativos distinguimos a su vez dos tipos: Datos discretos, que son los que se obtienen al contar el número de miembros de una población, por ejemplo, el número de habitantes de los estados, el número de automóviles producidos por varias fábricas. Usualmente se utilizan números naturales o números enteros para manipular datos discretos. Datos continuos, que se obtienen mediante un proceso de medición, por ejemplo, las alturas de los alumnos de un salón, la durabilidad de los focos producidos por una empresa. Usualmente se utilizan números reales para manipular datos continuos. En el caso de datos continuos, siempre es conveniente utilizar tablas de frecuencias agrupando a los elementos en clases. En el caso de datos discretos, cuando son pocos datos podemos no agruparlos y utilizamos agrupamientos cuando el número de datos que deseamos analizar es grande. 20
Para representar los datos estadísticos, utilizamos diferentes escalas de medición. Nominal: Simplemente etiqueta a las clases en las que se agruparon los objetos. La escala utilizada en la tabla de deportes favoritos es una escala nominal, pues los alumnos se agrupan en clases y cada clase se etiqueta con el nombre del deporte favorito. Normalmente al trabajar con datos cualitativos se utiliza una escala nominal. Hay datos numéricos que en realidad son cualitativos, por ejemplo, al grupar a personas por el código postal donde viven, el número de código postal, aunque es numérico, no está representando una cantidad, simplemente está etiquetando las clases en las que se dividió la población, por lo que la escala que estamos usando es una escala nominal. Ordinal: Corresponden a una escala ordenada, en la que de alguna manera estamos cali…cando las categorías de los datos, de manera que cada categoría representa un nivel distinto del atributo que estamos cali…cando. Se puede utilizar la escala ordinal en datos cualitativos o en datos cuantitativos. En una escala ordinal, no medimos distancia entre dos categorías. De intervalo: Se utiliza cuando se analizan datos cuantitativos en los cuales tiene sentido calcular diferencia entre valores. La escala utilizada no necesariamente empieza en cero. De razón o lineal: Es un tipo de escala de intervalo en la cual podemos determinar cuántas veces es mayor una medida que otra.
2.2
Razones, proporciones, porcentajes y cocientes
Los datos deben ser representados de diversas formas, dentro de éstas …guran las razones, las proporciones, los porcentajes y los cocientes. Razón: Una razón es una relación entre dos cantidades que permite compararlas, siendo la comparación por diferencia o por cociente. Cuando se hace por diferencia se dice que la razón es aritmética, y cuando se hace por cociente es geométrica o simplemente se le llama por cociente. Sean a y b las dos cantidades a comparar, entonces ( Aritmética a b a Razón Geométrica b Proporción: Una proporción es la igualdad de dos razones por cociente. Es decir si a c a c = q; = q =) = b d b d o escrito de otra forma a : b = c : d: Esto se lee: " a es a b como c es a d " Tanto por ciento: El porcentaje o tanto por ciento expresa la tasa entre dos magnitudes directamente proporcionales e indica la cantidad o valor de una de ellas que corresponde a 100 de la otra.
2.3 2.3.1
Representaciones estadísticas y análisis de grá…cas Distribuciones de frecuencias
Una distribución de frecuencias es una tabla en la cual se agrupan en clases valores posibles de una variable y donde se registra el número de valores observados correspondientes a cada clase. Los 21
datos organizados en una distribución de frecuencias se llaman datos agrupados. En contraste con ello, en el caso de datos no agrupados se enlistan todos los valores observados de la variable aleatoria.
2.3.2
Intervalos de clase
En cada una de las clases de una distribución de frecuencias, los límites nominales de clase inferior y superior indican los valores incluidos dentro de la clase. A diferencia de ello, los límites exactos de clase, o fronteras de clase, son los puntos especí…cos que sirven para separar clases adyacentes en una escala de medición de variables continuas. Los límites exactos de clase pueden determinarse identi…cando los puntos intermedios entre los límites nominales de clase superior e inferior, respectivamente, de clases adyacentes. El intervalo de clase identi…ca el rango de valores incluidos dentro de una clase y puede determinarse restando del límite exacto de clase superior de la clase el límite exacto de clase inferior. Cuando no es posible identi…car límites exactos, el intervalo de clase puede determinarse restando del límite nominal inferior de la clase adyacente inferior. Finalmente, para ciertos propósitos es común que los valores de una clase sean representados por el punto medio de clase, el cual puede determinarse sumando la mitad del intervalo de clase al límite exacto inferior de la clase. Para efectos de cálculo, por lo general es deseable que todos los intervalos de clase de una distribución de frecuencias dada sean iguales. La siguiente fórmula puede emplearse para determinar el intervalo de clase aproximado a usar:
Longitud del intervalo aproximado =
2.3.3
mayor valor en datos menor valor en datos no agrupados no agrupados número de clases deseadas
Histogramas y polígonos de frecuencias
Un histograma es una grá…ca de barras de una distribución de frecuencias. Se acostumbra colocar los límites exactos de clase en el eje horizontal de la grá…ca y los números de observaciones en el eje vertical. Sin embargo, también se usan puntos medios de clase en lugar de límites de clase para identi…car las clases. Se puede agregar información numérica adicional en una tabla extra. En algunos casos se pone la frecuencia (número de casos / total de
22
observaciones) y no el total de elementos que caen en cada clase.
Para evitar el problema de que los datos extremos (el menor y el mayor) no caigan dentro de un intervalo debido a las especi…caciones [a; b) o (a; b]; para construir la primera clase se toma una cantidad pequeña más a la izquierda, es decir, agregamos "un colchoncito" y así garantizar que todos los datos estarán representados en el histograma. [xmin ; b) =) [xmin
0:1; b)
Un polígono de frecuencias es uan grá…ca de líneas de una distribución de frecuencias. Los dos ejes de esta grá…ca son similares a los del histograma, salvo que en el eje horizontal 23
suele identi…carse el punto medio de cada clase. El número de observaciones de cada clase se representa con un punto por encima del punto medio de la clase, puntos que se unen después con una serie de segmentos lineales para formar un polígono o "…gura de muchos lados".
2.3.4
Distribuciones de frecuencias acumuladas
Una distribución de frecuencias acumuladas identi…ca el número acumulado de observaciones incluidas bajo el límite exacto superior de cada clase de la distribución. Las frecuencias acumuladas pueden determinarse sumando las frecuencias observadas de esa clase a las frecuencias acumuladas de la clase anterior.
2.4 2.4.1
Medidas de tendencia central Media Aritmética
La media aritmética de n observaciones X1 ; X2 ; :::; Xn es la suma de todos sus posibles valores, ponderada por las frecuencias de los mismos. Es decir, Pn Xi X1 + X2 + + Xn = i=1 X= n n
X=
n X
Xi
i=1
n
Si los datos están agrupados en k grupos, cada uno con frecuencia fi para i = 1; 2; :::; n y se cumple que f1 + f2 + ::: + fk = n la media está dada por 1X X= fi Xi n i=1 k
donde las Xi son las marcas de clase dentro del grupo i:
2.4.2
Mediana
Para realizar el cálculo de la mediana de un conjunto de n observaciones X1 ; X2 ; :::; Xn se deben reacomodar los términos de menor a mayor, las cuales denotaremos por X(1) ; X(2) ; :::; X(n) donde X(1) = observación más pequeña X(2) = segunda observación más pequeña .. . X(n) = observación más grande 24
La mediana tiene una peculiaridad, dado que es el valor que deja por debajo al 50% de las observaciones. Por eso es necesario saber si el número de observaciones es un número par o impar. ~ M y está dada por A la mediana la denotaremos por X
~M = X
2.4.3
8 > > > <
X > > > :
X n 2
si n es impar
n+1 2
+ X( n +1) 2
si n es par
2
Cuartiles, deciles y percentiles
Cuartiles, deciles y percentiles se asemejan a la mediana en que también subdividen una distribución de medidas de acuerdo con la proporción de las frecuencias observadas. Mientras que la mediana divide una distribución en mitades, los cuartiles la dividen en cuartos, los deciles en décimos y los puntos percentiles en 100 partes. La fórmula de la mediana se modi…ca según el punto fraccionario de interés. Q1 (primer cuartil) = X D3 (tercer decil) = X
n 1 + 4 2
3n 1 + 10 2
P70 (septuagésimo percentil) = X
70n 1 + 100 2
Si el valor de la posición no es un número natural, sino en número fraccionario (por ejemplo X(6:5) ) tenemos que calcular el promedio de los valores X(6) y X(7) para poder encontrar el cuartil, decil o percentil deseado.
2.4.4
Moda
Llamaremos moda a cualquier máximo relativo de la distribución de frecuencias, es decir, cualquier valor de la variable que posea una frecuencia mayor que su anterior y su posterior. Con la moda no hay de…nición matemática precisa, pero puede haber 3 casos: 1. Hay una única moda (sólo hay un valor dentro de las observaciones que se repita más de una vez) 2. Hay varias modas (hay varias observaciones que se repiten en la misma cantidad dentro de las n observaciones) 3. No hay moda (no hay ningún valor que se repite dentro las n observaciones).
25
2.5
Medidas de dispersión
2.5.1
Rango
El rango se de…ne como una diferencia entre el valor más grande y el valor más pequeño de una muestra aleatoria de n elementos. Es decir, si X1 ; X2 ; :::; Xn son las n observaciones originales y X(1) ; X(2) ; :::; X(n) son las observaciones acomodadas de menor a myor, tenemos que el rango está dado por Rango = X(n)
2.5.2
X(1)
Desviación media
Se de…ne la desviación media como la media de las diferencias en valor absoluto de los valores de la variable a la media, es decir, si tenemos un conjunto de n observaciones, X1 ; X2 ; :::; Xn entonces Dm =
X1
X + X2
X + n
+ Xn
1X Dm = Xi n i=1
X
1X Xi = n i=1 n
X
n
X
Si los datos están agrupados en k grupos, cada uno con frecuencia fi para i = 1; :::; k y se cumple que f1 + f2 + ::: + fk = n es más sencillo usar la relación 1X Dm = fi n i=1 k
Xi
X
Como se observa, la desviación media guarda las mismas dimensiones que las observaciones. La suma de valores absolutos es relativamente sencilla de calcular, pero esta simplicidad tiene un inconveniente: Desde el punto de vista geométrico, la distancia que induce la desviación media en el espacio de observaciones no es la natural (no permite de…nir ángulos entre dos conjuntos de observaciones). Esto hace que sea muy engorroso trabajar con ella a la hora de hacer inferencia a la población.
2.5.3
Varianza y desviación estándar
Como forma de medir la dispersión de los datos hemos descartado dos casos: 1.
Pn
X) pues sabemos que esa suma vale 0, ya que las desviaciones con respecto a la i=1 (Xi media se compensan al haber términos en esa suma que son de signos distintos.
26
2. Para tener el mismo signo al sumar las desviaciones con respecto a la media podemos realizar la suma con valores absolutos. Esto nos lleva a la Dm , pero como hemos mencionado, tiene poco interés por las di…cultades que presenta (en el sentido de que la función valor absoluto no es derivable) 2
Si las desviaciones con respecto a la media las consideramos al cuadrado, Xi X de nuevo obtenemos que todos los sumandos tienen el mismo signo (positivo). Esta es además la forma de medir la dispersión de los datos de forma que sus propiedades matemáticas son más fáciles de utilizar. Vamos a de…nir entonces dos estadísticos que serán fundamentales en el resto del curso: la varianza y la desviación estándar. La varianza S 2 se de…ne como el promedio de las diferencias cuadráticas de las n observaciones con respecto a su media aritmética, es decir 1X (Xi S = n i=1 n
2
X)2
Para datos agrupados en tablas, usando las notaciones establcidas en las secciones anteriores, la varianza se puede escibir como 1X S = fi (Xi n i=1 k
2
X)2
La varianza no tiene la misma unidad que las observaciones (ej. si las observaciones se miden en metros, la varianza lo hace en metros2 ). Si queremos que la medida de dispersión este en la misma unidad que las observaciones bastará con tomar su raíz cuadrada. Por ello es que se de…ne a la desviación estándar S como p S = S2 Es importante visualizar que si los datos observados están "muy juntos" entonces la desviación estándar será "pequeña" y si, los datos observados están "muy separados" entonces la desviación estándar será "grande". Otra observación importante p con respecto a la notación, en algunos libros 2 para denotar a la desviación estándar. es común usar 2 para denotar a la varianza y =
2.5.4
Sesgo
El sesgo es otra unidad de dispersión, el sesgo permite estimar que "tan centrados" están los datos de la media, si los datos están cargados "a la izquierda" (sesgo positivo), o si están cargados "a la
27
derecha" (sesgo negativo), como se muestra en la siguiente …gura
se podría pensar de manera intuitiva de que con el sesgo positivo "la panza" de la grá…ca está cargada a la izquierda y con el sesgo negativo "la panza" está cargada a la derecha (un poco contradictorio con respecto al sentido positivo-izquierdo , negativo-derecha). Si se tienen n observaciones X1 ; X2 ; :::; Xn con promedio la fórmula fundamental para el cálculo del sesgo está dada por
Sesgo =
n 1 P (Xk n k=1 n P
1 (Xk n k=1
)3 3=2
=
Promedio Diferencias Al Cubo
)2
(Varianza)3=2
y con ello obtener lo siguiente
Sesgo
2.6
0
Datos centrados
Sesgo > 0
Datos sesgo positivo
Sesgo < 0
Datos sesgo negativo
Teorema de Chebyshev
Una "aplicación" importante donde se aplica la desviación estándar es que en el intervalo X
2S; X + 2S 28
se encuentra, al menos, el 75% de las observaciones. Este resultado viene del teorema de Chebyshev, que mostraremos a continuación. Teorema de Chebyshev: Sea k un número mayor que 1. Para cualquier conjunto de datos tomados aleatoriamente de una población, la proporción de datos que están dentro de k desvia1 : En notación probabilísta ciones estándar de la media es al menos 1 k2 Teorema de Chebyshev 1 P [jX j k ] 1 k2 Si la función de frecuencia de los datos se traza como si fuera una curva suave, el signi…cado geométrico del teorema anterior se puede interpretar como lo muestra la siguiente …gura (en este caso el diagrama asume una distribución normal) Al menos 8/9 de los datos
Al menos 3/4 de los datos
x − 3s
x − 2s
x
x + 2s
29
x + 3s
Parte III Probabilidad bรกsica
30
Capítulo 3 Conceptos Básicos 3.1
Conceptos básicos de probabilidad Un experimento es cualquier proceso que produce a un especí…co resultado. Un experimento aleatorio es un experimento con la característica de que, una vez de…nidas todas las condiciones bajo las cuales se realiza, su resultado no queda únicamente determinado. A cada repetición particular de un experimento aleatorio la llamaremos una realización de éste. Se dice que una propiedad es relativa a un experimento aleatorio si una vez realizado éste podemos decir si se presenta o no.
3.1.1
Eventos
Un evento es una propiedad relativa a un experimento aleatorio. Se dice que un evento ocurre al realizar un experimento aleatorio si la propiedad que lo caracteriza se presenta en esa realización. Por frecuencia relativa de un posible resultado o, en general, de un evento relativo a un experimento, entenderemos la fracción que resulta de dividir el número de veces que el evento ocurre en una serie de realizaciones del experimento entre el número total de veces que el experimento se realiza en esa serie. La probabilidad de un evento relativo a un experimento aleatorio es un número que mide la "facilidad" con que el ocurre al realizar el experimento. El espacio muestral de un experimento aleatorio, que se denota por formado por todos sus posibles resultados.
, es el conjunto
Los resultados favorables a un evento A, relativo a un experimento aleatorio, son todos aquellos posibles resultados del experimento de los cuales se deduce la ocurrencia de A:
31
3.1.2
Representación de eventos
Dos eventos son equivalentes si la ocurrencia de cualquiera de ellos implica la ocurrencia del otro en cualquier realización del experimento. Un evento elemental relativo a un experimento aleatorio es un evento consistente en la ocurrencia de un especí…co posible resultado del experimento. El evento seguro a un experimento aleatorio es un evento que siempre ocurre al realizar el experimento. El evento imposible relativo a un experimento es un evento que nunca ocurre al realizar el experimento.
32
Capítulo 4 Conjuntos Existen dos formas para de…nir un conjunto: por enumeración, cuando se determina un conjunto mediante una lista de los elementos que lo forman, por comprensión, si el conjunto se especi…ca estableciendo una regla de pertenencia. El símbolo ; se usar para denotar el conjunto vacío, esto es, el conjunto que carece de elementos, y por ejemplo, A = ; signi…ca que el conjunto A no tiene elementos. Se dice que el conjunto B es un subconjunto del conjunto A si cada elemento de B también es un elemento de A; esto es: B
A,8x2B)x2A
Tendremos en cuenta que el conjunto vacio es subconjunto de cualquier conjunto. Se dice que B no es un subconjunto de A si hay por lo menos un elemento de B que no está en A: En tal caso, vamos a escribir B A Se dice que el conjunto B es un subconjunto propio del conjunto A si se cumple lo siguiente que B A y B 6= A: En tal caso, escribimos B " A: Sea dada alguna familia de conjuntos, a menudo será muy útil considerar estos conjuntos como subconjuntos de un mismo conjunto : En este caso, se llama el conjunto universal para la familia dada.
4.1
Operaciones entre conjuntos
Sean A y B dos conjuntos cualesquiera. La unión de los conjuntos A y B es el conjunto de todos los elementos que están en A o en B: Se denota como A [ B: Esto es: A [ B = fx j x 2 A o x 2 Bg 33
Ω A
B
Zona sombreada es A [ B La intersección de los conjuntos A y B es el conjunto de todos los elementos que están en A y están en B; esto es, los elementos que A y B tienen en común. Se denota por A \ B: Esto es: A \ B = fx j x 2 A y x 2 Bg
Ω A
B
Zona sombreada es A \ B Si los conjuntos A y B no tienen elementos en común, A \ B = ;; se dice entonces que A y B son disjuntos o ajenos o mutuamente excluyentes.
Ω A
B
Zona sombreada es A \ B = ;
34
Sea dado el conjunto A : El complemento de A respecto a conjunto de todos los elementos de que no están en A Ac = fx j x 2
; denotado por Ac es el
yx2 = Ag
Ω A
Zona sombreada es Ac La diferencia entre A y B es el conjunto de todos los elementos que están en A y no están en B; y se denota por A n B A n B = fx j x 2 A y x 2 = Bg
Ω A
B
Zona sombreada es A n B La diferencia simétrica entre A y B es el conjunto de todos los elementos de A o de B; pero no de ambos, y se denota por A M B A 4 B = fx j x 2 (A [ B) y x 2 = (A \ B)g
35
A
B
â&#x201E;Ś
Zona sombreada es A 4 B
4.2
Leyes del ĂĄlgebra de conjuntos
Leyes de idempotencia a) A [ A = A
b) A \ A = A
Leyes asociativas a) (A [ B) [ C = A [ (B [ C) b) (A \ B) \ C = A \ (B \ C) Leyes conmutativas a) A [ B = B [ A
b) A \ B = B \ A
Leyes distributivas a) A [ (B \ C) = (A [ B) \ (A [ C) b) A \ (B [ C) = (A \ B) [ (A \ C) Leyes de identidad a) A [ ; = A
b) A \ ; = ;
c) A [
d) A \
=
36
=A
Leyes de complemento a) A [ Ac =
b) A \ Ac = ; c) (Ac )c = A
d)
c
e) ;c =
=;
Leyes de De Morgan a) (A [ B)c = Ac \ B c b) (A \ B)c = Ac [ B c
4.3
Composición de eventos Si A y B son dos eventos, de…nimos un nuevo evento caracterizado por la propiedad de que ocurre en la realización de un experimento si y sólo si ocurre alguno de los eventos A y B, o ambos. A este nuevo evento lo llamaremos la unión de A y B y lo denotaremos por A [ B: Si A y B son dos eventos, de…nimos un nuevo evento caracterizado por la propiedad de que ocurre en la realización de un experimento si y sólo si los dos eventos A y B ocurren. A este nuevo evento lo llamaremos la intersección de A y B y lo denotaremos por A \ B: Si A es un evento, de…nimos un nuevo evento caracterizado por la propiedad de que ocurre en la realización de un experimento si y sólo si A no ocurre. A este nuevo evento lo llamaremos el complemento o la negación de A y lo denotaremos por Ac : Se dice que dos eventos A y B son mutuamente excluyentes o ajenos si la ocurrencia de ambos en cualquier realización del experimento es imposible. Se dice que n eventos A1 ; A2 ; :::; An son mutuamente excluyentes o ajenos si los eventos Ai y Aj son mutuamente excluyentes para toda i; j 2 f1; :::; ng con i 6= j
37
Capítulo 5 Probabilidad clásica y frecuentista Un evento de un fenómeno aleatorio es cualquier subconjunto del espacio muestral. Uno quiere conocer cuál es la probabilidad de que ocurra un cierto evento, entendiendo que la probabilidad "mide" la incertidumbre de un evento de un fénomeno aleatorio dado. La construcción básica de la probabilidad de un evento está dada por
P [evento A] =
# casos favorables A # casos totales
a esta expresión se le conoce como la probabilidad clásica de un evento. En un experimento aleatorio con pocos resultados es sencillo enumerar todos los posibles resultados del fenómeno y poder contar los casos favorables, pero en la práctica esto resulta imposible debido a que el espacio muestral puede ser muy complicado o imposible de encontrar (por no ser …nito), y para poder encontrar una probabilidad en cuestión uno tiene que hacer uso de la proba-bilidad frecuencial ó simulación probabilista. La idea es poder hacer muchas realizaciones del fenómeno en cuestión, veri…car observando tuvo lugar un evento en particular A; y realizar el cociente de "casos favorables entre totales". Se puede de…nir la probabilidad frecuencial de la siguiente manera
P~N [evento A] =
N P
k=1
1fXk =Ag N
donde 1fXk =Ag denota a la función indicadora y vale 1 si el evento A se observó en la k ésima realización del fenómeno y 0 si no se observó, y N es el números de realizaciones del fenómeno. Asumiendo que si los eventos del fenómeno aleatorio se realizan bajo las mismas condiciones entonces la probabilidad frecuencial converge a la probabilidad clásica del evento A: lim P~N [A] = P [A]
N !1
A continuación se muestra una grá…ca entre la diferencia la probabilidad clásica (línea roja) contra la probabilidad frecuentista (línea azul y verde), depende del programa de cómputo utilizado 38
la exactitud de los resultados simulados. 0.2 0.18 0.16
Probabilidad
0.14 0.12
Probabilidad cl谩sica Probab Excel Probab Matlab
0.1 0.08 0.06 0.04 0.02 0
0
500
1000
1500
2000
2500
3000
# lanzamientos
5.1
Funci贸n de Probabilidad Dado un experimento aleatorio cualquiera con espacio muestral , donde A es un evento cualquiera del experimento aleatorio, entonces la funci贸n de probabilidad P ( ) si se satisfacen las siguientes propiedades:
1) 0
P [A]
1 para todo evento A
2) P [ ] = 1 y P [?] = 0 3) Si A y B son dos eventos mutuamente excluyentes o ajenos, entonces P [A o B] = P [A] + P [B] 4) Si A y B son dos eventos cualesquiera, entonces P [A o B] = P [A] + P [B] P [A y B] 5) La probabilidad del complemento del evento A est谩 dada por P [A] + P [no A] = 1 =) P [no A] = 1 P [A]
39
5.2
Algunas propiedades elementales de la funci贸n de probabilidad
1. Regla de la suma para 2 eventos. Si A y B son dos eventos cualesquiera, entonces se cumple P [A [ B] = P [A] + P [B]
P [A \ B]
2. Regla de la suma para 3 eventos. Si A, B y C son tres eventos cualesquiera, entonces se cumple P [A [ B [ C] = P [A] + P [B] + P [C]
P [A \ B]
P [A \ C]
P [B \ C] + P [A \ B \ C]
3. Regla de la suma para n eventos. Sean A1 ; A2 ; :::; An eventos cualesquiera en , entonces se cumple
P
P
5.3
"
[
"
n [
Ai =
i=1
#
#
Ai =
i=1
X +
n X
P [Ai ]
X i6=j
P [Ai \ Aj ] +
i6=j;j6=k
P [Ai \ Aj \ Ak ]
::: + ( 1)n+1 P [A1 \ A2 \ ::: \ Ak ]
P [eventos individuales]
X
X
X
P [\ eventos 2 a 2]
P [\ eventos 3 a 3] + ( 1)N +1 P
T
todos los eventos :
Eventos independientes
Se dice que dos eventos A y B en un mismo espacio muestral
son independientes si se cumple
P [A y B] = P [A] P [B] Para demostrar formalmente que dos eventos son independientes, se deben de calcular tres probabilidades, la de la intersecci贸n de A y B, adem谩s de las probabilidades individuales A y B: Y se comparan, obteniendo lo siguiente Si P [A y B] = P [A] P [B] entonces A y B son independientes Si P [A y B] 6= P [A] P [B] entonces A y B NO son independientes 40
En el libro del Dr. Luis Rincón "Curso Intermedio de Probabilidad" comenta lo siguiente sobre la independencia de evento: Aceptar la hipótesis de que dos eventos son independientes es una cuestión de apreciación por parte del observador. Puede interpretarse en el sentido de que la ocurrencia de uno de los eventos no proporciona información que modi…que la probabilidad de ocurrencia del segundo evento. Contrario a alguna primera concepción intuitiva errónea, el hecho de que dos eventos sean independientes no implica que ellos sean ajenos. La proposición contraria tampoco es válida, dos eventos ajenos no necesariamente son independientes
5.4
Eventos ajenos
Se dice que dos eventos A y B en un mismo espacio muestral excluyentes si se cumple
son ajenos o mutuamente
P [A y B] = 0
Ω A
B
Dos eventos son ajenos si su interseccion es el conjunto vacio A \ B = ? Si existe algún elemento en común en la intersección de los dos eventos, entonces no son ajenos. Siguiendo la misma idea del Dr. Luis Rincón, comenta lo siguiente: Si A y B son independientes, entonces no necesariamente son ajenos. También se puede analizar que si A y B son ajenos, entonces tampoco se sigue necesariamente que estos eventos sean independientes. Para evitar confusiones entre eventos ajenos e independientes, mostramos la siguiente tabla: a) A y B son ajenos si P [A \ B] = 0 b) A y B son independientes si P [A \ B] = P [A] P [B]
41
Capítulo 6 Cálculo Combinatorio 6.1
Principio de Adición
Supongamos que el primer procedimiento puede ocurrir en n formas distintas y que un segundo procedimiento puede ocurrir en m formas distintas, y supongamos que ambos eventos no pueden ocurrir en forma simultánea. Entonces los dos procedimientos pueden ocurrir en n + m formas.
6.2
Principio de Multiplicación
Si un procedimiento puede efectuarse de n formas distintas y un segundo experimento puede realizarse de m formas distintas, entonces el total de formas en que puede efectuarse el primer procedimiento seguido del segundo puede ocurrir de nm formas. El principio de multiplicación es válido no únicamente para dos procedimientos sino que también es válido para cualquier sucesión …nita de procedimientos. Por ejemplo, si A1 ; A2 ; :::; Ak denotan k procedimientos sucesivos entonces el principio de multiplicación se puede enunciar en símbolos de la siguiente manera # (A1
6.3
A2
Ak ) = #A1 #A2 : : : #Ak
Ordenaciones con Repetición
Supongamos que tenemos una urna con n objetos distintos. Deseamos realizar k extracciones al azar de un objeto a la vez. Al efectuar una extracción, registramos el objeto escogido y lo regresamos a la urna. De esta forma el mismo objeto puede ser extraído varias veces. El total de arreglos que se pueden obtener de esta urna al hacer k extracciones es nk ; pues en cada extracción tenemos n objetos posibles para escoger y efectuamos k extracciones.
6.4
Permutaciones
La pregunta básica acerca del total de formas en que podemos poner en orden lineal (uno detrás del otro y por lo tanto no hay repetición) n objetos distintos tiene como respuesta el factorial de
42
n; denotado por n! y está de…nido como sigue n! = n (n
1) (n
2)
(3) (2) (1)
También se le conoce como las permutaciones de n objetos, y se usa la notación P (n) = n!:
6.5
Ordenaciones sin repetición
A veces no queremos ordenar todos los n objetos de un conjunto sino únicamente k de ellos (k n) y sin repetirlos. La respuesta al total de arreglos lineales que podemos obtener de este modo es el número n (n 1) (n k + 1) : La respuesta encontrada se puede escribir como
n Pk
6.6
= P (n; k) =
n! (n
k)!
Combinaciones
Supongamos que tenemos un conjunto de n objetos distinguibles y nos interesa obtener una muestra de tamaño k: Supongamos ahora que las muestras deben ser sin orden y sin reemplazo. ¿Cuántas diferentes muestras podemos obtener de estas características? Para responder a esta pregunta seguimos el razonamiento siguiente. Cuando el orden importa hemos encontrado antes la fórmula n! (n k)! Ahora que no nos interesa el orden, observamos que cada uno de los arreglos de la fórmula anterior, está siendo contado k! veces. Las veces en que los mismos k elementos pueden ser permutados unos con otros, siendo que el conjunto de elementos es el mismo. Para obtener arreglos en donde el orden no importa, debemos entonces dividir por k!: La fórmula a la que hemos llegado se llama combinaciones de n en k; que denotaremos como sigue n k
=
n! k!(n k)!
A este número también se le conoce con el nombre de coe…ciente binomial de n en k; pues aparece en el famoso teorema del binomio (a + b)n =
n X n n k k a b k k=0
43
6.7
Coe…ciente multinomial
Ahora consideremos que tenemos n objetos no necesariamente distintos unos de otros. Por ejemplo, supongamos que tenemos k1 objetos de un primer tipo, k2 objetos de un segundo tipo, y así sucesivamente, hasta km objetos del tipo m; en donde se cumple k1 + k2 + ::: + km = n: Entonces estos n objetos pueden todos ordenarse uno detrás de otro de tantas formas distintas como indica el así llamado coe…ciente multinomial n k1 k2
km
1
=
km
k1 !k2 !
n! km 1 !km !
En el contexto de muestras de tamaño k tomadas de un conjunto de cardinalidad n y a manera de resumen parcial tenemos la siguiente tabla Muestras
Con reemplazo Sin reemplazo
Con orden
nk
Sin orden
n+k k
n! (n
1
44
k)!
n k
Parte IV Probabilidad Condicional
45
Capítulo 7 Probabilidad Condicional Sean A y B dos eventos en un espacio muestral y supóngase que P [B] > 0: Entonces se de…ne a P [A j B] como la probabilidad condicional del evento A "dado" el evento B; se de…ne como: P [A j B] =
P [A \ B] P [B]
P [A dado B] =
P [A y B] P [B]
Aunque esta fórmula es importante en sí misma tiene la ventaja adicional de que nos da una expresión para la probabilidad de la intersección de dos eventos, asumiendo que no son independientes. En efecto, se tiene que P [A \ B] = P [A j B] P [B]
(7.1)
o bien, puesto que P (B j A) = P (B \ A)=P (A); también podemos escribir P [A \ B] = P [B j A] P [A] P [A y B] = P [B dado A] P [A] = P [A dado B] P [B] Las expresiones anteriores también se les conoce el teorema de la multiplicación para probabilidad y se puede extender a cualquier número …nito de eventos, es decir
P [A1 \ A2 \ : : : \ An ] = P (A1 ) P (A2 j A1 ) P (A3 j A2 \ A1 )
P (An j An
1
\ : : : \ A2 \ A1 ) (7.2)
46
Una representación grá…ca del teorema de la multiplicación se muestra a continuación
RAIZ
A1
A2
B1
C1
C2
B2
A3
A4
B3
C3
Interpretacion de la probabilidad P (C3 \B1 \A2 ) = P (C3 j B1 \A2 ) P (B1 j A2 ) P (A2 ) Este resultado lo podemos interpretar de manera práctica de la siguiente forma "Si queremos calcular la probabilidad de una rama del árbol de decisión, solamente tenemos que multiplicar las probabilidades de cada rami…cación de esa rama"
7.0.1
Ejemplo probabilidad condicional
Recordemos la de…nición básica de probabilidad condicional
P (A dado B) =
P (A y B) P (B)
con la hipótesis de que P (B) > 0; con esto se garantiza de que el evento condicionante si existe o ocurrió. 1. En un lote de automóviles hay 24 Ford, 13 Chevrolet y 13 Volkswagen. De los Ford, 6 son blancos, 7 azules y el resto rojos. De los Chevrolet, 2 son blancos, 5 azules y el resto rojos. 6 de los Volkswagen son blancos y el resto azules. Para el cálculo fácil se hace una tabla con la información en orden Blanco Azul Rojo Total
Ford Chevrolet VW Total 6 2 6 14 7 5 7 19 11 6 0 17 24 13 13 50
(a) ¿Son independientes los eventos Ford y ser azul? 47
Para ello, calculamos las probabilidades individuales y la conjunta P (Ford) =
24 = 0:48 50
P (Azul) =
19 = 0:38 50
P (Ford y Azul) =
¿P (Ford y Azul) = P (Ford) P (Azul)? 7 ¿ = 50
7 = 0:14 50
24 50
19 50
?
0:14 6= 0:182 4
Por lo tanto NO son independientes los eventos (b) Si es Ford, ¿cuál es la probabilidad de que sea azul? 7 7 P (Azul y Ford) = 50 = = 0:291 67 P (Azul dado Ford) = 24 P (Ford) 24 50 (c) Si es azul, ¿cuál es la probabilidad de que sea Ford? 7 P (Ford y Azul) 7 P (Ford dado Azul) = = 50 = = 0:368 42 19 P (Azul) 19 50 (d) Si no es Volkswagen, ¿cuál es la probabilidad de que sea blanco? P (Blanco dado no VW) =
P (Blanco y no VW) P (no VW)
=
P (Blanco y Ford) + P (Blanco y Chevrolet) P (Ford) + P (Chevrolet)
=
8 6 2 + 50 50 = 50 = 8 = 0:21622 24 13 37 37 + 50 50 50
(e) Si no es rojo, ¿cuál es la probabilidad de que sea Chevrolet? P (Chevrolet dado no rojo) =
P (Chevrolet y no rojo) P (no rojo)
=
P (Chevrolet y blanco) + P (Chevrolet y Azul) P (Blanco) + P (Azul)
=
2 5 7 + 50 50 = 50 = 7 = 0:21212 14 19 33 33 + 50 50 50
48
7.1
Probabilidad Total
Si E es un evento cualquiera en un espacio muestral , es posible conocer P [E] en términos de las probabilidades condicionales de los eventos en una partición de : Decimos que los eventos en A1 ; A2 ; : : : ; An forman una partición de
si estos conjuntos son ajenos por parejas y su unión es ; es decir,
a) Ai 6= ; para todo i = 1; 2; :::; n (ningún subconjunto es vacío) b) Ai \ Aj = ; si i 6= j (no hay elementos en común por cada pareja de subconjuntos) c)
=
n S
Ai (la unión de todos los subconjuntos es el total)
i=1
Una ilustración de como podría ser una partición para n = 5 se muestra a continuación
Ω A1
A2
A5 A3
A4
Ahora, sean A1 ; A2 ; : : : ; An una partición de , y sea E un evento cualquiera en : Es claro que E se puede escribir como una unión de conjuntos ajenos (ver la siguiente …gura para n = 3) E = E \ (A1 [ A2 [ [ An ) = (E \ A1 ) [ (E \ A2 ) [ [ (E \ An )
Ω E
E ∩ A1 A1
E ∩ A2 A2
E ∩ A3
A3
49
Entonces por la tercera propiedad de la probabilidad axiomática1 se tiene que P [E] = P [E \ A1 ] + P [E \ A2 ] + ::: + P [E \ An ] Finalmente, por el teorema de la multiplicación, nos queda lo siguiente P [E] = P [E j A1 ] P [A1 ] + P [E j A2 ] P [A2 ] + ::: + P [E j An ] P [An ] o en su forma más compacta
P [E] =
n X i=1
P [E j Ai ] P [Ai ]
(7.3)
Este resultado se le conoce como el teorema de la probabilidad total, en palabras
Teorema de probabilidad total P [E] = P [E j A1 ] P [A1 ] + P [E j A2 ] P [A2 ] + ::: + P [E j An ] P [An ] P [E] = P [E dado A1 ]P [A1 ] + P [E dado A2 ]P [A2 ] + ::: + P [E dado An ]P [An ]
7.1.1
Ejemplo probabilidad total
La compañia X produce un artículo en tres fábricas A; B; C: Se fabrica el 35% de la producción en la fábrica A; el 15% de la producción en la fábrica B y el 50% de la producción en la fábrica C . Por análisis estadístico previo, se ha estudiado que la fábrica A tiene una probabilidad del 98% de producir correctamente el artículo, la fábrica B tiene una probabilidad del 99% de producir correctamente el artículo y la fábrica C tiene una probabilidad del 85% de producir correctamente el artículo. Un árbol de decisión de estos datos se muestra a continuación
1
Recuerden que si tenemos 2 conjuntos A y B tales que su intersección es el vacío A \ B = ;; entonces se cumple P (A [ B) = P (A) + P (B)
50
Se quiere calcular la probabilidad de que un artículo seleccionado al azar este en buen estado P ( buen estado) = P (buen estado y A) + P (buen estado y B) + P (buen estado y C) = P (buen estado dado A) P (A) + P (buen estado dado B) P (B) +P (buen estado dado C) P (C) = (0:98)(0:35) + (0:99)(0:15) + (0:85)(0:50) = 0:9165 = 91:65% por lo tanto, en general, la probabilidad de que un artículo este producido satisfactoriamente es del 91.65%
7.2
Teorema de Bayes
De la de…nición de probabilidad condicional y el teorema de probabilidad total se puede obtener una expresión muy útil en la práctica, publicada en 1763 por Thomas Bayes. Esta expresión, conocida actualmente como la fórmula de Bayes, se obtiene como sigue. Sean A1 ; A2 ; : : : ; An una partición de , y sea E un evento cualquiera sobre : De la de…nición de probabilidad condicional P [Ai \ E] P [Ai j E] = P [E] y de (7.2) obtenemos que el numerador es P [Ai j E] =
P [E j Ai ] P [Ai ] P [E]
pero, por el resultado de probabilidad total (7.3) tenemos que el denominador está dado por
P [Ai j E] =
P [E j Ai ] P [Ai ] P [E j A1 ] P [A1 ] + P [E j A2 ] P [A2 ] + ::: + P [E j An ] P [An ]
(7.4)
y en palabras
P [Ai dado E] =
P [E dado Ai ]P [Ai ] P [E dadoA1 ]P [A1 ] + P [E dado A2 ]P [A2 ] + ::: + P [E dado An ]P [An ]
entonces a (7.4) se le conoce como la fórmula de Bayes. La fórmula de Bayes se puede interpretar como la probabilidad clásica de "casos favorables entre casos totales". Visualmente
51
quedaría de la siguiente manera
Raiz
A
a
B
b
a
C
b
a
b
Interpretacion de la probabilidad P [A j a] =
7.2.1
P [a j A]P [A] P [a j A]P [A] + P [a j B]P [B] + P [a j C]P [C]
Paradoja del falso positivo
Supongamos que el 1% de la población de un cierto país tiene una enfermedad rara. Una empresa farmaceútica produce artículos para poder detectar si cualquier persona en particular tiene la enfermedad. Por pruebas de laboratorio se ha detectado que el artículo tiene una probabilidad del 1% de regresar un falso positivo (esto quiere decir que, de la población sana a el 1% marcará que esta enferma) y también tiene un 1% de probabilidad de regresar un falso negativo a la población que tiene la enfermedad (es decir, de la población que realmente tiene la enfermedad a el 1% le marcará que esta sana). Toda esta información se puede visualizar en el siguiente árbol de decisión
52
Entonces, queremos calcular la probabilidad de que una persona este realmente sana dado que la prueba resultó en falso negativo (marco que no tenía la enfermedad) P (sana dado F ) = = = =
P (sana y F ) P (F ) P (sana y F ) P (sana y F ) + P (enferma y F ) P (F
P (F dado sana) P (sana) dado sana) P (sana) + P (F dado enferma) P (enferma)
(0:99)(0:99) = 0:999 9 = 99:99% (0:99)(0:99) + (0:01)(0:01)
Por último, calculemos la probabilidad de que una persona este realmente enferma dado que la prueba le regresó un falso positivo (marco que tenía la enfermedad)
P (enferma dado F +) =
P (enferma y F +) P (F +)
=
P (enferma y F +) P (sana y F +) + P (enferma y F +)
=
P (F + dado enferma) P (enferma) P (F + dado sana) P (sana) + P (F + dado enferma) P (enferma)
=
(0:99)(0:01) = 0:5 = 50% (0:01)(0:99) + (0:99)(0:01)
por lo que, de todas las pruebas que se hagan y que marquen que tienen la enfermedad, solamente el 50% de la población tendrá la enfermedad ¿¿?? (¿qué nos dice esto sobre la veracidad de las pruebas de embarazo?)
53
Parte V Variables Aleatorias
54
Capítulo 8 Variables Aleatorias Una variable aleatoria X es una función cuyo dominio son los elementos del espacio muestral y cuyo contradominio es el conjunto de los números reales R X : !R : w ! X(w) El nombre está sugerido por el hecho de que X es una función (variable) que depende, en cierto modo, del azar (aleatoria).
8.1
Distribución de una variable aleatoria
Sea X una variable aleatoria en un espacio muestral : Recordando la terminología usual de funciones, tenemos que la imagen de bajo X es el conjunto X( ) = fx 2 R j X(w) = x para algún w 2 g En otras palabras, X( ) es el conjunto de valores que toma la función X: La función de densidad de probabilidad de X, o más brevemente, la densidad de X, es la función fX : X ! [0; 1] de…nida como fX (x) = pi si x = xi (i = 1; 2; :::; n) = 0 en caso contrario
en donde pi es la probabilidad de que X tome el valor xi ; o sea, pi = P [X = xi ] La función de distribución de X; o más brevemente, la distribución de X está de…nida como P P FX (x) = P [X x] = P [X = xj ] = fX (xj ) xj x
55
xj x
Capítulo 9 Distribución Binomial Consideremos un experimento aleatorio que tiene 2 posibles resultados. Tradicionalmente, los resultados son denominados éxito y fracaso. Una ejecución del experimento es llamada ensayo de Bernoulli. Bernoulli es el apellido de varios matemáticos suizos; el que nos atañe es Jacobo. Es necesario hacer las siguientes hipótesis: la probabilidad de observar un éxito es p y la de observar un fracaso es q con q = 1 p: Esto es, P [éxito] = p y P [fracaso] = 1 p con la obvia restricción de p 2 [0; 1]: Supongamos ahora que realizamos n ensayos independientes de Bernoulli donde la probabilidad de éxito, p; se mantiene constante de ensayo a ensayo. El espacio muestral asociado a este experimento consiste de vectores de n componentes donde cada componente puede ser éxito (E) o fracaso (F ). Así, = fw = (w1 ; w2 ; :::; wn ) j wj = E ó F para j = 1; 2; :::; ng Con esto podemos observar (siguiendo la ley fundamental del conteo) que elementales. De…namos la siguiente variable aleatoria
tiene 2n resultados
X = # éxitos en los n ensayos La variable aleatoria X puede asumir los valores de 0; 1; 2; :::; n; por lo que para determinar la distribución de probabilidades de X basta calcular P [X = k] : Como hay nk formas1 distintas de acomodar k éxitos en n intentos; y asumiendo que las realizaciones de los experimentos son 1
Las combinaciones
n k
se encuentran usando la fórmula n k
=
n! k!(n k)!
donde n! es el factorial del número natural n y se calcula multiplicando todos los números enteros antes que este. Por ejemplo, 4! = 4 3 2 1 = 24 o también 6! = 6 5 4 3 2 1 = 720: Con este elemento se puede calcular las combinaciones deseadas 6 6! 720 = = = 15 4 4!(6 4)! (24)(2) y se puede interpretar que se pueden formar 15 diferentes "equipos" de 4 integrantes si se tienen 6 integrantes en total. En la calculadora existe un comando especializado para calcular las combinaciones, viene como n Cr
56
independientes obtenemos que
P [X = k] =
n k p (1 k
p)n
k
con k = 0; 1; : : : ; n
Entonces decimos que X tiene la distribución binomial de parámetros n y p; y esto lo denotamos por X Bin(n; p): A continuación se muestran las grá…cas de la función de probabilidad de la distribución binomial 0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
0
1
2
3
4
5
(x; fX (x)) con n = 5 y p = 0:2
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
0
1
2
3
4
(x; fX (x)) con n = 5 y p = 0:5
57
5
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
0
1
2
3
4
5
(x; fX (x)) con n = 5 y p = 0:8 Para la distribución binomial se cumple el siguiente resultado n k p (1 p)n k crecen con k hasta alcanzar su máximo valor k k np + p, después de lo cual decrecen con k:
Los términos tk = cuando np + p
1
Dos conceptos intimamente relacionados con cualquier variable aleatoria son la media y la varianza, que se denotan por E[X] y Var[X] respectivamente, que matemáticamente están dadas por E[X] =
P
xk P [X = xk ]
k
Var[X] = E (X
E[X])2
La media la podemos representar como el promedio de los valores que toma la variable aleatoria cuando el experimento se repite muchas veces. La media (o esperanza) no es entonces el valor que se espera obtener para X, pero sí el valor que se espera obtener en promedio. Sin embargo, los valores particulares que toma X pueden diferir en mucho de su media. ¿Qué tanto se alejan de su esperanza los valores que toma X? En otras palabras, ¿qué pasaría con la aproximación al tener cada valor individual de X? ¿qué error estaríamos cometiendo al aproximar un valor particular de X con su media? Esto lo que trata de describir la varianza de una variable aleatoria, mide el alejamiento de los valores de X de su esperanza. También se acostumbra decir que la varianza es una medida de la dispersión de los valores de la variable aleatoria.
58
9.1
Resumen elementos distribución binomial
A continuación mostraremos una tabla con los resultados más importantes de la distribución binomial. X = # éxitos en n repeticiones de un experimento de Bernoulli - Cada repetición es independiente de los demás. - La probabilidad de éxito en cada repetición es igual a p X
Bin(n; p) n k p (1 k
Función de densidad fX (k) = P [X = k] = Promedio éxitos
= np
2
= np(1
Varianza éxitos Desviación estándar Sesgo
= 1
=p
p
p)n
k
p)
np(1
p)
2p
np(1
p)
Otro elemento fundamental dentro de la distribución binomial es poder calcular probabilidades usando el complemento de un evento, ya que en ocasiones es más fácil calcular la probabilidad del complemento que la probabilidad original. P [Ac ] = 1
P [A]
P [ no A] = 1
9.1.1
P [A]
Ejemplo distribución binomial # 1
Se va a realizar un examen de 10 preguntas de opción múltiple (se asumen de manera inicial respuestas del tipo verdadero/falso). Se acredita el examen si se obtiene una cali…cación mayor o igual de 6. Cada pregunta es independiente de la otra. Existen dos clases de estudiantes, los que estudiaron y no estudiaron para aplicar la prueba. Cada uno de ellos tendrá diferentes probabilidades de pasar el examen r Estudiante que no estudió
El estudiante que no estudió estará adivinando las respuestas, por lo que se tiene una probabilidad de éxito del 50% = 0:50: De…namos a X como el número de aciertos obtenidos en
59
10 intentos, por lo que X se distribuye de manera binomial de parámetros n = 10 y p = 0:50 X
Nosotros queremos encontrar P (X esta atinando a las respuestas.
Bin(10; 0:50)
6); la probabilidad de que apruebe el examen dado que
por ejemplo, para calcular P (X = 8) usamos la fórmula fundamental P [X = 8] = =
10 (0:5)8 (0:5)10 8
8
10 (0:5)8 (0:5)2 = 45 (0:0039063) (0:25) = 0:043946 8
entonces, ya teniendo en cuenta esta observación, podemos calcular la probabilidad buscada P [X 6] P [X
6] = P [X = 6] + P [X = 7] + P [X = 8] + P [X = 9] + P [X = 10] = 0:20507 + 0:11718 + 0:04394 + 0:00976 + 0:000976 0:37695
con lo que concluimos, que de cada 100 estudiantes que NO estudiaron y hacen la prueba al famoso "Ave María dame puntería" solamente aproximadamente 37 de ellos pasarán la 60
prueba. Otras estadísticas fundamentales para el número de aciertos son Media
= (10)(0:5) = 5
Desviación estándar Sesgo
1
=p
=
2(0:5)
10(0:5)(1
p
10(0:5)(1
0:5)
0:5) = 1: 581 1
= 0 (el histograma es simétrico)
Estudiantes que si estudiaron para la prueba En este caso, no hay una respuesta clara a cuál sería la probabilidad de éxito. Asignaremos subjetivamente una probabilidad del 80% de contestar correctamente cada pregunta (esto debido a los nervios, stress, etc...). De…namos a la variable aleatoria Y como el número de aciertos de un estudiante que SI estudió para la prueba, por lo que Y se distribuye de forma binomial de parámetros n = 10 y p = 0:8 Y
Queremos encontrar P (Y diaron
Bin(10; 0:8)
6); y comparar este resultado con los estudiantes que no estu-
Por ejemplo, calculemos la probabilidad de obtener exactamente 7 respuestas buenas P [Y = 7] = =
10 (0:8)7 (1 7
0:8)10
7
10 (0:8)7 (0:2)3 = 120(0:20972)(0:008) = 0:20133 7 61
con esta observación, ya se puede calcular fácilmente la probabilidad de obtener más de 6 preguntas buenas P [Y
6] = P [Y = 6] + P [Y = 7] + P [Y = 8] + P [Y = 9] + P [Y = 10] = 0:08808 + 0:20132 + 0:30198 + 0:26843 + 0:107374
0:9672065
por lo que de cada 100 estudiantes que SI estudiaron para una prueba, y con una probabilidad subjetiva del 80% de contestar correctamente caa pregunta, 96 de ellos aproximadamente acreditarán la prueba satisfactoriamente. Otras estadísticas básicas sobre el número de aciertos se muestran a continuación Media
= 10(0:8) = 8
Desviación estándar Sesgo
=
p
10(0:8)(0:2) = 1: 264 9
1 2(0:8) =p = 10(0:8)(0:2)
0:474 34
(el histograma esta cargado a la derecha)
9.1.2
Ejemplo distribución binomial # 2
1. Se tiene una urna con 5 bolas blancas, 6 azules y solamente 2 negras. Se van a extraer 5 veces una bola con reemplazo, es decir, se extrae y se ve el color, y después se regresa a la urna. ¿Cuál es la probabilidad de que en al menos 3 de las extracciones la bola observada sea azul? Se observa primero que el "éxito" es obtener bola azul, por lo tanto P [azul] =
6 = 0:461 54 13
P [no azul] = 1
6 7 = = 0:538 46 13 13
se tienen también N = 5 repeticiones del experimento y son independientes (no nos importa el color observado), por lo que si se puede modelar mediante un modelo binomial. De…namos a la variable aleatoria X = # bolas azules observadas en las 5 extracciones por lo que X
Bin (5; 0:46154) : La función de densidad de X está dada por
fX (x) = P [X = x] =
62
5 (0:46154)x (0:53846)5 x
x
y deseamos calcular P [X 3] = P [X = 3] + P [X = 4] + P [X = 5] ; qué es la probabilidad de observar al menos 3 bolas azules. Haciendo los cálculos correspondientes 5 (0:46154)3 (0:53846)2 3
P [X = 3] =
= 10(0:098317)(0:28994) = 0:28506 también 5 (0:46154)4 (0:53846)1 4
P [X = 4] =
= 5(0:045377)(0:53846) = 0:12217 y por último P [X = 5] =
5 (0:46154)5 (0:53846)0 5
= 1(0:020943)(1) = 0:020943 por lo tanto la probabilidad buscada es
P [X
3] = 0:28506 + 0:12217 + 0:020943 = 0:428 17
63
9.1.3
Ejemplo distribución binomial # 3
En una cierta comunidad, el 30% de las personas están a favor de un cierto partido polítco PMC. Se hace una encuesta de 20 personas, ¿cuál es la probabilidad de que al menos 4 personas vayan a votar por el PMC? ¿cuál es la probabilidad de que a lo más 18 personas voten por el partido PMC?. Tenemos que N = 20 y cada persona es independiente una de otra, por lo que si se puede modelar mediante una distribución binomial. V = # personas que votarán por el PMC por lo tanto V
Bin(20; 0:30) y su función de densidad está dada por P [V = k] =
20 (0:3)k (0:7)20 k
k
Para calcular las probabilidades propuestas inicialmente, será necesario utilizar las propiedades del complemento de un evento. Primero se calcula la probabilidad de que voten al menos 4 personas 64
por el PMC P [V
4] = 1
P [V < 4]
= 1
fP [V = 0] + P [V = 1] + P [V = 2] + P [V = 3]g
= 1
f0:0007979 + 0:0068393 + 0:027845 + 0:071603g
= 1
f0:10709g = 0:89291
por lo tanto, hay una probabilidad del 89.29% de que el partido obtenga al menos 4 votos en la zona. Ahora calculamos la probalidad de que a lo mรกs 18 personas voten por el PMC P [V
18] = 1 = 1
P [V > 18] fP [V = 19] + P [V = 20]g
= 1
1:62717
= 1
1: 662
10 10
9
+ 3:48678
10
11
9
= 0:999999338 por lo que hay una certeza casi del 100% de que a lo mรกs 18 personas votarรกn por el PMC.
65
Capítulo 10 Distribución Normal 10.1
Función de densidad y de distribución
Si la variable aleatoria X tiene como función de densidad por
fX (x) = p
1 2
e
1 2
2
(x )
decimos que X se distribuye como una Normal de parámetros y 2 ; esto se denota como X N ( ; 2 ): Los valores que pueden tomar estos parámetros están dados por =
;
2
2 R2 j
2Ry
2
>0
donde es el parámetro de localización (conocido como la media) y es el parámetro de escala (conocida como la desviación estándar). La razón es que la distribución Normal ocupa un lugar especial en el Cálculo de Probabilidades y la tradición en la literatura ha hecho como convención que los parámetros sean denotados por y : A continuación se muestran ejemplos de distribuciones normales con diferentes medias y una misma varianza
Distribucion normal con medias = 3; = 5 y varianza 2 = 1
66
= 8 junto con una
y se muestra otro ejemplo de distribuciones normales que tienen una misma media pero diferentes varianzas (cambia la escala de la función)
Misma media = 3 y diferentes varianzas = 1 (cafe), 2 = 2 (azul) y 2 = 3 (morado). Entre mas grande sea la varianza mas "abierta" o dispersa sera la gra…ca de la funcion. 2
La paternidad de la distribución Normal es atribuida frecuentemente a Gauss (en algunos escritos se le denomina La Campana de Gauss) aunque algunos escritores a…rman que Laplace y De Moivre la habían utilizado con anterioridad. Observemos que la distribución normal es simétrica alrededor de la media : La función de distribución (la probabilidad acumulada) no tiene una forma cerrada analítica y es expresable como ! Zx 2 1 t 1 exp dt FX (x) = p 2 2 1
x
(Z ) exp
1 = p 2
z2 2
dz
1
donde se hizo el cambio de variable Z=
X
Que se puede resumir de la siguiente manera
Si X
N( ;
2
) =) Z =
67
X
N (0; 1)
en palabras nos queda lo siguiente
Estandarización de la distribución normal Si X
N (media; varianza) =) Z =
X media desviacion estandar
N (0; 1)
Esto implica que se pueda calcular la probabilidad de cualquier distribución normal conociendo solamente las probabilidades de una distribución normal con media = 0 y varianza 2 = 1: La distribución normal tiene la característica de tener colas ligeras, con esto queremos decir que los valores alejados de la media tienen probabilidad pequeña de ocurrir. La lejanía está medida en múltiplos de la desviación estándar . Es más, al calcular P [jX
j
k ] = 2 (k)
1
deducimos que P [jX
j > k ] = 2 [1
(k)]
En la siguiente tabla están expuestos algunos valores de P [jX de k k P [jX j>k ] 1 0:3174 2 0:0456 3 0:0026 4 0:0003 Y se puede concluir que los valores de X que distan de de ocurrir menor que 0:0026
10.2
j > k ] para algunos valores
más de 3 tienen una probabilidad
Función de distribución de la normal estándar
Anteriormente se había señalado que si una distribución normal X tiene media = 0 y varianza 2 = 1 entonces se conoce a X en la literatura como la distribución normal estándar, y en particular, en vez de trabajar con la variable X se utiliza la variable Z para denotar a esta distribución de probabilidad fundamental
Si Z
1 N (0; 1) =) fZ (z) = p e 2
1 2 z 2
que geométricamente representa a la "campana de Gauss" con eje de simetría el eje vertical,
68
como se muestra a continuación
Distribucion Normal Estandar como se puede observar en el diagrama (aunque se puede demostrar formalmente) es que la distribución normal estándar tiene "colas ligeras", es decir, las probabilidades de ocurrencia menores que 3 o mayores que 3 es "despreciable". Para poder calcular probabilidades con la distribución normal estándar se tiene que realizar con intervalos semi abiertos o semi cerrados, y que por el momento, al ser una distribución continua, se tiene que realizar mediante el cálculo integral (z) = P [Z
1 z] = p 2
Z
z
exp 1
1 2 t dt 2
Existe el "pequeño inconveniente" de que esta integral NO se puede calcular de manera exacta, d 1 2 no existe una antiderivada G(z) tal que G(z) = exp z ; por lo que se tiene que recurrir al dz 2 uso de tablas aproximadas o programas de cómputo especializados. Se muestran algunos ejemplos
69
de estas integrales.
( 1) = P (Z
(2) = P (Z
70
1)
2)
0:16
0:98
P( 1
Z
Z (2)
2) = P (Z 2) P (Z 1) = ( 1) 0:98 0:16 = 0:82
A cotntinuación se muestran algunas propiedades algebraicas de la distribución normal estándar N (0; 1) Propiedades de la función de distribución a)
(z) = P [Z
b) P [Z c) P [a
10.3
1 z] = p 2
Rz
P [Z
z] = 1
z] = 1
1 2 x 2
e
(z)
dx
1
Z < b] = P [Z < b]
P [Z
(z) a] = (b)
(a)
"Estandarización" de una distribución normal
Durante mucho tiempo, cuando el uso de la computadora no era tan común, y no había programas de cómputo especializados de libre acceso, se utilizaban mucho las "tablas normales", que actualmente empiezan a ya no utilizarse, pero aún así, la técnica de "estandarización" de cualquier distribución normal es fundamental. En resumen esto queda plasmado en el siguiente resultado fundamental Si X
N( ;
2
) =) Z =
71
X
N (0; 1)
en palabras nos queda lo siguiente
Estandarizaciรณn de la distribuciรณn normal Si X
N (media; varianza) =) Z =
P [X
x] = P
X
x
X media desviacion estandar
=P Z
x
=
N (0; 1) x
Observemos que el integrando de la segunda integral es el de una distribuciรณn normal con = 0 y = 1: En consecuencia, para calcular FX (x) es suโ ฆciente con saber calcular la funciรณn de distribuciรณn de una N (0; 1): Se muestran algunos ejemplos de como "estandarizar" cualquier distribuciรณn normal a una normal estรกndar Example 1 Se tiene una distribuciรณn normal con media = 2:4 y varianza 2 = 1:6 (por lo que p su desviaciรณn estรกndar es = 1:6 1: 264 9). Se pide calcular la siguiente probabilidad P [2 < X < 3] = P
2 2:4 X 2:4 3 2:4 p < p < p 1:6 1:6 1:6 = P [ 0:316 23 < Z < 0:47434] = (0:47434) = 0:68237126
( 0:31623)
0:37591397 = 0:306 46
Ejemplo de como usar la plantilla de Excel
Example 2 Se tiene una distribuciรณn normal con media
72
=
4 y varianza
2
= 25 (por lo que
su desviación estándar es
= P [X
10.4
p
25 = 5): Se desea encontrar la probabilidad 2] = 1
P [X
2] X
( 4) 5
2
( 4) 5
=1
P
=1
P
=1
P Z
=1
0:88493033 = 0:115 07
X +4 5
2+4 5
6 =1 5
(1:2)
Tablas "históricas" de la distribución normal estándar
Estas tablas históricas tienen la desventaja de que solamente se pueden calcular valores desde z = 3:69; 3:68; :::; 0; ::; 3:68; 3:69 1 (z) = p 2
Zz
exp
1
73
t2 2
dt
A continuación se muestra una tabla con los valores más comúnes
74
75
Bibliografía [1] Hernández Arellano, Fabián (2003). "Cálculo de Probabilidades", Sociedad Matemática Mexicana [2] García Álvarez, Miguel Ángel (2005). "Introducción a la Teoría de la Probabilidad. Primer Curso", Fondo de Cultura Económica [3] Rodríguez López, Manuel (2005). "Matemáticas 1. Bachillerato", St Editorial [4] Rincón Solis, Luis Antonio (2003). "Manual de Probabilidad y Estadística para Computación", Notas de clase [5] Rincón Solis, Luis Antonio (2006). "Curso Intermedio de Probabilidad", Notas de clase [6] Arreola Risa, Jesús (2003). "Programación Lineal. Una introducción a la toma de decisiones cuantitativa", Ed. Thomson [7] De Oteyza De Oteyza, Elena; et. al. (2004). "Aritmética y Preálgebra. 1era. edición", Ed. Prentice Hall [8] De Oteyza De Oteyza, Elena; et. al. (2003). "Álgebra. 2da edición", Ed. Prentice Hall [9] De Oteyza De Oteyza, Elena; et. al. (2001). "Geometría Analítica y Trigonometría", Ed. Prentice Hall [10] De Oteyza De Oteyza, Elena; et. al. (2002). "Temas Selectos de Matemáticas", Ed. Prentice Hall [11] Bosch Giral, Carlos; et. al. (2004). "Cálculo Diferencial e Integral", Ed. Publicaciones Cultural [12] Bartle G. Robert. (2005). "Introducción al Análisis Matemático de una Variable", Ed. Limusa Wiley [13] Umaña Yañez, José Luis. (2001). "Nociones básicas de álgebra", Dirección General de Publicaciones y Fomento Editorial, UNAM [14] Hernández Lerma, Onésimo; et. al. (2003). "Elementos de Probabilidad y Estadística", Sociedad Matemática Mexicana [15] Flores Diáz, José Antonio; et. al. (2004). "Estadística descriptiva para bachillerato, Temas de Matemáticas para Bachillerato 5", Instituto de Matemáticas, UNAM [16] Johnson, Mildred (2000). "Cómo resolver problemas con álgebra. Serie Schaum", Ed. McGraw Hill 76
[17] Stewart, James (2000). "Cálculo. Trascendentes Tempranas", Ed. Thomson [18] Larson, Roland. (1999). "Cálculo con Geometría Analítica. Volumen 1", Ed. McGraw Hill [19] Ortíz Campos, Francisco. (2004). "Matemáticas 3. Geometría y Trigonometría", Ed. Publicaciones Cultural [20] Swokowski, Earl (2004). "Álgebra y Trigonometría con Geometría Analítica", Ed. Thomson [21] Wisniewski, Piotr Marian; et. al (2002). "Problemario de Probabilidad", Ed. Thomson [22] Wisniewski, Piotr Marian; et. al (2003). "Problemario de Precálculo", Ed. Thomson [23] Antonyan, Natella. (2001). "Problemario de Precálculo", Ed. Thomson [24] Mathews H., John; et. al. (2004). "Métodos Numéricos con Matlab", Ed. Prentice Hall [25] Waner, Stefan; et. al. (2002). "Cálculo Aplicado. Segunda edición", Ed. Thomson [26] Moreno Aranda, José Luis. (2003). "Álgebra", Ed. McGraw Hill [27] Haeussler, F., Ernest Jr. (2003). "Matemáticas para Administración y Economía", Ed. Prentice Hall [28] Becerra Espinosa, José Manuel. (2005). "Matemáticas V... el placer de dominarlas sin complicaciones", Dirección General de Publicaciones y Fomento Editorial, UNAM [29] Strang, Gilbert. (2006). "Álgebra Lineal y sus Aplicaciones", Ed. Thomson [30] Pita Ruiz, Claudio. (1995). "Cálculo Vectorial", Ed. Prentice Hall [31] Rozan, J. E. (1967). "Aritmética y Nociones de Geometría", Ed. Progreso [32] http://www.wikipedia.com
77