APPUNTI DI ` CALCOLO DELLE PROBABILITA Corso di Analisi dei Mercati Finanziari Laurea Magistrale BAMF, Universit`a di Firenze Docente: Prof. Maria Elvira Mancino mariaelvira.mancino@dmd.unifi.it Settembre 2008
Capitolo 1 SPAZI PROBABILIZZATI Il calcolo delle probabilit`a intende misurare il grado di fiducia che abbiamo nel verificarsi di un evento non certo, per esempio: ”domani piove”, ”nel lancio di una moneta, esce croce”, etc.
1.1
Gli eventi
Sia Ω l’insieme di tutti i possibili risultati di un esperimento (che chiameremo spazio dei campioni). Per esempio: se l’esperimento in questione `e il lancio di un dado, allora Ω = {(esce testa), (esce croce)}. Indicheremo con ∅ l’insieme vuoto e lo chiameremo l’evento impossibile e chiameremo Ω l’evento certo. Consideriamo inoltre una famiglia di sottoinsiemi di Ω, che indicheremo con A, che gode delle seguenti propriet`a: (i) Ω ∈ A, (ii) se A ∈ A allora Ac ∈ A, (iii) se (An )n `e una successione di elementi di A allora ∪n An ∈ A. Una classe che gode delle propriet`a (i),(ii),(iii) si dice σ-algebra. Gli elementi di A si chiamano eventi. Esempio 1.1.1 (i)La pi` u piccola σ-algebra associata ad Ω `e A = {∅, Ω}. (ii) Se Ω ha cardinalit`a finita l’insieme delle parti di Ω, ossia la famiglia di tutti i suoi possibili sottoinsiemi, `e una σ-algebra. (iii) Se A `e un sottoinsieme di Ω, allora A = {∅, A, Ac , Ω} `e una σ-algebra e si chiama la σ-algebra generata da A. (iv) Dati n eventi A1 , . . . , An di A si dice σ-algebra generata da A1 , . . . , An la pi´ u piccola σ-algebra che contiene A1 , . . . , An . Esercizio Provare che se A `e una σ-algebra, allora, data una successione (An )n di elementi di A, risulta ∩n An ∈ A. (Si suggerisce di usare le relazioni: (∪i Ai )c = ∩i Aci , (∩i Ai )c = ∪i Aci .)
1
1.2
La misura di probabilit` a
Definizione 1.2.1 Una probabilit` a P `e un’applicazione P : A → [0, 1] tale che (i) P (Ω) = 1, (ii) se (An )n `e una successione di eventi disgiunti a due a due, allora P (∪n An ) =
X
P (An ).
n
La propriet`a (ii) si chiama additivit`a numerabile. Esempio 1.2.2 Consideriamo l’esperimento che consiste nel lanciare una volta una moneta, possibilmente truccata. Possiamo prendere come spazio dei campioni Ω = {H, T } dove H `e l’evento {esce croce} e T `e l’evento {esce testa}. Sia A la σ-algebra {∅, H, T, Ω}. Una possibile misura di probabilit`a P `e data da: P (∅) = 0, P (H) = p, P (T ) = 1 − p, P (Ω) = 1, dove p ∈ [0, 1]. Se p =
1 2
il gioco `e equo, altrimenti `e truccato.
Osservazione 1.2.3 Se l’insieme Ω ha cardinalit`a finita, sia N , e se la natura del problema `e tale che possiamo supporre che tutti i possibili risultati abbiano la stessa probabilit`a di verificarsi, sia p = P ({ω}) per ogni ω ∈ Ω, allora risulta 1 = P (Ω) =
X
P (ω) = p × N,
ω∈Ω
da cui si ricava
1 . N Inoltre, per ogni sottoinsieme A di Ω, si ottiene p=
P (A) =
X
P (ω) = p × cardinalit`a(A) =
ω∈A
cardinalit`a(A) . cardinalit`a(Ω)
Nell’ultima formula si ritrova la definizione di probabilit`a in termini di f requenza, cio`e la probabilit`a di un evento `e il rapporto tra il numero di casi favorevoli (cardinalit`a (A)) e il numero di casi possibili (cardinalit`a (Ω)). Proposizione 1.2.4 La probabilit` a P gode delle seguenti propriet` a: c (i) per ogni A ∈ A, P (A ) = 1 − P (A), (ii) se A, B ∈ A con A ⊆ B, P (B) = P (A) + P (B \ A) ≥ P (A), (iii) se A, B ∈ A, P (A ∪ B) = P (A) + P (B) − P (A ∩ B). 2
Dim. (i) Poich´e A ∪ Ac = Ω e A ∩ Ac = ∅, allora P (A ∪ Ac ) = P (A) + P (Ac ) = 1. (ii) Poich´e B = A ∪ (B \ A) e poich´e gli eventi A e B \ A sono disgiunti, allora P (B) = P (A) + P (B \ A). (iii) Risulta A ∪ B = A ∪ (B \ A) e gli eventi A e B \ A sono disgiunti. Allora P (A ∪ B) = P (A) + P (B \ A) = P (A) + P (B \ (A ∩ B)) = = P (A) + P (B) − P (A ∩ B). 2 Esercizio 1.2.5 Dimostrare per induzione su n che se A1 , . . . , An ∈ A allora P (∪ni=1 Ai ) =
X
P (Ai ) −
i
X
P (Ai ∩ Aj ) +
i<j
X
P (Ai ∩ Aj ∩ Ak ) − · · ·
i<j<k
+(−1)n+1 P (A1 ∩ . . . An ). Proposizione 1.2.6 Sia (An )n una successione crescente di eventi (cio`e A1 ⊆ A2 ⊆ · · ·) e sia A = ∪∞ n=0 An . Allora P (A) = lim P (An ). n
Analogamente, se (An )n una successione decrescente di eventi (cio`e A1 ⊇ A2 ⊇ · · ·) e sia A = ∩∞ n=0 An . Allora P (A) = lim P (An ). n
Dim. Risulta A = A1 ∪ (A2 \ A1 ) ∪ (A3 \ A2 ) ∪ . . . dunque A `e unione disgiunta di eventi. Allora per la (ii) della definizione (1.2.1) P (A) = P (A1 ) +
∞ X
P (Ai+1 \ Ai ) =
i=1
= P (A1 ) + n→∞ lim
n−1 X i=1
[P (Ai+1 − P (Ai )] = n→∞ lim P (An ).
Dimostrare per ESERCIZIO il risultato sulla famiglia decrescente di eventi passando al complementare e usando la prima parte. 2
3
1.3
La probabilit` a condizionale
Definizione 1.3.1 Siano A, B due eventi tali che P (B) > 0. La probabilit` a condizionale di A dato B `e definita da P (A|B) =
P (A ∩ B) . P (B)
Una famiglia di eventi B1 , . . . , Bn si dice una partizione di Ω se Bi ∩ Bj = ∅ se i 6= j e ∪ni=1 Bi = Ω. Proposizione 1.3.2 Per ogni coppia A, B ∈ A P (A) = P (A|B)P (B) + P (A|B c )P (B c ).
(1.1)
Pi´ u in generale se A1 , . . . , An `e una partizione di Ω, (si dice anche una partizione dell’evento certo), si ha P (A) =
n X
P (A|Bi )P (Bi ).
(1.2)
i=1
Dim. Dimostriamo (1.1). Risulta A = (A ∩ B) ∪ (A ∩ B c ). Inoltre i due eventi A ∩ B e A ∩ B c sono disgiunti. Dunque P (A) = P (A ∩ B) + P (A ∩ B c ) = P (A|B)P (B) + P (A|B c )P (B c ). Dimostrare (1.2) per Esercizio. 2 Esercizio 1.3.3 Dimostrare che se A1 , . . . , An sono n eventi allora vale P (A1 ∩ A2 ∩ . . . ∩ An ) = = P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 ) · · · P (An |A1 ∩ A2 ∩ . . . ∩ An−1 ). Proposizione 1.3.4 Siano A1 , . . . , An eventi disgiunti tali che ∪ni=1 Ai = Ω (ovvero una partizione di Ω). Allora per ogni evento B P (Ai )P (B|Ai ) . k=1 P (Ak )P (B|Ak )
P (Ai |B) = Pn Dim. Risulta P (Ai |B) =
P (Ai )P (B|Ai ) , P (B)
ma poich´e gli Ai sono una partizione di Ω P (B) =
n X
P (Ak ∩ B) =
k=1
n X
P (Ak )P (B|Ak ).
k=1
2 La formula (1.3) prende il nome di formula di Bayes. 4
(1.3)
1.4
L’indipendenza tra eventi
Definizione 1.4.1 Si dice che due eventi A e B sono indipendenti se P (A ∩ B) = P (A)P (B). Definizione 1.4.2 Una famiglia (Ai )i∈I si dice indipendente se P (∩i∈J Ai ) =
Y
P (Ai ),
i∈J
per tutti i sottoinsiemi finiti J di I.
1.5
Lo schema delle prove ripetute
Supponiamo di effettuare una successione di esperimenti tra loro indipendenti e tali che ciascuno pu`o dare luogo solo a due possibili risultati, che indicheremo come successo e insuccesso. Per esempio consideriamo una successione di n lanci ripetuti di una moneta. Supponiamo che esca testa con probabilit`a p e croce con probabilit`a 1 − p. Vogliamo calcolare quale `e la probabilit`a di ottenere come risultato degli n lanci una prefissata sequenza di teste e croci, per esempio consideriamo la particolare sequenza in cui le prime k volte si `e ottenuto testa e le seguenti n − k si `e ottenuto croce . Indichiamo con Ai l’evento (il risultato dell’i-esimo lancio `e testa) e quindi P (Ai ) = p. L’evento a cui siamo interessati `e allora A1 ∩ . . . ∩ Ak ∩ Ack+1 ∩ . . . ∩ Acn . Poich´e gli eventi Ai sono indipendenti, risulta P (A1 ∩ . . . ∩ Ak ∩ Ack+1 ∩ . . . ∩ Acn ) = P (A1 ) · · · P (Ak )P (Ack+1 ) · · · P (Acn ) = pk (1 − p)n−k . Infine basta osservare che il risultato ottenuto dipende solo dal numero di teste e di croci presenti nella sequenza e non dal loro ordine. Conclusione: la probabilit`a di ottenere in n lanci di una moneta (dove p `e la probabilit`a che esca testa) una prefissata sequenza di k teste (e n − k croci) `e pk (1 − p)n−k . Il precedente modello viene anche indicato come schema di Bernoulli (o schema successo-insuccesso).
1.6
Calcolo combinatorio
Il calcolo combinatorio ha lo scopo di calcolare la cardinalit`a degli insiemi finiti. Osserviamo che due insiemi hanno la stessa cardinalit`a se si possono mettere in corrispondenza biunivoca. (1) L’insieme prodotto (M × N ), dove M ha cardinalit`a m e N ha cardinalit`a n, ha cardinalit`a mn. 5
(2) Se m ≤ n la cardinalit`a dell’insieme delle applicazioni iniettive f : M → N `e n! . (n − k)! Si parla di disposizioni di m elementi tra N elementi: `e una m-upla ordinata (n1 , . . . , nm ) di elementi di N tutti distinti tra loro. Se m = n si parla di permutazioni. (3) L’insieme dei sottoinsiemi di N di cardinalit`a m ha cardinalit`a µ
n m
¶
=
n! . k!(n − k)!
6
Capitolo 2 VARIABILI ALEATORIE DISCRETE Definizione 2.0.1 Dato uno spazio di probabilit` a (Ω, A, P ) e un insieme discreto X = {x1 , x2 , . . .} ⊂ IR si dice variabile aleatoria discreta un’applicazione X : (Ω, A, P ) → X , tale che per ogni xi ∈ X (ω : X(ω) = xi ) ∈ A. Osserviamo che se X `e una variabile aleatoria discreta ha senso calcolare P (ω : X(ω) = xi ) dato che P `e definita sulla σ-algebra A. Osservazione 2.0.2 La condizione (i) per ogni x ∈ X , (ω : X(ω) = x) ∈ A `e equivalente alla condizione (ii) per ogni x ∈ X , (ω : X(ω) ≤ x) ∈ A. Infatti si ha (ω : X(ω) ≤ x) = ∪xi ≤x (ω : X(ω) = xi ). Pertanto (ω : X(ω) ≤ x) `e un evento, essendo una unione al pi´ u numerabile di eventi. Esempio 2.0.3 Sia A un insieme di Ω, la funzione indicatrice di A definita: ½
IA (ω) =
1 se ω ∈ A 0 se ω ∈ Ac
`e una variabile aleatoria se e solo se A `e un evento, ossia A ∈ A. Esempio 2.0.4 Sia X una variabile aleatoria a valori in un insieme finito. X `e una P variabile aleatoria se e solo se X = N i=1 ai IAi dove Ai sono eventi, ai ∈ R. Esempio 2.0.5 Sia X una variabile aleatoria a valori in un insieme finito. Si dice σalgebra generata da X la σ-algebra generata dagli eventi A = (X = x) al variare di x tra tutti i valori assunti da X.
7
2.1
Le distribuzioni di probabilit` a
Definizione 2.1.1 Data una variabile aleatoria discreta X risulta definita la funzione fX : IR → IR+ mediante fX (x) = P (ω : X(ω) = x). fX (x) si dice la densit` a di probabilit` a di X. La funzione fX gode delle seguenti propriet`a: (i) fX (x) = 0 tranne al pi´ u un’infinit`a numerabile di valori, P (ii) x∈X fX (x) = 1. Definizione 2.1.2 Si dice distribuzione di probabilit` a della variabile aleatoria X la funzione FX : IR → [0, 1] definita da FX (x) = P (ω : X(ω) ≤ x). Se x1 < x2 < . . . sono i valori assunti dalla variabile aleatoria X allora la funzione FX `e costante nell’intevallo (xi , xi+1 ), infatti se xi < x < xi+1 allora gli eventi (X ≤ x) e (X ≤ xi ) coincidono. Osservazione 2.1.3 La conoscenza della distribuzione di probabilit`a equivale alla conoscenza della densit`a. Infatti mediante FX (x) =
X
fX (xi )
xi ≤x
si esprime la funzione di distribuzione in termini della densit`a di probabilit`a. Inoltre sia x1 < x2 < . . . allora fX (xi ) = P (X = xi ) = P (xi−1 < X ≤ xi ) = FX (xi ) − FX (xi−1 ). Pertanto la funzione di densit`a si esprime in termini della funzione di distribuzione.
2.2
Le distribuzioni congiunte
Definizione 2.2.1 Date n variabili aleatorie discrete definite sullo spazio probabilizzato (Ω, A, P ) a valori in X si definisce la funzione di densit` a congiunta del vettore (X1 , X2 , . . . , Xn ) mediante f(X1 ,X2 ,...,Xn ) (x1 , x2 , . . . , xn ) = P (X1 = x1 , X2 = x2 , . . . , Xn = xn ) al variare di x1 , . . . , xn ∈ X . 8
(2.1)
Dato un vettore (X1 , X2 , . . . , Xn ) di variabili aleatorie le densit`a di probabilit`a fXi delle singole variabili Xi si dicono densit`a marginali. Se si conosce la densit`a congiunta si possono sempre ricavare le densit`a marginali. Per semplicit`a di notazioni consideriamo il caso di un vettore di due variabili aleatorie (X, Y ) e indichiamo con (xi )i e (yi )i i valori assunti da X e Y rispettivamente. Si ha fX (x) = P (∪i (X = x, Y = yi )) =
X
P (X = x, Y = yi ) =
X
i
f(X,Y ) (x, yi ).
i
Il viceversa `e falso. Definizione 2.2.2 Date n variabili aleatorie discrete definite sullo spazio probabilizzato (Ω, A, P ) si definisce la distribuzione di probabilit` a congiunta del vettore (X1 , X2 , . . . , Xn ) mediante F(X1 ,X2 ,...,Xn ) (x1 , x2 , . . . , xn ) = P (X1 ≤ x1 , X2 ≤ x2 , . . . , Xn ≤ xn ).
2.3
(2.2)
L’indipendenza tra variabili aleatorie
Definizione 2.3.1 Siano X1 , . . . , Xn variabili aleatorie discrete definite sullo spazio probabilizzato (Ω, A, P ) e a valori in X . Si dice che le variabili X1 , . . . , Xn sono indipendenti se per ogni x1 , . . . , xn ∈ X si ha P (X1 = x1 , X2 = x2 , . . . , Xn = xn ) = P (X1 = x1 )P (X2 = x2 ) · · · P (Xn = xn ).
(2.3)
L’identit`a (2.3) pu`o essere scritta anche mediante le funzioni di densit`a di probabilit`a: per ogni x1 , . . . , xn ∈ X f(X1 ,X2 ,...,Xn ) (x1 , x2 , . . . , xn ) = fX1 (x1 )fX2 (x2 ) · · · fXn (xn ).
(2.4)
Osservazione 2.3.2 La condizione (2.3) `e equivalente alla seguente P (X1 ∈ A1 , X2 ∈ A2 , . . . , Xn ∈ An ) = P (X1 ∈ A1 )P (X2 ∈ A2 ) · · · P (Xn ∈ An )
(2.5)
per ogni A1 , . . . , An ∈ I. Infatti X
P (X1 ∈ A1 , X2 ∈ A2 , . . . , Xn ∈ An ) =
f(X1 ,X2 ,...,Xn ) (x1 , x2 , . . . , xn ) =
x1 ∈A1 ,...,xn ∈An
X
=
fX1 (x1 )fX2 (x2 ) · · · fXn (xn ) =
x1 ∈A1 ,...,xn ∈An
=
X x1 ∈A1
fX1 (x1 ) · · ·
X
fXn (xn ) = P (X1 ∈ A1 )P (X2 ∈ A2 ) · · · P (Xn ∈ An ).
xn ∈An
Proposizione 2.3.3 Se X e Y sono due variabili aleatorie indipendenti (e f e g sono due funzioni misurabili) allora anche g(X) e h(Y ) sono variabili aleatorie indipendenti. 9
2.4
Esempi di distribuzioni discrete
Distribuzione di Bernoulli La variabile aleatoria X assume solo i valori 1 e 0 rispettivamente con probabilit`a p e 1 − p (dove p ∈ (0, 1)). Quindi la densit`a `e p
se x = 1 fX (x) = 1 − p se x = 0 0 se x = 6 0, 1. Distribuzione binomiale Supponiamo di effettuare n prove di Bernoulli indipendenti, siano X1 , . . . , Xn le variabili aleatorie indipendenti che rappresentano il risultato delle singole prove. La variabile aleatoria X = X1 + · · · + Xn conta il numero dei successi nelle n prove. La densit`a di X `e: µ ¶ n pk (1 − p)n−k se k = 0, 1, . . . , n fX (k) = k 0 altrimenti. Distribuzione multinomiale Supponiamo di effettuare n prove indipendenti, ciascuna delle quali pu`o avere k possibili risultati, e supponiamo che l’i-esimo risultato abbia probabilit`a pari a pi . Sia Ni la variabile aleatoria che conta il numero di volte che compare l’i-esimo risultato: P (N1 = n1 , . . . , Nk = nk ) =
n! pn1 . . . pnk k n1 ! . . . nk ! 1
per ogni n1 , . . . , nk con n1 + n2 + . . . + nk = n. Si dice che il vettore N = (N1 , . . . , Nk ) ha distribuzione multinomiale. Distribuzione geometrica Supponiamo di effettuare una successione di prove di Bernoulli indipendenti, siano X1 , X2 , . . . le variabili aleatorie indipendenti che rappresentano il risultato delle singole prove. Sia T la variabile aleatoria che rappresenta l’istante del primo successo: T = inf{n ≥ 1|Xn = 1}. Allora P (T > k) = P (X1 = 0, X2 = 0, . . . , Xk = 0) = = P (X1 = 0)P (X2 = 0) · · · P (Xk = 0) = (1 − p)k . Ne segue che P (T = k) = P (T > k − 1) − P (T > k) = p(1 − p)k−1 . La densit`a di probabilit`a ½
fX (k) =
p(1 − p)k 0 10
se k = 0, 1, 2, . . . altrimenti.
Una propriet`a caratteristica della legge geometrica `e la propriet`a di assenza di memoria. Risulta infatti che, se X `e una variabile aleatoria con distribuzione geometrica e se m ≥ 0, P (X = k + m|X ≥ k) =
P (X = k + m, X ≥ k) = P (X ≥ k)
P (X = k + m) p(1 − p)k+m = = p(1 − p)m = P (X = m). P (X ≥ k) (1 − p)k Quindi se X rappresenta l’istante del primo successo in uno schema di Bernoulli di parametro p, allora la probabilit`a di dover attendere ancora m prove per avere il primo successo, sapendo che non si `e ottenuto alcun successo nelle prime k prove, `e uguale alla probabilit`a che si avrebbe se le prime k prove non fossero avvenute. Distribuzione di Poisson Sia λ > 0 la densit`a ½ k λ −λ fX (k) = k! e 0 `e detta densit`a di Poisson di parametro λ.
2.5
se k = 0, 1, . . . altrimenti
Densit` a di una funzione di una variabile aleatoria
Sia X una variabile aleatoria di dimensione m e φ una funzione φ : IRm → IR. Sia fX la densit`a di X. Calcoliamo la distribuzione di probabilit`a della variabile aleatoria φ(X). Risulta P (φ(X) = y) = P (X ∈ φ−1 (y)) =
X
fX (x).
(2.6)
x∈φ−1 (y)
Esempio 2.5.1 Siano X e Y due variabili aleatorie di densit`a congiunta f(X,Y ) , allora la variabile aleatoria Z = X + Y ha densit`a fZ (z) =
X
f(X,Y ) (t, z − t).
t∈IR
Basta applicare (2.6) alla variabile (X, Y ) e alla funzione φ(x, y) = x + y: P (Z = z) = P (X + Y = z) =
X
f(X,Y ) (x, y) =
(x,y):x+y=z
2.6
X
f(X,Y ) (x, z − x).
x∈IR
Densit` a condizionale
Definizione 2.6.1 Date due variabili aleatorie discrete X e Y si dice densit` a condizionale di X dato Y = y la funzione fX|Y (x|y) = P (X = x|Y = y) per ogni y tale che P (Y = y) > 0. 11
Dunque vale che fX|Y (x|y) =
f(X,Y ) (x, y) fY (y)
per ogni y tale che fY (y) > 0. Definizione 2.6.2 Date due variabili aleatorie discrete X e Y si dice funzione di distribuzione condizionale di X dato Y = y la funzione FX|Y (x|y) = P (X ≤ x|Y = y) per ogni y tale che P (Y = y) > 0.
2.7
Media
Definizione 2.7.1 Data una variabile aleatoria discreta X definita sullo spazio probabilizzato (Ω, A, P ) e a valori in X si definisce media (o speranza matematica, valore atteso) X E[X] = xi fX (xi ) (2.7) xi ∈X
sotto la condizione che
X
|xi |fX (xi ) < ∞.
xi ∈X
Proposizione 2.7.2 La media ha le seguenti propriet` a: (i) se X ≥ 0 q.c. allora E[X] ≥ 0, (ii) se c1 , c2 sono due costanti reali allora E[c1 X + c2 Y ] = c1 E[X] + c2 E[Y ]. Dim. (i) `e ovvia. Per quanto riguarda (ii), siano xi e yj i valori assunti dalle variabili X e Y allora X E[c1 X + c2 Y ] = (c1 xi + c2 yj )f(X,Y ) (xi , yj ) = = c1
X
i,j
xi f(X,Y ) (xi , yj ) + c2
i,j
P
P
Dalle relazioni i f(X,Y ) (xi , yj ) = fY (yj ) e termine `e uguale a c1
X i
xi fX (xi ) + c2
X
j
X
yj f(X,Y ) (xi , yj ).
i,j
f(X,Y ) (xi , yj ) = fX (xi ) segue che l’ultimo
yj fY (yj ) = c1 E[X] + c2 E[Y ].
j
2 Teorema 2.7.3 Sia X = (X1 , . . . , Xn ) una variabile aleatoria n-dimensionale e sia φ : IRn → IR una funzione misurabile. Chiamiamo Z la variabile aleatoria φ(X). Allora E[Z] =
X
φ(x)fX (x)
x
se la serie `e assolutamente convergente. 12
Dim. Per semplicit`a dimostriamo il teorema nel caso n = 2. Siano z1 , z2 , . . . i valori assunti da Z. Sia Ai = φ−1 (zi ) = {(xk1 , xk2 ) : φ(xk1 , xk2 ) = zi }. Risulta E[|Z|] =
X
|zi |P (Z = zi ) =
i
=
X
X
X
X
|zi |
i
f(X1 ,X2 ) (xk1 , xk2 ) =
(xk1 ,xk2 )∈Ai
|zi |f(X1 ,X2 ) (xk1 , xk2 ) =
i (xk ,xk )∈Ai 1 2
X
|φ(xk1 , xk2 )|f(X1 ,X2 ) (xk1 , xk2 ).
(xk1 ,xk2 )
Questo dimostra che Z ammette media finita. Per calcolare la media basta ripetere il calcolo fatto senza il valore assoluto. 2 Proposizione 2.7.4 Se X, Y sono due variabili aleatorie indipendenti allora E[XY ] = E[X]E[Y ]. Dim. Grazie al teorema (2.7.3) presa φ(x, y) = xy, risulta: E[XY ] =
X
xi yj f(X,Y ) (xi , yj ) =
xi ,yj
X
xi yj fX (xi )fY (yj )
xi ,yj
dove l’ultimo passaggio `e dovuto al fatto che, poich´e le variabili X e Y sono indipendenti, per ogni xi e yj f(X,Y ) (xi , yj ) = fX (xi )fY (yj ). Ma
X
xi yj fX (xi )fY (yj ) = E[X]E[Y ].
xi ,yj
2 Osservazione 2.7.5 Se X `e una variabile aleatoria a valori interi positivi allora E[X] =
∞ X
P (X ≥ k).
k=1
Dim. Esercizio.
2.8
Momenti
Definizione 2.8.1 Data una variabile aleatoria discreta X definita sullo spazio probabilizzato (Ω, A, P ) e a valori in X si definisce momento di ordine k E[X k ],
(2.8)
purch´e E[|X|k ] < ∞. Definizione 2.8.2 Data una variabile aleatoria discreta X definita sullo spazio probabilizzato (Ω, A, P ) e a valori in X si definisce momento centrato di ordine k E[(X − E[X])k ]. Grazie al teorema (2.7.3) se X ha densit`a discreta fX allora E[X k ] =
X i
13
xki fX (xi ).
(2.9)
2.9
Varianza e covarianza
Definizione 2.9.1 Si dice varianza di una variabile aleatoria X la quantit`a V ar[X] = E[(X − E[X])2 ]. Esercizio Verificare che V ar[X] = E[X 2 ] − E[X]2 . Definizione 2.9.2 Si dice covarianza tra due variabili aleatorie X e Y la quantit`a Cov(X, Y ) = E[(X − E[X])(Y − E[Y ])]. Proposizione 2.9.3 La varianza ha le seguenti propriet` a: (i) se λ ∈ IR allora V ar[λX] = λ2 V ar[X], (ii) V ar[X + Y ] = V ar[X] + V ar[Y ] + 2Cov(X, Y ), (iii) se X e Y sono indipendenti allora V ar[X + Y ] = V ar[X] + V ar[Y ]. Dim. (i) Usando il fatto che la media `e lineare V ar[λX] = E[(λX − E[λX])2 ] = E[λ2 (X − E[X])2 ] = λ2 E[(X − E[X])2 ] = λ2 V ar[X]. (ii) V ar[X + Y ] = E[(X + Y − E[X + Y ])2 ] = E[(X − E[X])2 + 2(XY − E[X]E[Y ]) + (Y − E[Y ])2 ] = V ar[X] + 2(E[XY ] − E[X]E[Y ]) + V ar[Y ]. (iii) Se X e Y sono indipendenti allora E[XY ] − E[X]E[Y ] = 0 e quindi V ar[X + Y ] = V ar[X] + V ar[Y ]. 2 Definizione 2.9.4 Si dice coefficiente di correlazione tra due variabili aleatorie X e Y la quantit`a Cov(X, Y ) ρ(X, Y ) = q . V ar[X]V ar[Y ] Esempio 2.9.5 (i) Se X ha distribuzione di Bernoulli di parametro p E[X] =
X
xfX (x) = 0 · (1 − p) + 1 · p = p
x
E[X 2 ] =
X
x2 fX (x) = 0 · (1 − p) + 1 · p = p
x
V ar[X] = E[X 2 ] − E[X]2 = p(1 − p). 14
(ii) Se X ha distribuzione binomiale di parametri n e p, basta osservare che X = X1 +. . .+ Xn dove le variabili Xi sono indipendenti e hanno distribuzione di Bernoulli di parametro p, pertanto E[X] = E[X1 ] + . . . + E[Xn ] = np V ar[X] = V ar[X1 ] + . . . + V ar[Xn ] = np(1 − p). (iii) Se X ha distribuzione di Poisson di parametro λ E[X] =
n X k=0
E[X 2 ] =
∞ X
k2
k=0
k
n X λk −λ λk e = e−λ λ =λ k! k=0 k!
∞ ∞ X X λk −λ λk−1 λh e = e−λ λ k = e−λ λ (h + 1) = k! h! k=1 (k − 1)! h=0 −λ
=e
∞ X λh λh −λ = λ2 + λ λ h +e λ h=0 h! h=0 h! ∞ X
V ar[X] = E[X 2 ] − E[X]2 = λ2 + λ − λ2 = λ. (iv) Se X ha distribuzione geometrica di parametro p, usiamo (2.7.5) per calcolare la speranza ∞ X 1−p 1 . E[X] = (1 − p)k = − 1 = p p k=1
2.10
Funzioni Generatrici
Definizione 2.10.1 Data una variabile aleatoria X a valori interi positivi, si dice funzione generatrice di X la funzione GX (t) = E[tX ], t ∈ IR. In particolare se fX `e la densit`a di X allora GX (t) =
∞ X
tk fX (k)
k=0
pertanto la funzione generatrice dipende solo dalla densit`a di X. (Osserviamo che la P k funzione generatrice `e definita purch´e ∞ k=0 |t| fX (k).) Viceversa la funzione generatrice individua univocamente la densit`a: infatti se le variabili aleatorie X e Y hanno la stessa funzione generatrice risulta: ∞ X
tk fX (k) = GX (t) = GY (t) =
k=0
∞ X
tk fY (k).
k=0
L’identit`a tra queste due serie di potenze vale se e solo se per ogni k ≥ 0, fX (k) = fY (k). Ovvero le variabili X e Y hanno la stessa densit`a di probabilit`a. In particolare fX (k) =
1 dk GX (t)|t=0 . k! dtk 15
Osservazione 2.10.2 Dalla conoscenza della funzione generatrice si ricavano facilmente i momenti di una variabile aleatoria. Infatti: G0X (t) =
∞ X
k tk−1 fX (k) ⇒ G0X (1) =
k=1
∞ X
k fX (k) = E[X].
k=1
Iterando G00X (t) =
∞ X
∞ X
k(k − 1) tk−2 fX (k) ⇒ G00X (1) =
k=2
k(k − 1) fX (k) = E[X 2 ] − E[X], ‘
k=2
infine E[X 2 ] = G00X (1) + G0X (1). In maniera analoga si calcolano i momenti di ordine k > 2. Esempio 2.10.3 (i) Densit`a binomiale B(n,p) GX (t) =
n X k=0
µ
t
k
¶
µ
¶
n X n k n p (1 − p)n−k = (tp)k (1 − p)n−k = (tp + 1 − p)n k k k=0
(ii) Densit`a geometrica di parametro p GX (t) =
∞ X
tk p(1 − p)k = p
k=0
∞ X
(t(1 − p))k =
k=0
p 1 − t(1 − p)
(iii) Densit`a di Poisson di parametro λ GX (t) =
∞ X k=0
tk e−λ
∞ (tλ)k λk −λ X e = e−λ eλt . k! k! k=0
Esempio 2.10.4 Siano X e Y due variabili aleatorie indipendenti. Allora la funzione generatrice di X + Y `e GX+Y (t) = GX (t)GY (t). Dim. GX+Y (t) = E[tX+Y ] = E[tX ]E[tY ] = GX (t)GY (t). 2 Esercizio Siano X e Y variabili aleatorie indipendenti con distribuzione di Poisson, rispettivamente di parametri λ e µ. Allora la distribuzione della variabile aleatoria X + Y `e una distribuzione di Poisson di parametro λ + µ. Infatti: GX+Y (t) = GX (t)GY (t) = eλ(t−1) eµ(t−1) = e(λ+µ)(t−1) .
16
Capitolo 3 VARIABILI ALEATORIE CONTINUE Definizione 3.0.5 Dato uno spazio di probabilit` a (Ω, A, P ) si dice variabile aleatoria continua un’applicazione X : (Ω, A, P ) → IR tale che per ogni t ∈ IR (ω : X(ω) ≤ t) ∈ A. Definizione 3.0.6 Data una variabile aleatoria continua X, si definisce la distribuzione di probabilit` a di X la funzione FX : IR → [0, 1] FX (t) = P (ω : X(ω) ≤ t). Proposizione 3.0.7 Sia FX una funzione di distribuzione di probabilit` a. FX gode delle seguenti propriet` a: (i) FX `e una funzione non decrescente; (ii) limx→−∞ FX (x) = 0, limx→+∞ FX (x) = 1; (iii) FX `e continua a destra. Dim. La (i) segue immediatamente dalla relazione: (X ≤ x) ⊂ (X ≤ y) se x ≤ y. Dimostriamo la (iii). La dimostrazione di (ii) `e simile. Dobbiamo provare che lim FX (x) = FX (x0 ).
x→x+ 0
Poich´e la funzione FX `e non decrescente, basta provare che lim FX (xn ) = FX (x0 )
xn →x0
se xn `e una successione decrescente a x0 . Consideriamo gli eventi An = (X ≤ xn ). Poich´e la successione di eventi (An ) `e decrescente, allora posto A =: ∩n An per la propriet`a (1.2.6) si ha: lim P (An ) = P (A). n 17
Pertanto `e sufficiente dimostrare che A = (X ≤ x0 ). Dimostriamo la doppia inclusione A ⊂ (X ≤ x0 ) and (X ≤ x0 ) ⊂ A. Sia ω ∈ A allora per ogni n, X(ω) ≤ xn quindi X(ω) ≤ limn xn = x0 . Viceversa sia ω tale che X(ω) ≤ x0 . Siccome per ogni n `e xn > x0 , risulta anche X(ω) ≤ xn cio`e ω ∈ An per ogni n. 2 In generale non vale la continuit`a a sinistra per le funzioni di distribuzione. Osservazione 3.0.8 Se FX `e una funzione di distribuzione continua, allora, per ogni x ∈ IR, vale P (X = x) = 0. Dim. Facciamo vedere che per ogni funzione di distribuzione FX risulta P (X = x) = FX (x) − FX (x− ) dove FX (x− ) =: limx→x− FX (x). Sia xn una successione crescente a x. Allora FX (x− ) = limn FX (xn ). Pertanto FX (x) − FX (x− ) = lim (FX (x) − FX (xn )) = lim P (xn < X ≤ x). n n La famiglia degli eventi An =: (xn < X ≤ x) `e una famiglia decrescente dunque per la (1.2.6) si ha limn P (An ) = P (A) dove A =: ∩n An . Basta verificare che A = (X = x). Verifichiamo la doppia inclusione. Sia ω ∈ A allora per ogni n `e xn < X(ω) ≤ x dunque limn xn = x < X(ω) ≤ x, cio`e X(ω) = x. Viceversa: se X(ω) = x allora ovviamente ω ∈ An per ogni n. 2
3.1
Variabili aleatorie assolutamente continue
Definizione 3.1.1 Una funzione f : IR → IR+ si dice una densit` a di probabilit` a se: (i) fR `e integrabile e ≥ 0, +∞ (ii) −∞ f (x)dx = 1. Definizione 3.1.2 Data una variabile aleatoria continua X e la sua distribuzione di probabilit` a FX , si dice che X `e assolutamente continua se FX ammette una densit`a di probabilit` a, ovvero se, per ogni x ∈ IR FX (x) =
Z x −∞
fX (t)dt.
(3.1)
Da (3.1) segue in particolare che, per ogni a, b ∈ IR, a < b P (a ≤ X ≤ b) = FX (b) − FX (a) =
18
Z b a
fX (t) dt.
3.2
Densit` a congiunte
Definizione 3.2.1 Data la coppia di variabili aleatorie continue (X, Y ), la distribuzione di probabilit` a congiunta di X e Y `e definita da F(X,Y ) (x, y) = P (X ≤ x, Y ≤ y), per ogni x, y ∈ IR. Si dice che la coppia di variabili aleatorie X e Y ha densit`a di probabilit`a congiunta se esiste una funzione f(X,Y ) integrabile e ≥ 0 tale che F(X,Y ) (x, y) =
Z x −∞
dt
Z y −∞
f(X,Y ) (t, s) ds.
Osservazione 3.2.2 Come per le variabili aleatorie discrete, dalle distribuzioni di probabilit`a congiunte (rispettivamente densit`a congiunte) si possono ricavare le distribuzioni di probabilit`a marginali (rispettivamente densit`a marginali). Risulta FX (x) = lim F(X,Y ) (x, y), y→+∞
FY (y) = lim F(X,Y ) (x, y). x→+∞
fX (t) = fY (s) =
Z +∞ −∞
Z +∞ −∞
f(X,Y ) (t, s)ds f(X,Y ) (t, s)dt.
Definizione 3.2.3 Date m variabili aleatorie X1 , . . . Xm si dicono indipendenti se P (a1 ≤ X1 ≤ b1 , . . . , am ≤ X1 ≤ bm ) = P (a1 ≤ X1 ≤ b1 ) · · · P (am ≤ X1 ≤ bm ) per a1 , . . . , am , b1 , . . . , bm ∈ IR. Osservazione 3.2.4 Due variabili aleatorie X, Y risultano indipendenti se e solo se f(X,Y ) (x, y) = fX (x)fY (y) per ogni (x, y) ∈ IR2 tranne al pi` u per un insieme di misura nulla.
3.3
Densit` a di una funzione di una variabile aleatoria
Esempio 3.3.1 Data una variabile aleatoria assolutamente continua X con densit`a fX . Siano a, b due costanti reali, con a 6= 0, allora la densit`a della variabile aleatoria Y = aX + b `e y−b 1 fX ( ). fY (y) = |a| a 19
Dim. Risulta FY (y) = P (Y ≤ y) = P (aX + b ≤ y) = P (aX ≤ y − b). Sia a > 0 allora P (aX ≤ y − b) = P (X ≤ Da cui derivando
y−b y−b ) = FX ( ) a a
1 y−b fY (y) = fX ( ). a a
Se a < 0 si ha FY (y) = P (X ≥ da cui derivando
y−b y−b ) = 1 − FX ( ), a a
1 y−b fY (y) = − fX ( ). a a
2
Esempio 3.3.2 Date due variabili aleatorie X, Y con densit`a congiunta f(X,Y ) (x, y). Allora la densit`a della variabile Z = X + Y `e fZ (z) =
Z +∞ −∞
f(X,Y ) (x, z − x) dx.
Dim. Risulta
Z
FZ (t) = P (X + Y ≤ t) = =
Z +∞ −∞
dx
Z t−x −∞
{(x,y):x+y≤t}
f(X,Y ) (x, y) dy =
Z +∞ −∞
dx
f(X,Y ) (x, y) dx dy
Z t −∞
f(X,Y ) (x, z − x) dz
dove nell’ultimo integrale abbiamo usato il cambio di variabile z = x+y, infine scambiando l’ordine di integrazione =
Z t −∞
dz
Z +∞ −∞
f(X,Y ) (x, z − x) dx.
2
3.4
Esempi di distribuzioni assolutamente continue
Densit` a uniforme La funzione ½
fX (t) =
1 se 0 < t < 1 0 altrimenti
`e una densit`a di probabilit`a. La funzione di distribuzione uniforme `e 0
se t < 0 FX (x) = t se 0 ≤ t ≤ 1 1 se t > 1. 20
In particolare se a, b ∈ [0, 1] P (a < X < b) =
Z b a
dt = b − a.
Densit` a esponenziale La funzione ½
λe−λt se t > 0 0 altrimenti `e una densit`a di probabilit`a. La funzione di distribuzione esponenziale `e fX (t) =
½
FX (x) = Densit` a gamma La funzione fX (t) =
(
1 − e−λx 0
λα −λt α−1 e t Γ(α)
0
se t > 0 altrimenti. se t > 0 altrimenti,
con α > 0 e λ > 0, `e una densit`a di probabilit`a. Si indica con Γ(α, λ). La funzione Γ : IR+ → IR+ `e definita Z ∞ Γ(α) = tα−1 e−t dt. 0
Si pu`o verificare che Γ(1) = 1, per α > 0 Γ(α + 1) = αΓ(α), da cui segue che, per ogni intero positivo n, Γ(n) = (n − 1)!. Proposizione 3.4.1 Siano X1 e X2 variabili aleatorie indipendenti con densit`a Γ(α1 , λ) e Γ(α2 , λ) rispettivamente. La densit`a di X = X1 + X2 `e una Γ(α1 + α2 , λ). Dim. Applicando la proposizione (3.3.2) si ha λα1 λα2 Z y α1 −1 −λx fX (y) = x e (y − x)α2 −1 e−λ(y−x) Γ(α1 ) Γ(α2 ) 0 Z y Z 1 λα1 +α2 λα1 +α2 −λy −λy α1 −1 α2 −1 = e e x (y − x) dx = (ty)α1 −1 (y − ty)α2 −1 y dt Γ(α1 )Γ(α2 ) Γ(α1 )Γ(α2 ) 0 0 dove nell’ultimo integrale abbiamo effettuato il cambio di variabile x = ty, Ã
=
!
λα1 +α2 Z 1 α1 −1 t (1 − t)α2 −1 dt y α1 +α2 −1 e−λy . Γ(α1 )Γ(α2 ) 0
Pertanto fX `e una densit`a Γ(α1 + α2 , λ). 2 Densit` a Normale La funzione x2 1 fX (x) = √ e− 2 , 2π
x ∈ IR
`e una densit`a di probabilit`a. Si dice che `e una densit`a Normale di parametri 0 e 1 e si indica N (0, 1). Siano µ, σ numeri reali con σ > 0 allora la variabile aleatoria Y = µ + σX ha densit`a 1 y−µ 1 (y − µ)2 fY (y) = fX ( )= √ exp( ). |σ| σ 2σ 2 2πσ Si dice che Y ha distribuzione N (µ, σ 2 ). 21
3.5
Momenti
Definizione 3.5.1 Sia X una variabile aleatoria assolutamente continua con densit`a fX . Si dice che X ammette media (speranza matematica, valore atteso, ...) finita se Z +∞ −∞
|x|fX (x)dx < ∞,
e in tal caso si pone E[X] =
Z +∞ −∞
xfX (x)dx.
In maniera analoga si definiscono i momenti di ordine k ≥ 2. Definizione 3.5.2 Sia X una variabile aleatoria assolutamente continua con densit`a fX . Si dice che X ammette momento di ordine k ≥ 2 finito se Z +∞ −∞
|x|k fX (x)dx < ∞,
e in tal caso si pone E[X k ] =
Z +∞ −∞
xk fX (x)dx.
Valgono per le variabili aleatorie assolutamente continue le propriet`a (2.7.2), (2.7.3), (2.7.4), (2.9.3). Esempio 3.5.3 Distribuzione uniforme su [0, 1]. Risulta: E[X] =
Z 1 0
1 x dx = , 2
Z 1
1 x2 dx = , 3 0 1 1 1 V ar[X] = E[X 2 ] − E[X]2 = − = . 3 4 12 Distribuzione gamma Γ(α, λ). Sia k ≥ 1 risulta: 2
E[X ] =
E[X k ] =
λα Z +∞ k α−1 −λx λα Z +∞ k+α−1 −λx x x e dx = x e dx Γ(α) 0 Γ(α) 0
λα Γ(α + k) = Γ(α) λα+k
Ã
!
Γ(α + k) λα+k Z ∞ k+α−1 −λx x e dx = k . Γ(α + k) 0 λ Γ(α)
In particolare: E[X] = E[X 2 ] =
α Γ(α + 1) = λΓ(α) λ
α(α + 1) Γ(α + 2) = λ2 Γ(α) λ2 22
α . λ2 Distribuzione esponenziale E(λ). Poich´e la distribuzione E(λ) coincide con una Γ(1, λ) si ha: 1 E[X] = λ 1 V ar[X] = 2 . λ V ar[X] =
x2
Distribuzione normale N (0, 1). Poich´e la funzione xe− 2 `e una funzione dispari, si ha 1 Z +∞ − x2 xe 2 dx = 0. E[X] = √ 2π −∞ Inoltre 1 Z +∞ 2 − x2 V ar[X] = E[X 2 ] = √ x e 2 dx = 1. 2π −∞ Se Y `e una normale N (µ, σ 2 ), allora Y = σX + µ dove X `e una normale N (0, 1): E[Y ] = µ + σE[X] = µ V ar[Y ] = σ 2 V ar[X] = σ 2 .
3.6
Speranza condizionale
Definizione 3.6.1 Date due variabili aleatorie discrete X e Y si dice densit` a condizionale di X dato Y = y la funzione fX|Y (x|y) = P (X = x|Y = y) per ogni y tale che P (Y = y) > 0. Dunque vale che fX|Y (x|y) =
f(X,Y ) (x, y) fY (y)
per ogni y tale che fY (y) > 0. Definizione 3.6.2 Date due variabili aleatorie discrete X e Y si dice funzione di distribuzione condizionale di X dato Y = y la funzione FX|Y (x|y) = P (X ≤ x|Y = y) per ogni y tale che P (Y = y) > 0. Definizione 3.6.3 Date due variabili aleatorie discrete X e Y si dice speranza condizionale di X dato Y = y E[X|Y = y] =
X x
per ogni y tale che P (Y = y) > 0. 23
xfX|Y (x|y)
Posto ψ(y) = E[X|Y = y], la variabile aleatoria ψ(Y ) `e detta speranza condizionale di X data Y . ψ(Y ) si indica con E[X|Y ]. Teorema 3.6.4 La speranza condizionale E[X|Y ] soddisfa E[E[X|Y ]] = E[X]. Dim. E[E[X|Y ]] = E[ψ(Y )] =
X
ψ(y)fY (y) =
y
=
X
XX y
xf(X,Y ) (x, y) =
X x
x,y
24
xfX|Y (x|y)fY (y)
x
xfX (x) = E[X].
Capitolo 4 I TEOREMI LIMITE 4.1
La Legge dei Grandi Numeri
Definizione 4.1.1 Una successione di variabili aleatorie reali (Xn )n converge quasi certamente verso una variabile aleatoria X se l’evento (ω : lim Xn (ω) = X(ω)) n
ha probabilit` a pari ad 1. Una successione di variabili aleatorie reali (Xn )n converge in probabilit` a verso una variabile aleatoria X se per ogni ε > 0 si ha lim P (ω : |Xn (ω) − X(ω)| > ε) = 0. n
Si pu`o dimostrare che la convergenza quasi certa implica la convergenza in probabilit`a. Il viceversa `e falso. Teorema 4.1.2 Disuguaglianza di Cebicev Data una variabile aleatoria X, per ogni ε > 0 vale V ar[X] P (|X − E[X]| > ε) ≤ . ε2 Dim. Definiamo la variabile aleatoria Y = ε2 I{|X−E[X]|>ε} . Vale (X − E[X])2 ≥ Y. Allora passando alle medie: V ar[X] = E[(X − E[X])2 ] ≥ E[Y ] = E[ε2 I{|X−E[X]|>ε} ] = ε2 P (|X − E[X]| > ε). 2 25
Teorema 4.1.3 Sia (Xn )n una successione di variabili aleatorie indipendenti e aventi tutte la stessa legge. Sia µ la loro media e σ 2 la loro varianza. Allora X1 + . . . + Xn →µ n in probabilit` a. Dim. Sia X n =
X1 +...+Xn . n
Risulta: E[X n ] = µ V ar[X n ] =
σ2 . n
Allora per la disuguaglianza di Cebicev: V ar[X n ] σ2 P (|X n − µ| > ε) ≤ = 2 → 0. ε2 nε 2
4.2
Il Teorema Centrale del Limite
Definizione 4.2.1 Una successione di variabili aleatorie reali (Xn )n converge in distribuzione verso una variabile aleatoria X se, per ogni x ∈ IR di continuit` a per la funzione di distribuzione di X, FX (x), si ha lim FXn (x) = FX (x). n
Teorema 4.2.2 Sia (Xn )n una successione di variabili aleatorie indipendenti e aventi tutte la stessa legge. Sia µ la loro media e σ 2 la loro varianza. Allora Sn =
X1 + . . . Xn − nµ √ → N (0, 1) σ n
in distribuzione.
26
Capitolo 5 PROCESSI STOCASTICI 5.1
Il Moto Browniano
Il processo stocastico che va sotto il nome di moto Browniano prende il nome dal botanico inglese R. Brown (1826), il quale osserv`o che le particelle microscopiche sospese in un liquido erano soggette a continui urti con le molecole e di conseguenza eseguivano movimenti a zigzag. Tuttavia il primo lavoro quantitativo sul moto browniano `e dovuto ad Einstein (1905), il quale scopr`ı che, in contrasto con la loro apparente irregolarit`a, questi movimenti delle particelle potevano essere analizzati mediante leggi di probabilit`a, poich´e la posizione delle particelle in un periodo di tempo segue la distribuzione Normale. Infine un approccio rigorosamente matematico allo studio del moto browniano come processo stocastico ha inizio con N. Wiener (1923), poi sviluppato da P. Levy. Assieme al processo di Poisson, il moto Browniano costituisce una delle due fondamentali specie di processi stocastici, sia nella teoria che nelle applicazioni, il primo ”a traiettorie discontinue”, mentre il secondo ”a traiettorie continue”. Descriviamo una maniera di definire il Moto Browniano tramite una procedura limite a partire da una passeggiata aleatoria simmetrica (random walk). Pensiamo alle particelle microscopiche in movimento (chiaramente le particelle osservate da Brown si muoveranno in uno spazio tridimensionale ma noi ci limitiamo a considerare la proiezione su un asse coordinato). Iniziamo con il supporre che ad ogni istante la particella compie un passo a destra o a sinistra con probabilit`a 12 . Quindi rappresentiamo ciascun passo mediante una variabile aleatoria avente legge di Bernoulli simmetrica: ½
ξn =
+1 con probabilit`a 1/2 ; −1 con probabilit`a 1/2 .
Le ξn sono variabili aleatorie indipendenti. Sia X0 la posizione iniziale (posso sempre supporre che X0 = 0) , allora la posizione al tempo n, cio`e dopo n passi, dato che abbiamo supposto che ogni passo `e compiuto nell’unit`a di tempo, `e : Xn = ξ1 + . . . + ξn . 27
Segnaliamo due propriet`a della passeggiata aleatoria (Xn ): (i) omogeneit`a nel tempo : per ogni m, n interi le variabili aleatorie Xm e Xm+n − Xn hanno la stessa distribuzione; (ii) incrementi indipendenti : le variabili aleatorie Xmi − Xni e Xmj − Xnj sono indipendenti se gli intervalli ]ni , mi ] e ]nj , mj ] sono disgiunti. Chiaramente chiederemo che l’analogo processo a tempi continui (il moto Browniano) abbia queste propriet`a. Osservo che E[ξi ] = 0 e V ar[ξi ] = 1 per ogni i , quindi E[Xn ] = 0 e V ar[Xn ] = n. Allora per il Teorema Centrale del Limite, per n → ∞ in distribuzione X √ n → N (0, 1). n Poich´e per ogni unit`a di tempo gli urti tra le particelle sono moltissimi, riduciamo l’unit`a di tempo e di conseguenza anche l’unit`a di lunghezza. Sia δ la nuova unit`a di tempo, cio`e il tempo fra due succesivi urti. Quindi δt passi vengono effettuati dalla particella nel vecchio tempo t. Ogni passo `e ancora una √ variabile aleatoria bernoulliana simmetrica e supponiamo che il passo sia di ampiezza δ , i.e. per ogni k √ √ 1 P (ξk = δ) = P (ξk = − δ) = . 2 Quindi si ha: E[ξk ] = 0 e V ar[ξk ] = δ. Allora per ogni t > 0 [t]
Xt =
δ X
ξk
k=1
dove [ δt ] `e la parte intera di δt . Poich´e siamo interessati ad ampiezze δ infinitesime, `e δ ¿ t e quindi pensare ad esso come ad un intero. Quindi E[Xt ] = 0
t δ
`e grande e si pu`o
t e V ar[Xt ] = δ = t. δ
Allora per il teorema Centrale del Limite, per ogni t fissato e con δ che tende a 0, la Xt avr`a distribuzione Normale N (0, t). Questo significa che stiamo √ modificando il nostro schema approssimato, in cui la particella si muove a distanza ± δ con uguale probabilit`a nel vecchio tempo δ, mandando δ a 0. Lo schema limite che si ottiene `e il moto Browniano. La seguente definizione traduce il concetto di struttura informativa crescente al passare del tempo, molto naturale quando studiamo l’evoluzione di un fenomeno aleatorio. Definizione 5.1.1 Una filtrazione F = (Ft )t∈R+ `e una famiglia crescente ( i.e. Fs ⊂ Ft per s < t) di sotto-σ-algebre di A. Definizione 5.1.2 Il moto Browniano `e un processo stocastico definito sullo spazio probabilizzato (Ω, F, P ) a valori in R, se valgono le seguenti propriet` a: 28
(i) W0 = 0; (ii) le traiettorie t 7→ Wt sono continue; (iii) per ogni t > 0 la variabile Wt `e misurabile rispetto a Ft ; (iv) per ogni r < s < t gli incrementi Wt − Ws e Ws − Wr sono variabili aleatorie indipendenti; (v) per ogni s < t l’ incremento Wt − Ws ha distribuzione N (0, t − s).
5.2
I Processi di Conteggio
La teoria dei rinnovi `e iniziata con lo studio dei sistemi stocastici la cui evoluzione nel tempo era cosparsa di rinnovi, cio`e di istanti in cui, in senso statistico, il processo ricominciava come ”nuovo”. Questa teoria trova oggi applicazione in una grande variet`a di modelli probabilistici, sia teorici che pratici. Definizione 5.2.1 Sullo spazio probabilizzato (Ω, A, P ) sia (Xk )k≥1 una successione di variabili aleatorie a valori in ]0, ∞[ indipendenti e identicamente distribuite. Sia poi Sn = X1 + · · · + Xn e per ogni t ∈ R+ poniamo Nt =
X
I{Sn ≤t} .
(5.1)
n≥1
Il processo a tempi continui (Nt )t∈R+ cos`ı definito `e detto processo di conteggio o di rinnovo associato alla successione (Xk )k≥1 . Il processo definito da (5.1) risulta quindi un processo a valori in N ∪ {∞}. La variabile aleatoria Nt registra i successivi accadimenti di un evento (e.g. un guasto, un incidente) nell’intervallo ]0, t], cio`e il numero di eventi in ]0, t]. Le Xk rappresentano le durate di tempo tra due eventi consecutivi, cio`e Xk `e il tempo che intercorre tra l’evento (k − 1)-esimo e l’evento k-esimo. Le variabili aleatorie Sn rappresentano il tempo d’attesa fino all’accadimento dell’n-esimo evento. Il pi` u semplice prototipo fisico di modello di rinnovo `e la successiva sostituzione di lampadine che si guastano. Una lampadina `e istallata per un servizio al tempo 0, si guasta al tempo X1 (aleatorio). Viene quindi sostituita con una nuova lampadina, che si guasta al ` naturale assumere l’indipendenza stocastica delle tempo aleatorio X1 + X2 . E cos`ı via. E successive durate di vita e le stesse caratteristiche probabilistiche, ovvero che le variabili aleatorie Xk siano indipendenti e identicamente distribuite. Allora la variabile Nt conta il numero di sostituzioni della lampadina fino all’istante t. Ci interessa derivare alcune propriet`a delle variabili aleatorie associate ai processi (Nt )t∈R+ e (Sn )n≥1 dalla conoscenza della distribuzione dei tempi di intercorrenza. In particolare ci interessa calcolare la funzione di rinnovo , ossia il numero atteso dei rinnovi (o guasti) nel tempo ]0, t], cio`e E[Nt ].
5.2.1
Il Processo di Poisson
Definizione 5.2.2 Il processo di Poisson `e un processo di conteggio costruito a partire da variabili aleatorie Xk che sono distribuite esponenzialmente. 29
Ricaviamo innanzitutto la legge del processo di Poisson (Nt )t∈R+ . Supponiamo dunque che le variabili aleatorie Xk siano indipendenti ed esponenziali di parametro λ: Xk (P ) = E(λ). Per ogni t ∈ R+ e per ogni n ≥ 1, risulta {Nt ≥ n} = {Sn ≤ t} e dunque {Nt = n} = {Sn ≤ t < Sn+1 } = {Sn ≤ t}\{Sn+1 ≤ t}. Osservo poi che Sn ha legge Γ(n, λ). Ricordo che la densit`a di una Γ(n, λ), `e (
γ(n, λ) = Pertanto P {Sn ≤ t} =
Z t 0
0
se x ≤ 0 se x > 0 .
λn e−λx xn−1 (n−1)!
γ(n, λ)(x)dx =
Allora, se n = 0, si ha: P {Nt = 0} = P {
X
Z t 0
λe−λx
(λx)n−1 dx. (n − 1)!
I{Sn ≤t} = 0}
n≥1
= P {S1 > t, . . . , Sn > t, . . .} = P {S1 > t} = P {X1 > t} = e−λt (dove abbiamo usato il fatto che S1 < S2 < . . . e che X1 ha legge E(λ)). Se n ≥ 1, si ha: P {Nt = n} = P {Sn ≤ t} − P {Sn+1 ≤ t} =
Z t"
=
0
Z t 0
λe
−λx (λx)
"
n−1
(n − 1)! n −λx (λx)
D e
− λe
−λx (λx)
n!
#
dx = e−λt
n!
n
#
dx
(λt)n . n!
(5.2)
Dunque, per ogni t > 0, la variabile aleatoria Nt ha legge di Poisson di parametro λt. Poniamo N0 = 0. Si osservi che da (5.2) segue che per n → ∞, si ha che P {Nt = ∞} = 0. Dunque possiamo ricavare la funzione di rinnovo: il numero medio di guasti `e E[Nt ] = λt =
t 1 λ
=
t E[X1 ]
cio`e il numero di guasti `e direttamente proporzionale alla lunghezza dell’intervallo e inversamente proporzionale alla durata media delle singole lampadine. Fissato l’istante s > 0, contiamo il numero di guasti nell’intervallo ]s, s + t]: Nt+s − Ns =
X
I{s<Sn ≤s+t} .
n≥1
Consideriamo quindi il processo a partire dall’istante s: (Nt+s − Ns )t∈R+ . 30
Teorema 5.2.3 i) Gli incrementi Nt − Ns e Nu − Nv hanno la stessa distribuzione di probabilit` a se t − s = u − v, ovvero P(λ(t − s)); ii) Gli incrementi Nt − Ns e Ns − Nv sono indipendenti se v < s < t. Il risultato enunciato nel teorema precedente `e abbastanza intuitivo se si pensa alla propriet`a di assenza di memoria della legge esponenziale. Le propriet`a i) e ii) si esprimono dicendo che il processo `e ad incrementi indipendenti e stazionari, cio`e la distribuzione del numero di eventi che avvengono in un certo intervallo di tempo dipende solo dalla lunghezza dell’intervallo. Definizione 5.2.4 Un processo stocastico (Xt )t≥0 si dice processo di Poisson composto se pu`o essere rappresentato come Xt =
Nt X
Yi
i=1
dove (Nt ) `e un processo di Poisson e (Yn ) `e una successione di variabili indipendenti e identicamente distribuite, che sono anche indipendenti con (Nt ). Calcoliamo la media e la varianza di Xt . Usiamo l’identit`a E[Xt ] = E[E[Xt |Nt ]]. Risulta
Nt X
E[Xt |Nt = n] = E[ E[
n X
Yi |Nt = n] =
i=1 n X
Yi |Nt = n] = E[
i=1
Yi ] = nE[Y1 ].
i=1
Quindi E[E[Xt |Nt ]] = E[Nt ]E[Y1 ] = λtE[Y1 ]. Per calcolare la varianza usiamo la seguente formula (provarla per Esercizio): V ar[X] = E[V ar[X|Y ]] + V ar[E[X|Y ]], dove V ar[X|Y ] `e definito V ar[X|Y ] = E[(X − E[X|Y ])2 |Y ]. Risulta allora Nt X
V ar[Xt |Nt = n] = V ar[
n X
Yi |Nt = n] = V ar[
i=1
Yi ] = nV ar[Y1 ].
i=1
Quindi E[V ar[Xt |Nt ]] = E[Nt V ar[Y1 ]] = λt V ar[Y1 ]. Infine V ar[Xt ] = λt V ar[Y1 ] + λt E[Y1 ]2 = λt(V ar[Y1 ] + E[Y1 ]2 ) = λt E[Y12 ]. 31
(5.3)