CALCOLO DELLE PROBABILITA' by ermal senja

APPUNTI DI ` CALCOLO DELLE PROBABILITA Corso di Analisi dei Mercati Finanziari Laurea Magistrale BAMF, Universit`a di Firenze Docente: Prof. Maria Elvira Mancino mariaelvira.mancino@dmd.unifi.it Settembre 2008

Capitolo 1 SPAZI PROBABILIZZATI Il calcolo delle probabilit`a intende misurare il grado di fiducia che abbiamo nel verificarsi di un evento non certo, per esempio: ”domani piove”, ”nel lancio di una moneta, esce croce”, etc.

1.1

Gli eventi

Sia Ω l’insieme di tutti i possibili risultati di un esperimento (che chiameremo spazio dei campioni). Per esempio: se l’esperimento in questione è il lancio di un dado, allora Ω = {(esce testa), (esce croce)}. Indicheremo con ∅ l’insieme vuoto e lo chiameremo l’evento impossibile e chiameremo Ω l’evento certo. Consideriamo inoltre una famiglia di sottoinsiemi di Ω, che indicheremo con A, che gode delle seguenti proprietà: (i) Ω ∈ A, (ii) se A ∈ A allora Ac ∈ A, (iii) se (An )n è una successione di elementi di A allora ∪n An ∈ A. Una classe che gode delle proprietà (i),(ii),(iii) si dice σ-algebra. Gli elementi di A si chiamano eventi. Esempio 1.1.1 (i)La pi` u piccola σ-algebra associata ad Ω è A = {∅, Ω}. (ii) Se Ω ha cardinalità finita l’insieme delle parti di Ω, ossia la famiglia di tutti i suoi possibili sottoinsiemi, è una σ-algebra. (iii) Se A è un sottoinsieme di Ω, allora A = {∅, A, Ac , Ω} è una σ-algebra e si chiama la σ-algebra generata da A. (iv) Dati n eventi A1 , . . . , An di A si dice σ-algebra generata da A1 , . . . , An la pi´ u piccola σ-algebra che contiene A1 , . . . , An . Esercizio Provare che se A è una σ-algebra, allora, data una successione (An )n di elementi di A, risulta ∩n An ∈ A. (Si suggerisce di usare le relazioni: (∪i Ai )c = ∩i Aci , (∩i Ai )c = ∪i Aci .)

1.2

La misura di probabilit` a

Definizione 1.2.1 Una probabilit` a P `e un’applicazione P : A → [0, 1] tale che (i) P (Ω) = 1, (ii) se (An )n `e una successione di eventi disgiunti a due a due, allora P (∪n An ) =

P (An ).

La proprietà (ii) si chiama additività numerabile. Esempio 1.2.2 Consideriamo l’esperimento che consiste nel lanciare una volta una moneta, possibilmente truccata. Possiamo prendere come spazio dei campioni Ω = {H, T } dove H è l’evento {esce croce} e T è l’evento {esce testa}. Sia A la σ-algebra {∅, H, T, Ω}. Una possibile misura di probabilità P è data da: P (∅) = 0, P (H) = p, P (T ) = 1 − p, P (Ω) = 1, dove p ∈ [0, 1]. Se p =

1 2

il gioco `e equo, altrimenti `e truccato.

Osservazione 1.2.3 Se l’insieme Ω ha cardinalità finita, sia N , e se la natura del problema è tale che possiamo supporre che tutti i possibili risultati abbiano la stessa probabilità di verificarsi, sia p = P ({ω}) per ogni ω ∈ Ω, allora risulta 1 = P (Ω) =

P (ω) = p × N,

ω∈Ω

da cui si ricava

1 . N Inoltre, per ogni sottoinsieme A di Ω, si ottiene p=

P (A) =

P (ω) = p × cardinalit`a(A) =

ω∈A

cardinalit`a(A) . cardinalit`a(Ω)

Nell’ultima formula si ritrova la definizione di probabilità in termini di f requenza, cioè la probabilità di un evento è il rapporto tra il numero di casi favorevoli (cardinalità (A)) e il numero di casi possibili (cardinalità (Ω)). Proposizione 1.2.4 La probabilit` a P gode delle seguenti propriet` a: c (i) per ogni A ∈ A, P (A ) = 1 − P (A), (ii) se A, B ∈ A con A ⊆ B, P (B) = P (A) + P (B \ A) ≥ P (A), (iii) se A, B ∈ A, P (A ∪ B) = P (A) + P (B) − P (A ∩ B). 2

Dim. (i) Poiché A ∪ Ac = Ω e A ∩ Ac = ∅, allora P (A ∪ Ac ) = P (A) + P (Ac ) = 1. (ii) Poiché B = A ∪ (B \ A) e poiché gli eventi A e B \ A sono disgiunti, allora P (B) = P (A) + P (B \ A). (iii) Risulta A ∪ B = A ∪ (B \ A) e gli eventi A e B \ A sono disgiunti. Allora P (A ∪ B) = P (A) + P (B \ A) = P (A) + P (B \ (A ∩ B)) = = P (A) + P (B) − P (A ∩ B). 2 Esercizio 1.2.5 Dimostrare per induzione su n che se A1 , . . . , An ∈ A allora P (∪ni=1 Ai ) =

P (Ai ) −

P (Ai ∩ Aj ) +

i<j

P (Ai ∩ Aj ∩ Ak ) − · · ·

i<j<k

+(−1)n+1 P (A1 ∩ . . . An ). Proposizione 1.2.6 Sia (An )n una successione crescente di eventi (cio`e A1 ⊆ A2 ⊆ · · ·) e sia A = ∪∞ n=0 An . Allora P (A) = lim P (An ). n

Analogamente, se (An )n una successione decrescente di eventi (cio`e A1 ⊇ A2 ⊇ · · ·) e sia A = ∩∞ n=0 An . Allora P (A) = lim P (An ). n

Dim. Risulta A = A1 ∪ (A2 \ A1 ) ∪ (A3 \ A2 ) ∪ . . . dunque A `e unione disgiunta di eventi. Allora per la (ii) della definizione (1.2.1) P (A) = P (A1 ) +

∞ X

P (Ai+1 \ Ai ) =

i=1

= P (A1 ) + n→∞ lim

n−1 X i=1

[P (Ai+1 − P (Ai )] = n→∞ lim P (An ).

Dimostrare per ESERCIZIO il risultato sulla famiglia decrescente di eventi passando al complementare e usando la prima parte. 2

1.3

La probabilit` a condizionale

Definizione 1.3.1 Siano A, B due eventi tali che P (B) > 0. La probabilit` a condizionale di A dato B `e definita da P (A|B) =

P (A ∩ B) . P (B)

Una famiglia di eventi B1 , . . . , Bn si dice una partizione di Ω se Bi ∩ Bj = ∅ se i 6= j e ∪ni=1 Bi = Ω. Proposizione 1.3.2 Per ogni coppia A, B ∈ A P (A) = P (A|B)P (B) + P (A|B c )P (B c ).

(1.1)

Pi´ u in generale se A1 , . . . , An `e una partizione di Ω, (si dice anche una partizione dell’evento certo), si ha P (A) =

n X

P (A|Bi )P (Bi ).

(1.2)

i=1

Dim. Dimostriamo (1.1). Risulta A = (A ∩ B) ∪ (A ∩ B c ). Inoltre i due eventi A ∩ B e A ∩ B c sono disgiunti. Dunque P (A) = P (A ∩ B) + P (A ∩ B c ) = P (A|B)P (B) + P (A|B c )P (B c ). Dimostrare (1.2) per Esercizio. 2 Esercizio 1.3.3 Dimostrare che se A1 , . . . , An sono n eventi allora vale P (A1 ∩ A2 ∩ . . . ∩ An ) = = P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 ) · · · P (An |A1 ∩ A2 ∩ . . . ∩ An−1 ). Proposizione 1.3.4 Siano A1 , . . . , An eventi disgiunti tali che ∪ni=1 Ai = Ω (ovvero una partizione di Ω). Allora per ogni evento B P (Ai )P (B|Ai ) . k=1 P (Ak )P (B|Ak )

P (Ai |B) = Pn Dim. Risulta P (Ai |B) =

P (Ai )P (B|Ai ) , P (B)

ma poich´e gli Ai sono una partizione di Ω P (B) =

n X

P (Ak ∩ B) =

k=1

n X

P (Ak )P (B|Ak ).

k=1

2 La formula (1.3) prende il nome di formula di Bayes. 4

(1.3)

1.4

L’indipendenza tra eventi

Definizione 1.4.1 Si dice che due eventi A e B sono indipendenti se P (A ∩ B) = P (A)P (B). Definizione 1.4.2 Una famiglia (Ai )i∈I si dice indipendente se P (∩i∈J Ai ) =

P (Ai ),

i∈J

per tutti i sottoinsiemi finiti J di I.

1.5

Lo schema delle prove ripetute

Supponiamo di effettuare una successione di esperimenti tra loro indipendenti e tali che ciascuno può dare luogo solo a due possibili risultati, che indicheremo come successo e insuccesso. Per esempio consideriamo una successione di n lanci ripetuti di una moneta. Supponiamo che esca testa con probabilità p e croce con probabilità 1 − p. Vogliamo calcolare quale è la probabilità di ottenere come risultato degli n lanci una prefissata sequenza di teste e croci, per esempio consideriamo la particolare sequenza in cui le prime k volte si è ottenuto testa e le seguenti n − k si è ottenuto croce . Indichiamo con Ai l’evento (il risultato dell’i-esimo lancio è testa) e quindi P (Ai ) = p. L’evento a cui siamo interessati è allora A1 ∩ . . . ∩ Ak ∩ Ack+1 ∩ . . . ∩ Acn . Poiché gli eventi Ai sono indipendenti, risulta P (A1 ∩ . . . ∩ Ak ∩ Ack+1 ∩ . . . ∩ Acn ) = P (A1 ) · · · P (Ak )P (Ack+1 ) · · · P (Acn ) = pk (1 − p)n−k . Infine basta osservare che il risultato ottenuto dipende solo dal numero di teste e di croci presenti nella sequenza e non dal loro ordine. Conclusione: la probabilità di ottenere in n lanci di una moneta (dove p è la probabilità che esca testa) una prefissata sequenza di k teste (e n − k croci) è pk (1 − p)n−k . Il precedente modello viene anche indicato come schema di Bernoulli (o schema successo-insuccesso).

1.6

Calcolo combinatorio

Il calcolo combinatorio ha lo scopo di calcolare la cardinalità degli insiemi finiti. Osserviamo che due insiemi hanno la stessa cardinalità se si possono mettere in corrispondenza biunivoca. (1) L’insieme prodotto (M × N ), dove M ha cardinalità m e N ha cardinalità n, ha cardinalità mn. 5

(2) Se m ≤ n la cardinalità dell’insieme delle applicazioni iniettive f : M → N è n! . (n − k)! Si parla di disposizioni di m elementi tra N elementi: è una m-upla ordinata (n1 , . . . , nm ) di elementi di N tutti distinti tra loro. Se m = n si parla di permutazioni. (3) L’insieme dei sottoinsiemi di N di cardinalità m ha cardinalità µ

n m

n! . k!(n − k)!

Capitolo 2 VARIABILI ALEATORIE DISCRETE Definizione 2.0.1 Dato uno spazio di probabilit` a (Ω, A, P ) e un insieme discreto X = {x1 , x2 , . . .} ⊂ IR si dice variabile aleatoria discreta un’applicazione X : (Ω, A, P ) → X , tale che per ogni xi ∈ X (ω : X(ω) = xi ) ∈ A. Osserviamo che se X è una variabile aleatoria discreta ha senso calcolare P (ω : X(ω) = xi ) dato che P è definita sulla σ-algebra A. Osservazione 2.0.2 La condizione (i) per ogni x ∈ X , (ω : X(ω) = x) ∈ A è equivalente alla condizione (ii) per ogni x ∈ X , (ω : X(ω) ≤ x) ∈ A. Infatti si ha (ω : X(ω) ≤ x) = ∪xi ≤x (ω : X(ω) = xi ). Pertanto (ω : X(ω) ≤ x) è un evento, essendo una unione al pi´ u numerabile di eventi. Esempio 2.0.3 Sia A un insieme di Ω, la funzione indicatrice di A definita: ½

IA (ω) =

1 se ω ∈ A 0 se ω ∈ Ac

è una variabile aleatoria se e solo se A è un evento, ossia A ∈ A. Esempio 2.0.4 Sia X una variabile aleatoria a valori in un insieme finito. X è una P variabile aleatoria se e solo se X = N i=1 ai IAi dove Ai sono eventi, ai ∈ R. Esempio 2.0.5 Sia X una variabile aleatoria a valori in un insieme finito. Si dice σalgebra generata da X la σ-algebra generata dagli eventi A = (X = x) al variare di x tra tutti i valori assunti da X.

2.1

Le distribuzioni di probabilit` a

Definizione 2.1.1 Data una variabile aleatoria discreta X risulta definita la funzione fX : IR → IR+ mediante fX (x) = P (ω : X(ω) = x). fX (x) si dice la densit` a di probabilit` a di X. La funzione fX gode delle seguenti proprietà: (i) fX (x) = 0 tranne al pi´ u un’infinità numerabile di valori, P (ii) x∈X fX (x) = 1. Definizione 2.1.2 Si dice distribuzione di probabilit` a della variabile aleatoria X la funzione FX : IR → [0, 1] definita da FX (x) = P (ω : X(ω) ≤ x). Se x1 < x2 < . . . sono i valori assunti dalla variabile aleatoria X allora la funzione FX è costante nell’intevallo (xi , xi+1 ), infatti se xi < x < xi+1 allora gli eventi (X ≤ x) e (X ≤ xi ) coincidono. Osservazione 2.1.3 La conoscenza della distribuzione di probabilità equivale alla conoscenza della densità. Infatti mediante FX (x) =

fX (xi )

xi ≤x

si esprime la funzione di distribuzione in termini della densità di probabilità. Inoltre sia x1 < x2 < . . . allora fX (xi ) = P (X = xi ) = P (xi−1 < X ≤ xi ) = FX (xi ) − FX (xi−1 ). Pertanto la funzione di densità si esprime in termini della funzione di distribuzione.

2.2

Le distribuzioni congiunte

Definizione 2.2.1 Date n variabili aleatorie discrete definite sullo spazio probabilizzato (Ω, A, P ) a valori in X si definisce la funzione di densit` a congiunta del vettore (X1 , X2 , . . . , Xn ) mediante f(X1 ,X2 ,...,Xn ) (x1 , x2 , . . . , xn ) = P (X1 = x1 , X2 = x2 , . . . , Xn = xn ) al variare di x1 , . . . , xn ∈ X . 8

(2.1)

Dato un vettore (X1 , X2 , . . . , Xn ) di variabili aleatorie le densità di probabilità fXi delle singole variabili Xi si dicono densità marginali. Se si conosce la densità congiunta si possono sempre ricavare le densità marginali. Per semplicità di notazioni consideriamo il caso di un vettore di due variabili aleatorie (X, Y ) e indichiamo con (xi )i e (yi )i i valori assunti da X e Y rispettivamente. Si ha fX (x) = P (∪i (X = x, Y = yi )) =

P (X = x, Y = yi ) =

f(X,Y ) (x, yi ).

Il viceversa `e falso. Definizione 2.2.2 Date n variabili aleatorie discrete definite sullo spazio probabilizzato (Ω, A, P ) si definisce la distribuzione di probabilit` a congiunta del vettore (X1 , X2 , . . . , Xn ) mediante F(X1 ,X2 ,...,Xn ) (x1 , x2 , . . . , xn ) = P (X1 ≤ x1 , X2 ≤ x2 , . . . , Xn ≤ xn ).

2.3

(2.2)

L’indipendenza tra variabili aleatorie

Definizione 2.3.1 Siano X1 , . . . , Xn variabili aleatorie discrete definite sullo spazio probabilizzato (Ω, A, P ) e a valori in X . Si dice che le variabili X1 , . . . , Xn sono indipendenti se per ogni x1 , . . . , xn ∈ X si ha P (X1 = x1 , X2 = x2 , . . . , Xn = xn ) = P (X1 = x1 )P (X2 = x2 ) · · · P (Xn = xn ).

(2.3)

L’identità (2.3) può essere scritta anche mediante le funzioni di densità di probabilità: per ogni x1 , . . . , xn ∈ X f(X1 ,X2 ,...,Xn ) (x1 , x2 , . . . , xn ) = fX1 (x1 )fX2 (x2 ) · · · fXn (xn ).

(2.4)

Osservazione 2.3.2 La condizione (2.3) `e equivalente alla seguente P (X1 ∈ A1 , X2 ∈ A2 , . . . , Xn ∈ An ) = P (X1 ∈ A1 )P (X2 ∈ A2 ) · · · P (Xn ∈ An )

(2.5)

per ogni A1 , . . . , An ∈ I. Infatti X

P (X1 ∈ A1 , X2 ∈ A2 , . . . , Xn ∈ An ) =

f(X1 ,X2 ,...,Xn ) (x1 , x2 , . . . , xn ) =

x1 ∈A1 ,...,xn ∈An

fX1 (x1 )fX2 (x2 ) · · · fXn (xn ) =

x1 ∈A1 ,...,xn ∈An

X x1 ∈A1

fX1 (x1 ) · · ·

fXn (xn ) = P (X1 ∈ A1 )P (X2 ∈ A2 ) · · · P (Xn ∈ An ).

xn ∈An

Proposizione 2.3.3 Se X e Y sono due variabili aleatorie indipendenti (e f e g sono due funzioni misurabili) allora anche g(X) e h(Y ) sono variabili aleatorie indipendenti. 9

2.4

Esempi di distribuzioni discrete

Distribuzione di Bernoulli La variabile aleatoria X assume solo i valori 1 e 0 rispettivamente con probabilità p e 1 − p (dove p ∈ (0, 1)). Quindi la densità è  p

se x = 1 fX (x) = 1 − p se x = 0  0 se x = 6 0, 1. Distribuzione binomiale Supponiamo di effettuare n prove di Bernoulli indipendenti, siano X1 , . . . , Xn le variabili aleatorie indipendenti che rappresentano il risultato delle singole prove. La variabile aleatoria X = X1 + · · · + Xn conta il numero dei successi nelle n prove. La densità di X è: µ ¶  n pk (1 − p)n−k se k = 0, 1, . . . , n fX (k) = k  0 altrimenti. Distribuzione multinomiale Supponiamo di effettuare n prove indipendenti, ciascuna delle quali può avere k possibili risultati, e supponiamo che l’i-esimo risultato abbia probabilità pari a pi . Sia Ni la variabile aleatoria che conta il numero di volte che compare l’i-esimo risultato: P (N1 = n1 , . . . , Nk = nk ) =

n! pn1 . . . pnk k n1 ! . . . nk ! 1

per ogni n1 , . . . , nk con n1 + n2 + . . . + nk = n. Si dice che il vettore N = (N1 , . . . , Nk ) ha distribuzione multinomiale. Distribuzione geometrica Supponiamo di effettuare una successione di prove di Bernoulli indipendenti, siano X1 , X2 , . . . le variabili aleatorie indipendenti che rappresentano il risultato delle singole prove. Sia T la variabile aleatoria che rappresenta l’istante del primo successo: T = inf{n ≥ 1|Xn = 1}. Allora P (T > k) = P (X1 = 0, X2 = 0, . . . , Xk = 0) = = P (X1 = 0)P (X2 = 0) · · · P (Xk = 0) = (1 − p)k . Ne segue che P (T = k) = P (T > k − 1) − P (T > k) = p(1 − p)k−1 . La densit`a di probabilit`a ½

fX (k) =

p(1 − p)k 0 10

se k = 0, 1, 2, . . . altrimenti.

Una proprietà caratteristica della legge geometrica è la proprietà di assenza di memoria. Risulta infatti che, se X è una variabile aleatoria con distribuzione geometrica e se m ≥ 0, P (X = k + m|X ≥ k) =

P (X = k + m, X ≥ k) = P (X ≥ k)

P (X = k + m) p(1 − p)k+m = = p(1 − p)m = P (X = m). P (X ≥ k) (1 − p)k Quindi se X rappresenta l’istante del primo successo in uno schema di Bernoulli di parametro p, allora la probabilità di dover attendere ancora m prove per avere il primo successo, sapendo che non si è ottenuto alcun successo nelle prime k prove, è uguale alla probabilità che si avrebbe se le prime k prove non fossero avvenute. Distribuzione di Poisson Sia λ > 0 la densità ½ k λ −λ fX (k) = k! e 0 è detta densità di Poisson di parametro λ.

2.5

se k = 0, 1, . . . altrimenti

Densit` a di una funzione di una variabile aleatoria

Sia X una variabile aleatoria di dimensione m e φ una funzione φ : IRm → IR. Sia fX la densit`a di X. Calcoliamo la distribuzione di probabilit`a della variabile aleatoria φ(X). Risulta P (φ(X) = y) = P (X ∈ φ−1 (y)) =

fX (x).

(2.6)

x∈φ−1 (y)

Esempio 2.5.1 Siano X e Y due variabili aleatorie di densit`a congiunta f(X,Y ) , allora la variabile aleatoria Z = X + Y ha densit`a fZ (z) =

f(X,Y ) (t, z − t).

t∈IR

Basta applicare (2.6) alla variabile (X, Y ) e alla funzione φ(x, y) = x + y: P (Z = z) = P (X + Y = z) =

f(X,Y ) (x, y) =

(x,y):x+y=z

2.6

f(X,Y ) (x, z − x).

x∈IR

Densit` a condizionale

Definizione 2.6.1 Date due variabili aleatorie discrete X e Y si dice densit` a condizionale di X dato Y = y la funzione fX|Y (x|y) = P (X = x|Y = y) per ogni y tale che P (Y = y) > 0. 11

Dunque vale che fX|Y (x|y) =

f(X,Y ) (x, y) fY (y)

per ogni y tale che fY (y) > 0. Definizione 2.6.2 Date due variabili aleatorie discrete X e Y si dice funzione di distribuzione condizionale di X dato Y = y la funzione FX|Y (x|y) = P (X ≤ x|Y = y) per ogni y tale che P (Y = y) > 0.

2.7

Media

Definizione 2.7.1 Data una variabile aleatoria discreta X definita sullo spazio probabilizzato (Ω, A, P ) e a valori in X si definisce media (o speranza matematica, valore atteso) X E[X] = xi fX (xi ) (2.7) xi ∈X

sotto la condizione che

|xi |fX (xi ) < ∞.

xi ∈X

Proposizione 2.7.2 La media ha le seguenti propriet` a: (i) se X ≥ 0 q.c. allora E[X] ≥ 0, (ii) se c1 , c2 sono due costanti reali allora E[c1 X + c2 Y ] = c1 E[X] + c2 E[Y ]. Dim. (i) `e ovvia. Per quanto riguarda (ii), siano xi e yj i valori assunti dalle variabili X e Y allora X E[c1 X + c2 Y ] = (c1 xi + c2 yj )f(X,Y ) (xi , yj ) = = c1

i,j

xi f(X,Y ) (xi , yj ) + c2

i,j

Dalle relazioni i f(X,Y ) (xi , yj ) = fY (yj ) e termine `e uguale a c1

X i

xi fX (xi ) + c2

yj f(X,Y ) (xi , yj ).

i,j

f(X,Y ) (xi , yj ) = fX (xi ) segue che l’ultimo

yj fY (yj ) = c1 E[X] + c2 E[Y ].

2 Teorema 2.7.3 Sia X = (X1 , . . . , Xn ) una variabile aleatoria n-dimensionale e sia φ : IRn → IR una funzione misurabile. Chiamiamo Z la variabile aleatoria φ(X). Allora E[Z] =

φ(x)fX (x)

se la serie `e assolutamente convergente. 12

Dim. Per semplicit`a dimostriamo il teorema nel caso n = 2. Siano z1 , z2 , . . . i valori assunti da Z. Sia Ai = φ−1 (zi ) = {(xk1 , xk2 ) : φ(xk1 , xk2 ) = zi }. Risulta E[|Z|] =

|zi |P (Z = zi ) =

|zi |

f(X1 ,X2 ) (xk1 , xk2 ) =

(xk1 ,xk2 )∈Ai

|zi |f(X1 ,X2 ) (xk1 , xk2 ) =

i (xk ,xk )∈Ai 1 2

|φ(xk1 , xk2 )|f(X1 ,X2 ) (xk1 , xk2 ).

(xk1 ,xk2 )

Questo dimostra che Z ammette media finita. Per calcolare la media basta ripetere il calcolo fatto senza il valore assoluto. 2 Proposizione 2.7.4 Se X, Y sono due variabili aleatorie indipendenti allora E[XY ] = E[X]E[Y ]. Dim. Grazie al teorema (2.7.3) presa φ(x, y) = xy, risulta: E[XY ] =

xi yj f(X,Y ) (xi , yj ) =

xi ,yj

xi yj fX (xi )fY (yj )

xi ,yj

dove l’ultimo passaggio `e dovuto al fatto che, poich´e le variabili X e Y sono indipendenti, per ogni xi e yj f(X,Y ) (xi , yj ) = fX (xi )fY (yj ). Ma

xi yj fX (xi )fY (yj ) = E[X]E[Y ].

xi ,yj

2 Osservazione 2.7.5 Se X `e una variabile aleatoria a valori interi positivi allora E[X] =

∞ X

P (X ≥ k).

k=1

Dim. Esercizio.

2.8

Momenti

Definizione 2.8.1 Data una variabile aleatoria discreta X definita sullo spazio probabilizzato (Ω, A, P ) e a valori in X si definisce momento di ordine k E[X k ],

(2.8)

purch´e E[|X|k ] < ∞. Definizione 2.8.2 Data una variabile aleatoria discreta X definita sullo spazio probabilizzato (Ω, A, P ) e a valori in X si definisce momento centrato di ordine k E[(X − E[X])k ]. Grazie al teorema (2.7.3) se X ha densit`a discreta fX allora E[X k ] =

X i

xki fX (xi ).

(2.9)

2.9

Varianza e covarianza

Definizione 2.9.1 Si dice varianza di una variabile aleatoria X la quantità V ar[X] = E[(X − E[X])2 ]. Esercizio Verificare che V ar[X] = E[X 2 ] − E[X]2 . Definizione 2.9.2 Si dice covarianza tra due variabili aleatorie X e Y la quantità Cov(X, Y ) = E[(X − E[X])(Y − E[Y ])]. Proposizione 2.9.3 La varianza ha le seguenti propriet` a: (i) se λ ∈ IR allora V ar[λX] = λ2 V ar[X], (ii) V ar[X + Y ] = V ar[X] + V ar[Y ] + 2Cov(X, Y ), (iii) se X e Y sono indipendenti allora V ar[X + Y ] = V ar[X] + V ar[Y ]. Dim. (i) Usando il fatto che la media è lineare V ar[λX] = E[(λX − E[λX])2 ] = E[λ2 (X − E[X])2 ] = λ2 E[(X − E[X])2 ] = λ2 V ar[X]. (ii) V ar[X + Y ] = E[(X + Y − E[X + Y ])2 ] = E[(X − E[X])2 + 2(XY − E[X]E[Y ]) + (Y − E[Y ])2 ] = V ar[X] + 2(E[XY ] − E[X]E[Y ]) + V ar[Y ]. (iii) Se X e Y sono indipendenti allora E[XY ] − E[X]E[Y ] = 0 e quindi V ar[X + Y ] = V ar[X] + V ar[Y ]. 2 Definizione 2.9.4 Si dice coefficiente di correlazione tra due variabili aleatorie X e Y la quantità Cov(X, Y ) ρ(X, Y ) = q . V ar[X]V ar[Y ] Esempio 2.9.5 (i) Se X ha distribuzione di Bernoulli di parametro p E[X] =

xfX (x) = 0 · (1 − p) + 1 · p = p

E[X 2 ] =

x2 fX (x) = 0 · (1 − p) + 1 · p = p

V ar[X] = E[X 2 ] − E[X]2 = p(1 − p). 14

(ii) Se X ha distribuzione binomiale di parametri n e p, basta osservare che X = X1 +. . .+ Xn dove le variabili Xi sono indipendenti e hanno distribuzione di Bernoulli di parametro p, pertanto E[X] = E[X1 ] + . . . + E[Xn ] = np V ar[X] = V ar[X1 ] + . . . + V ar[Xn ] = np(1 − p). (iii) Se X ha distribuzione di Poisson di parametro λ E[X] =

n X k=0

E[X 2 ] =

∞ X

k=0

n X λk −λ λk e = e−λ λ =λ k! k=0 k!

∞ ∞ X X λk −λ λk−1 λh e = e−λ λ k = e−λ λ (h + 1) = k! h! k=1 (k − 1)! h=0 −λ

∞ X λh λh −λ = λ2 + λ λ h +e λ h=0 h! h=0 h! ∞ X

V ar[X] = E[X 2 ] − E[X]2 = λ2 + λ − λ2 = λ. (iv) Se X ha distribuzione geometrica di parametro p, usiamo (2.7.5) per calcolare la speranza ∞ X 1−p 1 . E[X] = (1 − p)k = − 1 = p p k=1

2.10

Funzioni Generatrici

Definizione 2.10.1 Data una variabile aleatoria X a valori interi positivi, si dice funzione generatrice di X la funzione GX (t) = E[tX ], t ∈ IR. In particolare se fX `e la densit`a di X allora GX (t) =

∞ X

tk fX (k)

k=0

pertanto la funzione generatrice dipende solo dalla densità di X. (Osserviamo che la P k funzione generatrice è definita purché ∞ k=0 |t| fX (k).) Viceversa la funzione generatrice individua univocamente la densità: infatti se le variabili aleatorie X e Y hanno la stessa funzione generatrice risulta: ∞ X

tk fX (k) = GX (t) = GY (t) =

k=0

∞ X

tk fY (k).

k=0

L’identità tra queste due serie di potenze vale se e solo se per ogni k ≥ 0, fX (k) = fY (k). Ovvero le variabili X e Y hanno la stessa densità di probabilità. In particolare fX (k) =

1 dk GX (t)|t=0 . k! dtk 15

Osservazione 2.10.2 Dalla conoscenza della funzione generatrice si ricavano facilmente i momenti di una variabile aleatoria. Infatti: G0X (t) =

∞ X

k tk−1 fX (k) ⇒ G0X (1) =

k=1

∞ X

k fX (k) = E[X].

k=1

Iterando G00X (t) =

∞ X

k(k − 1) tk−2 fX (k) ⇒ G00X (1) =

k=2

k(k − 1) fX (k) = E[X 2 ] − E[X], ‘

k=2

infine E[X 2 ] = G00X (1) + G0X (1). In maniera analoga si calcolano i momenti di ordine k > 2. Esempio 2.10.3 (i) Densit`a binomiale B(n,p) GX (t) =

n X k=0

n X n k n p (1 − p)n−k = (tp)k (1 − p)n−k = (tp + 1 − p)n k k k=0

(ii) Densit`a geometrica di parametro p GX (t) =

∞ X

tk p(1 − p)k = p

k=0

∞ X

(t(1 − p))k =

k=0

p 1 − t(1 − p)

(iii) Densit`a di Poisson di parametro λ GX (t) =

∞ X k=0

tk e−λ

∞ (tλ)k λk −λ X e = e−λ eλt . k! k! k=0

Esempio 2.10.4 Siano X e Y due variabili aleatorie indipendenti. Allora la funzione generatrice di X + Y `e GX+Y (t) = GX (t)GY (t). Dim. GX+Y (t) = E[tX+Y ] = E[tX ]E[tY ] = GX (t)GY (t). 2 Esercizio Siano X e Y variabili aleatorie indipendenti con distribuzione di Poisson, rispettivamente di parametri λ e µ. Allora la distribuzione della variabile aleatoria X + Y `e una distribuzione di Poisson di parametro λ + µ. Infatti: GX+Y (t) = GX (t)GY (t) = eλ(t−1) eµ(t−1) = e(λ+µ)(t−1) .

Capitolo 3 VARIABILI ALEATORIE CONTINUE Definizione 3.0.5 Dato uno spazio di probabilit` a (Ω, A, P ) si dice variabile aleatoria continua un’applicazione X : (Ω, A, P ) → IR tale che per ogni t ∈ IR (ω : X(ω) ≤ t) ∈ A. Definizione 3.0.6 Data una variabile aleatoria continua X, si definisce la distribuzione di probabilit` a di X la funzione FX : IR → [0, 1] FX (t) = P (ω : X(ω) ≤ t). Proposizione 3.0.7 Sia FX una funzione di distribuzione di probabilit` a. FX gode delle seguenti propriet` a: (i) FX è una funzione non decrescente; (ii) limx→−∞ FX (x) = 0, limx→+∞ FX (x) = 1; (iii) FX è continua a destra. Dim. La (i) segue immediatamente dalla relazione: (X ≤ x) ⊂ (X ≤ y) se x ≤ y. Dimostriamo la (iii). La dimostrazione di (ii) è simile. Dobbiamo provare che lim FX (x) = FX (x0 ).

x→x+ 0

Poich´e la funzione FX `e non decrescente, basta provare che lim FX (xn ) = FX (x0 )

xn →x0

se xn è una successione decrescente a x0 . Consideriamo gli eventi An = (X ≤ xn ). Poiché la successione di eventi (An ) è decrescente, allora posto A =: ∩n An per la proprietà (1.2.6) si ha: lim P (An ) = P (A). n 17

Pertanto è sufficiente dimostrare che A = (X ≤ x0 ). Dimostriamo la doppia inclusione A ⊂ (X ≤ x0 ) and (X ≤ x0 ) ⊂ A. Sia ω ∈ A allora per ogni n, X(ω) ≤ xn quindi X(ω) ≤ limn xn = x0 . Viceversa sia ω tale che X(ω) ≤ x0 . Siccome per ogni n è xn > x0 , risulta anche X(ω) ≤ xn cioè ω ∈ An per ogni n. 2 In generale non vale la continuità a sinistra per le funzioni di distribuzione. Osservazione 3.0.8 Se FX è una funzione di distribuzione continua, allora, per ogni x ∈ IR, vale P (X = x) = 0. Dim. Facciamo vedere che per ogni funzione di distribuzione FX risulta P (X = x) = FX (x) − FX (x− ) dove FX (x− ) =: limx→x− FX (x). Sia xn una successione crescente a x. Allora FX (x− ) = limn FX (xn ). Pertanto FX (x) − FX (x− ) = lim (FX (x) − FX (xn )) = lim P (xn < X ≤ x). n n La famiglia degli eventi An =: (xn < X ≤ x) è una famiglia decrescente dunque per la (1.2.6) si ha limn P (An ) = P (A) dove A =: ∩n An . Basta verificare che A = (X = x). Verifichiamo la doppia inclusione. Sia ω ∈ A allora per ogni n è xn < X(ω) ≤ x dunque limn xn = x < X(ω) ≤ x, cioè X(ω) = x. Viceversa: se X(ω) = x allora ovviamente ω ∈ An per ogni n. 2

3.1

Variabili aleatorie assolutamente continue

Definizione 3.1.1 Una funzione f : IR → IR+ si dice una densit` a di probabilit` a se: (i) fR è integrabile e ≥ 0, +∞ (ii) −∞ f (x)dx = 1. Definizione 3.1.2 Data una variabile aleatoria continua X e la sua distribuzione di probabilit` a FX , si dice che X è assolutamente continua se FX ammette una densità di probabilit` a, ovvero se, per ogni x ∈ IR FX (x) =

Z x −∞

fX (t)dt.

(3.1)

Da (3.1) segue in particolare che, per ogni a, b ∈ IR, a < b P (a ≤ X ≤ b) = FX (b) − FX (a) =

Z b a

fX (t) dt.

3.2

Densit` a congiunte

Definizione 3.2.1 Data la coppia di variabili aleatorie continue (X, Y ), la distribuzione di probabilit` a congiunta di X e Y è definita da F(X,Y ) (x, y) = P (X ≤ x, Y ≤ y), per ogni x, y ∈ IR. Si dice che la coppia di variabili aleatorie X e Y ha densità di probabilità congiunta se esiste una funzione f(X,Y ) integrabile e ≥ 0 tale che F(X,Y ) (x, y) =

Z x −∞

Z y −∞

f(X,Y ) (t, s) ds.

Osservazione 3.2.2 Come per le variabili aleatorie discrete, dalle distribuzioni di probabilità congiunte (rispettivamente densità congiunte) si possono ricavare le distribuzioni di probabilità marginali (rispettivamente densità marginali). Risulta FX (x) = lim F(X,Y ) (x, y), y→+∞

FY (y) = lim F(X,Y ) (x, y). x→+∞

fX (t) = fY (s) =

Z +∞ −∞

f(X,Y ) (t, s)ds f(X,Y ) (t, s)dt.

Definizione 3.2.3 Date m variabili aleatorie X1 , . . . Xm si dicono indipendenti se P (a1 ≤ X1 ≤ b1 , . . . , am ≤ X1 ≤ bm ) = P (a1 ≤ X1 ≤ b1 ) · · · P (am ≤ X1 ≤ bm ) per a1 , . . . , am , b1 , . . . , bm ∈ IR. Osservazione 3.2.4 Due variabili aleatorie X, Y risultano indipendenti se e solo se f(X,Y ) (x, y) = fX (x)fY (y) per ogni (x, y) ∈ IR2 tranne al pi` u per un insieme di misura nulla.

3.3

Densit` a di una funzione di una variabile aleatoria

Esempio 3.3.1 Data una variabile aleatoria assolutamente continua X con densità fX . Siano a, b due costanti reali, con a 6= 0, allora la densità della variabile aleatoria Y = aX + b è y−b 1 fX ( ). fY (y) = |a| a 19

Dim. Risulta FY (y) = P (Y ≤ y) = P (aX + b ≤ y) = P (aX ≤ y − b). Sia a > 0 allora P (aX ≤ y − b) = P (X ≤ Da cui derivando

y−b y−b ) = FX ( ) a a

1 y−b fY (y) = fX ( ). a a

Se a < 0 si ha FY (y) = P (X ≥ da cui derivando

y−b y−b ) = 1 − FX ( ), a a

1 y−b fY (y) = − fX ( ). a a

Esempio 3.3.2 Date due variabili aleatorie X, Y con densità congiunta f(X,Y ) (x, y). Allora la densità della variabile Z = X + Y è fZ (z) =

Z +∞ −∞

f(X,Y ) (x, z − x) dx.

Dim. Risulta

FZ (t) = P (X + Y ≤ t) = =

Z +∞ −∞

Z t−x −∞

{(x,y):x+y≤t}

f(X,Y ) (x, y) dy =

Z +∞ −∞

f(X,Y ) (x, y) dx dy

Z t −∞

f(X,Y ) (x, z − x) dz

dove nell’ultimo integrale abbiamo usato il cambio di variabile z = x+y, infine scambiando l’ordine di integrazione =

Z t −∞

Z +∞ −∞

f(X,Y ) (x, z − x) dx.

3.4

Esempi di distribuzioni assolutamente continue

Densit` a uniforme La funzione ½

fX (t) =

1 se 0 < t < 1 0 altrimenti

è una densità di probabilità. La funzione di distribuzione uniforme è  0

se t < 0 FX (x) =  t se 0 ≤ t ≤ 1 1 se t > 1. 20

In particolare se a, b ∈ [0, 1] P (a < X < b) =

Z b a

dt = b − a.

Densit` a esponenziale La funzione ½

λe−λt se t > 0 0 altrimenti è una densità di probabilità. La funzione di distribuzione esponenziale è fX (t) =

FX (x) = Densit` a gamma La funzione fX (t) =

(

1 − e−λx 0

λα −λt α−1 e t Γ(α)

se t > 0 altrimenti. se t > 0 altrimenti,

con α > 0 e λ > 0, è una densità di probabilità. Si indica con Γ(α, λ). La funzione Γ : IR+ → IR+ è definita Z ∞ Γ(α) = tα−1 e−t dt. 0

Si può verificare che Γ(1) = 1, per α > 0 Γ(α + 1) = αΓ(α), da cui segue che, per ogni intero positivo n, Γ(n) = (n − 1)!. Proposizione 3.4.1 Siano X1 e X2 variabili aleatorie indipendenti con densità Γ(α1 , λ) e Γ(α2 , λ) rispettivamente. La densità di X = X1 + X2 è una Γ(α1 + α2 , λ). Dim. Applicando la proposizione (3.3.2) si ha λα1 λα2 Z y α1 −1 −λx fX (y) = x e (y − x)α2 −1 e−λ(y−x) Γ(α1 ) Γ(α2 ) 0 Z y Z 1 λα1 +α2 λα1 +α2 −λy −λy α1 −1 α2 −1 = e e x (y − x) dx = (ty)α1 −1 (y − ty)α2 −1 y dt Γ(α1 )Γ(α2 ) Γ(α1 )Γ(α2 ) 0 0 dove nell’ultimo integrale abbiamo effettuato il cambio di variabile x = ty, Ã

λα1 +α2 Z 1 α1 −1 t (1 − t)α2 −1 dt y α1 +α2 −1 e−λy . Γ(α1 )Γ(α2 ) 0

Pertanto fX `e una densit`a Γ(α1 + α2 , λ). 2 Densit` a Normale La funzione x2 1 fX (x) = √ e− 2 , 2π

x ∈ IR

è una densità di probabilità. Si dice che è una densità Normale di parametri 0 e 1 e si indica N (0, 1). Siano µ, σ numeri reali con σ > 0 allora la variabile aleatoria Y = µ + σX ha densità 1 y−µ 1 (y − µ)2 fY (y) = fX ( )= √ exp( ). |σ| σ 2σ 2 2πσ Si dice che Y ha distribuzione N (µ, σ 2 ). 21

3.5

Momenti

Definizione 3.5.1 Sia X una variabile aleatoria assolutamente continua con densit`a fX . Si dice che X ammette media (speranza matematica, valore atteso, ...) finita se Z +∞ −∞

|x|fX (x)dx < ∞,

e in tal caso si pone E[X] =

Z +∞ −∞

xfX (x)dx.

In maniera analoga si definiscono i momenti di ordine k ≥ 2. Definizione 3.5.2 Sia X una variabile aleatoria assolutamente continua con densit`a fX . Si dice che X ammette momento di ordine k ≥ 2 finito se Z +∞ −∞

|x|k fX (x)dx < ∞,

e in tal caso si pone E[X k ] =

Z +∞ −∞

xk fX (x)dx.

Valgono per le variabili aleatorie assolutamente continue le propriet`a (2.7.2), (2.7.3), (2.7.4), (2.9.3). Esempio 3.5.3 Distribuzione uniforme su [0, 1]. Risulta: E[X] =

Z 1 0

1 x dx = , 2

Z 1

1 x2 dx = , 3 0 1 1 1 V ar[X] = E[X 2 ] − E[X]2 = − = . 3 4 12 Distribuzione gamma Γ(α, λ). Sia k ≥ 1 risulta: 2

E[X ] =

E[X k ] =

λα Z +∞ k α−1 −λx λα Z +∞ k+α−1 −λx x x e dx = x e dx Γ(α) 0 Γ(α) 0

λα Γ(α + k) = Γ(α) λα+k

Γ(α + k) λα+k Z ∞ k+α−1 −λx x e dx = k . Γ(α + k) 0 λ Γ(α)

In particolare: E[X] = E[X 2 ] =

α Γ(α + 1) = λΓ(α) λ

α(α + 1) Γ(α + 2) = λ2 Γ(α) λ2 22

α . λ2 Distribuzione esponenziale E(λ). Poich´e la distribuzione E(λ) coincide con una Γ(1, λ) si ha: 1 E[X] = λ 1 V ar[X] = 2 . λ V ar[X] =

Distribuzione normale N (0, 1). Poiché la funzione xe− 2 è una funzione dispari, si ha 1 Z +∞ − x2 xe 2 dx = 0. E[X] = √ 2π −∞ Inoltre 1 Z +∞ 2 − x2 V ar[X] = E[X 2 ] = √ x e 2 dx = 1. 2π −∞ Se Y è una normale N (µ, σ 2 ), allora Y = σX + µ dove X è una normale N (0, 1): E[Y ] = µ + σE[X] = µ V ar[Y ] = σ 2 V ar[X] = σ 2 .

3.6

Speranza condizionale

Definizione 3.6.1 Date due variabili aleatorie discrete X e Y si dice densit` a condizionale di X dato Y = y la funzione fX|Y (x|y) = P (X = x|Y = y) per ogni y tale che P (Y = y) > 0. Dunque vale che fX|Y (x|y) =

f(X,Y ) (x, y) fY (y)

per ogni y tale che fY (y) > 0. Definizione 3.6.2 Date due variabili aleatorie discrete X e Y si dice funzione di distribuzione condizionale di X dato Y = y la funzione FX|Y (x|y) = P (X ≤ x|Y = y) per ogni y tale che P (Y = y) > 0. Definizione 3.6.3 Date due variabili aleatorie discrete X e Y si dice speranza condizionale di X dato Y = y E[X|Y = y] =

X x

per ogni y tale che P (Y = y) > 0. 23

xfX|Y (x|y)

ψ(y)fY (y) =

XX y

xf(X,Y ) (x, y) =

X x

x,y

xfX|Y (x|y)fY (y)

xfX (x) = E[X].

Capitolo 4 I TEOREMI LIMITE 4.1

La Legge dei Grandi Numeri

Definizione 4.1.1 Una successione di variabili aleatorie reali (Xn )n converge quasi certamente verso una variabile aleatoria X se l’evento (ω : lim Xn (ω) = X(ω)) n

ha probabilit` a pari ad 1. Una successione di variabili aleatorie reali (Xn )n converge in probabilit` a verso una variabile aleatoria X se per ogni ε > 0 si ha lim P (ω : |Xn (ω) − X(ω)| > ε) = 0. n

Si può dimostrare che la convergenza quasi certa implica la convergenza in probabilità. Il viceversa è falso. Teorema 4.1.2 Disuguaglianza di Cebicev Data una variabile aleatoria X, per ogni ε > 0 vale V ar[X] P (|X − E[X]| > ε) ≤ . ε2 Dim. Definiamo la variabile aleatoria Y = ε2 I{|X−E[X]|>ε} . Vale (X − E[X])2 ≥ Y. Allora passando alle medie: V ar[X] = E[(X − E[X])2 ] ≥ E[Y ] = E[ε2 I{|X−E[X]|>ε} ] = ε2 P (|X − E[X]| > ε). 2 25

Teorema 4.1.3 Sia (Xn )n una successione di variabili aleatorie indipendenti e aventi tutte la stessa legge. Sia µ la loro media e σ 2 la loro varianza. Allora X1 + . . . + Xn →µ n in probabilit` a. Dim. Sia X n =

X1 +...+Xn . n

Risulta: E[X n ] = µ V ar[X n ] =

σ2 . n

Allora per la disuguaglianza di Cebicev: V ar[X n ] σ2 P (|X n − µ| > ε) ≤ = 2 → 0. ε2 nε 2

4.2

Il Teorema Centrale del Limite

Definizione 4.2.1 Una successione di variabili aleatorie reali (Xn )n converge in distribuzione verso una variabile aleatoria X se, per ogni x ∈ IR di continuit` a per la funzione di distribuzione di X, FX (x), si ha lim FXn (x) = FX (x). n

Teorema 4.2.2 Sia (Xn )n una successione di variabili aleatorie indipendenti e aventi tutte la stessa legge. Sia µ la loro media e σ 2 la loro varianza. Allora Sn =

X1 + . . . Xn − nµ √ → N (0, 1) σ n

in distribuzione.

Capitolo 5 PROCESSI STOCASTICI 5.1

Il Moto Browniano

Il processo stocastico che va sotto il nome di moto Browniano prende il nome dal botanico inglese R. Brown (1826), il quale osservò che le particelle microscopiche sospese in un liquido erano soggette a continui urti con le molecole e di conseguenza eseguivano movimenti a zigzag. Tuttavia il primo lavoro quantitativo sul moto browniano è dovuto ad Einstein (1905), il quale scopr`ı che, in contrasto con la loro apparente irregolarità, questi movimenti delle particelle potevano essere analizzati mediante leggi di probabilità, poiché la posizione delle particelle in un periodo di tempo segue la distribuzione Normale. Infine un approccio rigorosamente matematico allo studio del moto browniano come processo stocastico ha inizio con N. Wiener (1923), poi sviluppato da P. Levy. Assieme al processo di Poisson, il moto Browniano costituisce una delle due fondamentali specie di processi stocastici, sia nella teoria che nelle applicazioni, il primo ”a traiettorie discontinue”, mentre il secondo ”a traiettorie continue”. Descriviamo una maniera di definire il Moto Browniano tramite una procedura limite a partire da una passeggiata aleatoria simmetrica (random walk). Pensiamo alle particelle microscopiche in movimento (chiaramente le particelle osservate da Brown si muoveranno in uno spazio tridimensionale ma noi ci limitiamo a considerare la proiezione su un asse coordinato). Iniziamo con il supporre che ad ogni istante la particella compie un passo a destra o a sinistra con probabilità 12 . Quindi rappresentiamo ciascun passo mediante una variabile aleatoria avente legge di Bernoulli simmetrica: ½

ξn =

+1 con probabilit`a 1/2 ; −1 con probabilit`a 1/2 .

Le ξn sono variabili aleatorie indipendenti. Sia X0 la posizione iniziale (posso sempre supporre che X0 = 0) , allora la posizione al tempo n, cioè dopo n passi, dato che abbiamo supposto che ogni passo è compiuto nell’unità di tempo, è : Xn = ξ1 + . . . + ξn . 27

Segnaliamo due proprietà della passeggiata aleatoria (Xn ): (i) omogeneità nel tempo : per ogni m, n interi le variabili aleatorie Xm e Xm+n − Xn hanno la stessa distribuzione; (ii) incrementi indipendenti : le variabili aleatorie Xmi − Xni e Xmj − Xnj sono indipendenti se gli intervalli ]ni , mi ] e ]nj , mj ] sono disgiunti. Chiaramente chiederemo che l’analogo processo a tempi continui (il moto Browniano) abbia queste proprietà. Osservo che E[ξi ] = 0 e V ar[ξi ] = 1 per ogni i , quindi E[Xn ] = 0 e V ar[Xn ] = n. Allora per il Teorema Centrale del Limite, per n → ∞ in distribuzione X √ n → N (0, 1). n Poiché per ogni unità di tempo gli urti tra le particelle sono moltissimi, riduciamo l’unità di tempo e di conseguenza anche l’unità di lunghezza. Sia δ la nuova unità di tempo, cioè il tempo fra due succesivi urti. Quindi δt passi vengono effettuati dalla particella nel vecchio tempo t. Ogni passo è ancora una √ variabile aleatoria bernoulliana simmetrica e supponiamo che il passo sia di ampiezza δ , i.e. per ogni k √ √ 1 P (ξk = δ) = P (ξk = − δ) = . 2 Quindi si ha: E[ξk ] = 0 e V ar[ξk ] = δ. Allora per ogni t > 0 [t]

Xt =

δ X

ξk

k=1

dove [ δt ] è la parte intera di δt . Poiché siamo interessati ad ampiezze δ infinitesime, è δ ¿ t e quindi pensare ad esso come ad un intero. Quindi E[Xt ] = 0

t δ

`e grande e si pu`o

t e V ar[Xt ] = δ = t. δ

Allora per il teorema Centrale del Limite, per ogni t fissato e con δ che tende a 0, la Xt avrà distribuzione Normale N (0, t). Questo significa che stiamo √ modificando il nostro schema approssimato, in cui la particella si muove a distanza ± δ con uguale probabilità nel vecchio tempo δ, mandando δ a 0. Lo schema limite che si ottiene è il moto Browniano. La seguente definizione traduce il concetto di struttura informativa crescente al passare del tempo, molto naturale quando studiamo l’evoluzione di un fenomeno aleatorio. Definizione 5.1.1 Una filtrazione F = (Ft )t∈R+ è una famiglia crescente ( i.e. Fs ⊂ Ft per s < t) di sotto-σ-algebre di A. Definizione 5.1.2 Il moto Browniano è un processo stocastico definito sullo spazio probabilizzato (Ω, F, P ) a valori in R, se valgono le seguenti propriet` a: 28

(i) W0 = 0; (ii) le traiettorie t 7→ Wt sono continue; (iii) per ogni t > 0 la variabile Wt `e misurabile rispetto a Ft ; (iv) per ogni r < s < t gli incrementi Wt − Ws e Ws − Wr sono variabili aleatorie indipendenti; (v) per ogni s < t l’ incremento Wt − Ws ha distribuzione N (0, t − s).

5.2

I Processi di Conteggio

La teoria dei rinnovi è iniziata con lo studio dei sistemi stocastici la cui evoluzione nel tempo era cosparsa di rinnovi, cioè di istanti in cui, in senso statistico, il processo ricominciava come ”nuovo”. Questa teoria trova oggi applicazione in una grande varietà di modelli probabilistici, sia teorici che pratici. Definizione 5.2.1 Sullo spazio probabilizzato (Ω, A, P ) sia (Xk )k≥1 una successione di variabili aleatorie a valori in ]0, ∞[ indipendenti e identicamente distribuite. Sia poi Sn = X1 + · · · + Xn e per ogni t ∈ R+ poniamo Nt =

I{Sn ≤t} .

(5.1)

n≥1

Il processo a tempi continui (Nt )t∈R+ cos`ı definito è detto processo di conteggio o di rinnovo associato alla successione (Xk )k≥1 . Il processo definito da (5.1) risulta quindi un processo a valori in N ∪ {∞}. La variabile aleatoria Nt registra i successivi accadimenti di un evento (e.g. un guasto, un incidente) nell’intervallo ]0, t], cioè il numero di eventi in ]0, t]. Le Xk rappresentano le durate di tempo tra due eventi consecutivi, cioè Xk è il tempo che intercorre tra l’evento (k − 1)-esimo e l’evento k-esimo. Le variabili aleatorie Sn rappresentano il tempo d’attesa fino all’accadimento dell’n-esimo evento. Il pi` u semplice prototipo fisico di modello di rinnovo è la successiva sostituzione di lampadine che si guastano. Una lampadina è istallata per un servizio al tempo 0, si guasta al tempo X1 (aleatorio). Viene quindi sostituita con una nuova lampadina, che si guasta al ` naturale assumere l’indipendenza stocastica delle tempo aleatorio X1 + X2 . E cos`ı via. E successive durate di vita e le stesse caratteristiche probabilistiche, ovvero che le variabili aleatorie Xk siano indipendenti e identicamente distribuite. Allora la variabile Nt conta il numero di sostituzioni della lampadina fino all’istante t. Ci interessa derivare alcune proprietà delle variabili aleatorie associate ai processi (Nt )t∈R+ e (Sn )n≥1 dalla conoscenza della distribuzione dei tempi di intercorrenza. In particolare ci interessa calcolare la funzione di rinnovo , ossia il numero atteso dei rinnovi (o guasti) nel tempo ]0, t], cioè E[Nt ].

5.2.1

Il Processo di Poisson

Definizione 5.2.2 Il processo di Poisson `e un processo di conteggio costruito a partire da variabili aleatorie Xk che sono distribuite esponenzialmente. 29

Ricaviamo innanzitutto la legge del processo di Poisson (Nt )t∈R+ . Supponiamo dunque che le variabili aleatorie Xk siano indipendenti ed esponenziali di parametro λ: Xk (P ) = E(λ). Per ogni t ∈ R+ e per ogni n ≥ 1, risulta {Nt ≥ n} = {Sn ≤ t} e dunque {Nt = n} = {Sn ≤ t < Sn+1 } = {Sn ≤ t}\{Sn+1 ≤ t}. Osservo poi che Sn ha legge Γ(n, λ). Ricordo che la densit`a di una Γ(n, λ), `e (

γ(n, λ) = Pertanto P {Sn ≤ t} =

Z t 0

se x ≤ 0 se x > 0 .

λn e−λx xn−1 (n−1)!

γ(n, λ)(x)dx =

Allora, se n = 0, si ha: P {Nt = 0} = P {

Z t 0

λe−λx

(λx)n−1 dx. (n − 1)!

I{Sn ≤t} = 0}

n≥1

= P {S1 > t, . . . , Sn > t, . . .} = P {S1 > t} = P {X1 > t} = e−λt (dove abbiamo usato il fatto che S1 < S2 < . . . e che X1 ha legge E(λ)). Se n ≥ 1, si ha: P {Nt = n} = P {Sn ≤ t} − P {Sn+1 ≤ t} =

Z t"

Z t 0

λe

−λx (λx)

n−1

(n − 1)! n −λx (λx)

D e

− λe

−λx (λx)

dx = e−λt

(λt)n . n!

(5.2)

Dunque, per ogni t > 0, la variabile aleatoria Nt ha legge di Poisson di parametro λt. Poniamo N0 = 0. Si osservi che da (5.2) segue che per n → ∞, si ha che P {Nt = ∞} = 0. Dunque possiamo ricavare la funzione di rinnovo: il numero medio di guasti `e E[Nt ] = λt =

t 1 λ

t E[X1 ]

cio`e il numero di guasti `e direttamente proporzionale alla lunghezza dell’intervallo e inversamente proporzionale alla durata media delle singole lampadine. Fissato l’istante s > 0, contiamo il numero di guasti nell’intervallo ]s, s + t]: Nt+s − Ns =

I{s<Sn ≤s+t} .

n≥1

Consideriamo quindi il processo a partire dall’istante s: (Nt+s − Ns )t∈R+ . 30

Teorema 5.2.3 i) Gli incrementi Nt − Ns e Nu − Nv hanno la stessa distribuzione di probabilit` a se t − s = u − v, ovvero P(λ(t − s)); ii) Gli incrementi Nt − Ns e Ns − Nv sono indipendenti se v < s < t. Il risultato enunciato nel teorema precedente è abbastanza intuitivo se si pensa alla proprietà di assenza di memoria della legge esponenziale. Le proprietà i) e ii) si esprimono dicendo che il processo è ad incrementi indipendenti e stazionari, cioè la distribuzione del numero di eventi che avvengono in un certo intervallo di tempo dipende solo dalla lunghezza dell’intervallo. Definizione 5.2.4 Un processo stocastico (Xt )t≥0 si dice processo di Poisson composto se può essere rappresentato come Xt =

Nt X

i=1

dove (Nt ) è un processo di Poisson e (Yn ) è una successione di variabili indipendenti e identicamente distribuite, che sono anche indipendenti con (Nt ). Calcoliamo la media e la varianza di Xt . Usiamo l’identità E[Xt ] = E[E[Xt |Nt ]]. Risulta

Nt X

E[Xt |Nt = n] = E[ E[

n X

Yi |Nt = n] =

i=1 n X

Yi |Nt = n] = E[

i=1

Yi ] = nE[Y1 ].

i=1

V ar[Xt |Nt = n] = V ar[

n X

Yi |Nt = n] = V ar[

i=1

Yi ] = nV ar[Y1 ].

i=1

Quindi E[V ar[Xt |Nt ]] = E[Nt V ar[Y1 ]] = λt V ar[Y1 ]. Infine V ar[Xt ] = λt V ar[Y1 ] + λt E[Y1 ]2 = λt(V ar[Y1 ] + E[Y1 ]2 ) = λt E[Y12 ]. 31

(5.3)