ΣΤΑΤΙΣΤΙΚΗ I ∆ευτέρα, 28 Σεπτ 2009
Πιθανότητες Η θεωρία πιθανοτήτων ασχολείται µε τη µελέτη στοχαστικών φαινοµένων. Πείραµα → διάφορα αποτελέσµατα / ενδεχόµενα, το καθένα από τα οποία συµβαίνει µε κάποια πιθανότητα. π.χ. ρίψεις νοµισµάτων, ζαριού, µοίρασµα χαρτιών, απλές καθηµερινές καταστάσεις (όπου υπάρχει τυχαιότητα). Για την περιγραφή στοχαστικών φαινοµένων εισάγουµε την έννοια της τ.µ., π.χ.
∆ιακριτές
1.
Ο αριθµός πελατών που µπαίνουν ανά ώρα σε ένα κατάστηµα.
2. Ο αριθµός των φορών που θα έρθει κορώνα, αν στρίψω ένα νόµισµα 20 φορές.
Συνεχείς
1. Το ύψος ενός αγοριού 12 χρόνων.
2. Ο χρόνος αναµονής σε µια τράπεζα.
Κάθε τ.µ. έχει ένα σύνολο τιµών, που µπορεί να πάρει τιµές, οι οποίες συνδέονται µε κάποιες πιθανότητες. Το πώς συνδέονται, µας το λέει η κατανοµή πιθανότητας. Έστω Χ µια διακριτή τ.µ. και P ( X = x ) , η συνάρτηση κατανοµής της P ( X = x) . 1 6
Π.χ. P ( X = x ) = , x = 1, 2,..., 6 6
∑ P ( X = x) = 1 1
0 ≤ P ( X = x) ≤ 1 E ( X ) = ∑ x ⋅ P ( X = x) = µ
0
E g ( x ) = ∑ g ( x ) P ( X = x ) x
2 2 V ( x ) = E ( x − µ ) = ∑ ( x − µ ) P ( X = x ) = σ 2 x
Ροπές περί την αρχή:
µ 'k = E ( x k ) → µ1' = µ 1
k µ k = E ( x − µ ) → µ 2 = σ 2
Ροπές περί το µέσο:
Έστω Χ µια συνεχής τ.µ. και f ( x ) η συνάρτηση πυκνότητας πιθανότητας. π.χ. f ( x ) = 2 x, 0 < x < 1 f(x)
∫ f ( x )dx = 1 β
∫ f ( x ) dx = P ( a < X < β ) a
0
E ( X ) = ∫ xf ( x )dx
x
E g ( x ) = ∫ g ( x ) f ( x )dx 2 2 V ( X ) = E ( x − µ ) = ∫ ( x − µ ) f ( x ) dx = σ 2
µ 'k = E ( x k ) → µ1' = µ k µ k = E ( x − µ ) → µ 2 = σ 2
Παράδειγµα: Έστω Χ ο αριθµός των φορών που θα έλθει κορώνα, αν στρίψω ένα νόµισµα 20 φορές. Στρίβω το νόµισµα 20 φορές, άρα έχω 20 ανεξάρτητες δοκιµές. Σε κάθε δοκιµή, η πιθανότητα να έλθει κορώνα είναι 0,5. Συνολικά έρχεται κ φορές κορώνα και 20-κ φορές γράµµατα 1 1 1 1 1 20 P ( X = x ) = ⋅ ⋅... ⋅ ⋅ ... ⋅ = 2 2 2 2 2 x 20− x
x
x
20 1 1 x 2 2
20− x
(∆ιωνυµική κατα-
νοµή) E ( x ) = 10 ! Αν το νόµισµα δεν είναι δίκαιο, θα τείνει να έρχεται πιο συχνά , είτε κορώνα, είτε γράµµατα.
Έστω ότι η πιθανότητα να έρθει σε µια δοκιµή κορώνα είναι p. 20 20 x 20 − x = p (1 − p ) x x 20− x
P ( X = x) = p ⋅ p ⋅ ... p ⋅ (1 − p ) ⋅ ... ⋅ (1 − p ) ⋅ x
E ( x ) = 20 p . 2
Η πιθανότητα επιτυχίας p είναι η άγνωστη παράµετρος. Μπορούµε να εκτιµήσουµε την άγνωστη παράµετρο p, αν στρίψουµε το νόµισµα 20 φορές και 15 µετρήσουµεότι ήρθε π.χ. 15 φορές κορώνα εκτίµηση p = . 20 Η στατιστική είναι η επιστήµη της τυχαιότητας. Τα πάντα στη φύση είναι τυχαία και η σύγχρονη στατιστική επιστήµη ασχολείται µε την περιγραφή, ποσοτικοποίηση και την ερµηνεία αυτής της τυχαιότητας. Τα εργαλεία που επιστρατεύονται στην προσπάθεια αυτή είναι η στατιστική µοντελοποίηση και η στατιστική συµπερασµατολογία. Στατιστική Μοντελοποίηση Η ανάπτυξη πιθανοθεωρητικών υποδειγµάτων µε λίγες παραµέτρους για την περιγραφή στοχαστικών φαινοµένων / διαδικασιών. (π.χ. µοντελοποιώ τον αριθµό αφίξεων πελατών σε ένα κατάστηµα µε µια κατανοµή Poisson (λ)). Στατιστική Συµπερασµατολογία Η εκτίµηση των αγνώστων παραµέτρων και την ποσοτικοποίηση της αβεβαιότητας, σχετικά µε τις εκτιµήσεις. (Π.χ. σε ένα τυχαίο δείγµα 20 ωρών µετράω τον αριθµό αφίξεων ανά ώρα και εκτιµώ το λ της Poisson). • Εφαρµογές της Στατιστικής ∆ηµογραφία • • Έρευες αγοράς ∆ηµοσκοπήσεις • • Μάρκετινγκ • Ψυχολογία Ιατρική • • Βιολογία – Γενετική Οικονοµία • • Φυσική • Αναλυση εικόνας / ήχου.
Τα προβλήµατα που αντιµετωπίζουµε στη Στατιστική αφορούν την εξαγωγή συµπερασµάτων για ένα πληθυσµό από ένα τυχαίο δείγµα (τ.δ.). Ο πληθυσµός αποτελείται από το σύνολο τιµών µιας τ.µ. Υ, η οποία εκφράζει ποσοτικά το υπό µελέτη χαρακτηριστικό ή φαινόµενο. Τυχαίο δείγµα: Λέµε ότι ο τ.µ. X 1 , X 2 ,..., X v αποτελούν τυχαίο δείγµα, αν είναι ανεξάρτητες και ισόνοµες. Ανεξαρτησία: P ( X 1 = x1 , X 2 = x2 ,..., X v = xv ) = P ( X 1 = x1 ) ⋅ P ( X 2 = x2 ) ⋅ ... ⋅ P ( X v = xv ) Ισόνοµες (ή ταυτοτικά κατανεµηµένες): Ακολουθούν την ίδια κατανοµή (µε τις ίδιες παραµέτρους) 3
Παράδειγµα Έστω x ο αριθµός πελατών ανά ώρα σε ένα κατάστηµα. Με ενδιαφέρει να εκτιµήσω τον αναµενόµενο αριθµό πελατών ανά ώρα. α) Στατιστική Μοντελοποίηση: Έστω X ~ Poisson ( λ ) P ( X = x) = e
−λ
λx
, x = 0,1, 2,..., λ > 0 x! β) Έστω X 1 , X 2 ,..., X v ένα τυχαίο δείγµα 10 εργάσιµων ωρών για ένα κατάστηµα και έστω x1 , x2 ,..., xv στο διάστηµα παρατηρήσεως. 10
Εκτίµηση του λ: λɵ =
∑x
i
i =1
10
Τρίτη, 29 Σεπτ 2009
Επανάληψη στις Κατανοµές 1.
∆ιακριτές Κατανοµές
α)
Bernoulli (p)
∆είχνει ποια η πιθανότητα να έχουµε επιτυχία ενός πειράµατος (x=1) , ή αποτυχία (x=0) P ( X = x ) = p x ⋅ q1− x , x = {0,1} E ( X ) = p , V ( X ) = p ⋅ q = p (1 − p )
β)
Binomial(n,p) ∆ιωνυµική
∆είχνει ποια η πιθανότητα να έχουµε x επιτυχίες σε n επαναλήψεις ενός πειράµατος (χ=0,1,…,ν). n P ( X = x ) = p x ⋅ q n − x , x = 0,1,..., n , x
E ( X ) = n ⋅ p, V ( X ) = n ⋅ p ⋅ q = n ⋅ p ⋅ (1 − p )
! Για n = 1 η κατανοµή είναι η Bernoulli
γ)
Discrete Uniform (∆ιακριτή Οµοιόµορφη) Εκφράζει το αποτέλεσµα µιας δοκιµής µε Ν ισοπίθανα ενδεχόµενα
P ( X = x) =
1 , N
1 N 1 N ( N + 1) N + 1 xk = ⋅ = , ∑ v k =1 N 2 2 2 1 v V ( X ) = ∑ xk − x v k =1 ( N + 1)( N − 1) V (X ) = 12 E(X ) =
(
)
4
δ)
Geometric (p) Γεωµετρική ∆είχνει το πλήθος των δοκιµών, µέχρι την πρώτη επιτυχία.
P ( X = x ) = p (1 − p ) E(X ) =
ε)
x −1
, x = 0,1,2,...,0 ≤ p ≤ 1
1 1− p , V (X ) = 2 p p
Poisson (λ)
∆είχνει ποια η πιθανότητα να έχουµε x γεγονότα σε ένα προκαθορισµένο διάστηµα, όχι απαραίτητα χρονικό. P ( X = x) = e
−λ
λ −x x!
, E[ X ] = λ , V [ X ] = λ
1.
Συνεχείς Κατανοµές Έστω Χ µια τυχαία µεταβλητή, η οποία ακολουθεί συνεχή κατανοµή. Τότε µιλάµε για συνάρτηση πυκνότητας πιθανότητας f ( x ) . Έχουµε τότε β
∫ f ( x ) dx = 1, όπου (α,β) το πεδίο ορισµού της κατανοµής a
S f = ( a, β ) : P ( X = x ) > 0, ∀x ∈ ( a, β ) .
Αθροιστική συνάρτηση κατανοµής: F ( x ) = P ( X ≤ x ) x
d Θα έχουµε F ( x ) = f ( x ) , F ( x ) = ∫ f ( t ) dt και dx −∞ β
P ( a ≤ x ≤ β ) = ∫ f ( x ) dx = F ( β ) − F ( a ) a
Αναµενόµενες τιµές: E g ( x ) = ∫ g ( x ) f ( x ) dx π.χ. g ( x ) = x ⇒ E g ( x ) = E ( x ) = µ 2 2 g ( x ) = ( x − µ ) ⇒ E g ( x ) = E ( x − µ ) = V ( x ) = σ 2
Συνεχής οµοιόµορφη (α,β)
α 0
Εκθετική
β
0
5
α)
Uniform (a,b) Οµοιόµορφη (συνεχής) 1 a+β (β − a) . f ( x; a, β ) = , E(X ) = , V (X )= 2 12 β −a 2
β)
Exponential (β) Εκθετική x 1 −β f ( x; β ) = e ,0 ≤ x < ∞, β > 0.
β
E(X ) = β , V (X ) = β2.
γ)
Beta (α,β) Βήτα 1 β −1 f ( x) = ⋅ x a−1 ⋅ (1 − x ) ,0 ≤ x ≤ 1, a, β > 0 B ( a, β ) Η Β(α,β) λέγεται συνάρτηση Β, ή Β ολοκλήρωµα. 1
B ( a, β ) = ∫ x a −1 ⋅ (1 − x )
β −1
dx
0 1
(Ορίζεται έτσι, ώστε:
∫ 0
1
B ( a, β ) = ∫ x a −1 ⋅ (1 − x )
1
1 β −1 a −1 f ( x ) dx = 1 ⇒ x ⋅ 1 − x dx = 1 ⇒ ( ) B ( a, β ) ∫0
β −1
dx )
0
E(X ) =
a aβ , V (X ) = 2 a+b ( a + β ) ⋅ ( a + β + 1)
Παρατηρήσεις Αν α=β → E ( X ) =
1 , 2
αν α=β=2
αν α=β=1
0 0
1/2
1
1
Συνεχής οµοιόµορφη (0,1)
6
αν α=β=1/2
αν α<β → E ( X ) <
1 2
π.χ. α=2,β=5
0 0
δ)
1/2
1/2
1
1
Gamma (α,β) Γάµα Έστω µία τ.µ. που ακολουθεί κατανοµή Γάµµα (λ,p) και σ.π.π. x − 1 a −1 β f ( x; a, β ) = x e ,x > 0 Γ(a) ⋅ β a E ( X ) = aβ , V ( X ) = aβ 2 . Για α=1, έχουµε εκθετική (β)
Normal (µ, σ2) Κανονική ή κατανοµή Gauss. ( x − µ )2 1 2 f ( x | µ ,σ ) = exp − , −∞ < x, µ < ∞ 2 2 2 σ 2πσ E(X ) = µ , V (X ) =σ 2. Αν µ=0 και σ2=1, η κανονική κατανοµή (0,1) λέγεται τυπική ή τυποποιηµένη κανονική κατανοµή. x−µ Π.χ. η τ.µ. z = ακολουθεί την τυποποιηµένη κανονική κατανοµή. ε)
σ
σ 12
σ 22 0
µ
∆ύο κανονικές κατανοµές µε ίδιο µέσο µ και διαφορετικές διασπορές σ 12 < σ 22 7
Γενικά Οι παράµετροι µιας κατανοµής είναι αριθµητικές εκφράσεις, που καθορίζουν 1)
Τη θέση
2)
τη διασπορά και
3)
τη µορφή της κατανοµής και
δεν είναι µοναδικές. Π.χ. στην κατανοµή Γάµµα, E ( X ) = aβ , V ( X ) = aβ 2 , αν θέσουµε E ( X ) = aβ = µ και V ( X ) = aβ 2 = σ 2 , τότε
µ a= 2 µ µ2 a= σ a = 2 aβ = µ β σ µ ⇒ ⇒ ⇒ , οπότε 2 µ 2 σ aβ 2 = σ 2 β =σ 2 β= σ2 β= β µ µ −
µ
x
2
− −1 µ2 σ 2 1 1 a −1 β σ2 f ( x; a, β ) = x e = f x ; , = x e 2 µ2 Γ(a) ⋅ β a σ µ µ 2 σ 2 σ 2 Γ 2 ⋅ σ µ
x σ 2 µ
Πληθυσµός: τ.µ. Χ, η οποία ακολουθεί µία κατανοµή. Έστω X 1 , X 2 ,..., X v τυχαίο δείγµα (τ.δ.) πραγµατοποιήσεων της τ.µ. Χ. Εµπειρική κατανοµή του δείγµατος. 1 P ( X = x ) = , είναι διακριτή κατανοµή, που δίνει ίση πιθανότητα σε κάθε παv ρατήρηση (όχι σε κάθε παρατηρούµενη τιµή!)
π.χ. δείγµα
3
2
3
2
3
4
↓
↓
↓
↓
↓
↓
1/6
1/6
1/6
1/6
1/6
1/6
⇓
0
1
2
3
4
5
↓
↓
↓
↓
↓
↓
0
0
2/6
3/6
1/6
0
8
δεν είναι ίδια µε τη διακριτή οµοιόµορφη, γιατί τότε θα ίσχυε: 0
1
2
3
4
5
↓
↓
↓
↓
↓
↓
1/6
1/6
1/6
1/6
1/6
1/6
Η εµπειρική κατανοµή βοηθάει να υπολογίζουµε τις δειγµατικές αναµενόµενες τιµές. Πληθυσµός (τ.µ. Χ)
∆είγµα ( x1 , x2 ,..., xv )
µ=Ε(Χ)
δειγµατικός µέσος : ∑ xi P ( X = xi ) =
v
i =1
v
1
v
1
∑x v = v ∑x i
i
i =1
2 σ 2 = E ( x = µ )
∆ειγµατική διασπορά:
∑( x − X ) P( X = x ) = v
2
i
i =1 v
∑( i =1
1
s2 =
=X
i =1
2
xi − X
i
)
2
(
1 1 v = ∑ xi − X v v i =1
)
2
= s*2 (1)
X είναι αµερόληπτη, η s* δεν είναι, όπως θα δούµε στην εκτιµητική. Αµερόληπτη θα είναι η
Ενώ η
(
1 v ∑ xi − X v − 1 i =1
)
2
. 9