Στατιστικές Κατανομές και Πιθανότητες. Θεωρία και παραδείγματα. Γκούμας Στράτος. Πτυχιούχος Οικονομολόγος. MSc ‘Εφαρμοσμένη Οικονομική και Χρηματοοικονομική (Ε.Κ.Π.Α./ Τμήμα Οικονομικών)’ Team Site: A.E.A.C. Co. Project Manager-Site Administrator e-mail: s_4goum@yahoo.com , My Blog. 16/07/2011
ΕΙΣΑΓΩΓΗ Η στατιστική αποτελεί ένα επιστημονικό κλάδο όπου το πεδίο εφαρμογής της συγκαταλέγεται σε πλήθος άλλων επιστημών. Η συλλογή και η ανάλυση δεδομένων έχει γίνει πλέον επιτακτική πριν τη λήψη αποφάσεων. Έτσι λοιπόν σε μια επιχείρηση/ οργανισμό οι ερευνητές ασχολούνται με τη συλλογή και την επεξεργασία στατιστικών στοιχείων ώστε να διευκολύνουν τα υπόλοιπα στελέχη στη λήψη ορθών αποφάσεων όπου θα ωφελήσουν την πορεία την επιχείρησης. Ένας βασικός κλάδος της στατιστικής είναι η κατανόηση των στατιστικών κατανομών. Οι κατανομές αποτελούν ένα μαθηματικό υπόδειγμα μοντελοποίησης των στατιστικών δεδομένων. Τα μαθηματικά μοντέλα απαλλάσσουν τους ερευνητές από περιορισμός και τους επιτρέπουν να εργαστούν και να αναπτύξουν θεωρίες υπό ιδανικές συνθήκες. Σκοπός των κατανομών είναι να προσομοιωθεί μια σειρά δεδομένων με βάση ένα μαθηματικό μοντέλο το οποίο έχει συγκεκριμένες ιδιότητες. Η κατανόηση και η μοντελοποίηση του συνόλου υπό μια στατιστική κατανομή έχει πολλαπλά οφέλη όπως 1) Είναι δυνατή η πρόβλεψη των μελλοντικών τιμών της σειράς 2) Κατανόηση των περιγραφικών μεγεθών (μέση τιμή, διακύμανση, διάμεσος κτλ), το οποίο συνεπάγεται ότι υπάρχει η δυνατότητα να κατανοούμε εκ των πρότερων της εξέλιξη της σειράς. 3) Μοντελοποίηση πολλαπλών σειρών σε πιο σύνθετα υποδείγματα με γνώστες ιδιότητες. 4) Έχοντας γνώση των αδυναμιών του εκάστοτε μοντέλου/ κατανομής έχουμε τη δυνατότητα διόρθωσης αυτών των σφαλμάτων και των αποτελεσμάτων.
ΠΕΡΙΛΗΨΗ Στην παρουσιαση αυτή θα επιδείξουμε μερικες βασικές στατιστικές κατανομές που χρησιμοποιούνται ευρέως καθώς και μερικές πιο προχωρημένες. Οι κατανομές κατηγοριοποιούνται σε δυο βασικές ομάδες. 1) Διακριτές 2) Συνεχείς. Οι Συνεχείς χωρίζονται στις εξής υποομάδες α) Φραγμένες β) Μη Φραγμένες 3) Μη Αρνητικές. Διακριτή Κατανομή. Η μεταβλητή λαμβάνει μεμονωμένες τιμές σε ένα διάστημα [α,β]. Παράδειγμα. 1) Αριθμός παιδιών (0,1,2,3, κτλ), 2) Φορολογικός Συντελεστής (0%, 10%, 30%, 40%). Μεταξύ αυτών των μεμονωμένων τιμών ΔΕΝ λαμβάνονται άλλες τιμές. Τουτέστιν, δεν είναι δυνατό να υπάρξουν 2.5 παιδιά. Επίσης δεν είναι δυνατό (προς το παρόν) να υπάρξει Φορολογικός Συντελεστής 10.78%. Συνεχής Κατανομή. Η μεταβλητή λαμβάνει οποιεσδήποτε τιμές μεταξύ δυο μεμονωμένων τιμών σε ένα διάστημα [α,β]. Όταν η κατανομή είναι συνεχής τότε η b
πιθανότητα Ρ υπολογίζεται ως P ( a < x < b) = ∫ f ( x)dx a
Παράδειγμα. 1) Ηλικία (15, 50, 60 κτλ), 2)Ύψος (1.75, 1.80, 1.90 κτλ). Μεταξύ αυτών των μεμονωμένων τιμών λαμβάνονται όλες οι ενδιάμεσες τιμές. Δηλαδή, υφίστανται ηλικίες 20 ετών και 2 μηνών, 35 ετών 5 μηνών και 4 ημερών κτλ. Ομοίως υπάρχει τιμή ύψους 1.76, 1.77, 1.80 και 4 χιλιοστά κτλ Συνεχής Κατανομή (Μη Φραγμένη). Τούτη η κατανομή λαμβάνει όλες τις πιθανές τιμές στο διάστημα (-∞,+∞). Συνεχής Κατανομή (Φραγμένη). Τούτη η κατανομή λαμβάνει όλες τις πιθανές τιμές στο διάστημα [α,β] Συνεχής Κατανομή (Μη αρνητική). Οι περισσότερες μη αρνητικές κατανομές ορίζονται για x>γ ετσι ώστε x-γ>0, όπου γ είναι συνεχής παράμετρος.
Για την παρουσίαση των συνεχών στατιστικών κατανομών έχουμε χρησιμοποιήσει κυρίως το πρόγραμμα Easy Fit 5.1 καθώς και μερικές στατιστικές συναρτήσεις του excel. Το Easy Fit 5.1 περιλαμβάνει περίπου 50 κατανομές, οπότε ο ενδιαφερόμενος έχει μεγάλο εύρος επιλογής. Κατά την άποψή μου, είναι ένα πλήρες πρόγραμμα οπότε είναι βέβαιο ότι οι δυνατότητες του θα εξυπηρετήσουν τις ανάγκες που εκάστοτε ενδιαφερομένου.
Για τις διακριτές κατανομές θα παρουσιάσουμε παραδείγματα και εφαρμογές σε κάθε ενότητα. Για τις συνεχείς κατανομής έχουμε χρησιμοποιήσει τις αποδόσεις μιας μετοχής λαμβάνοντας δεδομένα για 4 μήνες. Σκοπός μας είναι χρησιμοποιώντας το πρόγραμμα Easy Fit 5.1 να μελετήσουμε και να κατανοήσουμε την προσαρμογή των συνεχών κατανομών στα δεδομένα που διαθέτουμε.
Κατανομές που διαθέτει το Easy Fit 5.1. Συνεχείς Φραγμένες: Beta, Johnson SB, Kumaraswamy, Pert, Power Function, Reciprocal, Triangular, Uniform, Συνεχείς Μη Φραγμένες: Cauchy, Error, Gumbel Max Gumbel Min, Hyperbolic Secant, Johnson SU, Laplace (Double Exponential), Logistic, Normal, t-Student Συνεχείς Μη Αρνητικές Burr, Levy, Gamma, Inverse Gaussian, F Distribution, Fatigue
Life
(Birnbaum-Saunders),
Frechet,
Chi-Squared,
Dagum,
Erlang,
Exponential, Weibull, Rice, Rayleigh, Pearson, Pareto, Nakagami, Lognormal, Log-Logistic, Log-Gamma. Διακριτές: Bernoulli, Binomial Discrete Uniform, Geometric, Hypergeometric, Logarithmic, Negative Binomial, Poisson. Προχωρημένες Κατανομές: Generalized Extreme Value, Generalized Logistic, Generalized Pareto, Phased Bi-Exponential, Phased Bi-Weibull, Wakeby.
Στην παρουσίασή μας δεν είναι δυνατόν να αναλύσουμε λεπτομερώς όλες τις παραπανω κατανομές. Θα επιλέξουμε μερικές από αυτές οι οποίες έχουν ευρεία χρήση και εφαρμογή. Εξάλλου πολλές από αυτές προσεγγίζονται ικανοποιητικά από την κανονική κατανομή, όπως θα εξηγήσουμε παρακάτω, οπότε έχουμε την ευχέρεια να χρησιμοποιούμε την κανονική κατανομή στην περίπτωση που αντιμετωπίζουμε δυσκολίες με τη χρήση άλλων πιο εξειδικευμένων κατανομών.
----------------ΣΥΝΕΧΕΙΣ ΚΑΤΑΝΟΜΕΣ
Α) ΜΗ ΦΡΑΓΜΕΝΕΣ ΚΑΤΑΝΟΜΕΣ [διάστημα (-∞, +∞)]
ΚΑΝΟΝΙΚΗ ΚΑΤΑΝΟΜΗ (Laplace-Gauss ή NORMAL DISTRIBUTION) Η κανονική κατανομή είναι η πιο συνήθης συνεχής συνάρτηση κατανομής. Επινοήθηκε από τον Gauss και χρησιμοποιείται για να περιγράψει μεγέθη που είναι συγκεντρωμένα γύρω από μια μέση τιμή. Η κανονική κατανομή, γνωστή και ως ‘’καμπάνα’’, προσαρμόζεται σε δεδομένα όπου υποθέτουμε ότι η κατανομή είναι μεσοκυρτη (βαθμός κυρτωσης=3) και συμμετρική (βαθμός ασυμμετριας=0) Η σημασία της προέρχεται κυρίως από το κεντρικό οριακό θεώρημα, σύμφωνα με το οποίο το άθροισμα μεγάλου αριθμού ανεξάρτητων και ισόνομων τυχαίων μεταβλητών είναι κανονικά κατανεμημένο.
Συνάρτηση Πυκνότητας Πιθανότητας 1 (σ.π.π.)
f ( x) =
1
1
σ * 2π
− 1*( x − μ ) 2 e 2 σ ,
Συμβολισμός Χ~Ν(μ,σ)
Συνάρτηση Πυκνότητας Πιθανότητας- Probability Density Function Αθροιστική Συνάρτηση Πιθανότητας- Cumulative Distribution Function
Αθροιστική Συνάρτηση Πιθανότητας1
1 ⎛x−μ⎞ ⎟ , Φ είναι το ολοκλήρωμα Laplace // Φ(x)= ⎝ σ ⎠ 2π
F(x)= Φ⎜
Εναλλακτικά με μετασχηματισμό έχουμε ότι F(x)=z=
x−μ
σ
2 − t x * e 2
∫
0
dt
,
Όπου σ>0 (scale parameter/ τυπική απόκλιση),
μ ∈ R (location parameter/ μέση τιμή)
και − ∞ < x < +∞
ΓΡΑΦΗΜΑ NORMAL ΚΑΤΑΝΟΜΗΣ
Probability Density Function 0,32
0,28
0,24
f(x)
0,2
0,16
0,12 0,08
0,04
0 -0,06
-0,04
-0,02
0
0,02
0,04
x His togram
Norm al
Ορισμός Αν η τυχαία μεταβλητή Χ~ Ν(μ,σ2) τότε για τα κατωθι διαστήματα ισχύει [μ-σ, μ+σ]Æ68.28% [μ-2σ, μ+2σ]Æ95.44% [μ-3σ, μ+3σ]Æ99.75%
0,06
Παράδειγμα 1) Έστω μια μεταβλητή Χ ακολουθεί την κανονική κατανομή Χ~Ν(8,9). Να βρεθεί η πιθανότητα P (5 ≤ X ≤ 10) . Από τα δεδομένα έχουμε ότι μ=8 και σ2=9
Χρησιμοποιώντας τον μετασχηματισμό z=
z=
5−8 = -1 3
z=
10 − 8 = 0.66 3
x−μ
σ
θα έχουμε ότι
Άρα θα έχουμε ότι
P (5 ≤ X ≤ 10) = P (−1 ≤ z ≤ 0,66) = P ( z ≤ 0,66) - P ( z ≤ −1) = P ( z ≤ 0,66) - (1 − P ( z ≤ 1))
0,7454-(1-0,8413) = 0,8413 (βλ. πινάκες της κανονικής κατανομής από βιβλία στατιστικής )
Για να κατανοήσουμε την παραπανω διαδικασία έχουμε σχεδιάσει προσεγγιστικά το εξής γράφημα, όπου ουσιαστικά έχουμε υπολογίσει το εμβαδόν από το (-∞, 0.66) και το εμβαδόν από το (-∞, -1). Έπειτα αφαιρώντας αυτά τα δυο εμβαδά υπολογίσουμε το εμβαδόν στο (-1, 0.66)
2) Έστω Χ~Ν(3,σ2) και έχουμε επίσης ότι P ( X ≥ 1,5) = 0,7291. Να βρεθεί το σ2
Από τον μετασχηματισμό z=
x−μ
σ
έχουμε ότι z=
1,5 − 3
σ
Æ z=
− 1,5
σ
P ( X ≥ 1,5) = 0,7291. Æ z= 0.61 (Βλ. πινάκες της κανονικής κατανομής από βιβλία στατιστικής) Επειδή όμως z<0, (εξ ορισμού τυπική απόκλιση (σ) > 0), λογω συμμετρίας θα έχουμε z= -0.61 Αρά -0.61=
− 1,5
σ
Æ σ=2,46 (Αν καταλήγαμε ότι σ<0 οφείλουμε να ελέγξουμε για την
ύπαρξη σφάλματος στην διαδικασία μας))
ΛΟΓΙΣΤΙΚΗ ΚΑΤΑΝΟΜΗ (LOGISTIC DISTRIBUTION)
Συνάρτηση Πυκνότητας Πιθανότητας
f ( x) =
e−z , 2 z − σ * (1 + e )
Συμβολισμός X~Logistic(μ,σ)
Αθροιστική Συνάρτηση Πιθανότητας
F ( x) =
1 , 1 + e−z
Όπου z =
x−μ
σ
,
σ>0 (scale parameter), μ ∈ R (location parameter) και − ∞ < x < +∞
Παρατήρηση: Η λογιστική κατανομή εμφανίζει πολλές ομοιότητες με την κανονική κατανομή. Χρησιμοποιείται κυρίως στην περίπτωση που η σειρά προσεγγίζεται από την κανονική κατανομή αλλά εμφανίζει παχιές ουρές 2 .
Εφαρμογές Λογιστικής Κατανομής: Επιδημιολογία, Βιολογία (Ρυθμός αύξησης πληθυσμού), Ψυχολογία (Ρυθμός μάθησης) κτλ
2
Παχιές ουρέςÆ Πλακυκυρτη (Βαθμός Κυρτωσης<3) Λεπτές ουρέςÆ Λεπτοκυρτη (Βαθμός Κυρτωσης>3)
ΓΡΑΦΗΜΑ LOGISTIC ΚΑΤΑΝΟΜΗΣ Probability Density Function 0,32
0,28
0,24
f(x)
0,2
0,16
0,12 0,08
0,04
0 -0,06
-0,04
-0,02
0
0,02
0,04
0,06
x His togram
Logis tic
CAUCHY ΚΑΤΑΝΟΜΗ (CAUCHY DISTRIBUTION)
Η κατανομή Cauchy επινοήθηκε από τους Augustin Cauchy και Hendrik Lorentz Τούτη η κατανομή αποτελεί ένα πρότυπο για κατανομές που δεν έχουν μέση τιμή και διακύμανση, εντούτοις η επικρατούσα τιμή και η διάμεσος είναι καλά ορισμένες. Μοιάζει πολύ με την κατανομή Poisson Kernel. Όταν δυο μεταβλητές Χ,Υ ακολουθούν την κανονική κατανομή με μέση τιμή ιση με μηδέν και σταθερή διακύμανση ίση με την μονάδα, τότε το πηλίκο Χ/Υ ακολουθεί την τυπική Cauchy κατανομή.
Συνάρτηση Πυκνότητας Πιθανότητας
f ( x) = (π *σ * (1 + (
x − μ 2 −1 ) )) ,
σ
Συμβολισμός X~C(μ,σ)
Αθροιστική Συνάρτηση Πιθανότητας
F ( x) =
1
π
⎛ x−μ⎞ ⎟ + 0.5 ⎝ σ ⎠
arctan⎜
όπου σ>0 (scale parameter ) , μ ∈ R (location parameter) arctanÆ αντίστροφη συνάρτηση εφαπτομένης και − ∞ < x < +∞
ΓΡΑΦΗΜΑ CAUCHY ΚΑΤΑΝΟΜΗΣ
Probability Density Function 0,32 0,28 0,24
f(x)
0,2 0,16 0,12 0,08 0,04 0 -0,06
-0,04
-0,02
0
x Histogram
Cauchy
0,02
0,04
0,06
JOHNSON SU ΚΑΤΑΝΟΜΗ (JOHNSON SU DISTRIBUTION)
Τούτη η κατανομή που επινοήθηκε από τον Norman Lloyd Johnson (1917-2004). Στην ίδια οικογένεια ανήκουν η Johnson SB και Log-Normal κατανομές. Αυτές οι τρεις κατανομές είναι παρόμοιες με την κανονική κατανομή ωστόσο δεν έχουν τους περιορισμούς της, καθώς διαθέτουν εκείνες τις ιδιότητες που τις καθιστούν ικανές να προσαρμοστούν σε δεδομένα με διάφορες τιμές ασυμμετρίας και κύρτωσης, ιδιότητες τις οποίες δεν διαθέτει η κανονική κατανομή. Η κανονική κατανομή, γνωστή και ως ‘’καμπάνα’’, προσαρμόζεται σε δεδομένα όπου υποθέτουμε ακολουθούν μια κατανομή μεσόκυρτη (βαθμός κυρτωσης=3) και συμμετρική (βαθμός ασυμετριας=0). Ωστόσο, επειδή στην πράξη τούτο σπάνια συμβαίνει, οι προαναφερθείσες κατανομές είναι ιδανικές σε περιπτώσεις όπου δεν ισχύουν οι υποθέσεις της κανονικής κατανομής. Ειδικότερα για τις λεπτοκυρτες κατανομές, οι Johnson SB, Johnson, SU και Log-Normal είναι αποτελεσματικότερες και πιο ιδανικές από την κανονική.
Συνάρτηση Πυκνότητας Πιθανότητας
f ( x) =
δ λ * 2π * z 2 + 1
*e
Συμβολισμός Χ~ Jsu(γ,δ,λ,ξ)
2 2 − 0.5 * (γ + δ * ln( z + z + 1))
,
Αθροιστική Συνάρτηση Πιθανότητας
F ( x) = Φ(γ + δ * ln( z + z 2 + 1))
2
−t x −ξ 1 x 2 όπου z = , ΦÆΟλοκλήρωμα Laplace // Φ(x)= *∫e dt
2π
λ
0
Επίσης τα γ,δ,λ,ξ είναι παράμετροι με δ,λ>0. x ∈ (−∞,+∞) γ,δ (shape parameter), λ (scale parameter), ξ (location parameter)
ΓΡΑΦΗΜΑ JOHNSON SU ΚΑΤΑΝΟΜΗΣ
Probability Density Function 0,32 0,28 0,24
f(x)
0,2 0,16 0,12 0,08 0,04 0 -0,06
-0,04
-0,02
0
x Histogram
Johnson SU
0,02
0,04
0,06
LAPLACE ή DOUBLE EXPONENTIAL ΚΑΤΑΝΟΜΗ (LAPLACE ή DOUBLE EXPONENTIAL DISTRIBUTION)
Τούτη η κατανομή επινοήθηκε από τον Pierre-Simon Laplace. Ονομάζεται και double exponential (διπλή εκθετική) κατανομή διοτι το γράφημά της μοιάζει με δυο εκθετικές κατανομές η μια διπλά στην άλλη και συμμετρικές ως προς τον κατακόρυφο άξονα.. Από μαθηματικής απόψεως έχει κοινά χαρακτηριστικά με την κανονική κατανομή καθώς η μεν Laplace εκφράζεται σε απόλυτες διαφορές η δε κανονική σε διαφορές τετραγώνων (βλ τα αντίστοιχα ‘’Συνάρτηση Πυκνότητας Πιθανότητας’’).
Συνάρτηση Πυκνότητας Πιθανότητας
λ
f ( x) = * e
− λ* | x − μ |
2
,
Συμβολισμός Χ~ Laplace(μ,λ)
Αθροιστική Συνάρτηση Πιθανότητας
F ( x) =
1 − λ * ( μ − x) *e 2 1 − λ * (x − μ) 1− *e 2
x≤μ
x>μ
Όπου λ, μ είναι παράμετροι με λ>0. x ∈ (−∞,+∞) λ (scale parameter ) , μ (location parameter)
ΓΡΑΦΗΜΑ LAPLACE ΚΑΤΑΝΟΜΗΣ
Probability Density Function 0,32 0,28 0,24
f(x)
0,2 0,16 0,12 0,08 0,04 0 -0,06
-0,04
-0,02
0
0,02
0,04
0,06
x Histogram
Laplace
LOG-NORNAL ΚΑΤΑΝΟΜΗ με 3- παραμέτρους (LOG-NORNAL DISTRIBUTION 3Ρ)
Μια μεταβλητή Χ ακολουθεί την Log-Normal κατανομή όταν ο λογάριθμός της ακολουθεί την κανονική κατανομή. Μια μεταβλητή είναι πιθανό να ακολουθεί την Log-Normal κατανομή όταν είναι αποτέλεσμα πολλών τυχαίων θετικών μεταβλητών. Συνήθως οι χρηματοοικονομικές σειρές 3 (μετοχές, παράγωγα κτλ) προσεγγίζονται ικανοποιητικά από την Log-Normal κατανομή. Επίσης έχει παρατηρηθεί ότι οι λογάριθμοι βιολογικών μεταβλητών (μήκος μαλλιών/ νυχιών, ύψος, βάρος, πίεση) τείνουν να ακολουθούν την κανονική κατανομή)
3
Για μετοχές ισχύει συνήθως το εξής: Όταν η απόδοση μια μετοχής ακολουθει την κανονική κατανομή τότε η τιμή ακολουθει την Log-Normal κατανομή
Συνάρτηση Πυκνότητας Πιθανότητας
f ( x) =
⎛ ln( x − γ ) − μ ⎞ − 0.5 * ⎜ ⎟ σ ⎝ ⎠ e
( x − γ ) *σ * 2 * π
2 ,
Συμβολισμός Χ~ LogN(μ,σ,γ)
Αθροιστική Συνάρτηση Πιθανότητας
ln( x − γ ) − μ ⎞ ⎟ σ ⎝ ⎠
F ( x) = Φ⎛⎜
2
−t 1 ΦÆ Ολοκλήρωμα Laplace // Φ(x)= * ∫ e 2 dt x
2π
0
Όπου σ, μ, γ είναι παράμετροι με σ>0. x ∈ (γ ,+∞) σ (scale parameter ), μ (shape parameter), γ (location parameter)
Σημείωση: Στην περίπτωση όπου γ=0, τότε καταλήγουμε στην Log-Normal κατανομή 2-παραμετρων (Log-Normal 2Ρ). Το τυπολογιο των συναρτήσεων των πιθανοτήτων της Log-Normal 2Ρ είναι το ίδιο όπως τα παραπανω με τη διαφορά ότι θέτουμε γ=0
ΓΡΑΦΗΜΑ LOG-NORMAL ΚΑΤΑΝΟΜΗΣ
Probability Density Function 0,32 0,28 0,24
f(x)
0,2 0,16 0,12 0,08 0,04 0 -0,06
-0,04
-0,02
0
0,02
0,04
0,06
x
Histogram
Lognormal (3P)
GAMMA ΚΑΤΑΝΟΜΗ με 3-παραμέτρους (GAMMA 3Ρ DISTRIBUTION)
Τούτη η κατανομή προσεγγίζει συχνά μοντέλα μεταβλητών αναμονής (waiting time models). Λόγου χάρη, η αναμονή μέχρι την απεβίωση, ο υπολογισμός του ρυθμού της βροχόπτωσης και οι ασφαλιστικές αποζημιώσεις είναι μερικές μεταβλητές που προσεγγίζονται από την Gamma κατανομή.
Συνάρτηση Πυκνότητας Πιθανότητας
f ( x) =
α −1
(x − γ ) α
β * Γ(α )
− (x − γ )
*e
β
,
Συμβολισμός Χ~ Γ(α,β,γ)
Αθροιστική Συνάρτηση Πιθανότητας
F ( x) =
Γ( x−γ ) / β (α ) Γ(α )
x
Γx(α)Æ ‘’Ατελής’’ Συνάρτηση Gamma// Γx(α) = ∫ t a −1 * e − t dt 0
Όπου α, β, γ είναι παράμετροι με α,β>0, γ ∈ R
x ∈ (γ ,+∞)
α (shape parameter), β (scale parameter) , γ (location parameter)
Σημείωση: Στην περίπτωση όπου γ=0, τότε καταλήγουμε στην Gamma κατανομή 2-παραμετρων (Gamma 2Ρ). Το τυπολόγιο των συναρτήσεων των πιθανοτήτων της Gamma 2Ρ είναι το ίδιο όπως τα παραπανω με τη διαφορά ότι θέτουμε γ=0 Αν α ∈ Ζ τότε η Gamma κατανομή αναπαριστά την Erlang κατανομή
ΓΡΑΦΗΜΑ GAMMA ΚΑΤΑΝΟΜΗΣ Probability Density Function 0,32 0,28 0,24
f(x)
0,2 0,16 0,12 0,08 0,04 0 -0,06
-0,04
-0,02
0
0,02
x
Histogram
Gamma (3P)
0,04
0,06
WEIBULL ΚΑΤΑΝΟΜΗ με 3-παραμέτρους (WEIBULL 3Ρ DISTRIBUTION)
Τούτη η κατανομή περιγράφθηκε ολοκληρωμένα και από τον Waloddi Weibull (1887-1979), ωστόσο υπήρχαν και προγενέστερες αναφορές από άλλους επιστήμονες. Έχει κοινά χαρακτηριστικά με την Εκθετική (Exponential) και την Rayleigh κατανομή. Πιο συγκεκριμένα, παρεμβάλλεται μεταξύ της Εκθετικής (α=1) και της Rayleigh (α=2). Η Weibull κατανομή υπολογίζει τον ρυθμό αποτυχίας ενός ενδεχόμενου για ένα χρονικό διάστημα. Για α<1, ο ρυθμός αποτυχίας φθίνει καθώς ο χρόνος κυλάει, για α=1 ο ρυθμός αποτυχία είναι σταθερός, ενώ για α>1 ο ρυθμός αποτυχίας αυξάνει με το πέρασμα του χρόνου. (βλ. παρακάτω το τυπολόγιο) Η Weibull κατανομή χρησιμοποιείται στην βιομηχανία για να περιγράψει το χρόνο κατασκευής και παράδοσης ενός προϊόντος, στην μετεωρολογία, στις τηλεπικοινωνίες κ.α.
Συνάρτηση Πυκνότητας Πιθανότητας
f ( x) =
α ⎛⎜ x − γ * β ⎜⎝ β
⎞ ⎟ ⎟ ⎠
α −1
α
⎛ x −γ ⎞ −⎜ ⎟ β ⎠ ⎝ *e
,
Συμβολισμός Χ~ W(α,β,γ)
Αθροιστική Συνάρτηση Πιθανότητας
α
⎛ x −γ ⎞ ⎟ F ( x) = 1 − e ⎝ β ⎠ −⎜
Όπου α, β, γ είναι παράμετροι με α,β>0, γ ∈ R
x ∈ (γ ,+∞)
α (shape parameter), β (scale parameter) , γ (location parameter)
Σημείωση: Στην περίπτωση όπου γ=0, τότε καταλήγουμε στην Weibull κατανομή 2-παραμετρων (Weibull 2Ρ). Το τυπολόγιο των συναρτήσεων των πιθανοτήτων της Weibull 2Ρ είναι το ίδιο όπως τα παραπανω με τη διαφορά ότι θέτουμε γ=0
ΓΡΑΦΗΜΑ WEIBULL ΚΑΤΑΝΟΜΗΣ
Probability Density Function 0,32 0,28 0,24
f(x)
0,2 0,16 0,12 0,08 0,04 0 -0,06
-0,04
-0,02
0
0,02
0,04
0,06
x
Histogram
Weibull (3P)
FATIGUE LIFE ΚΑΤΑΝΟΜΗ ή (Birnbaum–Saunders) με 3-παραμέτρους (FATIGUE LIFE 3Ρ DISTRIBUTION)
Τούτη η κατανομή επινοήθηκε για να προσδιοριστεί η αποτυχία στον κύκλο ζωής μιας κατασκευής
εξαιτίας των φθορών. Με το μοντέλο αυτό, είναι δυνατό να
εντείνουμε το ρυθμό των φθορών ώστε να προσεγγιστεί το μέγεθος εκείνο που θα προκαλέσει την κατάρρευση της κατασκευής. Στην ιδία κατηγορία με αυτή την κατανομή ανήκουν η Lognormal, Exponential and Weibull.
Χρησιμοποιείται κυρίως για να καθοριστεί η ζημία σε μηχανικά, ηλεκτρολογικά, οικοδομικά υλικά, στις ασφαλιστικές απαιτήσεις αλλά και στα σοκ των αγορών.
Συνάρτηση Πυκνότητας Πιθανότητας
x −γ f ( x) =
β
+
⎛ 1 ⎛ x −γ x −γ β *φ ⎜ * ⎜ − ⎜α ⎜ 2* a *(x − γ ) β x −γ ⎝ ⎝
β
⎞⎞ ⎟⎟ ⎟⎟ ⎠⎠
Συμβολισμός Χ~ BS(α,β,γ)
Αθροιστική Συνάρτηση Πιθανότητας
⎛ 1 ⎛ x −γ F ( x) = Φ⎜ * ⎜ − ⎜α ⎜ ⎝ ⎝
β
β ⎞⎟ ⎞⎟ x − γ ⎟⎠ ⎟⎠ 2
−t 1 Όπου ΦÆ Ολοκλήρωμα Laplace // Φ(x)= * ∫ e 2 dt x
2π
φÆ
0
− x2 e 2
2 *π
α, β, γ είναι παράμετροι με α,β>0, γ ∈ R
x ∈ (γ ,+∞)
α (shape parameter), β (scale parameter) , γ (location parameter)
Σημείωση: Στην περίπτωση όπου γ=0, τότε καταλήγουμε στην
Fatigue Life
κατανομή 2-παραμετρων (Fatigue Life 2Ρ). Το τυπολόγιο των συναρτήσεων των πιθανοτήτων της Fatigue Life 2Ρ είναι το ίδιο όπως τα παραπανω με τη διαφορά ότι θέτουμε γ=0
ΓΡΑΦΗΜΑ FATIGUE LIFE ΚΑΤΑΝΟΜΗΣ
Probability Density Function 0,32 0,28 0,24
f(x)
0,2 0,16 0,12 0,08 0,04 0 -0,06
-0,04
-0,02
0
0,02
0,04
0,06
x
Histogram
Fatigue Life (3P)
ERLANG ΚΑΤΑΝΟΜΗ με 3 παραμέτρους (ERLANG 3Ρ DISTRIBUTION)
Η κατανομή Erlang επινοήθηκε από τον μαθηματικό Agner Krarup Erlang (1878 – 1929). Ανήκει στην ίδια οικογένεια και έχει πολλές ομοιότητες με την Gamma και Exponential κατανομή. Αρχικά χρησιμοποιήθηκε από τον Agner Krarup Erlang για να μελετήσει τον ρυθμό των τηλεφωνικών κλήσεων που γίνονται την ίδια ώρα σε ένα σταθμό.
Μετέπειτα
βιομαθηματικά.
εφαρμόστηκε
στις
στοχαστικές
διαδικασίες
και
τα
Παρατηρώντας προσεκτικά το τυπολόγιο της Erlang και της Gamma κατανομής θα διαπιστώσουμε ότι πρόκειται για ακριβώς τις ίδιες εξισώσεις με την μόνη διαφορά ότι η shape parameter της Erlang (m) ανήκει στους θετικούς ακέραιους αριθμούς ενώ η shape parameter της Gamma (α) ανήκει στους θετικούς αριθμούς. Εναλλακτικά μπορεί να ειπωθεί ότι η
Erlang αποτελεί ειδική περίπτωση της Gamma. Να
σημειώσουμε επιπλέον ότι για m=1 η Erlang καταλήγει στην Exponential κατανομή.
Συνάρτηση Πυκνότητας Πιθανότητας
f ( x) =
m −1
(x − γ ) *e m β * Γ ( m)
− (x − γ )
β
,
Συμβολισμός Χ~ Erlang(m,β,γ)
Αθροιστική Συνάρτηση Πιθανότητας
F ( x) =
Γ( x−γ ) / β ( m) Γ( m)
x
Γx(α)Æ ‘’Ατελής’’ Συνάρτηση Gamma// Γx(α) = ∫ t a −1 * e − t dt 0
Όπου m, β, γ είναι παράμετροι με m ∈ N * , β>0, γ ∈ R
x ∈ (γ ,+∞)
m (shape parameter), β (scale parameter) , γ (location parameter)
Σημείωση: Στην περίπτωση όπου γ=0, τότε καταλήγουμε στην Erlang κατανομή 2παραμετρων (Erlang 2Ρ). Το τυπολόγιο των συναρτήσεων των πιθανοτήτων της Erlang 2Ρ είναι το ίδιο όπως τα παραπανω με τη διαφορά ότι θέτουμε γ=0
ΓΡΑΦΗΜΑ ERLANG ΚΑΤΑΝΟΜΗΣ
Probability Density Function 0,32 0,28 0,24
f(x)
0,2 0,16 0,12 0,08 0,04 0 -0,06
-0,04
-0,02
0
0,02
0,04
0,06
x
Histogram
Erlang (3P)
ΕΚΘΕΤΙΚΗ ΚΑΤΑΝΟΜΗ (EXPONENTIAL DISTRIBUTION)
Η εκθετική κατανομή χρησιμοποιείται πρωτίστως για να περιγράψει τα χρονικά διαστήματα που μεσολαβούν μεταξύ δυο γεγονότων μιας Poisson διαδικασίας. Μπορεί επίσης να εφαρμοστεί σε πειράματα φυσικής (π.χ. παρατήρηση της μεταβολής του όγκου ενός αερίου με σταθερή θερμοκρασία), στην υδρολογία για να υπολογιστεί ο ρυθμός βροχόπτωσης για μια συγκεκριμένη χρονική περίοδο, στις τηλεπικοινωνίες, στην μηχανική για να εξεταστεί η σταθερότητα ενός συστήματος, στο οδικό δίκτυο για να μελετηθεί ο ρυθμός ατυχημάτων κ.α. Το μειονέκτημα της εκθετικής κατανομής είναι ότι υποθέτουμε ένα σταθερό ρυθμό μεταβολής ίσο με λ. Ωστόσο, αν επιλεγεί εκ των πρότερων ένα χρονικό διάστημα όπου είναι γνωστό ότι ο ρυθμός μεταβολής είναι σταθερός ή περίπου σταθερός τότε η εκθετική κατανομή προσεγγίζει αρκετά ικανοποιητικά τις παρατηρήσεις.
Συνάρτηση Πυκνότητας Πιθανότητας
f ( x) = λ * exp − λ *( x −γ )
,
Συμβολισμός Χ~ Exp(λ,γ)
Αθροιστική Συνάρτηση Πιθανότητας
F ( x) = 1 − exp − λ * ( x − γ )
Όπου λ, γ είναι παράμετροι λ>0, γ ∈ R
x ∈ (γ ,+∞)
λ (scale parameter) , γ (location parameter)
ΓΡΑΦΗΜΑ ΕΚΘΕΤΙΚΗΣ ΚΑΤΑΝΟΜΗΣ
Probability Density Function 0,32 0,28 0,24
f(x)
0,2 0,16 0,12 0,08 0,04 0 -0,06
-0,04
-0,02
0
0,02
x
Histogram
Exponential (2P)
0,04
0,06
PEARSON TYPE 6 ΚΑΤΑΝΟΜΗ 4- ΠΑΡΑΜΕΤΡΟΙ (PEARSON TYPE 6 4Ρ DISTRIBUTION)
Αυτή η κατανομή επινοήθηκε από τον Άγγλο μαθηματικό Karl Pearson (1857-1936) και χρησιμοποιήθηκε αρχικά για μελέτες βιοστατιστικης. Μετέπειτα και με την εξέλιξη των υπολογιστών εφαρμόστηκε στις χρηματοοικονομικές αναλύσεις, στην συμπεριφορά των αποδοσεων των μετοχών, στα επιτόκια, στις συναλλαγματικές ισοτιμίες, στις συχνότητα των πλημμύρων και των σεισμών κτλ. Είναι επίσης ιδιαίτερα χρήσιμη στις περιπτώσεις όπου η κατανομή εμφανίζει διάφορες μορφές κύρτωσης. Εκτός από την Pearson Type6 κατανομή προηγήθηκαν 5 ακόμα τύποι κατανομών οι όποιοι είτε βελτίωναν είτε συμπλήρωναν είτε επέκτειναν τις δυνατότητες τις προηγούμενης εξίσωσης της κατανομής. Σε ότι αφόρα την σχέση της με τις υπόλοιπες κατανομές, έχει αποδειχτεί ότι εμφανίζει αρκετές ομοιότητες με την Cauchy, Κανονική, Βeta, Gamma, X2 και την F κατανομή. Συνάρτηση Πυκνότητας Πιθανότητας
x − γ a1 − 1 ) b f ( x) = x − γ a1 + a 2 )) b * B(a , a ) * (1 + ( 1 2 b (
Συμβολισμός Χ~ Pearson6(α1,α2, b,γ)
Αθροιστική Συνάρτηση Πιθανότητας
F ( x) = I
x −γ x −γ +b
(a , a2 ) 1
Όπου α1, α2, b, γ είναι παράμετροι με α1,α2,b>0 ,
γ ≤ x ≤ +∞
α1,α2 (shape parameter) , b (scale parameter), γ (location parameter)
a −1 a −1 BÆ Συνάρτηση Beta: B(α1,α2)= ∫ t 1 * (1 − t ) 2 dt 1
0
Iz Æ Κανονικοποιημένη ‘’Ατελής’’ Συνάρτηση Beta: Ix=
B x ( a1 , a 2 ) B (a1 , a 2 )
Σημείωση: Στην περίπτωση όπου γ=0, τότε καταλήγουμε στην Pearson κατανομή 3-παραμετρων (Pearson 3Ρ). Το τυπολόγιο των συναρτήσεων των πιθανοτήτων της Pearson 3Ρ είναι το ίδιο όπως τα παραπανω με τη διαφορά ότι θέτουμε γ=0
ΓΡΑΦΗΜΑ PEARSON TYPE 6 ΚΑΤΑΝΟΜΗΣ
Probability Density Function 0,32 0,28 0,24
f(x)
0,2 0,16 0,12 0,08 0,04 0 -0,06
-0,04
-0,02
0
0,02
x
Histogram
Pearson 6 (4P)
0,04
0,06
GENERALIZED EXTREME VALUE ΚΑΤΑΝΟΜΗ (GENERALIZED EXTREME VALUE DISTRIBUTION)
Η generalized extreme value κατανομή αναπτύχθηκε παράλληλα με τον κλάδο της στατιστικής που αφορά την θεωρία ακραίων τιμών (extreme value theory). Αρχικά τέτοιου είδους σειρές μελετήθηκαν από τους Fisher και Tippett, (1928) οι οποίοι περιέγραψαν το πρώτο θεώρημα ακραίων τιμών και αργότερα από τον Gnedenko (1943) ο οποίος περιέγραψε το δεύτερο θεώρημα ακραίων τιμών. Η κατανομή αυτή αποσκοπεί να συνδυάσει τις οικογένειες των κατανομών Gumbel, Fréchet και Weibull καθώς συσχετίζει παραδοχές και από τις τρεις αυτές κατανομές. Είναι εξαιρετικά χρήσιμη για τη μελέτη φαινομένων που δεν παρουσιάζονται συχνά και αντιμετωπίζονται ως ακραία. Εφαρμόζεται για την μελέτη και την πρόβλεψη γιγαντιαίων κυμάτων (τσουναμι), για πυρκαγιές μεγάλης έκτασης πλημμύρεςκατακλυσμούς, στα χρηματοοικονομικά, στην μέτρηση του χρηματοοικονομικούπιστωτικού κινδύνου, στον υπολογισμό της πιθανότητας μεγάλων αποζημιώσεων κτλ. Από υπολογιστικής πλευράς, θα μπορούσαμε να αναφέρουμε ότι χρησιμοποιείται συχνά σε σειρές που εμφανίζουν μεγάλη και ασυνήθιστη διακύμανση.
Συνάρτηση Πυκνότητας Πιθανότητας
1 1 −1− k − (1 + k * z ) k * (1 + k * z ) −
1 f ( x) = σ 1
σ
*e (− z − e
−z
)
*e
Συμβολισμός Χ~ GEV(μ,σ,k)
k =0
k ≠0
Αθροιστική Συνάρτηση Πιθανότητας
1 − (1 + k * z ) k −
F ( x) =
(− z − e
−z
)
e
Όπου z=
1+ k
k ≠0
e
x−μ
σ
x−μ
σ
k =0
, σ>0
> 0 για k ≠ 0 και − ∞ < x < +∞ για
k =0
k (shape parameter), σ (scale parameter ) , μ (location parameter)
ΓΡΑΦΗΜΑ GENERALIZED EXTREME VALUE ΚΑΤΑΝΟΜΗ
Probability Density Function 0,32 0,28 0,24
f(x)
0,2 0,16 0,12 0,08 0,04 0 -0,06
-0,04
-0,02
0
0,02
x
Histogram
Gen. Extreme Value
0,04
0,06
ERROR ΚΑΤΑΝΟΜΗ (ERROR DISTRIBUTION)
Τούτη η κατανομή χρησιμοποιείται κυρίως σε σειρές όπου εμφανίζουν ασυμμετρία ή/ και κύρτωση, εν αντίθεση με την κανονική κατανομή όπου δεν λαμβάνει υπόψη αυτούς τους δυο παράγοντες. Εμφανίζει αρκετές ομοιότητες με την κατανομές Generalized Extreme Value, Weibull, Log-Normal και χρησιμοποιείται σε αρκετές εφαρμογές όπως σε χρηματοοικονομικά μοντέλα, εκτίμηση αποδοσεων για μετοχές, παράγωγα, μοντέλα VaR (Value at Risk) κτλ. Ειδικότερα στα οικονομετρικά μοντέλα GARCH, είναι η συνηθέστερη κατανομή που επιλέγεται για την εκτίμηση των δεδομένων
Συνάρτηση Πυκνότητας Πιθανότητας
f ( x) = c
1
−|c *z| *σ − 1 * e 0
−1
Συμβολισμός Χ~ Error(μ,σ,k)
Αθροιστική Συνάρτηση Πιθανότητας
1 ⎞ ⎛ Γ ( )⎟ ⎜ k ⎜ |c *z| k ⎟ ⎟ 0.5 * ⎜1 + 0 ⎟ ⎜ 1 Γ( ) ⎟ ⎜ k ⎟ ⎜ ⎠ ⎝ F ( x) = 1 ⎞ ⎛ Γ ( )⎟ ⎜ k ⎜ |c *z| k ⎟ ⎟ 0.5 * ⎜1 − 0 ⎟ ⎜ 1 Γ( ) ⎟ ⎜ k ⎟ ⎜ ⎠ ⎝
x≥μ
x<μ
⎛ 3 ⎞ ⎜ Γ( ) ⎟ Όπου c0 = ⎜ k ⎟ ⎜ Γ( 1 ) ⎟ ⎜ ⎟ ⎝ k ⎠
1 2
⎞ ⎛ ⎜ k *c ⎟ 0 ⎟ c1 = ⎜ ⎜ 2 * Γ( 1 ) ⎟ ⎟ ⎜ k ⎠ ⎝
z=
x−μ
σ
x
Γx(α)Æ ‘’Ατελής’’ Συνάρτηση Gamma// Γx(α) = ∫ t a −1 * e − t dt 0
− ∞ < x < +∞ , k (shape parameter), σ (scale parameter ) , μ (location parameter)
Σημείωση: Για k=2 η Error καταλήγει στην Κανονική κατανομή ενώ για k=1 καταλήγει στην Laplace
ΓΡΑΦΗΜΑ ERROR ΚΑΤΑΝΟΜΗ
Probability Density Function 0,32 0,28 0,24
f(x)
0,2 0,16 0,12 0,08 0,04 0 -0,06
-0,04
-0,02
0
x
Histogram
Error
0,02
0,04
0,06
F -ΚΑΤΑΝΟΜΗ (F- DISTRIBUTION)
Η κατανομή F επινοήθηκε από τους R.A. Fisher και George W. Snedecor. Εφαρμόζεται κυρίως για στατιστικούς ελέγχους και στην ανάλυση διακύμανσης.
Συνάρτηση Πυκνότητας Πιθανότητας
1 * f ( x) = x * B(ν ,ν ) 1
2
(ν (ν
1
ν
1
* x)
1
*ν
ν2 1
ν 1 +ν 2
Συμβολισμός Χ~ F(ν1,ν2)
* x +ν ) 2
Αθροιστική Συνάρτηση Πιθανότητας
F ( x) = Ι (ν 1 ,ν ) z
2
1 a −1 a −1 BÆ Συνάρτηση Beta: B(α1,α2)= ∫ t 1 * (1 − t ) 2 dt 0
Iz Æ Κανονικοποιημενη ‘’Ατελής’’ Συνάρτηση Beta: Ix=
z=
ν1 * x
ν1 * x +ν 2
0 ≤ x < +∞ , v1 , v2 ∈ N (ν1,ν2Æ βαθμοί ελευθερίας)
B x ( a1 , a 2 ) B(a1 , a 2 )
Χ2 -ΚΑΤΑΝΟΜΗ (CHI-SQUARED DISTRIBUTION) Η κατανομή X2 αποτελεί το άθροισμα των τετραγώνων κ ανεξάρτητων μεταβλητών οι οποίες ακολουθούν την κανονική κατανομή. Εφαρμόζεται κυρίως για στατιστικούς ελέγχους, τεστ υποθέσεων και την κατασκευή των διαστημάτων εμπιστοσύνης. Να σημειώσουμε επίσης ότι η X2 αποτελεί μια ειδική περίπτωση της κατανομής Gamma. Συνάρτηση Πυκνότητας Πιθανότητας ν
f ( x) =
− (x − γ )
(x − γ ) 2 − 1 *e ν
2
Συμβολισμός Χ~ Χ2(ν,γ)
ν
2 2 * Γ( ) 2
Αθροιστική Συνάρτηση Πιθανότητας
ν
Γ
F ( x) =
( ) x ( ) 2 2
ν
Γ( ) 2 x
Γx(α)Æ ‘’Ατελής’’ Συνάρτηση Gamma// Γx(α) = ∫ t a −1 * e − t dt 0
∞
Γ(α)Æ Συνάρτηση Gamma//
Γ(α) = ∫ t a −1 * e − t dt 0
Όπου νÆ βαθμοί ελευθερίας // ν ∈ Ν , γ ∈ R , x ∈ (γ ,+∞) γ (location parameter)
Σημείωση: Για γ=0 καταλήγουμε στην X2 με μια παράμετρο.
B) ΦΡΑΓΜΕΝΕΣ ΚΑΤΑΝΟΜΕΣ (διάστημα [α,β])
ΟΜΟΙΟΜΟΡΦΗ ΚΑΤΑΝΟΜΗ (UNIFORM DISTRIBUTION)
Η ομοιόμορφη κατανομή είναι μια από τις πιο συχνές και απλές κατανομές που μπορούν να συναντηθούν στις αναλύσεις και τη έρευνα. Είναι επίσης γνωστή με το όνομα ορθογωνική κατανομή εξαιτίας του σχήματός της. Μερικές μεταβλητές που συνήθως ακολουθούν την ομοιόμορφη κατανομή είναι το ύψος, ηλικία και βάρος των μαθητών μιας συγκεκριμένης σχολικής τάξης (π.χ. οι μαθητές τη Γ λυκείου έχουν άλικα από 17-18 ετών με όλες τις ενδιάμεσες τιμές να είναι πιθανές, έχουν περίπου ίδιο ύψος (τόσο τα αγόρια οσο και τα κορίτσια) και περίπου ίδιο βάρος. Άλλο παράδειγμα είναι ο μισθός μιας συγκεκριμένης κατηγορίας υπάλληλων σε μια επιχείρηση (π.χ. υπάλληλοι γραφείου) Τούτη η κατανομή είναι εύκολη στη χρήση της, ενώ παράλληλα το τυπολογιο της είναι εξαιρετικά απλό και εύχρηστο, όπου δεν χρειάζεται η χρήση Η/Υ. Επιπλέον με την χρήση διαφόρων μετασχηματισμών η ομοιόμορφη κατανομή σχετίζεται με την εκθετική, την Beta και την τριγωνική κατανομή
Συνάρτηση Πυκνότητας Πιθανότητας
f ( x) =
1 b−a
,
Συμβολισμός Χ~ U(a,b)
Αθροιστική Συνάρτηση Πιθανότητας
F ( x) =
x−a b−a
όπου a<b
και
a<x<b.
Παρατήρηση: To χαρακτηριστικό της ομοιόμορφης κατανομής είναι ότι όλα τα ενδεχόμενα είναι ισοπίθανο να εμφανιστούν.
ΓΡΑΦΗΜΑ UNIFORM ΚΑΤΑΝΟΜΗΣ
Probability Density Function 0,32
0,28
0,24
f(x)
0,2
0,16
0,12 0,08
0,04
0 -0,06
-0,04
-0,02
0
0,02
0,04
0,06
x Histogram
Uniform
Παράδειγμα
1) Ρίχνουμε ένα ζάρι. Ποια η πιθανότητα να φέρουμε 6; Η πιθανότητα εμφάνισης ενός αριθμού του ζαριού είναι ίση με 1/6, καθώς όλοι οι αριθμοί είναι ισοπίθανο να εμφανιστούν. Άρα η πιθανότητα να φέρουμε 6 είναι p=1/6
2) Ρίχνουμε ένα ζάρι. Ποια η πιθανότητα να φέρουμε ένα αριθμό μικρότερο του 5; Τα πιθανά ενδεχόμενα είναι να φέρουμε τους αριθμός Α{1,2,3,4} Αρά Ρ(Χ<5)= P(X = 1) + P(X = 2) + P(X = 3) + P(X = 4) Ρ(Χ<5)= 1/6 + 1/6 + 1/6 + 1/6 = 4/6
2) Ρίχνουμε δυο ζάρια. Υπολογίστε τις εξής πιθανότητες ι) Το άθροισμα τους να είναι ίσο με 10 ιι) Το άθροισμα τους να είναι μικρότερο από 7 ιιι) Να φέρουμε πεντάρες ιv) Να φέρουμε δυο και τρία
Αρχικά κατασκευάζουμε τον παρακάτω πίνακα στον οποίο έχουμε υπολογίσει όλα τα πιθανά αθροίσματα
1 2 3 4 5 6
1 2 3 4 5 6 7
2 3 4 5 6 7 8
3 4 5 6 7 8 9
4 5 6 7 8 9 10
5 6 7 8 9 10 11
6 7 8 9 10 11 12
Παρατηρούμε ότι έχουμε 36 (6*6) πιθανά ενδεχόμενα. Έχοντας τούτο υπόψη μας μπορούμε να απαντήσουμε στα ερωτήματα.
ι) Έστω S το άθροισμα. Από τον παραπάνω πίνακα υπολογίζουμε ότι υπάρχουν 3 παρατηρήσεις που έχουν αθροισμα=10. Το σύνολο των παρατηρήσεων είναι 36. Αρά Ρ(S=10)= 3/36
ιι) Έστω S το άθροισμα. Από τον παραπάνω πίνακα υπολογίζουμε ότι υπάρχουν 15 παρατηρήσεις που έχουν άθροισμα < 7. Το σύνολο των παρατηρήσεων είναι 36. Αρά Ρ(S<7)= 15/36 ιιι) Η πιθανότητα να φέρουμε πεντάρες υπολογίζεται ως εξής. Πρώτο ζάρι: Ρ(Χ=5)=1/6 και Δεύτερο ζάρι: Ρ(Χ=5)=1/6 (βλ. Παράδειγμα 1) Αρά Ρ(πεντάρες)=1/6*1/6=1/36 Ομοίως από τον παραπανω πίνακα παρατηρούμε ότι ο αριθμός ‘’5’’ των Στηλών και ο αριθμός ‘’5’’ των Γραμμών τέμνονται μια μόνο φορά. Γενικά όλα τα διπλά νούμερα (άσσοι, δίπλες, τριάρες…..) έχουν πιθανότητα p=1/36 να εμφανιστούν
ιv) Ο συλλογισμός είναι ίδιος όπως στο προηγούμενο ερώτημα Πρώτο ζάρι: Ρ(Χ=2)=1/6 και Δεύτερο ζάρι: Ρ(Χ=3)=1/6 Æ Ρ(2,3)= 1/6*1/6 Όμως θα έχουμε ακόμα ότι Πρώτο ζάρι: Ρ(Χ=3)=1/6 και Δεύτερο ζάρι: Ρ(Χ=2)=1/6Æ Ρ(3,2)= 1/6*1/6 Αρά Ρ(ολικό)=Ρ(2,3)+Ρ(3,2)=1/6*1/6+1/6*1/6=1/36+1/36=2/36 Ομοίως στο ίδιο συμπέρασμα καταλήγουμε από τον παραπανω πίνακα.
ΒΕΤΑ ΚΑΤΑΝΟΜΗ (ΒΕΤΑ DISTRIBUTION)
Τούτη η κατανομή χρησιμοποιείται κυρίως για να περιγράψει την κατανομή μιας μεταβλητής με άγνωστη πιθανότητα. Τυπικά περιγράφει την εκ των πρότερων (a-priori) 4 κατανομή μιας πιθανότητας όπως την πιθανότητα επιτυχώς ενός πειράματος (Διωνυμικη, Bernoulli κατανομή). Στην πραγματικότητα η Beta κατανομή είναι ένα συνονθύλευμα της Διωνυμικής με την Bernoulli κατανομή. 4
A-PrioriÆ Οι πιθανότητες των ενδεχομένων είναι γνώστες εκ των πρότερων. π.χ. Ρίψη ενός ζαριού Α-Posteriori (εμπειρική πιθανότητα)Æ Οι πιθανότητες των ενδεχομένων είναι γνωστές αφού ολοκληρωθεί το πείραμα. Π.χ. Σουτ από την γραμμή των βολών σε έναν αγώνα μπάσκετ.
Συνάρτηση Πυκνότητας Πιθανότητας
a −1 a −1 1 ( x − a) 1 * (b − x) 2 * f ( x) = a + a −1 B(a , a ) 1 2 (b − a) 1 2
Συμβολισμός Χ~ Βeta(α1,α2, α, b)
Αθροιστική Συνάρτηση Πιθανότητας
F ( x) = I (a , a2 ) z
1
Όπου α1, α2, α, b είναι παράμετροι με α1,α2>0 και α<b,
a≤ x≤b
α1,α2 (shape parameter)
1 a −1 a −1 BÆ Συνάρτηση Beta: B(α1,α2)= ∫ t 1 * (1 − t ) 2 dt 0
Iz Æ Κανονικοποιημενη ‘’Ατελής’’ Συνάρτηση Beta: Ix=
B x ( a1 , a 2 ) B (a1 , a 2 )
Παρατηρήσεις Για α1= α2=1Æ Η Beta κατανομή καταλήγει στην ομοιόμορφη κατανομή Για α1<1 και α2 ≥ 1 ή α1=1 και α2>1 Æ Η Beta κατανομή είναι φθίνουσα συνάρτηση Για α1>1 και α2 ≤ 1 ή α2=1 α2<1Æ Æ Η Beta κατανομή είναι αύξουσα συνάρτηση Για α1<1 και α2<1Æ Η Beta κατανομή έχει σχήμα U (U-shaped). Μοιάζει με το παρακάτω γράφημα γυρνώντας το ανάποδα Για α1=1 και α2>2Æ Η Beta κατανομή είναι κυρτή Για α1=1 και α2=2Æ Η Beta κατανομή είναι ευθεία γραμμή Για α1=1 και 1< α2<2Æ Η Beta κατανομή είναι κοίλη Για α1>2 και α2=1Æ Η Beta κατανομή είναι κυρτή Για α1=2 και α2=1Æ Η Beta κατανομή είναι ευθεία γραμμή Για 1< α1<2 και α2=1Æ Η Beta κατανομή είναι κοίλη Για α1>1, α2>1Æ Η Beta είναι unimodal (Έχει δηλαδή μια επικρατούσα τιμη. Γραφικά αυτό ορίζεται με τη συνάρτηση πυκνότητας πιθανότητας να έχει μια μόνο κορυφή. Βλ το παρακάτω γράφημα ‘’unimodal-bimodal’’ )
ΓΡΑΦΗΜΑ BETA ΚΑΤΑΝΟΜΗΣ Probability Density Function 0,32 0,28 0,24
f(x)
0,2 0,16 0,12 0,08 0,04 0 -0,06
-0,04
-0,02
0
x
Histogram
Beta
0,02
0,04
0,06
KUMARASWAMY ΚΑΤΑΝΟΜΗ (KUMARASWAMY DISTRIBUTION)
Αυτή η κατανομή επινοήθηκε από τον μηχανικό- υδρολόγο Ponnambalam Kumaraswamy. Εχει πολλές ομοιότητες με την κατανομή Beta και αρκετά συχνά χρησιμοποιείται αντ’ αυτης λογω της απλούστερης εξίσωσης της συνάρτησης πιθανότητας και της αθροιστικής συνάρτησης. Παρόλο που έχει κοινά χαρακτηριστικά με την Beta, η χρήση και οι εφαρμογές της δεν είναι διαδεδομένες.
Συνάρτηση Πυκνότητας Πιθανότητας
f ( x) =
a *a * z 1
2
a
1
−1
a a −1 * (1 − z 1 ) 2
(b − a)
Συμβολισμός Χ~ Kumaraswamy(α1,α2, α, b)
Αθροιστική Συνάρτηση Πιθανότητας
a a 2
F ( x) = 1 − (1 − z 1 )
Όπου α1, α2, α, b είναι παράμετροι με α1,α2>0 και α<b,
a ≤ x ≤ b , z=
x−a , b−a
α1,α2 (shape parameter)
Παρατηρήσεις
Για α1<1 και α2 ≥ 1 ή α1=1 και α2>1 Æ Η Kumaraswamy είναι φθίνουσα συνάρτηση Για α1>1 και α2 ≤ 1 ή α2=1 α2<1Æ Æ Η Kumaraswamy είναι αύξουσα συνάρτηση Για α1<1 και α2<1Æ Η Kumaraswamy κατανομή έχει σχήμα U (U-shaped). Μοιάζει με το παρακάτω γράφημα γυρνώντας το ανάποδα Για α1=1 και α2>2Æ Η Kumaraswamy κατανομή είναι κυρτή Για α1=1 και α2=2Æ Η Kumaraswamy κατανομή είναι ευθεία γραμμή Για α1=1 και 1< α2<2Æ Η Kumaraswamy κατανομή είναι κοίλη Για α1>2 και α2=1Æ Η Kumaraswamy κατανομή είναι κυρτή Για α1=2 και α2=1Æ Η Kumaraswamy κατανομή είναι ευθεία γραμμή Για 1< α1<2 και α2=1Æ Η Kumaraswamy κατανομή είναι κοίλη Για α1>1, α2>1Æ Η Kumaraswamy είναι unimodal (Έχει δηλαδή μια επικρατούσα τιμη)
ΓΡΑΦΗΜΑ KUMARASWAMY ΚΑΤΑΝΟΜΗΣ
Probability Density Function 0,32 0,28 0,24
f(x)
0,2 0,16 0,12 0,08 0,04 0 -0,06
-0,04
-0,02
0
0,02
0,04
0,06
x
Histogram
Kumaraswamy
Στα παρακάτω γραφήματα συγκρίνουμε την κανονική κατανομή με τις υπόλοιπες κατανομές ώστε να κατανοήσουμε τις διαφορές τους. Στο κάτω μέρος του κάθε γραφήματος γίνεται επεξήγηση των κατανομών.
ΓΡΑΦΗΜΑ
(Κανονική-Johnson SU- LogNormal κατανομες) Probability Density Function
0,32 0,28 0,24
f(x)
0,2 0,16 0,12 0,08 0,04 0 -0,06
-0,04
-0,02
0
0,02
0,04
0,06
x Histogram
ΓΡΑΦΗΜΑ
Lognormal (3P)
Normal
Johnson SU
(Κανονική-Error- Logistic κατανομές) Probability Density Function
0,32 0,28 0,24
f(x)
0,2 0,16 0,12 0,08 0,04 0 -0,06
-0,04
-0,02
0
0,02
x Histogram
Error
Logistic
Normal
0,04
0,06
ΓΡΑΦΗΜΑ
(Κανονική-Gamma- Weibull κατανομές)
Probability Density Function 0,32 0,28 0,24
f(x)
0,2 0,16 0,12 0,08 0,04 0 -0,06
-0,04
-0,02
0
0,02
0,04
0,06
x Histogram
ΓΡΑΦΗΜΑ
Normal
Weibull (3P)
Gamma (3P)
(Κανονική-Gen. Extreme Value- Pearson 6 κατανομές) Probability Density Function
0,32 0,28 0,24
f(x)
0,2 0,16 0,12 0,08 0,04 0 -0,06
-0,04
-0,02
0
0,02
x Histogram Pearson 6 (4P)
Gen. Extreme Value
Normal
0,04
0,06
ΓΡΑΦΗΜΑ
(Κανονική-Fatigue Life- Erlang κατανομές) Probability Density Function
0,32 0,28 0,24
f(x)
0,2 0,16 0,12 0,08 0,04 0 -0,06
-0,04
-0,02
0
0,02
0,04
0,06
x Histogram
ΓΡΑΦΗΜΑ
Normal
Erlang (3P)
Fatigue Life (3P)
(Κανονική-Beta- Kumaraswamy κατανομές)
Probability Density Function 0,32 0,28 0,24
f(x)
0,2 0,16 0,12 0,08 0,04 0 -0,06
-0,04
-0,02
0
0,02
0,04
x Histogram
Normal
Kumaraswamy
Beta
0,06
ΓΡΑΦΗΜΑ
(Κανονική-Laplace- Cauchy κατανομές) Probability Density Function
0,32 0,28 0,24
f(x)
0,2 0,16 0,12 0,08 0,04 0 -0,06
-0,04
-0,02
0
0,02
0,04
0,06
x Histogram
Cauchy
Laplace
Normal
Από τα γραφήματα διαπιστώνουμε ότι όλες σχεδόν οι κατανομές συγκλίνουν ουσιαστικά με την κανονική κατανομή. Σε πολλές περιπτώσεις μάλιστα συμπίπτουν εξ’ ολόκληρου με την προσέγγιση της κανονικής κατανομής. Οι μοναδικές που έχουν μερικές ουσιαστικές διαφοροποιήσεις είναι η Laplace και η Cauchy, όπου είναι περισσότερο λεπτοκυρτες από τις υπόλοιπες. Τελειώνοντας να τονίσουμε ότι το πρόγραμμα Easy Fit 5.1 εχει την δυνατότητα σύγκρισης των κατανομών με τρία κριτήρια ώστε να επιλέξουμε ποια από όλες προσαρμόζεται καλύτερα στα δεδομένα μας. Τα κριτήρια που χρησιμοποιούνται είναι οι στατιστικές Kolmogorov-Smirnov, Anderson-Darling και η Chi-Squared, Καθεμία επικεντρώνεται σε διαφορετικά γνωρίσματα και χαρακτηριστικά και εξάγει διαφορετικά αποτελέσματα. Ωστόσο είναι στην διακριτική ευχέρεια του αναλυτή να δώσει βαρύτητα στα κριτήρια που επιθυμεί και να επιλέξει τη στατιστική μέθοδο με την οποία θα γίνει η σύγκριση των κατανομών. Παρακάτω ακολουθεί ο πίνακας με την ταξινόμηση των κατανομών.
Goodness of Fit – Summary
Distribution
Kolmogorov Smirnov
Anderson Darling
Chi-Squared
Statistic Rank Statistic Rank Statistic Rank Normal
0,05615
1
0,23175
9
1,5421
5
Beta
0,05627
2
0,22765
8
1,5311
2
Pearson 6 (4P)
0,05665
3
0,22592
6
1,5333
3
Fatigue Life (3P)
0,05684
4
0,22559
5
1,5337
4
Johnson SU
0,05764
5
0,19995
1
1,9826
9
Lognormal (3P)
0,05888
6
0,22212
3
2,0897
10
Error
0,05989
7
0,20537
2
1,5881
8
Gen. Extreme Value 0,06144
8
0,27963
11
1,0682
1
Gamma (3P)
0,06228
9
0,22488
4
1,5591
7
Logistic
0,06339
10
0,22756
7
2,2183
11
Weibull (3P)
0,06475
11
0,3477
12
2,5702
12
Kumaraswamy
0,06487
12
0,34846
13
2,5706
13
Erlang (3P)
0,0685
13
0,2426
10
1,5534
6
Cauchy
0,0892
14
1,2244
15
10,665
14
Laplace
0,10541
15
0,87108
14
14,147
15
Στον παραπανω πίνακα έχουμε επιλέξει την ταξινόμηση με τη μέθοδο KolmogorovSmirnov. Σύμφωνα με αυτή τη μέθοδο πρώτη στην κατάταξη (rank) έρχεται η κανονική κατανομή και ακολουθούν η Beta και η Pearson 6 (4P). Στη δεύτερη στήλη φαίνονται τα αποτελέσματα με τη μέθοδο Anderson-Darling όπου πρώτη στην κατάταξη (rank) έρχεται η κατανομή Johnson SU και ακολουθούν η Error και η Lognormal (3P). Τέλος, έχουμε τη μέθοδο Chi-Squared, όπου εξάγεται το συμπέρασμα ότι καλύτερη προσαρμογή επιτυγχάνεται με την κατανομή Gen. Extreme Value και έπονται η Beta και η Pearson 6 (4P)
----------------ΔΙΑΚΡΙΤΕΣ ΚΑΤΑΝΟΜΕΣ
BERNOULLI ΚΑΤΑΝΟΜΗ (BERNOULLI DISTRIBUTION)
Η κατανομή Bernoulli είναι μια διακριτή συνάρτηση κατανομής τυχαίας μεταβλητής. Περιγράφει ένα τυχαίο πείραμα με δυο μόνο πιθανά ενδεχόμενα (επιτυχία-αποτυχία). Μερικά παραδείγματα της Bernoulli κατανομής είναι η ρίψη ενός νομίσματος (κορώνα-γράμματα), το φύλο ενός παιδιού (αγόρι-κορίτσι) πιθανότητα ευστοχίας μιας βολής κτλ.
Συνάρτηση Πυκνότητας Πιθανότητας
f ( x ) = 1 − p για x=0
και
f ( x) = p για x=1
Αθροιστική Συνάρτηση Πιθανότητας
F ( x) = 1 − p για x=0 και
F ( x) = 1 για x=1
όπου πιθανότητα 0<p<1 και
x={0,1}
Μαθηματική Ελπίδα: E(X)= p Διακύμανση V(X)= p*(1-p)
ΔΙΩΝΥΜΙΚΗ ΚΑΤΑΝΟΜΗ (BINOMIAL DISTRIBUTION)
Η διωνυμική κατανομή είναι μια διακριτή συνάρτηση κατανομής τυχαίας μεταβλητής. Περιγράφει ένα τυχαίο πείραμα με δυο πιθανά αποτελέσματα (επιτυχία αποτυχία) και πιθανότητα επιτυχίας p που επαναλαμβάνεται n φορές. Η διωνυμία κατανομή αποτελεί το άθροισμα των μεταβλητών της Bernoulli.
Παρατήρηση: Για n=1 η δυωνυμική κατανομή καταλήγει στην κατανομή Bernoulli. Για μεγάλο n η διωνυμική κατανομή συγκλίνει σύμφωνα με το θεώρημα ‘’de Moivre–Laplace’’ στην κανονική κατανομή με μέση τιμή np και διασπορά np(1 − p) Θεωρούμε την τυχαία μεταβλητή Χ που εκφράζει τον αριθμό των επιτυχιών. Η πιθανότητα να έχουμε k επιτυχίες σε n ανεξάρτητα πειράματα με πιθανότητα επιτυχίας p κάθε φορά είναι:
Συνάρτηση Πυκνότητας Πιθανότητας
⎛ n⎞ f ( x) = ⎜⎜ ⎟⎟ * p x * (1 − p) n − x , ⎝ x⎠
Αθροιστική Συνάρτηση Πιθανότητας
n
F ( x) = ∑ p * (1 − p) n − i i=0
Συμβολισμός Χ ~ Β(n,p)
⎛n⎞
n!
Όπου ⎜⎜ ⎟⎟ = , ⎝ x ⎠ (n − x)! x!
πιθανότητα 0<p<1
και 0 ≤ x ≤ n
nÆ αριθμός δοκίμων του πειράματος, με n ∈ N pÆπιθανότητα επιτυχίας 1-pÆ πιθανότητα αποτυχίας, x=0,1,2,….n (x καλείται διωνυμική τυχαία μεταβλητή)
Μαθηματική Ελπίδα: E(X)=n*p Διακύμανση V(X)=n*p*(1-p)
Παράδειγμα 1.
Σε μια πολύ το 48% των παιδιών είναι αγόρια (Α) και το 52% κορίτσια (Κ). Αν επιλέξουμε μια πενταμελή οικογένεια να βρεθούν ι) Πιθανότητα να έχει μόνο αγόρια. ιι) Πιθανότητα να έχει ένα κορίτσι ιιι) Πιθανότητα να έχει τουλάχιστον ένα αγόρι ιv) Πιθανότητα να έχει το πολύ ένα κορίτσι.
Έστω Α ο αριθμός των αγοριών και Κ ο αριθμός των κοριτσιών. Από τα δεδομένα του προβλήματος έχουμε ότι το Α είναι τυχαία μεταβλητή λαμβάνοντας τις τιμές 0,1,2,3,4,5 και ακολουθεί την διωνυμική κατανομή Β(5,0.48) Ομοίως και για το Κ ακολουθεί την διωνυμικη κατανομή Β(5,0.52).
⎛ 5⎞ ι) Ρ(Α=5) = ⎜ ⎟ * 0.485 * (1 − 0.48) 5 − 5 = 0.025 ⎜ 5⎟ ⎝ ⎠ ⎛ 5⎞ ιι) Ρ(Κ=1) = ⎜ ⎟ * 0.521 * (1 − 0.52) 5 − 1 = 0.138 ⎜1⎟ ⎝ ⎠
⎛ 5⎞ iii) Ρ(Α ≥ 1) = 1-Ρ(Α=0)= 1- ⎜ ⎟ * 0.480 * (1 − 0.48) 5 − 0 = 0.962 ⎜ 0⎟ ⎝ ⎠ iv) Ρ(Κ ≤ 1) = Ρ(Κ=0) + Ρ(Κ=1) =
⎛ 5⎞ ⎛ 5⎞ ⎜⎜ ⎟⎟ * 0.52 0 * (1 − 0.52)5 − 0 + ⎜⎜ ⎟⎟ * 0.521 * (1 − 0.52)5 − 1 = 0.025+0.138=0.163 ⎝1⎠ ⎝ 0⎠ (Το πολύ ένα κορίτσι συνεπάγεται ότι θα έχουμε είτε ένα είτε κανένα κορίτσι)
Παράδειγμα 2.
Έστω ότι ένας πωλητής εχει πιθανότητα p=28% να επιτύχει πώληση. Έστω ότι ο πωλητής σε μια τυχαία ημέρα τηλεφωνεί σε 12 άτομα. Να υπολογισθούν: i) Η πιθανότητα να επιτύχει 4 πωλήσεις. ii) Η πιθανότητα να επιτύχει το πολύ 2 πωλήσεις. iii) Η πιθανότητα να επιτύχει τουλάχιστον 3 πωλήσεις.
Έστω Χ ο αριθμός πωλήσεων του πωλητή. Η πιθανότητα επιτυχίας των πωλήσεων ακολουθεί την διωνυμική κατανομή Β(n=12, p=28%).
⎛12 ⎞ i) Ρ(Χ=4) = ⎜ ⎟ * 0.28 4 * (1 − 0.28)12 − 4 = 0.2197 ⎜4⎟ ⎝ ⎠
ii) Ρ(Χ ≤ 2) = Ρ(Χ=0) + Ρ(Χ=1) + Ρ(Χ=2) ⎛12 ⎞ ⎛12 ⎞ ⎛12 ⎞ ⎜ ⎟0.280 (1 − 0.28)12 − 0 + ⎜ ⎟0.281 (1 − 0.28)12 − 1 + ⎜ ⎟0.28 2 (1 − 0.28)12 − 2 ⎜0⎟ ⎜1⎟ ⎜2⎟ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠ = 0.3037
iii) Ρ(Χ ≥ 3) = 1- Ρ(Χ ≤ 2) = 1- 0.3037= 0.6963 (βλ προηγούμενο ερώτημα)
POISSON ΚΑΤΑΝΟΜΗ (POISSON DISTRIBUTION)
Η κατανομή Poisson είναι μια διακριτή συνάρτηση κατανομής τυχαίας μεταβλητής που περιγράφει τον αριθμό εμφανίσεων ενός γεγονότος σε ένα συγκεκριμένο χρονικό διάστημα. Έχει πάρει το όνομά της από τον Γάλλο μαθηματικό, Siméon Denis Poisson, (1781–1840). Η κατανομή Poisson έχει την παράμετρο λ που δηλώνει τη μέση τιμή αριθμού εμφανίσεων ενός γεγονότος, οι οποίες είναι ανεξάρτητες της τελευταίας χρονικής στιγμής εμφάνισης του γεγονότος. Παρατήρηση: Πρακτικά ισχύει ότι αν πιθανότητα p<0.2 και δείγμα n>20 η
προσέγγιση της μεταβλητής επιτυγχάνεται ικανοποιητικά από την κατανομή Poisson. Σε άλλες βιβλιογραφίες αναφέρεται ότι η προσέγγιση ισχύει για n>50 και p<0.1 Ορίζουμε την παράμετρο λ= n* p. Όσο το λ αυξάνει η κατανομή Poisson συγκλίνει στην κανονική κατανομή.
Συνάρτηση Πυκνότητας Πιθανότητας
f ( x) =
λx * e− λ
Συμβολισμός Χ~ Po(np)
x!
Αθροιστική Συνάρτηση Πιθανότητας
x
λi
i=0
i!
F ( x) = e − λ *
∑
όπου παράμετρος λ=n*p>0 (nÆμέγεθος δείγματος, pÆΠιθανότητα επιτυχίας) και
0 ≤ x < +∞
Μαθηματική Ελπίδα: E(X)=λ Διακύμανση V(X)=λ
Παράδειγμα. 1) Η πιθανότητα κάποιος οδηγός να μην έχει θεωρημένη άδεια οδήγησης είναι
p=0.05. Έστω ότι σε μια μέρα έγιναν 50 έλεγχοι. Να βρεθούν ι) Δυο οδηγοί να μην έχουν θεωρήσει την άδεια τους ιι) Το πολύ δυο οδηγοί να μην έχουν θεωρήσει την άδεια τους. Έστω Χ η μεταβλητή που εκφράζει τον αριθμό των οδηγών που δεν έχουν θεωρήσει το δίπλωμά τους. Επειδή πιθανότητα p=0.05<0.2 και δείγμα n=50>20, η μεταβλητή προσεγγίζεται από την κατανομή Poisson. Άρα έχουμε ότι λ=n*p=0.05*20Æ λ=2.5 2.5 2 * e −2,5 =0.2562 i) p(X=2)= 2! iι) p(X ≤ 2)= p(X=0)+ p(X=1)+ p(X=2) =
2.5 0 * e −2.5 2.51 * e −2.5 2.5 2 * e −2.5 + + =0.5432 0! 1! 2!
2) Έστω σε ένα γραφείο δέχονται 2 φαξ ανα 4 ώρες τα οποία απαντώνται με ρυθμό 2
φαξ ανα 6 ώρες i) Ποια η πιθανότητα σε μια μέρα να λάβουμε τουλάχιστον 4 φαξ; ii) Ποια η πιθανότητα να απαντήσουμε σε τρία φαξ σε μια μερα; iii) Έστω ότι δεν έχουμε κανένα φαξ. Ποια η πιθανότητα να λάβουμε 6 φαξ σε μια μέρα και να μην προλάβουμε απαντήσουμε σε όλα;
Έστω Χ ο αριθμός των φαξ που λαμβάνουμε κα Υ ο αριθμός των φαξ που απαντάμε Από τα δεδομένα έχουμε ότι λαμβάνουμε 2 φαξ/ 4 ώρεςÆ 12 φαξ/ 24ώρες. Επίσης απαντάμε σε 2 φαξ/6ωρεςÆ 8 φαξ/24 ώρες Αρά θα έχουμε ότι Χ~Ρο(λ1=12|24ωρες) και Υ~Ρο(λ2=8|24ωρες)
i) P ( X ≥ 4) = 1 − P ( X ≤ 3) =
1 − [ P ( X = 3) + P ( X = 2) + P ( X = 1) + P ( X = 0)] = 12 3 12 2 121 12 0 1 − [e −12 * + e −12 * + e −12 * + e −12 * ]= 3! 2! 1! 0! 12 3 12 2 121 12 0 1 − e −12 * [ + + + ]= 3! 2! 1! 0! 1 − e −12 * [288 + 144 + 12 + 1] = 1-0.0027=0,9973
83 ii) Ρ(Υ=3) = e * = 0,0286 3! −8
iii) P ( X = 6 και Υ < 6) = Ρ(Χ=6) * Ρ(Υ<6) =
12 6 (e * ) * [ P (Y = 5) + P (Y = 4) + P (Y = 3) + P (Y = 2) + P (Y = 1) + P (Y = 0)] 6! 81 −8 8 0 82 8 4 −8 8 3 85 12 6 −12 −8 −8 −8 −8 ) * [ e * + e * +e * + e * + e * +e * ] = 0,0048 (e * 0! 1! 2! 3! 4! 5! 6! −12
ΓΕΩΜΕΤΡΙΚΗ ΚΑΤΑΝΟΜΗ (GEOMETRIC DISTRIBUTION)
Η γεωμετρική κατανομή είναι μια διακριτή συνάρτηση κατανομής τυχαίας μεταβλητής. Περιγράφει ένα τυχαίο πείραμα με δυο πιθανά αποτελέσματα (επιτυχία αποτυχία) και πιθανότητα επιτυχίας p. Θεωρούμε την τυχαία μεταβλητή Χ που εκφράζει τον αριθμό των δοκιμών. Η πιθανότητα να χρειαστούμε n δοκιμές έως ότου να έχουμε μια επιτυχία με πιθανότητα p κάθε δοκιμης είναι:
Συνάρτηση Πυκνότητας Πιθανότητας
f ( x) = p * (1 − p) x
Συμβολισμός Χ~Ge(p)
Αθροιστική Συνάρτηση Πιθανότητας
F ( x) = 1 − (1 − p) x + 1 όπου πιθανότητα
0<p<1
και
Μαθηματική Ελπίδα: E(X)= Διακύμανση V(X)=
0 ≤ x < +∞
1 p
1− p p2
Με άλλα λόγια, προσπαθούμε να υπολογίσουμε την πιθανότητα να έχουμε επιτυχία στην n-οστη δόκιμη έπειτα από n-1 αποτυχίες, με πιθανότητα επιτυχίας της κάθε δόκιμης ιση με p.
Παράδειγμα.
1) Ρίχνουμε ένα ζάρι. Ποια η πιθανότητα να φέρουμε 1 μετά από 5 ρίψεις;
Αρχικά υπολογίζουμε την πιθανότητα να φέρουμε 1. Όπως γνωρίζουμε, η πιθανότητα να φέρουμε οποιοδήποτε αριθμό ενός ζαριού είναι p=1/6 (ισοπίθανα ενδεχόμενα). Άρα έχουμε ότι p = 1/6. Πιθανότητα (επιτυχία) για να φέρουμε 1 q = 1-1/6=5/6. Πιθανότητα (αποτυχία) για να φέρουμε οποιοδήποτε άλλο αριθμό εκτός από το 1.
Υποθέτουμε ότι x είναι α αριθμός των αποτυχιών πριν την επιτυχία. Άρα, θεωρώντας ότι η 5η ρίψη είναι επιτυχής (δηλαδή στην 5η ρίψη θα φέρουμε 1) θα έχουμε ότι x=4 (αποτυχίες).
Με τα δεδομένα αυτά p=1/6, q=5/6 και x=4 έχουμε ότι
1 6
5 6
P(x)= * ( ) 4 = 0,0803. Η πιθανότητα να φέρουμε 1 στην 5η ρίψη είναι p=0.0803
2) Ένας παίχτης μπάσκετ ρίχνει βολές με επιτυχία 93%. Ποια η πιθανότητα να μην
αστοχήσει μέχρι την 20η βολή; Από τα δεδομένα του προβλήματος καταλαβαίνουμε θα πρέπει να υπολογίσουμε την πιθανότητα ο παίχτης να ευστοχήσει σε 19 βολές και να αστοχήσει στην 20η βολή. Στην περίπτωση αυτού του προβλήματος, ο συλλογισμός μας θα λειτουργήσει αντίστροφα. Ο ορισμός της γεωμετρικής κατανομής είναι ο εξής: ‘’Η πιθανότητα να χρειαστούμε n δοκιμές έως ότου να έχουμε μια επιτυχία με πιθανότητα p σε κάθε δοκιμή’’. Άρα στην περίπτωσή μας η επιτυχής δοκιμή είναι να αστοχήσει στην βολή, ενώ η αποτυχία είναι να ευστοχεί στις βολές. Συνοψίζοντας έχουμε ότι Εύστοχη ΒολήÆ Αποτυχία με πιθανότητα q=0.93 Άστοχη ΒολήÆ Επιτυχία με πιθανότητα p=1-q =0.07 x=19 εύστοχες βολές (αποτυχία) Ρ(x)= 0.07*0.9319 = 0.0176. Η πιθανότητα να μην αστοχήσει μέχρι την 20η βολή είναι 0.0176
ΥΠΕΡΓΕΩΜΕΤΡΙΚΗ ΚΑΤΑΝΟΜΗ (HYPERGEOMETRIC DISTRIBUTION)
Η υπεργεωμετρική κατανομή είναι μια διακριτή συνάρτηση κατανομής τυχαίας μεταβλητής. Περιγράφει ένα τυχαίο πείραμα με δυο πιθανά αποτελέσματα (επιτυχία αποτυχία) σε πεπερασμένο πληθυσμό που επαναλαμβάνεται n φορές χωρίς επαναφορά.
Η κατανομή γίνεται εύκολα κατανοητή με την περιγραφή ενός μοντέλου κάλπης: Θεωρούμε μια κάλπη με Ν μπάλες από τις οποίες οι m είναι λευκές (επιτυχίες) και Ν-m μαύρες (αποτυχίες). Από την κάλπη παίρνουμε χωρίς επαναφορά n μπάλες. Η υπεργεωμετρική κατανομή μας δίνει την πιθανότητα οι x από αυτές να είναι λευκές.
Συνάρτηση Πυκνότητας Πιθανότητας
⎛ m⎞ ⎛ N − m⎞ ⎟ ⎜ ⎟ *⎜ x − n x ⎠, f ( x) = ⎝ ⎠ ⎝ ⎛N⎞ ⎜ ⎟ ⎝n⎠
Συμβολισμός X ~ h(N,m,n)
Αθροιστική Συνάρτηση Πιθανότητας
⎛ m⎞ ⎛ N − m⎞ ⎜ ⎟*⎜ ⎟ x ⎝ i ⎠ ⎝ n−i ⎠ F ( x) = ∑ ⎛N⎞ i=0 ⎜ ⎟ ⎝n⎠
Μαθηματική Ελπίδα: E(X)= Διακύμανση V(X)=
n*m N
n * m * ( N − m) * ( N − n) N 2 * ( N − 1)
Όπου nÆ Μέγεθος δείγματος , mÆΑριθμός επιτυχιών πληθυσμού, NÆ Μέγεθος πληθυσμού, xÆ Αριθμός επιτυχιών δείγματος Ισχύουν επίσης ότι max(0, n+m-N)< x <min(n,m) , 0<n ≤ N , 0<m ≤ N
⎛a⎞
a!
Υπενθυμίζουμε επίσης ότι ⎜⎜ ⎟⎟ = ⎝ b ⎠ (a − b)!b!
Παρατήρηση. Αν η επιλογή γίνεται με επαναφορά τότε η μεταβλητή ακολουθεί την
Διωνυμικη Κατανομή (βλ. αντίστοιχη ενότητα). Επίσης για n=1 η υπεργεωμετρική κατανομή συμπίπτει με την Bernoulli. Για υψηλές τιμές των Ν, m οι οποίες είναι επίσης συγκριτικά υψηλές με το n και για πιθανότητα p η οποία δεν είναι κοντά στο 0 ή 1, τότε η υπεργεωμετρική κατανομή προσεγγίζει την κανονική.
Παράδειγμα 1) Υποθέτουμε ότι σε ένα δοχείο έχουμε 50 βόλους. Από αυτούς 5 είναι άσπροι ναι
45 μαύροι. Επιλεγούμε στην τύχη 10 βόλους χωρίς επαναφορά στο δοχείο. Ποια η πιθανότητα να έχουμε 4 άσπρους από τους 10 βόλους που επιλέξαμε; Από τα δεδομένα του προβλήματος έχουμε ότι Μέγεθος πληθυσμού Ν=50 Μέγεθος δείγματος n=10 Αριθμός επιτυχιών πληθυσμού m=5 (Υπάρχουν 5 άσπροι βόλοι) Αριθμός επιτυχιών δείγματος x=4 (Θέλουμε να επιλέξουμε 4 άσπρους βόλους)
⎛ 5 ⎞ ⎛ 50 − 5 ⎞ ⎟ ⎜ ⎟ *⎜ 4 ⎠ ⎝10 − 4 ⎠ ⎝ f (x) = = ⎛ 50 ⎞ ⎜ ⎟ ⎝ 10 ⎠
⎛ 5 ⎞ ⎛ 45 ⎞ ⎜ ⎟ *⎜ ⎟ ⎝ 4 ⎠ ⎝ 6 ⎠ =……=0.0039 ⎛ 50 ⎞ ⎜ ⎟ ⎝ 10 ⎠
Η πιθανότητα να έχουμε 4 άσπρους βόλους από τους 10 βόλους που επιλέξαμε είναι 0.0039
2) Διαθέτουμε μια τράπουλα 52 φύλλων. Επιλεγούμε 8 φύλλα χωρίς επαναφορά.
Ποια η πιθανότητα να έχουμε 2 Βαλέδες στα 8 φύλλα; (Η τράπουλα διαθέτει τους αριθμούς 1,2,3….,10 και τις 3 φιγούρες στα τέσσερα χρώματα: καρό, μπαστούνι, σπαθί και κούπα. Σύνολο 52 τραπουλόχαρτα) Από τα δεδομένα του προβλήματος έχουμε ότι Μέγεθος πληθυσμού Ν=52 Μέγεθος δείγματος n=8 Αριθμός επιτυχιών πληθυσμού m=4 (Μια τράπουλα έχει 4 Βαλέδες) Αριθμός επιτυχιών δείγματος x=2 (Θέλουμε να επιλέξουμε 2 Βαλέδες)
⎛ 4 ⎞ ⎛ 52 − 4 ⎞ ⎜ ⎟*⎜ ⎟ 2⎠ ⎝ 8 − 2 ⎠ ⎝ f (x) = = ⎛ 52 ⎞ ⎜ ⎟ ⎝8⎠
⎛ 4 ⎞ ⎛ 48 ⎞ ⎜ ⎟ *⎜ ⎟ ⎝ 2 ⎠ ⎝ 6 ⎠ =……=0.0978 ⎛ 52 ⎞ ⎜ ⎟ ⎝8⎠
Η πιθανότητα να έχουμε 2 Βαλέδες στα 8 επιλεγμένα φύλλα είναι p=0.0978
ΛΟΓΑΡΙΘΜΙΚΗ ΚΑΤΑΝΟΜΗ (LOGARITHMIC DISTRIBUTION)
Συνάρτηση Πυκνότητας Πιθανότητας
−θ x , f ( x) = x * ln(1 − θ )
Συμβολισμός Χ~log(θ)
Αθροιστική Συνάρτηση Πιθανότητας
x θι −1 F ( x) = * ∑ ln(1 − θ ) ι = 1 ι όπου παράμετρος 0<θ<1 και
Μαθηματική Ελπίδα: E(X)= Διακύμανση V(X)= − p *
1 ≤ x < +∞
−p ln(1 − p ) * (1 − p )
p + ln(1 − p ) (1 − p ) 2 * ln 2 (1 − p )
ΠΑΡΑΡΤΗΜΑ
Το excel διαθέτει τις εξης κατανομές, οι οποίες είναι αρκετά εύκολες στη χρήση τους. 1) Κατανομή Beta
Αθροιστική Συνάρτηση Πιθανότητας Æ BETADIST Αντίστροφο της Αθροιστική Συνάρτηση Πιθανότητας Æ BETAINV 2) Κατανομή Nomral
Αθροιστική Συνάρτηση Πιθανότητας Æ NORMDIST Αντίστροφο της Αθροιστική Συνάρτηση Πιθανότητας Æ NORMINV 3) Κατανομή X2
Αθροιστική Συνάρτηση Πιθανότητας Æ CHIDIST Αντίστροφο της Αθροιστική Συνάρτηση Πιθανότητας Æ CHIINV 4) Κατανομή F
Αθροιστική Συνάρτηση Πιθανότητας Æ FDIST Αντίστροφο της Αθροιστική Συνάρτηση Πιθανότητας Æ FINV 5) Κατανομή Gamma
Αθροιστική Συνάρτηση Πιθανότητας Æ GAMMADIST
Αντίστροφο της Αθροιστική Συνάρτηση Πιθανότητας Æ GAMMAINV 6) Κατανομή T-student (Παρομοια με την Κανονική. Χρησιμοποιείται όταν έχουμε
μικρό αριθμό παρατηρήσεων, λιγότερες από 50) Αθροιστική Συνάρτηση Πιθανότητας Æ ΤDIST Αντίστροφο της Αθροιστική Συνάρτηση Πιθανότητας Æ ΤINV 7) ΔιωνυμικηÆ BINOMDIST 8) ΥπεργεωμετρικηÆ HYPDEOMDIST 9) PoissonÆ POISSON
ΑΝΑΦΟΡΕΣ- ΒΙΒΛΙΟΓΡΑΦΙΑ
Πιθανότητες και στατιστική (J. Fourastie- F. Laslier) Στατιστικές Μέθοδοι ( Δονάτος Γ.- Χομπας Β.) Πιθανότητες και στατιστική (Δάρας Τ.) Θεωρία πιθανοτήτων και εφαρμογές (Χαραλαμπιδης Χ.) Θεωρία Πιθανοτήτων 1 - Λογισμός Πιθανοτήτων Τυχαίων Γεγονότων (Αθανασόπουλος Δ.) Wikipedia Manual Easy Fit 5.1 Manual Excel 2003