Stat2simiwseis

Page 1

Το πρόβλημα της ανάλυσης διακύμανσης αφορά στη σύγκριση των μέσων τιμών περισσότερων των δύο ομάδων. Στην πραγματικότητα υπάρχει μια συνεχής μεταβλητή (μέτρηση) και μας ενδιαφέρει να δούμε αν η μεταβλητή αυτή διαφέρει (ως προς τη μέση τιμή) μεταξύ τριών ή περισσοτέρων ομάδων, οι οποίες ορίζονται βάσει μιας διακριτής μεταβλητής. Παραδείγματος χάριν μας ενδιαφέρει αν οι μέσες αποδόσεις (συνεχής μεταβλητή) τριών αμοιβαίων κεφαλαίων (διακριτή μεταβλητή) διαφέρουν. Άλλος τρόπος διατύπωσης του ιδίου ερωτήματος είναι «αν υπάρχει σχέση μεταξύ των αμοιβαίων κεφαλαίων και της απόδοσής τους» ή, εναλλακτικά αν «η μεταβλητή αμοιβαίο κεφάλαιο επηρρεάζει την μεταβλητή απόδοση». Οι προϋποθέσεις εφαρμογής της μεθόδου είναι η κανονικότητα της κατανομής της συνεχούς μεταβλητής εντός των ομάδων που ορίζονται από τις τιμές της διακριτής μεταβλητής και το ότι η διακύμανση της συνεχούς μεταβλητής εντός κάθε ομάδος είναι η ίδια. Πιο αυστηρά διατυπωμένες, οι προϋποθέσεις έχουν τη μορφή: , όπου η τυχαία μεταβλητή εντός της ομάδας i. Η ιδιομορφία της μεθόδου συνίσταται στο ότι, ενώ συγκρίνουμε μέσες τιμές, ο έλεγχος χρησιμοποιεί στατιστικές συναρτήσεις των διακυμάνσεων. Αυτό συμβαίνει διότι, αν υπάρχει διαφορά στις μέσες τιμές (ενώ οι διακυμάνσεις παραμένουν οι ίδιες), τότε οι ομάδες τοποθετούνται διακριτά στο χώρο και η συνολική διακύμανση (και κατά συνέπειαν η διακύμανση μεταξύ των ομάδων) είναι αρκετά μεγαλύτερη από ότι η διακύμανση εντός κάθε ομάδος. Αντιθέτως, αν οι μέσες τιμές των ομάδων ταυτίζονται, τότε η διακύμανση μεταξύ των ομάδων είναι πολύ μικρή, ενώ η διακύμανση εντός των ομάδων και η συνολική διακύμανση σχεδόν ταυτίζονται. Αρκεί, άρα, να κατασκευάσουμε μια στατιστική ελέγχου, η οποία θα είναι ο λόγος της διακύμανσης μεταξύ των ομάδων προς την διακύμανση εντός των ομάδων. Ο λόγος αυτός θα ακολουθεί την κατανομή F, (ως λόγος διακυμάνσεων) και θα είναι πάντοτε μεγαλύτερος του 1. Θα απορρίπτει δε την υπόθεση της ισότητας των μέσων τιμών, όταν η τιμή του υπερβαίνει κάποια τιμή F0, που θα οριστεί παρακάτω. Έστω η τυχαία μεταβλητή Χ που λαμβάνει τιμές στο σύνολο των πραγματικών αριθμών με τις προϋποθέσεις κανονικότητας που αναφέρθηκαν πιο πάνω, και έστω ένα τυχαίο δείγμα τιμών της μεταβλητής αυτής που κατανέμονται ανά σε ομάδες. Θα τις συμβολίζουμε με , όπου αντιπροσωπεύει τις ομάδες και αντιπροσωπεύει τις τιμές εντός των ομάδων. Διατυπωνουμε τις υποθέσεις του ελέγχου:

: τουλάχιστον μία μέση τιμή διαφέρει από τις υπόλοιπες. Είναι σαφές, από τη διατύπωση των υποθέσεων, ότι η απόρριψη της μηδενικής υπόθεσης σημαίνει ότι τουλάχιστον μία μέση τιμή διαφέρει, ΑΛΛΑ ΔΕΝ ΑΠΟΣΑΦΗΝΙΖΕΤΑΙ ΠΟΙΑ ΤΙΜΗ ΕΙΝΑΙ ΑΥΤΗ ΠΟΥ ΔΙΑΦΕΡΕΙ. Αν θέλουμε απάντηση σε αυτό το ερώτημα πρέπει να διατυπώσουμε νέες υποθέσεις, συγκρίνοντας ανά δύο τις ομάδες. Ερχόμαστε τώρα στην «κατασκευή» της στατιστικής ελέγχου. Η συνολική δειγματική διακύμανση και των παρατηρήσεων είναι η: (1) όπου η συνολική μέση τιμή. Έστω και η μέση τιμή των παρατηρήσεων που ανήκουν στην ομάδα i. Ο αριθμητής της (1) μπορεί να αναπτυχθεί ως εξής:


(2) Όπου:

, και

. Ο λόγος

, διότι

ότι η διακύμανση είναι η ίδια για κάθε ομάδα, άρα και για τους μέσους

, αφού υποθέσαμε ισχύει:

όταν ισχύει η μηδενική υπόθεση της ισότητας των μέσων τιμών. Επίσης ο λόγος i,

διότι

,

, για κάθε

, αφού υποθέσαμε ότι η διακύμανση είναι η ίδια για κάθε ομάδα, όταν ισχύει η

μηδενική υπόθεση της ισότητας των μέσων τιμών. Το άθροισμά των k όρων (δεδομένου ότι είναι ανεξάρτητες), ακολουθεί και αυτό την , όταν ι ύει η ηδενική υπόθε η της ι ότητας των

έ ων τι ών. Αν λοιπόν θεωρήσουμε το λόγο:

, αυτός ακολουθεί την

κατανομή με και βαθμούς ελευθερίας. Το συνολικό άθροισμα τετραγώνων (δηλαδή ο αριθμητής της συνολικής διακύμανσης), έχει αναλυθεί σε δύο συνιστώσες: μια μεταξύ των ομάδων ( ), και μία εντός των ομάδων ( Αν η διακύμανση μεταξύ των ομάδων είναι (κατά πολύ) μεγαλύτερη από τη διακύμανση εντός των ομάδων, αυτό σημαίνει ότι οι παρατηρήσεις της κάθε ομάδας είναι συγκεντρωμένες περί τον μέσον, αλλά αποκλίνουν από ομάδα σε ομάδα, άρα και οι μέσοι τους διαφέρουν. Κατά συνέπεια, ο λόγος F ανωτέρω, μπορεί να χρησιμοποιηθεί για τον έλεγχο της ισότητας των μέσων τιμών. Τα παρακάτω γραφήματα «εξηγούν» το επιχείρημα:

ΔΙΑΦΟΡΑ

ΙΣΟΤΗΤΑ 2

12

10

8

6 0 1

4

2

0 1

-2

2

3

4

5

6

7

8

9

10

-2

2

3

4

5

6

7

8

9

10


Θα παρουσιάσουμε τώρα μια εναλλακτική μορφή γραφής των τύπων, η οποία διευκολύνει τους υπολογισμούς. Θεωρούμε ότι τα δεδομένα παρουσιάζονται υπό μορφήν πίνακα, ως εξής: Αθροίσματα σειρών

Ομάδα 1 2 3 4

Τετράγωνα των αθροισμάτων

Τότε

,

όπου

, το συνολικό άθροισμα των παρατηρήσεων.

Επίσης: , όπου

, το άθροισμα των παρατηρήσεων της ομάδας i.

Από τους ανωτέρω υπολογισμούς προκύπτουν οι εξής ορισμοί: ΜΟΔ = ΜΜΔ =

, οι συνολικές διαφορές , οι διαφορές μεταξύ των ομάδων, και

ΜΕΔ = ΜΟΔ – ΜΜΔ (=

, οι διαφορές εντός των ομάδων (προκύπτει από την εξίσωση (2) ανωτέρω).

Με βάση αυτούς τους συμβολισμούς και τις τυχαίες μεταβλητές με κατανομές τους, που υπολογίστηκαν ανωτέρω μπορούμε να κατασκευάσουμε τον ακόλουθο πίνακα ανάλυσης διακύμανσης (ANOVA).

Πηγή μεταβλητότητας Παράγοντας (μεταξύ) Σφάλματα (εντός) ΣΥΝΟΛΟ

Άθροισμα τετραγώνων

Βαθμοί ελευθερίας

ΜΜΔ

k-1

ΜΕΔ

N-k

ΜΟΔ

N-1

Μέσο άθροισμα τετραγώνων

Λόγος F

Όταν η τιμή της F είναι μεγαλύτερη από το άνω 5% εκατοστημόριο της κατανομής F με κ-1 και Ν-κ βαθμούς ελευθερίας, απορρίπτουμε την υπόθεση της ισότητας των μέσων τιμών και συμπεραίνουμε ότι οι μέσες τιμές διαφέρουν μεταξύ των ομάδων, ή – ισοδυνάμως – ότι ο παράγοντας επηρεάζει την υπο μελέτην μεταβλητή που εκφράζεται από τα .


ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ ΤΗ ΣΤΑΤΙΣΤΙΚΗ ΙΙ ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ, ΑΠΛΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

ΣΙΜΟΣ ΜΕΙΝΤΑΝΗΣ, Αναπληρωτής Καθηγητής Τμήμα Οικονομικών Επιστημών, ΕΚΠΑ

ΓΙΑΝΝΗΣ Κ. ΜΠΑΣΙΑΚΟΣ, Επίκουρος Καθηγητής Τμήμα Οικονομικών Επιστημών, ΕΚΠΑ

ΚΩΣΤΑΣ ΦΡΑΓΚΙΑΔΑΚΗΣ, Ειδικός Επιστήμονας ΠΔ407 Τμήμα Οικονομικών Επιστημών, ΕΚΠΑ

12 Ιανουαρίου 2010

Σ. Μεϊντάνης, Ι.Κ. Μπασιάκος, Κ. Φραγκιαδάκης: Σημειώσεις Στατιστικής ΙΙ

Page 1 of 27


ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ

1. ΕΙΣΑΓΩΓΗ Η Στατιστική ως επιστήμη αποτελεί εργαλείο υποστήριξης πολλών άλλων επιστημών, από τις ανθρωπιστικές επιστήμες και τα Οικονομικά έως την Φυσική. Το πλαίσιο λειτουργίας της Στατιστικής είναι το ακόλουθο: Μας ενδιαφέρει να μετρήσουμε – μέσω κάποιας μεταβλητής (παραμέτρου) – ένα χαρακτηριστικό ενός «πληθυσμού». Παραδείγματος χάριν την διαφορά αποτελεσματικότητας δύο θεραπειών (χαρακτηριστικό), όπως αυτή μετράται από την μείωση του επιπέδου κάποιου αιματολογικού παράγοντα (μεταβλητή). Δεν είναι όμως δυνατόν να υπολογίσουμε τη διαφορά στο σύνολο του πληθυσμού. Στην προκείμενη περίπτωση απλά διότι το σύνολο του πληθυσμού αλλάζει μέσα στο χρόνο, αλλά γενικά διότι το σύνολο του πληθυσμού είναι συνήθως πολύ μεγάλο. Άρα αντί του πληθυσμού επιλέγουμε ένα απλό τυχαίο δείγμα (δηλαδή ένα δείγμα όπου όλες οι τιμές του πληθυσμού έχουν την ίδια πιθανότητα να συμπεριληφθούν σε αυτό), και υπολογίζουμε την τιμή της παραμέτρου στο δείγμα, μέσω μιας εκτιμήτριας (συνάρτησης). Η τιμή αυτή λέγεται εκτίμηση. Κατόπιν γενικεύουμε και ισχυριζόμαστε ότι η υπολογισθείσα τιμή αποτελεί μια καλή προσέγγιση της πραγματικής τιμής της παραμέτρου του πληθυσμού. Για να ευσταθεί ο ισχυρισμός μας πρέπει να ισχύουν μια σειρά από προϋποθέσεις. Ο έλεγχος των προϋποθέσεων, η επιλογή του δείγματος και η διαδικασία υπολογισμού αποτελεί το αντικείμενο της Στατιστικής. Στα επόμενα κεφάλαια θα παρουσιάσουμε μια σειρά από έννοιες και μεθόδους για την ορθή εξαγωγή στατιστικών συμπερασμάτων.

2. ΕΚΤΙΜΗΤΙΚΗ ΚΑΙ ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ Αντικείμενο της Εκτιμητικής είναι ο υπολογισμός εκτιμητριών, δηλαδή συναρτήσεων των δεδομένων, οι οποίες προσεγγίζουν («εκτιμούν») τις πραγματικές τιμές των παραμέτρων των πληθυσμών. Οι εκτιμήτριες εμπίπτουν σε δύο γενικές (αλλά συνδεδεμένες μεταξύ τους) κατηγορίες: (α) σημειακές εκτιμήτριες, δηλαδή εκτιμήτριες που λαμβάνουν μια συγκεκριμένη τιμή, και (β) εκτιμήτριες διαστημάτων, δηλαδή διαστήματα τιμών (υποσύνολα του συνόλου των Page 2 of 27

Σ. Μεϊντάνης, Ι.Κ. Μπασιάκος, Κ. Φραγκιαδάκης: Σημειώσεις Στατιστικής ΙΙ


πραγματικών αριθμών) που καλούνται διαστήματα εμπιστοσύνης, εντός των οποίων περιλαμβάνεται η παράμετρος του πληθυσμού με προκαθορισμένη πιθανότητα. Στο πλαίσιο του παρόντος μαθήματος θα χρησιμοποιήσουμε τρεις εκτιμήτριες: τον μέσο, τη διακύμανση και τα ποσοστά. Στόχος της Στατιστικής Συμπερασματολογίας, είναι ό έλεγχος υποθέσεων σχετικών με τις παραμέτρους του πληθυσμού. Για παράδειγμα, αν η διαφορά ταχύτητας δύο μεθόδων παραγωγής είναι μηδενική.

2.1. ΓΕΝΙΚΗ ΔΟΜΗ ΕΛΕΓΧΩΝ ΥΠΟΘΕΣΕΩΝ Ένας τυπικός έλεγχος υπόθεσης, που αφορά κάποια παράμετρο θ του πληθυσμού, αποτελείται από την μηδενική υπόθεση Η0, την εναλλακτική υπόθεση Η1, μια στατιστική (συνάρτηση) ελέγχου και έναν κανόνα απόρριψης της Η0 (ή τον ορισμό μιας περιοχής απόρριψης της Η0). Ο ορισμός του κανόνα απόρριψης στηρίζεται στην εξίσωση Ρ(απορρίπτουμε την Η0 / η Η0 ισχύει)=α όπου α προκαθορισμένη πιθανότητα (συνήθως λαμβάνουσα τις τιμές 0,01, 0,05 ή 0,1). Δεδομένου ότι ο κανόνας απόρριψης στηρίζεται στην στατιστική ελέγχου Τ, και η Τ είναι συνάρτηση κατάλληλης εκτιμήτριας της θ, την οποία ας συμβολίσουμε Jˆ , η εξίσωση παίρνει τη μορφή Ρ[Τ( Jˆ ) Î (περιοχή απόρριψης) / η Η0 ισχύει] = α. Γενικά, επειδή οι υπό έλεγχον παράμετροι είναι πραγματικοί αριθμοί, η μηδενική και η εναλλακτική υπόθεση έχουν μορφή ισότητας ή ανισότητας. Μπορεί, για παράδειγμα, η μηδενική υπόθεση να έχει τη μορφή Η0: θ≤θ0, έναντι της εναλλακτικής υπόθεσης Η1: θ>θ0. Σημειωτέον ότι δεν είναι ανάγκη οι δυο υποθέσεις να καλύπτουν το σύνολο των πραγματικών αριθμών, αλλά συνήθως διατυπώνονται με αυτόν τον τρόπο. Επίσης, η στατιστική ελέγχου είναι πραγματικός αριθμός και συνεπώς ο κανόνας απόρριψης παίρνει και αυτός μορφή ανισότητας. Είναι προφανές ότι δυο ειδών σφάλματα μπορεί να γίνουν κατά τον έλεγχο μιας υπόθεσης. Είτε να απορριφθεί η μηδενική υπόθεση ενώ ισχύει (σφάλμα τύπου Ι, με πιθανότητα α), είτε να μην απορριφθεί ενώ δεν ισχύει (σφάλμα τύπου ΙΙ, με πιθανότητα β). Επειδή τα δυο αυτά σφάλματα είναι ανταγωνιστικά, δηλαδή όσο μικρότερο είναι το α, τόσο μεγαλύτερο γίνεται το β, ο κανόνας απόρριψης υπολογίζεται με σταθερό α (συνήθως 0.05 ή 0.01), ενώ το β ελαχιστοποιείται (δεδομένου του α) μεγιστοποιώντας το μέγεθος του δείγματος. Ο κανόνας απόρριψης υπολογίζεται μέσω της εξίσωσης Ρ(απορρίπτουμε την Η0 / Η0 ισχύει)= α. Οι πιθανότητες Ρ(απορρίπτουμε την Η0 / Η1 ισχύει) = π και Ρ(αποδεχόμαστε την Η0 / Η1 ισχύει) = β είναι η ισχύς και η πιθανότητα σφάλματος τύπου ΙΙ, αντίστοιχα.

Σ. Μεϊντάνης, Ι.Κ. Μπασιάκος, Κ. Φραγκιαδάκης: Σημειώσεις Στατιστικής ΙΙ

Page 3 of 27


Παράδειγμα: έστω ότι επιλέγουμε τυχαία μια παρατήρηση x από μια κατανομή. Θέλουμε να ελέγξουμε αν η κατανομή αυτή είναι η Ομοιόμορφη επί του [3,5], (U[3,5]), ή η Κανονική με μέση τιμή μ=5.9 και διακύμανση σ2=1, (N(5.9,1)). Εδώ το ρόλο της στατιστικής ελέγχου παίζει η παρατήρηση x (αν είχαμε επιλέξει περισσότερες παρατηρήσεις η στατιστική ελέγχου θα ήταν η μέγιστη παρατήρηση. Τότε όμως η κατανομή της θα ήταν πιο περίπλοκη). Η μηδενική και η εναλλακτική υπόθεση είναι: Η0: η x προέρχεται από την U[3,5] Η1: η x προέρχεται από την N(5.9,1) Αφού η N(5.9,1) βρίσκεται προς τα δεξιά της U[3,5], ένας λογικός κανόνας απόρριψης είναι «απορρίπτουμε την Η0, όταν x ≥ x0 ή x < 3». Ο καθορισμός της μορφής του κανόνα απόρριψης στηρίζεται στο κριτήριο του λόγου πιθανοφάνειας και υπερβαίνει τους στόχους των σημειώσεων. Η μορφή θα θεωρείται δεδομένη για κάθε πρόβλημα. Αυτό που μπορεί να υπολογιστεί είναι το όριο της ανισότητας, στην παρούσα περίπτωση το x0. Όπως είπαμε, η προς επίλυση εξίσωση είναι η Ρ(απορρίπτουμε την Η0 / η Η0 ισχύει) = α. Η δέσμευση «η Η0 ισχύει» μεταφράζεται στο «η κατανομή της στατιστικής ελέγχου είναι αυτή που καθορίζεται από την Η0». Με τα δεδομένα του προβλήματος, και με α=0.05, η εξίσωση παίρνει τη μορφή Ρ(x ≥ x0 ή x < 3/ x˜U[3,5]) = 0.05 ⇔Ρ(x ≥ x0 / x˜U[3,5]) + Ρ(x < 3/ x˜U[3,5]) = 0.05. Λύνοντας την εξίσωση

5

1 5- x æ xù òx0 5 - 3dx = 0.05 Û çè 2 úû x = 0.05 Û 2 0 = 0.05 Û 5 - x0 = 0.1 Û x0 = 4.9 (αφού 0 5

Ρ(x < 3/ x˜U[3,5]) = 0), έχουμε την τελική μορφή του κανόνα απόρριψης, δηλαδή «απορρίπτουμε την Η0, όταν το x ≥ 4.9». Με τα δεδομένα αυτά μπορούμε να υπολογίσουμε και την ισχύ του ελέγχου, δηλαδή την πιθανότητα να απορρίψουμε την Η0, όταν ισχύει η Η1. Η εξίσωση που πρέπει να λύσουμε είναι η Ρ(x ≥ 4.9 ή x < 3/ x ˜ N(5.9,1)) = π ⇔Ρ(x ≥ 4.9/ x ˜ N(5.9,1)) + Ρ(x < 3/ x ˜ N(5.9,1)) = π 4.9 - 5.9 ö 3 - 5.9 ö æ æ Û Pç z ³ ÷ + Pç z < ÷ = p Û P( z ³ -1) + P( z £ -2.9) = p Û 1 - P( z £ -1) + P( z £ -2.9) = p 1 1 ø è ø è Û 1 - 0.1587 + 0.0021 = p Û p = 0.8434.

Στις περισσότερες περιπτώσεις (για υποθέσεις της μορφής Η0: θ = θ0), η στατιστική ελέγχου Τ θα έχει τη μορφή T =

qˆ - q 0 , και η κατανομή της θα είναι ή η τυπική τupikήapόklish thV qˆ

κανονική κατανομή, ή η κατανομή του Student. Ένα ακόμη παράδειγμα θα αποσαφηνίσει το παραπάνω σχόλιο. Έστω ότι μας ενδιαφέρει να ελέγξουμε αν το ποσοστό ελαττωματικών Page 4 of 27

Σ. Μεϊντάνης, Ι.Κ. Μπασιάκος, Κ. Φραγκιαδάκης: Σημειώσεις Στατιστικής ΙΙ


προϊόντων μιας γραμμής παραγωγής p είναι μικρότερο όταν χρησιμοποιείται μια νέα μέθοδος παραγωγής σε σχέση με την παραδοσιακή μέθοδο. Ουσιαστικά, αυτό που ενδιαφέρει (η νέα μέθοδος να είναι βελτίωση σε σχέση με το παρελθόν), διατυπώνεται στην εναλλακτική και όχι στη μηδενική υπόθεση. Γενικά οι έλεγχοι υποθέσεων «αποδεικνύουν» την εναλλακτική υπόθεση και όχι τη μηδενική! Οι υποθέσεις (μηδενική και εναλλακτική) παίρνουν τη μορφή: Η0: p ≥ p0 Η1: p < p0 όπου p0 είναι το ποσοστό ελαττωματικών της παραδοσιακής μεθόδου. Η στατιστική ελέγχου βασίζεται στην pˆ = x / n , εκτιμήτρια του p, και πιο συγκεκριμένα είναι η T =

pˆ - p0 p0 (1 - p0 ) n

Με δεδομένη την Η0, η κατανομή της Τ είναι η τυπική κανονική κατανομή, αφού η κατανομή της pˆ είναι κανονική με μέση τιμή μ = p0 και διακύμανση σ2 = p0(1–p0)/n. Ο κανόνας απόρριψης είναι «απορρίπτουμε την Η0 όταν Τ< –z0.05», που ισοδυναμεί με τον κανόνα «απορρίπτουμε την Η0 όταν το x / n είναι αρκετά μικρότερο από το p0», και όπου z0.05 θα αναλυθεί κατωτέρω (εδάφιο 2.2.1). Στις περιπτώσεις ελέγχων που αφορούν μέσες τιμές και ποσοστά υποθέτουμε ότι οι στατιστικές ελέγχου ακολουθούν την κανονική κατανομή, η οποία έχει σχήμα κωδωνοειδές, και οι πιθανότητες της είναι πλήρως πινακοποιημένες, στην ειδική περίπτωση της τυπικής κανονικής κατανομής, δηλαδή μιας κανονικής κατανομής με μέση τιμή 0 και διακύμανση 1, (ή την συγγενική με αυτήν κατανομή του Student, επίσης πλήρως πινακοποιημένη). Το βασικό προτέρημα της κανονικής κατανομής είναι το ότι αποτελεί το όριο της κατανομής των μέσων τιμών, το γνωστό στη στατιστική θεωρία «Κεντρικό Οριακό Θεώρημα». Επίσης έχει την χρήσιμη ιδιότητα ότι αν μια τυχαία μεταβλητή Χ ακολουθεί την κανονική κατανομή, με μέση τιμή μ και διακύμανση σ2 τότε η κανονική κατανομή. Επίσης ισχύει ότι η

X -m ακολουθεί την τυπική s

X -m ακολουθεί την τυπική κανονική κατανομή, s n

όπου X ο μέσος όρος n παρατηρήσεων. Στην περίπτωση ελέγχων που αφορούν διακυμάνσεις, οι στατιστικές ελέγχου ακολουθούν τις κατανομές χ2 ή F, οι οποίες σχετίζονται με την κανονική κατανομή και είναι ομοίως πλήρως πινακοποιημένες. Στις επόμενες παραγράφους θα παρουσιάσουμε τις πιο συνηθισμένες περιπτώσεις ελέγχων.

Σ. Μεϊντάνης, Ι.Κ. Μπασιάκος, Κ. Φραγκιαδάκης: Σημειώσεις Στατιστικής ΙΙ

Page 5 of 27


2.2. ΕΛΕΓΧΟΙ ΓΙΑ ΤΗΝ ΜΕΣΗ ΤΙΜΗ. Το πρόβλημα αναφέρεται στην περίπτωση όπου ενδιαφέρει η ισότητα της μέσης τιμής μιας μεταβλητής με μια προκαθορισμένη τιμή. Παραδείγματος χάριν ο μέσος χρόνος εξυπηρέτησης ενός πελάτη στο γκισέ μιας τράπεζας να ισούται με κάποια τιμή μ0. Η κανονική κατανομή των παρατηρήσεων του δείγματος αποτελεί βασική προϋπόθεση για την εφαρμογή των τύπων που ακολουθούν. Είναι γεγονός ότι η εκτιμήτρια της μέσης τιμής X τείνει να ακολουθεί την κανονική κατανομή όταν το μέγεθος του δείγματος είναι μεγάλο. Όταν όμως αυτό δεν συμβαίνει, τότε τα αποτελέσματα των ελέγχων δεν είναι έγκυρα. Σε αυτές τις περιπτώσεις πιο κατάλληλοι είναι οι λεγόμενοι απαραμετρικοί έλεγχοι. Είναι εκτός των στόχων της παρούσης να αναλυθούν και οι απαραμετρικοί έλεγχοι.

2.2.1. Περίπτωση Α. 2

Στην περίπτωση αυτή η διακύμανση σ είναι γνωστή. Υπό αυτές τις συνθήκες η κατανομή της στατιστικής ελέγχου είναι η τυπική κανονική κατανομή. Το zα είναι το (1–α) εκατοστημόριο της τυπικής κανονικής κατανομής, δηλαδή Ρ(Χ> zα) = α. Σημειώστε ότι η φορά της ανισότητας του κανόνα απόρριψης ακολουθεί τη φορά της ανισότητας της εναλλακτικής υπόθεσης, όταν ο έλεγχος είναι μονόπλευρος. Στους αμφίπλευρους ελέγχους είναι πάντοτε «>» και αναφέρεται στην απόλυτη τιμή της στατιστικής ελέγχου. Η παρατήρηση αυτή ισχύει σε όλες τις περιπτώσεις που ακολουθούν. Υποθέσεις

Η0: μ = μ0 Η1: μ > μ0 Η0: μ = μ0 Η1: μ < μ0 Η0: μ = μ0 Η1: μ ¹ μ0

Στατιστική ελέγχου

Κανόνας απόρριψης

Τ > zα T=

X - m0

s

n

Τ < –zα |Τ | > zα/2

2.2.2. Περίπτωση Β. 2

Στην περίπτωση αυτή η διακύμανση σ είναι άγνωστη. Υπό αυτές τις συνθήκες η κατανομή της στατιστικής ελέγχου είναι η κατανομή του Student με n-1 βαθμούς ελευθερίας. Το tn-1,α είναι το (1-α) εκατοστημόριο της κατανομής του Student με n-1

Page 6 of 27

Σ. Μεϊντάνης, Ι.Κ. Μπασιάκος, Κ. Φραγκιαδάκης: Σημειώσεις Στατιστικής ΙΙ


n

2 å(Xi - X )

βαθμούς ελευθερίας, δηλαδή Ρ(Χ>t n–1,α,) = α. Το S =

i =1

n -1

, είναι η δειγματική

τυπική απόκλιση. Όταν το μέγεθος του δείγματος είναι μεγαλύτερο του ή ίσο με 30 είναι δυνατόν να χρησιμοποιηθούν τα εκατοστημόρια της τυπικής κανονικής κατανομής στη θέση των αντιστοίχων της κατανομής του Student. Υποθέσεις

Η0: μ = μ0 Η1: μ > μ0 Η0: μ = μ0 Η1: μ < μ0 Η0: μ = μ0 Η1: μ ¹ μ0 2.2.2.1.

Στατιστική ελέγχου

Κανόνας απόρριψης

Τ > t n-1,α T=

X - m0 S

Τ < – t n-1,α

n

|Τ | > tn-1,α/2

Παράδειγμα: Έστω δέκα παρατηρήσεις που παριστάνουν

χρόνους ολοκλήρωσης μιας διαδικασίας ελέγχου (σε λεπτά): 120, 135, 110, 80, 140, 120, 110, 145, 100, 80. Μας ενδιαφέρει να ελέγξουμε αν (κατά μέσο όρο) η διαδικασία δεν υπερβαίνει τα 140 λεπτά. Διατυπώνουμε την υπόθεση Η0: μ ≥ 140 με εναλλακτική την Η1: μ < 140. Αφού το n είναι μικρότερο από 30 και η διακύμανση είναι άγνωστη η στατιστική ελέγχου

T=

X -140 S

, ακολουθεί την κατανομή του

n

Student με 10–1=9 βαθμούς ελευθερίας και ο κανόνας απόρριψης (μονόπλευρος έλεγχος) είναι: «απορρίπτουμε την Η0 όταν Τ < – tn-1,α.». Υπολογίζουμε

X = 114, S = 22 ,8. Οπότε (μετά από τις κατάλληλες πράξεις), Τ = – 3.6 < – 1,833 = – tn-1,α.. Άρα απορρίπτουμε την Η0 και καταλήγουμε ότι όντως ο μέσος χρόνος ελέγχου είναι μικρότερος από 140 λεπτά.

2.3. ΕΛΕΓΧΟΙ ΓΙΑ ΤΗΝ ΙΣΟΤΗΤΑ ΜΕΣΩΝ ΤΙΜΩΝ. Το πρόβλημα αναφέρεται στην περίπτωση όπου ενδιαφέρει η ισότητα των μέσων τιμών μιας μεταβλητής σε δύο διαφορετικούς πληθυσμούς. Στην πράξη μπορεί να αναφέρεται, παραδείγματος χάριν, στην περίπτωση που μας ενδιαφέρει η διαφορά (βελτίωση) των τιμών της μεταβλητής με τη εφαρμογή μιας νέας μεθόδου παραγωγής. Η κανονική κατανομή των παρατηρήσεων των δύο δειγμάτων αποτελεί και πάλι βασική προϋπόθεση για την εφαρμογή Σ. Μεϊντάνης, Ι.Κ. Μπασιάκος, Κ. Φραγκιαδάκης: Σημειώσεις Στατιστικής ΙΙ

Page 7 of 27


των τύπων που ακολουθούν. Γενικά και εδώ ισχύουν ως προϋποθέσεις, όσα αναφέρονται της παράγραφο 2.2.

2.3.1.Περίπτωση Α. 2

2

Στην περίπτωση αυτή οι διακυμάνσεις των δύο δειγμάτων σ1 , σ2 είναι γνωστές και ίσες 2

2

2

(σ1 = σ2 = σ ). Υποθέσεις

Στατιστική ελέγχου

Η0: μ1 – μ2 = 0 Η1: μ1 – μ2 > 0 Η0: μ1 – μ2 = 0 Η1: μ1 – μ2 < 0 Η0: μ1 – μ2 = 0 Η0: μ1 – μ2 ¹ 0 2.3.2.

X1 - X 2 T = 1 1 + s × n1 n2

Κανόνας απόρριψης

Τ > zα Τ < –zα |Τ | > zα/2

Περίπτωση Β.

Στην περίπτωση αυτή οι διακυμάνσεις των δύο δειγμάτων είναι άγνωστες, αλλά ίσες. Τότε (n1 - 1) S12 + (n2 - 1)S 22 με S = και tn1+n2-2,a το (1-α)100% εκατοστημόριο της κατανομής n1 + n2 - 2 2 p

του Student με (n1 + n2 – 1) βαθμούς ελευθερίας, δηλαδή Ρ(Χ> tn1+n2-2,a ) = α, έχουμε: Υποθέσεις

Η0: μ1 – μ2 = 0 Η1: μ1 – μ2 > 0 Η0: μ1 – μ2 = 0 Η1: μ1 – μ2 < 0 Η0: μ1 – μ2 = 0 Η0: μ1 – μ2 ¹ 0

Στατιστική ελέγχου

Κανόνας απόρριψης

Τ> T =

X1 - X 2 1 1 + Sp × n1 n2

tn1+n2-2,a

Τ < – tn1+n2-2,a |Τ | >

tn1+n2-2,a 2

2.3.2.1. Παράδειγμα: Έστω είκοσι παρατηρήσεις (σε δύο ομάδες των δέκα) που παριστάνουν χρόνους ολοκλήρωσης μιας διαδικασίας σε δυο διαφορετικά υποκαταστήματα μιας τράπεζας (σε λεπτά): Υποκατάστημα Α: 120, 135, 110, 80, 140, 120, 110, 145, 100, 80. Υποκατάστημα Β: 110, 125, 120, 90, 130, 110, 100, 125, 110, 100. Μας ενδιαφέρει να ελέγξουμε αν (κατά μέσο όρο) το Υποκατάστημα Β έχει μικρότερους χρόνους ολοκλήρωσης από το Α. Διατυπώνουμε την υπόθεση Η0: μΑ–μΒ ≤ 0 με εναλλακτική την Η1: μΑ–μΒ > 0 (αν το Β έχει μικρότερο χρόνο ολοκλήρωσης η διαφορά μΑ–μΒ θα είναι θετική). Αφού το n είναι μικρότερο από 30 Page 8 of 27

Σ. Μεϊντάνης, Ι.Κ. Μπασιάκος, Κ. Φραγκιαδάκης: Σημειώσεις Στατιστικής ΙΙ


και οι διακυμάνσεις είναι άγνωστες, αλλά ίσες, η στατιστική ελέγχου T =

X

1

S ×

- X 2 1 1 + n1 n2

(n1 - 1) S12 + (n 2 - 1) S 22 S = n1 + n 2 - 2 2

, με

, ακολουθεί την κατανομή

του Student με 10+10–2=18 βαθμούς ελευθερίας και ο κανόνας απόρριψης είναι: «απορρίπτουμε την Η0 όταν Τ >

t0,05,18 ».

Υπολογίζουμε X

A

= 114, X

B

S = 18,6. Οπότε (μετά από τις κατάλληλες πράξεις), Τ = 0,241 < 1,734 =

= 112,

t18, 0,05

Άρα δεν μπορούμε να απορρίψουμε την Η0 και καταλήγουμε ότι ο μέσος χρόνος ολοκλήρωσης της διαδικασίας στο υποκατάστημα Β δεν είναι μικρότερος του αντίστοιχου χρόνου στο Α.

2.3.3.Περίπτωση Γ (Πρόβλημα Behrens-Fisher). Στην περίπτωση αυτή οι διακυμάνσεις των δύο δειγμάτων είναι άγνωστες, αλλά άνισες. -1

Τότε

με

é c2 (1 - c ) 2 ù + n= ê ú όπου ë n1 - 1 n2 - 1 û

c=

s12 n1 s12 n1 + s 22 n 2

και tn,a

το

(1-α)100%

εκατοστημόριο της κατανομής του Student με ν βαθμούς ελευθερίας, δηλαδή Ρ(Χ> tn,a ) = α, έχουμε: Υποθέσεις Στατιστική ελέγχου Κανόνας απόρριψης

Η0: μ1 – μ2 = 0 Η1: μ1 – μ2 > 0 Η0: μ1 – μ2 = 0 Η1: μ1 – μ2 < 0 Η0: μ1 – μ2 = 0 Η0: μ1 – μ2 ¹ 0

T =

X1 - X 2 1

T>tn,a 2

s s 22 + n1 n2

T <-tn,a

T >tn,a/2

Επειδή οι βαθμοί ελευθερίας είναι κλασματικοί, η λύση αυτού του προβλήματος μπορεί να γίνει μόνον μέσω στατιστικών προγραμμάτων σε Η/Υ. Όταν n1+n2–2 > 30,τότε στους ανωτέρω τύπους τα εκατοστημόρια της κατανομής του Student μπορούν να αντικατασταθούν με τα αντίστοιχα της τυπικής κανονικής κατανομής και το πρόβλημα επιλύεται χωρίς την ανάγκη Η/Υ.

2.4. ΕΛΕΓΧΟΣ ΓΙΑ ΠΟΣΟΣΤΑ. Το πρόβλημα αναφέρεται στην περίπτωση όπου ενδιαφέρει η ισότητα της τιμής του ποσοστού εμφάνισης ενός χαρακτηριστικού με μια προκαθορισμένη τιμή. Παραδείγματος χάριν το ποσοστό δυσαρεστημένων πελατών μιας επιχείρησης, να είναι μικρότερο από Σ. Μεϊντάνης, Ι.Κ. Μπασιάκος, Κ. Φραγκιαδάκης: Σημειώσεις Στατιστικής ΙΙ

Page 9 of 27


κάποια τιμή p0. Όταν το μέγεθος του δείγματος είναι μεγάλο (>50), τότε είναι δυνατόν ο έλεγχος να πραγματοποιηθεί με τη βοήθεια της τυπικής κανονικής κατανομής. Υποθέσεις

Στατιστική ελέγχου

Η0: p = p0 Η1: p > p0 Η0: p = p0

T=

Η1: p < p0 Η0: p = p0

x - p0 n p0 (1 - p0 ) n

Η1: p ¹ p0

Κανόνας απόρριψης

Τ > zα Τ < –zα |Τ | > zα/2

2.5. ΕΛΕΓΧΟΙ ΓΙΑ ΤΗΝ ΙΣΟΤΗΤΑ ΠΟΣΟΣΤΩΝ. Το πρόβλημα αναφέρεται στην περίπτωση όπου ενδιαφέρει η διαφορά της τιμής των ποσοστών εμφάνισης ενός χαρακτηριστικού μεταξύ δυο πληθυσμών. Παραδείγματος χάριν το ποσοστό δυσαρεστημένων πελατών μιας επιχείρησης Α, να είναι μικρότερο από το ποσοστό δυσαρεστημένων πελατών μιας άλλης επιχείρησης Β. Όταν το μέγεθος των δειγμάτων είναι μεγάλο (>50), τότε είναι δυνατόν ο έλεγχος να πραγματοποιηθεί με τη βοήθεια της τυπικής κανονικής κατανομής. Με pˆ =

x1 + x 2 , όπου x1, x2 οι παρατηρήσεις n1 + n2

που εκφράζουν το χαρακτηριστικό στο δείγμα 1 και 2 αντίστοιχα, και n1, n2 τα μεγέθη των δειγμάτων από καθέναν από τους δυο πληθυσμούς, έχουμε: Υποθέσεις

Η0: p1– p2 = 0 Η1: p1– p2 > 0 Η0: p1– p2 = 0 Η1: p1– p2 < 0 Η0: p1– p2 = 0 Η1: p1– p2 ¹ 0

Στατιστική ελέγχου

T=

x1 x 2 n1 n 2 æ1 1 ö pˆ (1 - pˆ )çç + ÷÷ è n1 n 2 ø

Κανόνας απόρριψης

Τ > zα Τ < –zα |Τ | > zα/2

2.6. ΕΛΕΓΧΟΣ ΓΙΑ ΤΗ ΔΙΑΚΥΜΑΝΣΗ. Το πρόβλημα αναφέρεται στην περίπτωση όπου ενδιαφέρει η ισότητα της τιμής της διακύμανσης με μια προκαθορισμένη τιμή. Παραδείγματος χάριν η διακύμανση των τιμών κάποιας μεταβλητής, να είναι μικρότερη από κάποια τιμή σ0. Ο έλεγχος πραγματοποιείται με τη βοήθεια της κατανομής χ2. Page 10 of 27

Σ. Μεϊντάνης, Ι.Κ. Μπασιάκος, Κ. Φραγκιαδάκης: Σημειώσεις Στατιστικής ΙΙ


Υποθέσεις

Στατιστική ελέγχου

Κανόνας απόρριψης

Η0: σ2 = σ20 Τ>

Η1: σ2 > σ20 Η0: σ2 = σ20 2

Η1: σ <

σ20

c n2-1, a

( n - 1) S 2 T= s 02

Τ<

Η0: σ2 = σ20 Τ>

Η1: σ2 ¹ σ20

c n2-1, 1-a

c n2-1, a 2

ήΤ<

c n2-1, 1-a 2

2.7. ΕΛΕΓΧΟΣ ΓΙΑ ΤΗΝ ΙΣΟΤΗΤΑ ΔΙΑΚΥΜΑΝΣΕΩΝ. Το πρόβλημα αναφέρεται στην περίπτωση όπου ενδιαφέρει η ισότητα ή μη, των διακυμάνσεων μεταξύ δυο πληθυσμών. Βασική χρήση του ελέγχου είναι όταν ενδιαφέρει η ισότητα μέσων τιμών και πρέπει να εκτιμηθεί αν η κατανομή της διαφοράς είναι κανονική (ίσες διακυμάνσεις) ή Student’s t άνισες διακυμάνσεις). Ο έλεγχος πραγματοποιείται με τη βοήθεια της κατανομής F. Υποθέσεις

Στατιστική ελέγχου

Η0: σ12 ≤ σ22 Η1: σ12 > σ22 Η0: σ12 ≥σ22 Η1: σ12 < σ22 Η0: σ12 Η1: σ12

= ¹

Κανόνας απόρριψης

F > f nU1 -1,n2 -1,a

F=

2 1 2 2

S S

σ22 σ22

Σ. Μεϊντάνης, Ι.Κ. Μπασιάκος, Κ. Φραγκιαδάκης: Σημειώσεις Στατιστικής ΙΙ

F < f nL1 -1,n2 -1,a =

1 f nU2 -1,n1 -1,a

F < f nL1 -1,n2 -1,a 2 ή F > f nU1 -1,n2 -1,a 2

Page 11 of 27


3. ΛΥΜΕΝΕΣ ΕΠΑΝΑΛΗΠΤΙΚΕΣ ΑΣΚΗΣΕΙΣ ΣΤΗΝ ΚΑΝΟΝΙΚΗ

ΚΑΤΑΝΟΜΗ 3.1. Η δομή της οδοντοστοιχίας προσφέρει αποτελεσματικό κριτήριο για την ταξινόμηση απολιθωμάτων. Προ καιρού, ανακαλύφθηκε το κρανίο ενός μπαμπουΐνου άγνωστης προέλευσης, σε ένα σπήλαιο στην Αγκόλα. Το μήκος του τρίτου τραπεζίτη ήταν 9 mm. Υπήρξαν θεωρίες ότι ο συγκεκριμένος μπαμπουΐνος ήταν ο «χαμένος κρίκος» και ανήκε στο γένος Papio. Μέλη του γένους αυτού έχουν τρίτους τραπεζίτες μήκους, κατά μέσον όρο 8.18 mm με τυπική απόκλιση 0.47 mm. Σχολιάστε την σημαντικότητα του τραπεζίτη με μήκος 9 mm. Τι μπορείτε να σχολιάσετε για την καταγωγή του μπαμπουΐνου; Λύση: Έστω Χ το μήκος του τραπεζίτη. Θεωρούμε ότι η Χ είναι μια τυχαία μεταβλητή που ακολουθεί την κανονική κατανομή. Τότε: P ( X ³ 9) = P ( Z ³

9 - 8.18 ) = P ( Z ³ 1.745) = 1 - G (1.745) = 1 - 0.9675 = 0.0325 0.47

Η εν λόγω πιθανότητα είναι πολύ μικρή και συνεπώς τίθεται εν αμφιβόλω η θεωρία περί «χαμένου κρίκου». Άρα ο μπαμπουΐνος δεν φαίνεται να ανήκει στο γένος Papio. 3.2. Ένας καθηγητής Χημείας διδάσκει μεγάλη τάξη πρωτοετών. Για τη βαθμολογία των διαγωνισμάτων χρησιμοποιεί τυποποιημένη βαθμολογία – που από πείρα γνωρίζει ότι ακολουθεί κανονική κατανομή με μέση τιμή m = 70 και τυπική απόκλιση s = 12 . Στόχος του είναι να τυποποιήσει τους βαθμούς κατά τέτοιον τρόπο ώστε η κατανομή της βαθμολογίας να έχει τα ακόλουθα ποσοστά: 14% Α, 20% Β, 32% C, 20% D και 14% F. Πιο πρέπει να είναι το όριο μεταξύ Α και Β, και πιο μεταξύ Β και C; Λύση: Έστω Χ ο βαθμός του διαγωνίσματος. Τότε συμβολίζοντας το κάτω όριο του Α με

X A επιθυμούμε: Α)

P( X > X A ) = 0.14 Û P(Z > Z A ) = 0.14 Û Z A = 1.08. Αλλά ZA =

X A - 70 Û X A = 12 × Z A + 70 = 12 × 1.08 + 70 = 82.96 @ 83. 12

Δηλαδή το όριο

μεταξύ Α και Β πρέπει να είναι το 83. Β) συμβολίζοντας το κάτω όριο του Β με X B : Page 12 of 27

Σ. Μεϊντάνης, Ι.Κ. Μπασιάκος, Κ. Φραγκιαδάκης: Σημειώσεις Στατιστικής ΙΙ


P( X B £ X £ 83) = 0.2 Û P( X £ 83) - P( X £ X B ) = 0.2 Û P( X £ X B ) = P( X £ 83) - 0.2 Û P(Z £ Z B ) = P(Z £

83 - 70 ) - 0.2 = P(Z £ 1.08) - 0.2 = 0.8810 - 0.2 = 0.6810 Û Z B = 0.47 12

Αλλά:

X B = 12 × Z B + 70 = 12 × 0.47 + 70 = 75.64 @ 76 . Άρα το Β κυμαίνεται μεταξύ 76 και 83. Δηλαδή το όριο μεταξύ Β και C πρέπει να είναι το 76. 3.3. Υποθέσατε ότι ο ετήσιος αριθμός σεισμών έντασης μεγαλύτερης των 2,5 Ρίχτερ που έχουν επίκεντρο μέχρι 40 χιλιόμετρα από το κέντρο των Αθηνών, είναι – κατά μέσον όρο – 6,5. Υπολογίστε την πιθανότητα να έχουμε το 2001 περισσότερους από 8 τέτοιους σεισμούς με δύο τρόπους και συγκρίνετε τα αποτελέσματα. Λύση: Έστω Χ ο ετήσιος αριθμός των σεισμών. Το Χ ακολουθεί την κατανομή Poisson με παράμετρο λ=6,5. Η ζητούμενη πιθανότητα, P( X ³ 9) , μπορεί να υπολογιστεί είτε προσεγγιστικά μέσω της κανονικής κατανομής με μ=6,5 και σ2=6,5, είτε ακριβώς μέσω της Poisson. Α) κανονική κατανομή (με διόρθωση συνέχειας):

P( X ³ 9) = P( X ³ 8,5) = P( Z ³

8,5 - 6,5 ) = P( Z ³ 0,784) = 1 - P(Z £ 0,784) 6,5

= 1 - 0,7838 = 0,2162 Β) Poisson: P( X ³ 9) = 1 - P( X £ 8) = 1 - ( P( X = 0) + P( X = 1) + P( X = 2) + P( X = 3) + + P( X = 4) + P( X = 5) + P( X = 6) + P( X = 7) + P( X = 8)) = æ e - 6,5 × 6,50 e - 6,5 × 6,51 e - 6,5 × 6,5 2 e - 6,5 × 6,53 e - 6,5 × 6,5 4 ö ÷= 1- ç + + + + ç ÷ 0 ! 1 ! 2 ! 3 ! 4 ! è ø æ e - 6,5 × 6,55 e - 6,5 × 6,56 e - 6,5 × 6,5 7 e - 6,5 × 6,58 ö ÷= -ç + + + ç ÷ 5 ! 6 ! 7 ! 8 ! è ø = 1 - (0,0015 + 0,0098 + 0,0318 + 0,0688 + 0,1118 + 0,1454 + 0,1575 + 0,1462 + 0,1188) = = 1 - 0,7916 = 0,2084.

Σ. Μεϊντάνης, Ι.Κ. Μπασιάκος, Κ. Φραγκιαδάκης: Σημειώσεις Στατιστικής ΙΙ

Page 13 of 27


ΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

1. ΕΙΣΑΓΩΓΗ

Πρότυπο:

Y = b 0 + b1 X + e

(1)

Παρατηρήσεις ( X i , Yi )i = 1 στο πρότυπο (1) n

Yi = b 0 + b1 X i + e i

Υποθέσεις α) E (e i ) = 0 , i = 1,2,..., n.

Η παραβίαση αυτής της υπόθεσης καλείται σφάλμα εξειδίκευσης.

β) Var (e i ) = s e2 , i = 1,2,...,n.

Η παραβίαση αυτής της υπόθεσης καλείται ετεροσκεδαστικότητα.

γ) Cov (e i , e j ) = 0, i ¹ j .

Μια μορφή παραβίασης αυτής της υπόθεσης καλείται αυτοσυσχέτιση.

δ) Η τυχαία μεταβλητή X είναι μη στοχαστική.

Η υπόθεση α) οδηγεί στην E ( Yi ) = b 0 + b1 X i Η υπόθεση β) οδηγεί στην Var (Yi ) = s e2 Η υπόθεση γ) οδηγεί στην Cov(Yi , Y j ) = 0, i ¹ j

Page 14 of 27

Σ. Μεϊντάνης, Ι.Κ. Μπασιάκος, Κ. Φραγκιαδάκης: Σημειώσεις Στατιστικής ΙΙ


2. ΜΕΘΟΔΟΣ ΕΛΕΧΙΣΤΩΝ ΤΕΤΡΑΓΩΝΩΝ

n

n

i=1

i =1

D (b 0 , b1 ) = å (Yi - Yˆi ) 2 = å (Yi - b0 - b1 X i )2

( bˆ0 , bˆ1 ) = argmin D( b0 , b1 ) ®

Ελαχιστοποίηση της D (b 0 , b1 ) ως προς

b0 , b1

b 0 και b1 Κανονικές Εξισώσεις

¶D( b 0 , b1 ) =0 ¶b0

n

n

åY = b n + b å X i =1

0

i

1

i =1

i

Û

¶D( b0 , b1 ) =0 ¶b1

n

n

n

i =1

i =1

i =1

å X iYi = b 0 å X i + b1 å X i2

Εκτιμήτριες Ελαχίστων Τετραγώνων

bˆ0 = Y - bˆ1 X n

bˆ1 =

=

i= 1

n

åX i= 1

wi =

n

å X iYi - n X Y 2 i

- nX

å ( X i - X )(Yi - Y ) i= 1

n

å(X

2

i= 1

i

-X)

2

n

=

å(X i= 1 n

i

å(X i= 1

i

- X )Yi - X)

=

2

n

å wY i= 1

i i

n S (Xi - X ) 1 n , όπου S xx = å ( X i - X )2 και S x2 = ( X i - X )2 = xx . å n - 1 i =1 n -1 S xx i =1

Οι συντελεστές στάθμισης wi ικανοποιούν τις σχέσεις n

å wi = 0 και i =1

n

åw X i =1

i

i

=1

n

n

i =1

i =1

Επίσης, S xy = å ( X i - X ) (Yi - Y ) , S yy = å (Yi - Y )2 και S y2 =

Σ. Μεϊντάνης, Ι.Κ. Μπασιάκος, Κ. Φραγκιαδάκης: Σημειώσεις Στατιστικής ΙΙ

S yy n -1

Page 15 of 27


3. ΙΔΙΟΤΗΤΕΣ ΕΚΤΙΜΗΤΡΙΩΝ ΕΛΑΧΙΣΤΩΝ ΤΕΤΡΑΓΩΝΩΝ n

n

i=1

i =1

E (bˆ1 ) = E (å wY i i ) = å wi E (Yi ). Όμως E (Yi ) = b 0 + b1 X i

Αμεροληψία n

n

n

E (bˆ1 ) = b 0 å wi + b1 å wi X i = b1 , i=1

αφού

i =1

å wi = 0 και i= 1

n

åw X i =1

i

i

=1

n

bˆ0 = Y - bˆ1 X = b0 + b1 X + (å e i / n) -bˆ1 X = b 0 + (b1 - bˆ1 ) X + e i =1

E ( b$0 ) = b 0 + E (e ) = b 0 + E (e ) = b 0

Διακύμανση n

n

i =1

i =1

2 Var ( bˆ1 ) = Var (å wY i i ) = å wi var(Yi )

Όμως Var (Yi ) = Var (e i ) = s e2 n s e2 2 2 ˆ Var ( b1 ) = s e å wi = S xx i =1

æ1 X2 ö s e2 X 2s e2 2 ˆ ˆ ˆ Var ( b0 ) = Var (Y ) + x Var (b1 ) - 2 xCov(Y , b1) = + = s e2 çç + ÷÷ n S xx è n S xx ø

Cov(bˆ0 , bˆ1 ) = Cov(Y - bˆ1 X , bˆ1) = Cov(Y , bˆ1 ) - Cov(bˆ1 X , bˆ1 ) =

( )

s2 = - X Var bˆ1 = - X e διότι Cov(Y , bˆ1 ) = 0 S xx Συγκεκριμένα n æ1 n ö 1 n s e2 n Cov(Y , bˆ1 ) = Cov çç å Yi , å wY = wVar ( Y ) = wi = 0 . i i÷ i å ÷ nå i n n i 1 i 1 i 1 i 1 = = = = è ø

Page 16 of 27

Σ. Μεϊντάνης, Ι.Κ. Μπασιάκος, Κ. Φραγκιαδάκης: Σημειώσεις Στατιστικής ΙΙ


Αποτελεσματικότητα (Θεώρημα Gauss-Markov) Έστω κάποια άλλη γραμμική εκτιμήτρια b%1 του

b1 .

n

~ = w + d , "i Αυτή γράφεται υπό την μορφή: b%1 = å w% iYi , w i i i i =1

( )

Επειδή η b%1 είναι αμερόληπτη πρέπει να ισχύει E b%1 = b1 . n

n

n

i =1

i =1

i =1

Έτσι E ( b%1 ) = å w% i E (Yi ) = b 0 å w% i + b1 å w% i X i άρα πρέπει Όμως

n

n

i =1

i =1

n

å w% i = 0, i =1

n

å w% X i =1

i

i

=1

n

å w% i = 0 Û å ( wi + di ) = 0 Û å di = 0 i =1

n

n

n

n

i =1

i =1

i =1

i =1

å w% i X i = 1 Û å wi X i + å di X i = 1 Û å di X i = 0 Η διακύμανση της b%1 υπολογίζεται ως n

n

Var ( b%1) = s e2 å w% i2 = s e2 å (wi + di )2 = i =1

i =1

æ ö æ ö = s e2 çç å wi2 + å di2 + 2å wi di ÷÷ = s e2 çç å wi2 + å di2 ÷÷ ³ Var ( bˆ1) n

è i =1

n

n

i =1

i =1

n

ø

n

è i =1

i =1

ø

Επειδή n

n

i =1

i =1

æ

n

n

ö

i =1

ø

å wi di = å ( X i - X )di / S xx = (S xx )-1 ç å di X i - X å di ÷ = 0 . è i =1

Σ. Μεϊντάνης, Ι.Κ. Μπασιάκος, Κ. Φραγκιαδάκης: Σημειώσεις Στατιστικής ΙΙ

Page 17 of 27


Page 18 of 27

Σ. Μεϊντάνης, Ι.Κ. Μπασιάκος, Κ. Φραγκιαδάκης: Σημειώσεις Στατιστικής ΙΙ


4. ΠΟΙΟΤΗΤΑ ΠΑΛΙΝΔΡΟΜΗΣΗΣ

SST = SSR + SSE n

SST = å (Yi - Y )2

®

Συνολική μεταβλητότητα

®

Ερμηνευόμενη μεταβλητότητα

®

Ανερμήνευτη μεταβλητότητα

i= 1

n

SSR = å (Yˆi - Y )2 i =1

n

SSE = å (Yi - Yˆi )2 i =1

SSR b$12 S xx R = = SST S yy 2

n

,

2

n

n

(

SSR = å (Yˆi - Y )2 = å æç bˆ0 + bˆ1 X i - bˆ0 - bˆ1 X ö÷ = bˆ12 å X i - X i =1 è

i=1

n

S xx = å ( X i - X ) i =1

2

ø

i =1

)

2

= bˆ12 S xx

n

και

SST = S yy = å (Yi - Y )2 i =1

Σ. Μεϊντάνης, Ι.Κ. Μπασιάκος, Κ. Φραγκιαδάκης: Σημειώσεις Στατιστικής ΙΙ

Page 19 of 27


5. ΕΚΤΙΜΗΣΗ ΤΗΣ ΔΙΑΚΥΜΑΝΣΗΣ ΤΩΝ ΣΦΑΛΜΑΤΩΝ

s e2 = Var (e i ) = E (e i2 ) - E 2 (e i ) = E (e i2 ) n

SSE = S yy - bˆ12 S xx = å Yi 2 - nY 2 - bˆ12 S xx i =1

n

E (SSE ) = E (å Yi 2 - nY 2 - bˆ12 S xx ) = i= 1

=

n

E (Yi 2 ) - nE (Y 2 ) - S xx E ( bˆ12 ) å i= 1 é s e2

n

å [s e2 + ( b0 + b1 X i )2 ] - n ê

ëê n

i= 1

æ s e2

ù

+(b 0 + b1 X ) 2 ú - S xx çç

è S xx

ûú

ö

+ b12 ÷÷

ø

n

= (n - 2)s e2 + å[(b0 + b1 X i )2 -(b 0 + b1 X )2 - b12 ( X i - X )2 ] i= 1

= (n - 2)s e2

SSE 1 n 2 ei s = = n-2 n-2å i =1 ˆe2

Αμερόληπτη Εκτιμήτρια

Σημείωση: n

e=

ei å i =1 n

=0

( ) ( ) s E (Y ) = Var (Y ) + ( E (Y ) ) = e + ( b n 2

E Yi2 = Var (Yi ) + E (Yi ) = s e2 + ( b0 + b1 X i ) 2

2

( )

( )

2

0

+ b1 X

)

2

2

( )

2 s2 E bˆ12 = Var bˆ1 + æç E bˆ1 ö÷ = e + b12 S xx è ø

Page 20 of 27

Σ. Μεϊντάνης, Ι.Κ. Μπασιάκος, Κ. Φραγκιαδάκης: Σημειώσεις Στατιστικής ΙΙ


6. ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΑΠΛΟΥ ΓΡΑΜΜΙΚΟΥ ΥΠΟΔΕΙΓΜΑΤΟΣ

Υπόθεση:

t=

Τα σφάλματα ακολουθουν την κανονική κατανομή

e i : N ( 0 , s e2 )

bˆ1 - b1 bˆ - b = 1 1 ~ t n-2 sˆ bˆ sˆe / S xx 1

sˆ bˆ1 m tn-2,a /2sˆ bˆ = bˆ1 m tn-2,a / 2 e 1 S xx 2

Διάστημα Εμπιστοσύνης

Η0: Η παλινδρόμηση δεν είναι στατιστικά σημαντική

Û b1 = 0

Η1: Η παλινδρόμηση είναι στατιστικά σημαντική

Û b1 ¹ 0

Κρίσιμη Περιοχή Ελέγχου t =

bˆ1 - b10 ³ tn -2,a / 2 sˆ bˆ 1

Εναλλακτικά ο ίδιος έλεγχος μπορεί να γίνει με τη χρήση της

F=

R2

(1- R )

1

2

η οποία όταν

( n - 2)

e i : N ( 0 , s e2 ) ακολουθεί την F1, n-2

Συνεπώς, απορρίπτουμε την Η0 αν

F ³ F1, n-2, a

Σ. Μεϊντάνης, Ι.Κ. Μπασιάκος, Κ. Φραγκιαδάκης: Σημειώσεις Στατιστικής ΙΙ

Page 21 of 27


7. ΠΡΟΒΛΕΨΗ

Πρόβλεψη για την Μέση Τιμή Y0 = b 0 + b1 X 0 + e 0 E (Y0 ) = b 0 + b1 X 0 Yˆ0 = bˆ0 + bˆ1 X 0 με E (Yˆ0 ) = E (Y0 )

Var (Yˆ0 - E (Y0 )) = Var (Yˆ0 ) = = Var (bˆ0 ) + X 02Var (bˆ1 ) + 2 X 0Cov(bˆ0 , bˆ1 ) = από τις σχέσεις της σελ. 16 προκύπτει ότι = s

Το Διάστημα Πρόβλεψης για την μέση τιμή

2 e

æ 1 ( X - X )2 ö 0 ç + ÷ çn ÷ S xx è ø

E (Y0 ) είναι

( X - X )2 Yˆ0 m tn-2,a /2 sˆe 1 + 0 n

S xx

Πρόβλεψη για την Εξειδικευμένη Τιμή Y0 Yˆ0 = bˆ0 + bˆ1 X 0

Var (Yˆ0 - Y0 ) = Var (Yˆ0 - e 0 ) = Var (Yˆ0 ) + Var (e 0 ) - 2Cov(Yˆ0 , e 0 ) = Var (Yˆ ) + Var (e ) = 0

=s

æ

2 e ç1 +

ç è

0

1 ( X 0 - X )2 ö ÷ + ÷ n S xx ø

Το Διάστημα Πρόβλεψης για την εξειδικευμένη τιμή Y0 είναι

(X - X ) Yˆ0 m tn-2,a /2 sˆe 1 + 1 + 0 n

Page 22 of 27

2

S xx

Σ. Μεϊντάνης, Ι.Κ. Μπασιάκος, Κ. Φραγκιαδάκης: Σημειώσεις Στατιστικής ΙΙ


ΑΣΚΗΣΗ Το κόστος κατασκευής εξαρτάται από το μέγεθος του αντικειμένου σύμφωνα με το πρότυπο: Y = b0 + b1 X + e . Με βάση τα παρακάτω δεδομένα: Χ: μέγεθος Υ: κόστος

10 2.5

20 5.0

30 7.5

40 9.0

50 9.5

60 13.0

70 14.0

80 15.5

90 18.5

100 20.0

1. Να υπολογιστούν οι συντελεστές ελαχίστων τετραγώνων bˆ0 , bˆ1 . 2. Να υπολογισθεί και ερμηνευθεί ο συντελεστής προσδιορισμού και να ελεγχθεί η στατιστική σημαντικότητα της παλινδρόμησης. Επίπεδο σημαντικότητας a = 0.05 . 3. Να ελεγχθεί η στατιστική σημαντικότητα της παλινδρόνησης με βάση την τιμή bˆ1 . Επίπεδο σημαντικότητας a = 0.05 . 4. Να ελεγχθεί η στατιστική σημαντικότητα της παλινδρόμησης με την χρήση του πίνακα ανάλυσης διακύμανσης. Επίπεδο σημαντικότητας a = 0.05 . 5. Να κατασκευασθεί διάστημα εμπιστοσύνης 95% του προβλεπόμενου μέσου κόστους για μέγεθος αντικειμένου X 0 = 45 . 6. Να κατασκευασθεί διάστημα εμπιστοσύνης 95% της προβλεπόμενης τιμής του κόστους για μέγεθος αντικειμένου X 0 = 45 .

Σ. Μεϊντάνης, Ι.Κ. Μπασιάκος, Κ. Φραγκιαδάκης: Σημειώσεις Στατιστικής ΙΙ

Page 23 of 27


ΛΥΣΗ Πριν προχωρήσουμε στην απάντηση των 6 ερωτήσεων χρειαζόμαστε τους ακόλουθους υπολογισμούς: Χ: μέγεθος

Υ: κόστος

10 20 30 40 50 60 70 80 90 100 550

Σύνολα:

X i2

2.5 5.0 7.5 9.0 9.5 13.0 14.0 15.5 18.5 20.0 114.5

100 400 900 1600 2500 3600 4900 6400 8100 10000 38500

Yi 2 6.25 25.00 56.25 81.00 90.25 169.00 196.00 240.25 342.25 400.00 1606.25

X i Yi 25 100 225 360 475 780 980 1240 1665 2000 7850

Είναι:

n = 10 , X = 55 , Y = 11.45 , n

(

n

) = å X - n× X SST = å (Y - Y ) = 295.225 . S xx = å X i - X n =1 n

n =1

2

2 i

i =1

2

= 8250 ,

2

i

Απάντηση 1. n

bˆ1 =

å X iYi - n X Y i =1 n

X i2 - nX 2 å i =1

n

=

X iYi - nX å i =1

Y

S xx

=

7850 -10 × 55 ×11.45 1552.5 = = 0.1882 8250 8250

bˆ0 = Y - bˆ1 X = 11.45 - 0.1882 × 55 = 1.1

Page 24 of 27

Σ. Μεϊντάνης, Ι.Κ. Μπασιάκος, Κ. Φραγκιαδάκης: Σημειώσεις Στατιστικής ΙΙ


Απάντηση 2. 2 SSR bˆ12 S xx ( 0.1882 ) × 8250 292.152 R = = = = = 0.9896 SST SST 295.225 295.225 2

Άρα το 98.96% της μεταβλητικότητας στο Y (κόστος) ερμηνεύεται από την μεταβλητικότητα του X (μεγέθους).

R2

F=

(1 - R )

1

=

2

Είναι

( n - 2)

0.9896 1 = 760.63 0.0104 8

F = 760.63 > F1, 8, 0.05 = 5.32 ,

δεχόμαστε ότι

άρα η μηδενική υπόθεση

b1 = 0 απορρίπτεται και

b1 ¹ 0 , δηλαδή η παλινδρόμηση είναι στατιστικά σημαντική.

Απάντηση 3. Η0:

b1 = 0 έναντι της εναλλακτικής Η1: b1 ¹ 0

T=

bˆ1 bˆ1 = sˆ bˆ sˆe / Sxx 1

Η μηδενική υπόθεση απορρίπτεται όταν: T ³ tn-2, a / 2 .

(

)

SSE SST æ SSR ö SST 1 SST - SSR ) = = 1- R2 Þ ( ç1 ÷= n-2 n-2 n - 2 è SST ø n - 2 Þ sˆe2 = 295.225 (1 - 0.9896 ) = 0.3841 8

Όμως: sˆ e2 =

T=

bˆ1 0.1882 = = 27.58 sˆe / Sxx 0.3841 8250

Επειδή T = 27.58 ³ t8, 0.025 = 2.306 απορρίπτουμε τη μηδενική υπόθεση, δηλαδή συμπεραίνουμε ότι υπάρχει γραμμική εξάρτηση μεταξύ X (μεγέθους) και Y (κόστος).

Σ. Μεϊντάνης, Ι.Κ. Μπασιάκος, Κ. Φραγκιαδάκης: Σημειώσεις Στατιστικής ΙΙ

Page 25 of 27


Απάντηση 4. Πηγή Μεταβλητότητας

Άθροισμα Τετραγώνων

Βαθμοί Ελευθερίας

Μέσο Άθροισμα Τετεραγώνων

Παλινδρόμηση

SSR = 292.152

1

292.152 1

SSE = 3.073

n-2 = 8

3.073 8 = 0.3841

SST = 295.225

n-1 = 9

Υπόλοιπα Σύνολο

Στατιστική F F=

292.152 = 760.63 0.3841

Όπου 2 SSR = bˆ12 S xx = ( 0.1882 ) × 8250 = 292.152

n

(

SST = å Yi - Y n =1

)

2

= S yy = 295.225

Επειδή F = 760.63 > F1, 8, 0.05 = 5.32 απορρίπτεται η μηδενική υπόθεση ότι απορρίπτεται και γίνεται δεκτή η εναλλακτική.

b1 = 0

Απάντηση 5. Είναι: Yˆ = bˆ0 + bˆ1 X = 1.1 + 0.1882 X . Συνεπώς για X 0 = 45 έχουμε Yˆ = 9.57 ως προβλεπόμενο μέσο κόστος. Άρα για tn- 2, a /2 = t8, 0.025 = 2.306 έχουμε το 95% διάστημα εμπιστοσύνης:

yˆ f - h < E (Y ) < yˆ f + h , E (Y ) = E (Y | X = X 0

0

)

1 ( X0 - X ) 1 ( 45 - 55 ) + × tn-2, a / 2 = 0.619 × + × 2.306 = 0.4547 10 8250 n S xx 2

Όπου h = sˆ e

0

2

Άρα το 95% διάστημα εμπιστοσύνης για την προβλεπόμενη μέση τιμή του κόστους σε επίπεδο μεγέθους X 0 = 45 είναι:

9.57 - 0.4547 < E (Y0 ) < 9.57 + 0.4547 Þ 9.115 < E (Y0 ) < 10.025

Page 26 of 27

Σ. Μεϊντάνης, Ι.Κ. Μπασιάκος, Κ. Φραγκιαδάκης: Σημειώσεις Στατιστικής ΙΙ


Απάντηση 6. Το 95% διάστημα εμπιστοσύνης για την προβλεπόμενη τιμή του κόστους για X 0 = 45 είναι:

Yˆ0 - h < Y0 < Yˆ0 + h , 1 ( X0 - X ) 1 ( 45 - 55 ) 1+ + × tn-2, a / 2 = 0.619 × 1 + + × 2.306 = 1.5 10 8250 n S xx 2

Όπου h = sˆ e

2

Άρα το 95% διάστημα εμπιστοσύνης για την προβλεπόμενη εξειδικευμένη τιμή του κόστους σε επίπεδο μεγέθους X 0 = 45 είναι:

9.57 - 1.5 < Y0 < 9.57 + 1.5 Þ 8.07 < Y0 < 11.07

Σ. Μεϊντάνης, Ι.Κ. Μπασιάκος, Κ. Φραγκιαδάκης: Σημειώσεις Στατιστικής ΙΙ

Page 27 of 27


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.