Szanowni Państwo, Zainteresowanych zagadnieniami związanymi z szeroko pojętą statystyką, zachęcamy do zapoznania się z materiałami ze szkolenia „Analiza Statystyczna w Excelu”. Autorem prezentacji jest Trener Cognity – Grzegorz Plak. Przedstawione w niej zagadnienia zostały obszernie omówione w trakcie szkolenia, które odbyło się w Krakowie w dniach 19-20 grudnia 2013.
Program tego i innych szkoleń Cognity znajdą Państwo na stronie www.cognity.pl.
Agenda • Podstawowe pojęcia statystyczne • Etapy analizy danych • Miary statystyczne • Testy statystyczne • Prognozowanie
Podstawowe pojęcia statystyczne
Populacja
Próba
Populacja (zbiorowość) Zbiorowość statystyczna (populacja statystyczna) to zbiór obiektów (jednostek statystycznych), które objęte
są badaniem statystycznym. Jednostki powinny mieć pewne cechy wspólne (które
pozwalają zakwalifikować je do danej zbiorowości) oraz właściwości, dzięki którym można je różnicować)
Populacja (zbiorowość) – cd. Zbiorowość
Generalna
Próbna
Rodzaje cech statystycznych zmiennych Cechy mierzalne (ilościowe) – oznaczane liczbą wraz z określoną jednostką
Cechy niemierzalne (jakościowe) – brak miary
długość
płeć
objętość
wykształcenie
waga
poglądy polityczne
Podział cech mierzalnych • Cechy mierzalne skokowe – posiadają konkretne wartości liczbowe • liczba studentów na uczelni • Cechy quasi-ciągłe – z natury są skokowe, jednak ze względu na bardzo dużą liczbę wartości traktowane są jako cechy mierzalne ciągłe • wysokość wynagrodzenia • Cechy mierzalne ciągłe – wartość cechy może przyjąć dowolną wartość z danego przedziału liczbowego • powierzchnia państw
Etapy badania statystycznego Projektowanie i organizacja badania
Obserwacja statystyczna
Analiza statystyczna
Opracowanie materiału statystycznego
Projektowanie i organizacja badania Cel badania Podmiot badania Przedmiot badania Zakres badania
Źródła danych Czas trwania badania
Metody doboru próby
Dobór losowy – dobór jednostek próby jest niezależny od osoby prowadzącej badanie (za pomocą mechanizmu losowego)
Dobór nielosowy – dobór jednostek zależy od subiektywnej oceny osoby prowadzącej badanie
Dobór losowy (1) Losowanie bezpośrednie (indywidualne) – jednostki losowane są bezpośrednio z całej populacji
losowanie zależne (losowanie bez zwracania) losowanie niezależne (losowanie ze zwracaniem)
Losowanie warstwowe – przed losowaniem dzielimy populację na warstwy (np. podział jednostek mieszkających na wsi oraz w mieście) w taki sposób, aby warstwy były wewnątrz jak najbardziej jednorodne. Losujemy określoną liczbę jednostek z każdej warstwy
Dobór losowy (2) Losowanie zespołowe – przed losowaniem dzielimy badaną populację na zespoły (wewnętrznie zróżnicowane). Wylosowaną próbę stanowią wszystkie jednostki z wylosowanego zespołu
Losowanie systematyczne – przed losowaniem ustalamy tzw. interwał losowania, na podstawie którego wybieramy jednostki do próby. Warunkiem zastosowania tej metody jest ponumerowanie jednostek zbiorowości kolejnymi liczbami naturalnymi (operat losowania)
Dobór nielosowy (1)
Dobór celowy – dobór jednostek do próby opiera się na subiektywnym odczuciu osoby prowadzącej badanie posiadania przez jednostek pożądanych cech
Dobór kwotowy – polega na ustaleniu składu próby narzucając jej strukturę populacji wykorzystując tzw. kwoty, czyli liczbę jednostek mających określone cechy, które mają znaleźć się w grupie. Jednostki do próby wybiera się w dowolny nielosowy sposób
Dobór nielosowy (2) Dobór metodą „kuli śnieżnej” – stosowany jest w przypadku, gdy do jednostek trudno jest dotrzeć. W tej metodzie na początku określa się niewielką grupę respondentów, a następnie prosi się ich o wskazanie kolejnych jednostek do badania
Dobór przypadkowy – polega na dobraniu jednostek, które w danej sytuacji znalazły się w dogodnym zasięgu
Obserwacja statystyczna
Obserwacja statystyczna polega na gromadzeniu danych, dzięki czemu uzyskuje się materiał statystyczny
Opracowanie materiału statystycznego • Kontrola zebranego materiału • formalna (ilościowa)
• merytoryczna (jakościowa)
• Grupowanie uzyskanych danych • Grupowanie typologiczne • Grupowanie wariacyjne
• Prezentacja materiału statystycznego
Analiza statystyczna • Opis statystyczny • Wnioskowanie statystyczne (w przypadku badań próbkowych) Analiza statystyczna umożliwia ocenę stopnia dokładności i wiarygodności otrzymanych wyników, a także na wyciągnięcie końcowych wniosków dotyczących zaplanowanego celu badania
Rodzaje szeregów statystycznych Szereg szczegółowy (wyliczający)
Szereg rozdzielczy
punktowy
przedziałowy
Szereg szczegółowy - przykład Liczba wyrzuconych oczek na kostce w 20 losowaniach
2
4
3
6
1
1
3
4
5
1
1
3
5
2
3
5
5
2
1
5
Szereg punktowy - przykład Liczba wyrzuconych oczek na kostce w 20 losowaniach
Liczba oczek
Częstość
1
5
2
3
3
4
4
2
5
5
6
1
Szereg przedziałowy - przykład Liczba wyrzuconych oczek na kostce w 20 losowaniach
Zbiór danych (koszyk) Częstość lewy przedział
prawy przedział
1
2
8
2
4
6
4
6
6
Prezentacja graficzna danych Pole wykresu – graficzna prezentacja danego szeregu Tytuł wykresu Idealny wykres zawiera Legendy wykresu
Źródła danych statystycznych
Rodzaje wykresów bryłowe liniowe mapowe (kartogramy) obrazkowe Powierzchniowe punktowe
Wykresy bryłowe
Wykresy liniowe
Wykresy mapowe
Małżeństwa wyznaniowe w Polsce jako procent wszystkich małżeństw, według województw. Dane za rok 2006 (GUS) Źródło: http://pl.wikipedia.org/wiki/Ludność_Polski
Wykresy obrazkowe
Wykresy powierzchniowe
Wykresy punktowe
Typy rozkładów empirycznych
symetryczne
asymetryczne
jednomodalne
wielomodalne
Rozkłady symetryczne - przykłady
Rozkłady asymetryczne - przykłady
Rozkład jednomodalny - przykłady
Wykresy wielomodalne - przykłady
Miary statystyczne Miary położenia (przeciętne, poziomu) Miary zmienności (zróżnicowania, dyspersji) Miary asymetrii (skośności) Miary koncentracji
Miary położenia
Średnia arytmetyczna
Mediana
Dominanta
Kwantyle
Średnia arytmetyczna szereg prosty
x1 x2 ... xk 1 x xi N N i 1 k
Średnia arytmetyczna szereg punktowy x1n1 x2 n2 ... xk nk 1 x xi ni N N i 1 k
Średnia arytmetyczna szereg przedziałowy
xˆ1n1 xˆ2 n2 ... xˆk nk 1 x xi ni N N i 1 k
Mediana szereg wyliczeniowy x n 1 2 Me x n x n 1 2 2 2
gdy n nieparzyste, gdy n parzyste
Mediana szereg przedziałowy n skum n pm 1 Me xlpm 2 rpm n pm
Dominanta szereg punktowy
Dominantą w szeregu punktowym jest największa liczebność dla danej cechy
Dominanta szereg przedziałowy Do xlpd
n
n pd n pd 1
pd
n pd 1 n pd n pd 1
rpd
Kwantyle Najczęściej używanymi kwantylami są: • Kwartyle • Decyle • Percentyle
Kwartyl pierwszy szereg przedziałowy
Q1 xlpq
N skum n pq 1 4 rpq n pq
Kwartyl trzeci szereg przedziałowy Q3 xlpq
3N skum n pq 1 4 rpq n pq
Miary zmienności • • • • • • • •
Wariancja Odchylenie standardowe Klasyczny współczynnik zmienności Odchylenie przeciętne Rozstęp Rozstęp międzykwartylowy Odchylenie ćwiartkowe Pozycyjny współczynnik zmienności
Wariancja szereg wyliczeniowy
x x k
s 2
i 1
2
i
N
Wariancja szereg punktowy
x x n k
s 2
i 1
2
i
i
N
Wariancja szereg przedziałowy
xˆ x n k
s 2
i 1
2
i
i
N
Odchylenie standardowe
s s 2
wariancja
2
Klasyczny współczynnik zmienności
Vs
x
100%
Odchylenie przeciętne k
1 d xi x N i 1
Rozstęp szereg punktowy
R xmax xmin
Rozstęp międzykwartylowy
Rq Q3 Q1 Q3 Q1
trzeci kwartyl pierwszy kwartyl
Odchylenie ćwiartkowe
Q3 Q1 Q 2
Pozycyjny współczynnik zmienności
Q Vq 100% Me
Miary asymetrii • Wskaźnik skośności • Współczynnik asymetrii Pearsona • Pozycyjny wskaźnik skośności • Pozycyjny współczynnik asymetrii • Trzeci moment centralny • Klasyczny współczynnik asymetrii
Wskaźnik skośności
Ws x Do
Współczynnik asymetrii Persona
Ap
x Do
Pozycyjny wskaźnik skośności
W poz Q3 Q1 2 Me
Pozycyjny współczynnik asymetrii
Apoz
Q3 Q1 2 Me Q3 Q1
Trzeci moment centralny szereg punktowy
x x n k
m3
i 1
3
i
i
N
Trzeci moment centralny szereg przedziałowy
xˆ x n k
m3
i 1
3
i
i
N
Klasyczny współczynnik asymetrii
As
m3
3
Miary koncentracji Współczynnik kurtozy
Współczynnik ekscesu Krzywa koncentracji Lorenza
Współczynnik koncentracji Giniego
Współczynnik kurtozy k
K
m4
4
x x i 1
4
i
N
1
4
Współczynnik ekscesu
K K 3
Krzywa Lorenza 100%
80% 60% 40% 20% 0% 0%
20%
40%
60%
80%
100%
Współczynnik koncentracji Giniego
a G 5000
a G 0,5
Badanie związków między cechami • Analiza korelacji • Współczynnik korelacji liniowej Pearsona • Współczynnik korelacji rang Spearmana
• Analiza regresji • Liniowy model regresji
Współczynnik korelacji liniowej Pearsona n
r
x x y i
i 1
n
i
y
n
x x y i 1
2
i
i 1
y
2
i
Liniowy model regresji
y 1 x 0 n
1
x x y i
i 1
n
y
i
x x i 1
2
i
0 y 1 x
Podstawowe pojęcia rachunku prawdopodobieństwa • Przestrzeń zdarzeń elementarnych • Zdarzenie losowe • Prawdopodobieństwo • Zmienna losowa • Dystrybuanta
Przestrzeń zdarzeń elementarnych
Przestrzeń zdarzeń elementarnych to wszystkie możliwe wyniki doświadczenia. Przestrzeń zdarzeń elementarnych oznaczamy symbolem Ω.
Zdarzenie losowe
Zdarzenie losowe to podzbiór przestrzeni zdarzeń elementarnych Ω, które z góry wyróżnia eksperymentator.
Prawdopodobieństwo Prawdopodobieństwem nazywamy funkcję, która każdemu zdarzeniu A przyporządkowuje liczbę P A spełniającą następujące aksjomaty: • •
•
Zmienna losowa Niech dana będzie przestrzeń probabilistyczna (Ω, ζ, P). Funkcję X, określoną na przestrzeni zdarzeń elementarnych Ω, o wartościach rzeczywistych oraz taką, że dla każdego t zbiór
: X t
jest zdarzeniem (czyli należy do ζ), będziemy nazywać zmienną losową.
Dystrybuanta Funkcję
FX : 0, 1, określoną wzorem
FX t P : X t nazywamy dystrybuantą zmiennej losowej X.
Wartość oczekiwana
Wariancja
VarX EX EX 2
2
Wybrane rozkłady zmiennych Rozkłady zmiennych losowych typu skokowego
Rozkłady zmiennych losowych typu ciągłego
dwumianowy
normalny
Poissona
t-Studenta
χ2
Rozkład dwumianowy
Rozkład Poissona
Rozkład normalny
Rozkład t-Studenta n 1 n 1 2 2 x 2 1 f x n n n 2
Rozkład χ2 n x 1 1 2 2 x e n f x 2 2 n 2 0
,x 0 ,x 0
Przedział ufności dla średniej (r. n.) przy znanym odchyl. std. (populacji)
P X Z M X Z 1 N N
Przedział ufności dla średniej (r. n.) przy nieznanym o. std. (populacji) Sx Sx P X Z M X Z 1 N N
Przedział ufności dla średniej (r. t.) przy nieznanym o. std. (populacji) Sˆ x Sˆ x P X t M X t 1 N N
Przedział ufności dla wskaźnika struktury (rozkład normalny) m P Z N
m m 1 m N N p Z N N
m m 1 N N 1 N
Przedział ufności dla odchylenia standardowego (r. n.) NS 2 x P c2
NS c2
2 x
1 2
Dopuszczalny błąd szacunku
Z N 2 d 2
2
Testy statystyczne 1. Sformułuj hipotezy 2. Ustal poziom istotności
3. Dobierz statystykę testową 4. Zbuduj obszar krytyczny 5. Zdecyduj, czy wartość zmiennej losowej znajduje się w obszarze krytycznym i na tej
podstawie zdecyduj o wyniku testu
Rodzaje błędów w testowaniu hipotez Przyjęcie H0
Odrzucenie H0
H0 prawdziwa
1-α
α Błąd I-rodzaju
H0 fałszywa
β Błąd II-rodzaju
1-β
Rodzaje zbior贸w krytycznych (1)
Obszar krytyczny lewostronny H0: S = S0 H1: S < S0
Rodzaje zbior贸w krytycznych (2)
Obszar krytyczny prawostronny H0: S = S0 H1: S > S0
Rodzaje zbior贸w krytycznych (3)
Obszar krytyczny obustronny H0: S = S0 H1: S <> S0
Odczytywanie wartości z tablic dla rozkładu normalnego • Dla obszaru lewostronnego odczytujemy taką wartość -tkryt, dla której Ф(-tkryt) = α • Dla obszaru prawostronnego odczytujemy taką wartość tkryt, dla której Ф(tkryt) = α • Dla obszaru obustronnego odczytujemy taką wartość α -tkryt, dla której Ф(-tkryt) = . 2 Granicami będą wartości ±tkryt
Odczytywanie wartości z tablic dla rozkładu t-Studenta • Dla obszaru lewostronnego odczytujemy taką wartość tkryt, dla której P{|Tn-1|>tkryt} > 2α i przyjmujemy wartość ujemną (dla obszaru lewostronnego) lub dodatnią (dla obszaru prawostronnego) • Dla obszaru obustronnego odczytujemy taką wartość -tkryt, dla której P{|Tn-1|>tkryt} > α. Granicami będą wartości ±tkryt
Test istotności dla średniej (1)
Z
X M0
N
Test istotności dla średniej (2)
X M0 t ˆ Sx
N
Test istotności dla dwóch średnich (1)
Z
x1 x2 S
2 x1
n1
S
2 x2
n2
Test istotności dla dwóch średnich (1) t
x1 x2 n1S n2 S 1 1 n1 n2 2 n1 n2 2 x1
2 x2
Test istotności dla wskaźnika struktury
Z
p P0 P0 1 P0 N
Test istotności dla wariancji
Z
2 NS
2 0
2 x
2N 3
Test istotności dla dwóch wariancji
F
S S
2 x1 2 x2
Cognity Jesteśmy firmą szkoleniowo-doradczą specjalizującą się przede wszystkim w szkoleniach informatycznych, ze szczególnym uwzględnieniem programów z pakietu Ms Office.
Przeszkoliliśmy już setki przedstawicieli klientów korporacyjnych, biznesowych, pracowników instytucji publicznych oraz klientów indywidualnych (zachęcamy do zapoznania się z treścią zakładki referencje na naszej stronie internetowej). Proponując najwyższej jakości usługi edukacyjne, umożliwiamy naszym klientom odkrywanie nowych pokładów praktycznej wiedzy, która wpływa na realną poprawę ich wyników oraz podniesienie komfortu wykonywanej pracy. OFERTA FIRMY COGNITY OBEJMUJE: ▶ Szkolenia otwarte ▶ Szkolenia zamknięte (dedykowane dla firm) ▶ Konsultacje ▶ Opiekę poszkoleniową ▶ Doradztwo informatyczne
Jeżeli jesteś zainteresowany udziałem w organizowanym przez nas szkoleniu, zapraszamy do kontaktu:
Cognity Szkolenia ul. Dietla 25/5 31-070 Kraków Tel. +48 12 421 87 54 e-mail: biuro@cognity.pl www.cognity.pl Aby być na bieżąco odwiedzaj nas również na portalu Facebook https://www.facebook.com/cognityszkolenia Zapraszamy!