Analiza Statystyczna w Excelu Cognity

Page 1


Szanowni Państwo, Zainteresowanych zagadnieniami związanymi z szeroko pojętą statystyką, zachęcamy do zapoznania się z materiałami ze szkolenia „Analiza Statystyczna w Excelu”. Autorem prezentacji jest Trener Cognity – Grzegorz Plak. Przedstawione w niej zagadnienia zostały obszernie omówione w trakcie szkolenia, które odbyło się w Krakowie w dniach 19-20 grudnia 2013.

Program tego i innych szkoleń Cognity znajdą Państwo na stronie www.cognity.pl.


Agenda • Podstawowe pojęcia statystyczne • Etapy analizy danych • Miary statystyczne • Testy statystyczne • Prognozowanie


Podstawowe pojęcia statystyczne

Populacja

Próba


Populacja (zbiorowość) Zbiorowość statystyczna (populacja statystyczna) to zbiór obiektów (jednostek statystycznych), które objęte

są badaniem statystycznym. Jednostki powinny mieć pewne cechy wspólne (które

pozwalają zakwalifikować je do danej zbiorowości) oraz właściwości, dzięki którym można je różnicować)


Populacja (zbiorowość) – cd. Zbiorowość

Generalna

Próbna


Rodzaje cech statystycznych zmiennych Cechy mierzalne (ilościowe) – oznaczane liczbą wraz z określoną jednostką

Cechy niemierzalne (jakościowe) – brak miary

długość

płeć

objętość

wykształcenie

waga

poglądy polityczne


Podział cech mierzalnych • Cechy mierzalne skokowe – posiadają konkretne wartości liczbowe • liczba studentów na uczelni • Cechy quasi-ciągłe – z natury są skokowe, jednak ze względu na bardzo dużą liczbę wartości traktowane są jako cechy mierzalne ciągłe • wysokość wynagrodzenia • Cechy mierzalne ciągłe – wartość cechy może przyjąć dowolną wartość z danego przedziału liczbowego • powierzchnia państw


Etapy badania statystycznego Projektowanie i organizacja badania

Obserwacja statystyczna

Analiza statystyczna

Opracowanie materiału statystycznego


Projektowanie i organizacja badania Cel badania Podmiot badania Przedmiot badania Zakres badania

Źródła danych Czas trwania badania


Metody doboru próby

Dobór losowy – dobór jednostek próby jest niezależny od osoby prowadzącej badanie (za pomocą mechanizmu losowego)

Dobór nielosowy – dobór jednostek zależy od subiektywnej oceny osoby prowadzącej badanie


Dobór losowy (1) Losowanie bezpośrednie (indywidualne) – jednostki losowane są bezpośrednio z całej populacji

losowanie zależne (losowanie bez zwracania) losowanie niezależne (losowanie ze zwracaniem)

Losowanie warstwowe – przed losowaniem dzielimy populację na warstwy (np. podział jednostek mieszkających na wsi oraz w mieście) w taki sposób, aby warstwy były wewnątrz jak najbardziej jednorodne. Losujemy określoną liczbę jednostek z każdej warstwy


Dobór losowy (2) Losowanie zespołowe – przed losowaniem dzielimy badaną populację na zespoły (wewnętrznie zróżnicowane). Wylosowaną próbę stanowią wszystkie jednostki z wylosowanego zespołu

Losowanie systematyczne – przed losowaniem ustalamy tzw. interwał losowania, na podstawie którego wybieramy jednostki do próby. Warunkiem zastosowania tej metody jest ponumerowanie jednostek zbiorowości kolejnymi liczbami naturalnymi (operat losowania)


Dobór nielosowy (1)

Dobór celowy – dobór jednostek do próby opiera się na subiektywnym odczuciu osoby prowadzącej badanie posiadania przez jednostek pożądanych cech

Dobór kwotowy – polega na ustaleniu składu próby narzucając jej strukturę populacji wykorzystując tzw. kwoty, czyli liczbę jednostek mających określone cechy, które mają znaleźć się w grupie. Jednostki do próby wybiera się w dowolny nielosowy sposób


Dobór nielosowy (2) Dobór metodą „kuli śnieżnej” – stosowany jest w przypadku, gdy do jednostek trudno jest dotrzeć. W tej metodzie na początku określa się niewielką grupę respondentów, a następnie prosi się ich o wskazanie kolejnych jednostek do badania

Dobór przypadkowy – polega na dobraniu jednostek, które w danej sytuacji znalazły się w dogodnym zasięgu


Obserwacja statystyczna

Obserwacja statystyczna polega na gromadzeniu danych, dzięki czemu uzyskuje się materiał statystyczny


Opracowanie materiału statystycznego • Kontrola zebranego materiału • formalna (ilościowa)

• merytoryczna (jakościowa)

• Grupowanie uzyskanych danych • Grupowanie typologiczne • Grupowanie wariacyjne

• Prezentacja materiału statystycznego


Analiza statystyczna • Opis statystyczny • Wnioskowanie statystyczne (w przypadku badań próbkowych) Analiza statystyczna umożliwia ocenę stopnia dokładności i wiarygodności otrzymanych wyników, a także na wyciągnięcie końcowych wniosków dotyczących zaplanowanego celu badania


Rodzaje szeregów statystycznych Szereg szczegółowy (wyliczający)

Szereg rozdzielczy

punktowy

przedziałowy


Szereg szczegółowy - przykład Liczba wyrzuconych oczek na kostce w 20 losowaniach

2

4

3

6

1

1

3

4

5

1

1

3

5

2

3

5

5

2

1

5


Szereg punktowy - przykład Liczba wyrzuconych oczek na kostce w 20 losowaniach

Liczba oczek

Częstość

1

5

2

3

3

4

4

2

5

5

6

1


Szereg przedziałowy - przykład Liczba wyrzuconych oczek na kostce w 20 losowaniach

Zbiór danych (koszyk) Częstość lewy przedział

prawy przedział

1

2

8

2

4

6

4

6

6


Prezentacja graficzna danych Pole wykresu – graficzna prezentacja danego szeregu Tytuł wykresu Idealny wykres zawiera Legendy wykresu

Źródła danych statystycznych


Rodzaje wykresów bryłowe liniowe mapowe (kartogramy) obrazkowe Powierzchniowe punktowe


Wykresy bryłowe


Wykresy liniowe


Wykresy mapowe

Małżeństwa wyznaniowe w Polsce jako procent wszystkich małżeństw, według województw. Dane za rok 2006 (GUS) Źródło: http://pl.wikipedia.org/wiki/Ludność_Polski


Wykresy obrazkowe


Wykresy powierzchniowe


Wykresy punktowe


Typy rozkładów empirycznych

symetryczne

asymetryczne

jednomodalne

wielomodalne


Rozkłady symetryczne - przykłady


Rozkłady asymetryczne - przykłady


Rozkład jednomodalny - przykłady


Wykresy wielomodalne - przykłady


Miary statystyczne Miary położenia (przeciętne, poziomu) Miary zmienności (zróżnicowania, dyspersji) Miary asymetrii (skośności) Miary koncentracji


Miary położenia

Średnia arytmetyczna

Mediana

Dominanta

Kwantyle


Średnia arytmetyczna szereg prosty

x1  x2  ...  xk 1 x    xi N N i 1 k


Średnia arytmetyczna szereg punktowy x1n1  x2 n2  ...  xk nk 1 x    xi ni N N i 1 k


Średnia arytmetyczna szereg przedziałowy

xˆ1n1  xˆ2 n2  ...  xˆk nk 1 x    xi ni N N i 1 k


Mediana szereg wyliczeniowy  x n 1  2 Me   x n  x n 1 2  2  2

gdy n  nieparzyste, gdy n  parzyste


Mediana szereg przedziałowy n skum  n pm 1 Me  xlpm  2  rpm n pm


Dominanta szereg punktowy

Dominantą w szeregu punktowym jest największa liczebność dla danej cechy


Dominanta szereg przedziałowy Do  xlpd 

n

n pd  n pd 1

pd

 n pd 1   n pd  n pd 1 

 rpd


Kwantyle Najczęściej używanymi kwantylami są: • Kwartyle • Decyle • Percentyle


Kwartyl pierwszy szereg przedziałowy

Q1  xlpq

N skum  n pq 1  4  rpq n pq


Kwartyl trzeci szereg przedziałowy Q3  xlpq

3N skum  n pq 1 4   rpq n pq


Miary zmienności • • • • • • • •

Wariancja Odchylenie standardowe Klasyczny współczynnik zmienności Odchylenie przeciętne Rozstęp Rozstęp międzykwartylowy Odchylenie ćwiartkowe Pozycyjny współczynnik zmienności


Wariancja szereg wyliczeniowy

 x  x  k

s  2

i 1

2

i

N


Wariancja szereg punktowy

 x  x   n k

s  2

i 1

2

i

i

N


Wariancja szereg przedziałowy

 xˆ  x   n k

s  2

i 1

2

i

i

N


Odchylenie standardowe

 s s  2

wariancja

2


Klasyczny współczynnik zmienności

Vs 

 x

100%


Odchylenie przeciętne k

1 d    xi  x N i 1


Rozstęp szereg punktowy

R  xmax  xmin


Rozstęp międzykwartylowy

Rq  Q3  Q1 Q3  Q1 

trzeci kwartyl pierwszy kwartyl


Odchylenie ćwiartkowe

Q3  Q1 Q 2


Pozycyjny współczynnik zmienności

Q Vq  100% Me


Miary asymetrii • Wskaźnik skośności • Współczynnik asymetrii Pearsona • Pozycyjny wskaźnik skośności • Pozycyjny współczynnik asymetrii • Trzeci moment centralny • Klasyczny współczynnik asymetrii


Wskaźnik skośności

Ws  x  Do


Współczynnik asymetrii Persona

Ap 

x  Do


Pozycyjny wskaźnik skośności

W poz  Q3  Q1  2 Me


Pozycyjny współczynnik asymetrii

Apoz

Q3  Q1  2 Me  Q3  Q1


Trzeci moment centralny szereg punktowy

 x  x   n k

m3 

i 1

3

i

i

N


Trzeci moment centralny szereg przedziałowy

 xˆ  x   n k

m3 

i 1

3

i

i

N


Klasyczny współczynnik asymetrii

As 

m3

3


Miary koncentracji Współczynnik kurtozy

Współczynnik ekscesu Krzywa koncentracji Lorenza

Współczynnik koncentracji Giniego


Współczynnik kurtozy k

K

m4

4

 x  x  i 1

4

i

N

1

4


Współczynnik ekscesu

K  K  3


Krzywa Lorenza 100%

80% 60% 40% 20% 0% 0%

20%

40%

60%

80%

100%


Współczynnik koncentracji Giniego

a G 5000

a G 0,5


Badanie związków między cechami • Analiza korelacji • Współczynnik korelacji liniowej Pearsona • Współczynnik korelacji rang Spearmana

• Analiza regresji • Liniowy model regresji


Współczynnik korelacji liniowej Pearsona n

r

 x  x  y i

i 1

n

i

 y

n

 x  x    y i 1

2

i

i 1

 y

2

i


Liniowy model regresji

y  1 x   0   n

1 

 x  x  y i

i 1

n

 y

i

 x  x  i 1

2

i

 0  y  1 x


Podstawowe pojęcia rachunku prawdopodobieństwa • Przestrzeń zdarzeń elementarnych • Zdarzenie losowe • Prawdopodobieństwo • Zmienna losowa • Dystrybuanta


Przestrzeń zdarzeń elementarnych

Przestrzeń zdarzeń elementarnych to wszystkie możliwe wyniki doświadczenia. Przestrzeń zdarzeń elementarnych oznaczamy symbolem Ω.


Zdarzenie losowe

Zdarzenie losowe to podzbiór przestrzeni zdarzeń elementarnych Ω, które z góry wyróżnia eksperymentator.


Prawdopodobieństwo Prawdopodobieństwem nazywamy funkcję, która każdemu zdarzeniu A   przyporządkowuje liczbę P A spełniającą następujące aksjomaty: • •


Zmienna losowa Niech dana będzie przestrzeń probabilistyczna (Ω, ζ, P). Funkcję X, określoną na przestrzeni zdarzeń elementarnych Ω, o wartościach rzeczywistych oraz taką, że dla każdego t   zbiór

   : X    t

jest zdarzeniem (czyli należy do ζ), będziemy nazywać zmienną losową.


Dystrybuanta Funkcję

FX :   0, 1, określoną wzorem

FX t   P   : X    t nazywamy dystrybuantą zmiennej losowej X.


Wartość oczekiwana


Wariancja

VarX  EX  EX  2

2


Wybrane rozkłady zmiennych Rozkłady zmiennych losowych typu skokowego

Rozkłady zmiennych losowych typu ciągłego

dwumianowy

normalny

Poissona

t-Studenta

χ2


Rozkład dwumianowy


Rozkład Poissona


Rozkład normalny


Rozkład t-Studenta  n  1  n 1    2 2   x 2   1   f x   n  n n     2


Rozkład χ2 n x  1  1 2 2 x e  n f  x    2 2   n  2  0

,x 0 ,x  0


Przedział ufności dla średniej (r. n.) przy znanym odchyl. std. (populacji)

    P  X  Z  M  X  Z   1 N N 


Przedział ufności dla średniej (r. n.) przy nieznanym o. std. (populacji) Sx Sx   P  X  Z  M  X  Z   1 N N 


Przedział ufności dla średniej (r. t.) przy nieznanym o. std. (populacji)  Sˆ x Sˆ x  P  X  t  M  X  t   1 N N 


Przedział ufności dla wskaźnika struktury (rozkład normalny)   m P   Z N 

m m 1   m N N  p   Z N N

m m 1    N  N    1 N  


Przedział ufności dla odchylenia standardowego (r. n.)  NS 2 x P    c2

NS c2

2 x

   1  2 


Dopuszczalny błąd szacunku

Z   N 2 d 2

2


Testy statystyczne 1. Sformułuj hipotezy 2. Ustal poziom istotności

3. Dobierz statystykę testową 4. Zbuduj obszar krytyczny 5. Zdecyduj, czy wartość zmiennej losowej znajduje się w obszarze krytycznym i na tej

podstawie zdecyduj o wyniku testu


Rodzaje błędów w testowaniu hipotez Przyjęcie H0

Odrzucenie H0

H0 prawdziwa

1-α

α Błąd I-rodzaju

H0 fałszywa

β Błąd II-rodzaju

1-β


Rodzaje zbior贸w krytycznych (1)

Obszar krytyczny lewostronny H0: S = S0 H1: S < S0


Rodzaje zbior贸w krytycznych (2)

Obszar krytyczny prawostronny H0: S = S0 H1: S > S0


Rodzaje zbior贸w krytycznych (3)

Obszar krytyczny obustronny H0: S = S0 H1: S <> S0


Odczytywanie wartości z tablic dla rozkładu normalnego • Dla obszaru lewostronnego odczytujemy taką wartość -tkryt, dla której Ф(-tkryt) = α • Dla obszaru prawostronnego odczytujemy taką wartość tkryt, dla której Ф(tkryt) = α • Dla obszaru obustronnego odczytujemy taką wartość α -tkryt, dla której Ф(-tkryt) = . 2 Granicami będą wartości ±tkryt


Odczytywanie wartości z tablic dla rozkładu t-Studenta • Dla obszaru lewostronnego odczytujemy taką wartość tkryt, dla której P{|Tn-1|>tkryt} > 2α i przyjmujemy wartość ujemną (dla obszaru lewostronnego) lub dodatnią (dla obszaru prawostronnego) • Dla obszaru obustronnego odczytujemy taką wartość -tkryt, dla której P{|Tn-1|>tkryt} > α. Granicami będą wartości ±tkryt


Test istotności dla średniej (1)

Z

X  M0

N


Test istotności dla średniej (2)

X  M0 t ˆ Sx

N


Test istotności dla dwóch średnich (1)

Z

x1  x2 S

2 x1

n1

S

2 x2

n2


Test istotności dla dwóch średnich (1) t

x1  x2 n1S  n2 S  1 1     n1  n2  2  n1 n2  2 x1

2 x2


Test istotności dla wskaźnika struktury

Z

p  P0 P0 1 P0  N


Test istotności dla wariancji

Z

2 NS

2 0

2 x

 2N  3


Test istotności dla dwóch wariancji

F

S S

2 x1 2 x2


Cognity Jesteśmy firmą szkoleniowo-doradczą specjalizującą się przede wszystkim w szkoleniach informatycznych, ze szczególnym uwzględnieniem programów z pakietu Ms Office.

Przeszkoliliśmy już setki przedstawicieli klientów korporacyjnych, biznesowych, pracowników instytucji publicznych oraz klientów indywidualnych (zachęcamy do zapoznania się z treścią zakładki referencje na naszej stronie internetowej). Proponując najwyższej jakości usługi edukacyjne, umożliwiamy naszym klientom odkrywanie nowych pokładów praktycznej wiedzy, która wpływa na realną poprawę ich wyników oraz podniesienie komfortu wykonywanej pracy. OFERTA FIRMY COGNITY OBEJMUJE: ▶ Szkolenia otwarte ▶ Szkolenia zamknięte (dedykowane dla firm) ▶ Konsultacje ▶ Opiekę poszkoleniową ▶ Doradztwo informatyczne


Jeżeli jesteś zainteresowany udziałem w organizowanym przez nas szkoleniu, zapraszamy do kontaktu:

Cognity Szkolenia ul. Dietla 25/5 31-070 Kraków Tel. +48 12 421 87 54 e-mail: biuro@cognity.pl www.cognity.pl Aby być na bieżąco odwiedzaj nas również na portalu Facebook https://www.facebook.com/cognityszkolenia Zapraszamy!


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.