Je příjemné, že Statistica vynáší pro horizontální osu nejen očekávané hodnoty kvantilů (na dolním okraji) ale paralelně i odpovídající pravděpodobnosti (na horním okraji). Odchylky bodů od referenční přímky naznačují jednak to, že na rozdíl od normální distribuce jsou pozorované hodnoty zdola omezeny nulou (počet semenáčků nemůže být záporný), jednak pomalejší nárůst hodnot (část podlézající referenční přímku) odpovídající pozitivně šikmé distribuci.
Pro testování shody log-transformovaných počtů semenáčků s normálním rozdělením musíme nejprve vytvořit novou proměnnou s logaritmy původních hodnot (budeme užívat přirozené logaritmy, ale volba základu nemá vliv na tvar rozdělení). V datovém spreadsheetu přidáme novou proměnnou například pomocí příkazu Data | Variables | Add a v zobrazeném dialogovém okně zvolíme nejprve jméno proměnné (například SeedlLog místo NewVar) a pak ve větším bílém políčku v spodní části okna zadáme vzoreček definující hodnoty této proměnné, například jako =Log(v1)
Číslo 1 v názvu v1 odkazuje na skutečnost, že chceme logaritmovat první proměnnou (první sloupeček) v datech. Alternativně bychom také mohli zadat =Log(Seedlings)
Po zmáčknutí OK je (při správném zadání vzorečku) nová proměnná vytvořena a vyplněna hodnotami. Dále s ní pracujeme stejně jako v případě původní proměnné. Při testování shody s normální distribucí nejsme pak schopni tuto hypotézu zamítnout a zobrazený histogram má alespoň náznak symetričnosti distribuční křivky.
Jak postupovat v programu R
Hledání hodnoty distribuční funkce a kvantilů Podobně jako v příkladech pro kapitolu 2, i zde budeme používat dvě funkce pro spočtení kvantilů a/nebo kumulativní pravděpodobnos-
ti. Jejich jména jsou qnorm a pnorm a jejich první parametr odpovídá hodnotě pravděpodobnosti nebo hodnotě proměnné, zatímco další dva parametry udávají střední hodnotu a směrodatnou odchylku referenční normální distribuce.
> 1 – pnorm( 190, 175, 14)
[1] 0.1419884
> pnorm( 180, 175, 14) – pnorm( 160, 175, 14)
[1] 0.4975192
> 380 * (1 – pnorm( 200, 175, 14))
[1] 14.08765
> qnorm( 0.10, 175, 14)
[1] 157.0583
Testování shody s teoretickou distribucí
Pro grafické porovnání histogramu s normálním rozdělením si můžeme definovat a použít následující pomocnou funkci:
> hist.norm <- function(x,nbins=10) {
hist.x <- hist( x, breaks=nbins, col=”light blue”,main=””)
x.val <- seq( min(x), max(x), length=50)
x.fit <- dnorm( x.val, mean=mean(x), sd=sqrt(var(x)))
x.fit <- x.fit * diff(hist.x$mids[1:2]) * length(x) lines( x.val, x.fit, col=”red”, lwd=2) }
Tato funkce umožňuje změnit počet intervalů pomocí parametru nbins, ostatní volby (hladkost křivky pro normální rozdělení a barva histogramu a křivky) jsou zvoleny pevně. Graf pak vytvoříme voláním této funkce.
> hist.norm(chap4$Seedlings)