Diplomarbeit

Page 1

FERNUNIVERSITÄT GESAMTHOCHSCHULE IN HAGEN FACHBEREICH WIRTSCHAFTSWISSENSCHAFT

Diplomarbeit

im wirtschaftswissenschaftlichen Diplomstudiengang Bearbeitungszeit

12 Wochen als Vollzeitstudierender

im Fach

: Statistik

über das Thema

: Überblick über Verfahren der Varianzanalyse und deren Durchführung mit Hilfe von SAS

Eingereicht bei

: PD Dr. H.­J. Mittag

von

: Daniel Küpper

Matrikel­Nr.

: 3931218

Anschrift

: Wirtzfeld 103 B­4760 Büllingen

Telefon

: 0032(0)80647623

Abgabedatum

: 01.10.1998


GLIEDERUNG

Seite

Einleitung.................................................................................................1 1

Varianzanalyse.........................................................................................3

1.1

Einfaktorielle Varianzanalyse .................................................................3

1.1.1

Einfaktorielle Varianzanalyse mit festen Effekten..................................3

1.1.1.1 Modell......................................................................................................3 1.1.1.2 Globaler Fisher­Test................................................................................6 1.1.1.3 Multiple Mittelwertsvergleiche.............................................................10 1.1.1.4 Durchführung mit SAS..........................................................................12 1.1.2

Einfaktorielle Varianzanalyse mit zufälligen Effekten..........................18

1.1.2.1 Modell....................................................................................................18 1.1.2.2. Globaler Fisher­Test..............................................................................19 1.1.2.3 Durchführung mit SAS..........................................................................20 1.2.

Zweifaktorielle Varianzanalyse.............................................................22

1.2.1

Zweifaktorielle Varianzanalyse mit festen Effekten.............................22

1.2.1.1 Modell....................................................................................................22 1.2.1.2 Globaler Fisher­Test..............................................................................25 1.2.1.3 Multiple Mittelwertsvergleiche.............................................................27 1.2.1.4 Durchführung mit SAS..........................................................................28 1.2.2

Zweifaktorielle Varianzanalyse mit zufälligen Effekten.......................32

1.2.2.1 Modell....................................................................................................32 1.2.2.2 Globaler Fisher­Test..............................................................................33 1.2.2.3 Durchführung mit SAS..........................................................................35


1.2.3

Zweifaktorielle Varianzanalyse mit gemischten Effekten.....................35

1.2.3.1 Modell....................................................................................................35 1.2.3.2 Globaler Fisher­Test..............................................................................36 1.2.3.3 Durchführung mit SAS..........................................................................38 1.2.4

Zweifaktorielle Varianzanalyse mit festen Effekten und einer Beobachtung pro Zelle...........................................................38

1.2.4.1 Modell....................................................................................................38 1.2.4.2 Globaler Fisher­Test..............................................................................40 1.2.4.3 Durchführung mit SAS..........................................................................41 1.2.5

Zweifaktorielle hierarchische Varianzanalyse.......................................45

1.2.5.1 Modell.........................................................................................................45 1.2.5.2 Globaler Fisher­Test .............................................................................46 1.2.5.3 Durchführung mit SAS ..............................................................................48 1.2.6

Randomisierte vollständige Blockanlage...................................................48

1.2.6.1 Modell ........................................................................................................48 1.2.6.2 Globaler Fisher­Test ................................................................................50 1.2.6.3 Durchführung mit SAS 1.2.7

.......................................................................52

Zweifaktorielle Varianzanalyse, unbalanciert............................................52

1.2.7.1 Modell .....................................................................................................52 1.2.7.2 Globaler Fisher­Test

............................................................................55

1.2.7.3 Multiple Mittelwertsvergleiche

............................................................58

1.2.7.4 Durchführung mit SAS..........................................................................59 2

Statistische Grundlagen.........................................................................64

2.1

Grundgesamtheit und Stichprobe...............................................................64 3


2.2

Statistische Masszahlen..............................................................................64

2.3

Zufallsvariable............................................................................................65

2.4

Spezielle Verteilungen................................................................................66

2.4.1

Normalverteilung........................................................................................66

2.4.2

Chi­Quadrat­Verteilung..............................................................................68

2.4.3

Student­Verteilung......................................................................................68

2.4.4

Fisher­Verteilung........................................................................................68

2.5

Parametertest.........................................................................................69

2.6

Test der Normalverteilungsannahme.....................................................71

2.6.1

Residualvariable....................................................................................71

2.6.2

Durchführung mit SAS..........................................................................72

3

Das SAS­System....................................................................................73

3.1

Einführung.............................................................................................73

3.2

Die drei Fenster.....................................................................................73

3.3

Die SAS­Sprache...................................................................................74

3.4

Das SAS­Programm..............................................................................74

3.4.1

Der DATA­Step..........................................................................................74

3.4.2

Der PROC­Step.....................................................................................75

4

Schlussfolgerung...................................................................................77

5

Literaturverzeichnis...............................................................................79 Anhang


EINLEITUNG Der Begriff der Varianzanalyse geht auf R. A. Fisher (1890­1962) zurück, der ihn erstmals 1918 erwähnte. Im deutschsprachigen Raum wurde die Varianzanalyse erst nach 1945 bekannt. Sie ist ein statistisches Verfahren zur Analyse von Messdaten, die von einem oder mehreren zwei­ oder mehrfach abgestuften Faktoren abhängen. Dabei wird bestimmt, inwieweit die Faktoren (unabhängige Variablen) die Beobachtungsvariable (abhängige Variable) beeinflussen. In dieser Arbeit werden nur Varianzanalysen mit einer abhängigen Variablen behandelt. Diese werden auch univariate Varianzanalysen genannt. Varianzanalysen mit mehreren abhängigen Variablen nennt man multivariate Varianzanalysen. Die Varianzanalyse lässt sich auch als Regressionsanalyse interpretieren, in der die Regressoren nach entsprechender Kodierung nur die Werte 0 und 1 annehmen können. Die Arbeit ist in drei Kapitel eingeteilt. Im 1. Kapitel werden in 7 Unterkapiteln verschiedene Fälle von Varianzanalysen mit quantitativer Beobachtungsvariablen behandelt: ein­ und zweifaktoriell, mit festen, zufälligen und gemischten Effekten, balanciert und unbalanciert, hierarchisch und randomisierte Blockanlage. Leere Zellen mit nij = 0 werden nicht behandelt. Die meisten der Unterkapitel bestehen aus den drei Abschnitten: Modell, Globaler Fisher­Test und Durchführung mit SAS. Im 2. Kapitel werden kurz einige statistische Grundlagen, die im 1. Kapitel gebraucht werden, erläutert. Das 3. Kapitel enthält Erklärungen zu den SAS­ Anwendungen, mit denen die vier Beispielsdateien berechnet wurden. Diese Berechnungen sind im Anhang zu finden und werden im 1. Kapitel in den Abschnitten ‘Durchführung mit SAS’ interpretiert. 5


Es wurden Dateien für die vier Fälle der Varianzanalysen mit festen Effekten mit der SAS­ Version 6.12 auf einem Pentium­PC mit Windows 95 berechnet. Dabei wurde besonderen Wert auf die Überprüfung der Voraussetzung der Normalverteilung der Fehlervariablen mit dem Shapiro­Wilk­Test in SAS gelegt. Mit dem Statistik Softwarepaket SAS lassen sich umfangreiche, statistische Datenanalysen innerhalb kürzester Zeit auf dem PC durchführen. Die vier berechneten Dateien sind die Niere­, die Wald­, die Umwelt­ und die Geburt­Datei. Sie wurden in der Literatur, aus der sie entnommen sind, nicht zur Berechnung von univariaten Varianzanalysen verwendet, sondern zu anderen Zwecken. Eine Ausnahme bildet die Wald­ Datei, deren Zellen aus den 9 ersten der 16 Beobachtungen der Zellen einer balancierten Datei bestehen, mit der eine zweifaktorielle Varianzanalyse in der Originalliteratur mit anderen Ergebnissen berechnet wurde. Arithmetische Mittel werden zwar üblich mit Querstrich als Kennung versehen. In der Literatur gibt es aber auch Ausnahmen, wie z.Bsp. in Ahrens, H./ Läuter, J. (1974) und in Toutenburg, H. (1994). Ich habe mich aus computertechnischen Gründen diesen Beispielen angeschlossen und die arithmetischen Mittel ohne Querstrich aber mit einem Punkt im Index geschrieben, was zur Kennung ausreichen dürfte. Es wird über den Index gemittelt, der durch einen Punkt ersetzt wurde. Da mit SAS keine rechts­bündige Druckausgabe möglich ist, wurden die Seiten des Anhangs links eingebunden, damit alles sichtbar bleibt.


1 VARIANZANALYSE 1.1 Einfaktorielle Varianzanalyse 1.1.1 Einfaktorielle Varianzanalyse mit festen Effekten 1.1.1.1 Modell Zur Einführung des Modells gehen wir von folgendem Beispiel der Niere­Datei (Untersuchung an der Universitätskinderklinik Heidelberg, entnommen Graf, A. (1993), S. 219­220) aus: Zur Untersuchung der Leistungsfähigkeit von weiblichen Kindern und Jugendlichen mit chronischer Niereninsuffizienz wurden diese einem Leistungstest mit einem Ergometer unterzogen. Dann wurde ihre Herzfrequenz gemessen. Die Patientinnen wurden in drei Untersuchungsgruppen ugr=1,2,3 eingeteilt, je nach Krankheitsstadium und es wurde eine Kontrollgruppe ugr=0 mit gesunden Mädchen angefügt. In jeder Gruppe befinden sich unterschiedlich viele Personen. Allgemein formuliert wird in einer einfaktoriellen Varianzanalyse getestet, ob eine Einflussgrösse (Faktor) eingeteilt in unterschiedliche Stufen einen Einfluss auf eine Beobachtungsvariable yij hat (Dufner, J. (1992), S. 192; Falk, M. (1995), S. 171; Schach, S. (1978), S. 170). Die N Testeinheiten sind in k Gruppen eingeteilt zu je ni Einheiten (i=1,...,k). Die Einheiten in der i­ten Gruppe tragen den Index j=1,...,ni. Es gilt: i=k

N = ∑ ni i =1

In unserem Beispiel sind die Kinder die Einheiten und das Krankheitsstadium ist der Faktor A, der in k=4 Stufen von gesund bis schwerkrank eingeteilt ist. Die Herzfrequenz ist die 7


Beobachtungsvariable yij In der einfaktoriellen Varianzanalyse gehört zu jeder Stufe eine Untersuchungsgruppe, daher auch der Name Einfachklassifikation. Wenn man nun die arithmetischen Mittelwerte der Herzfrequenzen in jeder Gruppe berechnet, können diese unterschiedlich hoch ausfallen. Die Frage ist, ob es eine Abhängigkeit zwischen Herzfrequenz und Krankheitsstadium gibt. Zur Beantwortung dieser Frage wird getestet, ob die Abhängigkeit der Beobachtungsvariablen (Herzfrequenz) vom Einflussfaktor (Krankheitsstadium) zufällig ist oder nicht. Zufällig bedeutet, dass die Schwankungen der Beobachtungsvariablen durch den Versuchsfehler entstehen und keine reale Abhängigkeit der Beobachtungsvariablen vom Einflussfaktor darstellen. Die Varianzanalyse wird bei solchen Versuchen angewandt, wo man den Versuchsfehler nicht vernachlässigen kann und sie gibt Möglichkeiten an die Hand zwischen zufälliger und realer Abhängigkeit zu unterscheiden. Man kann sich nun folgende zwei Fragen stellen: 1. ändern sich die durchschnittlichen Herzfrequenzwerte von einer Untersuchungsgruppe zur andern? 2. wenn ja, für welche Gruppen genau tritt eine Änderung auf, d.h. bei welchen Gruppen sind die durchschnittlichen Herzfrequenzwerte verschieden? Im ersten Fall werden die paarweisen Vergleiche zwischen den Mittelwerten zugleich (simultan) in einem einzigen (globalen ) statistischen Test getestet. Die Nullhypothese postuliert, dass alle Durchschnitte der Faktorstufen gleich sind. Sobald in einem Vergleich die Mittelwerte signifikant verschieden sind, wird die Nullhypothese abgelehnt. Man weiss dann zwar, dass zwei oder mehrere Mittelwerte sich signifikant unterscheiden, man weiss aber nicht welche. Dies kann man zweitens in einzelnen paarweisen Vergleichen in allen Kombinationsmöglichkeiten testen. Sind die Stichprobenumfänge der k Gruppen, auch Zellen genannt, alle gleich n1=...=nk=n liegen balancierte Daten vor; sind sie ungleich spricht man von unbalancierten Daten (Falk, M. (1995), S. 178; Searle, S. R. (1992), S. 4). Bei balancierten Daten ist die Varianzanalyse robuster gegen Verletzungen der Voraussetzungen Normalverteilung und Homoskedastie der Fehlervariablen. Man kann folgendes lineares Modell formulieren um die Abhängigkeit der


Beobachtungsvariablen von den Stufendurchschnitten der Einflussfaktorvariablen zu beschreiben (Falk, M. (1995), S. 173; Schach, S. (1978), S. 172; Searle, S. R. (1992), S. 44): Yij = µi + εij = µ + τ i + εij (i=1,...,k; j=1,...,ni) mit den Voraussetzungen: Yij = unabhängig normalverteilte Zufallsvariable mit Erwartungswert

i

und unbekannter Varianz

. Die Realisierung yij ist die j­te Beobachtung in der Zelle i gebildet von Stufe i des Faktors.

2

ij

= unabhängig normalverteilte Zufallsvariable mit Erwartungswert 0 und gleicher unbekannter

Varianz 0 ij2 = p 2 (Homoskedastie). p ij ist der Versuchsfehler, der von anderen zufälligen, bekannten oder unbekannten Einflüssen auf die Beobachtungsvariable herrührt, die kleiner sind als der Einfluss des Faktors A. Wenn einer der bekannten Einflüsse zu gross wird muss man ihn als zweiten Faktor B in das Modell einbeziehen und kommt so zur zweifaktoriellen Varianzanalyse. Wenn man einen Versuch mehrmals wiederholt, erhält man auch unter gleichbleibenden, kontrollierten Versuchsbedingungen immer verschiedene Werte für die Beobachtungsvariable. Dies bedingt Unsicherheit, die mit statistischen Methoden analysiert werden muss. Die Unterschiede zwischen diesen Werten werden in einer Zelle immer vom Versuchsfehler erfasst. = reelles Allgemeinmittel p i = fester, reeller Effekt des Faktors A auf Stufe i. Es kann sein, dass eine andere lineare oder eine nichtlineare Modellgleichung die Wirklichkeit besser beschreibt. Die Theorie ist dann jedoch mit einem höheren mathematischen Aufwand verbunden. Wir definieren: 1 i=k µ = ∑ µi k i =1 9


i

= pi ­ —

daraus folgt die Parameterrestriktion: i=k

∑τ = 0 i =1

i

Die Schätzung der Modellparameter ergibt (Falk, M. (1995), S. 174; Schach, S. (1978), S. 180):

µ = y.. µi = yi . τi = yi . − y.. εij = yij − yi . mit dem arithmetischen Mittel von Zelle i: yi . =

1 j = ni ∑y ni j =1 ij

und dem arithmetischen Gesamtmittel: y.. =

1 i = k j = ni 1 i=k y = ∑∑ ∑n y N i =1 j =1 ij N i =1 i i .

Regel: Wenn ein Index durch einen Punkt ersetzt ist, wurde über diesen Index gemittelt.

1.1.1.2 Globaler Fisher­Test Als erstes soll nun geprüft werden, ob die Erwartungswerte

i

= x + —i sich global unterscheiden.

Man vergleicht also k normalverteilte Grundgesamtheiten bezüglich ihrer Mittelwerte. Ein geeigneter statistischer Test prüft die Hypothese: H0: x 1=...=‚ k=0


gegen die Alternativhypothese: HA:

r

Ł pt

(für ein Wertepaar r —t) zu einem vorgegebenen Niveau 0. Dafür kann ein F­Test verwendet werden. Wenn x i = 0 für alle i ist, gilt im Modell: Yij = ‘ +

ij

d.h. yij schwankt in der Grösse des Versuchsfehlers um den festen Wert des Allgemeinmittels x. Es besteht keine nicht­zufällige, nicht­konstante Abhängigkeit vom Einflussfaktor A. Um die unter der Nullhypothese H0 zentral F­verteilte Teststatistik F aufzustellen, zerlegen wir die aus der Totalvarianz herrührende Totalquadratsumme SS_CTotal in die Quadratsummen SS_Model und SS_Error (Dufner, J. (1992), S. 193. Toutenburg, H. (1994), S. 13): i = k j = ni

SS _ CTotal = ∑ ∑ ( yij − y.. ) 2 = i =1 j =1

i = k j = ni

= ∑ ∑ (( yij − yi . ) + ( yi . − y.. )) 2 = i =1 j =1

i = k j = ni

i = k j = ni

= ∑ ∑ ( yij − yi . ) + ∑ ∑ ( yi . − y.. ) 2 + i =1 j =1

2

i =1 j =1

i = k j = ni

+ 2∑ ∑ ( yij − yi . )( yi . − y.. ) = i =1 j =1

i=k

i = k j = ni

i =1

i =1 j =1

= ∑ ni ( yi . − y.. ) 2 + ∑ ∑ ( yij − yi . ) 2 = = SS_Model + SS_Error (die Summe in der vierten Zeile ist identisch gleich 0) mit:

11


i=k

SS _ Model = ∑ ni ( yi . − y.. ) 2 i =1

und i = k j = ni

SS _ Error = ∑ ∑ ( yij − yi . ) 2 i =1 j =1

SS_Model steht für die Variabilität, die sich aus der Abweichung der Gruppenmittel vom Gesamtmittel ergibt, während SS_Error für die Abweichung der Werte vom jeweiligen Gruppenmittel steht. Die Freiheitsgrade DF von SS_CTotal, SS_Model und SS_Error sind N­1, k­1 und N­k. Man setzt für die Mittelquadratsummen MS = SS/DF also MS_Model = SS_Model/(k­1) MS_Error = SS_Error/(N­k) Man berechnet den Erwartungswert E(MS) von MS wie folgt: die Realisationen yij, yi. und y. werden ersetzt durch ihre Zufallsvariablen Yij, Yi. und Y.. ; dann ist MS eine Zufallsvariable, deren Erwartungswert E(MS) man unter Berücksichtigung von den aus der Modellgleichung berechneten folgenden Ausdrücken: E(Yij) = h i E(Yi.) =

i

1 i=k E (Y.. ) = ∑ ni µi N i =1 berechnet. Der Erwartungswert von MS_Model ist: E ( MS _ Model ) = σ 2 + und von MS_Error ist:

1 i=k ∑n τ 2 ( k − 1) i =1 i i


E ( MS _ Error ) = σ 2 Man schätzt x 2 mit SS_Error/(N­k) erwartungstreu. Es lässt sich zeigen, dass SS_Model/0 2 und SS_Error/h 2 bei Zutreffen der Nullhypothese H0 stochastisch unabhängig und zentral

­verteilt sind mit Freiheitsgrad k­1 bzw. N­k. Also ist nach

2

Definition der Fisher­Verteilung die Teststatistik (Zöfel, P. (1992), S. 14): F=

SS _ Model / ( k − 1) MS _ Model = SS _ Error / ( N − k ) MS _ Error

unter H0 zentral F­verteilt mit Freiheitsgraden k­1 und N­k. Es soll nun gezeigt werden, wie diese Form der Teststatistik mit den Erwartungswerten E(MS) vermutet werden konnte. Es gilt approximativ unter Gültigkeit der Nullhypoyhese H0: E ( MS _ Model ) MS _ Model ≈ E( ) E ( MS _ Error ) MS _ Error Wir ersetzen die E(MS) durch ihre Ausdrücke und erhalten: i=k E ( MS _ Model ) 1 MS _ Model = 1+ ni τ i2 ≈ E ( ) = E(F) ∑ 2 E ( MS _ Error ) MS _ Error ( k − 1)σ i =1

Die linke Seite dieser Näherungsgleichung ist dann und nur dann gleich 1, wenn die Nullhypothese H0 gilt, wenn also 0 1=...=x k=0 ist (eine Quadratsumme mit positiven Koeffizienten ist bekanntlich dann und nur dann gleich 0, wenn alle Quadrate gleich 0 sind). Daraus folgt: dann und nur dann wenn die Alternativhypothese HA gilt, ist der Quotient grösser als 1. Unter Gültigkeit der Nullhypothese gilt für den Erwartungswert E(F) der Teststatistik nach 2.4.4: E(F) =

N −k ≈1 N −k −2

E(F) ist annähernd gleich 1 für grosse N und kleine k. Damit ist die Vermutung bestätigt. Die Nullhypothese H0: x 1=...=—k=0 ist zum Niveau H abgelehnt, wenn die Ungleichung (Dufner, 13


J. (1992), S. 195): F > F1­h,k­1,N­k gilt. Im Beispiel der Niere­Datei ist E(F) = 30/28 = 1,07; wegen N = 34 und k = 4. Bei h = 0,05 gilt F1­¨ ,k­1,N­k = F0,95;3;30 = 3,71. Wenn F also soweit von 1,07 abweicht, dass F > 3,71 ist, dann ist die Nullhypothese widerlegt und es gibt einen realen Einfluss des Krankheitsstadiums auf die Herzfrequenz der Patientinnen. In der Varianzanalyse der Niere­Datei entnehmen wir dem SAS­ Output im Anhang S. 83: F = 4,35 was für eine reale Abhängigkeit zum Signifikanzniveau

=

0,05 spricht.

1.1.1.3 Multiple Mittelwertsvergleiche Will man zweitens wissen, welche Stufen wirkungsvoller sind als andere, wenn der globale F­ Test der einfaktoriellen Varianzanalyse signifikant war, dann kann man statistische Verfahren zum Vergleich der Mittelwerte anwenden (Dufner, J. (1992), S. 209). Diese Verfahren können folgende unterschiedlichen Ziele haben: ­ man vergleicht alle möglichen Paare von Mittelwerten; bei k Stufen von Faktor A sind es m = k(k­1)/2 Paare, ­ man vergleicht k­1 Mittelwerte mit einer Kontrollgruppe, das sind m = k­1 Paare. Würde man für alle m (>1) Vergleiche jeweils einen t­Test zum selben Niveau x* durchführen, dann wäre das multiple Niveau ‘ grösser als x*. Das multiple Niveau

ist die

Wahrscheinlichkeit, mit der mindestens eine der Hypothesen der m Vergleiche irrtümlich abgelehnt wird, dies ist dann auch genau das Niveau ‘ des globalen Tests. Das Niveau x* der multiplen Tests muss also kleiner sein als das Niveau x des globalen Tests. Es ist folgende Abschätzung von ‘ gegeben:

α * ≤ α ≤ 1 − (1 − α *) m Beim PLSD­Test von Fisher (PLSD ist die Abkürzung für „protected least significant


difference“; Toutenburg, H. (1994), S. 103) wird die Nullhypothese H0rt: 0 r= t=0 (oder h r=0 t) zum Niveau

abgelehnt, wenn gilt:

y r . − y t . > t 1−α / 2 , N − k s

1 1 + nr nt

s2 ist gleich der erwartungstreuen Schätzung MS_Error von ¨ 2. Der Scheffé­Test beruht auf der Teststatistik (Dufner, J. (1992), S. 213­214): FScheffé = ( y r . − y t . ) 2 / s 2 (

1 1 + )( k + 1) nr nt

die ein Spezialfall für zwei Mittelwerte der Teststatistik F des globalen F­Tests ist und deshalb gilt * = Ł. Es ist Fscheffé unter der Nullhypothese H0rt: x r=h t=0 mit den Freiheitsgraden k­1 und N­ k F­verteilt. Die Nullhypothese wird zum Niveau h abgelehnt, wenn gilt: y r . − y t . > s ( k − 1) F1−α ,k −1, N − k (

1 1 + ) n r nt

Auch hier ist s2 gleich der erwartungstreuen Schätzung MS_Error. In beiden Tests werden bei signifikantem Faktor mit mehr als zwei Stufen die einzelnen Stufen paarweise auf signifikante Unterschiede überprüft. Sollen allgemein einzelne Zellen auf signifikante Unterschiede überprüft werden, verwenden wir den Duncan­Test (Zöfel, P. (1992), S. 38). Dieser ist erst bei mehrfaktoriellen Varianzanalysen sinnvoll beim Vergleich von Zellen verschiedener Faktoren. Wenn die Zellenmittelwerte yr. und yt. geprüft werden sollen, zählt man wieviel Zellenmittelwerte der Grösse nach zwischen yr. und yt. liegen. Mit dieser Anzahl m berechnet man: c=

MS _ Error 1 1 ( + ) 2 n r nt

und:

15


d = c q (m+2,N­k) q (m+2,N­k) ist die zu den Werten ¤, m+2 und N­k gehörige studentisierte Variationsbreite. Die beiden Zellenmittelwerte unterscheiden sich signifikant zum Niveau , wenn gilt: yr . − yt . ≥ d

1.1.1.4 Durchführung mit SAS Zur Durchführung mit dem SAS­System wurde ein Programm für die Niere­Datei als Beispiel geschrieben und zur Ausführung gebracht. Das berechnete Ergebnis, der Output, wurde ausgedruckt und ist im Anhang von S. 82 bis S. 87 zu finden. Wir wollen aber vorher demonstrieren, wie die Rohdaten des Beispiels als SAS­Systemdatei gespeichert werden (Gogolok, J. (1992), S. 113). Das Programm dazu lautet: LIBNAME neu ‘d:\daniel’; DATA XY1; INPUT ugr hfs @@; CARDS; .............................. ; RUN; DATA neu.niere; SET XY1; RUN; Im ersten DATA­Step (das ist der Programmteil von DATA bis RUN) wird eine temporäre Datei mit dem Namen ‘XY1’ durch Einlesen der Daten (anstelle der Punkte) mit der Tastatur über CARDS eingegeben. In der INPUT­Anweisung werden die Variablen ugr und hfs definiert. Im zweiten DATA­Step wird die Datei ‘XY1’ in die permanente Datei ‘niere’ übertragen, die dauerhaft in der SAS­Bibliothek mit Namen ‘neu’ abgespeichert ist. Durch die Anweisung


LIBNAME befindet sich der Ordner mit dem SAS­Namen ‘neu’ und dem DOS­Namen ‘daniel’ auf der Festplatte am Speicherplatz ‘d:\daniel’ Wenn wir nun die Datei ‘niere’ benötigen, brauchen wir nur mit der Anweisung SET neu.niere auf die SAS­Bibliothek ‘neu’ zuzugreifen. So weit diese Vorbereitung zur Übertragung der Rohdaten in eine permanente SAS­Datei. Wir nehmen im Folgenden an, dass diese Vorbereitungen für die anderen Dateien schon gemacht sind und gehen nicht nochmal darauf ein. Das Programm für die einfaktorielle Varianzanalyse mit festem Effekt der Niere­Datei ist in 5 Teilen eingeteilt worden, die wir jetzt zusammen mit dem dazugehörigen Output nacheinander behandeln werden. Der 1. Teil des Programms lautet: LIBNAME neu ‘d:\daniel’; DATA dk1; SET neu.niere; Hier wird die permanente SAS­Datei neu.niere aus der SAS­Bibliothek neu im Ordner daniel auf der Festplatte in eine temporäre Datei dk1 übertragen. Sie existiert nur für die Dauer der Sitzung und ist danach verloren. Einen Output haben wir für diesen Programmteil noch nicht. Der 2. Teil des Programms lautet (Dufner, J. (1992), S. 199­201): PROC GLM DATA = dk1; CLASS ugr; MODEL hfs = ugr; Die Prozedur GLM wird mit der Datei dk1 ausgeführt. In der CLASS­Anweisung muss die Faktorvariable ugr angegeben werden. In der MODEL­Anweisung wird zwingend die Modellgleichung als Beobachtungsvariable hfs getrennt durch das Gleichheitszeichen von der Faktorvariablen ugr angegeben (Schuemer, R. (1990), S. 11­13). Dadurch wird die einfaktorielle Varianzanalyse der Niere­Datei berechnet mit dem Output im Anhang S. 82­83. Auf S. 82 erhält man nur die Information über die Faktorvariable ugr mit der Anzahl und den 17


Ausprägungen der Stufen (Klassen, levels) und der Anzahl der Beobachtungen (Observationen) der Datei. Auf S. 83 erhält man in Tabellenform (auch Anova­Tabelle genannt, Anova ist die Abkürzung für analysis of variance) die Werte der Quadratsummen SS (sum of square) mit den Freiheitsgraden DF und den Mittelquadratsummen MS = SS/DF. Den Wert der Teststatistik F des globalen Fisher­Tests (Abschnitt 1.1.1.2) finden wir unter (F value) = 4,35. Die Überschreitungswahrscheinlichkeit P(X > F) wird (wobei X eine F­verteilte Zufallsvariable mit Freiheitsgraden k­1=3 und N­k=30 ist) durch (Pr>F)=0,0117 gegeben. Diesen Wert kann man sofort mit dem Signifikanzniveau —vergleichen, um über die Ablehnung der Nullhypothese zu entscheiden. Die Nullhypothese wird abgelehnt, wenn

grösser als (Pr>F) ist. Hier ist (Pr>F) =

0,0117, dann wird die Nullhypothese bei p > 0,02 abgelehnt. Die Schätzung der Modellvarianz ist MS_Error = 419,0449. Die folgenden Grössen auf S.2 bedeuten: R­Square = SS_Model/SS_CTotal = Bestimmtheitsmass = 0,303209 C.V. = 100 Root MSE/HFS Mean = Variationskoeffizient = 12,358 % Root MSE = (MS_Error)1/2 = 20,471 HFS Mean = y. = Gesamtmittel von HFS = 165,65 Das Bestimmtheitsmass gibt mit einem Wert nahe bei 1 an, ob das lineare Modell gut an das Problem angepasst ist. Hier haben wir mit 0,3 einen sehr schlechten Wert. Das Problem wird durch das lineare Modell nicht gut beschrieben, ein nicht­lineares Modell o.ä. wäre vielleicht besser geeignet. Der Rest auf S. 2 ist nur eine zweimalige Wiederholung der Model­Zeile der Anova­Tabelle und ist nur bei mehrfaktoriellen Varianzanalysen brauchbar. Der 3. Teil des Programms lautet: OUTPUT OUT = res_r RESIDUAL = r; MEANS ugr / SCHEFFE CLDIFF alpha = 0.05; MEANS ugr / DUNCAN alpha = 0.05;

2


TITLE ‘Einfaktorielle Varianzanalyse der Niere­Datei’; Mit der Option RESIDUAL wird mit der Prozedur GLM das Residuum r (Abschnitt 2.6.1) berechnet und mit OUTPUT OUT in der temporären Datei res_r eingegeben (Dufner, J. (1992), S. 203; Schuemer, R. (1990), S. 23). Die Datei res_r hat denselben Inhalt wie die Niere­Datei zuzüglich den Residuen, siehe Ausdruck Anhang S. 86. In den beiden folgenden MEANS­Anweisungen werden multiple Mittelwertsvergleiche der Stufenmittelwerte mit dem Scheffé­ und dem Duncan­Test zum Signifikanzniveau alpha = 0,05 durchgeführt (Dufner, J. (1992), S. 216­218; Schuemer, R. (1990), S. 21­22). In der MEANS­ Anweisung müssen die Klassifizierungsvariable ugr und die Optionen SCHEFFE, DUNCAN und alpha = wert stehen. In MEANS ist für alpha der Wert 0,05 voreingestellt, d.h. er bräuchte eigentlich nicht angegeben zu werden. In DUNCAN sind nur die Werte 0,1; 0,05 und 0,01 verfügbar. Die CLDIFF­Option im Scheffé­Test bewirkt, dass die Konfidenzgrenzen zu den Mittelwertsdifferenzen ausgegeben werden. Die signifikanten Fälle sind durch 3 Sternchen gekennzeichnet; es sind die Fälle wo die Null nicht zum Konfidenzintervall gehört. Bei der LINES­Option, wie beim Duncan­Test in S. 85 des Anhangs, sind die Mittelwerte in absteigender Reihenfolge ausgedruckt, wobei Gruppen von untereinander nicht signifikant verschiedenen Mittelwerten durch Linien (senkrechte Buchstabenkolonnen) gekennzeichnet sind. LINES entspricht der Voreinstellung bei DUNCAN und ist deshalb nicht im Programm angegeben worden. Beim Scheffé­Test sehen wir im Ausdruck Anhang S. 84, dass nur der Vergleich zwischen dem 1. und 2. Stufenmittelwert vom Faktor Untersuchungsgruppe beim Niveau 0,05 signifikant ist. Beim Duncan­Test sehen wir im Ausdruck Anhang S. 85, dass die 1. und 2. bzw. 1. und 4. Stufenmittelwerte signifikant verschieden sind. Mit der TITLE­Anweisung wird der Ausdruck mit einem Titel versehen. Der Programmteil 4 lautet: LABEL ugr = ‘Untersuchungsgruppe’ hfs = ‘Herzfrequenz’ r = ‘Residuum’; 19


PROC PRINT DATA = res_r LABEL; TITLE ‘Die Niere­Datei mit Residuen’; Mit der Prozedur PRINT wird hier die Datei res_r ausgedruckt. Vorher werden die Variablennamen ugr, hfs und r mit der LABEL­Anweisung im Ausdruck durch ihre ausgeschriebenen Bezeichnungen ersetzt (Gogolok, J. (1992), S. 373). Am Ende wird ein Titel mit der TITLE­Anweisung hinzugefügt. Auf S. 86 im Anhang ist der Ausdruck der Datei res_r zu finden. Der 5. und letzte Teil des Programms lautet: PROC UNIVARIATE DATA = res_r NORMAL; VAR r; TITLE1 ‘Test der Normalverteilungsannahme’; TITLE2 ‘der Niere­Datei’; RUN; Hier wird die Prozedur UNIVARIATE an der Datei res_r mit der Option NORMAL ausgeführt. Mit dieser Option werden die Variablen der Datei daraufhin getestet, ob sie normalverteilt sind. Mit der VAR­Anweisung wird nur die Variable r berücksichtigt. Der Output der Prozedur UNIVARIATE befindet sich auf S. 87 des Anhangs und ist in Moments, Quantiles und Extremes eingeteilt. Unter Moments sind folgende Begriffe zu erklären: Die Anzahl N der Beobachtungen ist N = 34. Die Summe (sum) und der Mittelwert (mean) sind nach der Definition der Residuen gleich 0. Die Standardabweichung (Std Dev) ist 19,51794 und deren Quadrat, die Varianz (Variance) ist 380,9499. Die Werte der Schiefe (skewness = ­0,10955) und Wölbung (kurtosis = ­0,04996) von nahe 0 zeigen Normalverteilung an. Der Variationskoeffizient CV kann nicht berechnet werden, weil Mean im Nenner 0 ist. Es wird ein t­ Test ausgeführt zur Nullhypothese Mean = 0, dessen Teststatistik T gleich 0 und dessen Überschreitungswahrscheinlichkeit (Pr> Tł ) gleich 1 ist. Das Signifikanzniveau kann 1 aber nicht überschreiten, es ist also unmöglich die Nullhypothese zu wiederlegen. Der Ausdruck Num^=0 gibt die Anzahl der Beobachtungen an, die ungleich 0 sind, es sind alle 34. Num>0 gibt


die Anzahl der positiven Beobachtungen an, es sind 19. W:Normal ist die Teststatistik W des Normalverteilungstests (Shapiro­Wilk­Test), sie hat den Wert W = 0,981576. Für Werte von W nahe bei 1 gilt die Normalverteilungsannahme. Die Wahrscheinlichkeit (Pr<W) der Unterschreitung von W ist 0,8612. Wenn das Signifikanzniveau kleiner als (Pr<W) ist, dann ist die Normalverteilungsannahme gerechtfertigt. Dies ist hier für Signifikanzniveaus bis zu 0,8 der Fall, gewöhnlich gibt man den Wert 0,1 vor. Die weniger wichtigen statistischen Masse von Moments wollen wir nur einmal an dieser Stelle erläutern und später nicht mehr darauf eingehen. Es gilt immer Sum Wgts = N, wenn man wie wir keinen Gebrauch von der WEIGHT­Anweisung gemacht hat. USS ist die Quadratsumme der Variablen r. Es gilt CSS = Variance*(N­1) und Std Mean = Std Dev/N1/2. Es ist M(Sign) die zentrierte Signum­Statistik zur Prüfung der Hypothese: Median = 0 mit der Überschreitungswahrscheinlichkeit Pr>= M und Sgn Rank ist der Signed Rank S­Wert für die Hypothese: Mean = 0 mit der Überschreitungswahrscheinlichkeit Pr>=—SX. Unter Quantiles sind die wichtigsten ‘ ­Quantile, mit Wahrscheinlichkeit P = 50 % hat man den Median, bei

in %, angegeben. Bei

= 25 % bzw. X = 75 % hat man das erste bzw. dritte Quartil.

Darunter folgt die Spannweite (range = 86) das ist die Differenz zwischen Maximal­ und Minimalwert. Der Quartilsabstand (Interquartil Range = 28) ist die Differenz zwischen dem dritten und ersten Quartil = Q3­Q1. Als letztes folgt der Modalwert (Mode = ­5,92308. Unter Extremes sind die 5 niedrigsten und die 5 höchsten Werte von r angegeben mit ihren Beobachtungsnummern. Zum Abschluss des Programms sind mit den Anweisungen TITLE1 und TITLE2 zwei Titelzeilen eingegeben (Gogolok, J. (1992), S. 384­386). Auf die reine Wiederholung der Erklärung der TITLE­Anweisung wollen wir in Zukunft verzichten. Mit RUN wird das gesamte Programm abgeschlossen und kann dann mit dem Befehl SUBMIT zur Ausführung gebracht werden.

21


1.1.2 Einfaktorielle Varianzanalyse mit zufälligen Effekten 1.1.2.1 Modell Manchmal sind bei einem einfaktoriellen Versuch die Stufen des Einflussfaktors A nicht bewusst und systematisch vorgegeben, sondern zufällig ausgewählt. Sie sind als Zufallsstichprobe aus einer gedachten unendlichen Grundgesamtheit anzusehen. Dann müssen in dem einfaktoriellen Varianzanalysemodell die festen Effekte @i durch Zufallsvariable Ti ersetzt werden (Dufner, J. (1992), S. 232­234; Searle, S. R. (1992), S. 7). Es gilt das lineare Modell: Yij = @+ Ti + p ij (i=1,...,k; j=1,...,ni) Yij = unabhängig normalverteilte Zufallsvariable mit Erwartungswert

und unbekannter Varianz

.

2 total

ij

= unabhängig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz

2

ij

= p2

(Homoskedastie). Ti = unabhängig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz

.

2 t

Ti und Pij sind stochastisch unabhängig voneinander. Das reelle, feste, unbekannte Allgemeinmittel —spielt hier keine wichtige Rolle. Es gilt: 2 Var (Yij ) = σ total = Var ( Ti ) + Var (εij ) = σ t2 + σ 2

cov(Yij,Yrt) = 0 cov(Yij,Yrt) =

für i P r 2 t

für i = r und j

t

Es ist nicht immer einfach zu entscheiden, ob in einem Problem die Effekte fest oder zufällig sein sollen. In Varianzanalysen aus der Tierzucht treten meistens zufällige Effekte auf. Wenn z.B. aus einer Hühnerzuchtpopulation k Hennen zufällig ausgewählt werden und von jeder Henne als


Zielvariable die Gewichte von n Eiern (balancierte Daten) bestimmt werden, dann setzt sich die totale Varianz ¨ total2 der Eigewichte zusammen aus der genetischen Varianz ‘ t2 zwischen den Hennen und der Varianz ‘ 2 der zufälligen Schwankungen der Eigewichte.

1.1.2.2 Globaler Fisher­Test Wenn die Genetik zwischen den Hennen keinen Einfluss auf die Eigewichte hat, gilt die Nullhypothese: H0: Łt2 = 0 im anderen Falle gilt die Alternativhypothese: HA: ¨ t2 > 0 Die Zerlegung der Quadratsumme SS_CTotal im Fall fester Effekte gilt auch hier und derselbe globale F­Test kann verwendet werden. Für die Erwartungswerte E(MS) der MS gilt abweichend: E ( MS _ Model ) = σ 2 + n0σ t2 mit n0 =

1 1 i=k ( N − ∑ ni2 ) k −1 N i =1

hier gilt für balancierte Daten: ni = n = n0, E ( MS _ Error ) = σ 2 MS_Error also ist eine erwartungstreue Schätzung für die Varianz ¨ 2. Ferner gilt für die Schätzung von ‚ t2:

σt2 =

MS _ Model − MS _ Error n0

23


Aus den Erwartungswerten E(MS) lässt sich die Teststatistik: F=

MS _ Model MS _ Error

vermuten. Die Quadratsummen SS_Model und SS_Error sind dieselben wie im Fall der einfaktoriellen Varianzanalyse mit festen Effekten und haben auch die gleichen Eigenschaften. Man kann beweisen, dass F unter der Nullhypothese F­verteilt ist mit den Freiheitsgraden k­1 und N­k. Die Nullhypothese H0 wird verworfen, wenn: F > F1­ ,k­1,N­k gilt, bei gegebenem Niveau P.

1.1.2.3 Durchführung mit SAS Wir geben hier nur ohne Berechnung eines Beispiels und ohne Ausdruck im Anhang an, was sich im SAS­Programm gegenüber Abschnitt 1.1.1.4 geändert hat. Die Prozedur GLM wird durch die Anweisung RANDOM mit der Option TEST erweitert. Der geänderte Programmabschnitt lautet: PROC GLM DATA = ...; CLASS a; MODEL y = a; RANDOM a / TEST; RUN; Die einzige Faktorvariable a muss unter RANDOM angegeben werden, weil der Effekt der Einflussvariablen A zufällig ist (Schuemer, R. (1990), S. 23). Im Output werden u.a. die erwarteten Mittelquadrate und der globale F­Test ausgegeben.


1.2 Zweifaktorielle Varianzanalyse 1.2.1 Zweifaktorielle Varianzanalyse mit festen Effekten 1.2.1.1 Modell Es kann auch eine Abhängigkeit einer quantitativen Grösse von mehr als einem Einflussfaktor bestehen (Schach, S. (1978), S. 190; Zöfel, P. (1992), S. 1­4). Im Beispiel der Wald­Datei hänge der pH­Wert im Boden von einem Waldstück von den Faktoren Beregnung und Kalkung ab (entnommen aus Falk, M. (1995), S. 41). Der Faktor Beregnung komme in drei Stufen (keine zusätzliche, zusätzliche saure und zusätzliche normale) vor und der Faktor Kalkung in zwei Stufen (ohne und mit Kalkung). Das Waldstück wird in sechs Parzellen eingeteilt entsprechend den sechs Kombinationsmöglichkeiten der Stufen der beiden Faktoren. Auf Parzelle ij wird die i­ te Stufe von Faktor A (Beregnung) und die j­te Stufe von Faktor B (Kalkung) ausgeführt. Dies wird für jede Parzelle neunmal wiederholt. Es handelt sich also um balancierte Daten, weil die Anzahl der Versuche auf jeder Parzelle gleich ist. Es gilt i=1,...,a=3; j=1,...,b=2; k=1,...,n=9. Wenn zwei Faktoren A und B einen Einfluss auf eine quantitative Beobachtungsvariable y haben, und diese Faktoren in a bzw. b > 1 Stufen auftreten, dann möchte man wissen, ob die Stufen jeder dieser Faktoren für sich global denselben Einfluss auf die Beobachtungsvariable haben und wenn nicht, welche Stufen genau unterschiedlichen Einfluss haben im (paarweisen) Vergleich zu anderen. Von weiterem Interesse in der zweifaktoriellen Varianzanalyse ist die Wechselwirkung (Zöfel, P. (1992), S. 18) zwischen den zwei Faktoren (oder gegebenenfalls mehreren Faktoren in der mehrfaktoriellen Varianzanalyse). Eine signifikante Wechselwirkung AB zwischen den Faktoren A und B würde bedeuten, dass die Unterschiede zwischen den verschiedenen Stufen des Faktors A vom Faktor B abhängen oder die Unterschiede zwischen den verschiedenen Stufen des Faktors B vom Faktor A abhängen; oder kürzer gesagt, dass die Unterschiede zwischen den Stufen des einen Faktors je nach der Stufe des anderen Faktors verschieden gross sind. Man kann folgendes lineares Modell aufstellen (Dufner, J. (1992), S. 236­238; Falk, M. (1995), S. 188): 25


Yijk =

ij

+ Pijk = Ł +

i

+ —j + ¨ ij +

ijk

(i=1,...,a; j=1,...,b; k=1,...,n) mit: Yijk = unabhängig normalverteilte Zufallsvariable mit Erwartungswert ¨ ij und unbekannter Varianz

. Die Realisierung yijk ist die k­te Beobachtung in der Zelle ij gebildet von Stufe i des

2

Faktors A und Stufe j des Faktors B. ¨ ijk = unabhängig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz

ijk

2

=

2

(Homoskedastie). = reelles Allgemeinmittel, i

= fester, reeller Effekt von Faktor A auf Stufe i,

¨ j = fester, reeller Effekt von Faktor B auf Stufe j, ij

= feste, reelle Wechselwirkung zwischen der i­ten Stufe von Faktor A und der j­ten Stufe von

Faktor B. Wir definieren (Ahrens, H. (1974), S. 161): 1 i = a j =b µ= ∑∑µ ab i =1 j =1 ij

αi =

1 j =b ∑µ − µ b j =1 ij

βj =

1 i =a ∑µ − µ a i =1 ij

ij

= ¨ ij ­

i

­¨j­

Es gelten die Parameterrestriktionen:


j =b

i =a

∑α = ∑ β = 0 i =1

i

j

j =1

und j =b

i =a

∑γ = ∑γ = 0 i =1

ij

j =1

ij

Die Schätzung der Modellparameter ergibt (Falk, M. (1995), S.189; Schach, S. (1978), S. 196):

µ = y... µij = yij . αi = yi .. − y... βj = y. j . − y... γij = yij . − yi .. − y. j . + y... εijk = yijk − yij . Dabei gilt für das arithmetische Mittel der i­ten Stufe von Faktor A: 1 j =b k = n yi .. = ∑∑ y bn j =1 k =1 ijk und für das arithmetische Mittel der j­ten Stufe von Faktor B gilt: 1 i =a k =n y. j . = ∑∑ y an i =1 k =1 ijk sowie für das arithmetische Mittel der Zelle ij gilt: yij . =

1 k =n ∑y n k =1 ijk

Für das arithmetische Mittel aller Beobachtungen gilt:

27


1 i = a j =b k = n y... = ∑ ∑ ∑ yijk N i =1 j =1 k =1

1.2.1.2 Globaler Fisher­Test Es soll nun wie bei der einfaktoriellen Varianzanalyse global entschieden werden, ob es feste Effekte gibt, die signifikant von 0 verschieden sind, oder ob alle nicht signifikant sind. Dazu werden die drei Nullhypothesen: H0A:

=...= a=0

1

H0B: 0 1=...= b=0 H0AB: ¤ ij=0 für alle i,j gegen die alternativen Hypothesen zu einem vorgegebenen Niveau

getestet. Wieder wird die

bekannte Quadratsumme SS_CTotal in Teilquadratsummen zerlegt, mit deren Hilfe Teststatistiken, die einer F­Verteilung folgen, aufgestellt werden können. Damit kann man dann die drei Nullhypothesen überprüfen. Für die Totalquadratsumme: i = a j =b k = n

SS _ CTotal = ∑ ∑ ∑ ( yijk − y... ) 2 i =1 j =1 k =1

mit dem Freiheitsgrad DF = abn­1 gilt die Zerlegung (Dufner, J. (1992), S. 238­240): SS_CTotal = SS_A + SS_B + SS_AB + SS_Error Ohne Berechnung geben wir die folgenden Ergebnisse an (Falk, M. (1995), S. 192; Schach, S. (1978), S. 201): i =a

SS _ A = bn∑ ( yi .. − y... ) 2 i =1

mit Freiheitsgrad DF = a­1 und Mittelquadratsumme MS_A = SS_A/DF und Erwartungswert E(MS_A):


E ( MS _ A) = σ 2 +

bn i = a 2 ∑α a − 1 i =1 i

es gilt: j =b

SS _ B = an∑ ( y. j . − y... ) 2 j =1

mit DF = b­1 und MS_B = SS_B/DF sowie: E ( MS _ B ) = σ 2 +

an j =b 2 ∑β b − 1 j =1 j

ebenso gilt: i = a j =b

SS _ AB = n∑ ∑ ( yij . − yi .. − y. j . + y... ) 2 i =1 j =1

mit DF = (a­1)(b­1) und MS_AB = SS_AB/DF sowie: E ( MS _ AB ) = σ 2 +

i = a j =b n ∑ ∑γ 2 (a − 1)(b − 1) i =1 j =1 ij

schliesslich gilt: i = a j =b k = n

SS _ Error = ∑ ∑ ∑ ( yijk − yij . ) 2 i =1 j =1 k =1

mit DF = ab(n­1) und MS_Error = SS_Error/DF sowie: E ( MS _ Error ) = σ 2 MS_Error ist wieder ein erwartungstreuer Schätzer für die Varianz

2

des Versuchsfehlers 8 ijk.

Bei Gültigkeit der drei Nullhypothesen sind die Quadratsummen SS/ 2 mit SS_A, SS_B, SS_AB und SS_Error als SS wieder stochastisch unabhängig und Chi­Quadrat­verteilt mit den entsprechenden Freiheitsgraden a­1, b­1, (a­1)(b­1) und ab(n­1). Wenn man die Erwartungswerte E(MS) und die Nullhypothesen betrachtet, kann man leicht folgende Teststatistiken F1, F2 und F3 29


vermuten (Dufner, J. (1992), S. 240; Falk, M. (1995), S. 193): F1 =

MS _ A MS _ Error

F2 =

MS _ B MS _ Error

F3 =

MS _ AB MS _ Error

Diese sind nach der Definition der F­Verteilung unter den Nullhypothesen F­verteilt. Diese aus einer Vermutung aufgestellte Behauptung kann bewiesen werden. Die Bedingungen zum Verwerfen der Nullhypothesen sind: H 0 A → F1 > F1−α ,a −1,ab ( n −1) H 0 B → F2 > F1−α ,b −1,ab ( n −1) H 0 AB → F3 > F1−α ,( a −1)( b −1),ab ( n −1) für vorgegebenes Niveau P. Wenn die Wechselwirkungen

ij

signifikant von 0 verschieden sind, heisst das Modell saturiertes

Modell; ohne Wechselwirkung heisst es Unabhängigkeitsmodell. Wenn allein die Effekte eines Faktors signifikant sind, kann man den anderen Faktor, dessen Effekte nicht signifikant sind, herausnehmen und das Modell wird besser in einer einfaktoriellen Varianzanalyse berechnet.

1.2.1.3 Multiple Mittelwertsvergleiche Wenn der globale F­Test eines Faktors signifikant war, findet man mit den multiplen Mittelwertsvergleichen heraus, welche Stufenmittelwerte zu einem vorgegebenen Signifikanzniveau ‚ signifikant verschieden sind. Ein Vergleich von zwei Stufenmittelwerten yr.. und yt.. des Faktors A wird mit der Nullhypothese:


H 0rt :α r = α t = 0 durchgeführt. Die Testgrösse des jeweiligen Tests ist:

K=

y r .. − y t .. s

wobei s die Schätzung (MS_Error)1/2 der Standardabweichung

ist. Die Nullhypothese wird

abgelehnt, wenn: K > KT ist, mit: K T = t1−α / 2 ,ab ( n −1)

2 bn

für den PLSD­Test (mit der Student­Verteilung) und mit: KT =

F1−α ,a −1,ab ( n −1)

2(a − 1) bn

für den Scheffé­Test (mit der F­Verteilung) und mit: K T = qα ( m + 2, ab(n − 1))

1 n

für den Duncan­Test. Der Fall des multiplen Vergleichs der Stufenmittelwerte des Faktors B verläuft analog.

1.2.1.4 Durchführung mit SAS Für die balancierte, zweifaktorielle Varianzanalyse mit festen Effekten wurde die Wald­Datei durchgerechnet (Anhang S. 94). Das Programm wurde in 5 Teile eingeteilt. Der 1. Teil lautet: LIBNAME neu ‘d:\daniel’; DATA dk2; 31


SET neu.wald; Die permanente Datei neu.wald aus der SAS­Bibliothek neu wird in die temporäre Datei dk2 überführt. Einen Output haben wir hier noch nicht. Der 2. Teil lautet: PROC GLM DATA = dk2; CLASS kalk bereg; MODEL ph = kalk bereg kalk*bereg; Die Prozedur GLM berechnet die zweifaktorielle Varianzanalyse der Datei dk2. In der CLASS­ Anweisung müssen die beiden Faktorvariablen kalk für Kalkung und bereg für Beregnung angegeben werden. Die Modellgleichung unter MODEL enthält auch den Wechselwirkungsterm kalk*bereg, mit dem der feste Effekt H in die Berechnungen einbezogen wird (Schuemer, R. (1990), S. 11­13). Den Output findet man im Anhang S. 88­89. Auf S. 88 erhält man die Informationen über die Anzahl und Ausprägungen der Stufen (levels) der beiden Faktorvariablen kalk und bereg und über die Anzahl Beobachtungen in der Wald­Datei. Auf S. 89 erhält man zuerst die Anova­Tabelle der Zerlegung von SS_CTotal in SS_Model und SS_Error wie bei der einfaktoriellen Varianzanalyse und danach wird in einer zweiten Anova­ Tabelle die Zerlegung der Quadratsumme SS_Model in SS_A, SS_B und SS_AB ausgegeben (Dufner, J. (1992), S. 243). Als Nächstes wird diese Tabelle in dem Ausdruck nochmals als Type III wiederholt, nur im Fall unbalancierter Daten steht hier eine gesonderte Berechnung. In allen Anova­Tabellen sind die Freiheitsgrade DF, die Quadratsummen SS, die Mittelquadratsummen MS, die F­Statistiken (F value) und die Überschreitungswahrscheinlichkeiten (Pr>F) für jeden Effekt angegeben. Für =0,05 sind alle (Pr>F) kleiner als Ł, sodass alle drei Effekte signifikant von 0 verschieden sind. Die Nullhypothesen werden abgelehnt. Alle zwei Faktoren haben einen nicht­zufälligen Einfluss auf den pH­Wert. Ebenso gibt es eine nicht­zufällige Wechselwirkung zwischen den beiden Faktoren. Bei =0,02 ist die Wechselwirkung zu vernachlässigen und bei =0,01 ist nur kalk signifikant, d.h. in dem Fall hat nur die Kalkung eine deutliche Wirkung auf


den pH­Wert im Wald. Die Schätzung der Modellvarianz 8 2 ist MS_Error = 0,09934. Für das Bestimmtheitsmass R­ Square = 0,960669 wurde ein Wert nahe bei 1 berechnet. Dies zeigt eine gute Anpassung des linearen Modells an das Problem an. Der Variationskoeffizient ist CV = 5,570712 %. Es gilt für die Schätzung der Standardabweichung Ł: Root MSE = 0,3152. Das gesamte arithmetische Mittel der pH­Werte ist ph Mean = 5,6578. Aus der Chemie wissen wir, dass dies einen sauren Boden anzeigt. Der Neutralwert ist bekanntlich pH = 7. Der 3. Teil des Programms lautet (Schuemer, R. (1990), S. 21­23): OUTPUT OUT = res_s RESIDUAL = s; MEANS kalk bereg / SCHEFFE CLDIFF alpha = 0.05; MEANS kalk bereg / DUNCAN alpha = 0.05; TITLE ‘Zweifaktorielle Varianzanalyse der Wald­Datei’; Mit der Option RESIDUAL wird in der Prozedur GLM das Residuum s berechnet und mit OUTPUT OUT an die Wald­Datei angefügt. Die Ausgabedatei ist temporär und hat den Namen res_s und wird später als Output des 4. Programmteils ausgedruckt werden. Die beiden folgenden MEANS­Anweisungen dienen der Ausführung von multiplen Vergleichen der Mittelwerte der Stufen der beiden Einflussfaktoren, deren Variablen kalk und bereg angegeben werden müssen. Mit der Option SCHEFFE CLDIFF alpha = 0,05 wird ein Scheffé­ Test zum Signifikanzniveau @= 0,05 ausgeführt, bei dem mit CLDIFF die Konfidenzgrenzen zu den Mittelwertsdifferenzen ausgegeben werden. Drei Sternchen im Output Anhang S. 90­91 zeigen Signifikanz an. Demzufolge sind die beiden Stufenmittelwerte von Faktor Kalkung signifikant verschieden, sowie auch die Mittelwerte der Stufen 1 und 3 des Faktors Beregnung. Mit der Option DUNCAN alpha = 0,05 wird ein Duncan­Test zum Niveau ¤ = 0,05 ausgeführt. Im Ausdruck Anhang S. 92­93 sind die Mittelwerte mit gleichen Buchstabenlinien nicht signifikant verschieden. Diese Option LINES ist bei DUNCAN in SAS voreingestellt und braucht nicht angegeben zu werden. Wir sehen, dass sich die Resultate beider Tests entsprechen. Der 4. Programmteil lautet: 33


LABEL kalk = ‘Kalkung’ bereg = ‘Beregnung’ ph = ‘pH’ s

= ‘Residuum’;

PROC PRINT DATA = res_s LABEL; TITLE ‘Die Wald­Datei mit Residuen’; Mit der LABEL­Anweisung erhalten die Variablen der temporären Datei res_s ausgeschriebene Bezeichnungen, diese werden mit der Prozedur PRINT ausgedruckt (Anhang S. 94). Der 5. und letzte Teil des Programms lautet: PROC UNIVARIATE DATA = res_s NORMAL; VAR s; TITLE1 ‘Test der Normalverteilungsannahme’; TITLE2 ‘der Wald­Datei’; RUN; Durch die Prozedur UNIVARIATE (Graf, A. (1993), S. 215­217) mit der Option NORMAL und der VAR­Anweisung wird die Variable s der Datei res_s auf Normalverteilung überprüft. Der Ausdruck in Anhang S. 95 ist in Moments, Quantiles und Extremes eingeteilt. Aus Moments ersehen wir, dass die Anzahl der Residuen N = 54 ist, davon sind alle ungleich 0 und 26 sind positiv. Mittelwert und Summe der Residuen sind 0, Standardabweichung und Varianz gleich 0,3 bzw. 0,09. Die Werte der Schiefe (skewness = ­0,70199) und besonders der Wölbung (kurtosis = 1,500363) verschieden von 0 zeigen eine andere Verteilung als die Normalverteilung an. Die Teststatistik des t­Tests mit der Nullhypothese ‘Mittelwert = 0’ ist identisch 0. Diese Nullhypothese ist bei jedem Signifikanzniveau unwiderlegbar, weil die Überschreitungswahrscheinlichkeit (Pr>ł T ) = 1 immer grösser als jedes Signifikanzniveau ist. Die Teststatistik W des Normalverteilungstests von Shapiro­Wilk ist gleich 0,9651. Die Unterschreitungswahrscheinlichkeit (Pr<W) ist gleich 0,2231. Bei einem Signifikanzniveau von 0,2 ist die Normalverteilungsannahme nicht widerlegt, weil (Pr<W) > 0,2 ist. Unter Quantiles und Extremes gilt das in Abschnitt 1.1.1.4 gesagte auch hier, mit: Median =


­0,00833; 1. Quartil = ­0,125; 3. Quartil = 0,1911; Spannweite = 1,566; Quartilsabstand = 0,316; Modalwert = 0,087.

1.2.2 Zweifaktorielle Varianzanalyse mit zufälligen Effekten 1.2.2.1 Modell Auch bei der zweifaktoriellen Varianzanalyse können die Stufen der beiden Einflussfaktoren A und B nicht bewusst und systematisch, sondern zufällig ausgewählt sein (Dufner, J. (1992), S. 244­246; Searle, S. R. (1992), S. 15). Dann müssen in dem zweifaktoriellen Varianzanalysemodell die festen Effekte i,

j

und

ij

durch Zufallsvariable Ai, Bj und Cij ersetzt

werden. Es gilt das lineare Modell: Yijk =

+ Ai + Bj + Cij +

ijk

(i=1,...,a; j=1,...,b; k=1,...,n) mit: Yijk = unabhängig normalverteilte Zufallsvariable mit Erwartungswert 8 und unbekannter Varianz . Die Realisierung yijk ist die k­te Beobachtung in der Zelle ij gebildet von Stufe i von Faktor

2 total

A und Stufe j von Faktor B. ijk

= unabhängig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz Łijk2 =

(Homoskedastie). Ai = unabhängig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz

2 a

.

Bj = unabhängig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz

b

.

2

Cij = unabhängig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz Łc2. Alle im Modell auftretenden Zufallsvariablen ohne Yijk sind untereinander stochastisch unabhängig.

35

2


Für die Totalvarianz Var(Yijk) gilt (Toutenburg, H. (1994), S. 196): Var(Yijk) =

total

2

=

2 a

+ x b2 + ¤ c2 + Ł2

Die Schätzung der Varianzen ergibt:

σa2 =

1 ( MS _ A − MS _ AB ) nb

σb2 =

1 ( MS _ B − MS _ AB ) na

σc2 =

1 ( MS _ AB − MS _ Error ) n

σ 2 = MS _ Error Beispiel: aus einer grossen Anzahl von Weizensorten und Feldern werden zufällig a Sorten Weizen und b Felder ausgewählt und jede Sorte auf jedem Feld n­mal angebaut mit dem Ernteertrag als quantitative Beobachtungsvariable. Die Weizensorte ist der Einflussfaktor A und der Anbauort ist der Einflussfaktor B. Eine Wechselwirkung besteht zum Beispiel, wenn der Ernteertragsunterschied beim Anbau verschiedener Weizensorten auch vom Anbauort abhängt. An die Stelle der festen Effekte treten die Realisierungen der Zufallsvariablen Ai, Bj und Cij.

1.2.2.2 Globaler Fisher­Test Die zufälligen Effekte haben einen signifikanten Einfluss auf die Beobachtungsvariable yijk, wenn die Nullhypothesen: H0a:

2 a

=0

H0b: Hb2 = 0 H0c: ‚ c2 = 0


abgelehnt werden (Dufner, J. (1992), S. 246). Die Zerlegung der Totalquadratsumme SS_CTotal in der zweifaktoriellen Varianzanalyse mit festen Effekten gilt auch hier mit denselben Ausdrücken für die Teilquadratsummen. Für die Erwartungswerte E(MS) der MS gilt für balancierte Daten (Toutenburg, H. (1994), S. 197): E ( MS _ A) = σ 2 + nσ c2 + nbσ a2 E ( MS _ B ) = σ 2 + nσ c2 + naσ b2 E ( MS _ AB ) = σ 2 + nσ c2 E ( MS _ Error ) = σ 2 Man kann aus den Erwartungswerten E(MS) folgende Teststatistiken vermuten: F1 =

MS _ A MS _ AB

F2 =

MS _ B MS _ AB

F3 =

MS _ AB MS _ Error

Die Teststatistiken sind F­verteilt mit den entsprechenden Freiheitsgraden der Chi­Quadrat­ Verteilungen: a­1 für SS_A, b­1 für SS_B, (a­1)(b­1) für SS_AB und ab(n­1) für SS_Error. Die Bedingungen zum Verwerfen der Nullhypothesen sind: H 0a → F1 > F1−α ,a −1,( a −1)( b −1) H 0b → F2 > F1−α ,b −1,( a −1)( b −1) H 0c → F3 > F1−α ,( a −1)( b −1),ab ( n −1) bei gegebenem Niveau P. 37


1.2.2.3 Durchführung mit SAS Gegenüber dem SAS­Programm von Abschnitt 1.2.1.4 hat sich folgendes geändert: die Prozedur GLM wird durch die Anweisung RANDOM mit der Option TEST ergänzt mit der Angabe der Faktorvariablen, deren Effekte zufällig sind und der Angabe des Wechselwirkungsterms. Der geänderte Programmteil lautet: PROC GLM DATA = ...; CLASS a b; MODEL y = a b a*b; RANDOM a b a*b / TEST; RUN; Alle Effekte sind zufällig, deshalb müssen die Variablen a und b und die Wechselwirkung a*b unter RANDOM angegeben werden (Dufner, J. (1992), S. 246­248; Schuemer, R. (1990), S. 23). Im Output werden u.a. die erwarteten Mittelquadrate E(MS) und der globale F­Test ausgegeben.

1.2.3 Zweifaktorielle Varianzanalyse mit gemischten Effekten 1.2.3.1 Modell Es können nun bei der zweifaktoriellen Varianzanalyse die a Stufen des Einflussfaktors A bewusst ausgewählt worden sein und die b Stufen des Einflussfaktors B zufällig. Die Effekte von A sind fest, die von B zufällig. Dies ist dann eine gemischte zweifaktorielle Varianzanalyse (Dufner, J. (1992), S. 248­249; Searle, S. R. (1992), S. 122). Man nennt A Hauptfaktor. Mit balancierten Daten gilt das lineare Modell: Yijk =

+

i

+ Bj + Cij + x ijk

(i=1,...,a; j=1,...,b; k=1,...,n) mit: Yijk = unabhängig normalverteilte Zufallsvariable mit Erwartungswert 8 total2.

und unbekannter Varianz


ijk

= unabhängig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz Xijk2 =

(Homoskedastie), = reelles Allgemeinmittel, ¨ i = reeller, fester Effekt des Hauptfaktors A auf Stufe i, Bj = unabhängig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz

b

,

Cij = unabhängig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz

2 c

2

.

Alle Zufallsvariablen ohne Yijk sind stochastisch unabhängig voneinander. An die festen Effekte

i

stellen wir die Restriktion:

i =a

∑α = 0 i =1

i

1.2.3.2 Globaler Fisher­Test Die festen Effekte H0A:

i

sind signifikant von 0 verschieden, wenn die Nullhypothese:

=...=8 a=0

1

abgelehnt wird. Die zufälligen Effekte Bj und Cij haben einen signifikanten Einfluss auf die Beobachtungsvariable yijk, wenn die Nullhypothesen: H0b: Łb2 = 0 und H0c: ¤ c2 = 0 abgelehnt werden.

39

2


Wenn Restriktionen an die Zufallsvariablen Cij gestellt werden, sind die Cij zwischen zwei verschiedenen Stufen i1 und i2 des Faktors A korreliert (Toutenburg, H. (1994), S. 200­203). Wir verwenden hier das Modell ohne Restriktionen an Cij mit unabhängigen Wechselwirkungseffekten Cij Die Quadratsummenzerlegung von SS_CTotal der zweifaktoriellen Varianzanalyse mit zufälligen Effekten gilt auch hier mit denselben Teilquadratsummen SS_A, SS_B, SS_AB und SS_Error und denselben Ausdrücken für die Teststatistiken F1, F2 und F3. Die erwarteten mittleren Quadratsummen sind (Toutenburg, H. (1994), S. 203): E ( MS _ A) = σ 2 + nσ c2 +

nb i = a 2 ∑α a − 1 i =1 i

E ( MS _ B ) = σ 2 + nσ c2 + naσ b2 E ( MS _ AB ) = σ 2 + nσ c2 E ( MS _ Error ) = σ 2 MS_Error ist wieder erwartungstreuer Schätzer für die Varianz H2. Die Schätzung für die anderen Varianzen ergibt:

σb2 =

1 ( MS _ B − MS _ AB ) na

σc2 =

1 ( MS _ AB − MS _ Error ) n

1.2.3.3 Durchführung mit SAS Zu der Prozedur GLM wird die Anweisung RANDOM mit der Option TEST hinzugefügt mit der Angabe der Faktorvariablen, deren Effekte zufällig sind (Dufner, J. (1992), S. 250). Der geänderte Programmteil lautet: PROC GLM DATA = ...;


CLASS a b; MODEL y = a b a*b; RANDOM b a*b / TEST; RUN; In diesem Fall der gemischten, zweifaktoriellen Varianzanalyse mit Wechselwirkung sind die Effekte des ersten Faktors fest, die des zweiten zufällig. Die erste Variable a darf nicht unter RANDOM angegeben werden. Das ist der einzige Unterschied zum SAS­Programm von Abschnitt 1.2.2.3. Im Output erscheinen u.a. die erwarteten Mittelquadrate und der globale F­ Test.

1.2.4 Zweifaktorielle Varianzanalyse mit festen Effekten und einer Beobachtung pro Zelle 1.2.4.1 Modell Wir betrachten nun das balancierte, zweifaktorielle Modell für n = 1, also mit genau einer Beobachtung auf jeder Faktorstufenkombination, sprich Zelle (Dufner, J. (1992), S. 251; Falk, M. (1995), S.198; Schach, S. (1978), S.202). Wir können auch formal in allen Gleichungen von Abschnitt 1.2.1 den Parameter n gleich 1 setzen. Wenn wir das tun, erhalten wir als Resultat, u.a.: SS_Error = 0 Das bedeutet, dass wir die Varianz ‘ 2 nicht mehr mit der Mittelquadratsumme MS_Error erwartungstreu schätzen können. Wie man in Abschnitt 1.2.1.2 in der Formel für den Erwartungswert von MS_AB sieht, bekommt man erst wieder eine erwartungstreue Schätzung für die Varianz ¨ 2, wenn man die festen Effekte x ij der Wechselwirkung annulliert. Mit 8 ij = 0 haben wir dann für die Erwartungswerte der Mittelquadratsummen: E ( MS _ A) = σ 2 +

b i =a 2 ∑α a − 1 i =1 i 41


a j =b 2 E ( MS _ B ) = σ + ∑β b − 1 j =1 j 2

E ( MS _ AB ) = σ 2 Als Beispiel nehmen wir die Umwelt­Datei (siehe Ausdruck Anhang S. 114). An 23 Messstationen in Bayern wurden für die beiden Monate Juli 1993 und April 1994 die durchschnittlichen Werte an Schwebstaub in g pro m3 Luft gemessen (entnommen aus Falk, M. (1995), S. 102). Der Einflussfaktor A ist der Messzeitpunkt (Datum) mit 2 Stufen und der Einflussfaktor B ist der Messort mit 23 Stufen. Es ist zu prüfen, ob diese Faktoren einen nicht­ zufälligen Einfluss auf die Beobachtungsvariable Schwebstaubkonzentration in der Atmossphäre haben. Pro Zelle liegt nur ein Wert vor. Das lineare Modell lautet (Ahrens, H. (1974), S. 156): Yij = Pij +

ij

= x + Pi +

j

+ x ij

Yij = unabhängig normalverteilte Zufallsvariable mit Erwartungswert x ij und unbekannter Varianz . Die Realisierung yij ist die einzige Beobachtung in der Zelle ij gebildet von Stufe i von Faktor

2

A und Stufe j von Faktor B. ij

= unabhängig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz h ij2 = P2

(Homoskedastie), = reelles Allgemeinmittel, x i = fester, reeller Effekt von Faktor A auf Stufe i, 8 j = fester, reeller Effekt von Faktor B auf Stufe j, ij

wurde vernachlässigt für alle i=1,...,a und j=1,...,b.

1.2.4.2 Globaler Fisher­Test Die festen Effekte

i

und

j

sind signifikant von 0 verschieden, wenn die Nullhypothesen:


H0A: 8 1=...= a=0 und H0B: 8 1=...= b=0 abgelehnt werden (Falk, M. (1995), S. 200). Wenn man in der Quadratsummenzerlegung von Abschnitt 1.2.1.2 den Stichprobenumfang n gleich 1 setzt, erhält man die Zerlegung: SS_CTotal = SS_A + SS_B + SS_AB weil SS_Error = 0 ist, mit: i = a j =b

SS _ CTotal = ∑ ∑ ( yij − y.. ) 2 i =1 j =1

i =a

SS _ A = b∑ ( yi . − y.. ) 2 i =1

j =b

SS _ B = a ∑ ( y. j − y.. ) 2 j =1

i = a j =b

SS _ AB = ∑ ∑ ( yij − yi . − y. j + y.. ) 2 i =1 j =1

mit dem arithmetischen Mittel der i­ten Stufe von Faktor A: yi . =

1 j =b ∑y b j =1 ij

dem arithmetischen Mittel der j­ten Stufe von Faktor B: 1 i =a y. j = ∑ yij a i =1 und dem arithmetischen Mittel aller Beobachtungen: 43


1 i = a j =b y.. = ∑∑ y ab i =1 j =1 ij Die Erwartungswerte E(MS) der Mittelquadratsummen MS erhält man, wenn man n = 1 und @ij = 0 in den E(MS) von Abschnitt 1.2.1.2 setzt. Die Freiheitsgrade DF von SS_CTotal, SS_A, SS_B und SS_AB sind: ab­1,

a­1, b­1 und (a­1)

(b­1). Man kann aus den Erwartungswerten E(MS) folgende Teststatistiken für den globalen F­ Test vermuten und beweisen (Dufner, J. (1992), S. 253): F1 =

MS _ A MS _ AB

F2 =

MS _ B MS _ AB

Statt SS_AB und MS_AB sagt man besser SS_Error und MS_Error weil die Wechselwirkungseffekte

ij

ja verschwunden sind. Es hat SS_AB die Rolle von SS_Error

übernommen. Im SAS­Output erscheinen SS_AB und MS_AB unter SS_Error und MS_Error (siehe folgenden Abschnitt). Die Bedingungen zum Ablehnen der Nullhypothesen sind: H 0 A → F1 > F1−α ,a −1,( a −1)(b −1) H 0 B → F2 > F1−α ,b −1,( a −1)( b −1) zum vorgegebenen Niveau . 1.2.4.3 Durchführung mit SAS Das SAS­Programm für die zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle wurde wieder in 5 Teile gegliedert. Der 1. Teil lautet: LIBNAME neu ‘d:\daniel’; DATA dk3; SET neu.umwelt;


Die permanente Datei neu.umwelt erzeugt die temporäre Datei dk3 ohne Output. Der 2. Programmteil lautet (Dufner, J. (1992), S. 254; Schuemer, R. (1990), S. 11­13): PROC GLM DATA = dk3; CLASS name datum; MODEL staub = name datum; Die Prozedur GLM berechnet die zweifaktorielle Varianzanalyse der Datei dk3 ohne Wechselwirkung. In die CLASS­Anweisung sind die Variablennamen name und datum der beiden Einflussfaktoren anzugeben. Die Modellgleichung unter MODEL enthält den Wechselwirkungsterm name*datum nicht, weil der feste Effekt

bei dieser Varianzanalyse mit

einer Beobachtung pro Zelle vernachlässigt wird. Den entsprechenden Output findet man im Anhang S. 96­97. Auf S. 96 erhält man die Anzahl und die Ausprägungen der Stufen der beiden Faktoren Messort und Datum. Der Faktor Messort hat 23 Stufen und der Faktor Datum hat 2 Stufen. Die Anzahl aller Beobachtungen ist das Produkt dieser beiden Zahlen, also 46. Auf S. 16 erhalten wir die Anova­Tabellen der Zerlegung von der Totalquadratsumme SS_CTotal in SS_Model und SS_Error und der Zerlegung von SS_Model in SS_A und SS_B. Darin sind die Freiheitsgrade DF, die Quadratsummen SS, die Mittelquadratsummen MS, die F­Statistiken (F value) und die Überschreitungswahrscheinlichkeiten (Pr<F) für jeden Effekt angegeben. Bei X = 0,01 sind alle (Pr>F) kleiner als H. Alle Nullhypothesen werden abgelehnt. Beide Einflussfaktoren haben einen nicht­zufälligen Einfluss auf die Beobachtungsvariable Staubkonzentration. Sie hängt signifikant von Ort und Datum (sicherlich auch jahreszeitlich bedingt) ab. Die Schätzung der Modellvarianz ( 2 ist MS_Error = 21,2945. Das Bestimmtheitsmass R­Square = 0,880989 liegt nahe bei 1. Das Modell ist ziemlich gut an das Problem angepasst. Der Variationskoeffizient CV ist gleich 12,03352 %. Die Standardabweichung 8 wird auf Root MSE = 4,6146 geschätzt. Das arithmetische Gesamtmittel der Staubkonzentration ist 38,348. Der 3. Teil des Programms lautet (Schuemer, R. (1990), S. 21­23): 45


OUTPUT OUT = res_t RESIDUAL = t; MEANS name datum / SCHEFFE CLDIFF alpha = 0.05; MEANS name datum / DUNCAN alpha = 0.05; TITLE1 ‘Zweifaktorielle Varianzanalyse mit einer Beobachtung’; TITLE2 ‘pro Zelle der Umwelt­Datei’; Mit der Option RESIDUAL wird in der Prozedur GLM das Residuum t berechnet und mit OUTPUT OUT an die Umwelt­Datei angefügt. Die temporäre Ausgabedatei hat den Namen ‘res_t’ und kann später ausgedruckt werden. In den beiden folgenden MEANS­Anweisungen werden multiple Mittelwertsvergleiche ausgeführt. Dazu müssen die Variablen name und datum angegeben werden. Mit der Option SCHEFFE CLDIFF alpha = 0,05 wird zum Signifikanzniveau H = 0,05 der Scheffé­Test ausgeführt, dabei werden durch CLDIFF die Konfidenzgrenzen zu den Mittelwertsdifferenzen ausgegeben. Im Output in Anhang S. 98­110 wird Signifikanz durch drei Sternchen angezeigt. Die einzigen zwei Stufenmittelwerte des Faktors Datum sind bei x = 0,05 signifikant verschieden. Beim Faktor Messort ist es wegen der grossen Anzahl der Stufen komplizierter auszumachen, welche Mittelwerte signifikant verschieden sind. Mit der Option DUNCAN alpha = 0,05 wird ein Duncan­Test zum Niveau H = 0,05 ausgeführt. Die Mittelwerte mit gleichen Buchstabenlinien im Ausdruck Anhang S. 111­113 sind nicht signifikant verschieden. Im übrigen gilt dasselbe wie beim Scheffé­Test. Der 4. Teil des Programms ist (Gogolok, J. (1992), S. 420­432): LABEL staub = ‘Staubkonzentration’ name = ‘Messort’ datum = ‘Datum’ t

= ‘Residuum’;

PROC PRINT DATA = res_t LABEL; TITLE ‘Die Umwelt­Datei mit Residuen’; Die Datei res_t wird mit ausgeschriebenen Bezeichnungen ausgedruckt (Anhang S. 114). Der 5. und letzte Programmteil lautet (Gogolok, J. (1992), S. 525­526):


PROC UNIVARIATE DATA = res_t NORMAL; VAR t; TITLE1 ‘Test der Normalverteilungsannahme’; TITLE2 ‘der Umwelt­Datei’; RUN; Die Variable t wird mit der Option NORMAL in der Prozedur UNIVARIATE auf Normalverteilung überprüft (Falk, M. (1995), S. 23­24). Im Anhang S. 115 ersehen wir aus Moments, dass die Anzahl der Beobachtungen N = 46 ist, davon sind 46 ungleich 0 und 23 sind positiv. Mittelwert und Summe der Residuen sind 0. Die Standardabweichung ist 3,22655 und die Varianz ist 10,41063. Die Werte der Schiefe (skewness = 0) und weniger der Wölbung (kurtosis = 0,662237) von nahe 0 zeigen Normalverteilung der Residuen an. Für den t­Test mit der Nullhypothese ‘Mittelwert = 0’ gilt das in den Abschnitten 1.1.1.4 und 1.2.1.4 gesagte. Für die Teststatistik W und die Unterschreitungswahrscheinlichkeit (Pr<W) des in SAS implementierten Shapiro­Wilk­Tests gilt: W = 0,9818 und (Pr<W) = 0,8105. Es ist günstig, dass W nahe bei 1 liegt. Bei einem Signifikanzniveau von 0,8 wird die Normalverteilungshypothese nicht widerlegt, weil (Pr<W) > 0,8 ist. Für das Signifikanzniveau wird gewöhnlich ein Wert von 0,1 vorgegeben (Dufner, J. (1992), S. 154). Für Quantiles und Extremes entnimmt man die Werte dem Output (Anhang S. 115). Es gilt das in Abschnitt 1.1.1.4 gesagte.

1.2.5 Zweifaktorielle hierarchische Varianzanalyse 1.2.5.1 Modell Bei den zweifaktoriellen Varianzanalysen, die bisher behandelt wurden, waren alle Stufen der zwei Faktoren A und B miteinander kombiniert worden. Aus a Stufen von A und b Stufen von B entstanden a*b Kombinationsmöglichkeiten. Es gibt aber auch zweifaktorielle Modelle, in denen nicht alle Stufen der Faktoren miteinander kombiniert werden können (Dufner, J. (1992), S. 257). Beispielsweise könnten bei a = 4 Stufen des Faktors A jede dieser Stufen jeweils nur mit 3 Stufen des zweiten Faktors B (von insgesamt 12 Stufen) kombiniert werden. Es gibt dann nur 12 Faktorkombinationen von 48 möglichen. Die Stufen des Faktors B werden mit zwei Indizes 47


gezählt; der erste ist i=1,...,a, der Index der a Stufen von Faktor A; der zweite ist j=1,...,bi, der Index derjenigen bi Stufen von Faktor B, die mit Stufe i von Faktor A kombiniert sind. Die Gesamtstufenanzahl S von Faktor B ist dann: i =a

S = ∑ bi i =1

Die Varianzanalyse dieses Modells nennt man hierarchische Varianzanalyse (Pokropp, F. (1994), S. 179). Sie kann feste, zufällige oder gemischte Faktoren haben. Man nennt A Oberfaktor und B Unterfaktor und schreibt B(A) für B, weil B hierarchisch auf A folgt. Wir gehen davon aus, dass bi = b für alle i ist, d.h. dass jede Stufe von A mit gleichvielen Stufen von B kombiniert ist; es gilt also S = ab. Das Modell mit zufälligen Effekten ist in Dufner, J. (1992), S. 257­264 behandelt. Wir behandeln hier das Modell mit festen Effekten: Yijk =

ij

+ ( ijk =

+

i

+ ¨ ij +

ijk

(i=1,...,a; j=1,...,b; k=1,...,n) mit: Yijk = unabhängig normalverteilte Zufallsvariable mit Erwartungswert

ij

und unbekannter

Varianz ( 2. Die Realisierung yijk ist die k­te Beobachtung in der Stufe i des Faktors A und in der Stufe ij von Faktor B. ijk

= unabhängig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz ( ijk2 =

2

(Homoskedastie). ¤ = reelles Allgemeinmittel, ¨ i = fester, reeller Effekt von Faktor A auf Stufe i, —ij = fester, reeller Effekt von Faktor B auf Stufe ij. Das Modell ähnelt einem zweifaktoriellen Modell ohne Wechselwirkungen. Wechselwirkungen können in einer hierarchischen Varianzanalyse nicht sinnvoll definiert werden.


1.2.5.2 Globaler Fisher­Test Es wird wie bei der zweifaktoriellen Varianzanalyse global getestet, ob es feste Effekte gibt, die signifikant von 0 verschieden sind oder ob alle nicht signifikant sind. Dazu werden die zwei Nullhypothesen: H0A: H0B(A):

=...=ł a=0

1

ij

=0 für alle i,j

gegen die alternativen Hypothesen zu einem vorgegebenen Signifikanzniveau ł getestet. Die Quadratsumme SS_CTotal: i = a j =b k = n

SS _ CTotal = ∑ ∑ ∑ ( yijk − y... ) 2 i =1 j =1 k =1

mit dem Freiheitsgrad DF = abn­1 wird in Teilquadratsummen zerlegt, mit denen Teststatistiken gebildet werden können um die Nullhypothesen zu testen. Die Zerlegung von SS_CTotal lautet: SS_CTotal = SS_A + SS_B(A) + SS_Error Wir geben ohne Beweis folgende Resultate an: i =a

SS _ A = bn∑ ( yi .. − y... ) 2 i =1

mit Freiheitsgrad DF = a­1 und Erwartungswert E(MS_A): bn i = a 2 E ( MS _ A) = σ + ∑α a − 1 i =1 i 2

sodann gilt: i = a j =b

SS _ B ( A) = n ∑ ∑ ( yij . − yi .. ) 2 i =1 j =1

49


mit DF = a(b­1) sowie: i = a j =b n E ( MS _ B ( A)) = σ + βij2 ∑ ∑ a (b − 1) i =1 j =1 2

schliesslich gilt: i = a j =b k = n

SS _ Error = ∑ ∑ ∑ ( yijk − yij . ) 2 i =1 j =1 k =1

mit DF = ab(n­1) und: E ( MS _ Error ) = σ 2 MS_Error ist ein erwartungstreuer Schätzer für die unbekannte Varianz

.

2

Wenn man die Erwartungswerte E(MS) betrachtet, kann man leicht folgende Teststatistiken F1 und F2 vermuten: F1 =

MS _ A MS _ Error

F2 =

MS _ B ( A) MS _ Error

Unter Gültigkeit der Nullhypothesen H0A und H0B(A) sind F1 und F2 F­verteilt mit den Freiheitsgraden a­1 und ab(n­1) bzw. a(b­1) und ab(n­1). Die Nullhypothesen werden verworfen, wenn die Bedingungen: H 0 A → F1 > F1−α ,a −1,ab ( n −1) H 0 B ( A ) → F2 > F1−α ,a ( b −1),ab ( n −1) erfüllt sind für ein vorgegebenes Signifikanzniveau .


1.2.5.3 Durchführung mit SAS Gegenüber dem SAS­Programm von Abschnitt 1.2.1.4 hat sich nur der 2. Teil geändert in: PROC GLM DATA = ...; CLASS a b; MODEL y = a b(a); RUN; y ist die Beobachtungsvariable, a ist die Variable des Oberfaktors A und b ist die Variable des Unterfaktors B (Schuemer, R. (1990), S. 14­15). Der Output entspricht demjenigen von Abschnitt 1.2.1.4.

1.2.6 Randomisierte vollständige Blockanlage 1.2.6.1 Modell Einer Varianzanalyse liegt immer ein Versuch zugrunde, mit dem man die Abhängigkeit einer Zielvariablen von einer oder mehreren Einflussvariablen beobachtet. Um diesen Versuch auszuführen, braucht man N Versuchseinheiten, die in den meisten Fällen zufällig auf die Zellen, die von den Kombinationen der Stufen der Einflussfaktoren gebildet werden, aufgeteilt werden. Diesen Vorgang der zufälligen Aufteilung nennt man Randomisation. Man kann jedoch häufig die N Versuchseinheiten in sogenannte Blöcke zerlegen. Es empfiehlt sich dann, die Versuchseinheiten getrennt für jeden Block zufällig zu verteilen. Man spricht darüberhinaus von einer randomisierten, vollständigen Blockanlage (Randomized Complete Block Design, RCBD), wenn die Anzahl der Versuchseinheiten pro Block gleich ist der Anzahl Kombinationsmöglichkeiten der Stufen der Faktoren (Dufner, J. (1992), S. 265­267; Toutenburg, H. (1994), S. 151­159). Die Blöcke bilden einen Einflussfaktor, den sogenannten Blockfaktor. Wir behandeln hier den Fall mit einem Faktor A mit festen Effekten und dem Blockfaktor BL. Der Faktor A mit zufälligen Effekten ist auch möglich. Das Versuchsmaterial kann auf natürliche Weise in Blöcke zerlegt sein: 51


­ Personen verschiedener Alters­ oder Einkommensklassen, ­ die vier Räder eines Autos (beim Vergleich von Reifenarten), ­ verschiedene Würfe von Tieren. In unserem Beispiel soll ausfindig gemacht werden, welches von drei Futtermitteln am besten zum Mästen von Kaninchen geeignet ist. Dazu werden in einem Versuch die drei Futtermittel an Kaninchen verfüttert und die Gewichtszunahme der Kaninchen als quantitative Beobachtungsvariable gemessen. Das Kaninchenfutter ist Faktor A mit drei Stufen. Die Menge der Versuchskaninchen bestehe aus vier Würfen mit jeweils drei Kaninchen (N = 12). Ein Block ist ein Wurf mit drei Tieren. Die Randomisation besteht darin, dass die drei verschiedenen Futtermittel aus den drei Stufen des Faktors A zufällig auf die drei Tiere des jeweiligen Blockes verteilt werden. Darüberhinaus handelt es sich um eine randomisierte, vollständige Blockanlage, weil die Anzahl der Tiere in einem Block mit der Anzahl Stufen des Faktors Futter übereinstimmt. Die Varianzanalyse kann man interpretieren als zweifaktoriell mit einer Beobachtung pro Zelle, wenn man den Blockfaktor als gleichberechtigt mit Faktor A ansieht; oder als einfaktoriell mit n = b Beobachtungen pro Zelle, wenn man die Blockunterschiede als nebensächlich ansieht, so dass man geradesogut alle Blöcke zusammenfassen kann. Dies ist besonders dann der Fall, wenn die Blockdurchschnitte sich beim globalen F­Test nicht signifikant unterscheiden. Der Sinn der Bildung von Blöcken ist eine erhoffte Senkung der Modellvarianz

.

2

Es gilt folgendes Modell mit festen Effekten (Dufner, J. (1992), S. 268): Yij = ł ij +

ij

= ¨ + pi + 8j +

ij

(i=1,...,a; j=1,...,b) mit: Yij = unabhängig normalverteilte Zufallsvariable mit Erwartungswert

ij

und unbekannter Varianz

¨ 2. Die Realisierung yij ist die Beobachtung in der Zelle der i­ten Stufe von Faktor A und Block j, ł ij = unabhängig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz 8 ij2 = ‘ 2


(Homoskedastie), X = reelles Allgemeinmittel, i

= fester, reeller Effekt von Faktor A auf Stufe i,

Xj = fester, reeller Effekt von Blockfaktor BL auf Block j. Es gelten die Parameterrestriktionen: i =a

∑τ = 0 i =1

i

j =b

∑β = 0 j =1

j

Das Modell ist analog dem zweifaktoriellen Modell mit festen Effekten und einer Beobachtung pro Zelle von Abschnitt 1.2.4. aufgebaut. Nur, dass Unterschiede der Stufen des Blockfaktors nicht so sehr im Vordergrund stehen; der Faktor A ist wichtiger, so dass das Modell, wie bereits ausgeführt, diesselben Zielsetzungen hat, wie ein einfaktorielles Modell mit festen Effekten und n = b Beobachtungen pro Zelle (Abschnitt 1.1.1.).

1.2.6.2. Globaler Fisher­Test Es wird vorrangig global getestet, ob die festen Effekte von Faktor A signifikant von 0 verschieden sind oder nicht. Die festen Effekte des Blockfaktors werden erst in zweiter Linie global getestet. Wir testen die Nullhypothesen: H0A: H0BL:

=...= a=0

1

=...= b=0

1

gegen die entsprechenden Alternativhypothesen zu einem vorgegebenen Niveau . Man erhält die Teilquadratsummen SS, mit denen die Teststatistiken der F­Tests gebildet werden 53


können, durch die Zerlegung der Totalquadratsumme SS_CTotal wie folgt: SS_CTotal = SS_A + SS_B + SS_Error Wir geben die Resultate für SS und E(MS) ohne Beweis an. Es gilt: i =a

SS _ A = b∑ ( yi . − y.. ) 2 i =1

mit Freiheitsgrad DF = a­1 und dem Erwartungswert der Mittelquadratsumme: b i =a 2 E ( MS _ A) = σ + ∑τ a − 1 i =1 i 2

weiter gilt: j =b

SS _ B = a ∑ ( y. j − y.. ) 2 j =1

mit DF = b­1 und dem Erwartungswert der Mittelquadratsumme: E ( MS _ B ) = σ 2 +

a j =b 2 ∑β b − 1 j =1 j

schliesslich gilt: i = a j =b

SS _ Error = ∑ ∑ ( yij − yi . − y. j + y.. ) 2 i =1 j =1

mit DF = (a­1)(b­1) und dem Erwartungswert: E ( MS _ Error ) = σ 2 Man kann mit den Erwartungswerten E(MS) der Mittelquadratsummen MS = SS/DF die folgenden F­verteilten Teststatistiken F1 und F2 vermuten bzw. beweisen: F1 =

MS _ A MS _ Error


F2 =

MS _ B MS _ Error

Die Bedingungen zum Ablehnen der Nullhypothesen im globalen F­Test sind dann also: H 0 A → F1 > F1−α ,a −1,( a −1)(b −1) H 0 B → F 2 > F1−α ,b −1,( a −1)( b −1) zu einem vorgegebenen Signifikanzniveau H.

1.2.6.3. Durchführung mit SAS Die Durchführung mit SAS entspricht dem Vorgehen in Abschnitt 1.2.4.3.

1.2.7.Zweifaktorielle Varianzanalyse, unbalanciert 1.2.7.1 Modell Wir behandeln nun die unbalancierte, zweifaktorielle Varianzanalyse mit festen Effekten ohne Wechselwirkung (Dufner, J (1992), S. 288). Wie bei der balancierten, zweifaktoriellen Varianzanalyse mit festen Effekten haben wieder zwei Faktoren A und B, die in a bzw. b > 1 Stufen auftreten, einen Einfluss auf eine quantitative Beobachtungsvariable y. Es wird danach gefragt, ob die Stufen dieser Faktoren global denselben Einfluss auf die Beobachtungsvariable haben (globaler Fisher­Test) und wenn nicht, welche Stufen genau unterschiedlichen Einfluss haben im paarweisen Vergleich zu anderen (multipler Mittelwertsvergleich). In der unbalancierten Varianzanalyse ist die Anzahl nij der Beobachtungen in den Zellen ij unterschiedlich gross. Die Formeln zur Berechnung der Varianzanalyse werden dadurch viel komplizierter (Pokropp, F. (1994), S. 169). Wir stellen nur ein lineares Modell ohne Wechselwirkungen vor, weil die Formeln dann noch nicht so kompliziert sind. Als Beispiel (entnommen aus Ahrens, H. (1974), S. 89) nehmen wir die Messwerte von 31 55


Frühgeborenen in der Geburt­Datei (siehe Ausdruck Anhang S. 119) aus einer Untersuchung in der Universitätskinderklinik der Charité zu Ostberlin. Für den Faktor A sind die Daten in zwei Klassen (Stufen) eingeteilt: Erkrankung der Kinder an Gelbsucht j = ja oder n = nein. Es wurde für den Faktor B für jedes Kind die Schwangerschaftsdauer SD in Tagen bestimmt und folgende Klasseneinteilung in die Stufen 1, 2 und 3 vorgenommen: Stufe 1: SD < 250 Stufe 2: 250

SD < 171

Stufe 3: 171 ¨ SD Die Beobachtungsgrösse yijk ist das Gewicht in Gramm der Kinder bei der Geburt. Es gibt 6 Zellen ij mit i=1,2; j=1,2,3; k=1,...,nij und n11 = 6; n12 = 4; n13 = 1; n21 = 3; n22 = 6; n23 = 11. Wir werden dieses Beispiel in Abschnitt 1.2.7.4 mit SAS berechnen und dabei die Wechselwirkung mit einbeziehen und sehen, dass sie einen so geringen Einfluss hat, dass man sie vernachlässigen sollte und besser ein Modell ohne Wechselwirkungen modelliert. Wir stellen folgendes, lineares Modell mit festen Effekten ohne Wechselwirkungen auf: Yijk = ¨ ij + x ijk =

+ xi +

j

+

ijk

(i=1,...,a; j=1,...,b; k=1,...,nij) mit: Yijk = unabhängig normalverteilte Zufallsvariable mit Erwartungswert p ij und unbekannter Varianz ¨ 2. Die Realisierung yijk ist die k­te Beobachtung in der Zelle ij gebildet von Stufe i des Faktors A und Stufe j des Faktors B, ijk

= unabhängig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz ¨ ijk2 =

(Homoskedastie), ł = reelles Allgemeinmittel, x i = fester, reeller Effekt von Faktor A auf Stufe i,

2


j

= fester, reeller Effekt von Faktor B auf Stufe j.

Wir definieren: 1 i = a j =b µ= ∑∑µ ab i =1 j =1 ij

αi =

1 j =b ∑µ − µ b j =1 ij

βj =

1 i =a ∑µ − µ a i =1 ij

Es gelten die Parameterrestriktionen: j =b

i =a

∑α = ∑ β = 0 i =1

i

j

j =1

Die Wechselwirkung wird vernachlässigt. Die Schätzung der Modellparameter ergibt:

µ = y... µij = yij . αi = yi .. − y... βj = y. j . − y... εijk = yijk − yij . Dabei gilt für das arithmetische Mittel der i­ten Stufe von Faktor A: k =n

1 j =b ij yi .. = ∑∑y ni . j =1 k =1 ijk und für das arithmetische Mittel der j­ten Stufe von Faktor B:

57


k =n

1 i = a ij y. j . = ∑∑y n. j i =1 k =1 ijk sowie für das arithmetische Mittel der Zelle ij: k =n

1 ij yij . = ∑y nij k =1 ijk für das arithmetische Mittel aller Beobachtungen gilt: k =n

1 i = a j =b ij y... = ∑ ∑ ∑ yijk N i =1 j =1 k =1 mit (ausnahmsweise entgegen der Regel von Seite 6): j =b

ni . = ∑ nij j =1

i =a

n. j = ∑ nij i =1

i = a j =b

N = n.. = ∑ ∑ nij i =1 j =1

1.2.7.2 Globaler Fisher­Test Es soll nun entschieden werden, ob es feste Effekte gibt, die signifikant von 0 verschieden sind, oder ob alle nicht­signifikant sind. Dazu werden die zwei Nullhypothesen: H0A:

=...= a=0

1

H0B: ł 1=...=8 b=0 gegen die alternativen Hypothesen zu einem vorgegebenen Signifikanzniveau bekannte Totalquadratsumme:

getestet. Die


i = a j =b k = nij

SS _ CTotal = ∑ ∑ ∑ ( yijk − y... ) 2 i =1 j =1 k =1

wird in Teilquadratsummen zerlegt. Im unbalancierten Fall der zweifaktoriellen Varianzanalyse gibt es nach Henderson drei verschiedene Typen von Quadratsummenzerlegungen. Wir wollen uns nur auf Typ III beschränken, weil man nur mit diesem Typ die obigen Nullhypothesen in dieser einfachen Form testen kann (Searle, S. R. (1992), S. 202). Es gibt in Typ III für jede Nullhypothese eine Quadratsummenzerlegung. Für die Nullhypothese H0A ist es die Quadratsummenzerlegung (Searle, S. R. (1992), S. 210): SS _ CTotal = R ( β µ ) + R (α µ , β ) + SS _ Error und für die Nullhypothese H0B die Quadratsummenzerlegung (Searle, S. R. (1992), S. 209): SS _ CTotal = R (α µ ) + R ( β µ , α ) + SS _ Error Dafür gilt die sogenannte R­Notation (Dufner, J. (1992), S. 293; Searle, S. R. (1992), S. 169­170): R (α µ ) = R( µ , α ) − R ( µ ) R( β µ ) = R( µ , β ) − R( µ ) R (α µ , β ) = R ( µ , α , β ) − R ( µ , β ) R( β µ , α ) = R( µ , α , β ) − R( µ , α ) und i = a j = b k = nij

SS _ Error = ∑ ∑ ∑ ( yijk − yij . ) 2 i =1 j =1 k =1

mit: R( µ ) = Ny...2

59


i =a

R ( µ , α ) = ∑ ni . yi2.. i =1

j =b

R ( µ , β ) = ∑ n. j y.2j . j =1

i =a

R ( µ , α , β ) = r T C −1r + ∑ ni . yi2.. i =1

dabei ist T das Transponierungszeichen und rT=(r1,...,rb­1) ist ein Vektor mit der Dimension b­1 und den reellen Komponenten rj: i =a

r j = n. j y. j . − ∑ nij yi .. i =1

(j=1,...,b­1) und C ist eine symmetrische Matrix mit der Ordnung b­1 und den reellen Elementen cjj’: i =a

nij2

i =1

ni .

c jj = n. j − ∑

(das sind die Elemente der Matrixdiagonalen j = j’) i =a

nij nij '

i =1

ni .

c jj ' = − ∑

(das sind die übrigen Elemente der Matrix C mit j

j’; j,j’=1,...,b­1).

R((

‘ , ) den Freiheitsgrad DF = b­1. Die

,X) hat den Freiheitsgrad DF = a­1 und R(

Fehlerquadratsumme SS_Error hat den Freiheitsgrad DF = N­ab und ist von R( R(

,X) und

,h) stochastisch unabhängig. Es gilt die Schätzung:

MS _ Error =

SS _ Error N − ab

für die Modellvarianz ‚ 2. Unter Gültigkeit der jeweiligen Nullhypothese ist die Teststatistik:


F1 =

R (α µ , β ) / ( a − 1) MS _ Error

zentral F­verteilt mit den Freiheitsgraden a­1 und N­ab und die Teststatistik: F2 =

R ( β µ , α ) / (b − 1) MS _ Error

ist zentral F­verteilt mit den Freiheitsgraden b­1 und N­ab. Die Bedingungen zum Verwerfen der Nullhypothesen sind: H 0 A → F1 > F1−α ,a −1, N −ab H 0 B → F2 > F1−α ,b −1, N − ab für vorgegebenes Niveau —.

1.2.7.3 Multiple Mittelwertsvergleiche Wenn der globale F­Test eines Faktors signifikant war, findet man mit den multiplen Mittelwertsvergleichen heraus, welche festen Effekte genau signifikant verschieden sind. Die Hypothesen H0A und H0B von vorigem Abschnitt können wie folgt geschrieben werden: H0A: ¨ 1.=...=‘ a. H0B: X1.=...= b. mit den sogenannten adjustierten Mittelwerten: 1 j =b µi . = ∑ µij = µ + α i b j =1 1 i =a µ. j = ∑ µij = µ + β j a i =1 (die rechten Seiten der Gleichungen sind die Definitionsgleichungen von 61

i

und

j

aus Abschnitt


1.2.7.1). Diese werden mit:

µi . = yi .. µ. j = y. j . geschätzt. Ein Vergleich von zwei festen Effekten

r

und Xt des Faktors A wird mit der

Nullhypothese: H 0rt : µr . − µt . = 0 durchgeführt. Die Teststatistik des Scheffé­Tests ist:

K=

y r .. − y t .. srt

dabei ist srt die Standardabweichung der Zufallsvariablen Yr..­Yt.., ein im Fall der unbalancierten Varianzanalyse ohne Wechselwirkungen sehr komplizierter Ausdruck. Die Nullhypothese wird abgelehnt, wenn: K > ( a − 1) F1−α ,a −1, N − ab zu einem vorgegebenen Niveau X gilt. Analog lassen sich paarweise Vergleiche von festen Effekten

r

und

t

von Faktor B mit der

Nullhypothese: H 0rt : µ.r − µ.t = 0 mit dem Scheffé­Test durchführen. Mit SAS wird im folgenden Abschnitt ein t­Test durchgeführt.

1.2.7.4 Durchführung mit SAS Für die unbalancierte, zweifaktorielle Varianzanalyse mit festen Effekten mit Wechselwirkung


wurde die Geburt­Datei als Beispiel durchgerechnet (siehe Anhang S. 119). Der 1. Teil des fünfteiligen Programms lautet: LIBNAME neu ‘d:\daniel’; DATA dk4; SET neu.geburt; Ohne Output wird die temporäre Datei dk4 durch die permanente Datei neu.geburt aus der SAS­ Bibliothek neu im Ordner daniel generiert. Der 2. Programmteil lautet: PROC GLM DATA = dk4; CLASS krank klasse; MODEL gewicht = krank klasse krank*klasse / SS3; In der Prozedur GLM berechnen wir die unbalancierte, zweifaktorielle Varianzanalyse der Datei dk4 mit den Faktorvariablen krank und klasse, die in der CLASS­Anweisung stehen müssen. In der MODEL­Anweisung ist die Modellgleichung mit Wechselwirkung krank*klasse angegeben. Die Option SS3 bewirkt, dass Quadratsummen vom Typ III nach Henderson ausgedruckt werden (Dufner, J. (1992), S. 299; Schuemer, R. (1990), S. 12). Den Output finden wir auf S. 116­117 des Anhangs. Auf S. 116 erhalten wir die üblichen Informationen über die Stufen der Faktoren Gelbsucht und Klasse und die Beobachtungsvariable Geburtsgewicht. Auf S. 36 erhalten wir zuerst die Anova­Tabelle der Zerlegung von SS_CTotal in SS_Model und SS_Error, wie bei den balancierten Varianzanalysen. In einer zweiten Anova­ Tabelle erhalten wir Zerlegungen von SS_Model, die eine etwas andere Gestalt haben, als die in der Theorie in Abschnitt 1.2.7.2 beschriebenen. Das liegt daran, dass wir hier die Wechselwirkungen hinzugenommen haben. Es sind die Freiheitsgrade DF, die Quadratsummen SS, die mittleren Quadratsummen MS, die F­Statistiken (F value) und die Überschreitungswahrscheinlichkeiten (Pr>F) spaltenweise für jeden Effekt angegeben. Für X = 0,05 sind alle Werte von (Pr>F) grösser als h, sodass alle 3 Effekte nicht signifikant von 0 verschieden sind. Die Nullhypothesen werden nicht abgelehnt. Die Einflussfaktoren Gelbsucht und Schwangerschaftsdauer haben nur einen zufälligen Einfluss auf die Beobachtungsvariable 63


Geburtsgewicht. Bei

= 0,15 ist der Effekt 8 des Faktors Schwangerschaftsdauer signifikant von

0 verschieden, denn (Pr>F) ist gleich 0,1311. Nur dieser Faktor hat dann eine reale Wirkung auf das Geburtsgewicht. Die Wechselwirkung ist jedoch sehr gering und braucht keinesfalls berücksichtigt zu werden. Die Schätzung der Modellvarianz

2

ergibt MS_Error = 58472,55. Für das Bestimmtheitsmass R­

Square = 0,187377 haben wir einen sehr schlechten Wert, der weit von 1 entfernt ist. Ein lineares Modell beschreibt das Problem nicht gut, man müsste ein anderes Modell verwenden. Der Variationskoeffizient ist 11,102 %. Die Schätzung der Standardabweichung ( des Modells (Root MSE) ist 241,81 g. Das gesamte arithmetische Mittel des Geburtsgewichts ist 2178,1 g. Der 3. Teil des Programms lautet: OUTPUT OUT = res_u RESIDUAL = u; LSMEANS krank klasse / STDERR PDIFF; TITLE ‘Zweifaktorielle Varianzanalyse der Geburt­Datei’; In der Prozedur GLM wird mit der Option RESIDUAL das Residuum u berechnet und mit OUTPUT OUT an die Geburt­Datei angefügt. Die Ausgabedatei ist die temporäre Datei res_u, die später als Output des 4. Programmteils ausgedruckt werden wird. Die LSMEANS­Anweisung dient der Ausführung von multiplen Mittelwertsvergleichen der adjustierten Mittelwerte der Einflussfaktorstufen. Die folgenden Erläuterungen beziehen sich auf jedem der beiden getrennten Outputs der Variablen krank und klasse im Anhang S. 118. In der 1. Spalte des Outputs S. 118 stehen die Stufen des Faktors der jeweiligen Variablen. Durch LSMEANS werden die adjustierten Mittelwerte ausgerechnet und in der 2. Spalte ausgedruckt (Dufner, J. (1992), S. 303­307; Schuemer, R. (1990), S. 19). Die Option STDERR berechnet in der 3. Spalte die Standardabweichungen der adjustierten Mittelwerte. In Spalte 4 sind die Überschreitungswahrscheinlichkeiten des t­Tests der Nullhypothese H0:LSMEAN=0 angegeben. Alle Nullhypothesen werden für

> 0,0001 abgelehnt. Durch die Option PDIFF sind in Spalte 5

die Überschreitungswahrscheinlichkeiten des t­Tests der Nullhypothese H0:LSMEAN(i)=LSMEAN(j) angegeben. Für die Variable klasse ist dafür eine symmetrische Matrix erforderlich. Bei 8 = 0,05 ist kein Fall von Gleichheit der adjustierten Mittelwerte


signifikant. Keine Nullhypothese wird abgelehnt. Alle Überschreitungswahrscheinlichkeiten sind grösser als

= 0,05. Erst bei

= 0,1 ist u1 signifikant von u2 verschieden.

Der 4. Teil des Programms lautet (Graf, A. (1993), S. 200­202): LABEL krank = ‘Gelbsucht’ klasse = ‘Klasse’ tage = ‘Schwangerschaftsdauer’ gewicht = ‘Geburtsgewicht’ u

= ‘Residuum’;

PROC PRINT DATA = res_u LABEL; TITLE ‘Die Geburt­Datei mit Residuen’; In diesem Teil wird die Geburt­Datei mit Residuen ausgedruckt (siehe Anhang S. 119). Der 5. und letzte Programmteil lautet (Graf, A. (1993), S. 215­217): PROC UNIVARIATE DATA = res_u NORMAL; VAR u; TITLE1 ‘Test der Normalverteilungsannahme’; TITLE2 ‘der Geburt­Datei’; RUN; Durch die Option NORMAL und die VAR­Anweisung wird in der Prozedur UNIVARIATE die Variable u der Datei res_u mit dem Shapiro­Wilk­Test auf Normalverteilung überprüft. Im Ausdruck Anhang S. 120 ersehen wir aus Moments die Anzahl der Residuen N = 31, wovon 30 ungleich 0 und 15 positiv sind. Der Mittelwert und die Summe der Residuen ist 0, die Standardabweichung und die Varianz sind gleich 220,7422 bzw. gleich 48727,12. Die Werte der Schiefe (skewness = 0,092713) und weniger der Wölbung (kurtosis = 0,357334) von nahe 0 zeigen Normalverteilung an. Für den t­Test gilt dasselbe wie in Abschnitt 1.2.1.4 gesagte. Die Teststatistik W des Shapiro­Wilk­Tests liegt mit 0,99134 sehr nahe bei 1. Dies bedeutet, dass die Normalverteilungsannahme gerechtfertigt ist. Mit einer Unterschreitungswahrscheinlichkeit von 0,995 ist auch bei dem sehr hohen Signifikanzniveau von 0,99 die Normalverteilungsannahme 65


nicht widerlegt. Für Quantiles und Extremes gilt das in Abschnitt 1.2.1.4 gesagte.

2 STATISTISCHE GRUNDLAGEN 2.1 Grundgesamtheit und Stichprobe Eine Grundgesamtheit ist die Menge über deren Einheiten man Informationen erhalten will. Wenn die Grundgesamtheit zu gross ist, um alle Einheiten zu untersuchen, behandelt man nur eine Teilmenge von n Elementen, die man zufällig auswählt, d.h. man zieht eine Stichprobe. Dann versucht man von der Stichprobe auf die Grundgesamtheit zu schliessen.

2.2.Statistische Masszahlen Sei xi (i=1,...,n) eine Folge von n reellen Zahlen, etwa die Stichprobe eines stetigen Merkmals. Der arithmetische Mittelwert ist definiert durch:


x=

1 i =n ∑x n i =1 i

Der Median ist der mittlere Wert der xi, wenn diese der Grösse nach geordnet sind. Wenn n eine gerade Zahl ist, wird der Mittelwert der beiden mittleren Werten genommen. Der Modalwert ist der am häufigsten in der Stichprobe vorkommende Wert. Ein Streuungsmass ist die (empirische) Varianz: 1 i =n s = ( xi − x ) 2 ∑ n − 1 i =1 2

Daraus abgeleitet wird der (dimensionslose) Variationskoeffizient CV: CV =

100s x

Ein weiteres Streuungsmass ist die Spannweite, die Differenz zwischen dem grössten und kleinsten Wert der Stichprobe.

2.3 Zufallsvariable Eine Zufallsvariable X ist eine Variable, die einen von einem zufälligen Ereignis abhängigen reellen Wert x annimmt. Man nennt x die Realisierung der Zufallsvariablen X. Eine Zufallsvariable kann diskret oder stetig sein. Die sogenannte Verteilungsfunktion F(x) von diskreter wie stetiger Zufallsvariablen X ist definiert wie folgt: F ( x) = P( X ≤ x ) P ist die Wahrscheinlichkeit, dass die Realisierungen von X kleiner oder gleich x sind. Es gilt für stetige Zufallsvariable X: dF ( x ) = f ( x) dx

67


f(x) heisst Dichtefunktion. Wenn wir diese Gleichung nach den Rechenregeln der Differential­ und Integralrechnung nach F(x) auflösen, erhalten wir die Verteilungsfunktion: x

F ( x ) = ∫ f (t )dt −∞

Für diskrete Zufallsvariable ist die Verteilungsfunktion gegeben durch: F ( x ) = ∑ f ( xi ) xi ≤ x

Hier ist: f(xi) = P(X=xi) die Wahrscheinlichkeit dafür, dass die diskrete Zufallsvariable X den Wert xi annimmt. Es folgt, dass im Falle diskreter wie stetiger Zufallsvariablen gilt: P ( a < X ≤ b ) = F (b ) − F ( a ) Das ‚ ­Quantil x0 der Verteilung einer Zufallsvariablen X ist definiert durch: h = P(X 8 x ) 0 ist die Wahrscheinlichkeit P, dass die Realisierung x von X kleiner oder gleich der reellen Zahl x‘ ist. Wir definieren ferner: Erwartungswert einer diskreten Zufallsvariablen X: i =n

E ( X ) = ∑ xi f ( x i ) i =1

Erwartungswert einer stetigen Zufallsvariablen X: +∞

E ( X ) = ∫ xf ( x ) dx −∞


Varianz einer diskreten Zufallsvariablen X: i =n

VAR ( X ) = ∑ f ( xi )( xi − E ( X )) 2 i =1

Varianz einer stetigen Zufallsvariablen X: +∞

VAR ( X ) = ∫ f ( x )( x − E ( X )) 2 dx −∞

2.4 Spezielle Verteilungen 2.4.1 Normalverteilung Eine stetige Zufallsvariable X heisst normalverteilt mit Erwartungswert

und Varianz ¨ 2, wenn

sie die Dichtefunktion: f ( x) =

1 2πσ

2

exp( − ( x − µ ) 2 / (2σ 2 ))

besitzt (Falk, M. (1995), S. 49­51; Zöfel, P. (1992), S. 25­26). Wenn h = 0 und ‘ = 1 ist, heisst die Verteilung Standardnormalverteilung. Die Verteilungsfunktion der Standardnormalverteilung lautet: x

φ ( x) =

1 exp( −t 2 / 2) dt ∫ 2π −∞

Es gilt:

φ (− x) = 1 − φ ( x) Daher braucht man die Verteilungsfunktion der Standardnormalverteilung nur für positive x zu tabellieren. Das Quantil der Standardnormalverteilung wird mit z bezeichnet und ist definiert mit:

α = P ( X ≤ zα ) 69


und es gilt: z = ­z1­0 Wenn die Zufallsvariable X normalverteilt ist mit Erwartungswert

und Varianz

, dann ist die

2

Zufallsvariable aX+b normalverteilt mit Erwartungswert a +b und Varianz (a )2. Also folgt, dass: Z=

X −µ σ

standardnormalverteilt ist. Die Wahrscheinlichkeit, dass die Realisierung x der normalverteilten Zufallsvariablen X zwischen zwei reellen Grössen c und d liegt, ist: P( c < x ≤ d ) = P (

= P(

c−µ x−µ d −µ < ≤ )= σ σ σ

c−µ d−µ d−µ c−µ <z≤ ) = φ( ) − φ( ) σ σ σ σ

Die Standardnormalverteilungsfunktion reicht also zur Berechnung aller Probleme, in denen Normalverteilungen vorkommen, aus.

2.4.2 Chi­Quadrat­Verteilung Sind X1,...,Xn stochastisch unabhängige, standardnormalverteilte Zufallsvariablen, dann heisst die Verteilung der Zufallsvariablen: U n = X 12 + X 22 +...+ X n2 (zentrale) Chi­Quadrat­Verteilung mit n Freiheitsgraden (Dufner, J. (1992), S. 121; Falk, M. (1995), S. 52). Sie besitzt die Dichtefunktion: f ( x) =

2

n/2

n 1 −x −1 x 2 exp( ) 2 Γ ( n / 2)

für x > 0. Die Quantile werden mit Varianz ist 2n.

x,n

bezeichnet. Der Erwartungswert von Un ist n und die


2.4.3 Student­Verteilung Sind X und Un stochastisch unabhängig und standardnormalverteilt, bzw. Chi­Quadrat­verteilt mit n Freiheitsgraden, dann heisst die Verteilung der Zufallsvariablen: Tn =

X Un n

Studentverteilung oder t­Verteilung mit n Freiheitsgraden (Dufner, J. (1992), S. 122; Falk, M. (1995), S. 55). Die Dichtefunktion der Verteilung lautet: f ( x) =

Γ ( n2+1 ) x 2 − n2+1 ( 1 + ) n Γ ( n2 ) πn

für reelles x. Die Quantile werden mit t ,n bezeichnet. Der Erwartungswert ist 0 für n > 1 und die Varianz ist n/(n­2) für n > 2.

2.4.4 Fisher­Verteilung Es seien Um und Un stochastisch unabhängige, stetige Zufallsvariablen und Chi­Quadrat­verteilt mit Freiheitsgrad m bzw. n. Dann heisst die Verteilung der Zufallsvariablen: Wm,n =

Um m Un n

(zentrale) F­Verteilung mit Freiheitsgraden m und n (Dufner, J. (1992), S. 123; Falk, M. (1995), S. 54). Die Dichtefunktion von Wm,n lautet: m

−1

m n Γ ( m2+ n ) x2 2 2 f ( x) = m m n m+ n Γ ( 2 ) Γ ( n2 ) (n + mx ) 2

Die ­Quantile werden mit F‚ ,m,n bezeichnet. Der Erwartungswert ist n/(n­2) für n > 2 und die Varianz ist: 2n 2 ( m + n − 2) VAR (Wm,n ) = m(n − 2) 2 (n − 4) 71


für n > 4. Es gilt schliesslich die Formel: F ,m,n = 1/F1­P,n,m

2.5 Parametertest Es wird von einer Stichprobe x1,...,xn ausgegangen, wobei die xi Realisierungen von normalverteilten Zufallsvariablen X1,...,Xn sind mit gleichem Erwartungswert Varianz

und gleicher

.

2

Wir behaupten nun dass:

µ ≤ µ0 ist, d.h. wir stellen die Nullhypothese: H 0 : µ ≤ µ0 auf, mit ł 0 als feste reelle Zahl (Zöfel, P. (1992), S. 29­32). Die Alternativhypothese ist dann die Verneinung: H A : µ > µ0 Es sei t0 die Realisierung einer Stichprobenfunktion T = T(X1,...,Xn) (die eine Zufallsvariable ist) für X1=x1,...,Xn=xn mit E(T) = Ł. Es ist t0 eine erwartungstreue Schätzung für 8. Unter Gültigkeit der Nullhypothese ( = Ł0) habe T eine Verteilungsfunktion F(x1,...,xn). Ferner sei T1­ ein Quantil der Verteilung von T mit vorgegebener fester Wahrscheinlichkeit :

α = P(t > T1−α ) Mit t

T1­ wird der Annahmebereich ]­,T1­ ] der Nullhypothese H0 definiert, mit t > T1­ der

Ablehnbereich ]T1­ ,+[. Aus der Stichprobe wird also t = t0 berechnet und mit T1­ł vergleichen. Gilt t0 > T1­ wird H0:

Ł

0

abgelehnt, anderenfalls nicht.


Liegt t0 nahe an T1­ aber noch im Annahmebereich geht man davon aus, dass die Nullhypothese richtig ist und die Abweichung nach oben von t0 nur zufallsbedingt ist und etwa vom Versuchsfehler herrührt. Liegt t0 dagegen im Ablehnbereich, nimmt man an, dass so eine grosse Abweichung vom Erwartungswert

nicht zufallsbedingt ist, sondern dass „irgendwas

dahintersteckt“, irgend eine Ursache. Die Nullhypothese wird abgelehnt und man sagt:

ist

signifikant grösser als ł 0 Es werden Fehlentscheidungen getroffen, wenn die Nullhypothese abgelehnt wird, obwohl sie richtig ist oder wenn sie angenommen wird, obwohl sie falsch ist. Beide Fehler sind in der Praxis nicht gleichgewichtig. Da man in der Testtheorie gewöhnlich nur eine der beiden Fehlerwahrscheinlichkeiten kontrollieren kann, wird diejenige Aussage als Nullhypothese genommen, deren irrtümliches Ablehnen die grösseren Konsequenzen hätte (Falk, M. (1995), S. 60). Dieser sogenannte Fehler der 1. Art wird kontrolliert. Das Annehmen der Nullhypothese, obwohl sie falsch ist, nennt man Fehler 2. Art. Entsprechend heissen die zugehörigen Wahrscheinlichkeiten des Begehens dieser Fehler Fehlerwahrscheinlichkeiten 1. und 2. Art bzw. ł und . Man nennt t0 Prüfgrösse oder Prüfstatistik. Anstatt die Grenze des Annahmebereichs mit dem Quantil T1­P anzugeben und mit der Prüfstatistik t0 zu vergleichen, kann man auch die Wahrscheinlichkeit: ł ’ = P(t > t0) berechnen und mit

vergleichen. Es ist ‚ ’ < ‘ äquivalent zu t0 > T1­ . Im Output der SAS­

Prozedur GLM wird die zweite Methode für den globalen F­Test verwandt, und die erste Methode wird für die paarweisen Mittelwertsvergleiche im Scheffé­ und Duncan­Test verwandt.

2.6 Test der Normalverteilungsannahme 2.6.1 Residualvariable In allen Varianzanalysen wurde die Fehlerzufallsvariable Pij bzw. ‘ ijk als unabhängig normalverteilt mit Erwartungswert 0 und Varianz 73

2 ij

bzw. Hijk2 angenommen.


Weitere Modellannahmen waren neben der Normalverteilung der Fehler, die stochastische Unabhängigkeit zwischen allen Fehlern und die Homoskedastie, die definiert ist als die Gleichheit aller Fehlervarianzen an —2. Die Realisationen der Zufallsvariablen

ij

beispielsweise,

der Fehler des Modells der einfaktoriellen Varianzanalyse, sind nicht beobachtbar (Dufner, J. (1992), S. 203). Man verwendet statt dessen die Residuen: eij = yij ­ yi. die die Realisationen der entsprechenden Zufallsvariablen, die sogenannten Residualvariablen: Eij = Yij ­ Yi. sind. Es gilt für ihre Varianzen und Kovarianzen: VAR ( E ij ) =

ni − 1 2 σ ni

(i=1,...,k; j=1,...,ni) COV ( E ij , E sl ) = 0 (i P s; j,l beliebig) −σ2 COV ( E ij , E sl ) = ni (i = s; j —l). Die Homoskedastie und die stochastische Unabhängigkeit der Residualvariablen steigen mit den Zellenumfängen ni und der Balance der Daten. Im Falle der zweifaktoriellen Varianzanalyse verwendet man entsprechend die Residualvariable: Eijk = Yijk ­ Yij. Für ihre Varianzen und Kovarianzen gilt analoges wie im einfaktoriellen Fall. Wir verwenden die Residualvariablen dazu, bei allen Dateien die Annahme der Normalverteilung des


Versuchsfehlers zu testen.

2.6.2 Durchführung mit SAS Wir wollen prüfen, ob die Variable x die zu einer Datei abc gehört, normalverteilt ist. Dazu ist in SAS der Shapiro­Wilk­Test implementiert. Der relevante Programmteil lautet: PROC UNIVARIATE DATA = abc NORMAL; VAR x; RUN; In der Prozedur UNIVARIATE (Gogolok, J. (1992), S. 525­527; Graf, A. (1993), S. 215­217) wird mit der Option NORMAL die durch die VAR­Anweisung aus der Datei abc ausgewählte Variable x auf Normalverteilung überprüft. Für N P 2000 ist der Shapiro­Wilk­Test implementiert. Er zählt zu den sogenannten Regressionstests (Dufner, J. (1992), S. 155­158). Der PROC­Step wird mit RUN abgeschlossen. Der Output hat den Umfang einer Seite mit u.a. dem Ergebnis der Teststatistik W:Normal und der Unterschreitungswahrscheinlichkeit Pr<W. Es gilt immer 0 < W < 1. Damit die Normalverteilungsannahme gerechtfertigt ist, muss W nahe bei 1 liegen. Das Signifikanzniveau beträgt üblicherweise 0,1.

3 DAS SAS­SYSTEM 3.1 Einführung SAS ist die Abkürzung von „Statistical Analysis System“ und ist ein Softwaresystem zur 75


statistischen Analyse von Daten mit einem sich vergrössernden Anwendungsspektrum, auch ausserhalb der Statistik, so dass man fast von einer Universalsoftware sprechen kann (Graf, A. (1993), S. 14).

3.2 Die drei Fenster Nach Aufruf von SAS auf dem PC unter dem Betriebssystem MS Windows erscheinen drei Fenster auf dem Bildschirm: das Editor­Fenster, das Log­Fenster und das Output­Fenster (Falk, M. (1995), S. 341; Gogolok, J. (1992), S. 24­28; Graf, A. (1993), S. 46). Durch Mausklick kann man von einem Fenster zum anderen wechseln. Im Editor­Fenster gibt man mit der Hilfe einiger wichtiger Funktionen, ähnlich den Funktionen eines Textprogramms, mit der Tastatur das Programm ein. Dies kann formatfrei in Gross­ oder Kleinschreibung geschehen. Das Log­Fenster enthält Informationen zu den ausgeführten Anweisungen, dem Speicher­ und Zeitbedarf, Fehlermeldungen und Angaben über die Anzahl der Variablen und die Anzahl der Beobachtungen der Dateien. Im Log­Fenster kontrolliert man das eingegebene Programm und im Editor­Fenster verbessert man es, bis es einwandfrei ist. Im Output­Fenster erscheinen die Ergebnisse, nachdem man mit dem Befehl SUBMIT das syntaktisch einwandfreie Programm zum Laufen gebracht hat. Die Inhalte der drei Fenster kann man nach Belieben einzeln ausdrucken oder speichern.

3.3 Die SAS­Sprache Die SAS­Programmiersprache hat ihre eigene Syntax, wie jede höhere Programmiersprache (Pascal, Basic, Cobol,...) auch mit ähnlichen Sprachkonstrukten. Die Wirkungsweise ist jedoch oft eine andere und es fehlt eine logische Abgeschlossenheit. Dass die Syntax nicht immer einheitlich und konsistent ist, liegt in der grossen Komplexität begründet (Graf, A. (1993), S. 24).


Dies macht es dem Anfänger schwer. Die SAS­Sprache besteht aus: ­ Anweisungen: sie werden immer durch ein Semikolon abgeschlossen und sind in der Regel eine Folge von SAS­Schlüsselwörtern, Sonderzeichen oder Operatoren (Gogolok, J. (1992), S. 335­363). ­ SAS­Ausdrücke bestehen aus Operatoren und Operanden von arithmetischem und logischem Typ und Zeichenketten (Graf, A. (1993), S. 27­31). Ein Operand kann ein Variablenname, eine Konstante oder eine SAS­Funktion sein. ­ SAS­Funktionen: wie in der Mathematik wird einem oder mehrerer Argumente ein Funktionswert zugewiesen (Gogolok, J. (1992), S. 307­334).

3.4 Das SAS­Programm 3.4.1 Der DATA­Step Die Programme der SAS­Programmiersprache bestehen aus Kommandos, die der Reihe nach abgearbeitet werden. Die SAS­Programme, wie man sie im Editor­Fenster eingibt, bestehen aus einem oder mehreren DATA­ und PROC­Steps. Im DATA­Step wird immer eine Datei erstellt (Graf, A. (1993), S. 36). Zum Einlesen der Daten muss in der INPUT­Anweisung angegeben werden, welche Variablen definiert sind. Auf die INPUT­Anweisung folgt die CARDS­Anweisung, in der die Daten mit der Tastatur eingelesen werden. Wenn zwischen den Variablennamen im INPUT bzw. den Variablenwerten in CARDS ein Lehrzeichen steht, werden die Eingaben in CARDS der Eingabe der Variablennamen in INPUT der Reihe nach zugewiesen. Die Eingabe von „Zeilenhalter“ @@ am Ende von INPUT bewirkt, dass die Datensätze in CARDS auch nebeneinander in einer Zeile geschrieben werden können und nicht in einer Datenmatrix zwingend untereinander. In dieser Datenmatrix sind die Zeilen die Observationen und die Spalten die Variablen. Die Datei kann dann als permanente Datei unter: 77


DATA libref.name; dauerhaft abgespeichert werden. Dafür muss im Programm der Ausdruck: LIBNAME libref ‘DOS­Pfad’; eingegeben werden (Gogolok, J. (1992), S. 101­104). Damit wird ein Ordner, die SAS­Bibliothek ‘libref’, angelegt, in dem alle permanenten Dateien abgelegt werden können. Im Gegensatz dazu werden die temporären Dateien nach der Sitzung automatisch gelöscht.

3.4.2 Der PROC­Step Eine Prozedur ist ein fertiges von SAS zur Verfügung gestelltes Programm, dass als PROC­Step mit: PROC Prozedurname DATA = Dateiname; eingegeben wird (Graf, A. (1993), S. 39). Dem folgen Anweisungen wie jene, die in dieser Arbeit mit der Prozedur GLM verwendet werden und im folgenden erklärt werden. ­ In der VAR­Anweisung werden die auszuwertenden Variablen festgelegt; ohne VAR­ Anweisung werden alle Variablen der Datei ausgewertet. ­ In der CLASS­Anweisung kann man eine getrennte Auswertung für verschiedenen Ausprägungen von Variablen erhalten. ­ In der MODEL­Anweisung wird in den Prozeduren REG, GLM und ANOVA eine Modellgleichung aus der Regressions­ oder Varianzanalyse angegeben. Um das Programm abzuschliessen, muss am Ende RUN; eingegeben werden. Die mit den Prozeduren nach SUBMIT erzeugten Ergebnisse werden im Output­Fenster ausgegeben und können ausgedruckt oder gespeichert werden. Varianzanalysen können in SAS mit den Prozeduren ANOVA und GLM berechnet werden (Zöfel, P. (1992), S. 44­50). GLM ist die Abkürzung von „General Linear Model“. ANOVA kann nur bei balancierten Daten angewandt werden; GLM auch bei unbalancierten und multivariaten Varianzanalysen.


79


4 SCHLUSSFOLGERUNG Es wurden in dieser Arbeit die Varianzanalysen von vier Dateien mit SAS auf dem PC berechnet: ­ mit der Niere­Datei eine unbalancierte, einfaktorielle Varianzanalyse mit festen Effekten, ­ mit der Wald­Datei eine balancierte, zweifaktorielle Varianzanalyse mit festen Effekten und mit Wechselwirkung, ­ mit der Umwelt­Datei eine zweifaktorielle Varianzanalyse mit festen Effekten und einer Beobachtung in jeder Zelle, ­ mit der Geburt­Datei eine unbalancierte, zweifaktorielle Varianzanalyse mit festen Effekten und mit Wechselwirkung. Die Ergebnisse sind im Anhang S. 82­120 ausgedruckt und wurden im 1. Kapitel erklärt. Darunter sind auch die Werte des Bestimmtheitsmasses R­Square und die Werte der Statistik W und der Unterschreitungswahrscheinlichkeit (Pr<W) des Shapiro­Wilk­Tests zu finden. Diese Werte der vier Dateien sind in der folgenden Tabelle noch einmal zusammengefasst:

Datei

R2

W

Pr < W

Niere

0,303209

0,981576

Wald

0,960669

0,965194

0,8612 0,2231

Umwelt

0,880989

0,981814

0,8105

Geburt

0,187377

0,99134

0,9950

Es gilt 0 —R2

1 und 0 < W < 1. Einen Wert des Bestimmungsmasses R2 in der Nähe von 1 zeigt

eine gute Anpassung des linearen Modells an das untersuchte Problem an. Werte der Statistik W des in SAS implementierten Shapiro­Wilk­Tests in der Nähe von 1 und der Unterschreitungswahrscheinlichkeit (Pr<W) von grösser als 0,1 zeigen an, dass die Annahme der Normalverteilung des Versuchsfehlers gerechtfertigt ist. Der Tabelle ist zu entnehmen, dass W bei allen vier Dateien sehr nahe bei 1 liegt und die


Unterschreitungswahrscheinlichkeit (Pr<W) liegt in allen Fällen über dem üblichen Signifikanzniveau 0,1. Die Normalverteilungsvoraussetzung ist somit überall erfüllt. Das Bestimmtheitsmass ist nur bei den balancierten, chemisch­physikalischen Dateien Wald und Umwelt nahe bei 1. Bei den unbalancierten, medizinischen Dateien Niere und Geburt ist das lineare Modell zur Problembeschreibung schlecht geeignet, denn das Bestimmtheitsmass ist hier kleiner als 0,5. Ein Grund dafür könnte sein, dass biologische Probleme komplizierter sind als chemisch­physikalische und dass man kompliziertere Modelle als das einfache lineare Modell aufstellen muss, um Probleme, in denen lebende Organismen im Spiel sind, gut zu beschreiben.

81


5 LITERATURVERZEICHNIS Ahrens, H./Läuter, J. (1974), Mehrdimensionale Varianzanalyse, Berlin. Dufner, J./Jensen, U./Schuhmacher, E. (1992), Statistik mit SAS, Stuttgart. Falk, M./Becker, R./Marohn, F. (1995), Angewandte Statistik mit SAS, Berlin. Gogolok, J./Schuemer, R./Ströhlein, G. (1992), Datenverarbeitung und statistische Auswertung mit SAS, Band I, Stuttgart. Graf, A./Bundschuh, W./Kruse, H.­G. (1993), Effektives Arbeiten mit SAS, Mannheim. Prokopp, F. (1994), Lineare Regression und Varianzanalyse, München. Schach, S./Schäfer, T. (1978), Regressions­ und Varianzanalyse, Berlin. Schuemer, R./Ströhlein, G./Gogolok, J. (1990), Datenverarbeitung und statistische Auswertung mit SAS, Band II, Stuttgart. Searle, S. R./Casella, G./McCulloch, C. E. (1992), Variance Components, New York. Toutenburg, H. (1994), Versuchsplanung und Modellwahl, Heidelberg. Zöfel, P. (1992), Univariate Varianzanalysen, Stuttgart.


ANHANG

83


Einfaktorielle Varianzanalyse der Niere­Datei General Linear Models Procedure Class Level Information Class UGR

Levels

Values

4

0 1 2 3

Number of observations in data set = 34

1


Einfaktorielle Varianzanalyse der Niere­Datei

2

General Linear Models Procedure Dependent Variable: HFS Source

Herzfequenz Sum of DF Squares

Model

3

Error Corrected Total

Mean Square

F Value

Pr > F

5470.4190

1823.4730

4.35

0.0117

30

12571.3457

419.0449

33

18041.7647

R­Square

C.V.

Root MSE

HFS Mean

0.303209

12.35795

20.471

165.65

Source

DF

Type I SS

Mean Square

F Value

Pr > F

UGR

3

5470.4190

1823.4730

4.35

0.0117

Source

DF

Type III SS

Mean Square

F Value

Pr > F

UGR

3

5470.4190

1823.4730

4.35

0.0117

85


Einfaktorielle Varianzanalyse der Niere­Datei

3

General Linear Models Procedure Scheffe's test for variable: HFS NOTE: This test controls the type I experimentwise error rate but generally has a higher type II error rate than Tukey's for all pairwise comparisons. Alpha= 0.05

Confidence= 0.95 df= 30 MSE= 419.0449 Critical Value of F= 2.92228

Comparisons significant at the 0.05 level are indicated by '***'.

UGR Comparison

Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit

0 0 0

­ 2 ­ 3 ­ 1

­8.063 ­4.688 2.842

20.352 22.548 32.756

48.767 49.784 62.671

2 2 2

­ 0 ­ 3 ­ 1

­48.767 ­29.173 ­21.316

­20.352 2.196 12.405

8.063 33.566 46.126

3 3 3

­ 0 ­ 2 ­ 1

­49.784 ­33.566 ­22.525

­22.548 ­2.196 10.208

4.688 29.173 42.942

1 1 1

­ 0 ­ 2 ­ 3

­62.671 ­46.126 ­42.942

­32.756 ­12.405 ­10.208

­2.842 21.316 22.525

Einfaktorielle Varianzanalyse der Niere­Datei

***

***

4


General Linear Models Procedure Duncan's Multiple Range Test for variable: HFS NOTE: This test controls the type I comparisonwise error rate, not the experimentwise error rate Alpha= 0.05 df= 30 MSE= 419.0449 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 7.820949 Number of Means 2 3 4 Critical Range 21.14 22.22 22.91 Means with the same letter are not significantly different. Duncan Grouping

Mean

N

UGR

A A A

180.92

13

0

160.57

7

2

158.38

8

3

148.17

6

1

B B B B B

Die Niere­Datei mit Residuum OBS

Untersuchungsgruppe

Herzfequenz

87

5 Residuum


1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34

0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3

175 170 177 182 191 158 185 175 181 196 200 197 165 157 108 170 138 180 136 167 172 143 134 182 206 120 165 173 172 145 134 174 140 164

Test der Normalverteilungsannahme der Niere­Datei Univariate Procedure

­5.9231 ­10.9231 ­3.9231 1.0769 10.0769 ­22.9231 4.0769 ­5.9231 0.0769 15.0769 19.0769 16.0769 ­15.9231 8.8333 ­40.1667 21.8333 ­10.1667 31.8333 ­12.1667 6.4286 11.4286 ­17.5714 ­26.5714 21.4286 45.4286 ­40.5714 6.6250 14.6250 13.6250 ­13.3750 ­24.3750 15.6250 ­18.3750 5.6250

6


Variable=R

Residuum Moments N Mean Std Dev Skewness USS CV T:Mean=0 Num ^= 0 M(Sign) Sgn Rank W:Normal

34 0 19.51794 ­0.10955 12571.35 . 0 34 2 5.5 0.981576

Sum Wgts Sum Variance Kurtosis CSS Std Mean Pr>|T| Num > 0 Pr>=|M| Pr>=|S| Pr<W

34 0 380.9499 ­0.04996 12571.35 3.347299 1.0000 19 0.6076 0.9267 0.8612

Quantiles(Def=5) 100% Max 75% Q3 50% Med 25% Q1 0% Min

45.42857 14.625 2.576923 ­13.375 ­40.5714

Range Q3­Q1 Mode

86 28 ­5.92308

99% 95% 90% 10% 5% 1%

45.42857 31.83333 21.42857 ­24.375 ­40.1667 ­40.5714

Extremes Lowest ­40.5714( ­40.1667( ­26.5714( ­24.375( ­22.9231(

Obs

Highest 26) 19.07692( 15) 21.42857( 23) 21.83333( 31) 31.83333( 6) 45.42857(

Obs

11) 24) 16) 18) 25)

Zweifaktorielle Varianzanalyse der Wald­Datei General Linear Models Procedure Class Level Information Class

Levels

89

Values

7


KALK

2

M O

BEREG

3

A B C

Number of observations in data set = 54

Zweifaktorielle Varianzanalyse der Wald­Datei

8

General Linear Models Procedure Dependent Variable: PH

pH

Source

DF

Sum of Squares

Mean Square

F Value

Pr > F

Model

5

116.46393

23.29279

234.48

0.0001


Error

48

4.76820

0.09934

Corrected Total

53

121.23213

R­Square

C.V.

Root MSE

PH Mean

0.960669

5.570712

0.3152

5.6578

Source

DF

Type I SS

Mean Square

F Value

Pr > F

KALK BEREG KALK*BEREG

1 2 2

114.81459 0.86583 0.78351

114.81459 0.43292 0.39176

1155.80 4.36 3.94

0.0001 0.0182 0.0260

Source

DF

Type III SS

Mean Square

F Value

Pr > F

KALK BEREG KALK*BEREG

1 2 2

114.81459 0.86583 0.78351

114.81459 0.43292 0.39176

1155.80 4.36 3.94

0.0001 0.0182 0.0260

Zweifaktorielle Varianzanalyse der Wald­Datei General Linear Models Procedure Scheffe's test for variable: PH NOTE: This test controls the type I experimentwise error rate but generally has a higher type II error rate than Tukey's for all pairwise comparisons. Alpha= 0.05

Confidence= 0.95

91

df= 48

MSE= 0.099337

9


Critical Value of F= 4.04265 Minimum Significant Difference= 0.1725 Comparisons significant at the 0.05 level are indicated by '***'. Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit

KALK Comparison M

­ O

2.74382

2.91630

3.08877

***

O

­ M

­3.08877

­2.91630

­2.74382

***

Zweifaktorielle Varianzanalyse der Wald­Datei General Linear Models Procedure

10

Scheffe's test for variable: PH NOTE: This test controls the type I experimentwise error rate but generally has a higher type II error rate than Tukey's for all pairwise comparisons. Alpha= 0.05

Confidence= 0.95 df= 48 MSE= 0.099337 Critical Value of F= 3.19073 Minimum Significant Difference= 0.2654


Comparisons significant at the 0.05 level are indicated by '***'.

BEREG Comparison

Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit

C C

­ B ­ A

­0.0821 0.0429

0.1833 0.3083

0.4487 0.5737

B B

­ C ­ A

­0.4487 ­0.1404

­0.1833 0.1250

0.0821 0.3904

A A

­ C ­ B

­0.5737 ­0.3904

­0.3083 ­0.1250

­0.0429 0.1404

***

***

Zweifaktorielle Varianzanalyse der Wald­Datei

11

General Linear Models Procedure Duncan's Multiple Range Test for variable: PH NOTE: This test controls the type I comparisonwise error rate, not the experimentwise error rate Alpha= 0.05

df= 48

MSE= 0.099337

Number of Means 2 Critical Range .1725 Means with the same letter are not significantly different.

93


Duncan Grouping

Mean

N

KALK

A

7.11593

27

M

B

4.19963

27

O

Zweifaktorielle Varianzanalyse der Wald­Datei

12

General Linear Models Procedure Duncan's Multiple Range Test for variable: PH NOTE: This test controls the type I comparisonwise error rate, not the experimentwise error rate Alpha= 0.05

df= 48

MSE= 0.099337

Number of Means 2 3 Critical Range .2112 .2222 Means with the same letter are not significantly different. Duncan Grouping

Mean

N

BEREG


A A A

B B B

5.8217

18

C

5.6383

18

B

5.5133

18

A

Die Wald­Datei mit Residuen

13

OBS

Kalkung

Beregnung

pH

Residuum

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

M M M M M M M M M O O O O O O

A A A A A A A A A A A A A A A

7.17 7.17 6.89 6.49 6.89 7.05 7.32 5.84 6.40 4.31 4.59 4.13 4.25 4.15 4.28

0.36778 0.36778 0.08778 ­0.31222 0.08778 0.24778 0.51778 ­0.96222 ­0.40222 0.08556 0.36556 ­0.09444 0.02556 ­0.07444 0.05556

95


16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54

O A 4.20 ­0.02444 O A 4.66 0.43556 O A 3.45 ­0.77444 M B 7.16 ­0.03778 M B 7.19 ­0.00778 M B 7.45 0.25222 M B 7.49 0.29222 M B 7.39 0.19222 M B 6.93 ­0.26778 M B 7.08 ­0.11778 M B 6.96 ­0.23778 M B 7.13 ­0.06778 O B 3.80 ­0.27889 O B 4.27 0.19111 O B 4.19 0.11111 O B 4.31 0.23111 O B 3.95 ­0.12889 O B 4.24 0.16111 O B 3.82 ­0.25889 O B 4.07 ­0.00889 O B 4.06 ­0.01889 M C 7.84 0.49222 M C 7.25 ­0.09778 M C 7.18 ­0.16778 M C 7.31 ­0.03778 M C 7.65 0.30222 M C 7.46 0.11222 M C 7.43 0.08222 M C 6.96 ­0.38778 M C 7.05 ­0.29778 O C 4.42 0.12444 O C 4.25 ­0.04556 O C 4.32 0.02444 O C 4.19 ­0.10556 O C 4.17 ­0.12556 O C 4.46 0.16444 O C 4.22 ­0.07556 O C 4.90 0.60444 O C 3.73 ­0.56556 Test der Normalverteilungsannahme der Wald­Datei Univariate Procedure

Variable=S

Residuum Moments N Mean Std Dev Skewness USS CV T:Mean=0 Num ^= 0 M(Sign) Sgn Rank W:Normal

54 0 0.299943 ­0.70199 4.7682 . 0 54 ­1 34.5 0.965194

Sum Wgts Sum Variance Kurtosis CSS Std Mean Pr>|T| Num > 0 Pr>=|M| Pr>=|S| Pr<W

54 0 0.089966 1.500363 4.7682 0.040817 1.0000 26 0.8919 0.7695 0.2231

14


Quantiles(Def=5) 100% Max 75% Q3 50% Med 25% Q1 0% Min

0.604444 0.191111 ­0.00833 ­0.12556 ­0.96222

Range Q3­Q1 Mode

1.566667 0.316667 0.087778

99% 95% 90% 10% 5% 1%

0.604444 0.492222 0.367778 ­0.31222 ­0.56556 ­0.96222

Extremes Lowest ­0.96222( ­0.77444( ­0.56556( ­0.40222( ­0.38778(

Obs

Highest 8) 0.367778( 18) 0.435556( 54) 0.492222( 9) 0.517778( 44) 0.604444(

Obs

2) 17) 37) 7) 53)

Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der Umwelt­Datei General Linear Models Procedure Class Level Information Class

Levels

Values

DATUM

2

APR94 JUL93

NAME

23

ANSBACH ASCHAFFENBURG AUGSBURG BAYREUTH BURGHAUSEN ERLANGEN FUERTH HOF INGOLSTADT KELHEIM KEMPTEN KULMBACH LANDSHUT MUENCHEN NEU­ULM NUERNBERG OBERAUDORF PASSAU REGENSBURG SCHWEINFURT TROSTBERG WEIDEN WUERZBURG Number of observations in data set = 46

97

15


Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der Umwelt­Datei

16

General Linear Models Procedure Dependent Variable: STAUB

Staubkonzentration Sum of Mean Squares Square

Source

DF

F Value

Pr > F

Model

23

3467.9565

150.7807

7.08

0.0001

Error

22

468.4783

21.2945

Corrected Total

45

3936.4348

R­Square

C.V.

Root MSE

STAUB Mean

0.880989

12.03352

4.6146

38.348

Source

DF

Type I SS

Mean Square

F Value

Pr > F

DATUM NAME

1 22

292.5217 3175.4348

292.5217 144.3379

13.74 6.78

0.0012 0.0001


Source

DF

Type III SS

Mean Square

F Value

Pr > F

DATUM NAME

1 22

292.5217 3175.4348

292.5217 144.3379

13.74 6.78

0.0012 0.0001

Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der Umwelt­Datei

17

General Linear Models Procedure Scheffe's test for variable: STAUB NOTE: This test controls the type I experimentwise error rate but generally has a higher type II error rate than Tukey's for all pairwise comparisons. Alpha= 0.05

Confidence= 0.95 df= 22 MSE= 21.29447 Critical Value of F= 4.30095 Minimum Significant Difference= 2.8221

Comparisons significant at the 0.05 level are indicated by '***'.

DATUM Comparison

Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit

APR94 ­ JUL93

2.221

5.043

7.866

***

JUL93 ­ APR94

­7.866

­5.043

­2.221

***

99


Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der Umwelt­Datei General Linear Models Procedure

18

Scheffe's test for variable: STAUB NOTE: This test controls the type I experimentwise error rate but generally has a higher type II error rate than Tukey's for all pairwise comparisons. Alpha= 0.05

Confidence= 0.95 df= 22 MSE= 21.29447 Critical Value of F= 2.04777 Minimum Significant Difference= 30.973

Comparisons significant at the 0.05 level are indicated by '***'.

NAME Comparison AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG

­ PASSAU ­ REGENSBURG ­ WEIDEN ­ LANDSHUT ­ BAYREUTH ­ SCHWEINFURT ­ HOF

Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit ­16.973 ­13.973 ­10.473 ­7.973 ­7.973 ­7.473 ­6.473

14.000 17.000 20.500 23.000 23.000 23.500 24.500

44.973 47.973 51.473 53.973 53.973 54.473 55.473


AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG

­ WUERZBURG ­ MUENCHEN ­ NEU­ULM ­ FUERTH ­ NUERNBERG ­ KELHEIM ­ INGOLSTADT ­ KULMBACH ­ ANSBACH ­ ASCHAFFENBURG ­ BURGHAUSEN ­ ERLANGEN ­ KEMPTEN ­ OBERAUDORF ­ TROSTBERG

­5.473 ­5.473 ­4.973 ­4.973 ­3.973 ­3.473 ­2.973 ­1.973 ­0.973 0.027 0.527 2.027 6.027 6.527 10.527

25.500 25.500 26.000 26.000 27.000 27.500 28.000 29.000 30.000 31.000 31.500 33.000 37.000 37.500 41.500

56.473 56.473 56.973 56.973 57.973 58.473 58.973 59.973 60.973 61.973 62.473 63.973 67.973 68.473 72.473

PASSAU PASSAU PASSAU PASSAU PASSAU PASSAU PASSAU PASSAU PASSAU PASSAU PASSAU PASSAU

­ AUGSBURG ­ REGENSBURG ­ WEIDEN ­ LANDSHUT ­ BAYREUTH ­ SCHWEINFURT ­ HOF ­ WUERZBURG ­ MUENCHEN ­ NEU­ULM ­ FUERTH ­ NUERNBERG

­44.973 ­27.973 ­24.473 ­21.973 ­21.973 ­21.473 ­20.473 ­19.473 ­19.473 ­18.973 ­18.973 ­17.973

­14.000 3.000 6.500 9.000 9.000 9.500 10.500 11.500 11.500 12.000 12.000 13.000

16.973 33.973 37.473 39.973 39.973 40.473 41.473 42.473 42.473 42.973 42.973 43.973

Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der Umwelt­Datei

*** *** *** *** *** ***

General Linear Models Procedure

NAME Comparison

Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit

PASSAU PASSAU PASSAU PASSAU PASSAU PASSAU PASSAU PASSAU PASSAU PASSAU

­ KELHEIM ­ INGOLSTADT ­ KULMBACH ­ ANSBACH ­ ASCHAFFENBURG ­ BURGHAUSEN ­ ERLANGEN ­ KEMPTEN ­ OBERAUDORF ­ TROSTBERG

­17.473 ­16.973 ­15.973 ­14.973 ­13.973 ­13.473 ­11.973 ­7.973 ­7.473 ­3.473

13.500 14.000 15.000 16.000 17.000 17.500 19.000 23.000 23.500 27.500

44.473 44.973 45.973 46.973 47.973 48.473 49.973 53.973 54.473 58.473

REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG

­ AUGSBURG ­ PASSAU ­ WEIDEN ­ LANDSHUT ­ BAYREUTH ­ SCHWEINFURT ­ HOF ­ WUERZBURG ­ MUENCHEN ­ NEU­ULM

­47.973 ­33.973 ­27.473 ­24.973 ­24.973 ­24.473 ­23.473 ­22.473 ­22.473 ­21.973

­17.000 ­3.000 3.500 6.000 6.000 6.500 7.500 8.500 8.500 9.000

13.973 27.973 34.473 36.973 36.973 37.473 38.473 39.473 39.473 39.973

101

19


REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG

­ FUERTH ­ NUERNBERG ­ KELHEIM ­ INGOLSTADT ­ KULMBACH ­ ANSBACH ­ ASCHAFFENBURG ­ BURGHAUSEN ­ ERLANGEN ­ KEMPTEN ­ OBERAUDORF ­ TROSTBERG

­21.973 ­20.973 ­20.473 ­19.973 ­18.973 ­17.973 ­16.973 ­16.473 ­14.973 ­10.973 ­10.473 ­6.473

9.000 10.000 10.500 11.000 12.000 13.000 14.000 14.500 16.000 20.000 20.500 24.500

39.973 40.973 41.473 41.973 42.973 43.973 44.973 45.473 46.973 50.973 51.473 55.473

WEIDEN WEIDEN WEIDEN WEIDEN WEIDEN WEIDEN WEIDEN WEIDEN WEIDEN WEIDEN WEIDEN WEIDEN WEIDEN

­ AUGSBURG ­ PASSAU ­ REGENSBURG ­ LANDSHUT ­ BAYREUTH ­ SCHWEINFURT ­ HOF ­ WUERZBURG ­ MUENCHEN ­ NEU­ULM ­ FUERTH ­ NUERNBERG ­ KELHEIM

­51.473 ­37.473 ­34.473 ­28.473 ­28.473 ­27.973 ­26.973 ­25.973 ­25.973 ­25.473 ­25.473 ­24.473 ­23.973

­20.500 ­6.500 ­3.500 2.500 2.500 3.000 4.000 5.000 5.000 5.500 5.500 6.500 7.000

10.473 24.473 27.473 33.473 33.473 33.973 34.973 35.973 35.973 36.473 36.473 37.473 37.973

Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der Umwelt­Datei General Linear Models Procedure

NAME Comparison

Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit

WEIDEN WEIDEN WEIDEN WEIDEN WEIDEN WEIDEN WEIDEN WEIDEN WEIDEN

­ INGOLSTADT ­ KULMBACH ­ ANSBACH ­ ASCHAFFENBURG ­ BURGHAUSEN ­ ERLANGEN ­ KEMPTEN ­ OBERAUDORF ­ TROSTBERG

­23.473 ­22.473 ­21.473 ­20.473 ­19.973 ­18.473 ­14.473 ­13.973 ­9.973

7.500 8.500 9.500 10.500 11.000 12.500 16.500 17.000 21.000

38.473 39.473 40.473 41.473 41.973 43.473 47.473 47.973 51.973

LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT

­ AUGSBURG ­ PASSAU ­ REGENSBURG ­ WEIDEN ­ BAYREUTH ­ SCHWEINFURT ­ HOF ­ WUERZBURG ­ MUENCHEN ­ NEU­ULM ­ FUERTH ­ NUERNBERG ­ KELHEIM

­53.973 ­39.973 ­36.973 ­33.473 ­30.973 ­30.473 ­29.473 ­28.473 ­28.473 ­27.973 ­27.973 ­26.973 ­26.473

­23.000 ­9.000 ­6.000 ­2.500 0.000 0.500 1.500 2.500 2.500 3.000 3.000 4.000 4.500

7.973 21.973 24.973 28.473 30.973 31.473 32.473 33.473 33.473 33.973 33.973 34.973 35.473

20


LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT

­ INGOLSTADT ­ KULMBACH ­ ANSBACH ­ ASCHAFFENBURG ­ BURGHAUSEN ­ ERLANGEN ­ KEMPTEN ­ OBERAUDORF ­ TROSTBERG

­25.973 ­24.973 ­23.973 ­22.973 ­22.473 ­20.973 ­16.973 ­16.473 ­12.473

5.000 6.000 7.000 8.000 8.500 10.000 14.000 14.500 18.500

35.973 36.973 37.973 38.973 39.473 40.973 44.973 45.473 49.473

BAYREUTH BAYREUTH BAYREUTH BAYREUTH BAYREUTH BAYREUTH BAYREUTH BAYREUTH BAYREUTH BAYREUTH BAYREUTH BAYREUTH BAYREUTH BAYREUTH

­ AUGSBURG ­ PASSAU ­ REGENSBURG ­ WEIDEN ­ LANDSHUT ­ SCHWEINFURT ­ HOF ­ WUERZBURG ­ MUENCHEN ­ NEU­ULM ­ FUERTH ­ NUERNBERG ­ KELHEIM ­ INGOLSTADT

­53.973 ­39.973 ­36.973 ­33.473 ­30.973 ­30.473 ­29.473 ­28.473 ­28.473 ­27.973 ­27.973 ­26.973 ­26.473 ­25.973

­23.000 ­9.000 ­6.000 ­2.500 0.000 0.500 1.500 2.500 2.500 3.000 3.000 4.000 4.500 5.000

7.973 21.973 24.973 28.473 30.973 31.473 32.473 33.473 33.473 33.973 33.973 34.973 35.473 35.973

Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der Umwelt­Datei General Linear Models Procedure

NAME Comparison

Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit

BAYREUTH BAYREUTH BAYREUTH BAYREUTH BAYREUTH BAYREUTH BAYREUTH BAYREUTH

­ KULMBACH ­ ANSBACH ­ ASCHAFFENBURG ­ BURGHAUSEN ­ ERLANGEN ­ KEMPTEN ­ OBERAUDORF ­ TROSTBERG

­24.973 ­23.973 ­22.973 ­22.473 ­20.973 ­16.973 ­16.473 ­12.473

6.000 7.000 8.000 8.500 10.000 14.000 14.500 18.500

36.973 37.973 38.973 39.473 40.973 44.973 45.473 49.473

SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT

­ AUGSBURG ­ PASSAU ­ REGENSBURG ­ WEIDEN ­ LANDSHUT ­ BAYREUTH ­ HOF ­ WUERZBURG ­ MUENCHEN ­ NEU­ULM ­ FUERTH ­ NUERNBERG ­ KELHEIM ­ INGOLSTADT ­ KULMBACH ­ ANSBACH

­54.473 ­40.473 ­37.473 ­33.973 ­31.473 ­31.473 ­29.973 ­28.973 ­28.973 ­28.473 ­28.473 ­27.473 ­26.973 ­26.473 ­25.473 ­24.473

­23.500 ­9.500 ­6.500 ­3.000 ­0.500 ­0.500 1.000 2.000 2.000 2.500 2.500 3.500 4.000 4.500 5.500 6.500

7.473 21.473 24.473 27.973 30.473 30.473 31.973 32.973 32.973 33.473 33.473 34.473 34.973 35.473 36.473 37.473

103

21


SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT

­ ASCHAFFENBURG ­ BURGHAUSEN ­ ERLANGEN ­ KEMPTEN ­ OBERAUDORF ­ TROSTBERG

­23.473 ­22.973 ­21.473 ­17.473 ­16.973 ­12.973

7.500 8.000 9.500 13.500 14.000 18.000

38.473 38.973 40.473 44.473 44.973 48.973

HOF HOF HOF HOF HOF HOF HOF HOF HOF HOF HOF HOF HOF HOF HOF

­ AUGSBURG ­ PASSAU ­ REGENSBURG ­ WEIDEN ­ LANDSHUT ­ BAYREUTH ­ SCHWEINFURT ­ WUERZBURG ­ MUENCHEN ­ NEU­ULM ­ FUERTH ­ NUERNBERG ­ KELHEIM ­ INGOLSTADT ­ KULMBACH

­55.473 ­41.473 ­38.473 ­34.973 ­32.473 ­32.473 ­31.973 ­29.973 ­29.973 ­29.473 ­29.473 ­28.473 ­27.973 ­27.473 ­26.473

­24.500 ­10.500 ­7.500 ­4.000 ­1.500 ­1.500 ­1.000 1.000 1.000 1.500 1.500 2.500 3.000 3.500 4.500

6.473 20.473 23.473 26.973 29.473 29.473 29.973 31.973 31.973 32.473 32.473 33.473 33.973 34.473 35.473

Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der Umwelt­Datei General Linear Models Procedure

NAME Comparison

Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit

HOF HOF HOF HOF HOF HOF HOF

­ ANSBACH ­ ASCHAFFENBURG ­ BURGHAUSEN ­ ERLANGEN ­ KEMPTEN ­ OBERAUDORF ­ TROSTBERG

­25.473 ­24.473 ­23.973 ­22.473 ­18.473 ­17.973 ­13.973

5.500 6.500 7.000 8.500 12.500 13.000 17.000

36.473 37.473 37.973 39.473 43.473 43.973 47.973

WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG

­ AUGSBURG ­ PASSAU ­ REGENSBURG ­ WEIDEN ­ LANDSHUT ­ BAYREUTH ­ SCHWEINFURT ­ HOF ­ MUENCHEN ­ NEU­ULM ­ FUERTH ­ NUERNBERG ­ KELHEIM ­ INGOLSTADT ­ KULMBACH ­ ANSBACH ­ ASCHAFFENBURG ­ BURGHAUSEN ­ ERLANGEN

­56.473 ­42.473 ­39.473 ­35.973 ­33.473 ­33.473 ­32.973 ­31.973 ­30.973 ­30.473 ­30.473 ­29.473 ­28.973 ­28.473 ­27.473 ­26.473 ­25.473 ­24.973 ­23.473

­25.500 ­11.500 ­8.500 ­5.000 ­2.500 ­2.500 ­2.000 ­1.000 0.000 0.500 0.500 1.500 2.000 2.500 3.500 4.500 5.500 6.000 7.500

5.473 19.473 22.473 25.973 28.473 28.473 28.973 29.973 30.973 31.473 31.473 32.473 32.973 33.473 34.473 35.473 36.473 36.973 38.473

22


WUERZBURG WUERZBURG WUERZBURG

­ KEMPTEN ­ OBERAUDORF ­ TROSTBERG

­19.473 ­18.973 ­14.973

11.500 12.000 16.000

42.473 42.973 46.973

MUENCHEN MUENCHEN MUENCHEN MUENCHEN MUENCHEN MUENCHEN MUENCHEN MUENCHEN MUENCHEN MUENCHEN MUENCHEN MUENCHEN MUENCHEN MUENCHEN MUENCHEN MUENCHEN

­ AUGSBURG ­ PASSAU ­ REGENSBURG ­ WEIDEN ­ LANDSHUT ­ BAYREUTH ­ SCHWEINFURT ­ HOF ­ WUERZBURG ­ NEU­ULM ­ FUERTH ­ NUERNBERG ­ KELHEIM ­ INGOLSTADT ­ KULMBACH ­ ANSBACH

­56.473 ­42.473 ­39.473 ­35.973 ­33.473 ­33.473 ­32.973 ­31.973 ­30.973 ­30.473 ­30.473 ­29.473 ­28.973 ­28.473 ­27.473 ­26.473

­25.500 ­11.500 ­8.500 ­5.000 ­2.500 ­2.500 ­2.000 ­1.000 0.000 0.500 0.500 1.500 2.000 2.500 3.500 4.500

5.473 19.473 22.473 25.973 28.473 28.473 28.973 29.973 30.973 31.473 31.473 32.473 32.973 33.473 34.473 35.473

Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der Umwelt­Datei General Linear Models Procedure

NAME Comparison

Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit

MUENCHEN MUENCHEN MUENCHEN MUENCHEN MUENCHEN MUENCHEN

­ ASCHAFFENBURG ­ BURGHAUSEN ­ ERLANGEN ­ KEMPTEN ­ OBERAUDORF ­ TROSTBERG

­25.473 ­24.973 ­23.473 ­19.473 ­18.973 ­14.973

5.500 6.000 7.500 11.500 12.000 16.000

36.473 36.973 38.473 42.473 42.973 46.973

NEU­ULM NEU­ULM NEU­ULM NEU­ULM NEU­ULM NEU­ULM NEU­ULM NEU­ULM NEU­ULM NEU­ULM NEU­ULM NEU­ULM NEU­ULM NEU­ULM NEU­ULM NEU­ULM NEU­ULM NEU­ULM NEU­ULM NEU­ULM NEU­ULM NEU­ULM

­ AUGSBURG ­ PASSAU ­ REGENSBURG ­ WEIDEN ­ LANDSHUT ­ BAYREUTH ­ SCHWEINFURT ­ HOF ­ WUERZBURG ­ MUENCHEN ­ FUERTH ­ NUERNBERG ­ KELHEIM ­ INGOLSTADT ­ KULMBACH ­ ANSBACH ­ ASCHAFFENBURG ­ BURGHAUSEN ­ ERLANGEN ­ KEMPTEN ­ OBERAUDORF ­ TROSTBERG

­56.973 ­42.973 ­39.973 ­36.473 ­33.973 ­33.973 ­33.473 ­32.473 ­31.473 ­31.473 ­30.973 ­29.973 ­29.473 ­28.973 ­27.973 ­26.973 ­25.973 ­25.473 ­23.973 ­19.973 ­19.473 ­15.473

­26.000 ­12.000 ­9.000 ­5.500 ­3.000 ­3.000 ­2.500 ­1.500 ­0.500 ­0.500 0.000 1.000 1.500 2.000 3.000 4.000 5.000 5.500 7.000 11.000 11.500 15.500

4.973 18.973 21.973 25.473 27.973 27.973 28.473 29.473 30.473 30.473 30.973 31.973 32.473 32.973 33.973 34.973 35.973 36.473 37.973 41.973 42.473 46.473

105

23


FUERTH FUERTH FUERTH FUERTH FUERTH FUERTH FUERTH FUERTH FUERTH FUERTH FUERTH FUERTH FUERTH FUERTH FUERTH FUERTH FUERTH

­ AUGSBURG ­ PASSAU ­ REGENSBURG ­ WEIDEN ­ LANDSHUT ­ BAYREUTH ­ SCHWEINFURT ­ HOF ­ WUERZBURG ­ MUENCHEN ­ NEU­ULM ­ NUERNBERG ­ KELHEIM ­ INGOLSTADT ­ KULMBACH ­ ANSBACH ­ ASCHAFFENBURG

­56.973 ­42.973 ­39.973 ­36.473 ­33.973 ­33.973 ­33.473 ­32.473 ­31.473 ­31.473 ­30.973 ­29.973 ­29.473 ­28.973 ­27.973 ­26.973 ­25.973

­26.000 ­12.000 ­9.000 ­5.500 ­3.000 ­3.000 ­2.500 ­1.500 ­0.500 ­0.500 0.000 1.000 1.500 2.000 3.000 4.000 5.000

4.973 18.973 21.973 25.473 27.973 27.973 28.473 29.473 30.473 30.473 30.973 31.973 32.473 32.973 33.973 34.973 35.973

Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der Umwelt­Datei General Linear Models Procedure

NAME Comparison

Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit

FUERTH FUERTH FUERTH FUERTH FUERTH

­ BURGHAUSEN ­ ERLANGEN ­ KEMPTEN ­ OBERAUDORF ­ TROSTBERG

­25.473 ­23.973 ­19.973 ­19.473 ­15.473

5.500 7.000 11.000 11.500 15.500

36.473 37.973 41.973 42.473 46.473

NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG

­ AUGSBURG ­ PASSAU ­ REGENSBURG ­ WEIDEN ­ LANDSHUT ­ BAYREUTH ­ SCHWEINFURT ­ HOF ­ WUERZBURG ­ MUENCHEN ­ NEU­ULM ­ FUERTH ­ KELHEIM ­ INGOLSTADT ­ KULMBACH ­ ANSBACH ­ ASCHAFFENBURG ­ BURGHAUSEN ­ ERLANGEN ­ KEMPTEN ­ OBERAUDORF ­ TROSTBERG

­57.973 ­43.973 ­40.973 ­37.473 ­34.973 ­34.973 ­34.473 ­33.473 ­32.473 ­32.473 ­31.973 ­31.973 ­30.473 ­29.973 ­28.973 ­27.973 ­26.973 ­26.473 ­24.973 ­20.973 ­20.473 ­16.473

­27.000 ­13.000 ­10.000 ­6.500 ­4.000 ­4.000 ­3.500 ­2.500 ­1.500 ­1.500 ­1.000 ­1.000 0.500 1.000 2.000 3.000 4.000 4.500 6.000 10.000 10.500 14.500

3.973 17.973 20.973 24.473 26.973 26.973 27.473 28.473 29.473 29.473 29.973 29.973 31.473 31.973 32.973 33.973 34.973 35.473 36.973 40.973 41.473 45.473

KELHEIM KELHEIM

­ AUGSBURG ­ PASSAU

­58.473 ­44.473

­27.500 ­13.500

3.473 17.473

24


KELHEIM KELHEIM KELHEIM KELHEIM KELHEIM KELHEIM KELHEIM KELHEIM KELHEIM KELHEIM KELHEIM KELHEIM KELHEIM KELHEIM KELHEIM KELHEIM

­ REGENSBURG ­ WEIDEN ­ LANDSHUT ­ BAYREUTH ­ SCHWEINFURT ­ HOF ­ WUERZBURG ­ MUENCHEN ­ NEU­ULM ­ FUERTH ­ NUERNBERG ­ INGOLSTADT ­ KULMBACH ­ ANSBACH ­ ASCHAFFENBURG ­ BURGHAUSEN

­41.473 ­37.973 ­35.473 ­35.473 ­34.973 ­33.973 ­32.973 ­32.973 ­32.473 ­32.473 ­31.473 ­30.473 ­29.473 ­28.473 ­27.473 ­26.973

­10.500 ­7.000 ­4.500 ­4.500 ­4.000 ­3.000 ­2.000 ­2.000 ­1.500 ­1.500 ­0.500 0.500 1.500 2.500 3.500 4.000

20.473 23.973 26.473 26.473 26.973 27.973 28.973 28.973 29.473 29.473 30.473 31.473 32.473 33.473 34.473 34.973

Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der Umwelt­Datei General Linear Models Procedure

NAME Comparison

Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit

KELHEIM KELHEIM KELHEIM KELHEIM

­ ERLANGEN ­ KEMPTEN ­ OBERAUDORF ­ TROSTBERG

­25.473 ­21.473 ­20.973 ­16.973

5.500 9.500 10.000 14.000

36.473 40.473 40.973 44.973

INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT

­ AUGSBURG ­ PASSAU ­ REGENSBURG ­ WEIDEN ­ LANDSHUT ­ BAYREUTH ­ SCHWEINFURT ­ HOF ­ WUERZBURG ­ MUENCHEN ­ NEU­ULM ­ FUERTH ­ NUERNBERG ­ KELHEIM ­ KULMBACH ­ ANSBACH ­ ASCHAFFENBURG ­ BURGHAUSEN ­ ERLANGEN ­ KEMPTEN ­ OBERAUDORF ­ TROSTBERG

­58.973 ­44.973 ­41.973 ­38.473 ­35.973 ­35.973 ­35.473 ­34.473 ­33.473 ­33.473 ­32.973 ­32.973 ­31.973 ­31.473 ­29.973 ­28.973 ­27.973 ­27.473 ­25.973 ­21.973 ­21.473 ­17.473

­28.000 ­14.000 ­11.000 ­7.500 ­5.000 ­5.000 ­4.500 ­3.500 ­2.500 ­2.500 ­2.000 ­2.000 ­1.000 ­0.500 1.000 2.000 3.000 3.500 5.000 9.000 9.500 13.500

2.973 16.973 19.973 23.473 25.973 25.973 26.473 27.473 28.473 28.473 28.973 28.973 29.973 30.473 31.973 32.973 33.973 34.473 35.973 39.973 40.473 44.473

KULMBACH KULMBACH KULMBACH KULMBACH KULMBACH

­ AUGSBURG ­ PASSAU ­ REGENSBURG ­ WEIDEN ­ LANDSHUT

­59.973 ­45.973 ­42.973 ­39.473 ­36.973

­29.000 ­15.000 ­12.000 ­8.500 ­6.000

1.973 15.973 18.973 22.473 24.973

107

25


KULMBACH KULMBACH KULMBACH KULMBACH KULMBACH KULMBACH KULMBACH KULMBACH KULMBACH KULMBACH KULMBACH KULMBACH KULMBACH KULMBACH

­ BAYREUTH ­ SCHWEINFURT ­ HOF ­ WUERZBURG ­ MUENCHEN ­ NEU­ULM ­ FUERTH ­ NUERNBERG ­ KELHEIM ­ INGOLSTADT ­ ANSBACH ­ ASCHAFFENBURG ­ BURGHAUSEN ­ ERLANGEN

­36.973 ­36.473 ­35.473 ­34.473 ­34.473 ­33.973 ­33.973 ­32.973 ­32.473 ­31.973 ­29.973 ­28.973 ­28.473 ­26.973

­6.000 ­5.500 ­4.500 ­3.500 ­3.500 ­3.000 ­3.000 ­2.000 ­1.500 ­1.000 1.000 2.000 2.500 4.000

24.973 25.473 26.473 27.473 27.473 27.973 27.973 28.973 29.473 29.973 31.973 32.973 33.473 34.973

Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der Umwelt­Datei

26

General Linear Models Procedure

NAME Comparison

Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit

KULMBACH KULMBACH KULMBACH

­ KEMPTEN ­ OBERAUDORF ­ TROSTBERG

­22.973 ­22.473 ­18.473

8.000 8.500 12.500

38.973 39.473 43.473

ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH

­ AUGSBURG ­ PASSAU ­ REGENSBURG ­ WEIDEN ­ LANDSHUT ­ BAYREUTH ­ SCHWEINFURT ­ HOF ­ WUERZBURG ­ MUENCHEN ­ NEU­ULM ­ FUERTH ­ NUERNBERG ­ KELHEIM ­ INGOLSTADT ­ KULMBACH ­ ASCHAFFENBURG ­ BURGHAUSEN ­ ERLANGEN ­ KEMPTEN ­ OBERAUDORF ­ TROSTBERG

­60.973 ­46.973 ­43.973 ­40.473 ­37.973 ­37.973 ­37.473 ­36.473 ­35.473 ­35.473 ­34.973 ­34.973 ­33.973 ­33.473 ­32.973 ­31.973 ­29.973 ­29.473 ­27.973 ­23.973 ­23.473 ­19.473

­30.000 ­16.000 ­13.000 ­9.500 ­7.000 ­7.000 ­6.500 ­5.500 ­4.500 ­4.500 ­4.000 ­4.000 ­3.000 ­2.500 ­2.000 ­1.000 1.000 1.500 3.000 7.000 7.500 11.500

0.973 14.973 17.973 21.473 23.973 23.973 24.473 25.473 26.473 26.473 26.973 26.973 27.973 28.473 28.973 29.973 31.973 32.473 33.973 37.973 38.473 42.473

­61.973 ­47.973 ­44.973 ­41.473 ­38.973 ­38.973 ­38.473 ­37.473

­31.000 ­17.000 ­14.000 ­10.500 ­8.000 ­8.000 ­7.500 ­6.500

­0.027 13.973 16.973 20.473 22.973 22.973 23.473 24.473

ASCHAFFENBURG ­ AUGSBURG ASCHAFFENBURG ­ PASSAU ASCHAFFENBURG ­ REGENSBURG ASCHAFFENBURG ­ WEIDEN ASCHAFFENBURG ­ LANDSHUT ASCHAFFENBURG ­ BAYREUTH ASCHAFFENBURG ­ SCHWEINFURT ASCHAFFENBURG ­ HOF

***


ASCHAFFENBURG ­ WUERZBURG ASCHAFFENBURG ­ MUENCHEN ASCHAFFENBURG ­ NEU­ULM ASCHAFFENBURG ­ FUERTH ASCHAFFENBURG ­ NUERNBERG ASCHAFFENBURG ­ KELHEIM ASCHAFFENBURG ­ INGOLSTADT ASCHAFFENBURG ­ KULMBACH ASCHAFFENBURG ­ ANSBACH ASCHAFFENBURG ­ BURGHAUSEN ASCHAFFENBURG ­ ERLANGEN ASCHAFFENBURG ­ KEMPTEN

­36.473 ­36.473 ­35.973 ­35.973 ­34.973 ­34.473 ­33.973 ­32.973 ­31.973 ­30.473 ­28.973 ­24.973

­5.500 ­5.500 ­5.000 ­5.000 ­4.000 ­3.500 ­3.000 ­2.000 ­1.000 0.500 2.000 6.000

25.473 25.473 25.973 25.973 26.973 27.473 27.973 28.973 29.973 31.473 32.973 36.973

Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der Umwelt­Datei

27

General Linear Models Procedure

NAME Comparison

Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit

ASCHAFFENBURG ­ OBERAUDORF ASCHAFFENBURG ­ TROSTBERG

­24.473 ­20.473

6.500 10.500

37.473 41.473

BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN

­ AUGSBURG ­ PASSAU ­ REGENSBURG ­ WEIDEN ­ LANDSHUT ­ BAYREUTH ­ SCHWEINFURT ­ HOF ­ WUERZBURG ­ MUENCHEN ­ NEU­ULM ­ FUERTH ­ NUERNBERG ­ KELHEIM ­ INGOLSTADT ­ KULMBACH ­ ANSBACH ­ ASCHAFFENBURG ­ ERLANGEN ­ KEMPTEN ­ OBERAUDORF ­ TROSTBERG

­62.473 ­48.473 ­45.473 ­41.973 ­39.473 ­39.473 ­38.973 ­37.973 ­36.973 ­36.973 ­36.473 ­36.473 ­35.473 ­34.973 ­34.473 ­33.473 ­32.473 ­31.473 ­29.473 ­25.473 ­24.973 ­20.973

­31.500 ­17.500 ­14.500 ­11.000 ­8.500 ­8.500 ­8.000 ­7.000 ­6.000 ­6.000 ­5.500 ­5.500 ­4.500 ­4.000 ­3.500 ­2.500 ­1.500 ­0.500 1.500 5.500 6.000 10.000

­0.527 13.473 16.473 19.973 22.473 22.473 22.973 23.973 24.973 24.973 25.473 25.473 26.473 26.973 27.473 28.473 29.473 30.473 32.473 36.473 36.973 40.973

***

ERLANGEN ERLANGEN ERLANGEN ERLANGEN ERLANGEN ERLANGEN ERLANGEN ERLANGEN ERLANGEN ERLANGEN ERLANGEN

­ AUGSBURG ­ PASSAU ­ REGENSBURG ­ WEIDEN ­ LANDSHUT ­ BAYREUTH ­ SCHWEINFURT ­ HOF ­ WUERZBURG ­ MUENCHEN ­ NEU­ULM

­63.973 ­49.973 ­46.973 ­43.473 ­40.973 ­40.973 ­40.473 ­39.473 ­38.473 ­38.473 ­37.973

­33.000 ­19.000 ­16.000 ­12.500 ­10.000 ­10.000 ­9.500 ­8.500 ­7.500 ­7.500 ­7.000

­2.027 11.973 14.973 18.473 20.973 20.973 21.473 22.473 23.473 23.473 23.973

***

109


ERLANGEN ERLANGEN ERLANGEN ERLANGEN ERLANGEN ERLANGEN ERLANGEN ERLANGEN ERLANGEN ERLANGEN

­ FUERTH ­ NUERNBERG ­ KELHEIM ­ INGOLSTADT ­ KULMBACH ­ ANSBACH ­ ASCHAFFENBURG ­ BURGHAUSEN ­ KEMPTEN ­ OBERAUDORF

­37.973 ­36.973 ­36.473 ­35.973 ­34.973 ­33.973 ­32.973 ­32.473 ­26.973 ­26.473

­7.000 ­6.000 ­5.500 ­5.000 ­4.000 ­3.000 ­2.000 ­1.500 4.000 4.500

23.973 24.973 25.473 25.973 26.973 27.973 28.973 29.473 34.973 35.473

Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der Umwelt­Datei

28

General Linear Models Procedure

NAME Comparison

Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit

ERLANGEN

­ TROSTBERG

­22.473

8.500

39.473

KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN

­ AUGSBURG ­ PASSAU ­ REGENSBURG ­ WEIDEN ­ LANDSHUT ­ BAYREUTH ­ SCHWEINFURT ­ HOF ­ WUERZBURG ­ MUENCHEN ­ NEU­ULM ­ FUERTH ­ NUERNBERG ­ KELHEIM ­ INGOLSTADT ­ KULMBACH ­ ANSBACH ­ ASCHAFFENBURG ­ BURGHAUSEN ­ ERLANGEN ­ OBERAUDORF ­ TROSTBERG

­67.973 ­53.973 ­50.973 ­47.473 ­44.973 ­44.973 ­44.473 ­43.473 ­42.473 ­42.473 ­41.973 ­41.973 ­40.973 ­40.473 ­39.973 ­38.973 ­37.973 ­36.973 ­36.473 ­34.973 ­30.473 ­26.473

­37.000 ­23.000 ­20.000 ­16.500 ­14.000 ­14.000 ­13.500 ­12.500 ­11.500 ­11.500 ­11.000 ­11.000 ­10.000 ­9.500 ­9.000 ­8.000 ­7.000 ­6.000 ­5.500 ­4.000 0.500 4.500

­6.027 7.973 10.973 14.473 16.973 16.973 17.473 18.473 19.473 19.473 19.973 19.973 20.973 21.473 21.973 22.973 23.973 24.973 25.473 26.973 31.473 35.473

***

OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF

­ AUGSBURG ­ PASSAU ­ REGENSBURG ­ WEIDEN ­ LANDSHUT ­ BAYREUTH ­ SCHWEINFURT ­ HOF ­ WUERZBURG ­ MUENCHEN ­ NEU­ULM ­ FUERTH ­ NUERNBERG ­ KELHEIM

­68.473 ­54.473 ­51.473 ­47.973 ­45.473 ­45.473 ­44.973 ­43.973 ­42.973 ­42.973 ­42.473 ­42.473 ­41.473 ­40.973

­37.500 ­23.500 ­20.500 ­17.000 ­14.500 ­14.500 ­14.000 ­13.000 ­12.000 ­12.000 ­11.500 ­11.500 ­10.500 ­10.000

­6.527 7.473 10.473 13.973 16.473 16.473 16.973 17.973 18.973 18.973 19.473 19.473 20.473 20.973

***


OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF

­ INGOLSTADT ­ KULMBACH ­ ANSBACH ­ ASCHAFFENBURG ­ BURGHAUSEN ­ ERLANGEN ­ KEMPTEN ­ TROSTBERG

­40.473 ­39.473 ­38.473 ­37.473 ­36.973 ­35.473 ­31.473 ­26.973

­9.500 ­8.500 ­7.500 ­6.500 ­6.000 ­4.500 ­0.500 4.000

21.473 22.473 23.473 24.473 24.973 26.473 30.473 34.973

Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der Umwelt­Datei

29

General Linear Models Procedure

NAME Comparison TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG

­ AUGSBURG ­ PASSAU ­ REGENSBURG ­ WEIDEN ­ LANDSHUT ­ BAYREUTH ­ SCHWEINFURT ­ HOF ­ WUERZBURG ­ MUENCHEN ­ NEU­ULM ­ FUERTH ­ NUERNBERG ­ KELHEIM ­ INGOLSTADT ­ KULMBACH ­ ANSBACH ­ ASCHAFFENBURG ­ BURGHAUSEN ­ ERLANGEN ­ KEMPTEN ­ OBERAUDORF

Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit ­72.473 ­58.473 ­55.473 ­51.973 ­49.473 ­49.473 ­48.973 ­47.973 ­46.973 ­46.973 ­46.473 ­46.473 ­45.473 ­44.973 ­44.473 ­43.473 ­42.473 ­41.473 ­40.973 ­39.473 ­35.473 ­34.973

111

­41.500 ­27.500 ­24.500 ­21.000 ­18.500 ­18.500 ­18.000 ­17.000 ­16.000 ­16.000 ­15.500 ­15.500 ­14.500 ­14.000 ­13.500 ­12.500 ­11.500 ­10.500 ­10.000 ­8.500 ­4.500 ­4.000

­10.527 3.473 6.473 9.973 12.473 12.473 12.973 13.973 14.973 14.973 15.473 15.473 16.473 16.973 17.473 18.473 19.473 20.473 20.973 22.473 26.473 26.973

***


Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der Umwelt­Datei

30

General Linear Models Procedure Duncan's Multiple Range Test for variable: STAUB NOTE: This test controls the type I comparisonwise error rate, not the experimentwise error rate Alpha= 0.05

df= 22

MSE= 21.29447

Number of Means 2 Critical Range 2.822 Means with the same letter are not significantly different. Duncan Grouping

Mean

N

DATUM

A

40.870

23

APR94

B

35.826

23

JUL93


Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der Umwelt­Datei

31

General Linear Models Procedure Duncan's Multiple Range Test for variable: STAUB NOTE: This test controls the type I comparisonwise error rate, not the experimentwise error rate Alpha= 0.05 Number of Means Critical Range

df= 22

MSE= 21.29447

2 3 4 5 6 7 8 9 9.57 10.05 10.35 10.57 10.73 10.85 10.95 11.03

Number of Means 10 11 12 13 14 15 16 17 Critical Range 11.09 11.14 11.18 11.22 11.24 11.27 11.29 11.30 Number of Means 18 19 20 21 22 23 Critical Range 11.31 11.32 11.35 11.33 11.34 11.34 Means with the same letter are not significantly different. Duncan Grouping

Mean

N

NAME

A

64.500

2

AUGSBURG

B B B B B B B B B B B B B

50.500

2

PASSAU

47.500

2

REGENSBURG

44.000

2

WEIDEN

41.500

2

LANDSHUT

41.500

2

BAYREUTH

41.000

2

SCHWEINFURT

40.000

2

HOF

39.000

2

WUERZBURG

39.000

2

MUENCHEN

38.500

2

NEU­ULM

38.500

2

FUERTH

37.500

2

NUERNBERG

37.000

2

KELHEIM

36.500

2

INGOLSTADT

G G G G G G

C C C C C C C C C C C C C C C C C C C C C C C C C

E E E E E E E E E E E E E E E E E E E E E E

F F F F F F F F F F

D D D D D D D D D D D D D D D D D D D D D D D D

113


G E F D 35.500 2 KULMBACH G E F D G E F D 34.500 2 ANSBACH Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der Umwelt­Datei General Linear Models Procedure Duncan Grouping G G G G G G G G G G

H H H H H H H H H H H

E E E E E E

F F F F F F F F

D D D D

Mean

N

NAME

33.500

2

ASCHAFFENBURG

33.000

2

BURGHAUSEN

31.500

2

ERLANGEN

27.500

2

KEMPTEN

27.000

2

OBERAUDORF

23.000

2

TROSTBERG

32


Die Umwelt­Datei mit Residuen OBS

Messort

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46

ANSBACH ASCHAFFENBURG AUGSBURG BAYREUTH BURGHAUSEN ERLANGEN FUERTH HOF INGOLSTADT KELHEIM KEMPTEN KULMBACH LANDSHUT MUENCHEN NEU­ULM NUERNBERG OBERAUDORF PASSAU REGENSBURG SCHWEINFURT TROSTBERG WEIDEN WUERZBURG ANSBACH ASCHAFFENBURG AUGSBURG BAYREUTH BURGHAUSEN ERLANGEN FUERTH HOF INGOLSTADT KELHEIM KEMPTEN KULMBACH LANDSHUT MUENCHEN NEU­ULM NUERNBERG OBERAUDORF PASSAU REGENSBURG SCHWEINFURT TROSTBERG WEIDEN WUERZBURG

33

Staubkonzentration

Datum

Residuum

26 35 70 38 31 29 34 33 35 36 25 31 40 39 37 37 26 52 43 32 21 39 35 43 32 59 45 35 34 43 47 38 38 30 40 43 39 40 38 28 49 52 50 25 49 43

JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94

­5.97826 4.02174 8.02174 ­0.97826 0.52174 0.02174 ­1.97826 ­4.47826 1.02174 1.52174 0.02174 ­1.97826 1.02174 2.52174 1.02174 2.02174 1.52174 4.02174 ­1.97826 ­6.47826 0.52174 ­2.47826 ­1.47826 5.97826 ­4.02174 ­8.02174 0.97826 ­0.52174 ­0.02174 1.97826 4.47826 ­1.02174 ­1.52174 ­0.02174 1.97826 ­1.02174 ­2.52174 ­1.02174 ­2.02174 ­1.52174 ­4.02174 1.97826 6.47826 ­0.52174 2.47826 1.47826

Test der Normalverteilungsannahme

115

34


der Umwelt­Datei Univariate Procedure Variable=T

Residuum Moments N Mean Std Dev Skewness USS CV T:Mean=0 Num ^= 0 M(Sign) Sgn Rank W:Normal

46 0 3.22655 0 468.4783 . 0 46 0 2.5 0.981814

Sum Wgts Sum Variance Kurtosis CSS Std Mean Pr>|T| Num > 0 Pr>=|M| Pr>=|S| Pr<W

46 0 10.41063 0.662237 468.4783 0.475729 1.0000 23 1.0000 0.9786 0.8105

Quantiles(Def=5) 100% Max 75% Q3 50% Med 25% Q1 0% Min

8.021739 1.978261 1.07E­14 ­1.97826 ­8.02174

Range Q3­Q1 Mode

16.04348 3.956522 ­1.97826

99% 95% 90% 10% 5% 1%

8.021739 5.978261 4.021739 ­4.02174 ­5.97826 ­8.02174

Extremes Lowest ­8.02174( ­6.47826( ­5.97826( ­4.47826( ­4.02174(

Obs

Highest 26) 4.021739( 20) 4.478261( 1) 5.978261( 8) 6.478261( 41) 8.021739(

Obs

18) 31) 24) 43) 3)

Zweifaktorielle Varianzanalyse der Geburt­Datei General Linear Models Procedure

35


Class Level Information Class

Levels

Values

KRANK

2

j n

KLASSE

3

1 2 3

Number of observations in data set = 31

Zweifaktorielle Varianzanalyse der Geburt­Datei General Linear Models Procedure Dependent Variable: GEWICHT

Geburtsgewicht

117

36


Source

DF

Sum of Squares

Mean Square

F Value

Pr > F

Model

5

337070.23

67414.05

1.15

0.3595

Error

25

1461813.64

58472.55

Corrected Total

30

1798883.87

R­Square

C.V.

Root MSE

GEWICHT Mean

0.187377

11.10210

241.81

2178.1

Source

DF

Type III SS

Mean Square

F Value

Pr > F

KRANK KLASSE KRANK*KLASSE

1 2 2

29054.73 258040.82 19650.44

29054.73 129020.41 9825.22

0.50 2.21 0.17

0.4874 0.1311 0.8463

Zweifaktorielle Varianzanalyse der Geburt­Datei General Linear Models Procedure Least Squares Means KRANK

GEWICHT LSMEAN

Std Err LSMEAN

Pr > |T| H0:LSMEAN=0

Pr > |T| H0: LSMEAN1=LSMEAN2

37


j n

2201.66667 2121.16162

KLASSE 1 2 3

95.93754 61.96052

0.0001 0.0001

0.4874

LSMEAN Number

GEWICHT LSMEAN

Std Err LSMEAN

Pr > |T| H0:LSMEAN=0

2006.66667 2226.66667 2250.90909

85.49309 78.04416 126.28166

0.0001 0.0001 0.0001

1 2 3

Pr > |T| H0: LSMEAN(i)=LSMEAN(j) i/j 1 1 . 2 0.0690 3 0.1218

2 0.0690 . 0.8716

3 0.1218 0.8716 .

NOTE: To ensure overall protection level, only probabilities associated with pre­planned comparisons should be used.

Die Geburt­Datei mit Residuen

38

OBS

Gelbsucht

Klasse

Schwangerschaftsdauer

Geburtsgewicht

Residuum

1 2 3 4 5

n n n n n

1 1 1 2 2

206 246 246 260 261

1440 1850 2480 2100 2150

­483.333 ­73.333 556.667 ­88.333 ­38.333

119


6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

n n n n n n n n n n n n n n n j j j j j j j j j j j

2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 1 1 1 1 1 1 2 2 2 2 3

262 263 266 270 272 272 273 273 273 273 274 275 277 278 291 210 224 228 235 242 242 253 254 255 263 271

1800 2400 2450 2230 2000 2300 2230 2300 2400 2500 2300 2100 2450 2100 2090 1800 1950 1900 2190 2300 2400 2050 2430 2230 2350 2250

Test der Normalverteilungsannahme der Geburt­Datei

39

Univariate Procedure Variable=U

Residuum Moments N Mean

31 0

Sum Wgts Sum

­388.333 211.667 261.667 41.667 ­251.818 48.182 ­21.818 48.182 148.182 248.182 48.182 ­151.818 198.182 ­151.818 ­161.818 ­290.000 ­140.000 ­190.000 100.000 210.000 310.000 ­215.000 165.000 ­35.000 85.000 0.000

31 0


Std Dev Skewness USS CV T:Mean=0 Num ^= 0 M(Sign) Sgn Rank W:Normal

220.7422 0.092713 1461814 . 0 30 0 4.5 0.99134

Variance Kurtosis CSS Std Mean Pr>|T| Num > 0 Pr>=|M| Pr>=|S| Pr<W

48727.12 0.357334 1461814 39.64647 1.0000 15 1.0000 0.9281 0.9950

Quantiles(Def=5) 100% Max 75% Q3 50% Med 25% Q1 0% Min

556.6667 165 0 ­151.818 ­483.333

Range Q3­Q1 Mode

1040 316.8182 48.18182

99% 95% 90% 10% 5% 1%

556.6667 310 248.1818 ­251.818 ­388.333 ­483.333

Extremes Lowest ­483.333( ­388.333( ­290( ­251.818( ­215(

Obs

Highest 1) 211.6667( 6) 248.1818( 21) 261.6667( 10) 310( 27) 556.6667(

121

Obs

7) 15) 8) 26) 3)


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.