FERNUNIVERSITÄT GESAMTHOCHSCHULE IN HAGEN FACHBEREICH WIRTSCHAFTSWISSENSCHAFT
Diplomarbeit
im wirtschaftswissenschaftlichen Diplomstudiengang Bearbeitungszeit
12 Wochen als Vollzeitstudierender
im Fach
: Statistik
über das Thema
: Überblick über Verfahren der Varianzanalyse und deren Durchführung mit Hilfe von SAS
Eingereicht bei
: PD Dr. H.J. Mittag
von
: Daniel Küpper
MatrikelNr.
: 3931218
Anschrift
: Wirtzfeld 103 B4760 Büllingen
Telefon
: 0032(0)80647623
Abgabedatum
: 01.10.1998
GLIEDERUNG
Seite
Einleitung.................................................................................................1 1
Varianzanalyse.........................................................................................3
1.1
Einfaktorielle Varianzanalyse .................................................................3
1.1.1
Einfaktorielle Varianzanalyse mit festen Effekten..................................3
1.1.1.1 Modell......................................................................................................3 1.1.1.2 Globaler FisherTest................................................................................6 1.1.1.3 Multiple Mittelwertsvergleiche.............................................................10 1.1.1.4 Durchführung mit SAS..........................................................................12 1.1.2
Einfaktorielle Varianzanalyse mit zufälligen Effekten..........................18
1.1.2.1 Modell....................................................................................................18 1.1.2.2. Globaler FisherTest..............................................................................19 1.1.2.3 Durchführung mit SAS..........................................................................20 1.2.
Zweifaktorielle Varianzanalyse.............................................................22
1.2.1
Zweifaktorielle Varianzanalyse mit festen Effekten.............................22
1.2.1.1 Modell....................................................................................................22 1.2.1.2 Globaler FisherTest..............................................................................25 1.2.1.3 Multiple Mittelwertsvergleiche.............................................................27 1.2.1.4 Durchführung mit SAS..........................................................................28 1.2.2
Zweifaktorielle Varianzanalyse mit zufälligen Effekten.......................32
1.2.2.1 Modell....................................................................................................32 1.2.2.2 Globaler FisherTest..............................................................................33 1.2.2.3 Durchführung mit SAS..........................................................................35
1.2.3
Zweifaktorielle Varianzanalyse mit gemischten Effekten.....................35
1.2.3.1 Modell....................................................................................................35 1.2.3.2 Globaler FisherTest..............................................................................36 1.2.3.3 Durchführung mit SAS..........................................................................38 1.2.4
Zweifaktorielle Varianzanalyse mit festen Effekten und einer Beobachtung pro Zelle...........................................................38
1.2.4.1 Modell....................................................................................................38 1.2.4.2 Globaler FisherTest..............................................................................40 1.2.4.3 Durchführung mit SAS..........................................................................41 1.2.5
Zweifaktorielle hierarchische Varianzanalyse.......................................45
1.2.5.1 Modell.........................................................................................................45 1.2.5.2 Globaler FisherTest .............................................................................46 1.2.5.3 Durchführung mit SAS ..............................................................................48 1.2.6
Randomisierte vollständige Blockanlage...................................................48
1.2.6.1 Modell ........................................................................................................48 1.2.6.2 Globaler FisherTest ................................................................................50 1.2.6.3 Durchführung mit SAS 1.2.7
.......................................................................52
Zweifaktorielle Varianzanalyse, unbalanciert............................................52
1.2.7.1 Modell .....................................................................................................52 1.2.7.2 Globaler FisherTest
............................................................................55
1.2.7.3 Multiple Mittelwertsvergleiche
............................................................58
1.2.7.4 Durchführung mit SAS..........................................................................59 2
Statistische Grundlagen.........................................................................64
2.1
Grundgesamtheit und Stichprobe...............................................................64 3
2.2
Statistische Masszahlen..............................................................................64
2.3
Zufallsvariable............................................................................................65
2.4
Spezielle Verteilungen................................................................................66
2.4.1
Normalverteilung........................................................................................66
2.4.2
ChiQuadratVerteilung..............................................................................68
2.4.3
StudentVerteilung......................................................................................68
2.4.4
FisherVerteilung........................................................................................68
2.5
Parametertest.........................................................................................69
2.6
Test der Normalverteilungsannahme.....................................................71
2.6.1
Residualvariable....................................................................................71
2.6.2
Durchführung mit SAS..........................................................................72
3
Das SASSystem....................................................................................73
3.1
Einführung.............................................................................................73
3.2
Die drei Fenster.....................................................................................73
3.3
Die SASSprache...................................................................................74
3.4
Das SASProgramm..............................................................................74
3.4.1
Der DATAStep..........................................................................................74
3.4.2
Der PROCStep.....................................................................................75
4
Schlussfolgerung...................................................................................77
5
Literaturverzeichnis...............................................................................79 Anhang
EINLEITUNG Der Begriff der Varianzanalyse geht auf R. A. Fisher (18901962) zurück, der ihn erstmals 1918 erwähnte. Im deutschsprachigen Raum wurde die Varianzanalyse erst nach 1945 bekannt. Sie ist ein statistisches Verfahren zur Analyse von Messdaten, die von einem oder mehreren zwei oder mehrfach abgestuften Faktoren abhängen. Dabei wird bestimmt, inwieweit die Faktoren (unabhängige Variablen) die Beobachtungsvariable (abhängige Variable) beeinflussen. In dieser Arbeit werden nur Varianzanalysen mit einer abhängigen Variablen behandelt. Diese werden auch univariate Varianzanalysen genannt. Varianzanalysen mit mehreren abhängigen Variablen nennt man multivariate Varianzanalysen. Die Varianzanalyse lässt sich auch als Regressionsanalyse interpretieren, in der die Regressoren nach entsprechender Kodierung nur die Werte 0 und 1 annehmen können. Die Arbeit ist in drei Kapitel eingeteilt. Im 1. Kapitel werden in 7 Unterkapiteln verschiedene Fälle von Varianzanalysen mit quantitativer Beobachtungsvariablen behandelt: ein und zweifaktoriell, mit festen, zufälligen und gemischten Effekten, balanciert und unbalanciert, hierarchisch und randomisierte Blockanlage. Leere Zellen mit nij = 0 werden nicht behandelt. Die meisten der Unterkapitel bestehen aus den drei Abschnitten: Modell, Globaler FisherTest und Durchführung mit SAS. Im 2. Kapitel werden kurz einige statistische Grundlagen, die im 1. Kapitel gebraucht werden, erläutert. Das 3. Kapitel enthält Erklärungen zu den SAS Anwendungen, mit denen die vier Beispielsdateien berechnet wurden. Diese Berechnungen sind im Anhang zu finden und werden im 1. Kapitel in den Abschnitten ‘Durchführung mit SAS’ interpretiert. 5
Es wurden Dateien für die vier Fälle der Varianzanalysen mit festen Effekten mit der SAS Version 6.12 auf einem PentiumPC mit Windows 95 berechnet. Dabei wurde besonderen Wert auf die Überprüfung der Voraussetzung der Normalverteilung der Fehlervariablen mit dem ShapiroWilkTest in SAS gelegt. Mit dem Statistik Softwarepaket SAS lassen sich umfangreiche, statistische Datenanalysen innerhalb kürzester Zeit auf dem PC durchführen. Die vier berechneten Dateien sind die Niere, die Wald, die Umwelt und die GeburtDatei. Sie wurden in der Literatur, aus der sie entnommen sind, nicht zur Berechnung von univariaten Varianzanalysen verwendet, sondern zu anderen Zwecken. Eine Ausnahme bildet die Wald Datei, deren Zellen aus den 9 ersten der 16 Beobachtungen der Zellen einer balancierten Datei bestehen, mit der eine zweifaktorielle Varianzanalyse in der Originalliteratur mit anderen Ergebnissen berechnet wurde. Arithmetische Mittel werden zwar üblich mit Querstrich als Kennung versehen. In der Literatur gibt es aber auch Ausnahmen, wie z.Bsp. in Ahrens, H./ Läuter, J. (1974) und in Toutenburg, H. (1994). Ich habe mich aus computertechnischen Gründen diesen Beispielen angeschlossen und die arithmetischen Mittel ohne Querstrich aber mit einem Punkt im Index geschrieben, was zur Kennung ausreichen dürfte. Es wird über den Index gemittelt, der durch einen Punkt ersetzt wurde. Da mit SAS keine rechtsbündige Druckausgabe möglich ist, wurden die Seiten des Anhangs links eingebunden, damit alles sichtbar bleibt.
1 VARIANZANALYSE 1.1 Einfaktorielle Varianzanalyse 1.1.1 Einfaktorielle Varianzanalyse mit festen Effekten 1.1.1.1 Modell Zur Einführung des Modells gehen wir von folgendem Beispiel der NiereDatei (Untersuchung an der Universitätskinderklinik Heidelberg, entnommen Graf, A. (1993), S. 219220) aus: Zur Untersuchung der Leistungsfähigkeit von weiblichen Kindern und Jugendlichen mit chronischer Niereninsuffizienz wurden diese einem Leistungstest mit einem Ergometer unterzogen. Dann wurde ihre Herzfrequenz gemessen. Die Patientinnen wurden in drei Untersuchungsgruppen ugr=1,2,3 eingeteilt, je nach Krankheitsstadium und es wurde eine Kontrollgruppe ugr=0 mit gesunden Mädchen angefügt. In jeder Gruppe befinden sich unterschiedlich viele Personen. Allgemein formuliert wird in einer einfaktoriellen Varianzanalyse getestet, ob eine Einflussgrösse (Faktor) eingeteilt in unterschiedliche Stufen einen Einfluss auf eine Beobachtungsvariable yij hat (Dufner, J. (1992), S. 192; Falk, M. (1995), S. 171; Schach, S. (1978), S. 170). Die N Testeinheiten sind in k Gruppen eingeteilt zu je ni Einheiten (i=1,...,k). Die Einheiten in der iten Gruppe tragen den Index j=1,...,ni. Es gilt: i=k
N = ∑ ni i =1
In unserem Beispiel sind die Kinder die Einheiten und das Krankheitsstadium ist der Faktor A, der in k=4 Stufen von gesund bis schwerkrank eingeteilt ist. Die Herzfrequenz ist die 7
Beobachtungsvariable yij In der einfaktoriellen Varianzanalyse gehört zu jeder Stufe eine Untersuchungsgruppe, daher auch der Name Einfachklassifikation. Wenn man nun die arithmetischen Mittelwerte der Herzfrequenzen in jeder Gruppe berechnet, können diese unterschiedlich hoch ausfallen. Die Frage ist, ob es eine Abhängigkeit zwischen Herzfrequenz und Krankheitsstadium gibt. Zur Beantwortung dieser Frage wird getestet, ob die Abhängigkeit der Beobachtungsvariablen (Herzfrequenz) vom Einflussfaktor (Krankheitsstadium) zufällig ist oder nicht. Zufällig bedeutet, dass die Schwankungen der Beobachtungsvariablen durch den Versuchsfehler entstehen und keine reale Abhängigkeit der Beobachtungsvariablen vom Einflussfaktor darstellen. Die Varianzanalyse wird bei solchen Versuchen angewandt, wo man den Versuchsfehler nicht vernachlässigen kann und sie gibt Möglichkeiten an die Hand zwischen zufälliger und realer Abhängigkeit zu unterscheiden. Man kann sich nun folgende zwei Fragen stellen: 1. ändern sich die durchschnittlichen Herzfrequenzwerte von einer Untersuchungsgruppe zur andern? 2. wenn ja, für welche Gruppen genau tritt eine Änderung auf, d.h. bei welchen Gruppen sind die durchschnittlichen Herzfrequenzwerte verschieden? Im ersten Fall werden die paarweisen Vergleiche zwischen den Mittelwerten zugleich (simultan) in einem einzigen (globalen ) statistischen Test getestet. Die Nullhypothese postuliert, dass alle Durchschnitte der Faktorstufen gleich sind. Sobald in einem Vergleich die Mittelwerte signifikant verschieden sind, wird die Nullhypothese abgelehnt. Man weiss dann zwar, dass zwei oder mehrere Mittelwerte sich signifikant unterscheiden, man weiss aber nicht welche. Dies kann man zweitens in einzelnen paarweisen Vergleichen in allen Kombinationsmöglichkeiten testen. Sind die Stichprobenumfänge der k Gruppen, auch Zellen genannt, alle gleich n1=...=nk=n liegen balancierte Daten vor; sind sie ungleich spricht man von unbalancierten Daten (Falk, M. (1995), S. 178; Searle, S. R. (1992), S. 4). Bei balancierten Daten ist die Varianzanalyse robuster gegen Verletzungen der Voraussetzungen Normalverteilung und Homoskedastie der Fehlervariablen. Man kann folgendes lineares Modell formulieren um die Abhängigkeit der
Beobachtungsvariablen von den Stufendurchschnitten der Einflussfaktorvariablen zu beschreiben (Falk, M. (1995), S. 173; Schach, S. (1978), S. 172; Searle, S. R. (1992), S. 44): Yij = µi + εij = µ + τ i + εij (i=1,...,k; j=1,...,ni) mit den Voraussetzungen: Yij = unabhängig normalverteilte Zufallsvariable mit Erwartungswert
i
und unbekannter Varianz
. Die Realisierung yij ist die jte Beobachtung in der Zelle i gebildet von Stufe i des Faktors.
2
ij
= unabhängig normalverteilte Zufallsvariable mit Erwartungswert 0 und gleicher unbekannter
Varianz 0 ij2 = p 2 (Homoskedastie). p ij ist der Versuchsfehler, der von anderen zufälligen, bekannten oder unbekannten Einflüssen auf die Beobachtungsvariable herrührt, die kleiner sind als der Einfluss des Faktors A. Wenn einer der bekannten Einflüsse zu gross wird muss man ihn als zweiten Faktor B in das Modell einbeziehen und kommt so zur zweifaktoriellen Varianzanalyse. Wenn man einen Versuch mehrmals wiederholt, erhält man auch unter gleichbleibenden, kontrollierten Versuchsbedingungen immer verschiedene Werte für die Beobachtungsvariable. Dies bedingt Unsicherheit, die mit statistischen Methoden analysiert werden muss. Die Unterschiede zwischen diesen Werten werden in einer Zelle immer vom Versuchsfehler erfasst. = reelles Allgemeinmittel p i = fester, reeller Effekt des Faktors A auf Stufe i. Es kann sein, dass eine andere lineare oder eine nichtlineare Modellgleichung die Wirklichkeit besser beschreibt. Die Theorie ist dann jedoch mit einem höheren mathematischen Aufwand verbunden. Wir definieren: 1 i=k µ = ∑ µi k i =1 9
i
= pi —
daraus folgt die Parameterrestriktion: i=k
∑τ = 0 i =1
i
Die Schätzung der Modellparameter ergibt (Falk, M. (1995), S. 174; Schach, S. (1978), S. 180):
µ = y.. µi = yi . τi = yi . − y.. εij = yij − yi . mit dem arithmetischen Mittel von Zelle i: yi . =
1 j = ni ∑y ni j =1 ij
und dem arithmetischen Gesamtmittel: y.. =
1 i = k j = ni 1 i=k y = ∑∑ ∑n y N i =1 j =1 ij N i =1 i i .
Regel: Wenn ein Index durch einen Punkt ersetzt ist, wurde über diesen Index gemittelt.
1.1.1.2 Globaler FisherTest Als erstes soll nun geprüft werden, ob die Erwartungswerte
i
= x + —i sich global unterscheiden.
Man vergleicht also k normalverteilte Grundgesamtheiten bezüglich ihrer Mittelwerte. Ein geeigneter statistischer Test prüft die Hypothese: H0: x 1=...=‚ k=0
gegen die Alternativhypothese: HA:
r
Ł pt
(für ein Wertepaar r —t) zu einem vorgegebenen Niveau 0. Dafür kann ein FTest verwendet werden. Wenn x i = 0 für alle i ist, gilt im Modell: Yij = ‘ +
ij
d.h. yij schwankt in der Grösse des Versuchsfehlers um den festen Wert des Allgemeinmittels x. Es besteht keine nichtzufällige, nichtkonstante Abhängigkeit vom Einflussfaktor A. Um die unter der Nullhypothese H0 zentral Fverteilte Teststatistik F aufzustellen, zerlegen wir die aus der Totalvarianz herrührende Totalquadratsumme SS_CTotal in die Quadratsummen SS_Model und SS_Error (Dufner, J. (1992), S. 193. Toutenburg, H. (1994), S. 13): i = k j = ni
SS _ CTotal = ∑ ∑ ( yij − y.. ) 2 = i =1 j =1
i = k j = ni
= ∑ ∑ (( yij − yi . ) + ( yi . − y.. )) 2 = i =1 j =1
i = k j = ni
i = k j = ni
= ∑ ∑ ( yij − yi . ) + ∑ ∑ ( yi . − y.. ) 2 + i =1 j =1
2
i =1 j =1
i = k j = ni
+ 2∑ ∑ ( yij − yi . )( yi . − y.. ) = i =1 j =1
i=k
i = k j = ni
i =1
i =1 j =1
= ∑ ni ( yi . − y.. ) 2 + ∑ ∑ ( yij − yi . ) 2 = = SS_Model + SS_Error (die Summe in der vierten Zeile ist identisch gleich 0) mit:
11
i=k
SS _ Model = ∑ ni ( yi . − y.. ) 2 i =1
und i = k j = ni
SS _ Error = ∑ ∑ ( yij − yi . ) 2 i =1 j =1
SS_Model steht für die Variabilität, die sich aus der Abweichung der Gruppenmittel vom Gesamtmittel ergibt, während SS_Error für die Abweichung der Werte vom jeweiligen Gruppenmittel steht. Die Freiheitsgrade DF von SS_CTotal, SS_Model und SS_Error sind N1, k1 und Nk. Man setzt für die Mittelquadratsummen MS = SS/DF also MS_Model = SS_Model/(k1) MS_Error = SS_Error/(Nk) Man berechnet den Erwartungswert E(MS) von MS wie folgt: die Realisationen yij, yi. und y. werden ersetzt durch ihre Zufallsvariablen Yij, Yi. und Y.. ; dann ist MS eine Zufallsvariable, deren Erwartungswert E(MS) man unter Berücksichtigung von den aus der Modellgleichung berechneten folgenden Ausdrücken: E(Yij) = h i E(Yi.) =
i
1 i=k E (Y.. ) = ∑ ni µi N i =1 berechnet. Der Erwartungswert von MS_Model ist: E ( MS _ Model ) = σ 2 + und von MS_Error ist:
1 i=k ∑n τ 2 ( k − 1) i =1 i i
E ( MS _ Error ) = σ 2 Man schätzt x 2 mit SS_Error/(Nk) erwartungstreu. Es lässt sich zeigen, dass SS_Model/0 2 und SS_Error/h 2 bei Zutreffen der Nullhypothese H0 stochastisch unabhängig und zentral
verteilt sind mit Freiheitsgrad k1 bzw. Nk. Also ist nach
2
Definition der FisherVerteilung die Teststatistik (Zöfel, P. (1992), S. 14): F=
SS _ Model / ( k − 1) MS _ Model = SS _ Error / ( N − k ) MS _ Error
unter H0 zentral Fverteilt mit Freiheitsgraden k1 und Nk. Es soll nun gezeigt werden, wie diese Form der Teststatistik mit den Erwartungswerten E(MS) vermutet werden konnte. Es gilt approximativ unter Gültigkeit der Nullhypoyhese H0: E ( MS _ Model ) MS _ Model ≈ E( ) E ( MS _ Error ) MS _ Error Wir ersetzen die E(MS) durch ihre Ausdrücke und erhalten: i=k E ( MS _ Model ) 1 MS _ Model = 1+ ni τ i2 ≈ E ( ) = E(F) ∑ 2 E ( MS _ Error ) MS _ Error ( k − 1)σ i =1
Die linke Seite dieser Näherungsgleichung ist dann und nur dann gleich 1, wenn die Nullhypothese H0 gilt, wenn also 0 1=...=x k=0 ist (eine Quadratsumme mit positiven Koeffizienten ist bekanntlich dann und nur dann gleich 0, wenn alle Quadrate gleich 0 sind). Daraus folgt: dann und nur dann wenn die Alternativhypothese HA gilt, ist der Quotient grösser als 1. Unter Gültigkeit der Nullhypothese gilt für den Erwartungswert E(F) der Teststatistik nach 2.4.4: E(F) =
N −k ≈1 N −k −2
E(F) ist annähernd gleich 1 für grosse N und kleine k. Damit ist die Vermutung bestätigt. Die Nullhypothese H0: x 1=...=—k=0 ist zum Niveau H abgelehnt, wenn die Ungleichung (Dufner, 13
J. (1992), S. 195): F > F1h,k1,Nk gilt. Im Beispiel der NiereDatei ist E(F) = 30/28 = 1,07; wegen N = 34 und k = 4. Bei h = 0,05 gilt F1¨ ,k1,Nk = F0,95;3;30 = 3,71. Wenn F also soweit von 1,07 abweicht, dass F > 3,71 ist, dann ist die Nullhypothese widerlegt und es gibt einen realen Einfluss des Krankheitsstadiums auf die Herzfrequenz der Patientinnen. In der Varianzanalyse der NiereDatei entnehmen wir dem SAS Output im Anhang S. 83: F = 4,35 was für eine reale Abhängigkeit zum Signifikanzniveau
=
0,05 spricht.
1.1.1.3 Multiple Mittelwertsvergleiche Will man zweitens wissen, welche Stufen wirkungsvoller sind als andere, wenn der globale F Test der einfaktoriellen Varianzanalyse signifikant war, dann kann man statistische Verfahren zum Vergleich der Mittelwerte anwenden (Dufner, J. (1992), S. 209). Diese Verfahren können folgende unterschiedlichen Ziele haben: man vergleicht alle möglichen Paare von Mittelwerten; bei k Stufen von Faktor A sind es m = k(k1)/2 Paare, man vergleicht k1 Mittelwerte mit einer Kontrollgruppe, das sind m = k1 Paare. Würde man für alle m (>1) Vergleiche jeweils einen tTest zum selben Niveau x* durchführen, dann wäre das multiple Niveau ‘ grösser als x*. Das multiple Niveau
ist die
Wahrscheinlichkeit, mit der mindestens eine der Hypothesen der m Vergleiche irrtümlich abgelehnt wird, dies ist dann auch genau das Niveau ‘ des globalen Tests. Das Niveau x* der multiplen Tests muss also kleiner sein als das Niveau x des globalen Tests. Es ist folgende Abschätzung von ‘ gegeben:
α * ≤ α ≤ 1 − (1 − α *) m Beim PLSDTest von Fisher (PLSD ist die Abkürzung für „protected least significant
difference“; Toutenburg, H. (1994), S. 103) wird die Nullhypothese H0rt: 0 r= t=0 (oder h r=0 t) zum Niveau
abgelehnt, wenn gilt:
y r . − y t . > t 1−α / 2 , N − k s
1 1 + nr nt
s2 ist gleich der erwartungstreuen Schätzung MS_Error von ¨ 2. Der SchefféTest beruht auf der Teststatistik (Dufner, J. (1992), S. 213214): FScheffé = ( y r . − y t . ) 2 / s 2 (
1 1 + )( k + 1) nr nt
die ein Spezialfall für zwei Mittelwerte der Teststatistik F des globalen FTests ist und deshalb gilt * = Ł. Es ist Fscheffé unter der Nullhypothese H0rt: x r=h t=0 mit den Freiheitsgraden k1 und N k Fverteilt. Die Nullhypothese wird zum Niveau h abgelehnt, wenn gilt: y r . − y t . > s ( k − 1) F1−α ,k −1, N − k (
1 1 + ) n r nt
Auch hier ist s2 gleich der erwartungstreuen Schätzung MS_Error. In beiden Tests werden bei signifikantem Faktor mit mehr als zwei Stufen die einzelnen Stufen paarweise auf signifikante Unterschiede überprüft. Sollen allgemein einzelne Zellen auf signifikante Unterschiede überprüft werden, verwenden wir den DuncanTest (Zöfel, P. (1992), S. 38). Dieser ist erst bei mehrfaktoriellen Varianzanalysen sinnvoll beim Vergleich von Zellen verschiedener Faktoren. Wenn die Zellenmittelwerte yr. und yt. geprüft werden sollen, zählt man wieviel Zellenmittelwerte der Grösse nach zwischen yr. und yt. liegen. Mit dieser Anzahl m berechnet man: c=
MS _ Error 1 1 ( + ) 2 n r nt
und:
15
d = c q (m+2,Nk) q (m+2,Nk) ist die zu den Werten ¤, m+2 und Nk gehörige studentisierte Variationsbreite. Die beiden Zellenmittelwerte unterscheiden sich signifikant zum Niveau , wenn gilt: yr . − yt . ≥ d
1.1.1.4 Durchführung mit SAS Zur Durchführung mit dem SASSystem wurde ein Programm für die NiereDatei als Beispiel geschrieben und zur Ausführung gebracht. Das berechnete Ergebnis, der Output, wurde ausgedruckt und ist im Anhang von S. 82 bis S. 87 zu finden. Wir wollen aber vorher demonstrieren, wie die Rohdaten des Beispiels als SASSystemdatei gespeichert werden (Gogolok, J. (1992), S. 113). Das Programm dazu lautet: LIBNAME neu ‘d:\daniel’; DATA XY1; INPUT ugr hfs @@; CARDS; .............................. ; RUN; DATA neu.niere; SET XY1; RUN; Im ersten DATAStep (das ist der Programmteil von DATA bis RUN) wird eine temporäre Datei mit dem Namen ‘XY1’ durch Einlesen der Daten (anstelle der Punkte) mit der Tastatur über CARDS eingegeben. In der INPUTAnweisung werden die Variablen ugr und hfs definiert. Im zweiten DATAStep wird die Datei ‘XY1’ in die permanente Datei ‘niere’ übertragen, die dauerhaft in der SASBibliothek mit Namen ‘neu’ abgespeichert ist. Durch die Anweisung
LIBNAME befindet sich der Ordner mit dem SASNamen ‘neu’ und dem DOSNamen ‘daniel’ auf der Festplatte am Speicherplatz ‘d:\daniel’ Wenn wir nun die Datei ‘niere’ benötigen, brauchen wir nur mit der Anweisung SET neu.niere auf die SASBibliothek ‘neu’ zuzugreifen. So weit diese Vorbereitung zur Übertragung der Rohdaten in eine permanente SASDatei. Wir nehmen im Folgenden an, dass diese Vorbereitungen für die anderen Dateien schon gemacht sind und gehen nicht nochmal darauf ein. Das Programm für die einfaktorielle Varianzanalyse mit festem Effekt der NiereDatei ist in 5 Teilen eingeteilt worden, die wir jetzt zusammen mit dem dazugehörigen Output nacheinander behandeln werden. Der 1. Teil des Programms lautet: LIBNAME neu ‘d:\daniel’; DATA dk1; SET neu.niere; Hier wird die permanente SASDatei neu.niere aus der SASBibliothek neu im Ordner daniel auf der Festplatte in eine temporäre Datei dk1 übertragen. Sie existiert nur für die Dauer der Sitzung und ist danach verloren. Einen Output haben wir für diesen Programmteil noch nicht. Der 2. Teil des Programms lautet (Dufner, J. (1992), S. 199201): PROC GLM DATA = dk1; CLASS ugr; MODEL hfs = ugr; Die Prozedur GLM wird mit der Datei dk1 ausgeführt. In der CLASSAnweisung muss die Faktorvariable ugr angegeben werden. In der MODELAnweisung wird zwingend die Modellgleichung als Beobachtungsvariable hfs getrennt durch das Gleichheitszeichen von der Faktorvariablen ugr angegeben (Schuemer, R. (1990), S. 1113). Dadurch wird die einfaktorielle Varianzanalyse der NiereDatei berechnet mit dem Output im Anhang S. 8283. Auf S. 82 erhält man nur die Information über die Faktorvariable ugr mit der Anzahl und den 17
Ausprägungen der Stufen (Klassen, levels) und der Anzahl der Beobachtungen (Observationen) der Datei. Auf S. 83 erhält man in Tabellenform (auch AnovaTabelle genannt, Anova ist die Abkürzung für analysis of variance) die Werte der Quadratsummen SS (sum of square) mit den Freiheitsgraden DF und den Mittelquadratsummen MS = SS/DF. Den Wert der Teststatistik F des globalen FisherTests (Abschnitt 1.1.1.2) finden wir unter (F value) = 4,35. Die Überschreitungswahrscheinlichkeit P(X > F) wird (wobei X eine Fverteilte Zufallsvariable mit Freiheitsgraden k1=3 und Nk=30 ist) durch (Pr>F)=0,0117 gegeben. Diesen Wert kann man sofort mit dem Signifikanzniveau —vergleichen, um über die Ablehnung der Nullhypothese zu entscheiden. Die Nullhypothese wird abgelehnt, wenn
grösser als (Pr>F) ist. Hier ist (Pr>F) =
0,0117, dann wird die Nullhypothese bei p > 0,02 abgelehnt. Die Schätzung der Modellvarianz ist MS_Error = 419,0449. Die folgenden Grössen auf S.2 bedeuten: RSquare = SS_Model/SS_CTotal = Bestimmtheitsmass = 0,303209 C.V. = 100 Root MSE/HFS Mean = Variationskoeffizient = 12,358 % Root MSE = (MS_Error)1/2 = 20,471 HFS Mean = y. = Gesamtmittel von HFS = 165,65 Das Bestimmtheitsmass gibt mit einem Wert nahe bei 1 an, ob das lineare Modell gut an das Problem angepasst ist. Hier haben wir mit 0,3 einen sehr schlechten Wert. Das Problem wird durch das lineare Modell nicht gut beschrieben, ein nichtlineares Modell o.ä. wäre vielleicht besser geeignet. Der Rest auf S. 2 ist nur eine zweimalige Wiederholung der ModelZeile der AnovaTabelle und ist nur bei mehrfaktoriellen Varianzanalysen brauchbar. Der 3. Teil des Programms lautet: OUTPUT OUT = res_r RESIDUAL = r; MEANS ugr / SCHEFFE CLDIFF alpha = 0.05; MEANS ugr / DUNCAN alpha = 0.05;
2
TITLE ‘Einfaktorielle Varianzanalyse der NiereDatei’; Mit der Option RESIDUAL wird mit der Prozedur GLM das Residuum r (Abschnitt 2.6.1) berechnet und mit OUTPUT OUT in der temporären Datei res_r eingegeben (Dufner, J. (1992), S. 203; Schuemer, R. (1990), S. 23). Die Datei res_r hat denselben Inhalt wie die NiereDatei zuzüglich den Residuen, siehe Ausdruck Anhang S. 86. In den beiden folgenden MEANSAnweisungen werden multiple Mittelwertsvergleiche der Stufenmittelwerte mit dem Scheffé und dem DuncanTest zum Signifikanzniveau alpha = 0,05 durchgeführt (Dufner, J. (1992), S. 216218; Schuemer, R. (1990), S. 2122). In der MEANS Anweisung müssen die Klassifizierungsvariable ugr und die Optionen SCHEFFE, DUNCAN und alpha = wert stehen. In MEANS ist für alpha der Wert 0,05 voreingestellt, d.h. er bräuchte eigentlich nicht angegeben zu werden. In DUNCAN sind nur die Werte 0,1; 0,05 und 0,01 verfügbar. Die CLDIFFOption im SchefféTest bewirkt, dass die Konfidenzgrenzen zu den Mittelwertsdifferenzen ausgegeben werden. Die signifikanten Fälle sind durch 3 Sternchen gekennzeichnet; es sind die Fälle wo die Null nicht zum Konfidenzintervall gehört. Bei der LINESOption, wie beim DuncanTest in S. 85 des Anhangs, sind die Mittelwerte in absteigender Reihenfolge ausgedruckt, wobei Gruppen von untereinander nicht signifikant verschiedenen Mittelwerten durch Linien (senkrechte Buchstabenkolonnen) gekennzeichnet sind. LINES entspricht der Voreinstellung bei DUNCAN und ist deshalb nicht im Programm angegeben worden. Beim SchefféTest sehen wir im Ausdruck Anhang S. 84, dass nur der Vergleich zwischen dem 1. und 2. Stufenmittelwert vom Faktor Untersuchungsgruppe beim Niveau 0,05 signifikant ist. Beim DuncanTest sehen wir im Ausdruck Anhang S. 85, dass die 1. und 2. bzw. 1. und 4. Stufenmittelwerte signifikant verschieden sind. Mit der TITLEAnweisung wird der Ausdruck mit einem Titel versehen. Der Programmteil 4 lautet: LABEL ugr = ‘Untersuchungsgruppe’ hfs = ‘Herzfrequenz’ r = ‘Residuum’; 19
PROC PRINT DATA = res_r LABEL; TITLE ‘Die NiereDatei mit Residuen’; Mit der Prozedur PRINT wird hier die Datei res_r ausgedruckt. Vorher werden die Variablennamen ugr, hfs und r mit der LABELAnweisung im Ausdruck durch ihre ausgeschriebenen Bezeichnungen ersetzt (Gogolok, J. (1992), S. 373). Am Ende wird ein Titel mit der TITLEAnweisung hinzugefügt. Auf S. 86 im Anhang ist der Ausdruck der Datei res_r zu finden. Der 5. und letzte Teil des Programms lautet: PROC UNIVARIATE DATA = res_r NORMAL; VAR r; TITLE1 ‘Test der Normalverteilungsannahme’; TITLE2 ‘der NiereDatei’; RUN; Hier wird die Prozedur UNIVARIATE an der Datei res_r mit der Option NORMAL ausgeführt. Mit dieser Option werden die Variablen der Datei daraufhin getestet, ob sie normalverteilt sind. Mit der VARAnweisung wird nur die Variable r berücksichtigt. Der Output der Prozedur UNIVARIATE befindet sich auf S. 87 des Anhangs und ist in Moments, Quantiles und Extremes eingeteilt. Unter Moments sind folgende Begriffe zu erklären: Die Anzahl N der Beobachtungen ist N = 34. Die Summe (sum) und der Mittelwert (mean) sind nach der Definition der Residuen gleich 0. Die Standardabweichung (Std Dev) ist 19,51794 und deren Quadrat, die Varianz (Variance) ist 380,9499. Die Werte der Schiefe (skewness = 0,10955) und Wölbung (kurtosis = 0,04996) von nahe 0 zeigen Normalverteilung an. Der Variationskoeffizient CV kann nicht berechnet werden, weil Mean im Nenner 0 ist. Es wird ein t Test ausgeführt zur Nullhypothese Mean = 0, dessen Teststatistik T gleich 0 und dessen Überschreitungswahrscheinlichkeit (Pr> Tł ) gleich 1 ist. Das Signifikanzniveau kann 1 aber nicht überschreiten, es ist also unmöglich die Nullhypothese zu wiederlegen. Der Ausdruck Num^=0 gibt die Anzahl der Beobachtungen an, die ungleich 0 sind, es sind alle 34. Num>0 gibt
die Anzahl der positiven Beobachtungen an, es sind 19. W:Normal ist die Teststatistik W des Normalverteilungstests (ShapiroWilkTest), sie hat den Wert W = 0,981576. Für Werte von W nahe bei 1 gilt die Normalverteilungsannahme. Die Wahrscheinlichkeit (Pr<W) der Unterschreitung von W ist 0,8612. Wenn das Signifikanzniveau kleiner als (Pr<W) ist, dann ist die Normalverteilungsannahme gerechtfertigt. Dies ist hier für Signifikanzniveaus bis zu 0,8 der Fall, gewöhnlich gibt man den Wert 0,1 vor. Die weniger wichtigen statistischen Masse von Moments wollen wir nur einmal an dieser Stelle erläutern und später nicht mehr darauf eingehen. Es gilt immer Sum Wgts = N, wenn man wie wir keinen Gebrauch von der WEIGHTAnweisung gemacht hat. USS ist die Quadratsumme der Variablen r. Es gilt CSS = Variance*(N1) und Std Mean = Std Dev/N1/2. Es ist M(Sign) die zentrierte SignumStatistik zur Prüfung der Hypothese: Median = 0 mit der Überschreitungswahrscheinlichkeit Pr>= M und Sgn Rank ist der Signed Rank SWert für die Hypothese: Mean = 0 mit der Überschreitungswahrscheinlichkeit Pr>=—SX. Unter Quantiles sind die wichtigsten ‘ Quantile, mit Wahrscheinlichkeit P = 50 % hat man den Median, bei
in %, angegeben. Bei
= 25 % bzw. X = 75 % hat man das erste bzw. dritte Quartil.
Darunter folgt die Spannweite (range = 86) das ist die Differenz zwischen Maximal und Minimalwert. Der Quartilsabstand (Interquartil Range = 28) ist die Differenz zwischen dem dritten und ersten Quartil = Q3Q1. Als letztes folgt der Modalwert (Mode = 5,92308. Unter Extremes sind die 5 niedrigsten und die 5 höchsten Werte von r angegeben mit ihren Beobachtungsnummern. Zum Abschluss des Programms sind mit den Anweisungen TITLE1 und TITLE2 zwei Titelzeilen eingegeben (Gogolok, J. (1992), S. 384386). Auf die reine Wiederholung der Erklärung der TITLEAnweisung wollen wir in Zukunft verzichten. Mit RUN wird das gesamte Programm abgeschlossen und kann dann mit dem Befehl SUBMIT zur Ausführung gebracht werden.
21
1.1.2 Einfaktorielle Varianzanalyse mit zufälligen Effekten 1.1.2.1 Modell Manchmal sind bei einem einfaktoriellen Versuch die Stufen des Einflussfaktors A nicht bewusst und systematisch vorgegeben, sondern zufällig ausgewählt. Sie sind als Zufallsstichprobe aus einer gedachten unendlichen Grundgesamtheit anzusehen. Dann müssen in dem einfaktoriellen Varianzanalysemodell die festen Effekte @i durch Zufallsvariable Ti ersetzt werden (Dufner, J. (1992), S. 232234; Searle, S. R. (1992), S. 7). Es gilt das lineare Modell: Yij = @+ Ti + p ij (i=1,...,k; j=1,...,ni) Yij = unabhängig normalverteilte Zufallsvariable mit Erwartungswert
und unbekannter Varianz
.
2 total
ij
= unabhängig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz
2
ij
= p2
(Homoskedastie). Ti = unabhängig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz
.
2 t
Ti und Pij sind stochastisch unabhängig voneinander. Das reelle, feste, unbekannte Allgemeinmittel —spielt hier keine wichtige Rolle. Es gilt: 2 Var (Yij ) = σ total = Var ( Ti ) + Var (εij ) = σ t2 + σ 2
cov(Yij,Yrt) = 0 cov(Yij,Yrt) =
für i P r 2 t
für i = r und j
t
Es ist nicht immer einfach zu entscheiden, ob in einem Problem die Effekte fest oder zufällig sein sollen. In Varianzanalysen aus der Tierzucht treten meistens zufällige Effekte auf. Wenn z.B. aus einer Hühnerzuchtpopulation k Hennen zufällig ausgewählt werden und von jeder Henne als
Zielvariable die Gewichte von n Eiern (balancierte Daten) bestimmt werden, dann setzt sich die totale Varianz ¨ total2 der Eigewichte zusammen aus der genetischen Varianz ‘ t2 zwischen den Hennen und der Varianz ‘ 2 der zufälligen Schwankungen der Eigewichte.
1.1.2.2 Globaler FisherTest Wenn die Genetik zwischen den Hennen keinen Einfluss auf die Eigewichte hat, gilt die Nullhypothese: H0: Łt2 = 0 im anderen Falle gilt die Alternativhypothese: HA: ¨ t2 > 0 Die Zerlegung der Quadratsumme SS_CTotal im Fall fester Effekte gilt auch hier und derselbe globale FTest kann verwendet werden. Für die Erwartungswerte E(MS) der MS gilt abweichend: E ( MS _ Model ) = σ 2 + n0σ t2 mit n0 =
1 1 i=k ( N − ∑ ni2 ) k −1 N i =1
hier gilt für balancierte Daten: ni = n = n0, E ( MS _ Error ) = σ 2 MS_Error also ist eine erwartungstreue Schätzung für die Varianz ¨ 2. Ferner gilt für die Schätzung von ‚ t2:
σt2 =
MS _ Model − MS _ Error n0
23
Aus den Erwartungswerten E(MS) lässt sich die Teststatistik: F=
MS _ Model MS _ Error
vermuten. Die Quadratsummen SS_Model und SS_Error sind dieselben wie im Fall der einfaktoriellen Varianzanalyse mit festen Effekten und haben auch die gleichen Eigenschaften. Man kann beweisen, dass F unter der Nullhypothese Fverteilt ist mit den Freiheitsgraden k1 und Nk. Die Nullhypothese H0 wird verworfen, wenn: F > F1 ,k1,Nk gilt, bei gegebenem Niveau P.
1.1.2.3 Durchführung mit SAS Wir geben hier nur ohne Berechnung eines Beispiels und ohne Ausdruck im Anhang an, was sich im SASProgramm gegenüber Abschnitt 1.1.1.4 geändert hat. Die Prozedur GLM wird durch die Anweisung RANDOM mit der Option TEST erweitert. Der geänderte Programmabschnitt lautet: PROC GLM DATA = ...; CLASS a; MODEL y = a; RANDOM a / TEST; RUN; Die einzige Faktorvariable a muss unter RANDOM angegeben werden, weil der Effekt der Einflussvariablen A zufällig ist (Schuemer, R. (1990), S. 23). Im Output werden u.a. die erwarteten Mittelquadrate und der globale FTest ausgegeben.
1.2 Zweifaktorielle Varianzanalyse 1.2.1 Zweifaktorielle Varianzanalyse mit festen Effekten 1.2.1.1 Modell Es kann auch eine Abhängigkeit einer quantitativen Grösse von mehr als einem Einflussfaktor bestehen (Schach, S. (1978), S. 190; Zöfel, P. (1992), S. 14). Im Beispiel der WaldDatei hänge der pHWert im Boden von einem Waldstück von den Faktoren Beregnung und Kalkung ab (entnommen aus Falk, M. (1995), S. 41). Der Faktor Beregnung komme in drei Stufen (keine zusätzliche, zusätzliche saure und zusätzliche normale) vor und der Faktor Kalkung in zwei Stufen (ohne und mit Kalkung). Das Waldstück wird in sechs Parzellen eingeteilt entsprechend den sechs Kombinationsmöglichkeiten der Stufen der beiden Faktoren. Auf Parzelle ij wird die i te Stufe von Faktor A (Beregnung) und die jte Stufe von Faktor B (Kalkung) ausgeführt. Dies wird für jede Parzelle neunmal wiederholt. Es handelt sich also um balancierte Daten, weil die Anzahl der Versuche auf jeder Parzelle gleich ist. Es gilt i=1,...,a=3; j=1,...,b=2; k=1,...,n=9. Wenn zwei Faktoren A und B einen Einfluss auf eine quantitative Beobachtungsvariable y haben, und diese Faktoren in a bzw. b > 1 Stufen auftreten, dann möchte man wissen, ob die Stufen jeder dieser Faktoren für sich global denselben Einfluss auf die Beobachtungsvariable haben und wenn nicht, welche Stufen genau unterschiedlichen Einfluss haben im (paarweisen) Vergleich zu anderen. Von weiterem Interesse in der zweifaktoriellen Varianzanalyse ist die Wechselwirkung (Zöfel, P. (1992), S. 18) zwischen den zwei Faktoren (oder gegebenenfalls mehreren Faktoren in der mehrfaktoriellen Varianzanalyse). Eine signifikante Wechselwirkung AB zwischen den Faktoren A und B würde bedeuten, dass die Unterschiede zwischen den verschiedenen Stufen des Faktors A vom Faktor B abhängen oder die Unterschiede zwischen den verschiedenen Stufen des Faktors B vom Faktor A abhängen; oder kürzer gesagt, dass die Unterschiede zwischen den Stufen des einen Faktors je nach der Stufe des anderen Faktors verschieden gross sind. Man kann folgendes lineares Modell aufstellen (Dufner, J. (1992), S. 236238; Falk, M. (1995), S. 188): 25
Yijk =
ij
+ Pijk = Ł +
i
+ —j + ¨ ij +
ijk
(i=1,...,a; j=1,...,b; k=1,...,n) mit: Yijk = unabhängig normalverteilte Zufallsvariable mit Erwartungswert ¨ ij und unbekannter Varianz
. Die Realisierung yijk ist die kte Beobachtung in der Zelle ij gebildet von Stufe i des
2
Faktors A und Stufe j des Faktors B. ¨ ijk = unabhängig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz
ijk
2
=
2
(Homoskedastie). = reelles Allgemeinmittel, i
= fester, reeller Effekt von Faktor A auf Stufe i,
¨ j = fester, reeller Effekt von Faktor B auf Stufe j, ij
= feste, reelle Wechselwirkung zwischen der iten Stufe von Faktor A und der jten Stufe von
Faktor B. Wir definieren (Ahrens, H. (1974), S. 161): 1 i = a j =b µ= ∑∑µ ab i =1 j =1 ij
αi =
1 j =b ∑µ − µ b j =1 ij
βj =
1 i =a ∑µ − µ a i =1 ij
ij
= ¨ ij
i
¨j
Es gelten die Parameterrestriktionen:
j =b
i =a
∑α = ∑ β = 0 i =1
i
j
j =1
und j =b
i =a
∑γ = ∑γ = 0 i =1
ij
j =1
ij
Die Schätzung der Modellparameter ergibt (Falk, M. (1995), S.189; Schach, S. (1978), S. 196):
µ = y... µij = yij . αi = yi .. − y... βj = y. j . − y... γij = yij . − yi .. − y. j . + y... εijk = yijk − yij . Dabei gilt für das arithmetische Mittel der iten Stufe von Faktor A: 1 j =b k = n yi .. = ∑∑ y bn j =1 k =1 ijk und für das arithmetische Mittel der jten Stufe von Faktor B gilt: 1 i =a k =n y. j . = ∑∑ y an i =1 k =1 ijk sowie für das arithmetische Mittel der Zelle ij gilt: yij . =
1 k =n ∑y n k =1 ijk
Für das arithmetische Mittel aller Beobachtungen gilt:
27
1 i = a j =b k = n y... = ∑ ∑ ∑ yijk N i =1 j =1 k =1
1.2.1.2 Globaler FisherTest Es soll nun wie bei der einfaktoriellen Varianzanalyse global entschieden werden, ob es feste Effekte gibt, die signifikant von 0 verschieden sind, oder ob alle nicht signifikant sind. Dazu werden die drei Nullhypothesen: H0A:
=...= a=0
1
H0B: 0 1=...= b=0 H0AB: ¤ ij=0 für alle i,j gegen die alternativen Hypothesen zu einem vorgegebenen Niveau
getestet. Wieder wird die
bekannte Quadratsumme SS_CTotal in Teilquadratsummen zerlegt, mit deren Hilfe Teststatistiken, die einer FVerteilung folgen, aufgestellt werden können. Damit kann man dann die drei Nullhypothesen überprüfen. Für die Totalquadratsumme: i = a j =b k = n
SS _ CTotal = ∑ ∑ ∑ ( yijk − y... ) 2 i =1 j =1 k =1
mit dem Freiheitsgrad DF = abn1 gilt die Zerlegung (Dufner, J. (1992), S. 238240): SS_CTotal = SS_A + SS_B + SS_AB + SS_Error Ohne Berechnung geben wir die folgenden Ergebnisse an (Falk, M. (1995), S. 192; Schach, S. (1978), S. 201): i =a
SS _ A = bn∑ ( yi .. − y... ) 2 i =1
mit Freiheitsgrad DF = a1 und Mittelquadratsumme MS_A = SS_A/DF und Erwartungswert E(MS_A):
E ( MS _ A) = σ 2 +
bn i = a 2 ∑α a − 1 i =1 i
es gilt: j =b
SS _ B = an∑ ( y. j . − y... ) 2 j =1
mit DF = b1 und MS_B = SS_B/DF sowie: E ( MS _ B ) = σ 2 +
an j =b 2 ∑β b − 1 j =1 j
ebenso gilt: i = a j =b
SS _ AB = n∑ ∑ ( yij . − yi .. − y. j . + y... ) 2 i =1 j =1
mit DF = (a1)(b1) und MS_AB = SS_AB/DF sowie: E ( MS _ AB ) = σ 2 +
i = a j =b n ∑ ∑γ 2 (a − 1)(b − 1) i =1 j =1 ij
schliesslich gilt: i = a j =b k = n
SS _ Error = ∑ ∑ ∑ ( yijk − yij . ) 2 i =1 j =1 k =1
mit DF = ab(n1) und MS_Error = SS_Error/DF sowie: E ( MS _ Error ) = σ 2 MS_Error ist wieder ein erwartungstreuer Schätzer für die Varianz
2
des Versuchsfehlers 8 ijk.
Bei Gültigkeit der drei Nullhypothesen sind die Quadratsummen SS/ 2 mit SS_A, SS_B, SS_AB und SS_Error als SS wieder stochastisch unabhängig und ChiQuadratverteilt mit den entsprechenden Freiheitsgraden a1, b1, (a1)(b1) und ab(n1). Wenn man die Erwartungswerte E(MS) und die Nullhypothesen betrachtet, kann man leicht folgende Teststatistiken F1, F2 und F3 29
vermuten (Dufner, J. (1992), S. 240; Falk, M. (1995), S. 193): F1 =
MS _ A MS _ Error
F2 =
MS _ B MS _ Error
F3 =
MS _ AB MS _ Error
Diese sind nach der Definition der FVerteilung unter den Nullhypothesen Fverteilt. Diese aus einer Vermutung aufgestellte Behauptung kann bewiesen werden. Die Bedingungen zum Verwerfen der Nullhypothesen sind: H 0 A → F1 > F1−α ,a −1,ab ( n −1) H 0 B → F2 > F1−α ,b −1,ab ( n −1) H 0 AB → F3 > F1−α ,( a −1)( b −1),ab ( n −1) für vorgegebenes Niveau P. Wenn die Wechselwirkungen
ij
signifikant von 0 verschieden sind, heisst das Modell saturiertes
Modell; ohne Wechselwirkung heisst es Unabhängigkeitsmodell. Wenn allein die Effekte eines Faktors signifikant sind, kann man den anderen Faktor, dessen Effekte nicht signifikant sind, herausnehmen und das Modell wird besser in einer einfaktoriellen Varianzanalyse berechnet.
1.2.1.3 Multiple Mittelwertsvergleiche Wenn der globale FTest eines Faktors signifikant war, findet man mit den multiplen Mittelwertsvergleichen heraus, welche Stufenmittelwerte zu einem vorgegebenen Signifikanzniveau ‚ signifikant verschieden sind. Ein Vergleich von zwei Stufenmittelwerten yr.. und yt.. des Faktors A wird mit der Nullhypothese:
H 0rt :α r = α t = 0 durchgeführt. Die Testgrösse des jeweiligen Tests ist:
K=
y r .. − y t .. s
wobei s die Schätzung (MS_Error)1/2 der Standardabweichung
ist. Die Nullhypothese wird
abgelehnt, wenn: K > KT ist, mit: K T = t1−α / 2 ,ab ( n −1)
2 bn
für den PLSDTest (mit der StudentVerteilung) und mit: KT =
F1−α ,a −1,ab ( n −1)
2(a − 1) bn
für den SchefféTest (mit der FVerteilung) und mit: K T = qα ( m + 2, ab(n − 1))
1 n
für den DuncanTest. Der Fall des multiplen Vergleichs der Stufenmittelwerte des Faktors B verläuft analog.
1.2.1.4 Durchführung mit SAS Für die balancierte, zweifaktorielle Varianzanalyse mit festen Effekten wurde die WaldDatei durchgerechnet (Anhang S. 94). Das Programm wurde in 5 Teile eingeteilt. Der 1. Teil lautet: LIBNAME neu ‘d:\daniel’; DATA dk2; 31
SET neu.wald; Die permanente Datei neu.wald aus der SASBibliothek neu wird in die temporäre Datei dk2 überführt. Einen Output haben wir hier noch nicht. Der 2. Teil lautet: PROC GLM DATA = dk2; CLASS kalk bereg; MODEL ph = kalk bereg kalk*bereg; Die Prozedur GLM berechnet die zweifaktorielle Varianzanalyse der Datei dk2. In der CLASS Anweisung müssen die beiden Faktorvariablen kalk für Kalkung und bereg für Beregnung angegeben werden. Die Modellgleichung unter MODEL enthält auch den Wechselwirkungsterm kalk*bereg, mit dem der feste Effekt H in die Berechnungen einbezogen wird (Schuemer, R. (1990), S. 1113). Den Output findet man im Anhang S. 8889. Auf S. 88 erhält man die Informationen über die Anzahl und Ausprägungen der Stufen (levels) der beiden Faktorvariablen kalk und bereg und über die Anzahl Beobachtungen in der WaldDatei. Auf S. 89 erhält man zuerst die AnovaTabelle der Zerlegung von SS_CTotal in SS_Model und SS_Error wie bei der einfaktoriellen Varianzanalyse und danach wird in einer zweiten Anova Tabelle die Zerlegung der Quadratsumme SS_Model in SS_A, SS_B und SS_AB ausgegeben (Dufner, J. (1992), S. 243). Als Nächstes wird diese Tabelle in dem Ausdruck nochmals als Type III wiederholt, nur im Fall unbalancierter Daten steht hier eine gesonderte Berechnung. In allen AnovaTabellen sind die Freiheitsgrade DF, die Quadratsummen SS, die Mittelquadratsummen MS, die FStatistiken (F value) und die Überschreitungswahrscheinlichkeiten (Pr>F) für jeden Effekt angegeben. Für =0,05 sind alle (Pr>F) kleiner als Ł, sodass alle drei Effekte signifikant von 0 verschieden sind. Die Nullhypothesen werden abgelehnt. Alle zwei Faktoren haben einen nichtzufälligen Einfluss auf den pHWert. Ebenso gibt es eine nichtzufällige Wechselwirkung zwischen den beiden Faktoren. Bei =0,02 ist die Wechselwirkung zu vernachlässigen und bei =0,01 ist nur kalk signifikant, d.h. in dem Fall hat nur die Kalkung eine deutliche Wirkung auf
den pHWert im Wald. Die Schätzung der Modellvarianz 8 2 ist MS_Error = 0,09934. Für das Bestimmtheitsmass R Square = 0,960669 wurde ein Wert nahe bei 1 berechnet. Dies zeigt eine gute Anpassung des linearen Modells an das Problem an. Der Variationskoeffizient ist CV = 5,570712 %. Es gilt für die Schätzung der Standardabweichung Ł: Root MSE = 0,3152. Das gesamte arithmetische Mittel der pHWerte ist ph Mean = 5,6578. Aus der Chemie wissen wir, dass dies einen sauren Boden anzeigt. Der Neutralwert ist bekanntlich pH = 7. Der 3. Teil des Programms lautet (Schuemer, R. (1990), S. 2123): OUTPUT OUT = res_s RESIDUAL = s; MEANS kalk bereg / SCHEFFE CLDIFF alpha = 0.05; MEANS kalk bereg / DUNCAN alpha = 0.05; TITLE ‘Zweifaktorielle Varianzanalyse der WaldDatei’; Mit der Option RESIDUAL wird in der Prozedur GLM das Residuum s berechnet und mit OUTPUT OUT an die WaldDatei angefügt. Die Ausgabedatei ist temporär und hat den Namen res_s und wird später als Output des 4. Programmteils ausgedruckt werden. Die beiden folgenden MEANSAnweisungen dienen der Ausführung von multiplen Vergleichen der Mittelwerte der Stufen der beiden Einflussfaktoren, deren Variablen kalk und bereg angegeben werden müssen. Mit der Option SCHEFFE CLDIFF alpha = 0,05 wird ein Scheffé Test zum Signifikanzniveau @= 0,05 ausgeführt, bei dem mit CLDIFF die Konfidenzgrenzen zu den Mittelwertsdifferenzen ausgegeben werden. Drei Sternchen im Output Anhang S. 9091 zeigen Signifikanz an. Demzufolge sind die beiden Stufenmittelwerte von Faktor Kalkung signifikant verschieden, sowie auch die Mittelwerte der Stufen 1 und 3 des Faktors Beregnung. Mit der Option DUNCAN alpha = 0,05 wird ein DuncanTest zum Niveau ¤ = 0,05 ausgeführt. Im Ausdruck Anhang S. 9293 sind die Mittelwerte mit gleichen Buchstabenlinien nicht signifikant verschieden. Diese Option LINES ist bei DUNCAN in SAS voreingestellt und braucht nicht angegeben zu werden. Wir sehen, dass sich die Resultate beider Tests entsprechen. Der 4. Programmteil lautet: 33
LABEL kalk = ‘Kalkung’ bereg = ‘Beregnung’ ph = ‘pH’ s
= ‘Residuum’;
PROC PRINT DATA = res_s LABEL; TITLE ‘Die WaldDatei mit Residuen’; Mit der LABELAnweisung erhalten die Variablen der temporären Datei res_s ausgeschriebene Bezeichnungen, diese werden mit der Prozedur PRINT ausgedruckt (Anhang S. 94). Der 5. und letzte Teil des Programms lautet: PROC UNIVARIATE DATA = res_s NORMAL; VAR s; TITLE1 ‘Test der Normalverteilungsannahme’; TITLE2 ‘der WaldDatei’; RUN; Durch die Prozedur UNIVARIATE (Graf, A. (1993), S. 215217) mit der Option NORMAL und der VARAnweisung wird die Variable s der Datei res_s auf Normalverteilung überprüft. Der Ausdruck in Anhang S. 95 ist in Moments, Quantiles und Extremes eingeteilt. Aus Moments ersehen wir, dass die Anzahl der Residuen N = 54 ist, davon sind alle ungleich 0 und 26 sind positiv. Mittelwert und Summe der Residuen sind 0, Standardabweichung und Varianz gleich 0,3 bzw. 0,09. Die Werte der Schiefe (skewness = 0,70199) und besonders der Wölbung (kurtosis = 1,500363) verschieden von 0 zeigen eine andere Verteilung als die Normalverteilung an. Die Teststatistik des tTests mit der Nullhypothese ‘Mittelwert = 0’ ist identisch 0. Diese Nullhypothese ist bei jedem Signifikanzniveau unwiderlegbar, weil die Überschreitungswahrscheinlichkeit (Pr>ł T ) = 1 immer grösser als jedes Signifikanzniveau ist. Die Teststatistik W des Normalverteilungstests von ShapiroWilk ist gleich 0,9651. Die Unterschreitungswahrscheinlichkeit (Pr<W) ist gleich 0,2231. Bei einem Signifikanzniveau von 0,2 ist die Normalverteilungsannahme nicht widerlegt, weil (Pr<W) > 0,2 ist. Unter Quantiles und Extremes gilt das in Abschnitt 1.1.1.4 gesagte auch hier, mit: Median =
0,00833; 1. Quartil = 0,125; 3. Quartil = 0,1911; Spannweite = 1,566; Quartilsabstand = 0,316; Modalwert = 0,087.
1.2.2 Zweifaktorielle Varianzanalyse mit zufälligen Effekten 1.2.2.1 Modell Auch bei der zweifaktoriellen Varianzanalyse können die Stufen der beiden Einflussfaktoren A und B nicht bewusst und systematisch, sondern zufällig ausgewählt sein (Dufner, J. (1992), S. 244246; Searle, S. R. (1992), S. 15). Dann müssen in dem zweifaktoriellen Varianzanalysemodell die festen Effekte i,
j
und
ij
durch Zufallsvariable Ai, Bj und Cij ersetzt
werden. Es gilt das lineare Modell: Yijk =
+ Ai + Bj + Cij +
ijk
(i=1,...,a; j=1,...,b; k=1,...,n) mit: Yijk = unabhängig normalverteilte Zufallsvariable mit Erwartungswert 8 und unbekannter Varianz . Die Realisierung yijk ist die kte Beobachtung in der Zelle ij gebildet von Stufe i von Faktor
2 total
A und Stufe j von Faktor B. ijk
= unabhängig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz Łijk2 =
(Homoskedastie). Ai = unabhängig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz
2 a
.
Bj = unabhängig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz
b
.
2
Cij = unabhängig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz Łc2. Alle im Modell auftretenden Zufallsvariablen ohne Yijk sind untereinander stochastisch unabhängig.
35
2
Für die Totalvarianz Var(Yijk) gilt (Toutenburg, H. (1994), S. 196): Var(Yijk) =
total
2
=
2 a
+ x b2 + ¤ c2 + Ł2
Die Schätzung der Varianzen ergibt:
σa2 =
1 ( MS _ A − MS _ AB ) nb
σb2 =
1 ( MS _ B − MS _ AB ) na
σc2 =
1 ( MS _ AB − MS _ Error ) n
σ 2 = MS _ Error Beispiel: aus einer grossen Anzahl von Weizensorten und Feldern werden zufällig a Sorten Weizen und b Felder ausgewählt und jede Sorte auf jedem Feld nmal angebaut mit dem Ernteertrag als quantitative Beobachtungsvariable. Die Weizensorte ist der Einflussfaktor A und der Anbauort ist der Einflussfaktor B. Eine Wechselwirkung besteht zum Beispiel, wenn der Ernteertragsunterschied beim Anbau verschiedener Weizensorten auch vom Anbauort abhängt. An die Stelle der festen Effekte treten die Realisierungen der Zufallsvariablen Ai, Bj und Cij.
1.2.2.2 Globaler FisherTest Die zufälligen Effekte haben einen signifikanten Einfluss auf die Beobachtungsvariable yijk, wenn die Nullhypothesen: H0a:
2 a
=0
H0b: Hb2 = 0 H0c: ‚ c2 = 0
abgelehnt werden (Dufner, J. (1992), S. 246). Die Zerlegung der Totalquadratsumme SS_CTotal in der zweifaktoriellen Varianzanalyse mit festen Effekten gilt auch hier mit denselben Ausdrücken für die Teilquadratsummen. Für die Erwartungswerte E(MS) der MS gilt für balancierte Daten (Toutenburg, H. (1994), S. 197): E ( MS _ A) = σ 2 + nσ c2 + nbσ a2 E ( MS _ B ) = σ 2 + nσ c2 + naσ b2 E ( MS _ AB ) = σ 2 + nσ c2 E ( MS _ Error ) = σ 2 Man kann aus den Erwartungswerten E(MS) folgende Teststatistiken vermuten: F1 =
MS _ A MS _ AB
F2 =
MS _ B MS _ AB
F3 =
MS _ AB MS _ Error
Die Teststatistiken sind Fverteilt mit den entsprechenden Freiheitsgraden der ChiQuadrat Verteilungen: a1 für SS_A, b1 für SS_B, (a1)(b1) für SS_AB und ab(n1) für SS_Error. Die Bedingungen zum Verwerfen der Nullhypothesen sind: H 0a → F1 > F1−α ,a −1,( a −1)( b −1) H 0b → F2 > F1−α ,b −1,( a −1)( b −1) H 0c → F3 > F1−α ,( a −1)( b −1),ab ( n −1) bei gegebenem Niveau P. 37
1.2.2.3 Durchführung mit SAS Gegenüber dem SASProgramm von Abschnitt 1.2.1.4 hat sich folgendes geändert: die Prozedur GLM wird durch die Anweisung RANDOM mit der Option TEST ergänzt mit der Angabe der Faktorvariablen, deren Effekte zufällig sind und der Angabe des Wechselwirkungsterms. Der geänderte Programmteil lautet: PROC GLM DATA = ...; CLASS a b; MODEL y = a b a*b; RANDOM a b a*b / TEST; RUN; Alle Effekte sind zufällig, deshalb müssen die Variablen a und b und die Wechselwirkung a*b unter RANDOM angegeben werden (Dufner, J. (1992), S. 246248; Schuemer, R. (1990), S. 23). Im Output werden u.a. die erwarteten Mittelquadrate E(MS) und der globale FTest ausgegeben.
1.2.3 Zweifaktorielle Varianzanalyse mit gemischten Effekten 1.2.3.1 Modell Es können nun bei der zweifaktoriellen Varianzanalyse die a Stufen des Einflussfaktors A bewusst ausgewählt worden sein und die b Stufen des Einflussfaktors B zufällig. Die Effekte von A sind fest, die von B zufällig. Dies ist dann eine gemischte zweifaktorielle Varianzanalyse (Dufner, J. (1992), S. 248249; Searle, S. R. (1992), S. 122). Man nennt A Hauptfaktor. Mit balancierten Daten gilt das lineare Modell: Yijk =
+
i
+ Bj + Cij + x ijk
(i=1,...,a; j=1,...,b; k=1,...,n) mit: Yijk = unabhängig normalverteilte Zufallsvariable mit Erwartungswert 8 total2.
und unbekannter Varianz
ijk
= unabhängig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz Xijk2 =
(Homoskedastie), = reelles Allgemeinmittel, ¨ i = reeller, fester Effekt des Hauptfaktors A auf Stufe i, Bj = unabhängig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz
b
,
Cij = unabhängig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz
2 c
2
.
Alle Zufallsvariablen ohne Yijk sind stochastisch unabhängig voneinander. An die festen Effekte
i
stellen wir die Restriktion:
i =a
∑α = 0 i =1
i
1.2.3.2 Globaler FisherTest Die festen Effekte H0A:
i
sind signifikant von 0 verschieden, wenn die Nullhypothese:
=...=8 a=0
1
abgelehnt wird. Die zufälligen Effekte Bj und Cij haben einen signifikanten Einfluss auf die Beobachtungsvariable yijk, wenn die Nullhypothesen: H0b: Łb2 = 0 und H0c: ¤ c2 = 0 abgelehnt werden.
39
2
Wenn Restriktionen an die Zufallsvariablen Cij gestellt werden, sind die Cij zwischen zwei verschiedenen Stufen i1 und i2 des Faktors A korreliert (Toutenburg, H. (1994), S. 200203). Wir verwenden hier das Modell ohne Restriktionen an Cij mit unabhängigen Wechselwirkungseffekten Cij Die Quadratsummenzerlegung von SS_CTotal der zweifaktoriellen Varianzanalyse mit zufälligen Effekten gilt auch hier mit denselben Teilquadratsummen SS_A, SS_B, SS_AB und SS_Error und denselben Ausdrücken für die Teststatistiken F1, F2 und F3. Die erwarteten mittleren Quadratsummen sind (Toutenburg, H. (1994), S. 203): E ( MS _ A) = σ 2 + nσ c2 +
nb i = a 2 ∑α a − 1 i =1 i
E ( MS _ B ) = σ 2 + nσ c2 + naσ b2 E ( MS _ AB ) = σ 2 + nσ c2 E ( MS _ Error ) = σ 2 MS_Error ist wieder erwartungstreuer Schätzer für die Varianz H2. Die Schätzung für die anderen Varianzen ergibt:
σb2 =
1 ( MS _ B − MS _ AB ) na
σc2 =
1 ( MS _ AB − MS _ Error ) n
1.2.3.3 Durchführung mit SAS Zu der Prozedur GLM wird die Anweisung RANDOM mit der Option TEST hinzugefügt mit der Angabe der Faktorvariablen, deren Effekte zufällig sind (Dufner, J. (1992), S. 250). Der geänderte Programmteil lautet: PROC GLM DATA = ...;
CLASS a b; MODEL y = a b a*b; RANDOM b a*b / TEST; RUN; In diesem Fall der gemischten, zweifaktoriellen Varianzanalyse mit Wechselwirkung sind die Effekte des ersten Faktors fest, die des zweiten zufällig. Die erste Variable a darf nicht unter RANDOM angegeben werden. Das ist der einzige Unterschied zum SASProgramm von Abschnitt 1.2.2.3. Im Output erscheinen u.a. die erwarteten Mittelquadrate und der globale F Test.
1.2.4 Zweifaktorielle Varianzanalyse mit festen Effekten und einer Beobachtung pro Zelle 1.2.4.1 Modell Wir betrachten nun das balancierte, zweifaktorielle Modell für n = 1, also mit genau einer Beobachtung auf jeder Faktorstufenkombination, sprich Zelle (Dufner, J. (1992), S. 251; Falk, M. (1995), S.198; Schach, S. (1978), S.202). Wir können auch formal in allen Gleichungen von Abschnitt 1.2.1 den Parameter n gleich 1 setzen. Wenn wir das tun, erhalten wir als Resultat, u.a.: SS_Error = 0 Das bedeutet, dass wir die Varianz ‘ 2 nicht mehr mit der Mittelquadratsumme MS_Error erwartungstreu schätzen können. Wie man in Abschnitt 1.2.1.2 in der Formel für den Erwartungswert von MS_AB sieht, bekommt man erst wieder eine erwartungstreue Schätzung für die Varianz ¨ 2, wenn man die festen Effekte x ij der Wechselwirkung annulliert. Mit 8 ij = 0 haben wir dann für die Erwartungswerte der Mittelquadratsummen: E ( MS _ A) = σ 2 +
b i =a 2 ∑α a − 1 i =1 i 41
a j =b 2 E ( MS _ B ) = σ + ∑β b − 1 j =1 j 2
E ( MS _ AB ) = σ 2 Als Beispiel nehmen wir die UmweltDatei (siehe Ausdruck Anhang S. 114). An 23 Messstationen in Bayern wurden für die beiden Monate Juli 1993 und April 1994 die durchschnittlichen Werte an Schwebstaub in g pro m3 Luft gemessen (entnommen aus Falk, M. (1995), S. 102). Der Einflussfaktor A ist der Messzeitpunkt (Datum) mit 2 Stufen und der Einflussfaktor B ist der Messort mit 23 Stufen. Es ist zu prüfen, ob diese Faktoren einen nicht zufälligen Einfluss auf die Beobachtungsvariable Schwebstaubkonzentration in der Atmossphäre haben. Pro Zelle liegt nur ein Wert vor. Das lineare Modell lautet (Ahrens, H. (1974), S. 156): Yij = Pij +
ij
= x + Pi +
j
+ x ij
Yij = unabhängig normalverteilte Zufallsvariable mit Erwartungswert x ij und unbekannter Varianz . Die Realisierung yij ist die einzige Beobachtung in der Zelle ij gebildet von Stufe i von Faktor
2
A und Stufe j von Faktor B. ij
= unabhängig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz h ij2 = P2
(Homoskedastie), = reelles Allgemeinmittel, x i = fester, reeller Effekt von Faktor A auf Stufe i, 8 j = fester, reeller Effekt von Faktor B auf Stufe j, ij
wurde vernachlässigt für alle i=1,...,a und j=1,...,b.
1.2.4.2 Globaler FisherTest Die festen Effekte
i
und
j
sind signifikant von 0 verschieden, wenn die Nullhypothesen:
H0A: 8 1=...= a=0 und H0B: 8 1=...= b=0 abgelehnt werden (Falk, M. (1995), S. 200). Wenn man in der Quadratsummenzerlegung von Abschnitt 1.2.1.2 den Stichprobenumfang n gleich 1 setzt, erhält man die Zerlegung: SS_CTotal = SS_A + SS_B + SS_AB weil SS_Error = 0 ist, mit: i = a j =b
SS _ CTotal = ∑ ∑ ( yij − y.. ) 2 i =1 j =1
i =a
SS _ A = b∑ ( yi . − y.. ) 2 i =1
j =b
SS _ B = a ∑ ( y. j − y.. ) 2 j =1
i = a j =b
SS _ AB = ∑ ∑ ( yij − yi . − y. j + y.. ) 2 i =1 j =1
mit dem arithmetischen Mittel der iten Stufe von Faktor A: yi . =
1 j =b ∑y b j =1 ij
dem arithmetischen Mittel der jten Stufe von Faktor B: 1 i =a y. j = ∑ yij a i =1 und dem arithmetischen Mittel aller Beobachtungen: 43
1 i = a j =b y.. = ∑∑ y ab i =1 j =1 ij Die Erwartungswerte E(MS) der Mittelquadratsummen MS erhält man, wenn man n = 1 und @ij = 0 in den E(MS) von Abschnitt 1.2.1.2 setzt. Die Freiheitsgrade DF von SS_CTotal, SS_A, SS_B und SS_AB sind: ab1,
a1, b1 und (a1)
(b1). Man kann aus den Erwartungswerten E(MS) folgende Teststatistiken für den globalen F Test vermuten und beweisen (Dufner, J. (1992), S. 253): F1 =
MS _ A MS _ AB
F2 =
MS _ B MS _ AB
Statt SS_AB und MS_AB sagt man besser SS_Error und MS_Error weil die Wechselwirkungseffekte
ij
ja verschwunden sind. Es hat SS_AB die Rolle von SS_Error
übernommen. Im SASOutput erscheinen SS_AB und MS_AB unter SS_Error und MS_Error (siehe folgenden Abschnitt). Die Bedingungen zum Ablehnen der Nullhypothesen sind: H 0 A → F1 > F1−α ,a −1,( a −1)(b −1) H 0 B → F2 > F1−α ,b −1,( a −1)( b −1) zum vorgegebenen Niveau . 1.2.4.3 Durchführung mit SAS Das SASProgramm für die zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle wurde wieder in 5 Teile gegliedert. Der 1. Teil lautet: LIBNAME neu ‘d:\daniel’; DATA dk3; SET neu.umwelt;
Die permanente Datei neu.umwelt erzeugt die temporäre Datei dk3 ohne Output. Der 2. Programmteil lautet (Dufner, J. (1992), S. 254; Schuemer, R. (1990), S. 1113): PROC GLM DATA = dk3; CLASS name datum; MODEL staub = name datum; Die Prozedur GLM berechnet die zweifaktorielle Varianzanalyse der Datei dk3 ohne Wechselwirkung. In die CLASSAnweisung sind die Variablennamen name und datum der beiden Einflussfaktoren anzugeben. Die Modellgleichung unter MODEL enthält den Wechselwirkungsterm name*datum nicht, weil der feste Effekt
bei dieser Varianzanalyse mit
einer Beobachtung pro Zelle vernachlässigt wird. Den entsprechenden Output findet man im Anhang S. 9697. Auf S. 96 erhält man die Anzahl und die Ausprägungen der Stufen der beiden Faktoren Messort und Datum. Der Faktor Messort hat 23 Stufen und der Faktor Datum hat 2 Stufen. Die Anzahl aller Beobachtungen ist das Produkt dieser beiden Zahlen, also 46. Auf S. 16 erhalten wir die AnovaTabellen der Zerlegung von der Totalquadratsumme SS_CTotal in SS_Model und SS_Error und der Zerlegung von SS_Model in SS_A und SS_B. Darin sind die Freiheitsgrade DF, die Quadratsummen SS, die Mittelquadratsummen MS, die FStatistiken (F value) und die Überschreitungswahrscheinlichkeiten (Pr<F) für jeden Effekt angegeben. Bei X = 0,01 sind alle (Pr>F) kleiner als H. Alle Nullhypothesen werden abgelehnt. Beide Einflussfaktoren haben einen nichtzufälligen Einfluss auf die Beobachtungsvariable Staubkonzentration. Sie hängt signifikant von Ort und Datum (sicherlich auch jahreszeitlich bedingt) ab. Die Schätzung der Modellvarianz ( 2 ist MS_Error = 21,2945. Das Bestimmtheitsmass RSquare = 0,880989 liegt nahe bei 1. Das Modell ist ziemlich gut an das Problem angepasst. Der Variationskoeffizient CV ist gleich 12,03352 %. Die Standardabweichung 8 wird auf Root MSE = 4,6146 geschätzt. Das arithmetische Gesamtmittel der Staubkonzentration ist 38,348. Der 3. Teil des Programms lautet (Schuemer, R. (1990), S. 2123): 45
OUTPUT OUT = res_t RESIDUAL = t; MEANS name datum / SCHEFFE CLDIFF alpha = 0.05; MEANS name datum / DUNCAN alpha = 0.05; TITLE1 ‘Zweifaktorielle Varianzanalyse mit einer Beobachtung’; TITLE2 ‘pro Zelle der UmweltDatei’; Mit der Option RESIDUAL wird in der Prozedur GLM das Residuum t berechnet und mit OUTPUT OUT an die UmweltDatei angefügt. Die temporäre Ausgabedatei hat den Namen ‘res_t’ und kann später ausgedruckt werden. In den beiden folgenden MEANSAnweisungen werden multiple Mittelwertsvergleiche ausgeführt. Dazu müssen die Variablen name und datum angegeben werden. Mit der Option SCHEFFE CLDIFF alpha = 0,05 wird zum Signifikanzniveau H = 0,05 der SchefféTest ausgeführt, dabei werden durch CLDIFF die Konfidenzgrenzen zu den Mittelwertsdifferenzen ausgegeben. Im Output in Anhang S. 98110 wird Signifikanz durch drei Sternchen angezeigt. Die einzigen zwei Stufenmittelwerte des Faktors Datum sind bei x = 0,05 signifikant verschieden. Beim Faktor Messort ist es wegen der grossen Anzahl der Stufen komplizierter auszumachen, welche Mittelwerte signifikant verschieden sind. Mit der Option DUNCAN alpha = 0,05 wird ein DuncanTest zum Niveau H = 0,05 ausgeführt. Die Mittelwerte mit gleichen Buchstabenlinien im Ausdruck Anhang S. 111113 sind nicht signifikant verschieden. Im übrigen gilt dasselbe wie beim SchefféTest. Der 4. Teil des Programms ist (Gogolok, J. (1992), S. 420432): LABEL staub = ‘Staubkonzentration’ name = ‘Messort’ datum = ‘Datum’ t
= ‘Residuum’;
PROC PRINT DATA = res_t LABEL; TITLE ‘Die UmweltDatei mit Residuen’; Die Datei res_t wird mit ausgeschriebenen Bezeichnungen ausgedruckt (Anhang S. 114). Der 5. und letzte Programmteil lautet (Gogolok, J. (1992), S. 525526):
PROC UNIVARIATE DATA = res_t NORMAL; VAR t; TITLE1 ‘Test der Normalverteilungsannahme’; TITLE2 ‘der UmweltDatei’; RUN; Die Variable t wird mit der Option NORMAL in der Prozedur UNIVARIATE auf Normalverteilung überprüft (Falk, M. (1995), S. 2324). Im Anhang S. 115 ersehen wir aus Moments, dass die Anzahl der Beobachtungen N = 46 ist, davon sind 46 ungleich 0 und 23 sind positiv. Mittelwert und Summe der Residuen sind 0. Die Standardabweichung ist 3,22655 und die Varianz ist 10,41063. Die Werte der Schiefe (skewness = 0) und weniger der Wölbung (kurtosis = 0,662237) von nahe 0 zeigen Normalverteilung der Residuen an. Für den tTest mit der Nullhypothese ‘Mittelwert = 0’ gilt das in den Abschnitten 1.1.1.4 und 1.2.1.4 gesagte. Für die Teststatistik W und die Unterschreitungswahrscheinlichkeit (Pr<W) des in SAS implementierten ShapiroWilkTests gilt: W = 0,9818 und (Pr<W) = 0,8105. Es ist günstig, dass W nahe bei 1 liegt. Bei einem Signifikanzniveau von 0,8 wird die Normalverteilungshypothese nicht widerlegt, weil (Pr<W) > 0,8 ist. Für das Signifikanzniveau wird gewöhnlich ein Wert von 0,1 vorgegeben (Dufner, J. (1992), S. 154). Für Quantiles und Extremes entnimmt man die Werte dem Output (Anhang S. 115). Es gilt das in Abschnitt 1.1.1.4 gesagte.
1.2.5 Zweifaktorielle hierarchische Varianzanalyse 1.2.5.1 Modell Bei den zweifaktoriellen Varianzanalysen, die bisher behandelt wurden, waren alle Stufen der zwei Faktoren A und B miteinander kombiniert worden. Aus a Stufen von A und b Stufen von B entstanden a*b Kombinationsmöglichkeiten. Es gibt aber auch zweifaktorielle Modelle, in denen nicht alle Stufen der Faktoren miteinander kombiniert werden können (Dufner, J. (1992), S. 257). Beispielsweise könnten bei a = 4 Stufen des Faktors A jede dieser Stufen jeweils nur mit 3 Stufen des zweiten Faktors B (von insgesamt 12 Stufen) kombiniert werden. Es gibt dann nur 12 Faktorkombinationen von 48 möglichen. Die Stufen des Faktors B werden mit zwei Indizes 47
gezählt; der erste ist i=1,...,a, der Index der a Stufen von Faktor A; der zweite ist j=1,...,bi, der Index derjenigen bi Stufen von Faktor B, die mit Stufe i von Faktor A kombiniert sind. Die Gesamtstufenanzahl S von Faktor B ist dann: i =a
S = ∑ bi i =1
Die Varianzanalyse dieses Modells nennt man hierarchische Varianzanalyse (Pokropp, F. (1994), S. 179). Sie kann feste, zufällige oder gemischte Faktoren haben. Man nennt A Oberfaktor und B Unterfaktor und schreibt B(A) für B, weil B hierarchisch auf A folgt. Wir gehen davon aus, dass bi = b für alle i ist, d.h. dass jede Stufe von A mit gleichvielen Stufen von B kombiniert ist; es gilt also S = ab. Das Modell mit zufälligen Effekten ist in Dufner, J. (1992), S. 257264 behandelt. Wir behandeln hier das Modell mit festen Effekten: Yijk =
ij
+ ( ijk =
+
i
+ ¨ ij +
ijk
(i=1,...,a; j=1,...,b; k=1,...,n) mit: Yijk = unabhängig normalverteilte Zufallsvariable mit Erwartungswert
ij
und unbekannter
Varianz ( 2. Die Realisierung yijk ist die kte Beobachtung in der Stufe i des Faktors A und in der Stufe ij von Faktor B. ijk
= unabhängig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz ( ijk2 =
2
(Homoskedastie). ¤ = reelles Allgemeinmittel, ¨ i = fester, reeller Effekt von Faktor A auf Stufe i, —ij = fester, reeller Effekt von Faktor B auf Stufe ij. Das Modell ähnelt einem zweifaktoriellen Modell ohne Wechselwirkungen. Wechselwirkungen können in einer hierarchischen Varianzanalyse nicht sinnvoll definiert werden.
1.2.5.2 Globaler FisherTest Es wird wie bei der zweifaktoriellen Varianzanalyse global getestet, ob es feste Effekte gibt, die signifikant von 0 verschieden sind oder ob alle nicht signifikant sind. Dazu werden die zwei Nullhypothesen: H0A: H0B(A):
=...=ł a=0
1
ij
=0 für alle i,j
gegen die alternativen Hypothesen zu einem vorgegebenen Signifikanzniveau ł getestet. Die Quadratsumme SS_CTotal: i = a j =b k = n
SS _ CTotal = ∑ ∑ ∑ ( yijk − y... ) 2 i =1 j =1 k =1
mit dem Freiheitsgrad DF = abn1 wird in Teilquadratsummen zerlegt, mit denen Teststatistiken gebildet werden können um die Nullhypothesen zu testen. Die Zerlegung von SS_CTotal lautet: SS_CTotal = SS_A + SS_B(A) + SS_Error Wir geben ohne Beweis folgende Resultate an: i =a
SS _ A = bn∑ ( yi .. − y... ) 2 i =1
mit Freiheitsgrad DF = a1 und Erwartungswert E(MS_A): bn i = a 2 E ( MS _ A) = σ + ∑α a − 1 i =1 i 2
sodann gilt: i = a j =b
SS _ B ( A) = n ∑ ∑ ( yij . − yi .. ) 2 i =1 j =1
49
mit DF = a(b1) sowie: i = a j =b n E ( MS _ B ( A)) = σ + βij2 ∑ ∑ a (b − 1) i =1 j =1 2
schliesslich gilt: i = a j =b k = n
SS _ Error = ∑ ∑ ∑ ( yijk − yij . ) 2 i =1 j =1 k =1
mit DF = ab(n1) und: E ( MS _ Error ) = σ 2 MS_Error ist ein erwartungstreuer Schätzer für die unbekannte Varianz
.
2
Wenn man die Erwartungswerte E(MS) betrachtet, kann man leicht folgende Teststatistiken F1 und F2 vermuten: F1 =
MS _ A MS _ Error
F2 =
MS _ B ( A) MS _ Error
Unter Gültigkeit der Nullhypothesen H0A und H0B(A) sind F1 und F2 Fverteilt mit den Freiheitsgraden a1 und ab(n1) bzw. a(b1) und ab(n1). Die Nullhypothesen werden verworfen, wenn die Bedingungen: H 0 A → F1 > F1−α ,a −1,ab ( n −1) H 0 B ( A ) → F2 > F1−α ,a ( b −1),ab ( n −1) erfüllt sind für ein vorgegebenes Signifikanzniveau .
1.2.5.3 Durchführung mit SAS Gegenüber dem SASProgramm von Abschnitt 1.2.1.4 hat sich nur der 2. Teil geändert in: PROC GLM DATA = ...; CLASS a b; MODEL y = a b(a); RUN; y ist die Beobachtungsvariable, a ist die Variable des Oberfaktors A und b ist die Variable des Unterfaktors B (Schuemer, R. (1990), S. 1415). Der Output entspricht demjenigen von Abschnitt 1.2.1.4.
1.2.6 Randomisierte vollständige Blockanlage 1.2.6.1 Modell Einer Varianzanalyse liegt immer ein Versuch zugrunde, mit dem man die Abhängigkeit einer Zielvariablen von einer oder mehreren Einflussvariablen beobachtet. Um diesen Versuch auszuführen, braucht man N Versuchseinheiten, die in den meisten Fällen zufällig auf die Zellen, die von den Kombinationen der Stufen der Einflussfaktoren gebildet werden, aufgeteilt werden. Diesen Vorgang der zufälligen Aufteilung nennt man Randomisation. Man kann jedoch häufig die N Versuchseinheiten in sogenannte Blöcke zerlegen. Es empfiehlt sich dann, die Versuchseinheiten getrennt für jeden Block zufällig zu verteilen. Man spricht darüberhinaus von einer randomisierten, vollständigen Blockanlage (Randomized Complete Block Design, RCBD), wenn die Anzahl der Versuchseinheiten pro Block gleich ist der Anzahl Kombinationsmöglichkeiten der Stufen der Faktoren (Dufner, J. (1992), S. 265267; Toutenburg, H. (1994), S. 151159). Die Blöcke bilden einen Einflussfaktor, den sogenannten Blockfaktor. Wir behandeln hier den Fall mit einem Faktor A mit festen Effekten und dem Blockfaktor BL. Der Faktor A mit zufälligen Effekten ist auch möglich. Das Versuchsmaterial kann auf natürliche Weise in Blöcke zerlegt sein: 51
Personen verschiedener Alters oder Einkommensklassen, die vier Räder eines Autos (beim Vergleich von Reifenarten), verschiedene Würfe von Tieren. In unserem Beispiel soll ausfindig gemacht werden, welches von drei Futtermitteln am besten zum Mästen von Kaninchen geeignet ist. Dazu werden in einem Versuch die drei Futtermittel an Kaninchen verfüttert und die Gewichtszunahme der Kaninchen als quantitative Beobachtungsvariable gemessen. Das Kaninchenfutter ist Faktor A mit drei Stufen. Die Menge der Versuchskaninchen bestehe aus vier Würfen mit jeweils drei Kaninchen (N = 12). Ein Block ist ein Wurf mit drei Tieren. Die Randomisation besteht darin, dass die drei verschiedenen Futtermittel aus den drei Stufen des Faktors A zufällig auf die drei Tiere des jeweiligen Blockes verteilt werden. Darüberhinaus handelt es sich um eine randomisierte, vollständige Blockanlage, weil die Anzahl der Tiere in einem Block mit der Anzahl Stufen des Faktors Futter übereinstimmt. Die Varianzanalyse kann man interpretieren als zweifaktoriell mit einer Beobachtung pro Zelle, wenn man den Blockfaktor als gleichberechtigt mit Faktor A ansieht; oder als einfaktoriell mit n = b Beobachtungen pro Zelle, wenn man die Blockunterschiede als nebensächlich ansieht, so dass man geradesogut alle Blöcke zusammenfassen kann. Dies ist besonders dann der Fall, wenn die Blockdurchschnitte sich beim globalen FTest nicht signifikant unterscheiden. Der Sinn der Bildung von Blöcken ist eine erhoffte Senkung der Modellvarianz
.
2
Es gilt folgendes Modell mit festen Effekten (Dufner, J. (1992), S. 268): Yij = ł ij +
ij
= ¨ + pi + 8j +
ij
(i=1,...,a; j=1,...,b) mit: Yij = unabhängig normalverteilte Zufallsvariable mit Erwartungswert
ij
und unbekannter Varianz
¨ 2. Die Realisierung yij ist die Beobachtung in der Zelle der iten Stufe von Faktor A und Block j, ł ij = unabhängig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz 8 ij2 = ‘ 2
(Homoskedastie), X = reelles Allgemeinmittel, i
= fester, reeller Effekt von Faktor A auf Stufe i,
Xj = fester, reeller Effekt von Blockfaktor BL auf Block j. Es gelten die Parameterrestriktionen: i =a
∑τ = 0 i =1
i
j =b
∑β = 0 j =1
j
Das Modell ist analog dem zweifaktoriellen Modell mit festen Effekten und einer Beobachtung pro Zelle von Abschnitt 1.2.4. aufgebaut. Nur, dass Unterschiede der Stufen des Blockfaktors nicht so sehr im Vordergrund stehen; der Faktor A ist wichtiger, so dass das Modell, wie bereits ausgeführt, diesselben Zielsetzungen hat, wie ein einfaktorielles Modell mit festen Effekten und n = b Beobachtungen pro Zelle (Abschnitt 1.1.1.).
1.2.6.2. Globaler FisherTest Es wird vorrangig global getestet, ob die festen Effekte von Faktor A signifikant von 0 verschieden sind oder nicht. Die festen Effekte des Blockfaktors werden erst in zweiter Linie global getestet. Wir testen die Nullhypothesen: H0A: H0BL:
=...= a=0
1
=...= b=0
1
gegen die entsprechenden Alternativhypothesen zu einem vorgegebenen Niveau . Man erhält die Teilquadratsummen SS, mit denen die Teststatistiken der FTests gebildet werden 53
können, durch die Zerlegung der Totalquadratsumme SS_CTotal wie folgt: SS_CTotal = SS_A + SS_B + SS_Error Wir geben die Resultate für SS und E(MS) ohne Beweis an. Es gilt: i =a
SS _ A = b∑ ( yi . − y.. ) 2 i =1
mit Freiheitsgrad DF = a1 und dem Erwartungswert der Mittelquadratsumme: b i =a 2 E ( MS _ A) = σ + ∑τ a − 1 i =1 i 2
weiter gilt: j =b
SS _ B = a ∑ ( y. j − y.. ) 2 j =1
mit DF = b1 und dem Erwartungswert der Mittelquadratsumme: E ( MS _ B ) = σ 2 +
a j =b 2 ∑β b − 1 j =1 j
schliesslich gilt: i = a j =b
SS _ Error = ∑ ∑ ( yij − yi . − y. j + y.. ) 2 i =1 j =1
mit DF = (a1)(b1) und dem Erwartungswert: E ( MS _ Error ) = σ 2 Man kann mit den Erwartungswerten E(MS) der Mittelquadratsummen MS = SS/DF die folgenden Fverteilten Teststatistiken F1 und F2 vermuten bzw. beweisen: F1 =
MS _ A MS _ Error
F2 =
MS _ B MS _ Error
Die Bedingungen zum Ablehnen der Nullhypothesen im globalen FTest sind dann also: H 0 A → F1 > F1−α ,a −1,( a −1)(b −1) H 0 B → F 2 > F1−α ,b −1,( a −1)( b −1) zu einem vorgegebenen Signifikanzniveau H.
1.2.6.3. Durchführung mit SAS Die Durchführung mit SAS entspricht dem Vorgehen in Abschnitt 1.2.4.3.
1.2.7.Zweifaktorielle Varianzanalyse, unbalanciert 1.2.7.1 Modell Wir behandeln nun die unbalancierte, zweifaktorielle Varianzanalyse mit festen Effekten ohne Wechselwirkung (Dufner, J (1992), S. 288). Wie bei der balancierten, zweifaktoriellen Varianzanalyse mit festen Effekten haben wieder zwei Faktoren A und B, die in a bzw. b > 1 Stufen auftreten, einen Einfluss auf eine quantitative Beobachtungsvariable y. Es wird danach gefragt, ob die Stufen dieser Faktoren global denselben Einfluss auf die Beobachtungsvariable haben (globaler FisherTest) und wenn nicht, welche Stufen genau unterschiedlichen Einfluss haben im paarweisen Vergleich zu anderen (multipler Mittelwertsvergleich). In der unbalancierten Varianzanalyse ist die Anzahl nij der Beobachtungen in den Zellen ij unterschiedlich gross. Die Formeln zur Berechnung der Varianzanalyse werden dadurch viel komplizierter (Pokropp, F. (1994), S. 169). Wir stellen nur ein lineares Modell ohne Wechselwirkungen vor, weil die Formeln dann noch nicht so kompliziert sind. Als Beispiel (entnommen aus Ahrens, H. (1974), S. 89) nehmen wir die Messwerte von 31 55
Frühgeborenen in der GeburtDatei (siehe Ausdruck Anhang S. 119) aus einer Untersuchung in der Universitätskinderklinik der Charité zu Ostberlin. Für den Faktor A sind die Daten in zwei Klassen (Stufen) eingeteilt: Erkrankung der Kinder an Gelbsucht j = ja oder n = nein. Es wurde für den Faktor B für jedes Kind die Schwangerschaftsdauer SD in Tagen bestimmt und folgende Klasseneinteilung in die Stufen 1, 2 und 3 vorgenommen: Stufe 1: SD < 250 Stufe 2: 250
SD < 171
Stufe 3: 171 ¨ SD Die Beobachtungsgrösse yijk ist das Gewicht in Gramm der Kinder bei der Geburt. Es gibt 6 Zellen ij mit i=1,2; j=1,2,3; k=1,...,nij und n11 = 6; n12 = 4; n13 = 1; n21 = 3; n22 = 6; n23 = 11. Wir werden dieses Beispiel in Abschnitt 1.2.7.4 mit SAS berechnen und dabei die Wechselwirkung mit einbeziehen und sehen, dass sie einen so geringen Einfluss hat, dass man sie vernachlässigen sollte und besser ein Modell ohne Wechselwirkungen modelliert. Wir stellen folgendes, lineares Modell mit festen Effekten ohne Wechselwirkungen auf: Yijk = ¨ ij + x ijk =
+ xi +
j
+
ijk
(i=1,...,a; j=1,...,b; k=1,...,nij) mit: Yijk = unabhängig normalverteilte Zufallsvariable mit Erwartungswert p ij und unbekannter Varianz ¨ 2. Die Realisierung yijk ist die kte Beobachtung in der Zelle ij gebildet von Stufe i des Faktors A und Stufe j des Faktors B, ijk
= unabhängig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz ¨ ijk2 =
(Homoskedastie), ł = reelles Allgemeinmittel, x i = fester, reeller Effekt von Faktor A auf Stufe i,
2
j
= fester, reeller Effekt von Faktor B auf Stufe j.
Wir definieren: 1 i = a j =b µ= ∑∑µ ab i =1 j =1 ij
αi =
1 j =b ∑µ − µ b j =1 ij
βj =
1 i =a ∑µ − µ a i =1 ij
Es gelten die Parameterrestriktionen: j =b
i =a
∑α = ∑ β = 0 i =1
i
j
j =1
Die Wechselwirkung wird vernachlässigt. Die Schätzung der Modellparameter ergibt:
µ = y... µij = yij . αi = yi .. − y... βj = y. j . − y... εijk = yijk − yij . Dabei gilt für das arithmetische Mittel der iten Stufe von Faktor A: k =n
1 j =b ij yi .. = ∑∑y ni . j =1 k =1 ijk und für das arithmetische Mittel der jten Stufe von Faktor B:
57
k =n
1 i = a ij y. j . = ∑∑y n. j i =1 k =1 ijk sowie für das arithmetische Mittel der Zelle ij: k =n
1 ij yij . = ∑y nij k =1 ijk für das arithmetische Mittel aller Beobachtungen gilt: k =n
1 i = a j =b ij y... = ∑ ∑ ∑ yijk N i =1 j =1 k =1 mit (ausnahmsweise entgegen der Regel von Seite 6): j =b
ni . = ∑ nij j =1
i =a
n. j = ∑ nij i =1
i = a j =b
N = n.. = ∑ ∑ nij i =1 j =1
1.2.7.2 Globaler FisherTest Es soll nun entschieden werden, ob es feste Effekte gibt, die signifikant von 0 verschieden sind, oder ob alle nichtsignifikant sind. Dazu werden die zwei Nullhypothesen: H0A:
=...= a=0
1
H0B: ł 1=...=8 b=0 gegen die alternativen Hypothesen zu einem vorgegebenen Signifikanzniveau bekannte Totalquadratsumme:
getestet. Die
i = a j =b k = nij
SS _ CTotal = ∑ ∑ ∑ ( yijk − y... ) 2 i =1 j =1 k =1
wird in Teilquadratsummen zerlegt. Im unbalancierten Fall der zweifaktoriellen Varianzanalyse gibt es nach Henderson drei verschiedene Typen von Quadratsummenzerlegungen. Wir wollen uns nur auf Typ III beschränken, weil man nur mit diesem Typ die obigen Nullhypothesen in dieser einfachen Form testen kann (Searle, S. R. (1992), S. 202). Es gibt in Typ III für jede Nullhypothese eine Quadratsummenzerlegung. Für die Nullhypothese H0A ist es die Quadratsummenzerlegung (Searle, S. R. (1992), S. 210): SS _ CTotal = R ( β µ ) + R (α µ , β ) + SS _ Error und für die Nullhypothese H0B die Quadratsummenzerlegung (Searle, S. R. (1992), S. 209): SS _ CTotal = R (α µ ) + R ( β µ , α ) + SS _ Error Dafür gilt die sogenannte RNotation (Dufner, J. (1992), S. 293; Searle, S. R. (1992), S. 169170): R (α µ ) = R( µ , α ) − R ( µ ) R( β µ ) = R( µ , β ) − R( µ ) R (α µ , β ) = R ( µ , α , β ) − R ( µ , β ) R( β µ , α ) = R( µ , α , β ) − R( µ , α ) und i = a j = b k = nij
SS _ Error = ∑ ∑ ∑ ( yijk − yij . ) 2 i =1 j =1 k =1
mit: R( µ ) = Ny...2
59
i =a
R ( µ , α ) = ∑ ni . yi2.. i =1
j =b
R ( µ , β ) = ∑ n. j y.2j . j =1
i =a
R ( µ , α , β ) = r T C −1r + ∑ ni . yi2.. i =1
dabei ist T das Transponierungszeichen und rT=(r1,...,rb1) ist ein Vektor mit der Dimension b1 und den reellen Komponenten rj: i =a
r j = n. j y. j . − ∑ nij yi .. i =1
(j=1,...,b1) und C ist eine symmetrische Matrix mit der Ordnung b1 und den reellen Elementen cjj’: i =a
nij2
i =1
ni .
c jj = n. j − ∑
(das sind die Elemente der Matrixdiagonalen j = j’) i =a
nij nij '
i =1
ni .
c jj ' = − ∑
(das sind die übrigen Elemente der Matrix C mit j
j’; j,j’=1,...,b1).
R((
‘ , ) den Freiheitsgrad DF = b1. Die
,X) hat den Freiheitsgrad DF = a1 und R(
Fehlerquadratsumme SS_Error hat den Freiheitsgrad DF = Nab und ist von R( R(
,X) und
,h) stochastisch unabhängig. Es gilt die Schätzung:
MS _ Error =
SS _ Error N − ab
für die Modellvarianz ‚ 2. Unter Gültigkeit der jeweiligen Nullhypothese ist die Teststatistik:
F1 =
R (α µ , β ) / ( a − 1) MS _ Error
zentral Fverteilt mit den Freiheitsgraden a1 und Nab und die Teststatistik: F2 =
R ( β µ , α ) / (b − 1) MS _ Error
ist zentral Fverteilt mit den Freiheitsgraden b1 und Nab. Die Bedingungen zum Verwerfen der Nullhypothesen sind: H 0 A → F1 > F1−α ,a −1, N −ab H 0 B → F2 > F1−α ,b −1, N − ab für vorgegebenes Niveau —.
1.2.7.3 Multiple Mittelwertsvergleiche Wenn der globale FTest eines Faktors signifikant war, findet man mit den multiplen Mittelwertsvergleichen heraus, welche festen Effekte genau signifikant verschieden sind. Die Hypothesen H0A und H0B von vorigem Abschnitt können wie folgt geschrieben werden: H0A: ¨ 1.=...=‘ a. H0B: X1.=...= b. mit den sogenannten adjustierten Mittelwerten: 1 j =b µi . = ∑ µij = µ + α i b j =1 1 i =a µ. j = ∑ µij = µ + β j a i =1 (die rechten Seiten der Gleichungen sind die Definitionsgleichungen von 61
i
und
j
aus Abschnitt
1.2.7.1). Diese werden mit:
µi . = yi .. µ. j = y. j . geschätzt. Ein Vergleich von zwei festen Effekten
r
und Xt des Faktors A wird mit der
Nullhypothese: H 0rt : µr . − µt . = 0 durchgeführt. Die Teststatistik des SchefféTests ist:
K=
y r .. − y t .. srt
dabei ist srt die Standardabweichung der Zufallsvariablen Yr..Yt.., ein im Fall der unbalancierten Varianzanalyse ohne Wechselwirkungen sehr komplizierter Ausdruck. Die Nullhypothese wird abgelehnt, wenn: K > ( a − 1) F1−α ,a −1, N − ab zu einem vorgegebenen Niveau X gilt. Analog lassen sich paarweise Vergleiche von festen Effekten
r
und
t
von Faktor B mit der
Nullhypothese: H 0rt : µ.r − µ.t = 0 mit dem SchefféTest durchführen. Mit SAS wird im folgenden Abschnitt ein tTest durchgeführt.
1.2.7.4 Durchführung mit SAS Für die unbalancierte, zweifaktorielle Varianzanalyse mit festen Effekten mit Wechselwirkung
wurde die GeburtDatei als Beispiel durchgerechnet (siehe Anhang S. 119). Der 1. Teil des fünfteiligen Programms lautet: LIBNAME neu ‘d:\daniel’; DATA dk4; SET neu.geburt; Ohne Output wird die temporäre Datei dk4 durch die permanente Datei neu.geburt aus der SAS Bibliothek neu im Ordner daniel generiert. Der 2. Programmteil lautet: PROC GLM DATA = dk4; CLASS krank klasse; MODEL gewicht = krank klasse krank*klasse / SS3; In der Prozedur GLM berechnen wir die unbalancierte, zweifaktorielle Varianzanalyse der Datei dk4 mit den Faktorvariablen krank und klasse, die in der CLASSAnweisung stehen müssen. In der MODELAnweisung ist die Modellgleichung mit Wechselwirkung krank*klasse angegeben. Die Option SS3 bewirkt, dass Quadratsummen vom Typ III nach Henderson ausgedruckt werden (Dufner, J. (1992), S. 299; Schuemer, R. (1990), S. 12). Den Output finden wir auf S. 116117 des Anhangs. Auf S. 116 erhalten wir die üblichen Informationen über die Stufen der Faktoren Gelbsucht und Klasse und die Beobachtungsvariable Geburtsgewicht. Auf S. 36 erhalten wir zuerst die AnovaTabelle der Zerlegung von SS_CTotal in SS_Model und SS_Error, wie bei den balancierten Varianzanalysen. In einer zweiten Anova Tabelle erhalten wir Zerlegungen von SS_Model, die eine etwas andere Gestalt haben, als die in der Theorie in Abschnitt 1.2.7.2 beschriebenen. Das liegt daran, dass wir hier die Wechselwirkungen hinzugenommen haben. Es sind die Freiheitsgrade DF, die Quadratsummen SS, die mittleren Quadratsummen MS, die FStatistiken (F value) und die Überschreitungswahrscheinlichkeiten (Pr>F) spaltenweise für jeden Effekt angegeben. Für X = 0,05 sind alle Werte von (Pr>F) grösser als h, sodass alle 3 Effekte nicht signifikant von 0 verschieden sind. Die Nullhypothesen werden nicht abgelehnt. Die Einflussfaktoren Gelbsucht und Schwangerschaftsdauer haben nur einen zufälligen Einfluss auf die Beobachtungsvariable 63
Geburtsgewicht. Bei
= 0,15 ist der Effekt 8 des Faktors Schwangerschaftsdauer signifikant von
0 verschieden, denn (Pr>F) ist gleich 0,1311. Nur dieser Faktor hat dann eine reale Wirkung auf das Geburtsgewicht. Die Wechselwirkung ist jedoch sehr gering und braucht keinesfalls berücksichtigt zu werden. Die Schätzung der Modellvarianz
2
ergibt MS_Error = 58472,55. Für das Bestimmtheitsmass R
Square = 0,187377 haben wir einen sehr schlechten Wert, der weit von 1 entfernt ist. Ein lineares Modell beschreibt das Problem nicht gut, man müsste ein anderes Modell verwenden. Der Variationskoeffizient ist 11,102 %. Die Schätzung der Standardabweichung ( des Modells (Root MSE) ist 241,81 g. Das gesamte arithmetische Mittel des Geburtsgewichts ist 2178,1 g. Der 3. Teil des Programms lautet: OUTPUT OUT = res_u RESIDUAL = u; LSMEANS krank klasse / STDERR PDIFF; TITLE ‘Zweifaktorielle Varianzanalyse der GeburtDatei’; In der Prozedur GLM wird mit der Option RESIDUAL das Residuum u berechnet und mit OUTPUT OUT an die GeburtDatei angefügt. Die Ausgabedatei ist die temporäre Datei res_u, die später als Output des 4. Programmteils ausgedruckt werden wird. Die LSMEANSAnweisung dient der Ausführung von multiplen Mittelwertsvergleichen der adjustierten Mittelwerte der Einflussfaktorstufen. Die folgenden Erläuterungen beziehen sich auf jedem der beiden getrennten Outputs der Variablen krank und klasse im Anhang S. 118. In der 1. Spalte des Outputs S. 118 stehen die Stufen des Faktors der jeweiligen Variablen. Durch LSMEANS werden die adjustierten Mittelwerte ausgerechnet und in der 2. Spalte ausgedruckt (Dufner, J. (1992), S. 303307; Schuemer, R. (1990), S. 19). Die Option STDERR berechnet in der 3. Spalte die Standardabweichungen der adjustierten Mittelwerte. In Spalte 4 sind die Überschreitungswahrscheinlichkeiten des tTests der Nullhypothese H0:LSMEAN=0 angegeben. Alle Nullhypothesen werden für
> 0,0001 abgelehnt. Durch die Option PDIFF sind in Spalte 5
die Überschreitungswahrscheinlichkeiten des tTests der Nullhypothese H0:LSMEAN(i)=LSMEAN(j) angegeben. Für die Variable klasse ist dafür eine symmetrische Matrix erforderlich. Bei 8 = 0,05 ist kein Fall von Gleichheit der adjustierten Mittelwerte
signifikant. Keine Nullhypothese wird abgelehnt. Alle Überschreitungswahrscheinlichkeiten sind grösser als
= 0,05. Erst bei
= 0,1 ist u1 signifikant von u2 verschieden.
Der 4. Teil des Programms lautet (Graf, A. (1993), S. 200202): LABEL krank = ‘Gelbsucht’ klasse = ‘Klasse’ tage = ‘Schwangerschaftsdauer’ gewicht = ‘Geburtsgewicht’ u
= ‘Residuum’;
PROC PRINT DATA = res_u LABEL; TITLE ‘Die GeburtDatei mit Residuen’; In diesem Teil wird die GeburtDatei mit Residuen ausgedruckt (siehe Anhang S. 119). Der 5. und letzte Programmteil lautet (Graf, A. (1993), S. 215217): PROC UNIVARIATE DATA = res_u NORMAL; VAR u; TITLE1 ‘Test der Normalverteilungsannahme’; TITLE2 ‘der GeburtDatei’; RUN; Durch die Option NORMAL und die VARAnweisung wird in der Prozedur UNIVARIATE die Variable u der Datei res_u mit dem ShapiroWilkTest auf Normalverteilung überprüft. Im Ausdruck Anhang S. 120 ersehen wir aus Moments die Anzahl der Residuen N = 31, wovon 30 ungleich 0 und 15 positiv sind. Der Mittelwert und die Summe der Residuen ist 0, die Standardabweichung und die Varianz sind gleich 220,7422 bzw. gleich 48727,12. Die Werte der Schiefe (skewness = 0,092713) und weniger der Wölbung (kurtosis = 0,357334) von nahe 0 zeigen Normalverteilung an. Für den tTest gilt dasselbe wie in Abschnitt 1.2.1.4 gesagte. Die Teststatistik W des ShapiroWilkTests liegt mit 0,99134 sehr nahe bei 1. Dies bedeutet, dass die Normalverteilungsannahme gerechtfertigt ist. Mit einer Unterschreitungswahrscheinlichkeit von 0,995 ist auch bei dem sehr hohen Signifikanzniveau von 0,99 die Normalverteilungsannahme 65
nicht widerlegt. Für Quantiles und Extremes gilt das in Abschnitt 1.2.1.4 gesagte.
2 STATISTISCHE GRUNDLAGEN 2.1 Grundgesamtheit und Stichprobe Eine Grundgesamtheit ist die Menge über deren Einheiten man Informationen erhalten will. Wenn die Grundgesamtheit zu gross ist, um alle Einheiten zu untersuchen, behandelt man nur eine Teilmenge von n Elementen, die man zufällig auswählt, d.h. man zieht eine Stichprobe. Dann versucht man von der Stichprobe auf die Grundgesamtheit zu schliessen.
2.2.Statistische Masszahlen Sei xi (i=1,...,n) eine Folge von n reellen Zahlen, etwa die Stichprobe eines stetigen Merkmals. Der arithmetische Mittelwert ist definiert durch:
x=
1 i =n ∑x n i =1 i
Der Median ist der mittlere Wert der xi, wenn diese der Grösse nach geordnet sind. Wenn n eine gerade Zahl ist, wird der Mittelwert der beiden mittleren Werten genommen. Der Modalwert ist der am häufigsten in der Stichprobe vorkommende Wert. Ein Streuungsmass ist die (empirische) Varianz: 1 i =n s = ( xi − x ) 2 ∑ n − 1 i =1 2
Daraus abgeleitet wird der (dimensionslose) Variationskoeffizient CV: CV =
100s x
Ein weiteres Streuungsmass ist die Spannweite, die Differenz zwischen dem grössten und kleinsten Wert der Stichprobe.
2.3 Zufallsvariable Eine Zufallsvariable X ist eine Variable, die einen von einem zufälligen Ereignis abhängigen reellen Wert x annimmt. Man nennt x die Realisierung der Zufallsvariablen X. Eine Zufallsvariable kann diskret oder stetig sein. Die sogenannte Verteilungsfunktion F(x) von diskreter wie stetiger Zufallsvariablen X ist definiert wie folgt: F ( x) = P( X ≤ x ) P ist die Wahrscheinlichkeit, dass die Realisierungen von X kleiner oder gleich x sind. Es gilt für stetige Zufallsvariable X: dF ( x ) = f ( x) dx
67
f(x) heisst Dichtefunktion. Wenn wir diese Gleichung nach den Rechenregeln der Differential und Integralrechnung nach F(x) auflösen, erhalten wir die Verteilungsfunktion: x
F ( x ) = ∫ f (t )dt −∞
Für diskrete Zufallsvariable ist die Verteilungsfunktion gegeben durch: F ( x ) = ∑ f ( xi ) xi ≤ x
Hier ist: f(xi) = P(X=xi) die Wahrscheinlichkeit dafür, dass die diskrete Zufallsvariable X den Wert xi annimmt. Es folgt, dass im Falle diskreter wie stetiger Zufallsvariablen gilt: P ( a < X ≤ b ) = F (b ) − F ( a ) Das ‚ Quantil x0 der Verteilung einer Zufallsvariablen X ist definiert durch: h = P(X 8 x ) 0 ist die Wahrscheinlichkeit P, dass die Realisierung x von X kleiner oder gleich der reellen Zahl x‘ ist. Wir definieren ferner: Erwartungswert einer diskreten Zufallsvariablen X: i =n
E ( X ) = ∑ xi f ( x i ) i =1
Erwartungswert einer stetigen Zufallsvariablen X: +∞
E ( X ) = ∫ xf ( x ) dx −∞
Varianz einer diskreten Zufallsvariablen X: i =n
VAR ( X ) = ∑ f ( xi )( xi − E ( X )) 2 i =1
Varianz einer stetigen Zufallsvariablen X: +∞
VAR ( X ) = ∫ f ( x )( x − E ( X )) 2 dx −∞
2.4 Spezielle Verteilungen 2.4.1 Normalverteilung Eine stetige Zufallsvariable X heisst normalverteilt mit Erwartungswert
und Varianz ¨ 2, wenn
sie die Dichtefunktion: f ( x) =
1 2πσ
2
exp( − ( x − µ ) 2 / (2σ 2 ))
besitzt (Falk, M. (1995), S. 4951; Zöfel, P. (1992), S. 2526). Wenn h = 0 und ‘ = 1 ist, heisst die Verteilung Standardnormalverteilung. Die Verteilungsfunktion der Standardnormalverteilung lautet: x
φ ( x) =
1 exp( −t 2 / 2) dt ∫ 2π −∞
Es gilt:
φ (− x) = 1 − φ ( x) Daher braucht man die Verteilungsfunktion der Standardnormalverteilung nur für positive x zu tabellieren. Das Quantil der Standardnormalverteilung wird mit z bezeichnet und ist definiert mit:
α = P ( X ≤ zα ) 69
und es gilt: z = z10 Wenn die Zufallsvariable X normalverteilt ist mit Erwartungswert
und Varianz
, dann ist die
2
Zufallsvariable aX+b normalverteilt mit Erwartungswert a +b und Varianz (a )2. Also folgt, dass: Z=
X −µ σ
standardnormalverteilt ist. Die Wahrscheinlichkeit, dass die Realisierung x der normalverteilten Zufallsvariablen X zwischen zwei reellen Grössen c und d liegt, ist: P( c < x ≤ d ) = P (
= P(
c−µ x−µ d −µ < ≤ )= σ σ σ
c−µ d−µ d−µ c−µ <z≤ ) = φ( ) − φ( ) σ σ σ σ
Die Standardnormalverteilungsfunktion reicht also zur Berechnung aller Probleme, in denen Normalverteilungen vorkommen, aus.
2.4.2 ChiQuadratVerteilung Sind X1,...,Xn stochastisch unabhängige, standardnormalverteilte Zufallsvariablen, dann heisst die Verteilung der Zufallsvariablen: U n = X 12 + X 22 +...+ X n2 (zentrale) ChiQuadratVerteilung mit n Freiheitsgraden (Dufner, J. (1992), S. 121; Falk, M. (1995), S. 52). Sie besitzt die Dichtefunktion: f ( x) =
2
n/2
n 1 −x −1 x 2 exp( ) 2 Γ ( n / 2)
für x > 0. Die Quantile werden mit Varianz ist 2n.
x,n
bezeichnet. Der Erwartungswert von Un ist n und die
2.4.3 StudentVerteilung Sind X und Un stochastisch unabhängig und standardnormalverteilt, bzw. ChiQuadratverteilt mit n Freiheitsgraden, dann heisst die Verteilung der Zufallsvariablen: Tn =
X Un n
Studentverteilung oder tVerteilung mit n Freiheitsgraden (Dufner, J. (1992), S. 122; Falk, M. (1995), S. 55). Die Dichtefunktion der Verteilung lautet: f ( x) =
Γ ( n2+1 ) x 2 − n2+1 ( 1 + ) n Γ ( n2 ) πn
für reelles x. Die Quantile werden mit t ,n bezeichnet. Der Erwartungswert ist 0 für n > 1 und die Varianz ist n/(n2) für n > 2.
2.4.4 FisherVerteilung Es seien Um und Un stochastisch unabhängige, stetige Zufallsvariablen und ChiQuadratverteilt mit Freiheitsgrad m bzw. n. Dann heisst die Verteilung der Zufallsvariablen: Wm,n =
Um m Un n
(zentrale) FVerteilung mit Freiheitsgraden m und n (Dufner, J. (1992), S. 123; Falk, M. (1995), S. 54). Die Dichtefunktion von Wm,n lautet: m
−1
m n Γ ( m2+ n ) x2 2 2 f ( x) = m m n m+ n Γ ( 2 ) Γ ( n2 ) (n + mx ) 2
Die Quantile werden mit F‚ ,m,n bezeichnet. Der Erwartungswert ist n/(n2) für n > 2 und die Varianz ist: 2n 2 ( m + n − 2) VAR (Wm,n ) = m(n − 2) 2 (n − 4) 71
für n > 4. Es gilt schliesslich die Formel: F ,m,n = 1/F1P,n,m
2.5 Parametertest Es wird von einer Stichprobe x1,...,xn ausgegangen, wobei die xi Realisierungen von normalverteilten Zufallsvariablen X1,...,Xn sind mit gleichem Erwartungswert Varianz
und gleicher
.
2
Wir behaupten nun dass:
µ ≤ µ0 ist, d.h. wir stellen die Nullhypothese: H 0 : µ ≤ µ0 auf, mit ł 0 als feste reelle Zahl (Zöfel, P. (1992), S. 2932). Die Alternativhypothese ist dann die Verneinung: H A : µ > µ0 Es sei t0 die Realisierung einer Stichprobenfunktion T = T(X1,...,Xn) (die eine Zufallsvariable ist) für X1=x1,...,Xn=xn mit E(T) = Ł. Es ist t0 eine erwartungstreue Schätzung für 8. Unter Gültigkeit der Nullhypothese ( = Ł0) habe T eine Verteilungsfunktion F(x1,...,xn). Ferner sei T1 ein Quantil der Verteilung von T mit vorgegebener fester Wahrscheinlichkeit :
α = P(t > T1−α ) Mit t
T1 wird der Annahmebereich ],T1 ] der Nullhypothese H0 definiert, mit t > T1 der
Ablehnbereich ]T1 ,+[. Aus der Stichprobe wird also t = t0 berechnet und mit T1ł vergleichen. Gilt t0 > T1 wird H0:
Ł
0
abgelehnt, anderenfalls nicht.
Liegt t0 nahe an T1 aber noch im Annahmebereich geht man davon aus, dass die Nullhypothese richtig ist und die Abweichung nach oben von t0 nur zufallsbedingt ist und etwa vom Versuchsfehler herrührt. Liegt t0 dagegen im Ablehnbereich, nimmt man an, dass so eine grosse Abweichung vom Erwartungswert
nicht zufallsbedingt ist, sondern dass „irgendwas
dahintersteckt“, irgend eine Ursache. Die Nullhypothese wird abgelehnt und man sagt:
ist
signifikant grösser als ł 0 Es werden Fehlentscheidungen getroffen, wenn die Nullhypothese abgelehnt wird, obwohl sie richtig ist oder wenn sie angenommen wird, obwohl sie falsch ist. Beide Fehler sind in der Praxis nicht gleichgewichtig. Da man in der Testtheorie gewöhnlich nur eine der beiden Fehlerwahrscheinlichkeiten kontrollieren kann, wird diejenige Aussage als Nullhypothese genommen, deren irrtümliches Ablehnen die grösseren Konsequenzen hätte (Falk, M. (1995), S. 60). Dieser sogenannte Fehler der 1. Art wird kontrolliert. Das Annehmen der Nullhypothese, obwohl sie falsch ist, nennt man Fehler 2. Art. Entsprechend heissen die zugehörigen Wahrscheinlichkeiten des Begehens dieser Fehler Fehlerwahrscheinlichkeiten 1. und 2. Art bzw. ł und . Man nennt t0 Prüfgrösse oder Prüfstatistik. Anstatt die Grenze des Annahmebereichs mit dem Quantil T1P anzugeben und mit der Prüfstatistik t0 zu vergleichen, kann man auch die Wahrscheinlichkeit: ł ’ = P(t > t0) berechnen und mit
vergleichen. Es ist ‚ ’ < ‘ äquivalent zu t0 > T1 . Im Output der SAS
Prozedur GLM wird die zweite Methode für den globalen FTest verwandt, und die erste Methode wird für die paarweisen Mittelwertsvergleiche im Scheffé und DuncanTest verwandt.
2.6 Test der Normalverteilungsannahme 2.6.1 Residualvariable In allen Varianzanalysen wurde die Fehlerzufallsvariable Pij bzw. ‘ ijk als unabhängig normalverteilt mit Erwartungswert 0 und Varianz 73
2 ij
bzw. Hijk2 angenommen.
Weitere Modellannahmen waren neben der Normalverteilung der Fehler, die stochastische Unabhängigkeit zwischen allen Fehlern und die Homoskedastie, die definiert ist als die Gleichheit aller Fehlervarianzen an —2. Die Realisationen der Zufallsvariablen
ij
beispielsweise,
der Fehler des Modells der einfaktoriellen Varianzanalyse, sind nicht beobachtbar (Dufner, J. (1992), S. 203). Man verwendet statt dessen die Residuen: eij = yij yi. die die Realisationen der entsprechenden Zufallsvariablen, die sogenannten Residualvariablen: Eij = Yij Yi. sind. Es gilt für ihre Varianzen und Kovarianzen: VAR ( E ij ) =
ni − 1 2 σ ni
(i=1,...,k; j=1,...,ni) COV ( E ij , E sl ) = 0 (i P s; j,l beliebig) −σ2 COV ( E ij , E sl ) = ni (i = s; j —l). Die Homoskedastie und die stochastische Unabhängigkeit der Residualvariablen steigen mit den Zellenumfängen ni und der Balance der Daten. Im Falle der zweifaktoriellen Varianzanalyse verwendet man entsprechend die Residualvariable: Eijk = Yijk Yij. Für ihre Varianzen und Kovarianzen gilt analoges wie im einfaktoriellen Fall. Wir verwenden die Residualvariablen dazu, bei allen Dateien die Annahme der Normalverteilung des
Versuchsfehlers zu testen.
2.6.2 Durchführung mit SAS Wir wollen prüfen, ob die Variable x die zu einer Datei abc gehört, normalverteilt ist. Dazu ist in SAS der ShapiroWilkTest implementiert. Der relevante Programmteil lautet: PROC UNIVARIATE DATA = abc NORMAL; VAR x; RUN; In der Prozedur UNIVARIATE (Gogolok, J. (1992), S. 525527; Graf, A. (1993), S. 215217) wird mit der Option NORMAL die durch die VARAnweisung aus der Datei abc ausgewählte Variable x auf Normalverteilung überprüft. Für N P 2000 ist der ShapiroWilkTest implementiert. Er zählt zu den sogenannten Regressionstests (Dufner, J. (1992), S. 155158). Der PROCStep wird mit RUN abgeschlossen. Der Output hat den Umfang einer Seite mit u.a. dem Ergebnis der Teststatistik W:Normal und der Unterschreitungswahrscheinlichkeit Pr<W. Es gilt immer 0 < W < 1. Damit die Normalverteilungsannahme gerechtfertigt ist, muss W nahe bei 1 liegen. Das Signifikanzniveau beträgt üblicherweise 0,1.
3 DAS SASSYSTEM 3.1 Einführung SAS ist die Abkürzung von „Statistical Analysis System“ und ist ein Softwaresystem zur 75
statistischen Analyse von Daten mit einem sich vergrössernden Anwendungsspektrum, auch ausserhalb der Statistik, so dass man fast von einer Universalsoftware sprechen kann (Graf, A. (1993), S. 14).
3.2 Die drei Fenster Nach Aufruf von SAS auf dem PC unter dem Betriebssystem MS Windows erscheinen drei Fenster auf dem Bildschirm: das EditorFenster, das LogFenster und das OutputFenster (Falk, M. (1995), S. 341; Gogolok, J. (1992), S. 2428; Graf, A. (1993), S. 46). Durch Mausklick kann man von einem Fenster zum anderen wechseln. Im EditorFenster gibt man mit der Hilfe einiger wichtiger Funktionen, ähnlich den Funktionen eines Textprogramms, mit der Tastatur das Programm ein. Dies kann formatfrei in Gross oder Kleinschreibung geschehen. Das LogFenster enthält Informationen zu den ausgeführten Anweisungen, dem Speicher und Zeitbedarf, Fehlermeldungen und Angaben über die Anzahl der Variablen und die Anzahl der Beobachtungen der Dateien. Im LogFenster kontrolliert man das eingegebene Programm und im EditorFenster verbessert man es, bis es einwandfrei ist. Im OutputFenster erscheinen die Ergebnisse, nachdem man mit dem Befehl SUBMIT das syntaktisch einwandfreie Programm zum Laufen gebracht hat. Die Inhalte der drei Fenster kann man nach Belieben einzeln ausdrucken oder speichern.
3.3 Die SASSprache Die SASProgrammiersprache hat ihre eigene Syntax, wie jede höhere Programmiersprache (Pascal, Basic, Cobol,...) auch mit ähnlichen Sprachkonstrukten. Die Wirkungsweise ist jedoch oft eine andere und es fehlt eine logische Abgeschlossenheit. Dass die Syntax nicht immer einheitlich und konsistent ist, liegt in der grossen Komplexität begründet (Graf, A. (1993), S. 24).
Dies macht es dem Anfänger schwer. Die SASSprache besteht aus: Anweisungen: sie werden immer durch ein Semikolon abgeschlossen und sind in der Regel eine Folge von SASSchlüsselwörtern, Sonderzeichen oder Operatoren (Gogolok, J. (1992), S. 335363). SASAusdrücke bestehen aus Operatoren und Operanden von arithmetischem und logischem Typ und Zeichenketten (Graf, A. (1993), S. 2731). Ein Operand kann ein Variablenname, eine Konstante oder eine SASFunktion sein. SASFunktionen: wie in der Mathematik wird einem oder mehrerer Argumente ein Funktionswert zugewiesen (Gogolok, J. (1992), S. 307334).
3.4 Das SASProgramm 3.4.1 Der DATAStep Die Programme der SASProgrammiersprache bestehen aus Kommandos, die der Reihe nach abgearbeitet werden. Die SASProgramme, wie man sie im EditorFenster eingibt, bestehen aus einem oder mehreren DATA und PROCSteps. Im DATAStep wird immer eine Datei erstellt (Graf, A. (1993), S. 36). Zum Einlesen der Daten muss in der INPUTAnweisung angegeben werden, welche Variablen definiert sind. Auf die INPUTAnweisung folgt die CARDSAnweisung, in der die Daten mit der Tastatur eingelesen werden. Wenn zwischen den Variablennamen im INPUT bzw. den Variablenwerten in CARDS ein Lehrzeichen steht, werden die Eingaben in CARDS der Eingabe der Variablennamen in INPUT der Reihe nach zugewiesen. Die Eingabe von „Zeilenhalter“ @@ am Ende von INPUT bewirkt, dass die Datensätze in CARDS auch nebeneinander in einer Zeile geschrieben werden können und nicht in einer Datenmatrix zwingend untereinander. In dieser Datenmatrix sind die Zeilen die Observationen und die Spalten die Variablen. Die Datei kann dann als permanente Datei unter: 77
DATA libref.name; dauerhaft abgespeichert werden. Dafür muss im Programm der Ausdruck: LIBNAME libref ‘DOSPfad’; eingegeben werden (Gogolok, J. (1992), S. 101104). Damit wird ein Ordner, die SASBibliothek ‘libref’, angelegt, in dem alle permanenten Dateien abgelegt werden können. Im Gegensatz dazu werden die temporären Dateien nach der Sitzung automatisch gelöscht.
3.4.2 Der PROCStep Eine Prozedur ist ein fertiges von SAS zur Verfügung gestelltes Programm, dass als PROCStep mit: PROC Prozedurname DATA = Dateiname; eingegeben wird (Graf, A. (1993), S. 39). Dem folgen Anweisungen wie jene, die in dieser Arbeit mit der Prozedur GLM verwendet werden und im folgenden erklärt werden. In der VARAnweisung werden die auszuwertenden Variablen festgelegt; ohne VAR Anweisung werden alle Variablen der Datei ausgewertet. In der CLASSAnweisung kann man eine getrennte Auswertung für verschiedenen Ausprägungen von Variablen erhalten. In der MODELAnweisung wird in den Prozeduren REG, GLM und ANOVA eine Modellgleichung aus der Regressions oder Varianzanalyse angegeben. Um das Programm abzuschliessen, muss am Ende RUN; eingegeben werden. Die mit den Prozeduren nach SUBMIT erzeugten Ergebnisse werden im OutputFenster ausgegeben und können ausgedruckt oder gespeichert werden. Varianzanalysen können in SAS mit den Prozeduren ANOVA und GLM berechnet werden (Zöfel, P. (1992), S. 4450). GLM ist die Abkürzung von „General Linear Model“. ANOVA kann nur bei balancierten Daten angewandt werden; GLM auch bei unbalancierten und multivariaten Varianzanalysen.
79
4 SCHLUSSFOLGERUNG Es wurden in dieser Arbeit die Varianzanalysen von vier Dateien mit SAS auf dem PC berechnet: mit der NiereDatei eine unbalancierte, einfaktorielle Varianzanalyse mit festen Effekten, mit der WaldDatei eine balancierte, zweifaktorielle Varianzanalyse mit festen Effekten und mit Wechselwirkung, mit der UmweltDatei eine zweifaktorielle Varianzanalyse mit festen Effekten und einer Beobachtung in jeder Zelle, mit der GeburtDatei eine unbalancierte, zweifaktorielle Varianzanalyse mit festen Effekten und mit Wechselwirkung. Die Ergebnisse sind im Anhang S. 82120 ausgedruckt und wurden im 1. Kapitel erklärt. Darunter sind auch die Werte des Bestimmtheitsmasses RSquare und die Werte der Statistik W und der Unterschreitungswahrscheinlichkeit (Pr<W) des ShapiroWilkTests zu finden. Diese Werte der vier Dateien sind in der folgenden Tabelle noch einmal zusammengefasst:
Datei
R2
W
Pr < W
Niere
0,303209
0,981576
Wald
0,960669
0,965194
0,8612 0,2231
Umwelt
0,880989
0,981814
0,8105
Geburt
0,187377
0,99134
0,9950
Es gilt 0 —R2
1 und 0 < W < 1. Einen Wert des Bestimmungsmasses R2 in der Nähe von 1 zeigt
eine gute Anpassung des linearen Modells an das untersuchte Problem an. Werte der Statistik W des in SAS implementierten ShapiroWilkTests in der Nähe von 1 und der Unterschreitungswahrscheinlichkeit (Pr<W) von grösser als 0,1 zeigen an, dass die Annahme der Normalverteilung des Versuchsfehlers gerechtfertigt ist. Der Tabelle ist zu entnehmen, dass W bei allen vier Dateien sehr nahe bei 1 liegt und die
Unterschreitungswahrscheinlichkeit (Pr<W) liegt in allen Fällen über dem üblichen Signifikanzniveau 0,1. Die Normalverteilungsvoraussetzung ist somit überall erfüllt. Das Bestimmtheitsmass ist nur bei den balancierten, chemischphysikalischen Dateien Wald und Umwelt nahe bei 1. Bei den unbalancierten, medizinischen Dateien Niere und Geburt ist das lineare Modell zur Problembeschreibung schlecht geeignet, denn das Bestimmtheitsmass ist hier kleiner als 0,5. Ein Grund dafür könnte sein, dass biologische Probleme komplizierter sind als chemischphysikalische und dass man kompliziertere Modelle als das einfache lineare Modell aufstellen muss, um Probleme, in denen lebende Organismen im Spiel sind, gut zu beschreiben.
81
5 LITERATURVERZEICHNIS Ahrens, H./Läuter, J. (1974), Mehrdimensionale Varianzanalyse, Berlin. Dufner, J./Jensen, U./Schuhmacher, E. (1992), Statistik mit SAS, Stuttgart. Falk, M./Becker, R./Marohn, F. (1995), Angewandte Statistik mit SAS, Berlin. Gogolok, J./Schuemer, R./Ströhlein, G. (1992), Datenverarbeitung und statistische Auswertung mit SAS, Band I, Stuttgart. Graf, A./Bundschuh, W./Kruse, H.G. (1993), Effektives Arbeiten mit SAS, Mannheim. Prokopp, F. (1994), Lineare Regression und Varianzanalyse, München. Schach, S./Schäfer, T. (1978), Regressions und Varianzanalyse, Berlin. Schuemer, R./Ströhlein, G./Gogolok, J. (1990), Datenverarbeitung und statistische Auswertung mit SAS, Band II, Stuttgart. Searle, S. R./Casella, G./McCulloch, C. E. (1992), Variance Components, New York. Toutenburg, H. (1994), Versuchsplanung und Modellwahl, Heidelberg. Zöfel, P. (1992), Univariate Varianzanalysen, Stuttgart.
ANHANG
83
Einfaktorielle Varianzanalyse der NiereDatei General Linear Models Procedure Class Level Information Class UGR
Levels
Values
4
0 1 2 3
Number of observations in data set = 34
1
Einfaktorielle Varianzanalyse der NiereDatei
2
General Linear Models Procedure Dependent Variable: HFS Source
Herzfequenz Sum of DF Squares
Model
3
Error Corrected Total
Mean Square
F Value
Pr > F
5470.4190
1823.4730
4.35
0.0117
30
12571.3457
419.0449
33
18041.7647
RSquare
C.V.
Root MSE
HFS Mean
0.303209
12.35795
20.471
165.65
Source
DF
Type I SS
Mean Square
F Value
Pr > F
UGR
3
5470.4190
1823.4730
4.35
0.0117
Source
DF
Type III SS
Mean Square
F Value
Pr > F
UGR
3
5470.4190
1823.4730
4.35
0.0117
85
Einfaktorielle Varianzanalyse der NiereDatei
3
General Linear Models Procedure Scheffe's test for variable: HFS NOTE: This test controls the type I experimentwise error rate but generally has a higher type II error rate than Tukey's for all pairwise comparisons. Alpha= 0.05
Confidence= 0.95 df= 30 MSE= 419.0449 Critical Value of F= 2.92228
Comparisons significant at the 0.05 level are indicated by '***'.
UGR Comparison
Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit
0 0 0
2 3 1
8.063 4.688 2.842
20.352 22.548 32.756
48.767 49.784 62.671
2 2 2
0 3 1
48.767 29.173 21.316
20.352 2.196 12.405
8.063 33.566 46.126
3 3 3
0 2 1
49.784 33.566 22.525
22.548 2.196 10.208
4.688 29.173 42.942
1 1 1
0 2 3
62.671 46.126 42.942
32.756 12.405 10.208
2.842 21.316 22.525
Einfaktorielle Varianzanalyse der NiereDatei
***
***
4
General Linear Models Procedure Duncan's Multiple Range Test for variable: HFS NOTE: This test controls the type I comparisonwise error rate, not the experimentwise error rate Alpha= 0.05 df= 30 MSE= 419.0449 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 7.820949 Number of Means 2 3 4 Critical Range 21.14 22.22 22.91 Means with the same letter are not significantly different. Duncan Grouping
Mean
N
UGR
A A A
180.92
13
0
160.57
7
2
158.38
8
3
148.17
6
1
B B B B B
Die NiereDatei mit Residuum OBS
Untersuchungsgruppe
Herzfequenz
87
5 Residuum
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34
0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3
175 170 177 182 191 158 185 175 181 196 200 197 165 157 108 170 138 180 136 167 172 143 134 182 206 120 165 173 172 145 134 174 140 164
Test der Normalverteilungsannahme der NiereDatei Univariate Procedure
5.9231 10.9231 3.9231 1.0769 10.0769 22.9231 4.0769 5.9231 0.0769 15.0769 19.0769 16.0769 15.9231 8.8333 40.1667 21.8333 10.1667 31.8333 12.1667 6.4286 11.4286 17.5714 26.5714 21.4286 45.4286 40.5714 6.6250 14.6250 13.6250 13.3750 24.3750 15.6250 18.3750 5.6250
6
Variable=R
Residuum Moments N Mean Std Dev Skewness USS CV T:Mean=0 Num ^= 0 M(Sign) Sgn Rank W:Normal
34 0 19.51794 0.10955 12571.35 . 0 34 2 5.5 0.981576
Sum Wgts Sum Variance Kurtosis CSS Std Mean Pr>|T| Num > 0 Pr>=|M| Pr>=|S| Pr<W
34 0 380.9499 0.04996 12571.35 3.347299 1.0000 19 0.6076 0.9267 0.8612
Quantiles(Def=5) 100% Max 75% Q3 50% Med 25% Q1 0% Min
45.42857 14.625 2.576923 13.375 40.5714
Range Q3Q1 Mode
86 28 5.92308
99% 95% 90% 10% 5% 1%
45.42857 31.83333 21.42857 24.375 40.1667 40.5714
Extremes Lowest 40.5714( 40.1667( 26.5714( 24.375( 22.9231(
Obs
Highest 26) 19.07692( 15) 21.42857( 23) 21.83333( 31) 31.83333( 6) 45.42857(
Obs
11) 24) 16) 18) 25)
Zweifaktorielle Varianzanalyse der WaldDatei General Linear Models Procedure Class Level Information Class
Levels
89
Values
7
KALK
2
M O
BEREG
3
A B C
Number of observations in data set = 54
Zweifaktorielle Varianzanalyse der WaldDatei
8
General Linear Models Procedure Dependent Variable: PH
pH
Source
DF
Sum of Squares
Mean Square
F Value
Pr > F
Model
5
116.46393
23.29279
234.48
0.0001
Error
48
4.76820
0.09934
Corrected Total
53
121.23213
RSquare
C.V.
Root MSE
PH Mean
0.960669
5.570712
0.3152
5.6578
Source
DF
Type I SS
Mean Square
F Value
Pr > F
KALK BEREG KALK*BEREG
1 2 2
114.81459 0.86583 0.78351
114.81459 0.43292 0.39176
1155.80 4.36 3.94
0.0001 0.0182 0.0260
Source
DF
Type III SS
Mean Square
F Value
Pr > F
KALK BEREG KALK*BEREG
1 2 2
114.81459 0.86583 0.78351
114.81459 0.43292 0.39176
1155.80 4.36 3.94
0.0001 0.0182 0.0260
Zweifaktorielle Varianzanalyse der WaldDatei General Linear Models Procedure Scheffe's test for variable: PH NOTE: This test controls the type I experimentwise error rate but generally has a higher type II error rate than Tukey's for all pairwise comparisons. Alpha= 0.05
Confidence= 0.95
91
df= 48
MSE= 0.099337
9
Critical Value of F= 4.04265 Minimum Significant Difference= 0.1725 Comparisons significant at the 0.05 level are indicated by '***'. Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit
KALK Comparison M
O
2.74382
2.91630
3.08877
***
O
M
3.08877
2.91630
2.74382
***
Zweifaktorielle Varianzanalyse der WaldDatei General Linear Models Procedure
10
Scheffe's test for variable: PH NOTE: This test controls the type I experimentwise error rate but generally has a higher type II error rate than Tukey's for all pairwise comparisons. Alpha= 0.05
Confidence= 0.95 df= 48 MSE= 0.099337 Critical Value of F= 3.19073 Minimum Significant Difference= 0.2654
Comparisons significant at the 0.05 level are indicated by '***'.
BEREG Comparison
Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit
C C
B A
0.0821 0.0429
0.1833 0.3083
0.4487 0.5737
B B
C A
0.4487 0.1404
0.1833 0.1250
0.0821 0.3904
A A
C B
0.5737 0.3904
0.3083 0.1250
0.0429 0.1404
***
***
Zweifaktorielle Varianzanalyse der WaldDatei
11
General Linear Models Procedure Duncan's Multiple Range Test for variable: PH NOTE: This test controls the type I comparisonwise error rate, not the experimentwise error rate Alpha= 0.05
df= 48
MSE= 0.099337
Number of Means 2 Critical Range .1725 Means with the same letter are not significantly different.
93
Duncan Grouping
Mean
N
KALK
A
7.11593
27
M
B
4.19963
27
O
Zweifaktorielle Varianzanalyse der WaldDatei
12
General Linear Models Procedure Duncan's Multiple Range Test for variable: PH NOTE: This test controls the type I comparisonwise error rate, not the experimentwise error rate Alpha= 0.05
df= 48
MSE= 0.099337
Number of Means 2 3 Critical Range .2112 .2222 Means with the same letter are not significantly different. Duncan Grouping
Mean
N
BEREG
A A A
B B B
5.8217
18
C
5.6383
18
B
5.5133
18
A
Die WaldDatei mit Residuen
13
OBS
Kalkung
Beregnung
pH
Residuum
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
M M M M M M M M M O O O O O O
A A A A A A A A A A A A A A A
7.17 7.17 6.89 6.49 6.89 7.05 7.32 5.84 6.40 4.31 4.59 4.13 4.25 4.15 4.28
0.36778 0.36778 0.08778 0.31222 0.08778 0.24778 0.51778 0.96222 0.40222 0.08556 0.36556 0.09444 0.02556 0.07444 0.05556
95
16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54
O A 4.20 0.02444 O A 4.66 0.43556 O A 3.45 0.77444 M B 7.16 0.03778 M B 7.19 0.00778 M B 7.45 0.25222 M B 7.49 0.29222 M B 7.39 0.19222 M B 6.93 0.26778 M B 7.08 0.11778 M B 6.96 0.23778 M B 7.13 0.06778 O B 3.80 0.27889 O B 4.27 0.19111 O B 4.19 0.11111 O B 4.31 0.23111 O B 3.95 0.12889 O B 4.24 0.16111 O B 3.82 0.25889 O B 4.07 0.00889 O B 4.06 0.01889 M C 7.84 0.49222 M C 7.25 0.09778 M C 7.18 0.16778 M C 7.31 0.03778 M C 7.65 0.30222 M C 7.46 0.11222 M C 7.43 0.08222 M C 6.96 0.38778 M C 7.05 0.29778 O C 4.42 0.12444 O C 4.25 0.04556 O C 4.32 0.02444 O C 4.19 0.10556 O C 4.17 0.12556 O C 4.46 0.16444 O C 4.22 0.07556 O C 4.90 0.60444 O C 3.73 0.56556 Test der Normalverteilungsannahme der WaldDatei Univariate Procedure
Variable=S
Residuum Moments N Mean Std Dev Skewness USS CV T:Mean=0 Num ^= 0 M(Sign) Sgn Rank W:Normal
54 0 0.299943 0.70199 4.7682 . 0 54 1 34.5 0.965194
Sum Wgts Sum Variance Kurtosis CSS Std Mean Pr>|T| Num > 0 Pr>=|M| Pr>=|S| Pr<W
54 0 0.089966 1.500363 4.7682 0.040817 1.0000 26 0.8919 0.7695 0.2231
14
Quantiles(Def=5) 100% Max 75% Q3 50% Med 25% Q1 0% Min
0.604444 0.191111 0.00833 0.12556 0.96222
Range Q3Q1 Mode
1.566667 0.316667 0.087778
99% 95% 90% 10% 5% 1%
0.604444 0.492222 0.367778 0.31222 0.56556 0.96222
Extremes Lowest 0.96222( 0.77444( 0.56556( 0.40222( 0.38778(
Obs
Highest 8) 0.367778( 18) 0.435556( 54) 0.492222( 9) 0.517778( 44) 0.604444(
Obs
2) 17) 37) 7) 53)
Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der UmweltDatei General Linear Models Procedure Class Level Information Class
Levels
Values
DATUM
2
APR94 JUL93
NAME
23
ANSBACH ASCHAFFENBURG AUGSBURG BAYREUTH BURGHAUSEN ERLANGEN FUERTH HOF INGOLSTADT KELHEIM KEMPTEN KULMBACH LANDSHUT MUENCHEN NEUULM NUERNBERG OBERAUDORF PASSAU REGENSBURG SCHWEINFURT TROSTBERG WEIDEN WUERZBURG Number of observations in data set = 46
97
15
Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der UmweltDatei
16
General Linear Models Procedure Dependent Variable: STAUB
Staubkonzentration Sum of Mean Squares Square
Source
DF
F Value
Pr > F
Model
23
3467.9565
150.7807
7.08
0.0001
Error
22
468.4783
21.2945
Corrected Total
45
3936.4348
RSquare
C.V.
Root MSE
STAUB Mean
0.880989
12.03352
4.6146
38.348
Source
DF
Type I SS
Mean Square
F Value
Pr > F
DATUM NAME
1 22
292.5217 3175.4348
292.5217 144.3379
13.74 6.78
0.0012 0.0001
Source
DF
Type III SS
Mean Square
F Value
Pr > F
DATUM NAME
1 22
292.5217 3175.4348
292.5217 144.3379
13.74 6.78
0.0012 0.0001
Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der UmweltDatei
17
General Linear Models Procedure Scheffe's test for variable: STAUB NOTE: This test controls the type I experimentwise error rate but generally has a higher type II error rate than Tukey's for all pairwise comparisons. Alpha= 0.05
Confidence= 0.95 df= 22 MSE= 21.29447 Critical Value of F= 4.30095 Minimum Significant Difference= 2.8221
Comparisons significant at the 0.05 level are indicated by '***'.
DATUM Comparison
Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit
APR94 JUL93
2.221
5.043
7.866
***
JUL93 APR94
7.866
5.043
2.221
***
99
Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der UmweltDatei General Linear Models Procedure
18
Scheffe's test for variable: STAUB NOTE: This test controls the type I experimentwise error rate but generally has a higher type II error rate than Tukey's for all pairwise comparisons. Alpha= 0.05
Confidence= 0.95 df= 22 MSE= 21.29447 Critical Value of F= 2.04777 Minimum Significant Difference= 30.973
Comparisons significant at the 0.05 level are indicated by '***'.
NAME Comparison AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG
PASSAU REGENSBURG WEIDEN LANDSHUT BAYREUTH SCHWEINFURT HOF
Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit 16.973 13.973 10.473 7.973 7.973 7.473 6.473
14.000 17.000 20.500 23.000 23.000 23.500 24.500
44.973 47.973 51.473 53.973 53.973 54.473 55.473
AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG
WUERZBURG MUENCHEN NEUULM FUERTH NUERNBERG KELHEIM INGOLSTADT KULMBACH ANSBACH ASCHAFFENBURG BURGHAUSEN ERLANGEN KEMPTEN OBERAUDORF TROSTBERG
5.473 5.473 4.973 4.973 3.973 3.473 2.973 1.973 0.973 0.027 0.527 2.027 6.027 6.527 10.527
25.500 25.500 26.000 26.000 27.000 27.500 28.000 29.000 30.000 31.000 31.500 33.000 37.000 37.500 41.500
56.473 56.473 56.973 56.973 57.973 58.473 58.973 59.973 60.973 61.973 62.473 63.973 67.973 68.473 72.473
PASSAU PASSAU PASSAU PASSAU PASSAU PASSAU PASSAU PASSAU PASSAU PASSAU PASSAU PASSAU
AUGSBURG REGENSBURG WEIDEN LANDSHUT BAYREUTH SCHWEINFURT HOF WUERZBURG MUENCHEN NEUULM FUERTH NUERNBERG
44.973 27.973 24.473 21.973 21.973 21.473 20.473 19.473 19.473 18.973 18.973 17.973
14.000 3.000 6.500 9.000 9.000 9.500 10.500 11.500 11.500 12.000 12.000 13.000
16.973 33.973 37.473 39.973 39.973 40.473 41.473 42.473 42.473 42.973 42.973 43.973
Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der UmweltDatei
*** *** *** *** *** ***
General Linear Models Procedure
NAME Comparison
Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit
PASSAU PASSAU PASSAU PASSAU PASSAU PASSAU PASSAU PASSAU PASSAU PASSAU
KELHEIM INGOLSTADT KULMBACH ANSBACH ASCHAFFENBURG BURGHAUSEN ERLANGEN KEMPTEN OBERAUDORF TROSTBERG
17.473 16.973 15.973 14.973 13.973 13.473 11.973 7.973 7.473 3.473
13.500 14.000 15.000 16.000 17.000 17.500 19.000 23.000 23.500 27.500
44.473 44.973 45.973 46.973 47.973 48.473 49.973 53.973 54.473 58.473
REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG
AUGSBURG PASSAU WEIDEN LANDSHUT BAYREUTH SCHWEINFURT HOF WUERZBURG MUENCHEN NEUULM
47.973 33.973 27.473 24.973 24.973 24.473 23.473 22.473 22.473 21.973
17.000 3.000 3.500 6.000 6.000 6.500 7.500 8.500 8.500 9.000
13.973 27.973 34.473 36.973 36.973 37.473 38.473 39.473 39.473 39.973
101
19
REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG
FUERTH NUERNBERG KELHEIM INGOLSTADT KULMBACH ANSBACH ASCHAFFENBURG BURGHAUSEN ERLANGEN KEMPTEN OBERAUDORF TROSTBERG
21.973 20.973 20.473 19.973 18.973 17.973 16.973 16.473 14.973 10.973 10.473 6.473
9.000 10.000 10.500 11.000 12.000 13.000 14.000 14.500 16.000 20.000 20.500 24.500
39.973 40.973 41.473 41.973 42.973 43.973 44.973 45.473 46.973 50.973 51.473 55.473
WEIDEN WEIDEN WEIDEN WEIDEN WEIDEN WEIDEN WEIDEN WEIDEN WEIDEN WEIDEN WEIDEN WEIDEN WEIDEN
AUGSBURG PASSAU REGENSBURG LANDSHUT BAYREUTH SCHWEINFURT HOF WUERZBURG MUENCHEN NEUULM FUERTH NUERNBERG KELHEIM
51.473 37.473 34.473 28.473 28.473 27.973 26.973 25.973 25.973 25.473 25.473 24.473 23.973
20.500 6.500 3.500 2.500 2.500 3.000 4.000 5.000 5.000 5.500 5.500 6.500 7.000
10.473 24.473 27.473 33.473 33.473 33.973 34.973 35.973 35.973 36.473 36.473 37.473 37.973
Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der UmweltDatei General Linear Models Procedure
NAME Comparison
Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit
WEIDEN WEIDEN WEIDEN WEIDEN WEIDEN WEIDEN WEIDEN WEIDEN WEIDEN
INGOLSTADT KULMBACH ANSBACH ASCHAFFENBURG BURGHAUSEN ERLANGEN KEMPTEN OBERAUDORF TROSTBERG
23.473 22.473 21.473 20.473 19.973 18.473 14.473 13.973 9.973
7.500 8.500 9.500 10.500 11.000 12.500 16.500 17.000 21.000
38.473 39.473 40.473 41.473 41.973 43.473 47.473 47.973 51.973
LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT
AUGSBURG PASSAU REGENSBURG WEIDEN BAYREUTH SCHWEINFURT HOF WUERZBURG MUENCHEN NEUULM FUERTH NUERNBERG KELHEIM
53.973 39.973 36.973 33.473 30.973 30.473 29.473 28.473 28.473 27.973 27.973 26.973 26.473
23.000 9.000 6.000 2.500 0.000 0.500 1.500 2.500 2.500 3.000 3.000 4.000 4.500
7.973 21.973 24.973 28.473 30.973 31.473 32.473 33.473 33.473 33.973 33.973 34.973 35.473
20
LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT
INGOLSTADT KULMBACH ANSBACH ASCHAFFENBURG BURGHAUSEN ERLANGEN KEMPTEN OBERAUDORF TROSTBERG
25.973 24.973 23.973 22.973 22.473 20.973 16.973 16.473 12.473
5.000 6.000 7.000 8.000 8.500 10.000 14.000 14.500 18.500
35.973 36.973 37.973 38.973 39.473 40.973 44.973 45.473 49.473
BAYREUTH BAYREUTH BAYREUTH BAYREUTH BAYREUTH BAYREUTH BAYREUTH BAYREUTH BAYREUTH BAYREUTH BAYREUTH BAYREUTH BAYREUTH BAYREUTH
AUGSBURG PASSAU REGENSBURG WEIDEN LANDSHUT SCHWEINFURT HOF WUERZBURG MUENCHEN NEUULM FUERTH NUERNBERG KELHEIM INGOLSTADT
53.973 39.973 36.973 33.473 30.973 30.473 29.473 28.473 28.473 27.973 27.973 26.973 26.473 25.973
23.000 9.000 6.000 2.500 0.000 0.500 1.500 2.500 2.500 3.000 3.000 4.000 4.500 5.000
7.973 21.973 24.973 28.473 30.973 31.473 32.473 33.473 33.473 33.973 33.973 34.973 35.473 35.973
Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der UmweltDatei General Linear Models Procedure
NAME Comparison
Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit
BAYREUTH BAYREUTH BAYREUTH BAYREUTH BAYREUTH BAYREUTH BAYREUTH BAYREUTH
KULMBACH ANSBACH ASCHAFFENBURG BURGHAUSEN ERLANGEN KEMPTEN OBERAUDORF TROSTBERG
24.973 23.973 22.973 22.473 20.973 16.973 16.473 12.473
6.000 7.000 8.000 8.500 10.000 14.000 14.500 18.500
36.973 37.973 38.973 39.473 40.973 44.973 45.473 49.473
SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT
AUGSBURG PASSAU REGENSBURG WEIDEN LANDSHUT BAYREUTH HOF WUERZBURG MUENCHEN NEUULM FUERTH NUERNBERG KELHEIM INGOLSTADT KULMBACH ANSBACH
54.473 40.473 37.473 33.973 31.473 31.473 29.973 28.973 28.973 28.473 28.473 27.473 26.973 26.473 25.473 24.473
23.500 9.500 6.500 3.000 0.500 0.500 1.000 2.000 2.000 2.500 2.500 3.500 4.000 4.500 5.500 6.500
7.473 21.473 24.473 27.973 30.473 30.473 31.973 32.973 32.973 33.473 33.473 34.473 34.973 35.473 36.473 37.473
103
21
SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT
ASCHAFFENBURG BURGHAUSEN ERLANGEN KEMPTEN OBERAUDORF TROSTBERG
23.473 22.973 21.473 17.473 16.973 12.973
7.500 8.000 9.500 13.500 14.000 18.000
38.473 38.973 40.473 44.473 44.973 48.973
HOF HOF HOF HOF HOF HOF HOF HOF HOF HOF HOF HOF HOF HOF HOF
AUGSBURG PASSAU REGENSBURG WEIDEN LANDSHUT BAYREUTH SCHWEINFURT WUERZBURG MUENCHEN NEUULM FUERTH NUERNBERG KELHEIM INGOLSTADT KULMBACH
55.473 41.473 38.473 34.973 32.473 32.473 31.973 29.973 29.973 29.473 29.473 28.473 27.973 27.473 26.473
24.500 10.500 7.500 4.000 1.500 1.500 1.000 1.000 1.000 1.500 1.500 2.500 3.000 3.500 4.500
6.473 20.473 23.473 26.973 29.473 29.473 29.973 31.973 31.973 32.473 32.473 33.473 33.973 34.473 35.473
Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der UmweltDatei General Linear Models Procedure
NAME Comparison
Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit
HOF HOF HOF HOF HOF HOF HOF
ANSBACH ASCHAFFENBURG BURGHAUSEN ERLANGEN KEMPTEN OBERAUDORF TROSTBERG
25.473 24.473 23.973 22.473 18.473 17.973 13.973
5.500 6.500 7.000 8.500 12.500 13.000 17.000
36.473 37.473 37.973 39.473 43.473 43.973 47.973
WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG
AUGSBURG PASSAU REGENSBURG WEIDEN LANDSHUT BAYREUTH SCHWEINFURT HOF MUENCHEN NEUULM FUERTH NUERNBERG KELHEIM INGOLSTADT KULMBACH ANSBACH ASCHAFFENBURG BURGHAUSEN ERLANGEN
56.473 42.473 39.473 35.973 33.473 33.473 32.973 31.973 30.973 30.473 30.473 29.473 28.973 28.473 27.473 26.473 25.473 24.973 23.473
25.500 11.500 8.500 5.000 2.500 2.500 2.000 1.000 0.000 0.500 0.500 1.500 2.000 2.500 3.500 4.500 5.500 6.000 7.500
5.473 19.473 22.473 25.973 28.473 28.473 28.973 29.973 30.973 31.473 31.473 32.473 32.973 33.473 34.473 35.473 36.473 36.973 38.473
22
WUERZBURG WUERZBURG WUERZBURG
KEMPTEN OBERAUDORF TROSTBERG
19.473 18.973 14.973
11.500 12.000 16.000
42.473 42.973 46.973
MUENCHEN MUENCHEN MUENCHEN MUENCHEN MUENCHEN MUENCHEN MUENCHEN MUENCHEN MUENCHEN MUENCHEN MUENCHEN MUENCHEN MUENCHEN MUENCHEN MUENCHEN MUENCHEN
AUGSBURG PASSAU REGENSBURG WEIDEN LANDSHUT BAYREUTH SCHWEINFURT HOF WUERZBURG NEUULM FUERTH NUERNBERG KELHEIM INGOLSTADT KULMBACH ANSBACH
56.473 42.473 39.473 35.973 33.473 33.473 32.973 31.973 30.973 30.473 30.473 29.473 28.973 28.473 27.473 26.473
25.500 11.500 8.500 5.000 2.500 2.500 2.000 1.000 0.000 0.500 0.500 1.500 2.000 2.500 3.500 4.500
5.473 19.473 22.473 25.973 28.473 28.473 28.973 29.973 30.973 31.473 31.473 32.473 32.973 33.473 34.473 35.473
Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der UmweltDatei General Linear Models Procedure
NAME Comparison
Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit
MUENCHEN MUENCHEN MUENCHEN MUENCHEN MUENCHEN MUENCHEN
ASCHAFFENBURG BURGHAUSEN ERLANGEN KEMPTEN OBERAUDORF TROSTBERG
25.473 24.973 23.473 19.473 18.973 14.973
5.500 6.000 7.500 11.500 12.000 16.000
36.473 36.973 38.473 42.473 42.973 46.973
NEUULM NEUULM NEUULM NEUULM NEUULM NEUULM NEUULM NEUULM NEUULM NEUULM NEUULM NEUULM NEUULM NEUULM NEUULM NEUULM NEUULM NEUULM NEUULM NEUULM NEUULM NEUULM
AUGSBURG PASSAU REGENSBURG WEIDEN LANDSHUT BAYREUTH SCHWEINFURT HOF WUERZBURG MUENCHEN FUERTH NUERNBERG KELHEIM INGOLSTADT KULMBACH ANSBACH ASCHAFFENBURG BURGHAUSEN ERLANGEN KEMPTEN OBERAUDORF TROSTBERG
56.973 42.973 39.973 36.473 33.973 33.973 33.473 32.473 31.473 31.473 30.973 29.973 29.473 28.973 27.973 26.973 25.973 25.473 23.973 19.973 19.473 15.473
26.000 12.000 9.000 5.500 3.000 3.000 2.500 1.500 0.500 0.500 0.000 1.000 1.500 2.000 3.000 4.000 5.000 5.500 7.000 11.000 11.500 15.500
4.973 18.973 21.973 25.473 27.973 27.973 28.473 29.473 30.473 30.473 30.973 31.973 32.473 32.973 33.973 34.973 35.973 36.473 37.973 41.973 42.473 46.473
105
23
FUERTH FUERTH FUERTH FUERTH FUERTH FUERTH FUERTH FUERTH FUERTH FUERTH FUERTH FUERTH FUERTH FUERTH FUERTH FUERTH FUERTH
AUGSBURG PASSAU REGENSBURG WEIDEN LANDSHUT BAYREUTH SCHWEINFURT HOF WUERZBURG MUENCHEN NEUULM NUERNBERG KELHEIM INGOLSTADT KULMBACH ANSBACH ASCHAFFENBURG
56.973 42.973 39.973 36.473 33.973 33.973 33.473 32.473 31.473 31.473 30.973 29.973 29.473 28.973 27.973 26.973 25.973
26.000 12.000 9.000 5.500 3.000 3.000 2.500 1.500 0.500 0.500 0.000 1.000 1.500 2.000 3.000 4.000 5.000
4.973 18.973 21.973 25.473 27.973 27.973 28.473 29.473 30.473 30.473 30.973 31.973 32.473 32.973 33.973 34.973 35.973
Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der UmweltDatei General Linear Models Procedure
NAME Comparison
Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit
FUERTH FUERTH FUERTH FUERTH FUERTH
BURGHAUSEN ERLANGEN KEMPTEN OBERAUDORF TROSTBERG
25.473 23.973 19.973 19.473 15.473
5.500 7.000 11.000 11.500 15.500
36.473 37.973 41.973 42.473 46.473
NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG
AUGSBURG PASSAU REGENSBURG WEIDEN LANDSHUT BAYREUTH SCHWEINFURT HOF WUERZBURG MUENCHEN NEUULM FUERTH KELHEIM INGOLSTADT KULMBACH ANSBACH ASCHAFFENBURG BURGHAUSEN ERLANGEN KEMPTEN OBERAUDORF TROSTBERG
57.973 43.973 40.973 37.473 34.973 34.973 34.473 33.473 32.473 32.473 31.973 31.973 30.473 29.973 28.973 27.973 26.973 26.473 24.973 20.973 20.473 16.473
27.000 13.000 10.000 6.500 4.000 4.000 3.500 2.500 1.500 1.500 1.000 1.000 0.500 1.000 2.000 3.000 4.000 4.500 6.000 10.000 10.500 14.500
3.973 17.973 20.973 24.473 26.973 26.973 27.473 28.473 29.473 29.473 29.973 29.973 31.473 31.973 32.973 33.973 34.973 35.473 36.973 40.973 41.473 45.473
KELHEIM KELHEIM
AUGSBURG PASSAU
58.473 44.473
27.500 13.500
3.473 17.473
24
KELHEIM KELHEIM KELHEIM KELHEIM KELHEIM KELHEIM KELHEIM KELHEIM KELHEIM KELHEIM KELHEIM KELHEIM KELHEIM KELHEIM KELHEIM KELHEIM
REGENSBURG WEIDEN LANDSHUT BAYREUTH SCHWEINFURT HOF WUERZBURG MUENCHEN NEUULM FUERTH NUERNBERG INGOLSTADT KULMBACH ANSBACH ASCHAFFENBURG BURGHAUSEN
41.473 37.973 35.473 35.473 34.973 33.973 32.973 32.973 32.473 32.473 31.473 30.473 29.473 28.473 27.473 26.973
10.500 7.000 4.500 4.500 4.000 3.000 2.000 2.000 1.500 1.500 0.500 0.500 1.500 2.500 3.500 4.000
20.473 23.973 26.473 26.473 26.973 27.973 28.973 28.973 29.473 29.473 30.473 31.473 32.473 33.473 34.473 34.973
Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der UmweltDatei General Linear Models Procedure
NAME Comparison
Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit
KELHEIM KELHEIM KELHEIM KELHEIM
ERLANGEN KEMPTEN OBERAUDORF TROSTBERG
25.473 21.473 20.973 16.973
5.500 9.500 10.000 14.000
36.473 40.473 40.973 44.973
INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT
AUGSBURG PASSAU REGENSBURG WEIDEN LANDSHUT BAYREUTH SCHWEINFURT HOF WUERZBURG MUENCHEN NEUULM FUERTH NUERNBERG KELHEIM KULMBACH ANSBACH ASCHAFFENBURG BURGHAUSEN ERLANGEN KEMPTEN OBERAUDORF TROSTBERG
58.973 44.973 41.973 38.473 35.973 35.973 35.473 34.473 33.473 33.473 32.973 32.973 31.973 31.473 29.973 28.973 27.973 27.473 25.973 21.973 21.473 17.473
28.000 14.000 11.000 7.500 5.000 5.000 4.500 3.500 2.500 2.500 2.000 2.000 1.000 0.500 1.000 2.000 3.000 3.500 5.000 9.000 9.500 13.500
2.973 16.973 19.973 23.473 25.973 25.973 26.473 27.473 28.473 28.473 28.973 28.973 29.973 30.473 31.973 32.973 33.973 34.473 35.973 39.973 40.473 44.473
KULMBACH KULMBACH KULMBACH KULMBACH KULMBACH
AUGSBURG PASSAU REGENSBURG WEIDEN LANDSHUT
59.973 45.973 42.973 39.473 36.973
29.000 15.000 12.000 8.500 6.000
1.973 15.973 18.973 22.473 24.973
107
25
KULMBACH KULMBACH KULMBACH KULMBACH KULMBACH KULMBACH KULMBACH KULMBACH KULMBACH KULMBACH KULMBACH KULMBACH KULMBACH KULMBACH
BAYREUTH SCHWEINFURT HOF WUERZBURG MUENCHEN NEUULM FUERTH NUERNBERG KELHEIM INGOLSTADT ANSBACH ASCHAFFENBURG BURGHAUSEN ERLANGEN
36.973 36.473 35.473 34.473 34.473 33.973 33.973 32.973 32.473 31.973 29.973 28.973 28.473 26.973
6.000 5.500 4.500 3.500 3.500 3.000 3.000 2.000 1.500 1.000 1.000 2.000 2.500 4.000
24.973 25.473 26.473 27.473 27.473 27.973 27.973 28.973 29.473 29.973 31.973 32.973 33.473 34.973
Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der UmweltDatei
26
General Linear Models Procedure
NAME Comparison
Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit
KULMBACH KULMBACH KULMBACH
KEMPTEN OBERAUDORF TROSTBERG
22.973 22.473 18.473
8.000 8.500 12.500
38.973 39.473 43.473
ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH
AUGSBURG PASSAU REGENSBURG WEIDEN LANDSHUT BAYREUTH SCHWEINFURT HOF WUERZBURG MUENCHEN NEUULM FUERTH NUERNBERG KELHEIM INGOLSTADT KULMBACH ASCHAFFENBURG BURGHAUSEN ERLANGEN KEMPTEN OBERAUDORF TROSTBERG
60.973 46.973 43.973 40.473 37.973 37.973 37.473 36.473 35.473 35.473 34.973 34.973 33.973 33.473 32.973 31.973 29.973 29.473 27.973 23.973 23.473 19.473
30.000 16.000 13.000 9.500 7.000 7.000 6.500 5.500 4.500 4.500 4.000 4.000 3.000 2.500 2.000 1.000 1.000 1.500 3.000 7.000 7.500 11.500
0.973 14.973 17.973 21.473 23.973 23.973 24.473 25.473 26.473 26.473 26.973 26.973 27.973 28.473 28.973 29.973 31.973 32.473 33.973 37.973 38.473 42.473
61.973 47.973 44.973 41.473 38.973 38.973 38.473 37.473
31.000 17.000 14.000 10.500 8.000 8.000 7.500 6.500
0.027 13.973 16.973 20.473 22.973 22.973 23.473 24.473
ASCHAFFENBURG AUGSBURG ASCHAFFENBURG PASSAU ASCHAFFENBURG REGENSBURG ASCHAFFENBURG WEIDEN ASCHAFFENBURG LANDSHUT ASCHAFFENBURG BAYREUTH ASCHAFFENBURG SCHWEINFURT ASCHAFFENBURG HOF
***
ASCHAFFENBURG WUERZBURG ASCHAFFENBURG MUENCHEN ASCHAFFENBURG NEUULM ASCHAFFENBURG FUERTH ASCHAFFENBURG NUERNBERG ASCHAFFENBURG KELHEIM ASCHAFFENBURG INGOLSTADT ASCHAFFENBURG KULMBACH ASCHAFFENBURG ANSBACH ASCHAFFENBURG BURGHAUSEN ASCHAFFENBURG ERLANGEN ASCHAFFENBURG KEMPTEN
36.473 36.473 35.973 35.973 34.973 34.473 33.973 32.973 31.973 30.473 28.973 24.973
5.500 5.500 5.000 5.000 4.000 3.500 3.000 2.000 1.000 0.500 2.000 6.000
25.473 25.473 25.973 25.973 26.973 27.473 27.973 28.973 29.973 31.473 32.973 36.973
Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der UmweltDatei
27
General Linear Models Procedure
NAME Comparison
Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit
ASCHAFFENBURG OBERAUDORF ASCHAFFENBURG TROSTBERG
24.473 20.473
6.500 10.500
37.473 41.473
BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN
AUGSBURG PASSAU REGENSBURG WEIDEN LANDSHUT BAYREUTH SCHWEINFURT HOF WUERZBURG MUENCHEN NEUULM FUERTH NUERNBERG KELHEIM INGOLSTADT KULMBACH ANSBACH ASCHAFFENBURG ERLANGEN KEMPTEN OBERAUDORF TROSTBERG
62.473 48.473 45.473 41.973 39.473 39.473 38.973 37.973 36.973 36.973 36.473 36.473 35.473 34.973 34.473 33.473 32.473 31.473 29.473 25.473 24.973 20.973
31.500 17.500 14.500 11.000 8.500 8.500 8.000 7.000 6.000 6.000 5.500 5.500 4.500 4.000 3.500 2.500 1.500 0.500 1.500 5.500 6.000 10.000
0.527 13.473 16.473 19.973 22.473 22.473 22.973 23.973 24.973 24.973 25.473 25.473 26.473 26.973 27.473 28.473 29.473 30.473 32.473 36.473 36.973 40.973
***
ERLANGEN ERLANGEN ERLANGEN ERLANGEN ERLANGEN ERLANGEN ERLANGEN ERLANGEN ERLANGEN ERLANGEN ERLANGEN
AUGSBURG PASSAU REGENSBURG WEIDEN LANDSHUT BAYREUTH SCHWEINFURT HOF WUERZBURG MUENCHEN NEUULM
63.973 49.973 46.973 43.473 40.973 40.973 40.473 39.473 38.473 38.473 37.973
33.000 19.000 16.000 12.500 10.000 10.000 9.500 8.500 7.500 7.500 7.000
2.027 11.973 14.973 18.473 20.973 20.973 21.473 22.473 23.473 23.473 23.973
***
109
ERLANGEN ERLANGEN ERLANGEN ERLANGEN ERLANGEN ERLANGEN ERLANGEN ERLANGEN ERLANGEN ERLANGEN
FUERTH NUERNBERG KELHEIM INGOLSTADT KULMBACH ANSBACH ASCHAFFENBURG BURGHAUSEN KEMPTEN OBERAUDORF
37.973 36.973 36.473 35.973 34.973 33.973 32.973 32.473 26.973 26.473
7.000 6.000 5.500 5.000 4.000 3.000 2.000 1.500 4.000 4.500
23.973 24.973 25.473 25.973 26.973 27.973 28.973 29.473 34.973 35.473
Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der UmweltDatei
28
General Linear Models Procedure
NAME Comparison
Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit
ERLANGEN
TROSTBERG
22.473
8.500
39.473
KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN
AUGSBURG PASSAU REGENSBURG WEIDEN LANDSHUT BAYREUTH SCHWEINFURT HOF WUERZBURG MUENCHEN NEUULM FUERTH NUERNBERG KELHEIM INGOLSTADT KULMBACH ANSBACH ASCHAFFENBURG BURGHAUSEN ERLANGEN OBERAUDORF TROSTBERG
67.973 53.973 50.973 47.473 44.973 44.973 44.473 43.473 42.473 42.473 41.973 41.973 40.973 40.473 39.973 38.973 37.973 36.973 36.473 34.973 30.473 26.473
37.000 23.000 20.000 16.500 14.000 14.000 13.500 12.500 11.500 11.500 11.000 11.000 10.000 9.500 9.000 8.000 7.000 6.000 5.500 4.000 0.500 4.500
6.027 7.973 10.973 14.473 16.973 16.973 17.473 18.473 19.473 19.473 19.973 19.973 20.973 21.473 21.973 22.973 23.973 24.973 25.473 26.973 31.473 35.473
***
OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF
AUGSBURG PASSAU REGENSBURG WEIDEN LANDSHUT BAYREUTH SCHWEINFURT HOF WUERZBURG MUENCHEN NEUULM FUERTH NUERNBERG KELHEIM
68.473 54.473 51.473 47.973 45.473 45.473 44.973 43.973 42.973 42.973 42.473 42.473 41.473 40.973
37.500 23.500 20.500 17.000 14.500 14.500 14.000 13.000 12.000 12.000 11.500 11.500 10.500 10.000
6.527 7.473 10.473 13.973 16.473 16.473 16.973 17.973 18.973 18.973 19.473 19.473 20.473 20.973
***
OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF
INGOLSTADT KULMBACH ANSBACH ASCHAFFENBURG BURGHAUSEN ERLANGEN KEMPTEN TROSTBERG
40.473 39.473 38.473 37.473 36.973 35.473 31.473 26.973
9.500 8.500 7.500 6.500 6.000 4.500 0.500 4.000
21.473 22.473 23.473 24.473 24.973 26.473 30.473 34.973
Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der UmweltDatei
29
General Linear Models Procedure
NAME Comparison TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG
AUGSBURG PASSAU REGENSBURG WEIDEN LANDSHUT BAYREUTH SCHWEINFURT HOF WUERZBURG MUENCHEN NEUULM FUERTH NUERNBERG KELHEIM INGOLSTADT KULMBACH ANSBACH ASCHAFFENBURG BURGHAUSEN ERLANGEN KEMPTEN OBERAUDORF
Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit 72.473 58.473 55.473 51.973 49.473 49.473 48.973 47.973 46.973 46.973 46.473 46.473 45.473 44.973 44.473 43.473 42.473 41.473 40.973 39.473 35.473 34.973
111
41.500 27.500 24.500 21.000 18.500 18.500 18.000 17.000 16.000 16.000 15.500 15.500 14.500 14.000 13.500 12.500 11.500 10.500 10.000 8.500 4.500 4.000
10.527 3.473 6.473 9.973 12.473 12.473 12.973 13.973 14.973 14.973 15.473 15.473 16.473 16.973 17.473 18.473 19.473 20.473 20.973 22.473 26.473 26.973
***
Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der UmweltDatei
30
General Linear Models Procedure Duncan's Multiple Range Test for variable: STAUB NOTE: This test controls the type I comparisonwise error rate, not the experimentwise error rate Alpha= 0.05
df= 22
MSE= 21.29447
Number of Means 2 Critical Range 2.822 Means with the same letter are not significantly different. Duncan Grouping
Mean
N
DATUM
A
40.870
23
APR94
B
35.826
23
JUL93
Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der UmweltDatei
31
General Linear Models Procedure Duncan's Multiple Range Test for variable: STAUB NOTE: This test controls the type I comparisonwise error rate, not the experimentwise error rate Alpha= 0.05 Number of Means Critical Range
df= 22
MSE= 21.29447
2 3 4 5 6 7 8 9 9.57 10.05 10.35 10.57 10.73 10.85 10.95 11.03
Number of Means 10 11 12 13 14 15 16 17 Critical Range 11.09 11.14 11.18 11.22 11.24 11.27 11.29 11.30 Number of Means 18 19 20 21 22 23 Critical Range 11.31 11.32 11.35 11.33 11.34 11.34 Means with the same letter are not significantly different. Duncan Grouping
Mean
N
NAME
A
64.500
2
AUGSBURG
B B B B B B B B B B B B B
50.500
2
PASSAU
47.500
2
REGENSBURG
44.000
2
WEIDEN
41.500
2
LANDSHUT
41.500
2
BAYREUTH
41.000
2
SCHWEINFURT
40.000
2
HOF
39.000
2
WUERZBURG
39.000
2
MUENCHEN
38.500
2
NEUULM
38.500
2
FUERTH
37.500
2
NUERNBERG
37.000
2
KELHEIM
36.500
2
INGOLSTADT
G G G G G G
C C C C C C C C C C C C C C C C C C C C C C C C C
E E E E E E E E E E E E E E E E E E E E E E
F F F F F F F F F F
D D D D D D D D D D D D D D D D D D D D D D D D
113
G E F D 35.500 2 KULMBACH G E F D G E F D 34.500 2 ANSBACH Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der UmweltDatei General Linear Models Procedure Duncan Grouping G G G G G G G G G G
H H H H H H H H H H H
E E E E E E
F F F F F F F F
D D D D
Mean
N
NAME
33.500
2
ASCHAFFENBURG
33.000
2
BURGHAUSEN
31.500
2
ERLANGEN
27.500
2
KEMPTEN
27.000
2
OBERAUDORF
23.000
2
TROSTBERG
32
Die UmweltDatei mit Residuen OBS
Messort
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46
ANSBACH ASCHAFFENBURG AUGSBURG BAYREUTH BURGHAUSEN ERLANGEN FUERTH HOF INGOLSTADT KELHEIM KEMPTEN KULMBACH LANDSHUT MUENCHEN NEUULM NUERNBERG OBERAUDORF PASSAU REGENSBURG SCHWEINFURT TROSTBERG WEIDEN WUERZBURG ANSBACH ASCHAFFENBURG AUGSBURG BAYREUTH BURGHAUSEN ERLANGEN FUERTH HOF INGOLSTADT KELHEIM KEMPTEN KULMBACH LANDSHUT MUENCHEN NEUULM NUERNBERG OBERAUDORF PASSAU REGENSBURG SCHWEINFURT TROSTBERG WEIDEN WUERZBURG
33
Staubkonzentration
Datum
Residuum
26 35 70 38 31 29 34 33 35 36 25 31 40 39 37 37 26 52 43 32 21 39 35 43 32 59 45 35 34 43 47 38 38 30 40 43 39 40 38 28 49 52 50 25 49 43
JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94
5.97826 4.02174 8.02174 0.97826 0.52174 0.02174 1.97826 4.47826 1.02174 1.52174 0.02174 1.97826 1.02174 2.52174 1.02174 2.02174 1.52174 4.02174 1.97826 6.47826 0.52174 2.47826 1.47826 5.97826 4.02174 8.02174 0.97826 0.52174 0.02174 1.97826 4.47826 1.02174 1.52174 0.02174 1.97826 1.02174 2.52174 1.02174 2.02174 1.52174 4.02174 1.97826 6.47826 0.52174 2.47826 1.47826
Test der Normalverteilungsannahme
115
34
der UmweltDatei Univariate Procedure Variable=T
Residuum Moments N Mean Std Dev Skewness USS CV T:Mean=0 Num ^= 0 M(Sign) Sgn Rank W:Normal
46 0 3.22655 0 468.4783 . 0 46 0 2.5 0.981814
Sum Wgts Sum Variance Kurtosis CSS Std Mean Pr>|T| Num > 0 Pr>=|M| Pr>=|S| Pr<W
46 0 10.41063 0.662237 468.4783 0.475729 1.0000 23 1.0000 0.9786 0.8105
Quantiles(Def=5) 100% Max 75% Q3 50% Med 25% Q1 0% Min
8.021739 1.978261 1.07E14 1.97826 8.02174
Range Q3Q1 Mode
16.04348 3.956522 1.97826
99% 95% 90% 10% 5% 1%
8.021739 5.978261 4.021739 4.02174 5.97826 8.02174
Extremes Lowest 8.02174( 6.47826( 5.97826( 4.47826( 4.02174(
Obs
Highest 26) 4.021739( 20) 4.478261( 1) 5.978261( 8) 6.478261( 41) 8.021739(
Obs
18) 31) 24) 43) 3)
Zweifaktorielle Varianzanalyse der GeburtDatei General Linear Models Procedure
35
Class Level Information Class
Levels
Values
KRANK
2
j n
KLASSE
3
1 2 3
Number of observations in data set = 31
Zweifaktorielle Varianzanalyse der GeburtDatei General Linear Models Procedure Dependent Variable: GEWICHT
Geburtsgewicht
117
36
Source
DF
Sum of Squares
Mean Square
F Value
Pr > F
Model
5
337070.23
67414.05
1.15
0.3595
Error
25
1461813.64
58472.55
Corrected Total
30
1798883.87
RSquare
C.V.
Root MSE
GEWICHT Mean
0.187377
11.10210
241.81
2178.1
Source
DF
Type III SS
Mean Square
F Value
Pr > F
KRANK KLASSE KRANK*KLASSE
1 2 2
29054.73 258040.82 19650.44
29054.73 129020.41 9825.22
0.50 2.21 0.17
0.4874 0.1311 0.8463
Zweifaktorielle Varianzanalyse der GeburtDatei General Linear Models Procedure Least Squares Means KRANK
GEWICHT LSMEAN
Std Err LSMEAN
Pr > |T| H0:LSMEAN=0
Pr > |T| H0: LSMEAN1=LSMEAN2
37
j n
2201.66667 2121.16162
KLASSE 1 2 3
95.93754 61.96052
0.0001 0.0001
0.4874
LSMEAN Number
GEWICHT LSMEAN
Std Err LSMEAN
Pr > |T| H0:LSMEAN=0
2006.66667 2226.66667 2250.90909
85.49309 78.04416 126.28166
0.0001 0.0001 0.0001
1 2 3
Pr > |T| H0: LSMEAN(i)=LSMEAN(j) i/j 1 1 . 2 0.0690 3 0.1218
2 0.0690 . 0.8716
3 0.1218 0.8716 .
NOTE: To ensure overall protection level, only probabilities associated with preplanned comparisons should be used.
Die GeburtDatei mit Residuen
38
OBS
Gelbsucht
Klasse
Schwangerschaftsdauer
Geburtsgewicht
Residuum
1 2 3 4 5
n n n n n
1 1 1 2 2
206 246 246 260 261
1440 1850 2480 2100 2150
483.333 73.333 556.667 88.333 38.333
119
6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
n n n n n n n n n n n n n n n j j j j j j j j j j j
2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 1 1 1 1 1 1 2 2 2 2 3
262 263 266 270 272 272 273 273 273 273 274 275 277 278 291 210 224 228 235 242 242 253 254 255 263 271
1800 2400 2450 2230 2000 2300 2230 2300 2400 2500 2300 2100 2450 2100 2090 1800 1950 1900 2190 2300 2400 2050 2430 2230 2350 2250
Test der Normalverteilungsannahme der GeburtDatei
39
Univariate Procedure Variable=U
Residuum Moments N Mean
31 0
Sum Wgts Sum
388.333 211.667 261.667 41.667 251.818 48.182 21.818 48.182 148.182 248.182 48.182 151.818 198.182 151.818 161.818 290.000 140.000 190.000 100.000 210.000 310.000 215.000 165.000 35.000 85.000 0.000
31 0
Std Dev Skewness USS CV T:Mean=0 Num ^= 0 M(Sign) Sgn Rank W:Normal
220.7422 0.092713 1461814 . 0 30 0 4.5 0.99134
Variance Kurtosis CSS Std Mean Pr>|T| Num > 0 Pr>=|M| Pr>=|S| Pr<W
48727.12 0.357334 1461814 39.64647 1.0000 15 1.0000 0.9281 0.9950
Quantiles(Def=5) 100% Max 75% Q3 50% Med 25% Q1 0% Min
556.6667 165 0 151.818 483.333
Range Q3Q1 Mode
1040 316.8182 48.18182
99% 95% 90% 10% 5% 1%
556.6667 310 248.1818 251.818 388.333 483.333
Extremes Lowest 483.333( 388.333( 290( 251.818( 215(
Obs
Highest 1) 211.6667( 6) 248.1818( 21) 261.6667( 10) 310( 27) 556.6667(
121
Obs
7) 15) 8) 26) 3)