DIPLOMARBEIT
FERNUNIVERSIT€T GESAMTHOCHSCHULE IN HAGEN FACHBEREICH WIRTSCHAFTSWISSENSCHAFT
Diplomarbeit
im wirtschaftswissenschaftlichen Diplomstudiengang Bearbeitungszeit
12 Wochen als Vollzeitstudierender
im Fach
: Statistik
•ber das Thema
: ‚berblick •ber Verfahren der Varianzanalyse und deren Durchf•hrung mit Hilfe von SAS
Eingereicht bei
: PD Dr. H.-J. Mittag
von
: Daniel K•pper
Matrikel-Nr.
: 3931218
Anschrift
: Wirtzfeld 103 B-4760 B•llingen
Telefon
: 0032(0)80647623
Abgabedatum
: 01.10.1998
-2-
GLIEDERUNG
Seite
Einleitung.....................................................................................................1 1
Varianzanalyse ............................................................................................3
1.1
Einfaktorielle Varianzanalyse ...................................................................3
1.1.1
Einfaktorielle Varianzanalyse mit festen Effekten ...................................3
1.1.1.1 Modell..........................................................................................................3 1.1.1.2 Globaler Fisher-Test ...................................................................................6 1.1.1.3 Multiple Mittelwertsvergleiche................................................................10 1.1.1.4 Durchf•hrung mit SAS .............................................................................12 1.1.2
Einfaktorielle Varianzanalyse mit zufƒlligen Effekten...........................18
1.1.2.1 Modell........................................................................................................18 1.1.2.2. Globaler Fisher-Test .................................................................................19 1.1.2.3 Durchf•hrung mit SAS .............................................................................20 1.2.
Zweifaktorielle Varianzanalyse ...............................................................22
1.2.1
Zweifaktorielle Varianzanalyse mit festen Effekten...............................22
1.2.1.1 Modell........................................................................................................22 1.2.1.2 Globaler Fisher-Test .................................................................................25 1.2.1.3 Multiple Mittelwertsvergleiche................................................................27 1.2.1.4 Durchf•hrung mit SAS .............................................................................28 1.2.2
Zweifaktorielle Varianzanalyse mit zufƒlligen Effekten........................32
1.2.2.1 Modell........................................................................................................32 1.2.2.2 Globaler Fisher-Test .................................................................................33 1.2.2.3 Durchf•hrung mit SAS .............................................................................35 1.2.3
Zweifaktorielle Varianzanalyse mit gemischten Effekten .....................35
1.2.3.1 Modell........................................................................................................35 -3-
1.2.3.2 Globaler Fisher-Test .................................................................................36 1.2.3.3 Durchf•hrung mit SAS .............................................................................38 1.2.4
Zweifaktorielle Varianzanalyse mit festen Effekten und einer Beobachtung pro Zelle.............................................................38
1.2.4.1 Modell........................................................................................................38 1.2.4.2 Globaler Fisher-Test .................................................................................40 1.2.4.3 Durchf•hrung mit SAS .............................................................................41 1.2.5
Zweifaktorielle hierarchische Varianzanalyse ........................................45
1.2.5.1 Modell.............................................................................................................45 1.2.5.2 Globaler Fisher-Test ................................................................................46 1.2.5.3 Durchf•hrung mit SAS .................................................................................48 1.2.6
Randomisierte vollstƒndige Blockanlage......................................................48
1.2.6.1 Modell ............................................................................................................48 1.2.6.2 Globaler Fisher-Test ...................................................................................50 1.2.6.3 Durchf•hrung mit SAS 1.2.7
..........................................................................52
Zweifaktorielle Varianzanalyse, unbalanciert ..............................................52
1.2.7.1 Modell
.........................................................................................................52
1.2.7.2 Globaler Fisher-Test
...............................................................................55
1.2.7.3 Multiple Mittelwertsvergleiche
...............................................................58
1.2.7.4 Durchf•hrung mit SAS .............................................................................59 2
Statistische Grundlagen ............................................................................64
2.1
Grundgesamtheit und Stichprobe..................................................................64
2.2
Statistische Masszahlen .................................................................................64
2.3
Zufallsvariable................................................................................................65
2.4
Spezielle Verteilungen ...................................................................................66 -4-
2.4.1
Normalverteilung ...........................................................................................66
2.4.2
Chi-Quadrat-Verteilung.................................................................................68
2.4.3
Student-Verteilung.........................................................................................68
2.4.4
Fisher-Verteilung ...........................................................................................68
2.5
Parametertest .............................................................................................69
2.6
Test der Normalverteilungsannahme.......................................................71
2.6.1
Residualvariable........................................................................................71
2.6.2
Durchf•hrung mit SAS .............................................................................72
3
Das SAS-System .......................................................................................73
3.1
Einf•hrung.................................................................................................73
3.2
Die drei Fenster .........................................................................................73
3.3
Die SAS-Sprache ......................................................................................74
3.4
Das SAS-Programm..................................................................................74
3.4.1
Der DATA-Step .............................................................................................74
3.4.2
Der PROC-Step.........................................................................................75
4
Schlussfolgerung.......................................................................................77
5
Literaturverzeichnis ..................................................................................79 Anhang
-5-
EINLEITUNG Der Begriff der Varianzanalyse geht auf R. A. Fisher (1890-1962) zur•ck, der ihn erstmals 1918 erwƒhnte. Im deutschsprachigen Raum wurde die Varianzanalyse erst nach 1945 bekannt. Sie ist ein statistisches Verfahren zur Analyse von Messdaten, die von einem oder mehreren zwei- oder mehrfach abgestuften Faktoren abhƒngen. Dabei wird bestimmt, inwieweit die Faktoren (unabhƒngige Variablen) die Beobachtungsvariable (abhƒngige Variable) beeinflussen. In dieser Arbeit werden nur Varianzanalysen mit einer abhƒngigen Variablen behandelt. Diese werden auch univariate Varianzanalysen genannt. Varianzanalysen mit mehreren abhƒngigen Variablen nennt man multivariate Varianzanalysen. Die Varianzanalyse lƒsst sich auch als Regressionsanalyse interpretieren, in der die Regressoren nach entsprechender Kodierung nur die Werte 0 und 1 annehmen k„nnen. Die Arbeit ist in drei Kapitel eingeteilt. Im 1. Kapitel werden in 7 Unterkapiteln verschiedene Fƒlle von Varianzanalysen mit quantitativer Beobachtungsvariablen behandelt: ein- und zweifaktoriell, mit festen, zufƒlligen und gemischten Effekten, balanciert und unbalanciert, hierarchisch und randomisierte Blockanlage. Leere Zellen mit nij = 0 werden nicht behandelt. Die meisten der Unterkapitel bestehen aus den drei Abschnitten: Modell, Globaler Fisher-Test und Durchf•hrung mit SAS. Im 2. Kapitel werden kurz einige statistische Grundlagen, die im 1. Kapitel gebraucht werden, erlƒutert. Das 3. Kapitel enthƒlt Erklƒrungen zu den SASAnwendungen, mit denen die vier Beispielsdateien berechnet wurden. Diese Berechnungen sind im Anhang zu finden und werden im 1. Kapitel in den Abschnitten ‘Durchf•hrung mit SAS’ interpretiert. Es wurden Dateien f•r die vier Fƒlle der Varianzanalysen mit festen Effekten mit der SASVersion 6.12 auf einem Pentium-PC mit Windows 95 berechnet. Dabei wurde besonderen Wert auf die ‚berpr•fung der Voraussetzung der Normalverteilung der Fehlervariablen mit dem Shapiro-Wilk-Test in SAS gelegt. Mit dem Statistik Softwarepaket SAS lassen sich umfangreiche, statistische Datenanalysen innerhalb k•rzester Zeit auf dem PC durchf•hren. Die vier berechneten Dateien sind die Niere-, die Wald-, die Umwelt- und die Geburt-Datei. Sie wurden in der Literatur, aus der sie entnommen sind, nicht zur Berechnung von univariaten Varianzanalysen verwendet, sondern zu anderen Zwecken. Eine Ausnahme bildet die WaldDatei, deren Zellen aus den 9 ersten der 16 Beobachtungen der Zellen einer balancierten Datei -6-
bestehen, mit der eine zweifaktorielle Varianzanalyse in der Originalliteratur mit anderen Ergebnissen berechnet wurde. Arithmetische Mittel werden zwar •blich mit Querstrich als Kennung versehen. In der Literatur gibt es aber auch Ausnahmen, wie z.Bsp. in Ahrens, H./ Lƒuter, J. (1974) und in Toutenburg, H. (1994). Ich habe mich aus computertechnischen Gr•nden diesen Beispielen angeschlossen und die arithmetischen Mittel ohne Querstrich aber mit einem Punkt im Index geschrieben, was zur Kennung ausreichen d•rfte. Es wird •ber den Index gemittelt, der durch einen Punkt ersetzt wurde. Da mit SAS keine rechts-b•ndige Druckausgabe m„glich ist, wurden die Seiten des Anhangs links eingebunden, damit alles sichtbar bleibt.
-7-
1 VARIANZANALYSE 1.1 Einfaktorielle Varianzanalyse 1.1.1 Einfaktorielle Varianzanalyse mit festen Effekten 1.1.1.1 Modell Zur Einf•hrung des Modells gehen wir von folgendem Beispiel der Niere-Datei (Untersuchung an der Universitƒtskinderklinik Heidelberg, entnommen Graf, A. (1993), S. 219-220) aus: Zur Untersuchung der Leistungsfƒhigkeit von weiblichen Kindern und Jugendlichen mit chronischer Niereninsuffizienz wurden diese einem Leistungstest mit einem Ergometer unterzogen. Dann wurde ihre Herzfrequenz gemessen. Die Patientinnen wurden in drei Untersuchungsgruppen ugr=1,2,3 eingeteilt, je nach Krankheitsstadium und es wurde eine Kontrollgruppe ugr=0 mit gesunden Mƒdchen angef•gt. In jeder Gruppe befinden sich unterschiedlich viele Personen. Allgemein formuliert wird in einer einfaktoriellen Varianzanalyse getestet, ob eine Einflussgr„sse (Faktor) eingeteilt in unterschiedliche Stufen einen Einfluss auf eine Beobachtungsvariable yij hat (Dufner, J. (1992), S. 192; Falk, M. (1995), S. 171; Schach, S. (1978), S. 170). Die N Testeinheiten sind in k Gruppen eingeteilt zu je ni Einheiten (i=1,...,k). Die Einheiten in der i-ten Gruppe tragen den Index j=1,...,ni. Es gilt: i k
N ni i 1
In unserem Beispiel sind die Kinder die Einheiten und das Krankheitsstadium ist der Faktor A, der in k=4 Stufen von gesund bis schwerkrank eingeteilt ist. Die Herzfrequenz ist die Beobachtungsvariable yij In der einfaktoriellen Varianzanalyse geh„rt zu jeder Stufe eine Untersuchungsgruppe, daher auch der Name Einfachklassifikation. Wenn man nun die arithmetischen Mittelwerte der Herzfrequenzen in jeder Gruppe berechnet, k„nnen diese unterschiedlich hoch ausfallen. Die Frage ist, ob es eine Abhƒngigkeit zwischen Herzfrequenz und Krankheitsstadium gibt. Zur Beantwortung dieser Frage wird getestet, ob die -8-
Abhƒngigkeit der Beobachtungsvariablen (Herzfrequenz) vom Einflussfaktor (Krankheitsstadium) zufƒllig ist oder nicht. Zufƒllig bedeutet, dass die Schwankungen der Beobachtungsvariablen durch den Versuchsfehler entstehen und keine reale Abhƒngigkeit der Beobachtungsvariablen vom Einflussfaktor darstellen. Die Varianzanalyse wird bei solchen Versuchen angewandt, wo man den Versuchsfehler nicht vernachlƒssigen kann und sie gibt M„glichkeiten an die Hand zwischen zufƒlliger und realer Abhƒngigkeit zu unterscheiden. Man kann sich nun folgende zwei Fragen stellen: 1. ƒndern sich die durchschnittlichen Herzfrequenzwerte von einer Untersuchungsgruppe zur andern? 2. wenn ja, f•r welche Gruppen genau tritt eine €nderung auf, d.h. bei welchen Gruppen sind die durchschnittlichen Herzfrequenzwerte verschieden? Im ersten Fall werden die paarweisen Vergleiche zwischen den Mittelwerten zugleich (simultan) in einem einzigen (globalen ) statistischen Test getestet. Die Nullhypothese postuliert, dass alle Durchschnitte der Faktorstufen gleich sind. Sobald in einem Vergleich die Mittelwerte signifikant verschieden sind, wird die Nullhypothese abgelehnt. Man weiss dann zwar, dass zwei oder mehrere Mittelwerte sich signifikant unterscheiden, man weiss aber nicht welche. Dies kann man zweitens in einzelnen paarweisen Vergleichen in allen Kombinationsm„glichkeiten testen. Sind die Stichprobenumfƒnge der k Gruppen, auch Zellen genannt, alle gleich n1=...=nk=n liegen balancierte Daten vor; sind sie ungleich spricht man von unbalancierten Daten (Falk, M. (1995), S. 178; Searle, S. R. (1992), S. 4). Bei balancierten Daten ist die Varianzanalyse robuster gegen Verletzungen der Voraussetzungen Normalverteilung und Homoskedastie der Fehlervariablen. Man kann folgendes lineares Modell formulieren um die Abhƒngigkeit der Beobachtungsvariablen von den Stufendurchschnitten der Einflussfaktorvariablen zu beschreiben (Falk, M. (1995), S. 173; Schach, S. (1978), S. 172; Searle, S. R. (1992), S. 44): Yij i ij i ij (i=1,...,k; j=1,...,ni) mit den Voraussetzungen: Yij = unabhƒngig normalverteilte Zufallsvariable mit Erwartungswert i und unbekannter Varianz -9-
2. Die Realisierung yij ist die j-te Beobachtung in der Zelle i gebildet von Stufe i des Faktors. ij = unabhƒngig normalverteilte Zufallsvariable mit Erwartungswert 0 und gleicher unbekannter Varianz ij2 = 2 (Homoskedastie). ij ist der Versuchsfehler, der von anderen zufƒlligen, bekannten oder unbekannten Einfl•ssen auf die Beobachtungsvariable herr•hrt, die kleiner sind als der Einfluss des Faktors A. Wenn einer der bekannten Einfl•sse zu gross wird muss man ihn als zweiten Faktor B in das Modell einbeziehen und kommt so zur zweifaktoriellen Varianzanalyse. Wenn man einen Versuch mehrmals wiederholt, erhƒlt man auch unter gleichbleibenden, kontrollierten Versuchsbedingungen immer verschiedene Werte f•r die Beobachtungsvariable. Dies bedingt Unsicherheit, die mit statistischen Methoden analysiert werden muss. Die Unterschiede zwischen diesen Werten werden in einer Zelle immer vom Versuchsfehler erfasst. = reelles Allgemeinmittel i = fester, reeller Effekt des Faktors A auf Stufe i. Es kann sein, dass eine andere lineare oder eine nichtlineare Modellgleichung die Wirklichkeit besser beschreibt. Die Theorie ist dann jedoch mit einem h„heren mathematischen Aufwand verbunden. Wir definieren: 1 i k k i 1 i
i = i - daraus folgt die Parameterrestriktion: i k
i
0
i 1
Die Schƒtzung der Modellparameter ergibt (Falk, M. (1995), S. 174; Schach, S. (1978), S. 180):
y..
- 10 -
i yi . i yi . y.. ij yij yi . mit dem arithmetischen Mittel von Zelle i: 1 yi . ni
j ni
y
ij
j 1
und dem arithmetischen Gesamtmittel:
y..
1 N
i k j ni
yij i 1 j 1
1 N
i k
n y i
i.
i 1
Regel: Wenn ein Index durch einen Punkt ersetzt ist, wurde •ber diesen Index gemittelt.
1.1.1.2 Globaler Fisher-Test Als erstes soll nun gepr•ft werden, ob die Erwartungswerte i = + i sich global unterscheiden. Man vergleicht also k normalverteilte Grundgesamtheiten bez•glich ihrer Mittelwerte. Ein geeigneter statistischer Test pr•ft die Hypothese: H0: 1=...=k=0 gegen die Alternativhypothese: HA: r t (f•r ein Wertepaar r t) zu einem vorgegebenen Niveau . Daf•r kann ein F-Test verwendet werden. Wenn i = 0 f•r alle i ist, gilt im Modell: Yij = + ij
- 11 -
d.h. yij schwankt in der Gr„sse des Versuchsfehlers um den festen Wert des Allgemeinmittels . Es besteht keine nicht-zufƒllige, nicht-konstante Abhƒngigkeit vom Einflussfaktor A. Um die unter der Nullhypothese H0 zentral F-verteilte Teststatistik F aufzustellen, zerlegen wir die aus der Totalvarianz herr•hrende Totalquadratsumme SS_CTotal in die Quadratsummen SS_Model und SS_Error (Dufner, J. (1992), S. 193. Toutenburg, H. (1994), S. 13): i k j ni
SS _ CTotal ( yij y.. ) 2 i 1 j 1
i k j ni
(( yij yi . ) ( yi . y.. )) 2 i 1 j 1
i k j ni
i k j ni
( yij yi . ) 2 ( yi . y.. ) 2 i 1 j 1
i 1 j 1
i k j ni
2 ( yij yi . )( yi . y.. ) i 1 j 1
i k j ni
i k
ni ( yi . y.. ) ( yij yi . ) 2 2
i 1
i 1 j 1
= SS_Model + SS_Error (die Summe in der vierten Zeile ist identisch gleich 0) mit: i k
SS _ Model ni ( yi . y.. ) 2 i 1
und i k j ni
SS _ Error ( yij yi . ) 2 i 1 j 1
SS_Model steht f•r die Variabilitƒt, die sich aus der Abweichung der Gruppenmittel vom Gesamtmittel ergibt, wƒhrend SS_Error f•r die Abweichung der Werte vom jeweiligen Gruppenmittel steht. - 12 -
Die Freiheitsgrade DF von SS_CTotal, SS_Model und SS_Error sind N-1, k-1 und N-k. Man setzt f•r die Mittelquadratsummen MS = SS/DF also MS_Model = SS_Model/(k-1) MS_Error = SS_Error/(N-k) Man berechnet den Erwartungswert E(MS) von MS wie folgt: die Realisationen yij, yi. und y. werden ersetzt durch ihre Zufallsvariablen Yij, Yi. und Y.. ; dann ist MS eine Zufallsvariable, deren Erwartungswert E(MS) man unter Ber•cksichtigung von den aus der Modellgleichung berechneten folgenden Ausdr•cken: E(Yij) = i E(Yi.) = i 1 E (Y.. ) N
i k
n i
i
i 1
berechnet. Der Erwartungswert von MS_Model ist: 1 i k E ( MS _ Model ) ni i2 ( k 1) i 1 2
und von MS_Error ist: E ( MS _ Error ) 2 Man schƒtzt 2 mit SS_Error/(N-k) erwartungstreu. Es lƒsst sich zeigen, dass SS_Model/2 und SS_Error/2 bei Zutreffen der Nullhypothese H0 stochastisch unabhƒngig und zentral 2-verteilt sind mit Freiheitsgrad k-1 bzw. N-k. Also ist nach Definition der Fisher-Verteilung die Teststatistik (Z„fel, P. (1992), S. 14): F
SS _ Model / ( k 1) MS _ Model SS _ Error / ( N k ) MS _ Error
unter H0 zentral F-verteilt mit Freiheitsgraden k-1 und N-k. Es soll nun gezeigt werden, wie diese Form der Teststatistik mit den Erwartungswerten E(MS) vermutet werden konnte. Es gilt - 13 -
approximativ unter G•ltigkeit der Nullhypoyhese H0: E ( MS _ Model ) MS _ Model E( ) E ( MS _ Error ) MS _ Error Wir ersetzen die E(MS) durch ihre Ausdr•cke und erhalten: E ( MS _ Model ) 1 1 E ( MS _ Error ) ( k 1) 2
i k
n
2 i i
i 1
E(
MS _ Model ) E(F ) MS _ Error
Die linke Seite dieser Nƒherungsgleichung ist dann und nur dann gleich 1, wenn die Nullhypothese H0 gilt, wenn also 1=...=k=0 ist (eine Quadratsumme mit positiven Koeffizienten ist bekanntlich dann und nur dann gleich 0, wenn alle Quadrate gleich 0 sind). Daraus folgt: dann und nur dann wenn die Alternativhypothese HA gilt, ist der Quotient gr„sser als 1. Unter G•ltigkeit der Nullhypothese gilt f•r den Erwartungswert E(F) der Teststatistik nach 2.4.4: E(F )
N k 1 N k 2
E(F) ist annƒhernd gleich 1 f•r grosse N und kleine k. Damit ist die Vermutung bestƒtigt. Die Nullhypothese H0: 1=...=k=0 ist zum Niveau abgelehnt, wenn die Ungleichung (Dufner, J. (1992), S. 195): F > F1-,k-1,N-k gilt. Im Beispiel der Niere-Datei ist E(F) = 30/28 = 1,07; wegen N = 34 und k = 4. Bei = 0,05 gilt F1-,k-1,N-k = F0,95;3;30 = 3,71. Wenn F also soweit von 1,07 abweicht, dass F > 3,71 ist, dann ist die Nullhypothese widerlegt und es gibt einen realen Einfluss des Krankheitsstadiums auf die Herzfrequenz der Patientinnen. In der Varianzanalyse der Niere-Datei entnehmen wir dem SASOutput im Anhang S. 2: F = 4,35 was f•r eine reale Abhƒngigkeit zum Signifikanzniveau = 0,05 spricht.
1.1.1.3 Multiple Mittelwertsvergleiche Will man zweitens wissen, welche Stufen wirkungsvoller sind als andere, wenn der globale F- 14 -
Test der einfaktoriellen Varianzanalyse signifikant war, dann kann man statistische Verfahren zum Vergleich der Mittelwerte anwenden (Dufner, J. (1992), S. 209). Diese Verfahren k„nnen folgende unterschiedlichen Ziele haben: - man vergleicht alle m„glichen Paare von Mittelwerten; bei k Stufen von Faktor A sind es m = k(k-1)/2 Paare, - man vergleicht k-1 Mittelwerte mit einer Kontrollgruppe, das sind m = k-1 Paare. W•rde man f•r alle m (>1) Vergleiche jeweils einen t-Test zum selben Niveau * durchf•hren, dann wƒre das multiple Niveau gr„sser als *. Das multiple Niveau ist die Wahrscheinlichkeit, mit der mindestens eine der Hypothesen der m Vergleiche irrt•mlich abgelehnt wird, dies ist dann auch genau das Niveau des globalen Tests. Das Niveau * der multiplen Tests muss also kleiner sein als das Niveau des globalen Tests. Es ist folgende Abschƒtzung von gegeben:
* 1 (1 *) m Beim PLSD-Test von Fisher (PLSD ist die Abk•rzung f•r „protected least significant difference“; Toutenburg, H. (1994), S. 103) wird die Nullhypothese H0rt: r=t=0 (oder r=t) zum Niveau abgelehnt, wenn gilt:
yr . y t . t1 / 2 , N k s
1 1 nr nt
s2 ist gleich der erwartungstreuen Schƒtzung MS_Error von 2. Der Scheff‰-Test beruht auf der Teststatistik (Dufner, J. (1992), S. 213-214): FScheff€ ( yr . yt . ) 2 / s 2 (
1 1 )( k 1) nr nt
die ein Spezialfall f•r zwei Mittelwerte der Teststatistik F des globalen F-Tests ist und deshalb gilt * = . Es ist Fscheff‰ unter der Nullhypothese H0rt: r=t=0 mit den Freiheitsgraden k-1 und Nk F-verteilt. Die Nullhypothese wird zum Niveau abgelehnt, wenn gilt:
- 15 -
yr . y t . s ( k 1) F1 ,k 1, N k (
1 1 ) nr nt
Auch hier ist s2 gleich der erwartungstreuen Schƒtzung MS_Error. In beiden Tests werden bei signifikantem Faktor mit mehr als zwei Stufen die einzelnen Stufen paarweise auf signifikante Unterschiede •berpr•ft. Sollen allgemein einzelne Zellen auf signifikante Unterschiede •berpr•ft werden, verwenden wir den Duncan-Test (Z„fel, P. (1992), S. 38). Dieser ist erst bei mehrfaktoriellen Varianzanalysen sinnvoll beim Vergleich von Zellen verschiedener Faktoren. Wenn die Zellenmittelwerte yr. und yt. gepr•ft werden sollen, zƒhlt man wieviel Zellenmittelwerte der Gr„sse nach zwischen yr. und yt. liegen. Mit dieser Anzahl m berechnet man:
c
MS _ Error 1 1 ( ) 2 nr nt
und: d = c q(m+2,N-k) q(m+2,N-k) ist die zu den Werten , m+2 und N-k geh„rige studentisierte Variationsbreite. Die beiden Zellenmittelwerte unterscheiden sich signifikant zum Niveau , wenn gilt: y r . yt . d
1.1.1.4 Durchf•hrung mit SAS Zur Durchf•hrung mit dem SAS-System wurde ein Programm f•r die Niere-Datei als Beispiel geschrieben und zur Ausf•hrung gebracht. Das berechnete Ergebnis, der Output, wurde ausgedruckt und ist im Anhang von S. 1 bis S. 6 zu finden. Wir wollen aber vorher demonstrieren, wie die Rohdaten des Beispiels als SAS-Systemdatei gespeichert werden (Gogolok, J. (1992), S. 113). Das Programm dazu lautet: LIBNAME neu ‘d:\daniel’; - 16 -
DATA XY1; INPUT ugr hfs @@; CARDS; .............................. ; RUN; DATA neu.niere; SET XY1; RUN; Im ersten DATA-Step (das ist der Programmteil von DATA bis RUN) wird eine temporƒre Datei mit dem Namen ‘XY1’ durch Einlesen der Daten (anstelle der Punkte) mit der Tastatur •ber CARDS eingegeben. In der INPUT-Anweisung werden die Variablen ugr und hfs definiert. Im zweiten DATA-Step wird die Datei ‘XY1’ in die permanente Datei ‘niere’ •bertragen, die dauerhaft in der SAS-Bibliothek mit Namen ‘neu’ abgespeichert ist. Durch die Anweisung LIBNAME befindet sich der Ordner mit dem SAS-Namen ‘neu’ und dem DOS-Namen ‘daniel’ auf der Festplatte am Speicherplatz ‘d:\daniel’ Wenn wir nun die Datei ‘niere’ ben„tigen, brauchen wir nur mit der Anweisung SET neu.niere auf die SAS-Bibliothek ‘neu’ zuzugreifen. So weit diese Vorbereitung zur ‚bertragung der Rohdaten in eine permanente SAS-Datei. Wir nehmen im Folgenden an, dass diese Vorbereitungen f•r die anderen Dateien schon gemacht sind und gehen nicht nochmal darauf ein. Das Programm f•r die einfaktorielle Varianzanalyse mit festem Effekt der Niere-Datei ist in 5 Teilen eingeteilt worden, die wir jetzt zusammen mit dem dazugeh„rigen Output nacheinander behandeln werden. Der 1. Teil des Programms lautet: LIBNAME neu ‘d:\daniel’; DATA dk1; SET neu.niere; Hier wird die permanente SAS-Datei neu.niere aus der SAS-Bibliothek neu im Ordner daniel auf der Festplatte in eine temporƒre Datei dk1 •bertragen. Sie existiert nur f•r die Dauer der Sitzung - 17 -
und ist danach verloren. Einen Output haben wir f•r diesen Programmteil noch nicht. Der 2. Teil des Programms lautet (Dufner, J. (1992), S. 199-201): PROC GLM DATA = dk1; CLASS ugr; MODEL hfs = ugr; Die Prozedur GLM wird mit der Datei dk1 ausgef•hrt. In der CLASS-Anweisung muss die Faktorvariable ugr angegeben werden. In der MODEL-Anweisung wird zwingend die Modellgleichung als Beobachtungsvariable hfs getrennt durch das Gleichheitszeichen von der Faktorvariablen ugr angegeben (Schuemer, R. (1990), S. 11-13). Dadurch wird die einfaktorielle Varianzanalyse der Niere-Datei berechnet mit dem Output im Anhang S. 1-2. Auf S. 1 erhƒlt man nur die Information •ber die Faktorvariable ugr mit der Anzahl und den Ausprƒgungen der Stufen (Klassen, levels) und der Anzahl der Beobachtungen (Observationen) der Datei. Auf S. 2 erhƒlt man in Tabellenform (auch Anova-Tabelle genannt, Anova ist die Abk•rzung f•r analysis of variance) die Werte der Quadratsummen SS (sum of square) mit den Freiheitsgraden DF und den Mittelquadratsummen MS = SS/DF. Den Wert der Teststatistik F des globalen Fisher-Tests (Abschnitt 1.1.1.2) finden wir unter (F value) = 4,35. Die ‚berschreitungswahrscheinlichkeit P(X > F) wird (wobei X eine F-verteilte Zufallsvariable mit Freiheitsgraden k-1=3 und N-k=30 ist) durch (Pr>F)=0,0117 gegeben. Diesen Wert kann man sofort mit dem Signifikanzniveau vergleichen, um •ber die Ablehnung der Nullhypothese zu entscheiden. Die Nullhypothese wird abgelehnt, wenn gr„sser als (Pr>F) ist. Hier ist (Pr>F) = 0,0117, dann wird die Nullhypothese bei > 0,02 abgelehnt. Die Schƒtzung der Modellvarianz 2 ist MS_Error = 419,0449. Die folgenden Gr„ssen auf S.2 bedeuten: R-Square = SS_Model/SS_CTotal = Bestimmtheitsmass = 0,303209 C.V. = 100 Root MSE/HFS Mean = Variationskoeffizient = 12,358 % Root MSE = (MS_Error)1/2 = 20,471 HFS Mean = y. = Gesamtmittel von HFS = 165,65
- 18 -
Das Bestimmtheitsmass gibt mit einem Wert nahe bei 1 an, ob das lineare Modell gut an das Problem angepasst ist. Hier haben wir mit 0,3 einen sehr schlechten Wert. Das Problem wird durch das lineare Modell nicht gut beschrieben, ein nicht-lineares Modell o.ƒ. wƒre vielleicht besser geeignet. Der Rest auf S. 2 ist nur eine zweimalige Wiederholung der Model-Zeile der Anova-Tabelle und ist nur bei mehrfaktoriellen Varianzanalysen brauchbar. Der 3. Teil des Programms lautet: OUTPUT OUT = res_r RESIDUAL = r; MEANS ugr / SCHEFFE CLDIFF alpha = 0.05; MEANS ugr / DUNCAN alpha = 0.05; TITLE ‘Einfaktorielle Varianzanalyse der Niere-Datei’; Mit der Option RESIDUAL wird mit der Prozedur GLM das Residuum r (Abschnitt 2.6.1) berechnet und mit OUTPUT OUT in der temporƒren Datei res_r eingegeben (Dufner, J. (1992), S. 203; Schuemer, R. (1990), S. 23). Die Datei res_r hat denselben Inhalt wie die Niere-Datei zuz•glich den Residuen, siehe Ausdruck Anhang S. 5. In den beiden folgenden MEANS-Anweisungen werden multiple Mittelwertsvergleiche der Stufenmittelwerte mit dem Scheff‰- und dem Duncan-Test zum Signifikanzniveau alpha = 0,05 durchgef•hrt (Dufner, J. (1992), S. 216-218; Schuemer, R. (1990), S. 21-22). In der MEANSAnweisung m•ssen die Klassifizierungsvariable ugr und die Optionen SCHEFFE, DUNCAN und alpha = wert stehen. In MEANS ist f•r alpha der Wert 0,05 voreingestellt, d.h. er brƒuchte eigentlich nicht angegeben zu werden. In DUNCAN sind nur die Werte 0,1; 0,05 und 0,01 verf•gbar. Die CLDIFF-Option im Scheff‰-Test bewirkt, dass die Konfidenzgrenzen zu den Mittelwertsdifferenzen ausgegeben werden. Die signifikanten Fƒlle sind durch 3 Sternchen gekennzeichnet; es sind die Fƒlle wo die Null nicht zum Konfidenzintervall geh„rt. Bei der LINES-Option, wie beim Duncan-Test in S. 4 des Anhangs, sind die Mittelwerte in absteigender Reihenfolge ausgedruckt, wobei Gruppen von untereinander nicht signifikant verschiedenen Mittelwerten durch Linien (senkrechte Buchstabenkolonnen) gekennzeichnet sind. LINES entspricht der Voreinstellung bei DUNCAN und ist deshalb nicht im Programm angegeben worden. - 19 -
Beim Scheff‰-Test sehen wir im Ausdruck Anhang S. 3, dass nur der Vergleich zwischen dem 1. und 2. Stufenmittelwert vom Faktor Untersuchungsgruppe beim Niveau 0,05 signifikant ist. Beim Duncan-Test sehen wir im Ausdruck Anhang S. 4, dass die 1. und 2. bzw. 1. und 4. Stufenmittelwerte signifikant verschieden sind. Mit der TITLE-Anweisung wird der Ausdruck mit einem Titel versehen. Der Programmteil 4 lautet: LABEL ugr = ‘Untersuchungsgruppe’ hfs = ‘Herzfrequenz’ r = ‘Residuum’; PROC PRINT DATA = res_r LABEL; TITLE ‘Die Niere-Datei mit Residuen’; Mit der Prozedur PRINT wird hier die Datei res_r ausgedruckt. Vorher werden die Variablennamen ugr, hfs und r mit der LABEL-Anweisung im Ausdruck durch ihre ausgeschriebenen Bezeichnungen ersetzt (Gogolok, J. (1992), S. 373). Am Ende wird ein Titel mit der TITLE-Anweisung hinzugef•gt. Auf S. 5 im Anhang ist der Ausdruck der Datei res_r zu finden. Der 5. und letzte Teil des Programms lautet: PROC UNIVARIATE DATA = res_r NORMAL; VAR r; TITLE1 ‘Test der Normalverteilungsannahme’; TITLE2 ‘der Niere-Datei’; RUN; Hier wird die Prozedur UNIVARIATE an der Datei res_r mit der Option NORMAL ausgef•hrt. Mit dieser Option werden die Variablen der Datei daraufhin getestet, ob sie normalverteilt sind. Mit der VAR-Anweisung wird nur die Variable r ber•cksichtigt. Der Output der Prozedur UNIVARIATE befindet sich auf S. 6 des Anhangs und ist in Moments, Quantiles und Extremes eingeteilt. Unter Moments sind folgende Begriffe zu erklƒren: - 20 -
Die Anzahl N der Beobachtungen ist N = 34. Die Summe (sum) und der Mittelwert (mean) sind nach der Definition der Residuen gleich 0. Die Standardabweichung (Std Dev) ist 19,51794 und deren Quadrat, die Varianz (Variance) ist 380,9499. Die Werte der Schiefe (skewness = 0,10955) und W„lbung (kurtosis = -0,04996) von nahe 0 zeigen Normalverteilung an. Der Variationskoeffizient CV kann nicht berechnet werden, weil Mean im Nenner 0 ist. Es wird ein tTest ausgef•hrt zur Nullhypothese Mean = 0, dessen Teststatistik T gleich 0 und dessen ‚berschreitungswahrscheinlichkeit (Pr>T) gleich 1 ist. Das Signifikanzniveau kann 1 aber nicht •berschreiten, es ist also unm„glich die Nullhypothese zu wiederlegen. Der Ausdruck Num^=0 gibt die Anzahl der Beobachtungen an, die ungleich 0 sind, es sind alle 34. Num>0 gibt die Anzahl der positiven Beobachtungen an, es sind 19. W:Normal ist die Teststatistik W des Normalverteilungstests (Shapiro-Wilk-Test), sie hat den Wert W = 0,981576. F•r Werte von W nahe bei 1 gilt die Normalverteilungsannahme. Die Wahrscheinlichkeit (Pr<W) der Unterschreitung von W ist 0,8612. Wenn das Signifikanzniveau kleiner als (Pr<W) ist, dann ist die Normalverteilungsannahme gerechtfertigt. Dies ist hier f•r Signifikanzniveaus bis zu 0,8 der Fall, gew„hnlich gibt man den Wert 0,1 vor. Die weniger wichtigen statistischen Masse von Moments wollen wir nur einmal an dieser Stelle erlƒutern und spƒter nicht mehr darauf eingehen. Es gilt immer Sum Wgts = N, wenn man wie wir keinen Gebrauch von der WEIGHT-Anweisung gemacht hat. USS ist die Quadratsumme der Variablen r. Es gilt CSS = Variance*(N-1) und Std Mean = Std Dev/N1/2. Es ist M(Sign) die zentrierte Signum-Statistik zur Pr•fung der Hypothese: Median = 0 mit der ‚berschreitungswahrscheinlichkeit Pr>=M und Sgn Rank ist der Signed Rank S-Wert f•r die Hypothese: Mean = 0 mit der ‚berschreitungswahrscheinlichkeit Pr>=S. Unter Quantiles sind die wichtigsten -Quantile, mit Wahrscheinlichkeit in %, angegeben. Bei = 50 % hat man den Median, bei = 25 % bzw. = 75 % hat man das erste bzw. dritte Quartil. Darunter folgt die Spannweite (range = 86) das ist die Differenz zwischen Maximal- und Minimalwert. Der Quartilsabstand (Interquartil Range = 28) ist die Differenz zwischen dem dritten und ersten Quartil = Q3-Q1. Als letztes folgt der Modalwert (Mode = -5,92308. Unter Extremes sind die 5 niedrigsten und die 5 h„chsten Werte von r angegeben mit ihren Beobachtungsnummern. Zum Abschluss des Programms sind mit den Anweisungen TITLE1 und TITLE2 zwei Titelzeilen - 21 -
eingegeben (Gogolok, J. (1992), S. 384-386). Auf die reine Wiederholung der ErklĆ&#x2019;rung der TITLE-Anweisung wollen wir in Zukunft verzichten. Mit RUN wird das gesamte Programm abgeschlossen und kann dann mit dem Befehl SUBMIT zur Ausfâ&#x20AC;˘hrung gebracht werden.
- 22 -
1.1.2 Einfaktorielle Varianzanalyse mit zufƒlligen Effekten 1.1.2.1 Modell Manchmal sind bei einem einfaktoriellen Versuch die Stufen des Einflussfaktors A nicht bewusst und systematisch vorgegeben, sondern zufƒllig ausgewƒhlt. Sie sind als Zufallsstichprobe aus einer gedachten unendlichen Grundgesamtheit anzusehen. Dann m•ssen in dem einfaktoriellen Varianzanalysemodell die festen Effekte i durch Zufallsvariable Ti ersetzt werden (Dufner, J. (1992), S. 232-234; Searle, S. R. (1992), S. 7). Es gilt das lineare Modell: Yij = + Ti + ij (i=1,...,k; j=1,...,ni) Yij = unabhƒngig normalverteilte Zufallsvariable mit Erwartungswert und unbekannter Varianz total2. ij = unabhƒngig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz ij2 = 2 (Homoskedastie). Ti = unabhƒngig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz t2. Ti und ij sind stochastisch unabhƒngig voneinander. Das reelle, feste, unbekannte Allgemeinmittel spielt hier keine wichtige Rolle. Es gilt: 2 Var (Yij ) total Var (Ti ) Var (ij ) t2 2
cov(Yij,Yrt) = 0
f•r i r
cov(Yij,Yrt) = t2
f•r i = r und j t
Es ist nicht immer einfach zu entscheiden, ob in einem Problem die Effekte fest oder zufƒllig sein sollen. In Varianzanalysen aus der Tierzucht treten meistens zufƒllige Effekte auf. Wenn z.B. aus einer H•hnerzuchtpopulation k Hennen zufƒllig ausgewƒhlt werden und von jeder Henne als Zielvariable die Gewichte von n Eiern (balancierte Daten) bestimmt werden, dann setzt sich die totale Varianz total2 der Eigewichte zusammen aus der genetischen Varianz t2 zwischen den Hennen und der Varianz 2 der zufƒlligen Schwankungen der Eigewichte. - 23 -
1.1.2.2 Globaler Fisher-Test Wenn die Genetik zwischen den Hennen keinen Einfluss auf die Eigewichte hat, gilt die Nullhypothese: H0: t2 = 0 im anderen Falle gilt die Alternativhypothese: HA: t2 > 0 Die Zerlegung der Quadratsumme SS_CTotal im Fall fester Effekte gilt auch hier und derselbe globale F-Test kann verwendet werden. F•r die Erwartungswerte E(MS) der MS gilt abweichend: E ( MS _ Model ) 2 n0 t2 mit n0
1 1 (N k 1 N
i k
n
2 i
)
i 1
hier gilt f•r balancierte Daten: ni = n = n0, E ( MS _ Error ) 2 MS_Error also ist eine erwartungstreue Schƒtzung f•r die Varianz 2. Ferner gilt f•r die Schƒtzung von t2:
t2
MS _ Model MS _ Error n0
Aus den Erwartungswerten E(MS) lƒsst sich die Teststatistik: F
MS _ Model MS _ Error
vermuten. Die Quadratsummen SS_Model und SS_Error sind dieselben wie im Fall der einfaktoriellen Varianzanalyse mit festen Effekten und haben auch die gleichen Eigenschaften. - 24 -
Man kann beweisen, dass F unter der Nullhypothese F-verteilt ist mit den Freiheitsgraden k-1 und N-k. Die Nullhypothese H0 wird verworfen, wenn: F > F1-,k-1,N-k gilt, bei gegebenem Niveau .
1.1.2.3 Durchf•hrung mit SAS Wir geben hier nur ohne Berechnung eines Beispiels und ohne Ausdruck im Anhang an, was sich im SAS-Programm gegen•ber Abschnitt 1.1.1.4 geƒndert hat. Die Prozedur GLM wird durch die Anweisung RANDOM mit der Option TEST erweitert. Der geƒnderte Programmabschnitt lautet: PROC GLM DATA = ...; CLASS a; MODEL y = a; RANDOM a / TEST; RUN; Die einzige Faktorvariable a muss unter RANDOM angegeben werden, weil der Effekt der Einflussvariablen A zufƒllig ist (Schuemer, R. (1990), S. 23). Im Output werden u.a. die erwarteten Mittelquadrate und der globale F-Test ausgegeben.
- 25 -
1.2 Zweifaktorielle Varianzanalyse 1.2.1 Zweifaktorielle Varianzanalyse mit festen Effekten 1.2.1.1 Modell Es kann auch eine Abhƒngigkeit einer quantitativen Gr„sse von mehr als einem Einflussfaktor bestehen (Schach, S. (1978), S. 190; Z„fel, P. (1992), S. 1-4). Im Beispiel der Wald-Datei hƒnge der pH-Wert im Boden von einem Waldst•ck von den Faktoren Beregnung und Kalkung ab (entnommen aus Falk, M. (1995), S. 41). Der Faktor Beregnung komme in drei Stufen (keine zusƒtzliche, zusƒtzliche saure und zusƒtzliche normale) vor und der Faktor Kalkung in zwei Stufen (ohne und mit Kalkung). Das Waldst•ck wird in sechs Parzellen eingeteilt entsprechend den sechs Kombinationsm„glichkeiten der Stufen der beiden Faktoren. Auf Parzelle ij wird die ite Stufe von Faktor A (Beregnung) und die j-te Stufe von Faktor B (Kalkung) ausgef•hrt. Dies wird f•r jede Parzelle neunmal wiederholt. Es handelt sich also um balancierte Daten, weil die Anzahl der Versuche auf jeder Parzelle gleich ist. Es gilt i=1,...,a=3; j=1,...,b=2; k=1,...,n=9. Wenn zwei Faktoren A und B einen Einfluss auf eine quantitative Beobachtungsvariable y haben, und diese Faktoren in a bzw. b > 1 Stufen auftreten, dann m„chte man wissen, ob die Stufen jeder dieser Faktoren f•r sich global denselben Einfluss auf die Beobachtungsvariable haben und wenn nicht, welche Stufen genau unterschiedlichen Einfluss haben im (paarweisen) Vergleich zu anderen. Von weiterem Interesse in der zweifaktoriellen Varianzanalyse ist die Wechselwirkung (Z„fel, P. (1992), S. 18) zwischen den zwei Faktoren (oder gegebenenfalls mehreren Faktoren in der mehrfaktoriellen Varianzanalyse). Eine signifikante Wechselwirkung AB zwischen den Faktoren A und B w•rde bedeuten, dass die Unterschiede zwischen den verschiedenen Stufen des Faktors A vom Faktor B abhƒngen oder die Unterschiede zwischen den verschiedenen Stufen des Faktors B vom Faktor A abhƒngen; oder k•rzer gesagt, dass die Unterschiede zwischen den Stufen des einen Faktors je nach der Stufe des anderen Faktors verschieden gross sind. Man kann folgendes lineares Modell aufstellen (Dufner, J. (1992), S. 236-238; Falk, M. (1995), S. 188):
- 26 -
Yijk = ij + ijk = + i + j + ij + ijk (i=1,...,a; j=1,...,b; k=1,...,n) mit: Yijk = unabhƒngig normalverteilte Zufallsvariable mit Erwartungswert ij und unbekannter Varianz 2. Die Realisierung yijk ist die k-te Beobachtung in der Zelle ij gebildet von Stufe i des Faktors A und Stufe j des Faktors B. ijk = unabhƒngig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz ijk2 = 2 (Homoskedastie). = reelles Allgemeinmittel, i = fester, reeller Effekt von Faktor A auf Stufe i, j = fester, reeller Effekt von Faktor B auf Stufe j, ij = feste, reelle Wechselwirkung zwischen der i-ten Stufe von Faktor A und der j-ten Stufe von Faktor B. Wir definieren (Ahrens, H. (1974), S. 161):
1 i a j b ab i 1 j 1 ij
1 j b i ij b j 1 1 i a a i 1 ij
j
ij = ij - i - j - Es gelten die Parameterrestriktionen: j b
i a
i
i 1
j
0
j 1
und - 27 -
j b
i a
ij
i 1
ij 0 j 1
Die Schƒtzung der Modellparameter ergibt (Falk, M. (1995), S.189; Schach, S. (1978), S. 196):
y... ij yij. i yi .. y... j y. j . y... ij yij . yi .. y. j . y... ijk yijk yij . Dabei gilt f•r das arithmetische Mittel der i-ten Stufe von Faktor A:
yi ..
1 j b k n y bn j 1 k 1 ijk
und f•r das arithmetische Mittel der j-ten Stufe von Faktor B gilt: 1 i a k n y. j . y an i 1 k 1 ijk sowie f•r das arithmetische Mittel der Zelle ij gilt: yij.
1 k n y n k 1 ijk
F•r das arithmetische Mittel aller Beobachtungen gilt: 1 i a j b k n y... yijk N i 1 j 1 k 1
- 28 -
1.2.1.2 Globaler Fisher-Test Es soll nun wie bei der einfaktoriellen Varianzanalyse global entschieden werden, ob es feste Effekte gibt, die signifikant von 0 verschieden sind, oder ob alle nicht signifikant sind. Dazu werden die drei Nullhypothesen: H0A: 1=...=a=0 H0B: 1=...=b=0 H0AB: ij=0 f•r alle i,j gegen die alternativen Hypothesen zu einem vorgegebenen Niveau getestet. Wieder wird die bekannte Quadratsumme SS_CTotal in Teilquadratsummen zerlegt, mit deren Hilfe Teststatistiken, die einer F-Verteilung folgen, aufgestellt werden k„nnen. Damit kann man dann die drei Nullhypothesen •berpr•fen. F•r die Totalquadratsumme: i a j b k n
SS _ CTotal ( yijk y... ) 2 i 1 j 1 k 1
mit dem Freiheitsgrad DF = abn-1 gilt die Zerlegung (Dufner, J. (1992), S. 238-240): SS_CTotal = SS_A + SS_B + SS_AB + SS_Error Ohne Berechnung geben wir die folgenden Ergebnisse an (Falk, M. (1995), S. 192; Schach, S. (1978), S. 201): i a
SS _ A bn ( yi .. y... ) 2 i 1
mit Freiheitsgrad DF = a-1 und Mittelquadratsumme MS_A = SS_A/DF und Erwartungswert E(MS_A): E ( MS _ A) 2
bn i a 2 a 1 i 1 i
es gilt:
- 29 -
j b
SS _ B an ( y. j . y... ) 2 j 1
mit DF = b-1 und MS_B = SS_B/DF sowie: an j b 2 E ( MS _ B) b 1 j 1 j 2
ebenso gilt: i a j b
SS _ AB n ( yij . yi .. y. j . y... ) 2 i 1 j 1
mit DF = (a-1)(b-1) und MS_AB = SS_AB/DF sowie: i a j b n E ( MS _ AB) ij2 (a 1)(b 1) i 1 j 1 2
schliesslich gilt: i a j b k n
SS _ Error ( yijk yij . ) 2 i 1 j 1 k 1
mit DF = ab(n-1) und MS_Error = SS_Error/DF sowie: E ( MS _ Error ) 2 MS_Error ist wieder ein erwartungstreuer Schƒtzer f•r die Varianz 2 des Versuchsfehlers ijk. Bei G•ltigkeit der drei Nullhypothesen sind die Quadratsummen SS/2 mit SS_A, SS_B, SS_AB und SS_Error als SS wieder stochastisch unabhƒngig und Chi-Quadrat-verteilt mit den entsprechenden Freiheitsgraden a-1, b-1, (a-1)(b-1) und ab(n-1). Wenn man die Erwartungswerte E(MS) und die Nullhypothesen betrachtet, kann man leicht folgende Teststatistiken F1, F2 und F3 vermuten (Dufner, J. (1992), S. 240; Falk, M. (1995), S. 193): F1
MS _ A MS _ Error
- 30 -
F2
MS _ B MS _ Error
F3
MS _ AB MS _ Error
Diese sind nach der Definition der F-Verteilung unter den Nullhypothesen F-verteilt. Diese aus einer Vermutung aufgestellte Behauptung kann bewiesen werden. Die Bedingungen zum Verwerfen der Nullhypothesen sind: H0 A F1 F1 ,a 1,ab( n 1) H0 B F2 F1 ,b 1,ab( n 1) H0 AB F3 F1 ,( a 1)(b 1),ab( n 1) f•r vorgegebenes Niveau . Wenn die Wechselwirkungen ij signifikant von 0 verschieden sind, heisst das Modell saturiertes Modell; ohne Wechselwirkung heisst es Unabhƒngigkeitsmodell. Wenn allein die Effekte eines Faktors signifikant sind, kann man den anderen Faktor, dessen Effekte nicht signifikant sind, herausnehmen und das Modell wird besser in einer einfaktoriellen Varianzanalyse berechnet.
1.2.1.3 Multiple Mittelwertsvergleiche Wenn der globale F-Test eines Faktors signifikant war, findet man mit den multiplen Mittelwertsvergleichen heraus, welche Stufenmittelwerte zu einem vorgegebenen Signifikanzniveau signifikant verschieden sind. Ein Vergleich von zwei Stufenmittelwerten yr.. und yt.. des Faktors A wird mit der Nullhypothese: H0rt :r t 0 durchgef•hrt. Die Testgr„sse des jeweiligen Tests ist:
- 31 -
K
y r .. y t .. s
wobei s die Schƒtzung (MS_Error)1/2 der Standardabweichung ist. Die Nullhypothese wird abgelehnt, wenn: K > KT ist, mit:
KT t1 / 2,ab( n 1)
2 bn
f•r den PLSD-Test (mit der Student-Verteilung) und mit:
KT F1 ,a 1,ab( n 1)
2(a 1) bn
f•r den Scheff‰-Test (mit der F-Verteilung) und mit: KT q (m 2, ab(n 1))
1 n
f•r den Duncan-Test. Der Fall des multiplen Vergleichs der Stufenmittelwerte des Faktors B verlƒuft analog.
1.2.1.4 Durchf•hrung mit SAS F•r die balancierte, zweifaktorielle Varianzanalyse mit festen Effekten wurde die Wald-Datei durchgerechnet (Anhang S. 13). Das Programm wurde in 5 Teile eingeteilt. Der 1. Teil lautet: LIBNAME neu ‘d:\daniel’; DATA dk2; SET neu.wald; Die permanente Datei neu.wald aus der SAS-Bibliothek neu wird in die temporƒre Datei dk2 •berf•hrt. Einen Output haben wir hier noch nicht. - 32 -
Der 2. Teil lautet: PROC GLM DATA = dk2; CLASS kalk bereg; MODEL ph = kalk bereg kalk*bereg; Die Prozedur GLM berechnet die zweifaktorielle Varianzanalyse der Datei dk2. In der CLASSAnweisung m•ssen die beiden Faktorvariablen kalk f•r Kalkung und bereg f•r Beregnung angegeben werden. Die Modellgleichung unter MODEL enthƒlt auch den Wechselwirkungsterm kalk*bereg, mit dem der feste Effekt in die Berechnungen einbezogen wird (Schuemer, R. (1990), S. 11-13). Den Output findet man im Anhang S. 7-8. Auf S. 7 erhƒlt man die Informationen •ber die Anzahl und Ausprƒgungen der Stufen (levels) der beiden Faktorvariablen kalk und bereg und •ber die Anzahl Beobachtungen in der Wald-Datei. Auf S. 8 erhƒlt man zuerst die Anova-Tabelle der Zerlegung von SS_CTotal in SS_Model und SS_Error wie bei der einfaktoriellen Varianzanalyse und danach wird in einer zweiten AnovaTabelle die Zerlegung der Quadratsumme SS_Model in SS_A, SS_B und SS_AB ausgegeben (Dufner, J. (1992), S. 243). Als Nƒchstes wird diese Tabelle in dem Ausdruck nochmals als Type III wiederholt, nur im Fall unbalancierter Daten steht hier eine gesonderte Berechnung. In allen Anova-Tabellen sind die Freiheitsgrade DF, die Quadratsummen SS, die Mittelquadratsummen MS, die F-Statistiken (F value) und die ‚berschreitungswahrscheinlichkeiten (Pr>F) f•r jeden Effekt angegeben. F•r =0,05 sind alle (Pr>F) kleiner als , sodass alle drei Effekte signifikant von 0 verschieden sind. Die Nullhypothesen werden abgelehnt. Alle zwei Faktoren haben einen nicht-zufƒlligen Einfluss auf den pH-Wert. Ebenso gibt es eine nicht-zufƒllige Wechselwirkung zwischen den beiden Faktoren. Bei =0,02 ist die Wechselwirkung zu vernachlƒssigen und bei =0,01 ist nur kalk signifikant, d.h. in dem Fall hat nur die Kalkung eine deutliche Wirkung auf den pH-Wert im Wald. Die Schƒtzung der Modellvarianz 2 ist MS_Error = 0,09934. F•r das Bestimmtheitsmass RSquare = 0,960669 wurde ein Wert nahe bei 1 berechnet. Dies zeigt eine gute Anpassung des linearen Modells an das Problem an. Der Variationskoeffizient ist CV = 5,570712 %. Es gilt f•r die Schƒtzung der Standardabweichung : Root MSE = 0,3152. Das gesamte arithmetische Mittel der pH-Werte ist ph Mean = 5,6578. Aus der Chemie wissen wir, dass dies einen sauren Boden - 33 -
anzeigt. Der Neutralwert ist bekanntlich pH = 7. Der 3. Teil des Programms lautet (Schuemer, R. (1990), S. 21-23): OUTPUT OUT = res_s RESIDUAL = s; MEANS kalk bereg / SCHEFFE CLDIFF alpha = 0.05; MEANS kalk bereg / DUNCAN alpha = 0.05; TITLE ‘Zweifaktorielle Varianzanalyse der Wald-Datei’; Mit der Option RESIDUAL wird in der Prozedur GLM das Residuum s berechnet und mit OUTPUT OUT an die Wald-Datei angef•gt. Die Ausgabedatei ist temporƒr und hat den Namen res_s und wird spƒter als Output des 4. Programmteils ausgedruckt werden. Die beiden folgenden MEANS-Anweisungen dienen der Ausf•hrung von multiplen Vergleichen der Mittelwerte der Stufen der beiden Einflussfaktoren, deren Variablen kalk und bereg angegeben werden m•ssen. Mit der Option SCHEFFE CLDIFF alpha = 0,05 wird ein Scheff‰Test zum Signifikanzniveau = 0,05 ausgef•hrt, bei dem mit CLDIFF die Konfidenzgrenzen zu den Mittelwertsdifferenzen ausgegeben werden. Drei Sternchen im Output Anhang S. 9-10 zeigen Signifikanz an. Demzufolge sind die beiden Stufenmittelwerte von Faktor Kalkung signifikant verschieden, sowie auch die Mittelwerte der Stufen 1 und 3 des Faktors Beregnung. Mit der Option DUNCAN alpha = 0,05 wird ein Duncan-Test zum Niveau = 0,05 ausgef•hrt. Im Ausdruck Anhang S. 11-12 sind die Mittelwerte mit gleichen Buchstabenlinien nicht signifikant verschieden. Diese Option LINES ist bei DUNCAN in SAS voreingestellt und braucht nicht angegeben zu werden. Wir sehen, dass sich die Resultate beider Tests entsprechen. Der 4. Programmteil lautet: LABEL kalk = ‘Kalkung’ bereg = ‘Beregnung’ ph = ‘pH’ s
= ‘Residuum’;
PROC PRINT DATA = res_s LABEL; TITLE ‘Die Wald-Datei mit Residuen’; Mit der LABEL-Anweisung erhalten die Variablen der temporƒren Datei res_s ausgeschriebene Bezeichnungen, diese werden mit der Prozedur PRINT ausgedruckt (Anhang S. 13). - 34 -
Der 5. und letzte Teil des Programms lautet: PROC UNIVARIATE DATA = res_s NORMAL; VAR s; TITLE1 ‘Test der Normalverteilungsannahme’; TITLE2 ‘der Wald-Datei’; RUN; Durch die Prozedur UNIVARIATE (Graf, A. (1993), S. 215-217) mit der Option NORMAL und der VAR-Anweisung wird die Variable s der Datei res_s auf Normalverteilung •berpr•ft. Der Ausdruck in Anhang S. 14 ist in Moments, Quantiles und Extremes eingeteilt. Aus Moments ersehen wir, dass die Anzahl der Residuen N = 54 ist, davon sind alle ungleich 0 und 26 sind positiv. Mittelwert und Summe der Residuen sind 0, Standardabweichung und Varianz gleich 0,3 bzw. 0,09. Die Werte der Schiefe (skewness = -0,70199) und besonders der W„lbung (kurtosis = 1,500363) verschieden von 0 zeigen eine andere Verteilung als die Normalverteilung an. Die Teststatistik des t-Tests mit der Nullhypothese ‘Mittelwert = 0’ ist identisch 0. Diese Nullhypothese ist bei jedem Signifikanzniveau unwiderlegbar, weil die ‚berschreitungswahrscheinlichkeit (Pr>T) = 1 immer gr„sser als jedes Signifikanzniveau ist. Die Teststatistik W des Normalverteilungstests von Shapiro-Wilk ist gleich 0,9651. Die Unterschreitungswahrscheinlichkeit (Pr<W) ist gleich 0,2231. Bei einem Signifikanzniveau von 0,2 ist die Normalverteilungsannahme nicht widerlegt, weil (Pr<W) > 0,2 ist. Unter Quantiles und Extremes gilt das in Abschnitt 1.1.1.4 gesagte auch hier, mit: Median = 0,00833; 1. Quartil = -0,125; 3. Quartil = 0,1911; Spannweite = 1,566; Quartilsabstand = 0,316; Modalwert = 0,087.
- 35 -
1.2.2 Zweifaktorielle Varianzanalyse mit zufƒlligen Effekten 1.2.2.1 Modell Auch bei der zweifaktoriellen Varianzanalyse k„nnen die Stufen der beiden Einflussfaktoren A und B nicht bewusst und systematisch, sondern zufƒllig ausgewƒhlt sein (Dufner, J. (1992), S. 244-246; Searle, S. R. (1992), S. 15). Dann m•ssen in dem zweifaktoriellen Varianzanalysemodell die festen Effekte i, j und ij durch Zufallsvariable Ai, Bj und Cij ersetzt werden. Es gilt das lineare Modell: Yijk = + Ai + Bj + Cij + ijk (i=1,...,a; j=1,...,b; k=1,...,n) mit: Yijk = unabhƒngig normalverteilte Zufallsvariable mit Erwartungswert und unbekannter Varianz total2. Die Realisierung yijk ist die k-te Beobachtung in der Zelle ij gebildet von Stufe i von Faktor A und Stufe j von Faktor B. ijk = unabhƒngig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz ijk2 = 2 (Homoskedastie). Ai = unabhƒngig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz a2. Bj = unabhƒngig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz b2. Cij = unabhƒngig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz c2. Alle im Modell auftretenden Zufallsvariablen ohne Yijk sind untereinander stochastisch unabhƒngig. F•r die Totalvarianz Var(Yijk) gilt (Toutenburg, H. (1994), S. 196): Var(Yijk) = total2 = a2 + b2 + c2 + 2 Die Schƒtzung der Varianzen ergibt:
a2
1 ( MS _ A MS _ AB) nb
- 36 -
b2
1 ( MS _ B MS _ AB) na 1 n
c2 ( MS _ AB MS _ Error ) 2 MS _ Error Beispiel: aus einer grossen Anzahl von Weizensorten und Feldern werden zufƒllig a Sorten Weizen und b Felder ausgewƒhlt und jede Sorte auf jedem Feld n-mal angebaut mit dem Ernteertrag als quantitative Beobachtungsvariable. Die Weizensorte ist der Einflussfaktor A und der Anbauort ist der Einflussfaktor B. Eine Wechselwirkung besteht zum Beispiel, wenn der Ernteertragsunterschied beim Anbau verschiedener Weizensorten auch vom Anbauort abhƒngt. An die Stelle der festen Effekte treten die Realisierungen der Zufallsvariablen Ai, Bj und Cij.
1.2.2.2 Globaler Fisher-Test Die zufƒlligen Effekte haben einen signifikanten Einfluss auf die Beobachtungsvariable yijk, wenn die Nullhypothesen: H0a: a2 = 0 H0b: b2 = 0 H0c: c2 = 0 abgelehnt werden (Dufner, J. (1992), S. 246). Die Zerlegung der Totalquadratsumme SS_CTotal in der zweifaktoriellen Varianzanalyse mit festen Effekten gilt auch hier mit denselben Ausdr•cken f•r die Teilquadratsummen. F•r die Erwartungswerte E(MS) der MS gilt f•r balancierte Daten (Toutenburg, H. (1994), S. 197): E ( MS _ A) 2 n c2 nb a2 E ( MS _ B) 2 n c2 na b2 - 37 -
E ( MS _ AB) 2 n c2 E ( MS _ Error ) 2 Man kann aus den Erwartungswerten E(MS) folgende Teststatistiken vermuten: F1
MS _ A MS _ AB
F2
MS _ B MS _ AB
F3
MS _ AB MS _ Error
Die Teststatistiken sind F-verteilt mit den entsprechenden Freiheitsgraden der Chi-QuadratVerteilungen: a-1 f•r SS_A, b-1 f•r SS_B, (a-1)(b-1) f•r SS_AB und ab(n-1) f•r SS_Error. Die Bedingungen zum Verwerfen der Nullhypothesen sind: H0a F1 F1 ,a 1,( a 1)(b 1) H0b F2 F1 ,b 1,( a 1)(b1) H0c F3 F1 ,( a 1)(b 1),ab (n1) bei gegebenem Niveau .
1.2.2.3 Durchf•hrung mit SAS Gegen•ber dem SAS-Programm von Abschnitt 1.2.1.4 hat sich folgendes geƒndert: die Prozedur GLM wird durch die Anweisung RANDOM mit der Option TEST ergƒnzt mit der Angabe der Faktorvariablen, deren Effekte zufƒllig sind und der Angabe des Wechselwirkungsterms. Der geƒnderte Programmteil lautet: PROC GLM DATA = ...; CLASS a b; - 38 -
MODEL y = a b a*b; RANDOM a b a*b / TEST; RUN; Alle Effekte sind zufニ値lig, deshalb m窶「ssen die Variablen a und b und die Wechselwirkung a*b unter RANDOM angegeben werden (Dufner, J. (1992), S. 246-248; Schuemer, R. (1990), S. 23). Im Output werden u.a. die erwarteten Mittelquadrate E(MS) und der globale F-Test ausgegeben.
- 39 -
1.2.3 Zweifaktorielle Varianzanalyse mit gemischten Effekten 1.2.3.1 Modell Es k„nnen nun bei der zweifaktoriellen Varianzanalyse die a Stufen des Einflussfaktors A bewusst ausgewƒhlt worden sein und die b Stufen des Einflussfaktors B zufƒllig. Die Effekte von A sind fest, die von B zufƒllig. Dies ist dann eine gemischte zweifaktorielle Varianzanalyse (Dufner, J. (1992), S. 248-249; Searle, S. R. (1992), S. 122). Man nennt A Hauptfaktor. Mit balancierten Daten gilt das lineare Modell: Yijk = + i + Bj + Cij + ijk (i=1,...,a; j=1,...,b; k=1,...,n) mit: Yijk = unabhƒngig normalverteilte Zufallsvariable mit Erwartungswert und unbekannter Varianz total2. ijk = unabhƒngig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz ijk2 = 2 (Homoskedastie), = reelles Allgemeinmittel, i = reeller, fester Effekt des Hauptfaktors A auf Stufe i, Bj = unabhƒngig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz b2, Cij = unabhƒngig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz c2. Alle Zufallsvariablen ohne Yijk sind stochastisch unabhƒngig voneinander. An die festen Effekte i stellen wir die Restriktion: i a
i
0
i 1
- 40 -
1.2.3.2 Globaler Fisher-Test Die festen Effekte i sind signifikant von 0 verschieden, wenn die Nullhypothese: H0A: 1=...=a=0 abgelehnt wird. Die zufƒlligen Effekte Bj und Cij haben einen signifikanten Einfluss auf die Beobachtungsvariable yijk, wenn die Nullhypothesen: H0b: b2 = 0 und H0c: c2 = 0 abgelehnt werden. Wenn Restriktionen an die Zufallsvariablen Cij gestellt werden, sind die Cij zwischen zwei verschiedenen Stufen i1 und i2 des Faktors A korreliert (Toutenburg, H. (1994), S. 200-203). Wir verwenden hier das Modell ohne Restriktionen an Cij mit unabhƒngigen Wechselwirkungseffekten Cij Die Quadratsummenzerlegung von SS_CTotal der zweifaktoriellen Varianzanalyse mit zufƒlligen Effekten gilt auch hier mit denselben Teilquadratsummen SS_A, SS_B, SS_AB und SS_Error und denselben Ausdr•cken f•r die Teststatistiken F1, F2 und F3. Die erwarteten mittleren Quadratsummen sind (Toutenburg, H. (1994), S. 203): nb i a 2 E ( MS _ A) n a 1 i 1 i 2
2 c
E ( MS _ B) 2 n c2 na b2 E ( MS _ AB) 2 n c2 E ( MS _ Error ) 2 MS_Error ist wieder erwartungstreuer Schƒtzer f•r die Varianz 2. Die Schƒtzung f•r die anderen Varianzen ergibt:
- 41 -
b2
1 ( MS _ B MS _ AB) na 1 n
c2 ( MS _ AB MS _ Error )
1.2.3.3 Durchf•hrung mit SAS Zu der Prozedur GLM wird die Anweisung RANDOM mit der Option TEST hinzugef•gt mit der Angabe der Faktorvariablen, deren Effekte zufƒllig sind (Dufner, J. (1992), S. 250). Der geƒnderte Programmteil lautet: PROC GLM DATA = ...; CLASS a b; MODEL y = a b a*b; RANDOM b a*b / TEST; RUN; In diesem Fall der gemischten, zweifaktoriellen Varianzanalyse mit Wechselwirkung sind die Effekte des ersten Faktors fest, die des zweiten zufƒllig. Die erste Variable a darf nicht unter RANDOM angegeben werden. Das ist der einzige Unterschied zum SAS-Programm von Abschnitt 1.2.2.3. Im Output erscheinen u.a. die erwarteten Mittelquadrate und der globale FTest.
- 42 -
1.2.4 Zweifaktorielle Varianzanalyse mit festen Effekten und einer Beobachtung pro Zelle 1.2.4.1 Modell Wir betrachten nun das balancierte, zweifaktorielle Modell f•r n = 1, also mit genau einer Beobachtung auf jeder Faktorstufenkombination, sprich Zelle (Dufner, J. (1992), S. 251; Falk, M. (1995), S.198; Schach, S. (1978), S.202). Wir k„nnen auch formal in allen Gleichungen von Abschnitt 1.2.1 den Parameter n gleich 1 setzen. Wenn wir das tun, erhalten wir als Resultat, u.a.: SS_Error = 0 Das bedeutet, dass wir die Varianz 2 nicht mehr mit der Mittelquadratsumme MS_Error erwartungstreu schƒtzen k„nnen. Wie man in Abschnitt 1.2.1.2 in der Formel f•r den Erwartungswert von MS_AB sieht, bekommt man erst wieder eine erwartungstreue Schƒtzung f•r die Varianz 2, wenn man die festen Effekte ij der Wechselwirkung annulliert. Mit ij = 0 haben wir dann f•r die Erwartungswerte der Mittelquadratsummen: E ( MS _ A) 2
b i a 2 a 1 i 1 i
a j b 2 E ( MS _ B) b 1 j 1 j 2
E ( MS _ AB) 2 Als Beispiel nehmen wir die Umwelt-Datei (siehe Ausdruck Anhang S. 33). An 23 Messstationen in Bayern wurden f•r die beiden Monate Juli 1993 und April 1994 die durchschnittlichen Werte an Schwebstaub in g pro m3 Luft gemessen (entnommen aus Falk, M. (1995), S. 102). Der Einflussfaktor A ist der Messzeitpunkt (Datum) mit 2 Stufen und der Einflussfaktor B ist der Messort mit 23 Stufen. Es ist zu pr•fen, ob diese Faktoren einen nicht-zufƒlligen Einfluss auf die Beobachtungsvariable Schwebstaubkonzentration in der Atmossphƒre haben. Pro Zelle liegt nur ein Wert vor. Das lineare Modell lautet (Ahrens, H. (1974), S. 156): - 43 -
Yij = ij + ij = + i + j + ij Yij = unabhƒngig normalverteilte Zufallsvariable mit Erwartungswert ij und unbekannter Varianz 2. Die Realisierung yij ist die einzige Beobachtung in der Zelle ij gebildet von Stufe i von Faktor A und Stufe j von Faktor B. ij = unabhƒngig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz ij2 = 2 (Homoskedastie), = reelles Allgemeinmittel, i = fester, reeller Effekt von Faktor A auf Stufe i, j = fester, reeller Effekt von Faktor B auf Stufe j, ij wurde vernachlƒssigt f•r alle i=1,...,a und j=1,...,b. 1.2.4.2 Globaler Fisher-Test Die festen Effekte i und j sind signifikant von 0 verschieden, wenn die Nullhypothesen: H0A: 1=...=a=0 und H0B: 1=...=b=0 abgelehnt werden (Falk, M. (1995), S. 200). Wenn man in der Quadratsummenzerlegung von Abschnitt 1.2.1.2 den Stichprobenumfang n gleich 1 setzt, erhƒlt man die Zerlegung: SS_CTotal = SS_A + SS_B + SS_AB weil SS_Error = 0 ist, mit: i a j b
SS _ CTotal ( yij y.. ) 2 i 1 j 1
ia
SS _ A b ( yi . y.. ) 2 i 1
- 44 -
j b
SS _ B a ( y. j y.. ) 2 j 1
i a j b
SS _ AB ( yij yi . y. j y.. ) 2 i 1 j 1
mit dem arithmetischen Mittel der i-ten Stufe von Faktor A: 1 j b yi . yij b j 1 dem arithmetischen Mittel der j-ten Stufe von Faktor B: y. j
1 i a y a i 1 ij
und dem arithmetischen Mittel aller Beobachtungen:
y..
1 i a j b y ab i 1 j 1 ij
Die Erwartungswerte E(MS) der Mittelquadratsummen MS erhƒlt man, wenn man n = 1 und ij = 0 in den E(MS) von Abschnitt 1.2.1.2 setzt. Die Freiheitsgrade DF von SS_CTotal, SS_A, SS_B und SS_AB sind: ab-1,
a-1, b-1 und (a-
1)(b-1). Man kann aus den Erwartungswerten E(MS) folgende Teststatistiken f•r den globalen FTest vermuten und beweisen (Dufner, J. (1992), S. 253): F1
MS _ A MS _ AB
F2
MS _ B MS _ AB
Statt SS_AB und MS_AB sagt man besser SS_Error und MS_Error weil die Wechselwirkungseffekte ij ja verschwunden sind. Es hat SS_AB die Rolle von SS_Error •bernommen. Im SAS-Output erscheinen SS_AB und MS_AB unter SS_Error und MS_Error (siehe folgenden Abschnitt). - 45 -
Die Bedingungen zum Ablehnen der Nullhypothesen sind: H0 A F1 F1 ,a 1,(a 1)( b 1) H0 B F2 F1 ,b 1,( a 1)(b 1) zum vorgegebenen Niveau . 1.2.4.3 Durchf•hrung mit SAS Das SAS-Programm f•r die zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle wurde wieder in 5 Teile gegliedert. Der 1. Teil lautet: LIBNAME neu ‘d:\daniel’; DATA dk3; SET neu.umwelt; Die permanente Datei neu.umwelt erzeugt die temporƒre Datei dk3 ohne Output. Der 2. Programmteil lautet (Dufner, J. (1992), S. 254; Schuemer, R. (1990), S. 11-13): PROC GLM DATA = dk3; CLASS name datum; MODEL staub = name datum; Die Prozedur GLM berechnet die zweifaktorielle Varianzanalyse der Datei dk3 ohne Wechselwirkung. In die CLASS-Anweisung sind die Variablennamen name und datum der beiden Einflussfaktoren anzugeben. Die Modellgleichung unter MODEL enthƒlt den Wechselwirkungsterm name*datum nicht, weil der feste Effekt bei dieser Varianzanalyse mit einer Beobachtung pro Zelle vernachlƒssigt wird. Den entsprechenden Output findet man im Anhang S. 15-16. Auf S. 15 erhƒlt man die Anzahl und die Ausprƒgungen der Stufen der beiden Faktoren Messort und Datum. Der Faktor Messort hat 23 Stufen und der Faktor Datum hat 2 Stufen. Die Anzahl aller Beobachtungen ist das Produkt dieser beiden Zahlen, also 46. Auf S. 16 erhalten wir die Anova-Tabellen der Zerlegung von der Totalquadratsumme SS_CTotal in SS_Model und SS_Error und der Zerlegung von SS_Model in SS_A und SS_B. Darin sind die - 46 -
Freiheitsgrade DF, die Quadratsummen SS, die Mittelquadratsummen MS, die F-Statistiken (F value) und die ‚berschreitungswahrscheinlichkeiten (Pr<F) f•r jeden Effekt angegeben. Bei = 0,01 sind alle (Pr>F) kleiner als . Alle Nullhypothesen werden abgelehnt. Beide Einflussfaktoren haben einen nicht-zufƒlligen Einfluss auf die Beobachtungsvariable Staubkonzentration. Sie hƒngt signifikant von Ort und Datum (sicherlich auch jahreszeitlich bedingt) ab. Die Schƒtzung der Modellvarianz 2 ist MS_Error = 21,2945. Das Bestimmtheitsmass R-Square = 0,880989 liegt nahe bei 1. Das Modell ist ziemlich gut an das Problem angepasst. Der Variationskoeffizient CV ist gleich 12,03352 %. Die Standardabweichung wird auf Root MSE = 4,6146 geschƒtzt. Das arithmetische Gesamtmittel der Staubkonzentration ist 38,348. Der 3. Teil des Programms lautet (Schuemer, R. (1990), S. 21-23): OUTPUT OUT = res_t RESIDUAL = t; MEANS name datum / SCHEFFE CLDIFF alpha = 0.05; MEANS name datum / DUNCAN alpha = 0.05; TITLE1 ‘Zweifaktorielle Varianzanalyse mit einer Beobachtung’; TITLE2 ‘pro Zelle der Umwelt-Datei’; Mit der Option RESIDUAL wird in der Prozedur GLM das Residuum t berechnet und mit OUTPUT OUT an die Umwelt-Datei angef•gt. Die temporƒre Ausgabedatei hat den Namen ‘res_t’ und kann spƒter ausgedruckt werden. In den beiden folgenden MEANS-Anweisungen werden multiple Mittelwertsvergleiche ausgef•hrt. Dazu m•ssen die Variablen name und datum angegeben werden. Mit der Option SCHEFFE CLDIFF alpha = 0,05 wird zum Signifikanzniveau = 0,05 der Scheff‰-Test ausgef•hrt, dabei werden durch CLDIFF die Konfidenzgrenzen zu den Mittelwertsdifferenzen ausgegeben. Im Output in Anhang S. 17-29 wird Signifikanz durch drei Sternchen angezeigt. Die einzigen zwei Stufenmittelwerte des Faktors Datum sind bei = 0,05 signifikant verschieden. Beim Faktor Messort ist es wegen der grossen Anzahl der Stufen komplizierter auszumachen, welche Mittelwerte signifikant verschieden sind. Mit der Option DUNCAN alpha = 0,05 wird ein Duncan-Test zum Niveau = 0,05 ausgef•hrt. Die Mittelwerte mit gleichen Buchstabenlinien im Ausdruck Anhang S. 30-32 sind nicht signifikant verschieden. Im •brigen gilt dasselbe wie beim Scheff‰-Test. - 47 -
Der 4. Teil des Programms ist (Gogolok, J. (1992), S. 420-432): LABEL staub = ‘Staubkonzentration’ name = ‘Messort’ datum = ‘Datum’ t
= ‘Residuum’;
PROC PRINT DATA = res_t LABEL; TITLE ‘Die Umwelt-Datei mit Residuen’; Die Datei res_t wird mit ausgeschriebenen Bezeichnungen ausgedruckt (Anhang S. 33). Der 5. und letzte Programmteil lautet (Gogolok, J. (1992), S. 525-526): PROC UNIVARIATE DATA = res_t NORMAL; VAR t; TITLE1 ‘Test der Normalverteilungsannahme’; TITLE2 ‘der Umwelt-Datei’; RUN; Die Variable t wird mit der Option NORMAL in der Prozedur UNIVARIATE auf Normalverteilung •berpr•ft (Falk, M. (1995), S. 23-24). Im Anhang S. 34 ersehen wir aus Moments, dass die Anzahl der Beobachtungen N = 46 ist, davon sind 46 ungleich 0 und 23 sind positiv. Mittelwert und Summe der Residuen sind 0. Die Standardabweichung ist 3,22655 und die Varianz ist 10,41063. Die Werte der Schiefe (skewness = 0) und weniger der W„lbung (kurtosis = 0,662237) von nahe 0 zeigen Normalverteilung der Residuen an. F•r den t-Test mit der Nullhypothese ‘Mittelwert = 0’ gilt das in den Abschnitten 1.1.1.4 und 1.2.1.4 gesagte. F•r die Teststatistik W und die Unterschreitungswahrscheinlichkeit (Pr<W) des in SAS implementierten Shapiro-Wilk-Tests gilt: W = 0,9818 und (Pr<W) = 0,8105. Es ist g•nstig, dass W nahe bei 1 liegt. Bei einem Signifikanzniveau von 0,8 wird die Normalverteilungshypothese nicht widerlegt, weil (Pr<W) > 0,8 ist. F•r das Signifikanzniveau wird gew„hnlich ein Wert von 0,1 vorgegeben (Dufner, J. (1992), S. 154). F•r Quantiles und Extremes entnimmt man die Werte dem Output (Anhang S. 34). Es gilt das in Abschnitt 1.1.1.4 gesagte.
- 48 -
1.2.5 Zweifaktorielle hierarchische Varianzanalyse 1.2.5.1 Modell Bei den zweifaktoriellen Varianzanalysen, die bisher behandelt wurden, waren alle Stufen der zwei Faktoren A und B miteinander kombiniert worden. Aus a Stufen von A und b Stufen von B entstanden a*b Kombinationsm„glichkeiten. Es gibt aber auch zweifaktorielle Modelle, in denen nicht alle Stufen der Faktoren miteinander kombiniert werden k„nnen (Dufner, J. (1992), S. 257). Beispielsweise k„nnten bei a = 4 Stufen des Faktors A jede dieser Stufen jeweils nur mit 3 Stufen des zweiten Faktors B (von insgesamt 12 Stufen) kombiniert werden. Es gibt dann nur 12 Faktorkombinationen von 48 m„glichen. Die Stufen des Faktors B werden mit zwei Indizes gezƒhlt; der erste ist i=1,...,a, der Index der a Stufen von Faktor A; der zweite ist j=1,...,bi, der Index derjenigen bi Stufen von Faktor B, die mit Stufe i von Faktor A kombiniert sind. Die Gesamtstufenanzahl S von Faktor B ist dann: ia
S bi i 1
Die Varianzanalyse dieses Modells nennt man hierarchische Varianzanalyse (Pokropp, F. (1994), S. 179). Sie kann feste, zufƒllige oder gemischte Faktoren haben. Man nennt A Oberfaktor und B Unterfaktor und schreibt B(A) f•r B, weil B hierarchisch auf A folgt. Wir gehen davon aus, dass bi = b f•r alle i ist, d.h. dass jede Stufe von A mit gleichvielen Stufen von B kombiniert ist; es gilt also S = ab. Das Modell mit zufƒlligen Effekten ist in Dufner, J. (1992), S. 257-264 behandelt. Wir behandeln hier das Modell mit festen Effekten: Yijk = ij + ijk = + i + ij + ijk (i=1,...,a; j=1,...,b; k=1,...,n) mit: Yijk = unabhƒngig normalverteilte Zufallsvariable mit Erwartungswert ij und unbekannter Varianz 2. Die Realisierung yijk ist die k-te Beobachtung in der Stufe i des Faktors A und in der Stufe ij von Faktor B. ijk = unabhƒngig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz ijk2 = 2 (Homoskedastie).
- 49 -
= reelles Allgemeinmittel, i = fester, reeller Effekt von Faktor A auf Stufe i, ij = fester, reeller Effekt von Faktor B auf Stufe ij. Das Modell ƒhnelt einem zweifaktoriellen Modell ohne Wechselwirkungen. Wechselwirkungen k„nnen in einer hierarchischen Varianzanalyse nicht sinnvoll definiert werden.
1.2.5.2 Globaler Fisher-Test Es wird wie bei der zweifaktoriellen Varianzanalyse global getestet, ob es feste Effekte gibt, die signifikant von 0 verschieden sind oder ob alle nicht signifikant sind. Dazu werden die zwei Nullhypothesen: H0A: 1=...=a=0 H0B(A): ij=0 f•r alle i,j gegen die alternativen Hypothesen zu einem vorgegebenen Signifikanzniveau getestet. Die Quadratsumme SS_CTotal: i a j b k n
SS _ CTotal ( yijk y... ) 2 i 1 j 1 k 1
mit dem Freiheitsgrad DF = abn-1 wird in Teilquadratsummen zerlegt, mit denen Teststatistiken gebildet werden k„nnen um die Nullhypothesen zu testen. Die Zerlegung von SS_CTotal lautet: SS_CTotal = SS_A + SS_B(A) + SS_Error Wir geben ohne Beweis folgende Resultate an: i a
SS _ A bn ( yi .. y... ) 2 i 1
mit Freiheitsgrad DF = a-1 und Erwartungswert E(MS_A): - 50 -
bn i a 2 E ( MS _ A) a 1 i 1 i 2
sodann gilt: i a j b
SS _ B( A) n ( yij . yi .. ) 2 i 1 j 1
mit DF = a(b-1) sowie: E ( MS _ B( A)) 2
i a j b n 2 a(b 1) i 1 j 1 ij
schliesslich gilt: i a j b k n
SS _ Error ( yijk yij . ) 2 i 1 j 1 k 1
mit DF = ab(n-1) und: E ( MS _ Error ) 2 MS_Error ist ein erwartungstreuer Schƒtzer f•r die unbekannte Varianz 2. Wenn man die Erwartungswerte E(MS) betrachtet, kann man leicht folgende Teststatistiken F1 und F2 vermuten: F1
MS _ A MS _ Error
F2
MS _ B( A) MS _ Error
Unter G•ltigkeit der Nullhypothesen H0A und H0B(A) sind F1 und F2 F-verteilt mit den Freiheitsgraden a-1 und ab(n-1) bzw. a(b-1) und ab(n-1). Die Nullhypothesen werden verworfen, wenn die Bedingungen: H0 A F1 F1 ,a 1,ab( n 1)
- 51 -
H0 B ( A) F2 F1 ,a (b1),ab( n1) erf•llt sind f•r ein vorgegebenes Signifikanzniveau .
1.2.5.3 Durchf•hrung mit SAS Gegen•ber dem SAS-Programm von Abschnitt 1.2.1.4 hat sich nur der 2. Teil geƒndert in: PROC GLM DATA = ...; CLASS a b; MODEL y = a b(a); RUN; y ist die Beobachtungsvariable, a ist die Variable des Oberfaktors A und b ist die Variable des Unterfaktors B (Schuemer, R. (1990), S. 14-15). Der Output entspricht demjenigen von Abschnitt 1.2.1.4.
- 52 -
1.2.6 Randomisierte vollstƒndige Blockanlage 1.2.6.1 Modell Einer Varianzanalyse liegt immer ein Versuch zugrunde, mit dem man die Abhƒngigkeit einer Zielvariablen von einer oder mehreren Einflussvariablen beobachtet. Um diesen Versuch auszuf•hren, braucht man N Versuchseinheiten, die in den meisten Fƒllen zufƒllig auf die Zellen, die von den Kombinationen der Stufen der Einflussfaktoren gebildet werden, aufgeteilt werden. Diesen Vorgang der zufƒlligen Aufteilung nennt man Randomisation. Man kann jedoch hƒufig die N Versuchseinheiten in sogenannte Bl„cke zerlegen. Es empfiehlt sich dann, die Versuchseinheiten getrennt f•r jeden Block zufƒllig zu verteilen. Man spricht dar•berhinaus von einer randomisierten, vollstƒndigen Blockanlage (Randomized Complete Block Design, RCBD), wenn die Anzahl der Versuchseinheiten pro Block gleich ist der Anzahl Kombinationsm„glichkeiten der Stufen der Faktoren (Dufner, J. (1992), S. 265-267; Toutenburg, H. (1994), S. 151-159). Die Bl„cke bilden einen Einflussfaktor, den sogenannten Blockfaktor. Wir behandeln hier den Fall mit einem Faktor A mit festen Effekten und dem Blockfaktor BL. Der Faktor A mit zufƒlligen Effekten ist auch m„glich. Das Versuchsmaterial kann auf nat•rliche Weise in Bl„cke zerlegt sein: - Personen verschiedener Alters- oder Einkommensklassen, - die vier Rƒder eines Autos (beim Vergleich von Reifenarten), - verschiedene W•rfe von Tieren. In unserem Beispiel soll ausfindig gemacht werden, welches von drei Futtermitteln am besten zum Mƒsten von Kaninchen geeignet ist. Dazu werden in einem Versuch die drei Futtermittel an Kaninchen verf•ttert und die Gewichtszunahme der Kaninchen als quantitative Beobachtungsvariable gemessen. Das Kaninchenfutter ist Faktor A mit drei Stufen. Die Menge der Versuchskaninchen bestehe aus vier W•rfen mit jeweils drei Kaninchen (N = 12). Ein Block ist ein Wurf mit drei Tieren. Die Randomisation besteht darin, dass die drei verschiedenen Futtermittel aus den drei Stufen des Faktors A zufƒllig auf die drei Tiere des jeweiligen Blockes verteilt werden. Dar•berhinaus handelt es sich um eine randomisierte, vollstƒndige Blockanlage, weil die Anzahl der Tiere in einem Block mit der Anzahl Stufen des Faktors Futter - 53 -
•bereinstimmt. Die Varianzanalyse kann man interpretieren als zweifaktoriell mit einer Beobachtung pro Zelle, wenn man den Blockfaktor als gleichberechtigt mit Faktor A ansieht; oder als einfaktoriell mit n = b Beobachtungen pro Zelle, wenn man die Blockunterschiede als nebensƒchlich ansieht, so dass man geradesogut alle Bl„cke zusammenfassen kann. Dies ist besonders dann der Fall, wenn die Blockdurchschnitte sich beim globalen F-Test nicht signifikant unterscheiden. Der Sinn der Bildung von Bl„cken ist eine erhoffte Senkung der Modellvarianz 2. Es gilt folgendes Modell mit festen Effekten (Dufner, J. (1992), S. 268): Yij = ij + ij = + i + j + ij (i=1,...,a; j=1,...,b) mit: Yij = unabhƒngig normalverteilte Zufallsvariable mit Erwartungswert ij und unbekannter Varianz 2. Die Realisierung yij ist die Beobachtung in der Zelle der i-ten Stufe von Faktor A und Block j, ij = unabhƒngig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz ij2 = 2 (Homoskedastie), = reelles Allgemeinmittel, i = fester, reeller Effekt von Faktor A auf Stufe i, j = fester, reeller Effekt von Blockfaktor BL auf Block j. Es gelten die Parameterrestriktionen: i a
0
i
i 1
j b
j
0
j 1
Das Modell ist analog dem zweifaktoriellen Modell mit festen Effekten und einer Beobachtung pro Zelle von Abschnitt 1.2.4. aufgebaut. Nur, dass Unterschiede der Stufen des Blockfaktors nicht so sehr im Vordergrund stehen; der Faktor A ist wichtiger, so dass das Modell, wie bereits - 54 -
ausgef•hrt, diesselben Zielsetzungen hat, wie ein einfaktorielles Modell mit festen Effekten und n = b Beobachtungen pro Zelle (Abschnitt 1.1.1.).
1.2.6.2. Globaler Fisher-Test Es wird vorrangig global getestet, ob die festen Effekte von Faktor A signifikant von 0 verschieden sind oder nicht. Die festen Effekte des Blockfaktors werden erst in zweiter Linie global getestet. Wir testen die Nullhypothesen: H0A: 1=...=a=0 H0BL: 1=...=b=0 gegen die entsprechenden Alternativhypothesen zu einem vorgegebenen Niveau . Man erhƒlt die Teilquadratsummen SS, mit denen die Teststatistiken der F-Tests gebildet werden k„nnen, durch die Zerlegung der Totalquadratsumme SS_CTotal wie folgt: SS_CTotal = SS_A + SS_B + SS_Error Wir geben die Resultate f•r SS und E(MS) ohne Beweis an. Es gilt: ia
SS _ A b ( yi . y.. ) 2 i 1
mit Freiheitsgrad DF = a-1 und dem Erwartungswert der Mittelquadratsumme: E ( MS _ A) 2
b i a 2 a 1 i 1 i
weiter gilt: j b
SS _ B a ( y. j y.. ) 2 j 1
mit DF = b-1 und dem Erwartungswert der Mittelquadratsumme:
- 55 -
E ( MS _ B) 2
a j b 2 b 1 j 1 j
schliesslich gilt: i a j b
SS _ Error ( yij yi . y. j y.. ) 2 i 1 j 1
mit DF = (a-1)(b-1) und dem Erwartungswert: E ( MS _ Error ) 2 Man kann mit den Erwartungswerten E(MS) der Mittelquadratsummen MS = SS/DF die folgenden F-verteilten Teststatistiken F1 und F2 vermuten bzw. beweisen: F1
MS _ A MS _ Error
F2
MS _ B MS _ Error
Die Bedingungen zum Ablehnen der Nullhypothesen im globalen F-Test sind dann also: H0 A F1 F1 ,a 1,(a 1)( b 1) H0 B F 2 F1 ,b 1,( a 1)(b 1) zu einem vorgegebenen Signifikanzniveau .
1.2.6.3. Durchf•hrung mit SAS Die Durchf•hrung mit SAS entspricht dem Vorgehen in Abschnitt 1.2.4.3.
- 56 -
1.2.7.Zweifaktorielle Varianzanalyse, unbalanciert 1.2.7.1 Modell Wir behandeln nun die unbalancierte, zweifaktorielle Varianzanalyse mit festen Effekten ohne Wechselwirkung (Dufner, J (1992), S. 288). Wie bei der balancierten, zweifaktoriellen Varianzanalyse mit festen Effekten haben wieder zwei Faktoren A und B, die in a bzw. b > 1 Stufen auftreten, einen Einfluss auf eine quantitative Beobachtungsvariable y. Es wird danach gefragt, ob die Stufen dieser Faktoren global denselben Einfluss auf die Beobachtungsvariable haben (globaler Fisher-Test) und wenn nicht, welche Stufen genau unterschiedlichen Einfluss haben im paarweisen Vergleich zu anderen (multipler Mittelwertsvergleich). In der unbalancierten Varianzanalyse ist die Anzahl nij der Beobachtungen in den Zellen ij unterschiedlich gross. Die Formeln zur Berechnung der Varianzanalyse werden dadurch viel komplizierter (Pokropp, F. (1994), S. 169). Wir stellen nur ein lineares Modell ohne Wechselwirkungen vor, weil die Formeln dann noch nicht so kompliziert sind. Als Beispiel (entnommen aus Ahrens, H. (1974), S. 89) nehmen wir die Messwerte von 31 Fr•hgeborenen in der Geburt-Datei (siehe Ausdruck Anhang S. 38) aus einer Untersuchung in der Universitƒtskinderklinik der Charit‰ zu Ostberlin. F•r den Faktor A sind die Daten in zwei Klassen (Stufen) eingeteilt: Erkrankung der Kinder an Gelbsucht j = ja oder n = nein. Es wurde f•r den Faktor B f•r jedes Kind die Schwangerschaftsdauer SD in Tagen bestimmt und folgende Klasseneinteilung in die Stufen 1, 2 und 3 vorgenommen: Stufe 1: SD < 250 Stufe 2: 250 SD < 171 Stufe 3: 171 SD Die Beobachtungsgr„sse yijk ist das Gewicht in Gramm der Kinder bei der Geburt. Es gibt 6 Zellen ij mit i=1,2; j=1,2,3; k=1,...,nij und n11 = 6; n12 = 4; n13 = 1; n21 = 3; n22 = 6; n23 = 11. Wir werden dieses Beispiel in Abschnitt 1.2.7.4 mit SAS berechnen und dabei die Wechselwirkung mit einbeziehen und sehen, dass sie einen so geringen Einfluss hat, dass man sie vernachlƒssigen sollte und besser ein Modell ohne Wechselwirkungen modelliert. - 57 -
Wir stellen folgendes, lineares Modell mit festen Effekten ohne Wechselwirkungen auf: Yijk = ij + ijk = + i + j + ijk (i=1,...,a; j=1,...,b; k=1,...,nij) mit: Yijk = unabhƒngig normalverteilte Zufallsvariable mit Erwartungswert ij und unbekannter Varianz 2. Die Realisierung yijk ist die k-te Beobachtung in der Zelle ij gebildet von Stufe i des Faktors A und Stufe j des Faktors B, ijk = unabhƒngig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz ijk2 = 2 (Homoskedastie), = reelles Allgemeinmittel, i = fester, reeller Effekt von Faktor A auf Stufe i, j = fester, reeller Effekt von Faktor B auf Stufe j. Wir definieren:
1 i a j b ab i 1 j 1 ij
i
1 j b b j 1 ij
j
1 i a a i 1 ij
Es gelten die Parameterrestriktionen: i a
j b
i j 0 i 1
j 1
Die Wechselwirkung wird vernachlƒssigt. Die Schƒtzung der Modellparameter ergibt:
y...
- 58 -
ij yij. i yi .. y... j y. j . y... ijk yijk yij . Dabei gilt f•r das arithmetische Mittel der i-ten Stufe von Faktor A: 1 yi .. ni .
j b k nij
y
ijk
j 1 k 1
und f•r das arithmetische Mittel der j-ten Stufe von Faktor B: 1 y. j . n. j
i a k nij
y
ijk
i 1 k 1
sowie f•r das arithmetische Mittel der Zelle ij: 1 yij. nij
k nij
y
ijk
k 1
f•r das arithmetische Mittel aller Beobachtungen gilt: k n
y...
1 i a j b ij y N i 1 j 1 k 1 ijk
mit (ausnahmsweise entgegen der Regel von Seite 6): j b
ni . nij j 1
i a
n. j nij i 1
i a j b
N n.. nij i 1 j 1
- 59 -
1.2.7.2 Globaler Fisher-Test Es soll nun entschieden werden, ob es feste Effekte gibt, die signifikant von 0 verschieden sind, oder ob alle nicht-signifikant sind. Dazu werden die zwei Nullhypothesen: H0A: 1=...=a=0 H0B: 1=...=b=0 gegen die alternativen Hypothesen zu einem vorgegebenen Signifikanzniveau getestet. Die bekannte Totalquadratsumme: i a j b k nij
SS _ CTotal ( yijk y... ) 2 i 1 j 1 k 1
wird in Teilquadratsummen zerlegt. Im unbalancierten Fall der zweifaktoriellen Varianzanalyse gibt es nach Henderson drei verschiedene Typen von Quadratsummenzerlegungen. Wir wollen uns nur auf Typ III beschrƒnken, weil man nur mit diesem Typ die obigen Nullhypothesen in dieser einfachen Form testen kann (Searle, S. R. (1992), S. 202). Es gibt in Typ III f•r jede Nullhypothese eine Quadratsummenzerlegung. F•r die Nullhypothese H0A ist es die Quadratsummenzerlegung (Searle, S. R. (1992), S. 210): SS _ CTotal R( ) R( , ) SS _ Error und f•r die Nullhypothese H0B die Quadratsummenzerlegung (Searle, S. R. (1992), S. 209): SS _ CTotal R( ) R( , ) SS _ Error Daf•r gilt die sogenannte R-Notation (Dufner, J. (1992), S. 293; Searle, S. R. (1992), S. 169170): R( ) R( , ) R( ) R( ) R( , ) R ( )
- 60 -
R( , ) R ( , , ) R( , ) R( , ) R ( , , ) R( , ) und i a j b k nij
SS _ Error ( yijk yij . ) 2 i 1 j 1 k 1
mit: R( ) Ny...2 i a
R( , ) ni . yi2.. i 1
j b
R( , ) n. j y.2j . j 1
i a
R( , , ) r T C 1r ni . yi2.. i 1
dabei ist T das Transponierungszeichen und rT=(r1,...,rb-1) ist ein Vektor mit der Dimension b-1 und den reellen Komponenten rj: ia
r j n. j y. j . nij yi .. i 1
(j=1,...,b-1) und C ist eine symmetrische Matrix mit der Ordnung b-1 und den reellen Elementen cjj’: i a
c jj n. j i 1
nij2 ni .
(das sind die Elemente der Matrixdiagonalen j = j’) i a
c jj ' i 1
nij nij ' ni . - 61 -
(das sind die •brigen Elemente der Matrix C mit j j’; j,j’=1,...,b-1). R(,) hat den Freiheitsgrad DF = a-1 und R(,) den Freiheitsgrad DF = b-1. Die Fehlerquadratsumme SS_Error hat den Freiheitsgrad DF = N-ab und ist von R(,) und R(,) stochastisch unabhƒngig. Es gilt die Schƒtzung: MS _ Error
SS _ Error N ab
f•r die Modellvarianz 2. Unter G•ltigkeit der jeweiligen Nullhypothese ist die Teststatistik:
F1
R( , ) / (a 1) MS _ Error
zentral F-verteilt mit den Freiheitsgraden a-1 und N-ab und die Teststatistik:
F2
R( , ) / (b 1) MS _ Error
ist zentral F-verteilt mit den Freiheitsgraden b-1 und N-ab. Die Bedingungen zum Verwerfen der Nullhypothesen sind: H0 A F1 F1 ,a 1, N ab H0 B F2 F1 ,b 1, N ab f•r vorgegebenes Niveau .
1.2.7.3 Multiple Mittelwertsvergleiche Wenn der globale F-Test eines Faktors signifikant war, findet man mit den multiplen Mittelwertsvergleichen heraus, welche festen Effekte genau signifikant verschieden sind. Die Hypothesen H0A und H0B von vorigem Abschnitt k„nnen wie folgt geschrieben werden: H0A: 1.=...=a. H0B: 1.=...=b. - 62 -
mit den sogenannten adjustierten Mittelwerten:
i .
1 j b i b j 1 ij
. j
1 i a j a i 1 ij
(die rechten Seiten der Gleichungen sind die Definitionsgleichungen von i und j aus Abschnitt 1.2.7.1). Diese werden mit:
i . yi .. . j y. j . geschƒtzt. Ein Vergleich von zwei festen Effekten r und t des Faktors A wird mit der Nullhypothese: H0rt : r . t . 0 durchgef•hrt. Die Teststatistik des Scheff‰-Tests ist:
K
y r .. y t .. srt
dabei ist srt die Standardabweichung der Zufallsvariablen Yr..-Yt.., ein im Fall der unbalancierten Varianzanalyse ohne Wechselwirkungen sehr komplizierter Ausdruck. Die Nullhypothese wird abgelehnt, wenn: K (a 1) F1 ,a 1, N ab zu einem vorgegebenen Niveau gilt. Analog lassen sich paarweise Vergleiche von festen Effekten r und t von Faktor B mit der Nullhypothese: H0rt : .r .t 0 - 63 -
mit dem Scheff‰-Test durchf•hren. Mit SAS wird im folgenden Abschnitt ein t-Test durchgef•hrt.
1.2.7.4 Durchf•hrung mit SAS F•r die unbalancierte, zweifaktorielle Varianzanalyse mit festen Effekten mit Wechselwirkung wurde die Geburt-Datei als Beispiel durchgerechnet (siehe Anhang S. 38). Der 1. Teil des f•nfteiligen Programms lautet: LIBNAME neu ‘d:\daniel’; DATA dk4; SET neu.geburt; Ohne Output wird die temporƒre Datei dk4 durch die permanente Datei neu.geburt aus der SASBibliothek neu im Ordner daniel generiert. Der 2. Programmteil lautet: PROC GLM DATA = dk4; CLASS krank klasse; MODEL gewicht = krank klasse krank*klasse / SS3; In der Prozedur GLM berechnen wir die unbalancierte, zweifaktorielle Varianzanalyse der Datei dk4 mit den Faktorvariablen krank und klasse, die in der CLASS-Anweisung stehen m•ssen. In der MODEL-Anweisung ist die Modellgleichung mit Wechselwirkung krank*klasse angegeben. Die Option SS3 bewirkt, dass Quadratsummen vom Typ III nach Henderson ausgedruckt werden (Dufner, J. (1992), S. 299; Schuemer, R. (1990), S. 12). Den Output finden wir auf S. 35-36 des Anhangs. Auf S. 35 erhalten wir die •blichen Informationen •ber die Stufen der Faktoren Gelbsucht und Klasse und die Beobachtungsvariable Geburtsgewicht. Auf S. 36 erhalten wir zuerst die Anova-Tabelle der Zerlegung von SS_CTotal in SS_Model und SS_Error, wie bei den balancierten Varianzanalysen. In einer zweiten AnovaTabelle erhalten wir Zerlegungen von SS_Model, die eine etwas andere Gestalt haben, als die in der Theorie in Abschnitt 1.2.7.2 beschriebenen. Das liegt daran, dass wir hier die Wechselwirkungen hinzugenommen haben. Es sind die Freiheitsgrade DF, die Quadratsummen - 64 -
SS, die mittleren Quadratsummen MS, die F-Statistiken (F value) und die ‚berschreitungswahrscheinlichkeiten (Pr>F) spaltenweise f•r jeden Effekt angegeben. F•r = 0,05 sind alle Werte von (Pr>F) gr„sser als , sodass alle 3 Effekte nicht signifikant von 0 verschieden sind. Die Nullhypothesen werden nicht abgelehnt. Die Einflussfaktoren Gelbsucht und Schwangerschaftsdauer haben nur einen zufƒlligen Einfluss auf die Beobachtungsvariable Geburtsgewicht. Bei = 0,15 ist der Effekt des Faktors Schwangerschaftsdauer signifikant von 0 verschieden, denn (Pr>F) ist gleich 0,1311. Nur dieser Faktor hat dann eine reale Wirkung auf das Geburtsgewicht. Die Wechselwirkung ist jedoch sehr gering und braucht keinesfalls ber•cksichtigt zu werden. Die Schƒtzung der Modellvarianz 2 ergibt MS_Error = 58472,55. F•r das Bestimmtheitsmass RSquare = 0,187377 haben wir einen sehr schlechten Wert, der weit von 1 entfernt ist. Ein lineares Modell beschreibt das Problem nicht gut, man m•sste ein anderes Modell verwenden. Der Variationskoeffizient ist 11,102 %. Die Schƒtzung der Standardabweichung des Modells (Root MSE) ist 241,81 g. Das gesamte arithmetische Mittel des Geburtsgewichts ist 2178,1 g. Der 3. Teil des Programms lautet: OUTPUT OUT = res_u RESIDUAL = u; LSMEANS krank klasse / STDERR PDIFF; TITLE ‘Zweifaktorielle Varianzanalyse der Geburt-Datei’; In der Prozedur GLM wird mit der Option RESIDUAL das Residuum u berechnet und mit OUTPUT OUT an die Geburt-Datei angef•gt. Die Ausgabedatei ist die temporƒre Datei res_u, die spƒter als Output des 4. Programmteils ausgedruckt werden wird. Die LSMEANS-Anweisung dient der Ausf•hrung von multiplen Mittelwertsvergleichen der adjustierten Mittelwerte der Einflussfaktorstufen. Die folgenden Erlƒuterungen beziehen sich auf jedem der beiden getrennten Outputs der Variablen krank und klasse im Anhang S. 37. In der 1. Spalte des Outputs S. 37 stehen die Stufen des Faktors der jeweiligen Variablen. Durch LSMEANS werden die adjustierten Mittelwerte ausgerechnet und in der 2. Spalte ausgedruckt (Dufner, J. (1992), S. 303307; Schuemer, R. (1990), S. 19). Die Option STDERR berechnet in der 3. Spalte die Standardabweichungen der adjustierten Mittelwerte. In Spalte 4 sind die ‚berschreitungswahrscheinlichkeiten des t-Tests der Nullhypothese H0:LSMEAN=0 angegeben. Alle Nullhypothesen werden f•r > 0,0001 abgelehnt. Durch die Option PDIFF sind in Spalte 5 - 65 -
die ‚berschreitungswahrscheinlichkeiten des t-Tests der Nullhypothese H0:LSMEAN(i)=LSMEAN(j) angegeben. F•r die Variable klasse ist daf•r eine symmetrische Matrix erforderlich. Bei = 0,05 ist kein Fall von Gleichheit der adjustierten Mittelwerte signifikant. Keine Nullhypothese wird abgelehnt. Alle ‚berschreitungswahrscheinlichkeiten sind gr„sser als = 0,05. Erst bei = 0,1 ist u1 signifikant von u2 verschieden. Der 4. Teil des Programms lautet (Graf, A. (1993), S. 200-202): LABEL krank = ‘Gelbsucht’ klasse = ‘Klasse’ tage = ‘Schwangerschaftsdauer’ gewicht = ‘Geburtsgewicht’ u
= ‘Residuum’;
PROC PRINT DATA = res_u LABEL; TITLE ‘Die Geburt-Datei mit Residuen’; In diesem Teil wird die Geburt-Datei mit Residuen ausgedruckt (siehe Anhang S. 38). Der 5. und letzte Programmteil lautet (Graf, A. (1993), S. 215-217): PROC UNIVARIATE DATA = res_u NORMAL; VAR u; TITLE1 ‘Test der Normalverteilungsannahme’; TITLE2 ‘der Geburt-Datei’; RUN; Durch die Option NORMAL und die VAR-Anweisung wird in der Prozedur UNIVARIATE die Variable u der Datei res_u mit dem Shapiro-Wilk-Test auf Normalverteilung •berpr•ft. Im Ausdruck Anhang S. 39 ersehen wir aus Moments die Anzahl der Residuen N = 31, wovon 30 ungleich 0 und 15 positiv sind. Der Mittelwert und die Summe der Residuen ist 0, die Standardabweichung und die Varianz sind gleich 220,7422 bzw. gleich 48727,12. Die Werte der Schiefe (skewness = 0,092713) und weniger der W„lbung (kurtosis = 0,357334) von nahe 0 zeigen Normalverteilung an. F•r den t-Test gilt dasselbe wie in Abschnitt 1.2.1.4 gesagte. Die Teststatistik W des Shapiro-Wilk-Tests liegt mit 0,99134 sehr nahe bei 1. Dies bedeutet, dass die Normalverteilungsannahme gerechtfertigt ist. Mit einer Unterschreitungswahrscheinlichkeit von - 66 -
0,995 ist auch bei dem sehr hohen Signifikanzniveau von 0,99 die Normalverteilungsannahme nicht widerlegt. Fâ&#x20AC;˘r Quantiles und Extremes gilt das in Abschnitt 1.2.1.4 gesagte.
- 67 -
2 STATISTISCHE GRUNDLAGEN 2.1 Grundgesamtheit und Stichprobe Eine Grundgesamtheit ist die Menge •ber deren Einheiten man Informationen erhalten will. Wenn die Grundgesamtheit zu gross ist, um alle Einheiten zu untersuchen, behandelt man nur eine Teilmenge von n Elementen, die man zufƒllig auswƒhlt, d.h. man zieht eine Stichprobe. Dann versucht man von der Stichprobe auf die Grundgesamtheit zu schliessen.
- 68 -
2.2.Statistische Masszahlen Sei xi (i=1,...,n) eine Folge von n reellen Zahlen, etwa die Stichprobe eines stetigen Merkmals. Der arithmetische Mittelwert ist definiert durch: 1 i n x xi n i 1 Der Median ist der mittlere Wert der xi, wenn diese der Gr„sse nach geordnet sind. Wenn n eine gerade Zahl ist, wird der Mittelwert der beiden mittleren Werten genommen. Der Modalwert ist der am hƒufigsten in der Stichprobe vorkommende Wert. Ein Streuungsmass ist die (empirische) Varianz: s2
1 i n ( xi x ) 2 n 1 i 1
Daraus abgeleitet wird der (dimensionslose) Variationskoeffizient CV: CV
100s x
Ein weiteres Streuungsmass ist die Spannweite, die Differenz zwischen dem gr„ssten und kleinsten Wert der Stichprobe.
- 69 -
2.3 Zufallsvariable Eine Zufallsvariable X ist eine Variable, die einen von einem zufƒlligen Ereignis abhƒngigen reellen Wert x annimmt. Man nennt x die Realisierung der Zufallsvariablen X. Eine Zufallsvariable kann diskret oder stetig sein. Die sogenannte Verteilungsfunktion F(x) von diskreter wie stetiger Zufallsvariablen X ist definiert wie folgt: F ( x ) P( X x ) P ist die Wahrscheinlichkeit, dass die Realisierungen von X kleiner oder gleich x sind. Es gilt f•r stetige Zufallsvariable X: dF ( x) f ( x) dx f(x) heisst Dichtefunktion. Wenn wir diese Gleichung nach den Rechenregeln der Differentialund Integralrechnung nach F(x) aufl„sen, erhalten wir die Verteilungsfunktion: x
F ( x)
f (t )dt
F•r diskrete Zufallsvariable ist die Verteilungsfunktion gegeben durch: F ( x)
f (x ) i
xi x
Hier ist: f(xi) = P(X=xi) die Wahrscheinlichkeit daf•r, dass die diskrete Zufallsvariable X den Wert xi annimmt. Es folgt, dass im Falle diskreter wie stetiger Zufallsvariablen gilt: P(a X b) F (b) F (a ) Das -Quantil x der Verteilung einer Zufallsvariablen X ist definiert durch: - 70 -
= P(X x) ist die Wahrscheinlichkeit P, dass die Realisierung x von X kleiner oder gleich der reellen Zahl x ist. Wir definieren ferner: Erwartungswert einer diskreten Zufallsvariablen X: i n
E ( X ) xi f ( xi ) i 1
Erwartungswert einer stetigen Zufallsvariablen X:
E( X )
xf ( x)dx
Varianz einer diskreten Zufallsvariablen X: in
VAR( X ) f ( xi )( xi E ( X )) 2 i 1
Varianz einer stetigen Zufallsvariablen X:
VAR( X )
2
f ( x)( x E ( X )) dx
- 71 -
2.4 Spezielle Verteilungen 2.4.1 Normalverteilung Eine stetige Zufallsvariable X heisst normalverteilt mit Erwartungswert und Varianz 2, wenn sie die Dichtefunktion: f ( x)
1 2
2
exp( ( x ) 2 / (2 2 ))
besitzt (Falk, M. (1995), S. 49-51; Z„fel, P. (1992), S. 25-26). Wenn = 0 und = 1 ist, heisst die Verteilung Standardnormalverteilung. Die Verteilungsfunktion der Standardnormalverteilung lautet: 1 ( x) 2
x
exp( t
2
/ 2)dt
Es gilt:
( x ) 1 ( x ) Daher braucht man die Verteilungsfunktion der Standardnormalverteilung nur f•r positive x zu tabellieren. Das Quantil der Standardnormalverteilung wird mit z bezeichnet und ist definiert mit:
P( X z ) und es gilt: z = -z1- Wenn die Zufallsvariable X normalverteilt ist mit Erwartungswert und Varianz 2, dann ist die Zufallsvariable aX+b normalverteilt mit Erwartungswert a+b und Varianz (a)2. Also folgt, dass: Z
X
- 72 -
standardnormalverteilt ist. Die Wahrscheinlichkeit, dass die Realisierung x der normalverteilten Zufallsvariablen X zwischen zwei reellen Gr„ssen c und d liegt, ist: P( c x d ) P(
P(
c
z
c
d
x
) (
d
d
) (
)
c
)
Die Standardnormalverteilungsfunktion reicht also zur Berechnung aller Probleme, in denen Normalverteilungen vorkommen, aus.
- 73 -
2.4.2 Chi-Quadrat-Verteilung Sind X1,...,Xn stochastisch unabhƒngige, standardnormalverteilte Zufallsvariablen, dann heisst die Verteilung der Zufallsvariablen: U n X 12 X 22 ... X n2 (zentrale) Chi-Quadrat-Verteilung mit n Freiheitsgraden (Dufner, J. (1992), S. 121; Falk, M. (1995), S. 52). Sie besitzt die Dichtefunktion: f ( x)
2
n/2
n 1 x x 2 1 exp( ) (n / 2) 2
f•r x > 0. Die Quantile werden mit ,n bezeichnet. Der Erwartungswert von Un ist n und die Varianz ist 2n.
- 74 -
2.4.3 Student-Verteilung Sind X und Un stochastisch unabhƒngig und standardnormalverteilt, bzw. Chi-Quadrat-verteilt mit n Freiheitsgraden, dann heisst die Verteilung der Zufallsvariablen: Tn
X Un n
Studentverteilung oder t-Verteilung mit n Freiheitsgraden (Dufner, J. (1992), S. 122; Falk, M. (1995), S. 55). Die Dichtefunktion der Verteilung lautet: ( n21 ) x 2 n21 f ( x) n (1 ) n ( 2 ) n f•r reelles x. Die Quantile werden mit t,n bezeichnet. Der Erwartungswert ist 0 f•r n > 1 und die Varianz ist n/(n-2) f•r n > 2.
- 75 -
2.4.4 Fisher-Verteilung Es seien Um und Un stochastisch unabhƒngige, stetige Zufallsvariablen und Chi-Quadrat-verteilt mit Freiheitsgrad m bzw. n. Dann heisst die Verteilung der Zufallsvariablen: Wm,n
Um m Un n
(zentrale) F-Verteilung mit Freiheitsgraden m und n (Dufner, J. (1992), S. 123; Falk, M. (1995), S. 54). Die Dichtefunktion von Wm,n lautet: m
m n ( m2n ) x 2 1 2 2 f ( x) m m n m n ( 2 ) ( n2 ) (n mx) 2
Die -Quantile werden mit F,m,n bezeichnet. Der Erwartungswert ist n/(n-2) f•r n > 2 und die Varianz ist: VAR(Wm,n )
2n 2 (m n 2) m(n 2) 2 (n 4)
f•r n > 4. Es gilt schliesslich die Formel: F,m,n = 1/F1-,n,m
- 76 -
2.5 Parametertest Es wird von einer Stichprobe x1,...,xn ausgegangen, wobei die xi Realisierungen von normalverteilten Zufallsvariablen X1,...,Xn sind mit gleichem Erwartungswert und gleicher Varianz 2. Wir behaupten nun dass:
0 ist, d.h. wir stellen die Nullhypothese: H0 : 0 auf, mit 0 als feste reelle Zahl (Z„fel, P. (1992), S. 29-32). Die Alternativhypothese ist dann die Verneinung: H A : 0 Es sei t0 die Realisierung einer Stichprobenfunktion T = T(X1,...,Xn) (die eine Zufallsvariable ist) f•r X1=x1,...,Xn=xn mit E(T) = . Es ist t0 eine erwartungstreue Schƒtzung f•r . Unter G•ltigkeit der Nullhypothese ( = 0) habe T eine Verteilungsfunktion F(x1,...,xn). Ferner sei T1- ein Quantil der Verteilung von T mit vorgegebener fester Wahrscheinlichkeit :
P(t T1 ) Mit t T1- wird der Annahmebereich ]-,T1-] der Nullhypothese H0 definiert, mit t > T1- der Ablehnbereich ]T1-,+[. Aus der Stichprobe wird also t = t0 berechnet und mit T1- vergleichen. Gilt t0 > T1- wird H0: 0 abgelehnt, anderenfalls nicht. Liegt t0 nahe an T 1- aber noch im Annahmebereich geht man davon aus, dass die Nullhypothese richtig ist und die Abweichung nach oben von t0 nur zufallsbedingt ist und etwa vom Versuchsfehler herr•hrt. Liegt t0 dagegen im Ablehnbereich, nimmt man an, dass so eine grosse Abweichung vom Erwartungswert nicht zufallsbedingt ist, sondern dass „irgendwas dahintersteckt“, irgend eine Ursache. Die Nullhypothese wird abgelehnt und man sagt: ist signifikant gr„sser als 0 Es werden Fehlentscheidungen getroffen, wenn die Nullhypothese abgelehnt wird, obwohl sie richtig ist oder wenn sie angenommen wird, obwohl sie falsch ist. - 77 -
Beide Fehler sind in der Praxis nicht gleichgewichtig. Da man in der Testtheorie gew„hnlich nur eine der beiden Fehlerwahrscheinlichkeiten kontrollieren kann, wird diejenige Aussage als Nullhypothese genommen, deren irrt•mliches Ablehnen die gr„sseren Konsequenzen hƒtte (Falk, M. (1995), S. 60). Dieser sogenannte Fehler der 1. Art wird kontrolliert. Das Annehmen der Nullhypothese, obwohl sie falsch ist, nennt man Fehler 2. Art. Entsprechend heissen die zugeh„rigen Wahrscheinlichkeiten des Begehens dieser Fehler Fehlerwahrscheinlichkeiten 1. und 2. Art bzw. und . Man nennt t0 Pr•fgr„sse oder Pr•fstatistik. Anstatt die Grenze des Annahmebereichs mit dem Quantil T1- anzugeben und mit der Pr•fstatistik t0 zu vergleichen, kann man auch die Wahrscheinlichkeit: ’ = P(t > t0) berechnen und mit vergleichen. Es ist ’ < ƒquivalent zu t0 > T1-. Im Output der SASProzedur GLM wird die zweite Methode f•r den globalen F-Test verwandt, und die erste Methode wird f•r die paarweisen Mittelwertsvergleiche im Scheff‰- und Duncan-Test verwandt.
- 78 -
2.6 Test der Normalverteilungsannahme 2.6.1 Residualvariable In allen Varianzanalysen wurde die Fehlerzufallsvariable ij bzw. ijk als unabhƒngig normalverteilt mit Erwartungswert 0 und Varianz ij2 bzw. ijk2 angenommen. Weitere Modellannahmen waren neben der Normalverteilung der Fehler, die stochastische Unabhƒngigkeit zwischen allen Fehlern und die Homoskedastie, die definiert ist als die Gleichheit aller Fehlervarianzen an 2. Die Realisationen der Zufallsvariablen ij beispielsweise, der Fehler des Modells der einfaktoriellen Varianzanalyse, sind nicht beobachtbar (Dufner, J. (1992), S. 203). Man verwendet statt dessen die Residuen: eij = yij - yi. die die Realisationen der entsprechenden Zufallsvariablen, die sogenannten Residualvariablen: Eij = Yij - Yi. sind. Es gilt f•r ihre Varianzen und Kovarianzen: VAR( Eij )
ni 1 2 ni
(i=1,...,k; j=1,...,ni) COV ( Eij , E sl ) 0 (i s; j,l beliebig) 2 COV ( Eij , E sl ) ni (i = s; j l). Die Homoskedastie und die stochastische Unabhƒngigkeit der Residualvariablen steigen mit den Zellenumfƒngen ni und der Balance der Daten.
- 79 -
Im Falle der zweifaktoriellen Varianzanalyse verwendet man entsprechend die Residualvariable: Eijk = Yijk - Yij. Fâ&#x20AC;˘r ihre Varianzen und Kovarianzen gilt analoges wie im einfaktoriellen Fall. Wir verwenden die Residualvariablen dazu, bei allen Dateien die Annahme der Normalverteilung des Versuchsfehlers zu testen.
- 80 -
2.6.2 Durchf•hrung mit SAS Wir wollen pr•fen, ob die Variable x die zu einer Datei abc geh„rt, normalverteilt ist. Dazu ist in SAS der Shapiro-Wilk-Test implementiert. Der relevante Programmteil lautet: PROC UNIVARIATE DATA = abc NORMAL; VAR x; RUN; In der Prozedur UNIVARIATE (Gogolok, J. (1992), S. 525-527; Graf, A. (1993), S. 215-217) wird mit der Option NORMAL die durch die VAR-Anweisung aus der Datei abc ausgewƒhlte Variable x auf Normalverteilung •berpr•ft. F•r N 2000 ist der Shapiro-Wilk-Test implementiert. Er zƒhlt zu den sogenannten Regressionstests (Dufner, J. (1992), S. 155-158). Der PROC-Step wird mit RUN abgeschlossen. Der Output hat den Umfang einer Seite mit u.a. dem Ergebnis der Teststatistik W:Normal und der Unterschreitungswahrscheinlichkeit Pr<W. Es gilt immer 0 < W < 1. Damit die Normalverteilungsannahme gerechtfertigt ist, muss W nahe bei 1 liegen. Das Signifikanzniveau betrƒgt •blicherweise 0,1.
- 81 -
3 DAS SAS-SYSTEM 3.1 Einf•hrung SAS ist die Abk•rzung von „Statistical Analysis System“ und ist ein Softwaresystem zur statistischen Analyse von Daten mit einem sich vergr„ssernden Anwendungsspektrum, auch ausserhalb der Statistik, so dass man fast von einer Universalsoftware sprechen kann (Graf, A. (1993), S. 14).
- 82 -
3.2 Die drei Fenster Nach Aufruf von SAS auf dem PC unter dem Betriebssystem MS Windows erscheinen drei Fenster auf dem Bildschirm: das Editor-Fenster, das Log-Fenster und das Output-Fenster (Falk, M. (1995), S. 341; Gogolok, J. (1992), S. 24-28; Graf, A. (1993), S. 46). Durch Mausklick kann man von einem Fenster zum anderen wechseln. Im Editor-Fenster gibt man mit der Hilfe einiger wichtiger Funktionen, ƒhnlich den Funktionen eines Textprogramms, mit der Tastatur das Programm ein. Dies kann formatfrei in Gross- oder Kleinschreibung geschehen. Das Log-Fenster enthƒlt Informationen zu den ausgef•hrten Anweisungen, dem Speicher- und Zeitbedarf, Fehlermeldungen und Angaben •ber die Anzahl der Variablen und die Anzahl der Beobachtungen der Dateien. Im Log-Fenster kontrolliert man das eingegebene Programm und im Editor-Fenster verbessert man es, bis es einwandfrei ist. Im Output-Fenster erscheinen die Ergebnisse, nachdem man mit dem Befehl SUBMIT das syntaktisch einwandfreie Programm zum Laufen gebracht hat. Die Inhalte der drei Fenster kann man nach Belieben einzeln ausdrucken oder speichern.
- 83 -
3.3 Die SAS-Sprache Die SAS-Programmiersprache hat ihre eigene Syntax, wie jede h„here Programmiersprache (Pascal, Basic, Cobol,...) auch mit ƒhnlichen Sprachkonstrukten. Die Wirkungsweise ist jedoch oft eine andere und es fehlt eine logische Abgeschlossenheit. Dass die Syntax nicht immer einheitlich und konsistent ist, liegt in der grossen Komplexitƒt begr•ndet (Graf, A. (1993), S. 24). Dies macht es dem Anfƒnger schwer. Die SAS-Sprache besteht aus: - Anweisungen: sie werden immer durch ein Semikolon abgeschlossen und sind in der Regel eine Folge von SAS-Schl•sselw„rtern, Sonderzeichen oder Operatoren (Gogolok, J. (1992), S. 335363). - SAS-Ausdr•cke bestehen aus Operatoren und Operanden von arithmetischem und logischem Typ und Zeichenketten (Graf, A. (1993), S. 27-31). Ein Operand kann ein Variablenname, eine Konstante oder eine SAS-Funktion sein. - SAS-Funktionen: wie in der Mathematik wird einem oder mehrerer Argumente ein Funktionswert zugewiesen (Gogolok, J. (1992), S. 307-334).
- 84 -
3.4 Das SAS-Programm 3.4.1 Der DATA-Step Die Programme der SAS-Programmiersprache bestehen aus Kommandos, die der Reihe nach abgearbeitet werden. Die SAS-Programme, wie man sie im Editor-Fenster eingibt, bestehen aus einem oder mehreren DATA- und PROC-Steps. Im DATA-Step wird immer eine Datei erstellt (Graf, A. (1993), S. 36). Zum Einlesen der Daten muss in der INPUT-Anweisung angegeben werden, welche Variablen definiert sind. Auf die INPUT-Anweisung folgt die CARDS-Anweisung, in der die Daten mit der Tastatur eingelesen werden. Wenn zwischen den Variablennamen im INPUT bzw. den Variablenwerten in CARDS ein Lehrzeichen steht, werden die Eingaben in CARDS der Eingabe der Variablennamen in INPUT der Reihe nach zugewiesen. Die Eingabe von „Zeilenhalter“ @@ am Ende von INPUT bewirkt, dass die Datensƒtze in CARDS auch nebeneinander in einer Zeile geschrieben werden k„nnen und nicht in einer Datenmatrix zwingend untereinander. In dieser Datenmatrix sind die Zeilen die Observationen und die Spalten die Variablen. Die Datei kann dann als permanente Datei unter: DATA libref.name; dauerhaft abgespeichert werden. Daf•r muss im Programm der Ausdruck: LIBNAME libref ‘DOS-Pfad’; eingegeben werden (Gogolok, J. (1992), S. 101-104). Damit wird ein Ordner, die SAS-Bibliothek ‘libref’, angelegt, in dem alle permanenten Dateien abgelegt werden k„nnen. Im Gegensatz dazu werden die temporƒren Dateien nach der Sitzung automatisch gel„scht.
- 85 -
3.4.2 Der PROC-Step Eine Prozedur ist ein fertiges von SAS zur Verf•gung gestelltes Programm, dass als PROC-Step mit: PROC Prozedurname DATA = Dateiname; eingegeben wird (Graf, A. (1993), S. 39). Dem folgen Anweisungen wie jene, die in dieser Arbeit mit der Prozedur GLM verwendet werden und im folgenden erklƒrt werden. - In der VAR-Anweisung werden die auszuwertenden Variablen festgelegt; ohne VARAnweisung werden alle Variablen der Datei ausgewertet. - In der CLASS-Anweisung kann man eine getrennte Auswertung f•r verschiedenen Ausprƒgungen von Variablen erhalten. - In der MODEL-Anweisung wird in den Prozeduren REG, GLM und ANOVA eine Modellgleichung aus der Regressions- oder Varianzanalyse angegeben. Um das Programm abzuschliessen, muss am Ende RUN; eingegeben werden. Die mit den Prozeduren nach SUBMIT erzeugten Ergebnisse werden im Output-Fenster ausgegeben und k„nnen ausgedruckt oder gespeichert werden. Varianzanalysen k„nnen in SAS mit den Prozeduren ANOVA und GLM berechnet werden (Z„fel, P. (1992), S. 44-50). GLM ist die Abk•rzung von „General Linear Model“. ANOVA kann nur bei balancierten Daten angewandt werden; GLM auch bei unbalancierten und multivariaten Varianzanalysen.
- 86 -
4 SCHLUSSFOLGERUNG Es wurden in dieser Arbeit die Varianzanalysen von vier Dateien mit SAS auf dem PC berechnet: - mit der Niere-Datei eine unbalancierte, einfaktorielle Varianzanalyse mit festen Effekten, - mit der Wald-Datei eine balancierte, zweifaktorielle Varianzanalyse mit festen Effekten und mit Wechselwirkung, - mit der Umwelt-Datei eine zweifaktorielle Varianzanalyse mit festen Effekten und einer Beobachtung in jeder Zelle, - mit der Geburt-Datei eine unbalancierte, zweifaktorielle Varianzanalyse mit festen Effekten und mit Wechselwirkung. Die Ergebnisse sind im Anhang S. 1-39 ausgedruckt und wurden im 1. Kapitel erklƒrt. Darunter sind auch die Werte des Bestimmtheitsmasses R-Square und die Werte der Statistik W und der Unterschreitungswahrscheinlichkeit (Pr<W) des Shapiro-Wilk-Tests zu finden. Diese Werte der vier Dateien sind in der folgenden Tabelle noch einmal zusammengefasst:
Datei
R2
W
Pr < W
Niere
0,303209
0,981576
0,8612
Wald
0,960669
0,965194
0,2231
Umwelt
0,880989
0,981814
0,8105
Geburt
0,187377
0,99134
0,9950
Es gilt 0 R2 1 und 0 < W < 1. Einen Wert des Bestimmungsmasses R2 in der Nƒhe von 1 zeigt eine gute Anpassung des linearen Modells an das untersuchte Problem an. Werte der Statistik W des in SAS implementierten Shapiro-Wilk-Tests in der Nƒhe von 1 und der Unterschreitungswahrscheinlichkeit (Pr<W) von gr„sser als 0,1 zeigen an, dass die Annahme der Normalverteilung des Versuchsfehlers gerechtfertigt ist. Der Tabelle ist zu entnehmen, dass W bei allen vier Dateien sehr nahe bei 1 liegt und die - 87 -
Unterschreitungswahrscheinlichkeit (Pr<W) liegt in allen Fƒllen •ber dem •blichen Signifikanzniveau 0,1. Die Normalverteilungsvoraussetzung ist somit •berall erf•llt. Das Bestimmtheitsmass ist nur bei den balancierten, chemisch-physikalischen Dateien Wald und Umwelt nahe bei 1. Bei den unbalancierten, medizinischen Dateien Niere und Geburt ist das lineare Modell zur Problembeschreibung schlecht geeignet, denn das Bestimmtheitsmass ist hier kleiner als 0,5. Ein Grund daf•r k„nnte sein, dass biologische Probleme komplizierter sind als chemisch-physikalische und dass man kompliziertere Modelle als das einfache lineare Modell aufstellen muss, um Probleme, in denen lebende Organismen im Spiel sind, gut zu beschreiben.
- 88 -
5 LITERATURVERZEICHNIS Ahrens, H./Lƒuter, J. (1974), Mehrdimensionale Varianzanalyse, Berlin. Dufner, J./Jensen, U./Schuhmacher, E. (1992), Statistik mit SAS, Stuttgart. Falk, M./Becker, R./Marohn, F. (1995), Angewandte Statistik mit SAS, Berlin. Gogolok, J./Schuemer, R./Str„hlein, G. (1992), Datenverarbeitung und statistische Auswertung mit SAS, Band I, Stuttgart. Graf, A./Bundschuh, W./Kruse, H.-G. (1993), Effektives Arbeiten mit SAS, Mannheim. Prokopp, F. (1994), Lineare Regression und Varianzanalyse, M•nchen. Schach, S./Schƒfer, T. (1978), Regressions- und Varianzanalyse, Berlin. Schuemer, R./Str„hlein, G./Gogolok, J. (1990), Datenverarbeitung und statistische Auswertung mit SAS, Band II, Stuttgart. Searle, S. R./Casella, G./McCulloch, C. E. (1992), Variance Components, New York. Toutenburg, H. (1994), Versuchsplanung und Modellwahl, Heidelberg. Z„fel, P. (1992), Univariate Varianzanalysen, Stuttgart.
- 89 -
ANHANG
- 90 -
Einfaktorielle Varianzanalyse der Niere-Datei General Linear Models Procedure Class Level Information Class UGR
Levels 4
Values 0 1 2 3
Number of observations in data set = 34
- 91 -
1
Einfaktorielle Varianzanalyse der Niere-Datei
2
General Linear Models Procedure Dependent Variable: HFS Source
Herzfequenz Sum of DF Squares
Mean Square
F Value
Pr > F
4.35
0.0117
Model
3
5470.4190
1823.4730
Error
30
12571.3457
419.0449
Corrected Total
33
18041.7647
R-Square
C.V.
Root MSE
HFS Mean
0.303209
12.35795
20.471
165.65
DF
Type I SS
Mean Square
F Value
Pr > F
3
5470.4190
1823.4730
4.35
0.0117
DF
Type III SS
Mean Square
F Value
Pr > F
3
5470.4190
1823.4730
4.35
0.0117
Source UGR Source UGR
- 92 -
Einfaktorielle Varianzanalyse der Niere-Datei
3
General Linear Models Procedure Scheffe's test for variable: HFS NOTE: This test controls the type I experimentwise error rate but generally has a higher type II error rate than Tukey's for all pairwise comparisons. Alpha= 0.05
Confidence= 0.95 df= 30 MSE= 419.0449 Critical Value of F= 2.92228
Comparisons significant at the 0.05 level are indicated by '***'.
UGR Comparison
Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit
0 0 0
- 2 - 3 - 1
-8.063 -4.688 2.842
20.352 22.548 32.756
48.767 49.784 62.671
2 2 2
- 0 - 3 - 1
-48.767 -29.173 -21.316
-20.352 2.196 12.405
8.063 33.566 46.126
3 3 3
- 0 - 2 - 1
-49.784 -33.566 -22.525
-22.548 -2.196 10.208
4.688 29.173 42.942
1 1 1
- 0 - 2 - 3
-62.671 -46.126 -42.942
-32.756 -12.405 -10.208
-2.842 21.316 22.525
- 93 -
***
***
Einfaktorielle Varianzanalyse der Niere-Datei
4
General Linear Models Procedure Duncan's Multiple Range Test for variable: HFS NOTE: This test controls the type I comparisonwise error rate, not the experimentwise error rate Alpha= 0.05 df= 30 MSE= 419.0449 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 7.820949 Number of Means 2 3 4 Critical Range 21.14 22.22 22.91 Means with the same letter are not significantly different. Duncan Grouping
Mean
N
A A A
180.92
13
0
160.57
7
2
158.38
8
3
148.17
6
1
B B B B B
- 94 -
UGR
Die Niere-Datei mit Residuum OBS 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34
5
Untersuchungsgruppe
Herzfequenz
Residuum
0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3
175 170 177 182 191 158 185 175 181 196 200 197 165 157 108 170 138 180 136 167 172 143 134 182 206 120 165 173 172 145 134 174 140 164
-5.9231 -10.9231 -3.9231 1.0769 10.0769 -22.9231 4.0769 -5.9231 0.0769 15.0769 19.0769 16.0769 -15.9231 8.8333 -40.1667 21.8333 -10.1667 31.8333 -12.1667 6.4286 11.4286 -17.5714 -26.5714 21.4286 45.4286 -40.5714 6.6250 14.6250 13.6250 -13.3750 -24.3750 15.6250 -18.3750 5.6250
- 95 -
Test der Normalverteilungsannahme der Niere-Datei Univariate Procedure Variable=R
Residuum Moments N Mean Std Dev Skewness USS CV T:Mean=0 Num ^= 0 M(Sign) Sgn Rank W:Normal
34 0 19.51794 -0.10955 12571.35 . 0 34 2 5.5 0.981576
Sum Wgts Sum Variance Kurtosis CSS Std Mean Pr>|T| Num > 0 Pr>=|M| Pr>=|S| Pr<W
34 0 380.9499 -0.04996 12571.35 3.347299 1.0000 19 0.6076 0.9267 0.8612
Quantiles(Def=5) 100% 75% 50% 25% 0%
Max Q3 Med Q1 Min
Range Q3-Q1 Mode
45.42857 14.625 2.576923 -13.375 -40.5714
99% 95% 90% 10% 5% 1%
45.42857 31.83333 21.42857 -24.375 -40.1667 -40.5714
86 28 -5.92308 Extremes
Lowest -40.5714( -40.1667( -26.5714( -24.375( -22.9231(
Obs 26) 15) 23) 31) 6)
Highest 19.07692( 21.42857( 21.83333( 31.83333( 45.42857(
- 96 -
Obs 11) 24) 16) 18) 25)
6
Zweifaktorielle Varianzanalyse der Wald-Datei General Linear Models Procedure Class Level Information Class
Levels
Values
KALK
2
M O
BEREG
3
A B C
Number of observations in data set = 54
- 97 -
7
Zweifaktorielle Varianzanalyse der Wald-Datei
8
General Linear Models Procedure Dependent Variable: PH
pH
Source
DF
Sum of Squares
Mean Square
F Value
Pr > F
Model
5
116.46393
23.29279
234.48
0.0001
Error
48
4.76820
0.09934
Corrected Total
53
121.23213
R-Square
C.V.
Root MSE
PH Mean
0.960669
5.570712
0.3152
5.6578
DF
Type I SS
Mean Square
F Value
Pr > F
1 2 2
114.81459 0.86583 0.78351
114.81459 0.43292 0.39176
1155.80 4.36 3.94
0.0001 0.0182 0.0260
DF
Type III SS
Mean Square
F Value
Pr > F
1 2 2
114.81459 0.86583 0.78351
114.81459 0.43292 0.39176
1155.80 4.36 3.94
0.0001 0.0182 0.0260
Source KALK BEREG KALK*BEREG Source KALK BEREG KALK*BEREG
- 98 -
Zweifaktorielle Varianzanalyse der Wald-Datei
9
General Linear Models Procedure Scheffe's test for variable: PH NOTE: This test controls the type I experimentwise error rate but generally has a higher type II error rate than Tukey's for all pairwise comparisons. Alpha= 0.05
Confidence= 0.95 df= 48 MSE= 0.099337 Critical Value of F= 4.04265 Minimum Significant Difference= 0.1725
Comparisons significant at the 0.05 level are indicated by '***'.
KALK Comparison
Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit
M
- O
2.74382
2.91630
3.08877
***
O
- M
-3.08877
-2.91630
-2.74382
***
- 99 -
Zweifaktorielle Varianzanalyse der Wald-Datei
10
General Linear Models Procedure Scheffe's test for variable: PH NOTE: This test controls the type I experimentwise error rate but generally has a higher type II error rate than Tukey's for all pairwise comparisons. Alpha= 0.05
Confidence= 0.95 df= 48 MSE= 0.099337 Critical Value of F= 3.19073 Minimum Significant Difference= 0.2654
Comparisons significant at the 0.05 level are indicated by '***'.
BEREG Comparison
Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit
C C
- B - A
-0.0821 0.0429
0.1833 0.3083
0.4487 0.5737
B B
- C - A
-0.4487 -0.1404
-0.1833 0.1250
0.0821 0.3904
A A
- C - B
-0.5737 -0.3904
-0.3083 -0.1250
-0.0429 0.1404
- 100 -
***
***
Zweifaktorielle Varianzanalyse der Wald-Datei
11
General Linear Models Procedure Duncan's Multiple Range Test for variable: PH NOTE: This test controls the type I comparisonwise error rate, not the experimentwise error rate Alpha= 0.05
df= 48
MSE= 0.099337
Number of Means 2 Critical Range .1725 Means with the same letter are not significantly different. Duncan Grouping
Mean
N
A
7.11593
27
M
B
4.19963
27
O
- 101 -
KALK
Zweifaktorielle Varianzanalyse der Wald-Datei
12
General Linear Models Procedure Duncan's Multiple Range Test for variable: PH NOTE: This test controls the type I comparisonwise error rate, not the experimentwise error rate Alpha= 0.05
df= 48
MSE= 0.099337
Number of Means 2 3 Critical Range .2112 .2222 Means with the same letter are not significantly different. Duncan Grouping
Mean
N
A A A
5.8217
18
C
5.6383
18
B
5.5133
18
A
B B B
- 102 -
BEREG
Die Wald-Datei mit Residuen OBS 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54
13
Kalkung
Beregnung
pH
Residuum
M M M M M M M M M O O O O O O O O O M M M M M M M M M O O O O O O O O O M M M M M M M M M O O O O O O O O O
A A A A A A A A A A A A A A A A A A B B B B B B B B B B B B B B B B B B C C C C C C C C C C C C C C C C C C
7.17 7.17 6.89 6.49 6.89 7.05 7.32 5.84 6.40 4.31 4.59 4.13 4.25 4.15 4.28 4.20 4.66 3.45 7.16 7.19 7.45 7.49 7.39 6.93 7.08 6.96 7.13 3.80 4.27 4.19 4.31 3.95 4.24 3.82 4.07 4.06 7.84 7.25 7.18 7.31 7.65 7.46 7.43 6.96 7.05 4.42 4.25 4.32 4.19 4.17 4.46 4.22 4.90 3.73
0.36778 0.36778 0.08778 -0.31222 0.08778 0.24778 0.51778 -0.96222 -0.40222 0.08556 0.36556 -0.09444 0.02556 -0.07444 0.05556 -0.02444 0.43556 -0.77444 -0.03778 -0.00778 0.25222 0.29222 0.19222 -0.26778 -0.11778 -0.23778 -0.06778 -0.27889 0.19111 0.11111 0.23111 -0.12889 0.16111 -0.25889 -0.00889 -0.01889 0.49222 -0.09778 -0.16778 -0.03778 0.30222 0.11222 0.08222 -0.38778 -0.29778 0.12444 -0.04556 0.02444 -0.10556 -0.12556 0.16444 -0.07556 0.60444 -0.56556
- 103 -
Test der Normalverteilungsannahme der Wald-Datei Univariate Procedure Variable=S
Residuum Moments N Mean Std Dev Skewness USS CV T:Mean=0 Num ^= 0 M(Sign) Sgn Rank W:Normal
54 0 0.299943 -0.70199 4.7682 . 0 54 -1 34.5 0.965194
Sum Wgts Sum Variance Kurtosis CSS Std Mean Pr>|T| Num > 0 Pr>=|M| Pr>=|S| Pr<W
54 0 0.089966 1.500363 4.7682 0.040817 1.0000 26 0.8919 0.7695 0.2231
Quantiles(Def=5) 100% 75% 50% 25% 0%
Max Q3 Med Q1 Min
Range Q3-Q1 Mode
0.604444 0.191111 -0.00833 -0.12556 -0.96222
99% 95% 90% 10% 5% 1%
0.604444 0.492222 0.367778 -0.31222 -0.56556 -0.96222
1.566667 0.316667 0.087778 Extremes
Lowest -0.96222( -0.77444( -0.56556( -0.40222( -0.38778(
Obs 8) 18) 54) 9) 44)
Highest 0.367778( 0.435556( 0.492222( 0.517778( 0.604444(
- 104 -
Obs 2) 17) 37) 7) 53)
14
Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der Umwelt-Datei General Linear Models Procedure Class Level Information Class
Levels
DATUM
2
NAME
23
Values APR94 JUL93 ANSBACH ASCHAFFENBURG AUGSBURG BAYREUTH BURGHAUSEN ERLANGEN FUERTH HOF INGOLSTADT KELHEIM KEMPTEN KULMBACH LANDSHUT MUENCHEN NEU-ULM NUERNBERG OBERAUDORF PASSAU REGENSBURG SCHWEINFURT TROSTBERG WEIDEN WUERZBURG Number of observations in data set = 46
- 105 -
15
Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der Umwelt-Datei
16
General Linear Models Procedure Dependent Variable: STAUB
Staubkonzentration Sum of Mean Squares Square
Source
DF
Model
23
3467.9565
150.7807
Error
22
468.4783
21.2945
Corrected Total
45
3936.4348
R-Square
C.V.
Root MSE
STAUB Mean
0.880989
12.03352
4.6146
38.348
Source
DF
Type I SS
Mean Square
F Value
Pr > F
DATUM NAME
1 22
292.5217 3175.4348
292.5217 144.3379
13.74 6.78
0.0012 0.0001
Source
DF
Type III SS
Mean Square
F Value
Pr > F
DATUM NAME
1 22
292.5217 3175.4348
292.5217 144.3379
13.74 6.78
0.0012 0.0001
- 106 -
F Value
Pr > F
7.08
0.0001
Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der Umwelt-Datei
17
General Linear Models Procedure Scheffe's test for variable: STAUB NOTE: This test controls the type I experimentwise error rate but generally has a higher type II error rate than Tukey's for all pairwise comparisons. Alpha= 0.05
Confidence= 0.95 df= 22 MSE= 21.29447 Critical Value of F= 4.30095 Minimum Significant Difference= 2.8221
Comparisons significant at the 0.05 level are indicated by '***'.
DATUM Comparison
Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit
APR94 - JUL93
2.221
5.043
7.866
***
JUL93 - APR94
-7.866
-5.043
-2.221
***
- 107 -
Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der Umwelt-Datei
18
General Linear Models Procedure Scheffe's test for variable: STAUB NOTE: This test controls the type I experimentwise error rate but generally has a higher type II error rate than Tukey's for all pairwise comparisons. Alpha= 0.05
Confidence= 0.95 df= 22 MSE= 21.29447 Critical Value of F= 2.04777 Minimum Significant Difference= 30.973
Comparisons significant at the 0.05 level are indicated by '***'.
NAME Comparison
Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit
AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG AUGSBURG
-
PASSAU REGENSBURG WEIDEN LANDSHUT BAYREUTH SCHWEINFURT HOF WUERZBURG MUENCHEN NEU-ULM FUERTH NUERNBERG KELHEIM INGOLSTADT KULMBACH ANSBACH ASCHAFFENBURG BURGHAUSEN ERLANGEN KEMPTEN OBERAUDORF TROSTBERG
-16.973 -13.973 -10.473 -7.973 -7.973 -7.473 -6.473 -5.473 -5.473 -4.973 -4.973 -3.973 -3.473 -2.973 -1.973 -0.973 0.027 0.527 2.027 6.027 6.527 10.527
14.000 17.000 20.500 23.000 23.000 23.500 24.500 25.500 25.500 26.000 26.000 27.000 27.500 28.000 29.000 30.000 31.000 31.500 33.000 37.000 37.500 41.500
44.973 47.973 51.473 53.973 53.973 54.473 55.473 56.473 56.473 56.973 56.973 57.973 58.473 58.973 59.973 60.973 61.973 62.473 63.973 67.973 68.473 72.473
PASSAU PASSAU PASSAU PASSAU PASSAU PASSAU PASSAU PASSAU PASSAU PASSAU PASSAU PASSAU
-
AUGSBURG REGENSBURG WEIDEN LANDSHUT BAYREUTH SCHWEINFURT HOF WUERZBURG MUENCHEN NEU-ULM FUERTH NUERNBERG
-44.973 -27.973 -24.473 -21.973 -21.973 -21.473 -20.473 -19.473 -19.473 -18.973 -18.973 -17.973
-14.000 3.000 6.500 9.000 9.000 9.500 10.500 11.500 11.500 12.000 12.000 13.000
16.973 33.973 37.473 39.973 39.973 40.473 41.473 42.473 42.473 42.973 42.973 43.973
- 108 -
*** *** *** *** *** ***
Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der Umwelt-Datei General Linear Models Procedure
NAME Comparison
Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit
PASSAU PASSAU PASSAU PASSAU PASSAU PASSAU PASSAU PASSAU PASSAU PASSAU
-
KELHEIM INGOLSTADT KULMBACH ANSBACH ASCHAFFENBURG BURGHAUSEN ERLANGEN KEMPTEN OBERAUDORF TROSTBERG
-17.473 -16.973 -15.973 -14.973 -13.973 -13.473 -11.973 -7.973 -7.473 -3.473
13.500 14.000 15.000 16.000 17.000 17.500 19.000 23.000 23.500 27.500
44.473 44.973 45.973 46.973 47.973 48.473 49.973 53.973 54.473 58.473
REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG REGENSBURG
-
AUGSBURG PASSAU WEIDEN LANDSHUT BAYREUTH SCHWEINFURT HOF WUERZBURG MUENCHEN NEU-ULM FUERTH NUERNBERG KELHEIM INGOLSTADT KULMBACH ANSBACH ASCHAFFENBURG BURGHAUSEN ERLANGEN KEMPTEN OBERAUDORF TROSTBERG
-47.973 -33.973 -27.473 -24.973 -24.973 -24.473 -23.473 -22.473 -22.473 -21.973 -21.973 -20.973 -20.473 -19.973 -18.973 -17.973 -16.973 -16.473 -14.973 -10.973 -10.473 -6.473
-17.000 -3.000 3.500 6.000 6.000 6.500 7.500 8.500 8.500 9.000 9.000 10.000 10.500 11.000 12.000 13.000 14.000 14.500 16.000 20.000 20.500 24.500
13.973 27.973 34.473 36.973 36.973 37.473 38.473 39.473 39.473 39.973 39.973 40.973 41.473 41.973 42.973 43.973 44.973 45.473 46.973 50.973 51.473 55.473
WEIDEN WEIDEN WEIDEN WEIDEN WEIDEN WEIDEN WEIDEN WEIDEN WEIDEN WEIDEN WEIDEN WEIDEN WEIDEN
-
AUGSBURG PASSAU REGENSBURG LANDSHUT BAYREUTH SCHWEINFURT HOF WUERZBURG MUENCHEN NEU-ULM FUERTH NUERNBERG KELHEIM
-51.473 -37.473 -34.473 -28.473 -28.473 -27.973 -26.973 -25.973 -25.973 -25.473 -25.473 -24.473 -23.973
-20.500 -6.500 -3.500 2.500 2.500 3.000 4.000 5.000 5.000 5.500 5.500 6.500 7.000
10.473 24.473 27.473 33.473 33.473 33.973 34.973 35.973 35.973 36.473 36.473 37.473 37.973
- 109 -
19
Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der Umwelt-Datei General Linear Models Procedure
NAME Comparison
Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit
WEIDEN WEIDEN WEIDEN WEIDEN WEIDEN WEIDEN WEIDEN WEIDEN WEIDEN
-
INGOLSTADT KULMBACH ANSBACH ASCHAFFENBURG BURGHAUSEN ERLANGEN KEMPTEN OBERAUDORF TROSTBERG
-23.473 -22.473 -21.473 -20.473 -19.973 -18.473 -14.473 -13.973 -9.973
7.500 8.500 9.500 10.500 11.000 12.500 16.500 17.000 21.000
38.473 39.473 40.473 41.473 41.973 43.473 47.473 47.973 51.973
LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT LANDSHUT
-
AUGSBURG PASSAU REGENSBURG WEIDEN BAYREUTH SCHWEINFURT HOF WUERZBURG MUENCHEN NEU-ULM FUERTH NUERNBERG KELHEIM INGOLSTADT KULMBACH ANSBACH ASCHAFFENBURG BURGHAUSEN ERLANGEN KEMPTEN OBERAUDORF TROSTBERG
-53.973 -39.973 -36.973 -33.473 -30.973 -30.473 -29.473 -28.473 -28.473 -27.973 -27.973 -26.973 -26.473 -25.973 -24.973 -23.973 -22.973 -22.473 -20.973 -16.973 -16.473 -12.473
-23.000 -9.000 -6.000 -2.500 0.000 0.500 1.500 2.500 2.500 3.000 3.000 4.000 4.500 5.000 6.000 7.000 8.000 8.500 10.000 14.000 14.500 18.500
7.973 21.973 24.973 28.473 30.973 31.473 32.473 33.473 33.473 33.973 33.973 34.973 35.473 35.973 36.973 37.973 38.973 39.473 40.973 44.973 45.473 49.473
BAYREUTH BAYREUTH BAYREUTH BAYREUTH BAYREUTH BAYREUTH BAYREUTH BAYREUTH BAYREUTH BAYREUTH BAYREUTH BAYREUTH BAYREUTH BAYREUTH
-
AUGSBURG PASSAU REGENSBURG WEIDEN LANDSHUT SCHWEINFURT HOF WUERZBURG MUENCHEN NEU-ULM FUERTH NUERNBERG KELHEIM INGOLSTADT
-53.973 -39.973 -36.973 -33.473 -30.973 -30.473 -29.473 -28.473 -28.473 -27.973 -27.973 -26.973 -26.473 -25.973
-23.000 -9.000 -6.000 -2.500 0.000 0.500 1.500 2.500 2.500 3.000 3.000 4.000 4.500 5.000
7.973 21.973 24.973 28.473 30.973 31.473 32.473 33.473 33.473 33.973 33.973 34.973 35.473 35.973
- 110 -
20
Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der Umwelt-Datei General Linear Models Procedure
NAME Comparison
Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit
BAYREUTH BAYREUTH BAYREUTH BAYREUTH BAYREUTH BAYREUTH BAYREUTH BAYREUTH
-
KULMBACH ANSBACH ASCHAFFENBURG BURGHAUSEN ERLANGEN KEMPTEN OBERAUDORF TROSTBERG
-24.973 -23.973 -22.973 -22.473 -20.973 -16.973 -16.473 -12.473
6.000 7.000 8.000 8.500 10.000 14.000 14.500 18.500
36.973 37.973 38.973 39.473 40.973 44.973 45.473 49.473
SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT SCHWEINFURT
-
AUGSBURG PASSAU REGENSBURG WEIDEN LANDSHUT BAYREUTH HOF WUERZBURG MUENCHEN NEU-ULM FUERTH NUERNBERG KELHEIM INGOLSTADT KULMBACH ANSBACH ASCHAFFENBURG BURGHAUSEN ERLANGEN KEMPTEN OBERAUDORF TROSTBERG
-54.473 -40.473 -37.473 -33.973 -31.473 -31.473 -29.973 -28.973 -28.973 -28.473 -28.473 -27.473 -26.973 -26.473 -25.473 -24.473 -23.473 -22.973 -21.473 -17.473 -16.973 -12.973
-23.500 -9.500 -6.500 -3.000 -0.500 -0.500 1.000 2.000 2.000 2.500 2.500 3.500 4.000 4.500 5.500 6.500 7.500 8.000 9.500 13.500 14.000 18.000
7.473 21.473 24.473 27.973 30.473 30.473 31.973 32.973 32.973 33.473 33.473 34.473 34.973 35.473 36.473 37.473 38.473 38.973 40.473 44.473 44.973 48.973
HOF HOF HOF HOF HOF HOF HOF HOF HOF HOF HOF HOF HOF HOF HOF
-
AUGSBURG PASSAU REGENSBURG WEIDEN LANDSHUT BAYREUTH SCHWEINFURT WUERZBURG MUENCHEN NEU-ULM FUERTH NUERNBERG KELHEIM INGOLSTADT KULMBACH
-55.473 -41.473 -38.473 -34.973 -32.473 -32.473 -31.973 -29.973 -29.973 -29.473 -29.473 -28.473 -27.973 -27.473 -26.473
-24.500 -10.500 -7.500 -4.000 -1.500 -1.500 -1.000 1.000 1.000 1.500 1.500 2.500 3.000 3.500 4.500
6.473 20.473 23.473 26.973 29.473 29.473 29.973 31.973 31.973 32.473 32.473 33.473 33.973 34.473 35.473
- 111 -
21
Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der Umwelt-Datei General Linear Models Procedure
NAME Comparison
Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit
HOF HOF HOF HOF HOF HOF HOF
-
ANSBACH ASCHAFFENBURG BURGHAUSEN ERLANGEN KEMPTEN OBERAUDORF TROSTBERG
-25.473 -24.473 -23.973 -22.473 -18.473 -17.973 -13.973
5.500 6.500 7.000 8.500 12.500 13.000 17.000
36.473 37.473 37.973 39.473 43.473 43.973 47.973
WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG WUERZBURG
-
AUGSBURG PASSAU REGENSBURG WEIDEN LANDSHUT BAYREUTH SCHWEINFURT HOF MUENCHEN NEU-ULM FUERTH NUERNBERG KELHEIM INGOLSTADT KULMBACH ANSBACH ASCHAFFENBURG BURGHAUSEN ERLANGEN KEMPTEN OBERAUDORF TROSTBERG
-56.473 -42.473 -39.473 -35.973 -33.473 -33.473 -32.973 -31.973 -30.973 -30.473 -30.473 -29.473 -28.973 -28.473 -27.473 -26.473 -25.473 -24.973 -23.473 -19.473 -18.973 -14.973
-25.500 -11.500 -8.500 -5.000 -2.500 -2.500 -2.000 -1.000 0.000 0.500 0.500 1.500 2.000 2.500 3.500 4.500 5.500 6.000 7.500 11.500 12.000 16.000
5.473 19.473 22.473 25.973 28.473 28.473 28.973 29.973 30.973 31.473 31.473 32.473 32.973 33.473 34.473 35.473 36.473 36.973 38.473 42.473 42.973 46.973
MUENCHEN MUENCHEN MUENCHEN MUENCHEN MUENCHEN MUENCHEN MUENCHEN MUENCHEN MUENCHEN MUENCHEN MUENCHEN MUENCHEN MUENCHEN MUENCHEN MUENCHEN MUENCHEN
-
AUGSBURG PASSAU REGENSBURG WEIDEN LANDSHUT BAYREUTH SCHWEINFURT HOF WUERZBURG NEU-ULM FUERTH NUERNBERG KELHEIM INGOLSTADT KULMBACH ANSBACH
-56.473 -42.473 -39.473 -35.973 -33.473 -33.473 -32.973 -31.973 -30.973 -30.473 -30.473 -29.473 -28.973 -28.473 -27.473 -26.473
-25.500 -11.500 -8.500 -5.000 -2.500 -2.500 -2.000 -1.000 0.000 0.500 0.500 1.500 2.000 2.500 3.500 4.500
5.473 19.473 22.473 25.973 28.473 28.473 28.973 29.973 30.973 31.473 31.473 32.473 32.973 33.473 34.473 35.473
- 112 -
22
Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der Umwelt-Datei General Linear Models Procedure
NAME Comparison
Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit
MUENCHEN MUENCHEN MUENCHEN MUENCHEN MUENCHEN MUENCHEN
-
ASCHAFFENBURG BURGHAUSEN ERLANGEN KEMPTEN OBERAUDORF TROSTBERG
-25.473 -24.973 -23.473 -19.473 -18.973 -14.973
5.500 6.000 7.500 11.500 12.000 16.000
36.473 36.973 38.473 42.473 42.973 46.973
NEU-ULM NEU-ULM NEU-ULM NEU-ULM NEU-ULM NEU-ULM NEU-ULM NEU-ULM NEU-ULM NEU-ULM NEU-ULM NEU-ULM NEU-ULM NEU-ULM NEU-ULM NEU-ULM NEU-ULM NEU-ULM NEU-ULM NEU-ULM NEU-ULM NEU-ULM
-
AUGSBURG PASSAU REGENSBURG WEIDEN LANDSHUT BAYREUTH SCHWEINFURT HOF WUERZBURG MUENCHEN FUERTH NUERNBERG KELHEIM INGOLSTADT KULMBACH ANSBACH ASCHAFFENBURG BURGHAUSEN ERLANGEN KEMPTEN OBERAUDORF TROSTBERG
-56.973 -42.973 -39.973 -36.473 -33.973 -33.973 -33.473 -32.473 -31.473 -31.473 -30.973 -29.973 -29.473 -28.973 -27.973 -26.973 -25.973 -25.473 -23.973 -19.973 -19.473 -15.473
-26.000 -12.000 -9.000 -5.500 -3.000 -3.000 -2.500 -1.500 -0.500 -0.500 0.000 1.000 1.500 2.000 3.000 4.000 5.000 5.500 7.000 11.000 11.500 15.500
4.973 18.973 21.973 25.473 27.973 27.973 28.473 29.473 30.473 30.473 30.973 31.973 32.473 32.973 33.973 34.973 35.973 36.473 37.973 41.973 42.473 46.473
FUERTH FUERTH FUERTH FUERTH FUERTH FUERTH FUERTH FUERTH FUERTH FUERTH FUERTH FUERTH FUERTH FUERTH FUERTH FUERTH FUERTH
-
AUGSBURG PASSAU REGENSBURG WEIDEN LANDSHUT BAYREUTH SCHWEINFURT HOF WUERZBURG MUENCHEN NEU-ULM NUERNBERG KELHEIM INGOLSTADT KULMBACH ANSBACH ASCHAFFENBURG
-56.973 -42.973 -39.973 -36.473 -33.973 -33.973 -33.473 -32.473 -31.473 -31.473 -30.973 -29.973 -29.473 -28.973 -27.973 -26.973 -25.973
-26.000 -12.000 -9.000 -5.500 -3.000 -3.000 -2.500 -1.500 -0.500 -0.500 0.000 1.000 1.500 2.000 3.000 4.000 5.000
4.973 18.973 21.973 25.473 27.973 27.973 28.473 29.473 30.473 30.473 30.973 31.973 32.473 32.973 33.973 34.973 35.973
- 113 -
23
Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der Umwelt-Datei General Linear Models Procedure
NAME Comparison
Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit
FUERTH FUERTH FUERTH FUERTH FUERTH
-
BURGHAUSEN ERLANGEN KEMPTEN OBERAUDORF TROSTBERG
-25.473 -23.973 -19.973 -19.473 -15.473
5.500 7.000 11.000 11.500 15.500
36.473 37.973 41.973 42.473 46.473
NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG NUERNBERG
-
AUGSBURG PASSAU REGENSBURG WEIDEN LANDSHUT BAYREUTH SCHWEINFURT HOF WUERZBURG MUENCHEN NEU-ULM FUERTH KELHEIM INGOLSTADT KULMBACH ANSBACH ASCHAFFENBURG BURGHAUSEN ERLANGEN KEMPTEN OBERAUDORF TROSTBERG
-57.973 -43.973 -40.973 -37.473 -34.973 -34.973 -34.473 -33.473 -32.473 -32.473 -31.973 -31.973 -30.473 -29.973 -28.973 -27.973 -26.973 -26.473 -24.973 -20.973 -20.473 -16.473
-27.000 -13.000 -10.000 -6.500 -4.000 -4.000 -3.500 -2.500 -1.500 -1.500 -1.000 -1.000 0.500 1.000 2.000 3.000 4.000 4.500 6.000 10.000 10.500 14.500
3.973 17.973 20.973 24.473 26.973 26.973 27.473 28.473 29.473 29.473 29.973 29.973 31.473 31.973 32.973 33.973 34.973 35.473 36.973 40.973 41.473 45.473
KELHEIM KELHEIM KELHEIM KELHEIM KELHEIM KELHEIM KELHEIM KELHEIM KELHEIM KELHEIM KELHEIM KELHEIM KELHEIM KELHEIM KELHEIM KELHEIM KELHEIM KELHEIM
-
AUGSBURG PASSAU REGENSBURG WEIDEN LANDSHUT BAYREUTH SCHWEINFURT HOF WUERZBURG MUENCHEN NEU-ULM FUERTH NUERNBERG INGOLSTADT KULMBACH ANSBACH ASCHAFFENBURG BURGHAUSEN
-58.473 -44.473 -41.473 -37.973 -35.473 -35.473 -34.973 -33.973 -32.973 -32.973 -32.473 -32.473 -31.473 -30.473 -29.473 -28.473 -27.473 -26.973
-27.500 -13.500 -10.500 -7.000 -4.500 -4.500 -4.000 -3.000 -2.000 -2.000 -1.500 -1.500 -0.500 0.500 1.500 2.500 3.500 4.000
3.473 17.473 20.473 23.973 26.473 26.473 26.973 27.973 28.973 28.973 29.473 29.473 30.473 31.473 32.473 33.473 34.473 34.973
- 114 -
24
- 115 -
Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der Umwelt-Datei General Linear Models Procedure
NAME Comparison
Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit
KELHEIM KELHEIM KELHEIM KELHEIM
-
ERLANGEN KEMPTEN OBERAUDORF TROSTBERG
-25.473 -21.473 -20.973 -16.973
5.500 9.500 10.000 14.000
36.473 40.473 40.973 44.973
INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT INGOLSTADT
-
AUGSBURG PASSAU REGENSBURG WEIDEN LANDSHUT BAYREUTH SCHWEINFURT HOF WUERZBURG MUENCHEN NEU-ULM FUERTH NUERNBERG KELHEIM KULMBACH ANSBACH ASCHAFFENBURG BURGHAUSEN ERLANGEN KEMPTEN OBERAUDORF TROSTBERG
-58.973 -44.973 -41.973 -38.473 -35.973 -35.973 -35.473 -34.473 -33.473 -33.473 -32.973 -32.973 -31.973 -31.473 -29.973 -28.973 -27.973 -27.473 -25.973 -21.973 -21.473 -17.473
-28.000 -14.000 -11.000 -7.500 -5.000 -5.000 -4.500 -3.500 -2.500 -2.500 -2.000 -2.000 -1.000 -0.500 1.000 2.000 3.000 3.500 5.000 9.000 9.500 13.500
2.973 16.973 19.973 23.473 25.973 25.973 26.473 27.473 28.473 28.473 28.973 28.973 29.973 30.473 31.973 32.973 33.973 34.473 35.973 39.973 40.473 44.473
KULMBACH KULMBACH KULMBACH KULMBACH KULMBACH KULMBACH KULMBACH KULMBACH KULMBACH KULMBACH KULMBACH KULMBACH KULMBACH KULMBACH KULMBACH KULMBACH KULMBACH KULMBACH KULMBACH
-
AUGSBURG PASSAU REGENSBURG WEIDEN LANDSHUT BAYREUTH SCHWEINFURT HOF WUERZBURG MUENCHEN NEU-ULM FUERTH NUERNBERG KELHEIM INGOLSTADT ANSBACH ASCHAFFENBURG BURGHAUSEN ERLANGEN
-59.973 -45.973 -42.973 -39.473 -36.973 -36.973 -36.473 -35.473 -34.473 -34.473 -33.973 -33.973 -32.973 -32.473 -31.973 -29.973 -28.973 -28.473 -26.973
-29.000 -15.000 -12.000 -8.500 -6.000 -6.000 -5.500 -4.500 -3.500 -3.500 -3.000 -3.000 -2.000 -1.500 -1.000 1.000 2.000 2.500 4.000
1.973 15.973 18.973 22.473 24.973 24.973 25.473 26.473 27.473 27.473 27.973 27.973 28.973 29.473 29.973 31.973 32.973 33.473 34.973
- 116 -
25
Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der Umwelt-Datei
26
General Linear Models Procedure
NAME Comparison
Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit
KULMBACH KULMBACH KULMBACH
- KEMPTEN - OBERAUDORF - TROSTBERG
-22.973 -22.473 -18.473
8.000 8.500 12.500
38.973 39.473 43.473
ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH ANSBACH
-
AUGSBURG PASSAU REGENSBURG WEIDEN LANDSHUT BAYREUTH SCHWEINFURT HOF WUERZBURG MUENCHEN NEU-ULM FUERTH NUERNBERG KELHEIM INGOLSTADT KULMBACH ASCHAFFENBURG BURGHAUSEN ERLANGEN KEMPTEN OBERAUDORF TROSTBERG
-60.973 -46.973 -43.973 -40.473 -37.973 -37.973 -37.473 -36.473 -35.473 -35.473 -34.973 -34.973 -33.973 -33.473 -32.973 -31.973 -29.973 -29.473 -27.973 -23.973 -23.473 -19.473
-30.000 -16.000 -13.000 -9.500 -7.000 -7.000 -6.500 -5.500 -4.500 -4.500 -4.000 -4.000 -3.000 -2.500 -2.000 -1.000 1.000 1.500 3.000 7.000 7.500 11.500
0.973 14.973 17.973 21.473 23.973 23.973 24.473 25.473 26.473 26.473 26.973 26.973 27.973 28.473 28.973 29.973 31.973 32.473 33.973 37.973 38.473 42.473
ASCHAFFENBURG ASCHAFFENBURG ASCHAFFENBURG ASCHAFFENBURG ASCHAFFENBURG ASCHAFFENBURG ASCHAFFENBURG ASCHAFFENBURG ASCHAFFENBURG ASCHAFFENBURG ASCHAFFENBURG ASCHAFFENBURG ASCHAFFENBURG ASCHAFFENBURG ASCHAFFENBURG ASCHAFFENBURG ASCHAFFENBURG ASCHAFFENBURG ASCHAFFENBURG ASCHAFFENBURG
-
AUGSBURG PASSAU REGENSBURG WEIDEN LANDSHUT BAYREUTH SCHWEINFURT HOF WUERZBURG MUENCHEN NEU-ULM FUERTH NUERNBERG KELHEIM INGOLSTADT KULMBACH ANSBACH BURGHAUSEN ERLANGEN KEMPTEN
-61.973 -47.973 -44.973 -41.473 -38.973 -38.973 -38.473 -37.473 -36.473 -36.473 -35.973 -35.973 -34.973 -34.473 -33.973 -32.973 -31.973 -30.473 -28.973 -24.973
-31.000 -17.000 -14.000 -10.500 -8.000 -8.000 -7.500 -6.500 -5.500 -5.500 -5.000 -5.000 -4.000 -3.500 -3.000 -2.000 -1.000 0.500 2.000 6.000
-0.027 13.973 16.973 20.473 22.973 22.973 23.473 24.473 25.473 25.473 25.973 25.973 26.973 27.473 27.973 28.973 29.973 31.473 32.973 36.973
- 117 -
***
Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der Umwelt-Datei
27
General Linear Models Procedure
NAME Comparison
Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit
ASCHAFFENBURG - OBERAUDORF ASCHAFFENBURG - TROSTBERG
-24.473 -20.473
6.500 10.500
37.473 41.473
BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN BURGHAUSEN
-
AUGSBURG PASSAU REGENSBURG WEIDEN LANDSHUT BAYREUTH SCHWEINFURT HOF WUERZBURG MUENCHEN NEU-ULM FUERTH NUERNBERG KELHEIM INGOLSTADT KULMBACH ANSBACH ASCHAFFENBURG ERLANGEN KEMPTEN OBERAUDORF TROSTBERG
-62.473 -48.473 -45.473 -41.973 -39.473 -39.473 -38.973 -37.973 -36.973 -36.973 -36.473 -36.473 -35.473 -34.973 -34.473 -33.473 -32.473 -31.473 -29.473 -25.473 -24.973 -20.973
-31.500 -17.500 -14.500 -11.000 -8.500 -8.500 -8.000 -7.000 -6.000 -6.000 -5.500 -5.500 -4.500 -4.000 -3.500 -2.500 -1.500 -0.500 1.500 5.500 6.000 10.000
-0.527 13.473 16.473 19.973 22.473 22.473 22.973 23.973 24.973 24.973 25.473 25.473 26.473 26.973 27.473 28.473 29.473 30.473 32.473 36.473 36.973 40.973
***
ERLANGEN ERLANGEN ERLANGEN ERLANGEN ERLANGEN ERLANGEN ERLANGEN ERLANGEN ERLANGEN ERLANGEN ERLANGEN ERLANGEN ERLANGEN ERLANGEN ERLANGEN ERLANGEN ERLANGEN ERLANGEN ERLANGEN ERLANGEN ERLANGEN
-
AUGSBURG PASSAU REGENSBURG WEIDEN LANDSHUT BAYREUTH SCHWEINFURT HOF WUERZBURG MUENCHEN NEU-ULM FUERTH NUERNBERG KELHEIM INGOLSTADT KULMBACH ANSBACH ASCHAFFENBURG BURGHAUSEN KEMPTEN OBERAUDORF
-63.973 -49.973 -46.973 -43.473 -40.973 -40.973 -40.473 -39.473 -38.473 -38.473 -37.973 -37.973 -36.973 -36.473 -35.973 -34.973 -33.973 -32.973 -32.473 -26.973 -26.473
-33.000 -19.000 -16.000 -12.500 -10.000 -10.000 -9.500 -8.500 -7.500 -7.500 -7.000 -7.000 -6.000 -5.500 -5.000 -4.000 -3.000 -2.000 -1.500 4.000 4.500
-2.027 11.973 14.973 18.473 20.973 20.973 21.473 22.473 23.473 23.473 23.973 23.973 24.973 25.473 25.973 26.973 27.973 28.973 29.473 34.973 35.473
***
- 118 -
Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der Umwelt-Datei
28
General Linear Models Procedure
NAME Comparison
Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit
ERLANGEN
- TROSTBERG
-22.473
8.500
39.473
KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN KEMPTEN
-
AUGSBURG PASSAU REGENSBURG WEIDEN LANDSHUT BAYREUTH SCHWEINFURT HOF WUERZBURG MUENCHEN NEU-ULM FUERTH NUERNBERG KELHEIM INGOLSTADT KULMBACH ANSBACH ASCHAFFENBURG BURGHAUSEN ERLANGEN OBERAUDORF TROSTBERG
-67.973 -53.973 -50.973 -47.473 -44.973 -44.973 -44.473 -43.473 -42.473 -42.473 -41.973 -41.973 -40.973 -40.473 -39.973 -38.973 -37.973 -36.973 -36.473 -34.973 -30.473 -26.473
-37.000 -23.000 -20.000 -16.500 -14.000 -14.000 -13.500 -12.500 -11.500 -11.500 -11.000 -11.000 -10.000 -9.500 -9.000 -8.000 -7.000 -6.000 -5.500 -4.000 0.500 4.500
-6.027 7.973 10.973 14.473 16.973 16.973 17.473 18.473 19.473 19.473 19.973 19.973 20.973 21.473 21.973 22.973 23.973 24.973 25.473 26.973 31.473 35.473
***
OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF OBERAUDORF
-
AUGSBURG PASSAU REGENSBURG WEIDEN LANDSHUT BAYREUTH SCHWEINFURT HOF WUERZBURG MUENCHEN NEU-ULM FUERTH NUERNBERG KELHEIM INGOLSTADT KULMBACH ANSBACH ASCHAFFENBURG BURGHAUSEN ERLANGEN KEMPTEN TROSTBERG
-68.473 -54.473 -51.473 -47.973 -45.473 -45.473 -44.973 -43.973 -42.973 -42.973 -42.473 -42.473 -41.473 -40.973 -40.473 -39.473 -38.473 -37.473 -36.973 -35.473 -31.473 -26.973
-37.500 -23.500 -20.500 -17.000 -14.500 -14.500 -14.000 -13.000 -12.000 -12.000 -11.500 -11.500 -10.500 -10.000 -9.500 -8.500 -7.500 -6.500 -6.000 -4.500 -0.500 4.000
-6.527 7.473 10.473 13.973 16.473 16.473 16.973 17.973 18.973 18.973 19.473 19.473 20.473 20.973 21.473 22.473 23.473 24.473 24.973 26.473 30.473 34.973
***
- 119 -
Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der Umwelt-Datei
29
General Linear Models Procedure
NAME Comparison TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG TROSTBERG
-
AUGSBURG PASSAU REGENSBURG WEIDEN LANDSHUT BAYREUTH SCHWEINFURT HOF WUERZBURG MUENCHEN NEU-ULM FUERTH NUERNBERG KELHEIM INGOLSTADT KULMBACH ANSBACH ASCHAFFENBURG BURGHAUSEN ERLANGEN KEMPTEN OBERAUDORF
Simultaneous Simultaneous Lower Difference Upper Confidence Between Confidence Limit Means Limit -72.473 -58.473 -55.473 -51.973 -49.473 -49.473 -48.973 -47.973 -46.973 -46.973 -46.473 -46.473 -45.473 -44.973 -44.473 -43.473 -42.473 -41.473 -40.973 -39.473 -35.473 -34.973
- 120 -
-41.500 -27.500 -24.500 -21.000 -18.500 -18.500 -18.000 -17.000 -16.000 -16.000 -15.500 -15.500 -14.500 -14.000 -13.500 -12.500 -11.500 -10.500 -10.000 -8.500 -4.500 -4.000
-10.527 3.473 6.473 9.973 12.473 12.473 12.973 13.973 14.973 14.973 15.473 15.473 16.473 16.973 17.473 18.473 19.473 20.473 20.973 22.473 26.473 26.973
***
Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der Umwelt-Datei
30
General Linear Models Procedure Duncan's Multiple Range Test for variable: STAUB NOTE: This test controls the type I comparisonwise error rate, not the experimentwise error rate Alpha= 0.05
df= 22
MSE= 21.29447
Number of Means 2 Critical Range 2.822 Means with the same letter are not significantly different. Duncan Grouping
Mean
N
DATUM
A
40.870
23
APR94
B
35.826
23
JUL93
- 121 -
Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der Umwelt-Datei
31
General Linear Models Procedure Duncan's Multiple Range Test for variable: STAUB NOTE: This test controls the type I comparisonwise error rate, not the experimentwise error rate Alpha= 0.05 Number of Means Critical Range
df= 22
MSE= 21.29447
2 3 4 5 6 7 8 9 9.57 10.05 10.35 10.57 10.73 10.85 10.95 11.03
Number of Means 10 11 12 13 14 15 16 17 Critical Range 11.09 11.14 11.18 11.22 11.24 11.27 11.29 11.30 Number of Means 18 19 20 21 22 23 Critical Range 11.31 11.32 11.35 11.33 11.34 11.34 Means with the same letter are not significantly different. Duncan Grouping
Mean
N
NAME
A
64.500
2
AUGSBURG
B B B B B B B B B B B B B
50.500
2
PASSAU
47.500
2
REGENSBURG
44.000
2
WEIDEN
41.500
2
LANDSHUT
41.500
2
BAYREUTH
41.000
2
SCHWEINFURT
40.000
2
HOF
39.000
2
WUERZBURG
39.000
2
MUENCHEN
38.500
2
NEU-ULM
38.500
2
FUERTH
37.500
2
NUERNBERG
37.000
2
KELHEIM
36.500
2
INGOLSTADT
35.500
2
KULMBACH
34.500
2
ANSBACH
G G G G G G G G G
C C C C C C C C C C C C C C C C C C C C C C C C C
E E E E E E E E E E E E E E E E E E E E E E E E E
F F F F F F F F F F F F F
D D D D D D D D D D D D D D D D D D D D D D D D D D D
- 122 -
Zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle der Umwelt-Datei General Linear Models Procedure Duncan Grouping G G G G G G G G G G
H H H H H H H H H H H
E E E E E E
F F F F F F F F
D D D D
Mean
N
NAME
33.500
2
ASCHAFFENBURG
33.000
2
BURGHAUSEN
31.500
2
ERLANGEN
27.500
2
KEMPTEN
27.000
2
OBERAUDORF
23.000
2
TROSTBERG
- 123 -
32
Die Umwelt-Datei mit Residuen OBS 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46
Messort ANSBACH ASCHAFFENBURG AUGSBURG BAYREUTH BURGHAUSEN ERLANGEN FUERTH HOF INGOLSTADT KELHEIM KEMPTEN KULMBACH LANDSHUT MUENCHEN NEU-ULM NUERNBERG OBERAUDORF PASSAU REGENSBURG SCHWEINFURT TROSTBERG WEIDEN WUERZBURG ANSBACH ASCHAFFENBURG AUGSBURG BAYREUTH BURGHAUSEN ERLANGEN FUERTH HOF INGOLSTADT KELHEIM KEMPTEN KULMBACH LANDSHUT MUENCHEN NEU-ULM NUERNBERG OBERAUDORF PASSAU REGENSBURG SCHWEINFURT TROSTBERG WEIDEN WUERZBURG
33
Staubkonzentration
Datum
Residuum
26 35 70 38 31 29 34 33 35 36 25 31 40 39 37 37 26 52 43 32 21 39 35 43 32 59 45 35 34 43 47 38 38 30 40 43 39 40 38 28 49 52 50 25 49 43
JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 JUL93 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94 APR94
-5.97826 4.02174 8.02174 -0.97826 0.52174 0.02174 -1.97826 -4.47826 1.02174 1.52174 0.02174 -1.97826 1.02174 2.52174 1.02174 2.02174 1.52174 4.02174 -1.97826 -6.47826 0.52174 -2.47826 -1.47826 5.97826 -4.02174 -8.02174 0.97826 -0.52174 -0.02174 1.97826 4.47826 -1.02174 -1.52174 -0.02174 1.97826 -1.02174 -2.52174 -1.02174 -2.02174 -1.52174 -4.02174 1.97826 6.47826 -0.52174 2.47826 1.47826
- 124 -
Test der Normalverteilungsannahme der Umwelt-Datei Univariate Procedure Variable=T
Residuum Moments N Mean Std Dev Skewness USS CV T:Mean=0 Num ^= 0 M(Sign) Sgn Rank W:Normal
46 0 3.22655 0 468.4783 . 0 46 0 2.5 0.981814
Sum Wgts Sum Variance Kurtosis CSS Std Mean Pr>|T| Num > 0 Pr>=|M| Pr>=|S| Pr<W
46 0 10.41063 0.662237 468.4783 0.475729 1.0000 23 1.0000 0.9786 0.8105
Quantiles(Def=5) 100% 75% 50% 25% 0%
Max Q3 Med Q1 Min
Range Q3-Q1 Mode
8.021739 1.978261 1.07E-14 -1.97826 -8.02174
99% 95% 90% 10% 5% 1%
8.021739 5.978261 4.021739 -4.02174 -5.97826 -8.02174
16.04348 3.956522 -1.97826 Extremes
Lowest -8.02174( -6.47826( -5.97826( -4.47826( -4.02174(
Obs 26) 20) 1) 8) 41)
Highest 4.021739( 4.478261( 5.978261( 6.478261( 8.021739(
- 125 -
Obs 18) 31) 24) 43) 3)
34
Zweifaktorielle Varianzanalyse der Geburt-Datei General Linear Models Procedure Class Level Information Class
Levels
Values
KRANK
2
j n
KLASSE
3
1 2 3
Number of observations in data set = 31
- 126 -
35
Zweifaktorielle Varianzanalyse der Geburt-Datei
36
General Linear Models Procedure Dependent Variable: GEWICHT
Mean Square
F Value
Pr > F
337070.23
67414.05
1.15
0.3595
25
1461813.64
58472.55
30
1798883.87
R-Square
C.V.
Root MSE
GEWICHT Mean
0.187377
11.10210
241.81
2178.1
DF
Type III SS
Mean Square
F Value
Pr > F
1 2 2
29054.73 258040.82 19650.44
29054.73 129020.41 9825.22
0.50 2.21 0.17
0.4874 0.1311 0.8463
Source
DF
Model
5
Error Corrected Total
Source KRANK KLASSE KRANK*KLASSE
Geburtsgewicht Sum of Squares
- 127 -
Zweifaktorielle Varianzanalyse der Geburt-Datei
37
General Linear Models Procedure Least Squares Means KRANK j n
GEWICHT LSMEAN
Std Err LSMEAN
Pr > |T| H0:LSMEAN=0
2201.66667 2121.16162
95.93754 61.96052
0.0001 0.0001
KLASSE 1 2 3
Pr > |T| H0: LSMEAN1=LSMEAN2
GEWICHT LSMEAN
Std Err LSMEAN
Pr > |T| H0:LSMEAN=0
2006.66667 2226.66667 2250.90909
85.49309 78.04416 126.28166
0.0001 0.0001 0.0001
0.4874
LSMEAN Number 1 2 3
Pr > |T| H0: LSMEAN(i)=LSMEAN(j) i/j 1 1 . 2 0.0690 3 0.1218
2 0.0690 . 0.8716
3 0.1218 0.8716 .
NOTE: To ensure overall protection level, only probabilities associated with pre-planned comparisons should be used.
- 128 -
Die Geburt-Datei mit Residuen OBS 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
38
Gelbsucht
Klasse
Schwangerschaftsdauer
Geburtsgewicht
Residuum
n n n n n n n n n n n n n n n n n n n n j j j j j j j j j j j
1 1 1 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 1 1 1 1 1 1 2 2 2 2 3
206 246 246 260 261 262 263 266 270 272 272 273 273 273 273 274 275 277 278 291 210 224 228 235 242 242 253 254 255 263 271
1440 1850 2480 2100 2150 1800 2400 2450 2230 2000 2300 2230 2300 2400 2500 2300 2100 2450 2100 2090 1800 1950 1900 2190 2300 2400 2050 2430 2230 2350 2250
-483.333 -73.333 556.667 -88.333 -38.333 -388.333 211.667 261.667 41.667 -251.818 48.182 -21.818 48.182 148.182 248.182 48.182 -151.818 198.182 -151.818 -161.818 -290.000 -140.000 -190.000 100.000 210.000 310.000 -215.000 165.000 -35.000 85.000 0.000
- 129 -
Test der Normalverteilungsannahme der Geburt-Datei Univariate Procedure Variable=U
Residuum Moments N Mean Std Dev Skewness USS CV T:Mean=0 Num ^= 0 M(Sign) Sgn Rank W:Normal
31 0 220.7422 0.092713 1461814 . 0 30 0 4.5 0.99134
Sum Wgts Sum Variance Kurtosis CSS Std Mean Pr>|T| Num > 0 Pr>=|M| Pr>=|S| Pr<W
31 0 48727.12 0.357334 1461814 39.64647 1.0000 15 1.0000 0.9281 0.9950
Quantiles(Def=5) 100% 75% 50% 25% 0%
Max Q3 Med Q1 Min
Range Q3-Q1 Mode
556.6667 165 0 -151.818 -483.333
99% 95% 90% 10% 5% 1%
556.6667 310 248.1818 -251.818 -388.333 -483.333
1040 316.8182 48.18182 Extremes
Lowest -483.333( -388.333( -290( -251.818( -215(
Obs 1) 6) 21) 10) 27)
Highest 211.6667( 248.1818( 261.6667( 310( 556.6667(
- 130 -
Obs 7) 15) 8) 26) 3)
39