Jahrgang 50 / Heft 1 / 2018
Zeitschrift für
Entwicklungspsychologie und Pädagogische Psychologie
Herausgeber Matthias Nückles Ilonca Hardy Ursula Kessels Mareike Kunter Norbert Zmyj
Andreas Hillert Stefan Koch Dirk Lehr
Burnout und chronischer beruflicher Stress Ein Ratgeber für Betroffene und Angehörige
Andreas Hillert / Stefan Koch / Dirk Lehr
Falko Rheinberg / Siegbert Krug
Burnout und chronischer beruflicher Stress
Motivationsförderung im Schulalltag
Ein Ratgeber für Betroffene und Angehörige
Psychologische Grundlagen und praktische Durchführung
(Ratgeber zur Reihe: „Fortschritte der Psychotherapie“, Band 39). 2018, 89 Seiten, Kleinformat, € 9,95 / CHF 13.50 ISBN 978-3-8017-2833-5 Auch als eBook erhältlich
Angesichts der aktuellen, von zunehmendem Druck dominierten Arbeitswelt, erleben viele berufstätige Menschen andauernden Stress, nicht wenige fühlen sich überlastet und „ausgebrannt“. Der Ratgeber informiert über die Zusammenhänge von beruflicher Belastung sowie von Stress- und Burnouterleben. Er stellt wissenschaftlich fundierte und praktisch bewährte Strategien vor, wie mit beruflichen Belastungen und chronischem Stress konstruktiv umgegangen werden kann.
Falko Rheinberg Siegbert Krug
Motivationsförderung im Schulalltag Psychologische Grundlagen und praktische Durchführung 4., aktualisierte Auflage
Das Buch schildert die Entwicklung und Erprobung von Techniken, die zur Motivationsförderung im Schulalltag eingesetzt werden können. Dabei werden sowohl Maßnahmen für Schüler als auch für Lehrkräfte berücksichtigt. In den ersten Kapiteln werden die motivationspsychologischen Konzepte vorgestellt, die dem praktischen Vorgehen zugrunde liegen. Anschließend werden die Herleitung, Durchführung und Erprobung der einzelnen Interventions- und Trainingsmaßnahmen beschrieben.
Charlotte Hanischet al.
Anke Beyer / Arnold Lohaus
Schulbasiertes Coaching bei Kindern mit expansivem Problemverhalten (SCEP)
Stressbewältigung im Jugendalter
Stressbewältigung im Jugendalter
Handbuch zum Coaching von Lehrkräften Charlotte Hanisch Stefanie Richard Ilka Eichelberger Lisa Greimel Manfred Döpfner
Schulbasiertes Coaching bei Kindern mit expansivem Problemverhalten (SCEP) Handbuch zum Coaching von Lehrkräften
2018, 136 Seiten, Großformat, inkl. CD-ROM, € 59,95 / CHF 75.00 ISBN 978-3-8017-2813-7 Auch als eBook erhältlich
Das Schulcoaching SCEP richtet sich an Fachkräfte, die Lehrpersonen im Umgang mit expansiv-auffälligen Schülern, v. a. an Grundschulen, fortbilden möchten. SCEP wurde auf der Grundlage verhaltenstherapeutischer Methoden entwickelt und hinsichtlich seiner Wirksamkeit überprüft. Der modulare Aufbau mit 12 Bausteinen bietet die Möglichkeit, die Auswahl der Inhalte und die Reihenfolge der Bausteine individuell an den Bedürfnissen der jeweiligen Lehrperson auszurichten.
www.hogrefe.com
4., aktualisierte Auflage 2017, 252 Seiten, € 34,95 / CHF 45.50 ISBN 978-3-8017-1950-0
Anke Beyer Arnold Lohaus
Therapeutische Praxis
Ein Trainingsprogramm 2., überarbeitete Auflage
Ein Trainingsprogramm (Reihe: „Therapeutische Praxis“) 2., überarbeitete Auflage 2018, 130 Seiten, Großformat, inkl. CD-ROM, € 36,95 / CHF 45.90 ISBN 978-3-8017-2858-8 Auch als eBook erhältlich
Viele Jugendliche leiden regelmäßig unter Stresssymptomen wie Kopfschmerzen, Schlafproblemen und Appetitlosigkeit, aber auch Gefühlen der Anspannung und Überforderung. Das Stresspräventionsprogramm SNAKE soll Jugendliche dabei unterstützen, aktuelle Belastungssituationen besser zu bewältigen und sie auf den Umgang mit zukünftigen Stresssituationen vorzubereiten. Es richtet sich in erster Linie an Jugendliche der Klassen 7 bis 9 und lässt sich gut im Schulalltag integrieren.
Zeitschrift f체r
Entwicklungspsychologie und P채dagogische Psychologie
Jahrgang 50 / Heft 1 / 2018 Organ der Deutschen Gesellschaft f체r Psychologie (DGPs) und der Fachgruppen Entwicklungspsychologie und P채dagogische Psychologie
Herausgeber
Prof. Dr. Matthias Nückles, Albert-Ludwig-Universität, Department of Educational Sciences, Rempartstraße 11, 79085 Freiburg Prof. Dr. Ilonca Hardy, Frankfurt Prof. Dr. Ursula Kessels, Berlin Prof. Dr. Mareike Kunter, Frankfurt Prof. Dr. Norbert Zmyj, Dortmund Verantwortlich für Testbesprechungen: Prof. Dr. Pia Deimann, Wien Prof. Dr. Ursula Kastner-Koller, Wien
Beirat
Prof. Dr. Gisa Aschersleben, Universität Saarbrücken Prof. Dr. Oliver Dickhäuser, Universität Mannheim Prof. Dr. Marcus Hasselhorn, DIPF Frankfurt Prof. Dr. Manfred Holodynski, Universität Münster Prof. Dr. Eckard Klieme, DIPF Frankfurt Prof. Dr. Birgit Leyendecker, Universität Bochum Prof. Dr. Ulman Lindenberger, MPI Berlin
Hinweise für Autoren
Die Richtlinien zur Manuskriptgestaltung und Hinweise für Autoren können unter www.hogrefe.de/j/zepp mit dem Acrobat Reader heruntergeladen werden.
Verlag
Hogrefe Verlag GmbH & Co. KG, Merkelstraße 3, 37085 Göttingen, Postfach 3751, 37027 Göttingen, Tel. 0551 99950 0, Fax 0551 99950 111, Verlag: verlag@hogrefe.de Redaktion: journals@hogrefe.de, Internet: http://www.hogrefe.de Verleger: Dr. G.-Jürgen Hogrefe
Herstellung
Nina Barkau, Hogrefe Verlag GmbH & Co. KG, Merkelstraße 3, 37085 Göttingen, Tel. 0551 99950 446, Fax 0551 99950 445
Vertrieb/Verwaltung
Hendriekje Thiel, Hogrefe Verlag GmbH & Co. KG, Herbert-Quandt-Straße 4, 37081 Göttingen, Tel. 0551 99950 900, Fax 0551 99950 998
Anzeigen-/Beilagenverwaltung
Nadine Teichert, Hogrefe Verlag GmbH & Co. KG, Merkelstraße 3, 37085 Göttingen, Tel. 0551 99950 526, Fax 0551 99950 111
Gesamtherstellung
Konrad Triltsch, Print und digitale Medien GmbH, Johannes-Gutenberg-Straße 1 – 3, 97199 Ochsenfurt-Hohestadt
ISSN
ISSN-L 0049-8637, ISSN-Print 0049-8637, ISSN-Online 2190-6262 Die Zeitschrift und alle in ihr enthaltenen einzelnen Beiträge und Abbildungen sind urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Alle Rechte, auch das der Übersetzung, vorbehalten.
Erscheinungsweise
vierteljährlich
Bezugsbedingungen
Jahresabonnement Institute € 211,– / SFr 265,–; Jahresabonnement Privat € 91,– / SFr 121,–; Einzelheft € 53,– / SFr 69,10 zzgl. Porto- und Versandgebühren (unverbindliche Preisempfehlung). Die Preise verstehen sich in Deutschland inkl. MwSt. und für Lieferungen von Deutschland ins Ausland exkl. MwSt. Das Abonnement verpflichtet zum Bezug eines ganzen Jahrgangs. Das Abonnement verlängert sich, wenn nicht bis 8 Wochen vor Jahresende abbestellt wird. Bei Ausfall der Lieferung durch höhere Gewalt, Streik oder dergleichen ergeben sich hieraus keine Ansprüche auf Lieferung oder Rückzahlung des Bezugsgeldes durch den Verlag. Lieferung erfolgt auf Gefahr des Empfängers. Der Abonnent ist damit einverstanden, dass der Transportdienstleister ggf. den Verlag während der Laufzeit des Abonnements über eine Anschriftenänderung informiert. Ist er nicht damit einverstanden, hat er dies spätestens zwei Wochen nach Erhalt des ersten Heftes schriftlich dem Verlag mitzuteilen.
Zahlungen
an Hogrefe Verlag GmbH & Co. KG, Merkelstraße 3, 37085 Göttingen Bankverbindung: Deutsche Bank Göttingen, IBAN DE 32 2607 0072 0041 1116 00, BIC DEUTDE2H260
Gelistet in
Social Sciences Citation Index (SSCI), Current Contents/Social & Behavioral Sciences, PsycINFO, PsycLit, PsyJOURNALS, PSYNDEX, IBZ, IBR und Scopus, Impact Faktor (2016): 0.6
Elektronische Volltexte
http://econtent.hogrefe.com
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1)
Prof. Dr. Claudia Roebers, Universität Bern Prof. Dr. Wolfgang Schneider, Universität Würzburg Prof. Dr. Beate Sodian, LMU München Prof. Dr. Petra Stanat, FU Berlin Prof. Dr. Sabine Weinert, Universität Bamberg
© 2018 Hogrefe Verlag
Inhalt Editorial
Editorial
1
Matthias Nückles, Ilonca Hardy, Ursula Kessels, Mareike Kunter und Norbert Zmyj Originalarbeiten
Die New Statistics in der Psychologie. Status quo und Zukunft der Datenanalyse
3
The New Statistics in Psychology – The Status Quo and Future of Data Analysis Thomas Schäfer Benotung und Autonomieförderung – (k)ein Widerspruch in sich!?
19
Grading and Students’ Autonomy – Does It Fit? Natalia Hofferber, Melanie Basten und Matthias Wilde Kompetenztestung bei Grundschulkindern. Differenzielle Effekte unterschiedlicher Testbedingungen
33
Competence Testing in Primary School Children: Differential Effects of Different Test Administration Modes Kathrin Lockl, Marion Händel und Cordula Artelt Freundschaften im Klassenzimmer und deren Bedeutung für einen adaptiven individuellen Umgang mit Fehlern
44
Friendships in the Classroom and Their Importance for Adaptive Individual Dealing with Errors Maria Tulis, Marion Reindl und Markus Dresel Hinweise für Autorinnen und Autoren
© 2018 Hogrefe Verlag
59
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1)
DiLe-D
LoMo 3-6
Differenzierter Lesetest – Dekodieren
Leistungsinventar zur objektiven Überprüfung der Motorik von 3- bis 6-Jährigen
L. Paleczek / S. Seifert / T. Obendrauf / S. Schwab / B. Gasteiger-Klicpera
J. Jaščenoka / F. Petermann
Reihe: Hogrefe Schultests Hrsg. von M. Hasselhorn / W. Schneider / U. Trautwein Einsatzbereich: Der DiLe-D richtet sich an Kinder der 1. bis 3. Grundschulklasse. Das Verfahren kann zum Schuljahresende der 1. Schulstufe (letzte 6 Wochen) sowie jeweils zu Schuljahresbeginn und -ende der 2. und 3. Schulstufe (jeweils in den ersten und den letzten 6 Wochen) eingesetzt werden. Es können sowohl Kinder mit Deutsch als Erstsprache (L1 Deutsch) als auch Kinder mit Deutsch als Zweitsprache (L2 Deutsch) im Einzelsetting untersucht werden. Das Verfahren: Der DiLe-D dient der differenzierten Diagnostik der Lesefähigkeiten. Mit dem Verfahren wird die Dekodierfähigkeit auf lexikalischer sowie auf nicht lexikalischer Ebene erfasst. Somit können Defizite sowohl im lautierenden Lesen als auch in der direkten Worterkennung identifiziert werden. Das Verfahren umfasst zwei Subtests. Der Subtest Wort besteht aus einer Liste mit 157 Wörtern und erfasst die Dekodierfähigkeit auf lexikalischer Ebene. Der Subtest Pseudowort besteht aus einer Liste mit 157 Pseudowörtern und erfasst die Dekodierfähigkeit auf nicht lexikalischer Ebene. Die Kinder werden instruiert, je eine Minute lang aus der Wort- bzw. Pseudowortliste zeilenweise laut vorzulesen. Bei der Auswertung werden Normwerte für die beiden Subtests sowie für einen Gesamtwert für die Dekodierfähigkeit ermittelt.
Einsatzbereich: Der LoMo 3-6 unterstützt Ärzte und Therapeuten bei der Beurteilung des motorischen Entwicklungsstandes von Kindergarten- und Vorschulkindern. Er kann insbesondere dann eingesetzt werden, wenn der Verdacht auf eine umschriebene Entwicklungsstörung der motorischen Funktionen (UEMF) besteht. Leitliniengetreu (nach AWMF) können mit Ausnahme der medizinischen Beurteilung alle Diagnosekriterien einer UEMF überprüft werden. Das Verfahren: Es liegen zwei Testversionen für die Altersgruppe 3;0 bis 4;5 Jahre (Version A) und für die Altersgruppe 4;6 bis 6;11 Jahre (Version B) vor. Version A stellt mit 22 Aufgaben eine verkürzte und leicht modifizierte Variante der Testversion B (32 Aufgaben) dar. Es werden Aufgaben aus den Bereichen der „Handmotorik“ und „Körpermotorik“ überprüft, die gemeinsam die Gesamtskala „Gesamtmotorik“ bilden. Anhand von Beobachtungen aus der Testsituation kann weiterhin ein Lateralitätsquotient zur Bestimmung der Handpräferenz gebildet werden. Mittels Fragebogen kann ein Gesamtwert zu „Alltäglichen motorischen Aktivitäten“ ermittelt werden. Normen: Es wurden insgesamt 963 Kinder untersucht. Für alle Skalen liegen geschlechtsspezifische und Gesamtaltersnormen in 6-Monats-Intervallen vor. Bearbeitungsdauer: Testversion A lässt sich in etwa 25 bis 30 Minuten durchführen; für Testversion B werden etwa 35 bis 45 Minuten benötigt.
Bearbeitungsdauer: Mit Instruktion insgesamt maximal 5 Minuten. 01 537 01 Test komplett
www.hogrefe.com
88,00 €
01 496 01
Test komplett
www.hogrefe.com
840,00 €
Editorial Liebe Leserinnen und Leser, die ZEPP feiert 2018 ihr fünfzigjähriges Bestehen. Welch ein Jubiläum! Das erste Heft der Zeitschrift erschien am 1. 4. 1969. Die Zeitschrift befindet sich damit im 50. Jahrgang. Die Gründungsherausgeber Reinhard Tausch, Hans Thomae und Franz-Emanuel Weinert wollten damals zusammen mit dem Hogrefe Verlag an die Konzeption einer wissenschaftlichen Zeitschrift anknüpfen, die es vor dem zweiten Weltkrieg einmal gegeben hatte, die nun aber seit mehr als 25 Jahren nicht mehr existierte. So gründeten sie die ZEPP, um „die Beziehung zwischen der Forschung in den Bereichen der Entwicklungspsychologie und der Pädagogischen Psychologie auf der einen Seite und der pädagogischen Praxis auf der anderen zu fördern“ (Tausch, Thomae & Weinert, 1969). Seitdem haben diese beiden Teildisziplinen der Psychologie eine beeindruckende Dynamik und Produktivität entfaltet, welche die Gründungsherausgeber schon damals erahnten. Heutzutage sind die Entwicklungspsychologie und die Pädagogische Psychologie in hohem Maße internationalisierte Disziplinen, die ihre je eigenen Fragestellungen und Forschungstrends etabliert haben. Und dennoch ist das Anliegen der Gründungsherausgeber aktueller denn je: Dies zeigt sich etwa im Erfolg der von beiden Fachgruppen in jüngerer Zeit gemeinsam abgehaltenen zweijährlichen Fachgruppentagungen (vgl. http://www.paepsy2017.de/). Zugleich sind durch die gesellschaftliche Aufmerksamkeit, welche unser Bildungssystem und die darin stattfindenden Bildungsprozesse erfahren, die Anerkennung und Bedeutung der von Entwicklungspsychologie und Pädagogischer Psychologie produzierten wissenschaftlichen Erkenntnisse für die pädagogische Praxis in ungeahntem Maße gestiegen. Vor diesem Hintergrund versteht sich die ZEPP als eine Fachzeitschrift, die die entwicklungs- und pädagogischpsychologische Forschung in ihrer gesamten Breite, aber zugleich auch in ihren Berührungs- und Schnittpunkten (z. B. Selbstregulation) repräsentiert. Die ZEPP publiziert theoriegeleitete empirische Originalarbeiten, aber auch Übersichtsreferate und Metaanalysen (vgl. Fischer & Pfost, 2015) sowie Beiträge zur Methodenentwicklung (vgl. Schäfer, 2018; Schoppek, 2015). Sie richtet sich nicht nur an Mitglieder der Scientific Community, sondern explizit auch an Fachleute in der pädagogischen Praxis. Aus diesem Anspruch erwächst die Verpflichtung, wissenschaftliche Fachartikel inhaltlich und sprachlich so zu gestalten, dass sie auch Leserinnen und Lesern zugänglich sind, die vornehmlich am praktischen Nutzen wissenschaftlicher Er© 2018 Hogrefe Verlag
kenntnisse und weniger an deren Weiterentwicklung interessiert sind. Die ZEPP versteht sich außerdem als Forum für Nachwuchswissenschaftlerinnen und Nachwuchswissenschaftler, die im Rahmen ihrer Promotion erste Erfahrungen mit dem Peer-Review-System sammeln wollen. Die Zeit zwischen Annahme und Publikation ist mit unter 6 Monaten erfreulich kurz. Die Annahmequote lag in den vergangenen Jahren meist über 50 %. Im Begutachtungsverfahren achten wir strengstens auf konstruktive und formative Reviews, wobei es nach wie vor schnellere und langsamere Abläufe gibt. Ziel ist, Autorinnen und Autoren innerhalb von 3 Monaten Rückmeldung zu geben. Seit 2012 besteht außerdem die Möglichkeit, Manuskripte in englischer Sprache einzureichen und zu publizieren. Durch unsere Kooperation mit der American Psychological Association (APA) finden alle englischsprachigen Beiträge weltweit Verbreitung, und zwar an ca. 3500 Institutionen und Bibliothekskonsortien mit ca. 44 Millionen Nutzern! Mit dieser Ausgabe scheidet turnusgemäß der geschäftsführende Herausgeber Martin Pinquart aus dem Kreis der Herausgeber aus. Bereits zum Jahreswechsel 2017 war Horst Krist (ehemals geschäftsführender Herausgeber) ausgeschieden. Wir danken beiden Wissenschaftlern für ihr großes Engagement für die ZEPP. Neuer geschäftsführender Herausgeber ist nun Prof. Dr. Matthias Nückles. Im Herausgeberteam weiterhin vertreten sind Prof. Dr. Mareike Kunter, Goethe-Universität Frankfurt (seit 2014), und Prof. Dr. Ursula Kessels, Freie Universität Berlin (seit 2017). Neu hinzugekommen 2018 sind Prof. Dr. Ilonca Hardy, Universität Frankfurt, und Prof. Dr. Nobert Zmyj, Technische Universität Dortmund. Das neue Herausgeberteam freut sich auf eine produktive Zusammenarbeit. Vor allem freuen wir uns aber auf viele spannende – wissenschaftlich und / oder Praxis relevante Manuskripte in deutscher oder englischer Sprache! Prof. Dr. Matthias Nückles Prof. Dr. Ilonca Hardy Prof. Dr. Ursula Kessels Prof. Dr. Mareike Kunter Prof. Dr. Norbert Zmyj matthias.nueckles@ezw.uni-freiburg.de
Literatur Fischer, M. Y. & Pfost, M. (2015). Wie effektiv sind Maßnahmen zur Förderung der phonologischen Bewusstheit? Eine meta-analy-
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 1–2 https://doi.org/10.1026/0049-8637/a000187
2
Editorial
tische Untersuchung der Auswirkungen deutschsprachiger Trainingsprogramme auf den Schriftspracherwerb. Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 47, 35 – 51. https://doi.org/10.1026/0049-8637/a000121 Schäfer, T. (2018). Die New Statistics in der Psychologie. Status quo und Zukunft der Datenanalyse. Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 47, 3 – 18. https://doi. org/10.1026/0049-8637/a000184
Schoppek, W. (2015). Mehrebenenanalyse oder Varianzanalyse? Ein simulationsbasierter Vergleich von Verfahren zur Auswertung pädagogisch-psychologischer Experimente. Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 47, 199 – 209. https://doi.org/10.1026/0049-8637/a000136 Tausch, R., Thomae, H. & Weinert, F. (1969). Vorwort. Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 1, 1.
Kreativ Gefühle und Gedanken äussern Pooky Knightsmith / Emily Hamilton
Das Coping-Colouring-Buch Ausmal- und Tagebuch für Jugendliche 2017. 216 S., Gb € 17,95 / CHF 24.50 ISBN 978-3-456-85827-2 Vollgepackt mit kreativen Aktivitäten, Bewältigungs- und Copingstrategien ist dieses Mal- und Tagebuch der perfekte Begleiter für dich, wenn es darum geht, dem Alltagschaos zu entfliehen, alles, was dich belastet, zu verarbeiten und die schönen Dinge festzuhalten.
Die Autorinnen unterstützen dich mit inspirierenden Zitaten, Gedichten, praktischen Ratschlägen, schönen Bildern und vor allem mit viel Platz zum Kreativwerden. Leg einfach los!
www.hogrefe.com
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 1–2
© 2018 Hogrefe Verlag
Originalarbeit
Die New Statistics in der Psychologie Status quo und Zukunft der Datenanalyse Thomas Schäfer Technische Universität Chemnitz, Fakultät für Human- und Sozialwissenschaften, Institut für Psychologie Zusammenfassung: Wie sollten Daten aus psychologischen Studien analysiert und dargestellt werden? Trotz jahrzehntelanger Argumentationen und Empfehlungen zu dieser Frage gibt es in der Praxis noch immer erhebliche Defizite: der Fokus auf Signifikanztests, das Weglassen von Angaben zur Größe von Effekten, der Verzicht auf das Berechnen von Konfidenzintervallen, das Ignorieren der statischen Power von Studien und vereinzelt sogar das Unterschlagen von Streuungsinformationen bei Mittelwerten prägen nach wie vor die Landschaft psychologischer Vorträge und Publikationen. In diesem Artikel wird argumentiert, dass diese Situation eine zu geringe oder schlicht unklare Evidenz psychologischer Forschung bedingt und daher sowohl eine der Ursachen für die aktuelle Replikationskrise ist als auch die psychologische Theorienbildung und effizientes praktisches Handeln auf Grundlage psychologischer Erkenntnisse erschwert. Gleichzeitig wird gezeigt, wie sich mit den New Statistics (Effektgrößen, Konfidenzintervalle, Power und Replikation) die Evidenz vergrößern lässt. Dabei liegt der Fokus weniger auf neuen Analysemethoden, sondern mehr auf einem längst überfälligen Umdenken in Bezug auf die Art und Weise der Datenauswertung und Dateninterpretation. Faustregeln, alternative Arten von Ergebnisabbildungen, Simulationen zur statistischen Power und schließlich eine Checkliste mit Empfehlungen sollen helfen, das Bewusstsein für den wissenschaftlichen und praktischen Gehalt von Daten und Analyseergebnissen zu schärfen und die Planung von Studien und das Berichten von Analyseergebnissen nachhaltig zu verbessern. Schlüsselwörter: Methoden, Statistik, Effektgrößen, Power, Konfidenzintervall, Replikation
The New Statistics in Psychology – The Status Quo and Future of Data Analysis Abstract: What is the appropriate way of analyzing and reporting data from psychological studies? Although there is a long history of argumentation and practical recommendations, the practice of psychological science still has severe deficits, such as a too-narrow focus on significance testing, the omission of data on effect magnitude, the eschewal of confidence interval calculations, ignoring of statistical power, and occasionally even the omission of measures of dispersion when reporting means, which still characterize the landscape of psychological presentations and publications. In the present article, we argue that this very situation determines weak or unclear evidence of psychological science and is thus one of the reasons for the replication crisis and also impedes psychological theorizing as well as effective practical interventions based on psychological knowledge. The new statistics (effect sizes, confidence intervals, replication, and power) are presented as a way to easily enhance psychological evidence. In doing so, the focus is not on new methods or calculations but rather on an overdue rethinking of how to handle and interpret data. Rules of thumb, alternative ways of how to design figures, simulations of statistical power, and a hands-on checklist with recommendations are presented to help increase awareness of the scientific and practical value of data and analytic results and to improve the planning of studies as well as the reporting of their results. Keywords: methods, statistics, effect size, power, confidence interval, replication
I believe that the almost universal reliance on merely refuting the null hypothesis as the standard method for corroborating substantive theories in the soft areas is a terrible mistake, is basically unsound, poor scientific strategy, and one of the worst things that ever happened in the history of psychology. (Meehl, 1978, S. 817)
Ein häufiges Problem psychologischer Studien: fehlende Evidenz Ein leider immer noch klassischer Fall: Zuhörer_innen eines Vortrags auf einer psychologischen Konferenz bekommen im Zuge der Ergebnisdarstellung einer Studie
Vielen Dank an Esther Israel und Denny Lerche für die Unterstützung bei der Datensammlung. © 2018 Hogrefe Verlag
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 3–18 https://doi.org/10.1026/0049-8637/a000184
4
eine Abbildung präsentiert, die eine Reihe von Mittelwerten als Balken oder Punkte zeigt. Der Referent ist von seinen Ergebnissen begeistert: „Wie Sie sehen können, finden wir einen Effekt nur in der Experimentalgruppe, nicht aber in der Kontrollgruppe, woraus wir schließen können, dass …“ Nun sollten sich eigentlich alle Anwesenden fragen, welchen Nutzen diese Angabe von Mittelwerten ohne Informationen über deren Streuung bietet. Es bleibt aber verhältnismäßig ruhig im Raum. Niemand fragt nach. Man mag das der Höflichkeit der Zuhörer_innen zugute schreiben. Nur leider wiederholt sich das Spiel auf der Konferenz noch sehr oft und man darf sich fragen: Sind die Basics guter methodischer und statistischer Praxis tatsächlich noch so weit davon entfernt eine Selbstverständlichkeit zu sein? Neben dem Berichten von Mittelwerten, die durch die Abwesenheit von Informationen über ihre Streuung ihrer Aussagekraft beraubt sind, findet man in der Praxis eine weitere verbreitete Praktik, die längst überwunden sein sollte: das kategoriale Berichten von p-Werten, zum Beispiel in Form von „p < .05“ oder gar „*“, ohne weitere Angaben. Erschreckenderweise ist diese Praxis auch in Fachzeitschriften nach wie vor weit verbreitet, was verwundert in Anbetracht der Tatsache, dass das Wissen um die relative Bedeutungslosigkeit von bloßen Signifikanztestergebnissen – insbesondere in Form der „Sternchenstrategie“ – seit Jahrzehnten in Lehrveranstaltungen und Lehrbüchern, in den Checklisten und Richtlinien der Fachzeitschriften und nicht zuletzt in den verbindlichen Manualen der Fachgesellschaften festgehalten und umfassend diskutiert wurde. Empfohlen wird hier das Berichten aussagekräftigerer inferenzstatistischer Maße (v. a. Konfidenzintervalle) sowie von Maßen, die die Größe von Stichprobeneffekten beschreiben (v. a. Effektgrößen). Der Verzicht auf statistische Maße wie Streuungen, Effektgrößen oder Konfidenzintervalle führt zu einem großen Problem: er erschwert verlässliche und belastbare Schlussfolgerungen über die Evidenz der vorgestellten Forschungsergebnisse. Als empirische Wissenschaft sucht die Psychologie nach Evidenz für oder gegen Theorien und Hypothesen, für oder gegen die Wirksamkeit von Interventionen, und ganz allgemein für die Größe von Effekten (in der Regel in Form von Unterschieden oder Zusammenhängen). Wenn sich etwa die Pädagogische Psychologie als evidenzbasiert und daher als Anwendung der Erkenntnisse der psychologischen Grundlagendisziplinen wie der Entwicklungspsychologie versteht, so sollte sie dem Wert der Evidenz von Forschungsergebnissen große Aufmerksamkeit widmen. In gleicher Weise sollten aber auch grundlagenwissenschaftlich arbeitende Psycholog_innen daran interessiert sein, überzeugende Evidenz zu generieren. Denn letztlich geht es ihnen um das schrittweise Annähern an die Wahrheit, darum also, für
T. Schäfer, Die New Statistics in der Psychologie
das Funktionieren von Erleben und Verhalten korrekte und empirisch starke Modelle zu finden. Ob es nun um praktische Anwendungen, die Überzeugung der wissenschaftlichen Community oder um das bloße Testen der eigenen Ideen und Hypothesen geht – starke Evidenz hilft uns hier stets weiter als schwache Evidenz, sie bringt uns der Wahrheit näher, macht Erklärungen überzeugender, Vorhersagen fruchtbarer und Interventionen planbarer und effektiver. Schließt man sich dieser Überzeugung an, werden die Probleme deutlicher, die der Verzicht auf Maße wie Streuungen, Effektgrößen oder Konfidenzintervallen verursacht. Mittelwerte ohne Streuungen sind nicht informativ, liefern also schwache oder zumindest unklare Evidenz. Ähnlich sieht es bei den Signifikanztests aus. Natürlich ist auch ein Signifikanztestergebnis Evidenz. Aber auch sie ist schwach. Nicht nur, weil sich dieses Ergebnis auf die relativ arbiträre Logik des Signifikanztests stützt (siehe unten), sondern weil sie vor allem nichts über die Größe des gefundenen Effektes aussagt. Stellen wir uns vor, wir gehören zu den kurzsichtigen Wissenschaftler_innen (wir liegen bei -5 Dioptrien) und denken über eine Laser-OP nach, die Risiken hat und 10.000 Euro kostet. Zur Wirksamkeit sagt uns der Arzt, dass die Methode die Sehkraft „signifikant verbessert (p < .05)“. Diese „Evidenz“ ist uns wahrscheinlich nicht sehr viel wert. Wir würden lieber wissen, um wie viel die Methode unsere Sehkraft verbessern kann, wie groß also der Effekt ist. Erlangen wir hinterher 60, 80 oder gar 100 Prozent der normalen Sehkraft zurück? Wenn wir den Elfenbeinturm verlassen, erkennen wir schnell, dass schwache Evidenz nicht nur der Entwicklung von guten und hilfreichen Anwendungen im Wege steht, sondern auch die Wahrheitsfindung in der Grundlagenwissenschaft erschwert. Wenn wir in unseren Studierenden und Nachwuchswissenschaftler_innen Begeisterung für die Errungenschaften der Psychologie entfachen und sie lehren wollen, wie sie durch gute Wissenschaft sich selbst und andere überzeugen und für die Praxis sinnvolle Interventionen entwickeln können, dann sollten wir ihnen zeigen und vorleben, wie starke Evidenz zustande kommt. Die abträglichen Effekte zu schwacher Evidenz gehen aber über die Aussagekraft einzelner Studien oder deren praktischer Anwendung hinaus: Schwache Evidenz erzeugt auch eine geringe Replizierbarkeit von Befunden. Die dramatische Situation der bedenklich geringen Replizierbarkeit psychologischer Effekte (Open Science Collaboration, 2012, 2015; siehe auch Ioannidis, 2005, 2016, für die Medizin) hat mehrere Ursachen. Zum ersten laufen Datensammlung und Datenanalyse in der Praxis meist nicht nach einem vorher festgelegten Schema ab, sondern orientieren sich zu einem nicht unerheblichen Teil an den anfallenden Daten selbst. Dieser Garden of Forking Paths (Gelman & Loken, 2014) erschwert exakte
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 3–18
© 2018 Hogrefe Verlag
T. Schäfer, Die New Statistics in der Psychologie
5
Replikationen. Dass eine solche explorative Vorgehensweise meist noch nicht einmal als solche deklariert wird, sondern die Datenanalyse als konfirmatorisch im Sinne vorher aufgestellter Hypothesen daherkommt, reicht schon deutlich in den Bereich der Questionable Research Practices (zu denen auch p hacking, HARKing, selektives, sequenzielles und wiederholtes Testen gehören). Befeuert wird diese Situation zusätzlich durch ein zweifelhaft gestaltetes Belohnungssystem der Wissenschaft, welches vor allem neue, ungewöhnliche oder mindestens signifikante Ergebnisse fordert und Nachwuchswissenschaftler_innen zu kurzsichtiger oder drittmittelstarker Forschung und zu kleinteiliger Publikation drängt (Margraf, 2015; Schäfer, 2017). Zum zweiten werden Studien mit kleinen (insbesondere nicht-signifikanten) Effekten – auch dann, wenn sie logisch und konsequent aus einer Theorie abgeleitet wurden und / oder praktisch interessant und bedeutsam wären – oft nicht zur Publikation eingereicht oder systematisch abgelehnt (File Drawer Problem und Publication Bias). Dies führt zu erheblichen Schwierigkeiten, wenn man Erkenntnisse kumulativ zusammentragen möchte (v. a. in Metaanalysen). Den genannten Problemen kann (zumindest teilweise) bei konfirmatorischen Studien durch Präregistrierung bzw. durch verbindliche Regeln für systematische Datensammlungsstrategien und ein systematisches Datenauswertungsmanagement begegnet werden (Wagenmakers, Wetzels, Borsboom, van der Maas & Kievit, 2012). In explorativen Fällen ist es hingegen wichtig, dass der explorative Charakter der Studien deutlich gemacht wird. Und in jedem Fall ist es wichtig, dass sich Forscher_innen über den offenen, progressiven und kumulativen Charakter psychologischer Erkenntnisgewinnung nicht nur im Klaren sind, sondern diesen auch thematisieren und ihre Ergebnisse mit den nötigen Details berichten, sodass nachträglich angemessene Interpretationen und Systematisierungen erfolgen können (Brandt et al., 2014; Cumming, 2014; Gelman & Loken, 2014; Schmidt & Oh, 2016). Die aktuell veröffentlichten Leitlinien von DFG bzw. DGPs zum Umgang mit Forschungsdaten liefern hierfür ein umfassendes Konzept (Schönbrodt, Gollwitzer & AbeleBrehm, 2017). Zum dritten geht die geringe Replizierbarkeit aber auch darauf zurück, dass wir uns zu oft mit schwacher Evidenz bei der Analyse von Daten zufriedengeben. Im Zuge der Signifikanztestproblematik zeigt sich dieses Zufriedengeben mit schwacher Evidenz sehr deutlich erstens im Ignorieren der statistischen Power und zweitens im Weglassen von Angaben über die Größe von Effekten. Die Power (die Wahrscheinlichkeit einen Effekt als signifikant zu entdecken, wenn er in der Population vorhanden ist) ist eine Funktion von Stichprobengröße, Alpha-Niveau und der Größe des Effektes in der Population. Gehen wir in © 2018 Hogrefe Verlag
der Psychologie vom Standardfall aus, in dem Alpha bei 5 Prozent und die Stichprogengröße irgendwo zwischen 30 und 100 liegt, dann bleibt der Effekt in der Population in den meisten Fällen die einzige Einflussgröße, die tatsächlich über die Höhe der Power entscheidet. Wie sich in der aktuellen „Replikationskrise“ zeigt, liegt die Power psychologischer Studien typischerweise zwischen 35 und 50 Prozent (Bakker, Hartgerink, Wicherts & van der Maas, 2016). Egal ob die geringe Power an der Beforschung eher kleiner Populationseffekte oder an der Verwendung zu kleiner Stichproben liegt – sie führt in jedem Fall dazu, dass Signifikanztests weitgehend unbrauchbar sind. Kern der Inferenzstatistik ist die Frage, was passieren würde, wenn man eine Studie sehr oft wiederholen würde. Bei geringer Power heißt die Antwort auf diese Frage: Bei Signifikanztests würde man stark schwankende Ergebnisse (p-Werte) finden und die meisten von ihnen würden nicht signifikant sein. Ein signifikantes Ergebnis würde dann nicht automatisch bedeuten, dass man eine zutreffende Hypothese formuliert oder methodisch alles richtig gemacht hat, sondern in erster Linie nur, dass man Glück hatte. Bei geringer Power heißt das also, dass der Nutzen eines einzelnen signifikanten Ergebnisses stark eingeschränkt ist. Wie lässt sich dem Problem einer zu geringen Evidenz von Daten begegnen? Hier setzen die Überlegungen der New Statistics an.
Die „New Statistics“: Effektgrößen, Konfidenzintervalle, Power und Replikation Der Ausdruck „The New Statistics“ wurde von Cumming (2012, 2014) geprägt und bezieht sich im Wesentlichen auf die Verwendung von Effektgrößen und Konfidenzintervallen, Replikationen und Metaanalysen. Mit „New“ ist dabei nicht gemeint, dass diese Methoden selbst neu sind, sondern dass Forscher_innen in der Psychologie zu einer neuen Denk- und Arbeitsweise gelangen sollten, die den eigentlichen Wert von Daten und Ergebnissen – die Evidenz, die sie tatsächlich liefern – in den Fokus der Betrachtung rückt. Wie schon erwähnt, sollte diese „neue“ Art des statistischen Denkens und Handelns längst eine Selbstverständlichkeit sein, da die entsprechenden Diskussionen und Begründungen sowie deren (teilweise) Implementierung in Statistiksoftware viele Jahrzehnte alt sind (z. B. Berkson, 1938; Cohen, 1990, 1994; Kirk, 1996) und zudem in den Manualen der Fachgesellschaften gefordert werden (z. B. American Psychological Association, 2001, 2010). Dennoch sieht die Wirklichkeit anders aus, wie die oben diskutierten Beispiele zeigen. Sehr eindrück-
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 3–18
6
T. Schäfer, Die New Statistics in der Psychologie
lich lässt sich die Diskrepanz an einem Zitat von Kirk (1996) aus der Zeitschrift Educational and Psychological Measurement zeigen. Er bezieht sich auf die 1996 eingerichtete Task Force der APA, deren Resultat die Forderung nach einer Abkehr vom Nullhypothesen-Signifikanztesten und dem Berechnen und Berichten von Effektgrößen war: This change would cause a chain reaction: Statistics teachers would change their courses, textbook authors would revise their statistics books, and journal authors would modify their inference strategies. The winds of change are about us. Many researchers share the belief that if our science is to progress as it should, we must get over our obsession with null hypothesis significance tests and focus on the practical significance of our data. The appointment of the task force may mark the beginning of a more enlightened approach to the interpretation of data. (Kirk, 1996, S. 757). Zwanzig Jahre nach dieser positiven Vision scheint die traurige Wahrheit zu sein, dass wir hier kaum einen Schritt weitergekommen sind. Im Gegenteil: Es hat offenbar eine Replikationskrise gebraucht, uns die methodische und interpretative Schieflage aufzuzeigen, die durch datenabhängige Analysen, das File Drawer Problem oder eben den unreflektierten Gebrauch vor allem des Signifikanztestens entstanden ist und sich weiter fortsetzt (siehe dazu auch aktuelle Diskussionen z. B. bei Callahan & Reio, 2006; Cumming, 2014; Fidler & Loftus, 2009; Gelman & Loken, 2014; Hammond, 1996; Ioannidis, 2005; Kirk, 2007; Krueger, 2001; Nickerson, 2000; Onwuegbuzie & Levin, 2003; Osborne, 2008; Simmons, Nelson & Simonsohn, 2011; Spellman, 2012; Wagenmakers et al., 2012). Genau deswegen scheint es nötig, auf die alternativen Methoden und Denkweisen – die New Statistics – und ihren Nutzen immer wieder erneut hinzuweisen.
Effekte und Effektgrößen Jede Studie beginnt mit einer Fragestellung oder Hypothese. Und jede Studie sollte mit einer Antwort auf diese Fragestellung oder Hypothese enden. Diese Antwort steckt in jeder Studie im Effekt. Von rein deskriptiven Darstellungen von Daten abgesehen, beziehen sich psychologische Untersuchungen nahezu immer auf Unterschiede oder Zusammenhänge in der einen oder anderen Form. Daher werden Effekte typischerweise durch ein Maß für einen Unterschied oder einen Zusammenhang (oder, in Bezug auf ganze Modelle, in einem Maß für die
aufgeklärte Varianz) ausgedrückt (für vereinzelt verwendete weitere Effektgrößen siehe z. B. Kirk, 2007). Unterscheiden sich zwei Gruppen in Bezug auf eine abhängige Variable, besteht der Effekt im Unterschied der zentralen Tendenzen, meist im Mittelwertsunterschied. Geht es um Zusammenhänge, besteht der Effekt in der Kovariation oder Korrelation. Wenn es also um die simple Frage geht, was die gefundenen Daten zur Fragestellung oder Hypothese sagen, dann sollte die Betrachtung des Effektes an erster Stelle stehen. Das ist der Grund, warum eine sinnvolle Analyse und Darstellung von Daten möglichst immer mit einer Visualisierung der Daten beginnen sollte. Dabei zeigen sich die Daten so, wie sie sind, von weiterführenden Berechnungen zunächst unverfälscht. Um dieses Bild so informativ wie möglich zu gestalten, gilt es auf die Darstellung aller Details zu achten, die für eine sinnvolle und verlässliche Interpretation der Daten nötig sind. Allen voran ist es bei der Darstellung von Mittelwerten unerlässlich, eine Information über die Streuung der Daten mitzuliefern, aus der diese Mittelwerte stammen. Der erste Grund dafür ist, dass die Streuung die entscheidende Information über die Verlässlichkeit des Mittelwertes liefert. Bekommen wir etwa die Information, dass der Mittelwert auf einer Skala mit den Skalenpunkten 1 – 2 – 3 – 4 – 5 bei 3 liegt und die Standardabweichung 2 beträgt, dann wissen wir, dass dieser Mittelwert eine völlig nutzlose Information ist, da in diesem Beispiel alle Messwerte 1 oder 5 betragen haben müssen und der Mittelwert damit seine Funktion als Indikator der „zentralen Tendenz“ der Verteilung nicht erfüllen kann. Der zweite Grund, warum Mittelwerte eine Streuung brauchen, liegt in der Interpretierbarkeit von Mittelwertsunterschieden. Es ist egal, ob zwei Mittelwerte relativ dicht beieinander oder weit voneinander entfernt liegen – man kann diese Unterschiede nicht interpretieren, wenn man nicht weiß, wie die Daten in den zugrundeliegenden Verteilungen streuen. Bei sehr kleinen Streuungen kann ein sehr kleiner Unterschied sehr bedeutsam sein. Bei sehr großen Streuungen kann auch ein großer Mittelwertsunterschied im „Rauschen“ der Daten völlig untergehen und damit inhaltlich bedeutungslos sein. Die Betrachtung von Effekten und ihre Visualisierung sind das einfachste und wichtigste Werkzeug um einer ehrlichen, informativen und brauchbaren Darstellung von Studienergebnissen gerecht zu werden. Erst im nächsten Schritt sollte es an weiterführende Berechnungen gehen und diese sollten in Effektgrößen münden. Die eben gemachte Betrachtung der Wichtigkeit von Streuungsmaßen bei Mittelwerten hat bereits vorweggenommen, dass Daten in einem Kontext interpretiert werden müssen, damit man ihre Bedeutung richtig einschätzen kann. Dies wird systematisch dadurch erreicht, dass man Daten durch eine Standardisierung vergleichbar macht – und
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 3–18
© 2018 Hogrefe Verlag
T. Schäfer, Die New Statistics in der Psychologie
7
zwar auch über verschiedene Studien und Messinstrumente hinweg. Die Standardisierung führt zu den Effektgrößen (Effektstärken). Im Falle der Unterschiedsfragestellungen heißt das, dass Mittelwertsunterschiede an der gemeinsamen Streuung der Mittelwerte standardisiert werden, wobei Effektgrößen wie d oder g entstehen. Im Falle von Zusammenhangsfragestellungen kommt uns der Umstand zugute, dass deren Effekte normalerweise direkt mit Hilfe von Korrelationen bestimmt werden, die bereits Effektgrößen sind. Für komplexere Modelle stehen entsprechend weitere Effektgrößen zur Verfügung (siehe im Überblick für alle Arten von Effektgrößen, z. B. Ellis, 2010; Fritz, Morris & Richler, 2012; Kirk, 1996, 2007), von denen besonders die Maße für die aufgeklärte Varianz von varianzanalytischen (h2 ) oder regressionsanalytischen Modellen (R2 ) sehr dominierend und erfreulicherweise schon länger weit verbreitet sind. Effektgrößen liefern ein einfaches und stichhaltiges Maß für die praktische Bedeutsamkeit von Studienergebnissen. Die Größe des Effektes ist in den meisten Fällen die eigentlich entscheidende Information, die aus Daten herausgelesen und zu einem Erkenntnisfortschritt führen soll. Sie beziffert die Wirksamkeit einer Intervention ebenso wie die Brauchbarkeit einer grundlagenwissenschaftlichen Theorie. Effektgrößen geben eine eindeutig interpretierbare Antwort auf Forschungsfragen. Sie sollten daher die Währung der psychologischen Forschung und neben der Visualisierung von Daten das Hauptergebnis wissenschaftlicher Veröffentlichungen sein. Fernab vom Zwangskorsett des Signifikanztests, das uns Wissenschaftler_innen durch die heilige 5 %-Schwelle die Entscheidung (und damit auch die Interpretation) abnimmt, geben Effektgrößen uns die Freiheit zurück, über die praktische Bedeutsamkeit unserer Ergebnisse selbst urteilen zu können: It is a curious anomaly that researchers are trusted to make a variety of complex decisions in the design and execution of an experiment, but in the name of objectivity, they are not expected or even encouraged to decide whether data are practically significant. (Kirk, 1996, S. 755) Das Denken in Effekten und Effektgrößen – anstelle von ja / nein-Entscheidungen – präzisiert natürlich auch die psychologische Hypothesen- und Theorienbildung. Nachdem man in einem Forschungsgebiet empirische Vorerfahrungen gesammelt hat und den Stand der Literatur gut kennt, sollte man in seinen Studien präzisere Erwartungen formulieren können als solche über das bloße Vorhandensein oder die Richtung eines Effektes (letzteres geschieht beim Signifikanztests immer!). Das Denken in konkreten Schätzgrößen zwingt zur Präzision, macht Hy© 2018 Hogrefe Verlag
pothesen, Theorien und Ergebnisse reichhaltiger und brauchbarer (und Forschung am Ende auch aufregender). Die Abkehr von bloßen ja / nein-Entscheidungen und die Hinwendung zu präziseren und reichhaltigeren Schätzungen muss dabei nicht ausschließlich durch Effekte und Effektgrößen geschehen. Sie kann – vor allem bei kumulativen Forschungsprogrammen – auch in der Anwendung bayesianischer Verfahren bestehen. In Abgrenzung zum Nullhypothesen-Signifikanztesten, bei dem lediglich die Wahrscheinlichkeit der gefundenen Daten gegeben eine Hypothese (in der Regel die Nullhypothese) ermittelt wird, liefert die klassische Bayes-Statistik Wahrscheinlichkeiten von Hypothesen gegeben die gesammelten Daten. Schon allein weil genau dieses das häufigste Missverständnis in Bezug auf den Signifikanztest ist (die falsche Überzeugung dieser liefere die Wahrscheinlichkeit dafür, dass die Nullhypothese falsch ist), ist es empfehlenswert den bayesianischen Ansatz immer in direktem Vergleich zum Signifikanztesten zu diskutieren (Gigerenzer, 2004; Haller & Krauss, 2002; Krueger, 2001). Ihr tatsächliches Potenzial entfaltet diese Vorgehensweise zwar erst, wenn sie über den bloßen Vergleich von nur zwei Hypothesen hinausgeht (Cumming, 2014) bzw. kumulativ über die Ergebnisse von mehreren Replikationen hinweg angewendet wird (Verhagen & Wagenmakers, 2014), aber auch im Fall eines einfachen Hypothesenvergleichs liefern Hypothesenwahrscheinlichkeiten ein weitaus informativeres Ergebnis als Signifikanzen (Simonsohn, 2015). Dass sich bayesianische Verfahren bisher nur sehr zögerlich durchsetzen, liegt an der mangelhaften Implementation in Softwarepaketen und an möglicherweise als zu groß empfundenen subjektiven Freiheitsgraden bei der Festlegung der Anzahl und der Anfangswahrscheinlichkeiten (priors) von Hypothesen. Dennoch ist ein klarer Aufwärtstrend in ihrer Nutzung in der psychologischen Forschung erkennbar, insbesondere in Form des Bayes-Faktors, der auf Grundlage der gesammelten Daten die Überlegenheit einer Hypothese gegenüber einer anderen Hypothese quantifiziert (z. B. Dienes, 2016; Nickerson, 2000). Dass sich wenigstens das zusätzliche Berichten von Effektgrößen bei Signifikanztests verbessert hat, zeigt ein Vergleich mit den Daten, die Kirk (1996) gesammelt hatte. In vier großen APA-Zeitschriften hatte er für den Jahrgang 1995 die Anzahl von Artikeln bestimmt, in denen inferenzstatistische Tests berichtet wurden, und zudem den Anteil dieser Artikel bestimmt, in dem zusätzlich mindestens eine Effektgröße angegeben wurde (siehe Tabelle 1). Wir haben diese Auszählung für den Jahrgang 2015 wiederholt: Zwei Codierer_innen haben in diesen vier Zeitschriften sowie in zwei weiteren entwicklungspsychologischen bzw. pädagogisch-psychologischen Zeitschriften alle Originalartikel des Jahrgangs 2015 darauf-
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 3–18
8
T. Schäfer, Die New Statistics in der Psychologie
Tabelle 1. Anzahl von Artikeln mit inferenzstatistischen Tests und Anteil dieser Artikel, die mindestens eine Effektgröße (sowie Konfidenzintervalle und Poweranalysen) berichten, in vier großen APA-Zeitschriften im Vergleich der Jahrgänge 1995 (aus Kirk, 1996) und 2015 sowie in zwei weiteren entwicklungspsychologischen Zeitschriften im Jahr 2015 Jahrgang 1995 (Kirk, 1996) Zeitschrift
Jahrgang 2015
Anzahl Artikel mit Inferenzstatistik
Prozent davon mit mindestens einer Effektgröße
Anzahl Artikel mit Inferenzstatistik
Prozent davon mit mindestens einer Effektgröße
Prozent davon mit Konfidenzintervall
Prozent davon mit Poweranalyse
Journal of Applied Psychology
57
77
107
97
65
4
Journal of Educational Psychology
49
55
77
99
35
10
Journal of Experimental Psychology: Learning & Memory (& Cognition)
111
12
138
76
27
6
Journal of Personality and Social Psychology
174
47
113
98
56
7
152
89
32
5
16
100
31
0
Developmental Psychology Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie
hin analysiert, ob sie eine inferenzstatistische Auswertung, Konfidenzintervalle, Effektgrößen und Powerberechnungen enthielten. Zwanzig Jahre nach Kirk (1996) zeigt sich, dass der Anteil von Artikeln, die zusätzlich zu einer inferenzstatistischen Auswertung mindestens eine Effektgröße berichten, bei allen vier Zeitschriften sehr stark zugenommen hat, beim Journal of Educational Psychology gar von 55 auf 99 Prozent gestiegen ist. Auch bei den beiden zusätzlichen entwicklungspsychologischen Zeitschriften war der Anteil mit 89 bzw. 100 Prozent sehr hoch. Obwohl das generell erfreulich ist, ist damit die Zielmarke noch längst nicht erreicht. Denn bei genauerem Hinsehen erkennt man, dass der große Anteil von Effektgrößen hauptsächlich auf Maße wie R2, r oder ß entfällt (siehe Tabelle 2). Bei r handelt es sich um ein Zusammenhangsmaß, welches bereits als Effektgröße vorliegt. Seine häufige Verwendung im Zuge von Zusammenhangsanalysen ist daher nicht überraschend – vor allem nicht in Disziplinen wie der angewandten Psychologie, in denen die Verwendung von Regressions- und Korrelationsmodellen wesentlich typischer ist als etwa in der experimentellen Psychologie (wie schon Kirk, 1996, selbst anmerkt). Ähnlich verhält es sich mit ß, das im Zuge von multiplen Regressionen die relativen Einflüsse der Prädiktoren angibt, und R2, welches die Höhe der aufgeklärten Varianz in solchen Modellen wiedergibt. Auch diese Maße sind seit langem Standard, sodass ihre intensive Verwendung nicht überraschend ist. Anders sieht das bei Maßen aus, die zusätzlich zu herkömmlichen Signifikanztests berichtet werden. Dazu zählen etwa d oder g (z. B. als Effektgröße bei t-Tests), η2 (als Effektgröße bei Varianzanalysen) oder w (als Effektgröße bei Chi-Quadrat-Tests). Hier zeigt Tabelle 2 deutlich, dass diese einen wesentlich klei-
neren Anteil an allen Effektgrößen ausmachen als die oben genannten Maße R2, r und ß. Obwohl man für eine genauere Analyse natürlich die Art der konkreten Studien und Fragestellungen differenzieren müsste, zeigt dieses grobe Bild, dass noch Luft nach oben besteht, was das Berichten von Effektgrößen angeht. Dieser Eindruck wird auch durch die Ergebnisse weiterer Studien über Publikationen in anderen psychologischen Disziplinen bestätigt. Fritz, Scherndl und Kühberger (2012) haben in einem umfassenden Review 29 Überblicksstudien analysiert (die sich auf insgesamt 6,366 Artikel bezogen) und gefunden, dass im Schnitt nur in 38 % aller Publikationen Effektgrößen berichtet wurden (mit einer extrem großen Spannweite von 1 – 81 %). Zudem fanden sie, dass das Berichten von Effektgrößen von 1990 bis 2007 nur geringfügig zugenommen hat (etwa 2 % pro Jahr). Bei der Analyse von 99 Artikeln aus zehn Zeitschriften aus dem Bereich der Pädagogischen Psychologie fanden Nasser-Abu Alhija und Levy (2009), dass bei Korrelations- und Regressionsanalysen immer Effektgrößen berichtet wurden, bei Varianzanalysen im Schnitt in 63 % der Artikel und bei tTests und Chi-Quadrat-Tests im Schnitt lediglich in 28 % der Artikel.
Konfidenzintervalle Nach der Visualisierung von Daten und dem Berechnen von Effektgrößen kann zusätzlich eine inferenzstatistische Betrachtung von Interesse sein. Diese bringt zwar keine Informationen über die Größe der gefundenen Effekte, wohl aber über ihre Verlässlichkeit. Die Idee hinter
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 3–18
© 2018 Hogrefe Verlag
T. Schäfer, Die New Statistics in der Psychologie
9
Tabelle 2. Anzahl (und prozentualer Anteil an allen Artikeln) unterschiedlicher Effektgrößen in sechs ausgewählten Zeitschriften im Jahrgang 2015 Maß
Journal of Applied Journal of EducaJournal of ExperiPsychology tional Psychology mental Psychology: (117 Artikel (77 Artikel gesamt) Learning, Memory & gesamt) Cognition (142 Artikel gesamt)
Journal of Personality and Social Psychology (119 Artikel gesamt)
Developmental Psychology (153 Artikel gesamt)
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (17 Artikel gesamt)
∑
r
98 (84)
59 (77)
28 (20)
84 (71)
90 (59)
11 (65)
370
η2
12 (10)
21 (27)
84 (59)
48 (40)
44 (29)
5 (29)
214
β
52 (44)
38 (49)
12 (9)
52 (44)
56 (37)
4 (24)
214
Cohens d
15 (13)
30 (39)
34 (24)
37 (31)
24 (16)
5 (29)
145
R2
58 (50)
19 (25)
10 (7)
24 (20)
29 (19)
2 (12)
142
ρl
9 (8)
1 (1)
R
5 (4)
1 (1)
r2
3 (3)
Kendalls τ
2 (2)
5 (7)
7
ω2
1 (1)
5 (6)
6
1 (1) 1 (1)
Phi 1 (1) 1 (1)
Hedges’ g Glass’ g’
1 (1)
2 (1)
1 (1)
1 (1)
2 (1)
5 1 (6)
5 3
1 (1)
2
Kendalls W
1 (1)
2
1 (1)
2
1 (1)
1
1 (1)
1
Cohens w
1 (1) 1 (1)
1 1
der Inferenzstatistik ist dabei recht simpel und wurde oben schon erwähnt: Was würde passieren, wenn eine Studie sehr oft wiederholt und jedes Mal der Effekt bestimmet würde? Nimmt man diese Idee der Inferenzstatistik ernst, dann führt sie zu einer alles entscheidenden Sensibilisierung im Umgang mit Studienergebnissen, nämlich dem Bewusstsein dafür, dass die eigene Studie eine Zufallsziehung aus einer Verteilung möglicher anderer Studienergebnisse darstellt, die sich um eine unbekannte wahre Größe herum entfaltet, die man so exakt wie möglich schätzen möchte. Wenn das eigene Studienergebnis eine Zufallsziehung ist, möchte man natürlich wissen, wie groß der Einfluss des Zufalls im konkreten Fall ist, oder anders formuliert, wie gut man seinem Ergebnis trauen kann. Diese Frage ist besonders im Hinblick auf die Generalisierbarkeit des Ergebnisses von Bedeutung. Kann man von einer Stichprobe auf die Population schließen oder hat man es mit einem Ergebnis zu tun, welches nur für diese Stichprobe bzw. „Ziehung“ Bestand hat? Um diese Frage zu beantworten bietet die Inferenzstatistik drei Möglichkeiten – zwei einfache und eine schwierige. Die beiden einfachen sind Standardfehler und © 2018 Hogrefe Verlag
3 (2)
8
3
1 (1)
ρl2
10 1 (6)
3 (4) 1 (1)
Cohens f2
11
2 (3)
Cohens g
Hazard ratio HR
2 (1)
2 (2)
Cramérs V Odds ratio
2 (2)
Konfidenzintervalle. Die schwierige ist der Signifikanztest. Was folgt aus der Idee der Inferenzstatistik? Wenn man eine Studie sehr oft wiederholen und jedes Mal den Effekt bestimmen würde, so würden sich diese Effekte zufällig (durch den Stichprobenfehler) um den wahren Effekt in der Population verteilen. Die dabei entstehende Stichprobenverteilung ist der Dreh- und Angelpunkt der Inferenzstatistik. Ihre Breite zeigt, in welchem Bereich der Effekt beim wiederholten Durchführen der Studie AUCH liegen könnte. Es ist ebendiese Stichprobenverteilung, die uns dafür sensibilisiert, dass die genaue Größe unseres einen gefundenen Effektes dem Zufall der Stichprobenziehung unterliegt. Die Breite der Stichprobenverteilung ist der erste wichtige Anhaltspunkt für die Güte unserer Schätzung (die Schätzung des wahren Effektes in der Population). Eine schmale Verteilung (die Werte würden beim wiederholten Ziehen nur wenig um den geschätzten Effekt schwanken) zeigt eine verlässliche Schätzung an; eine breite Verteilung (die Werte schwanken beim wiederholten Ziehen sehr stark, können also sehr viel kleiner oder größer werden) zeigt eine unzuverlässige Schätzung
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 3–18
10
an. Die Breite der Stichprobenverteilung wird durch den Standardfehler quantifiziert. Er ist die Standardabweichung der Stichprobenverteilung und hängt von der Standardabweichung der Rohdaten der Studie und der Stichprobengröße N ab. Wenn N größer wird, wird der Standardfehler kleiner, was zur logischen Konsequenz hat, dass man Ergebnissen aus größeren Stichproben mehr vertraut als Ergebnissen aus kleinen Stichproben. Daher wird anstelle der Standardabweichung auch oft der Standardfehler als Streuungsmaß für Mittelwerte benutzt (siehe oben). Dies ist immer dann eine gute Idee, wenn man zusätzlich zur deskriptiven Beschreibung von Daten und ihrer Streuung gleich eine inferenzstatistische Information mitgeben möchte. Bei der Angabe von Effekten wird dieser Vorteil noch deutlicher. Stellen wir uns vor, wir untersuchen den Mittelwertsunterschied zwischen Männern und Frauen bei einem Reaktionszeittest. Wir finden eine mittlere Reaktionszeit bei 50 Männern von 250ms und bei 50 Frauen von 240ms; die Standardabweichung beträgt in beiden Gruppen 10ms. Der Unterschied beträgt 10ms und entspricht einem großen Effekt von d = 1. Wie gut können wir diesem Ergebnis trauen? Der Standardfehler beträgt 2 und zeigt uns an, dass wir unserer Schätzung von Δµ = 10ms sehr stark trauen können. Da ein Standardfehler etwa 68 % der Werte der Stichprobenverteilung umfasst, wüssten wir, dass beim wiederholten Durchführen der Studie 68 % dieser Ergebnisse zwischen 8ms und 12ms liegen würden (falls der Unterschied in der Population tatsächlich 10ms beträgt). Das ist recht vertrauenswürdig. Der Standardfehler wird als Streuungsmaß in Diagrammen tatsächlich häufig genutzt, ist darüber hinaus aber kaum verbreitet. Das liegt daran, dass sich seine Aussage auf ebenjene 68 % der Stichprobenverteilung bezieht. Diese Zahl ist etwas arbiträr und schwierig zu beurteilen. Ein Maß, dass eine höhere Verlässlichkeit anzeigt – etwa 95 % – wäre hilfreicher. Diese Forderung wird durch das Konfidenzintervall erfüllt, dessen Vertrauenshöhe (Konfidenz) variabel festgelegt werden kann. In den meisten Fällen wird sie auf 95 Prozent gesetzt. Konfidenzintervalle nutzen dieselbe Stichprobenverteilung, aus der auch der Standardfehler kommt. So fragt ein 95 %-Konfidenzintervall etwa danach, wo die mittleren 95 % aller Studienergebnisse liegen würden, wenn eine Studie sehr oft wiederholt würde. Diese beiden Werte (die obere und untere Grenze des Intervalls) liefern eine sehr genaue Auskunft über die Genauigkeit und Verlässlichkeit des Ergebnisses. Sie fügen der Punktschätzung (wo liegt der Effekt in der Population) also eine Intervallschätzung hinzu (wie verlässlich ist diese Punktschätzung). Die Länge eines Konfidenzintervalls ist damit eine leicht interpretierbare inferenzstatistische Information. Wenn es um inferenzstatistische Angaben geht, sollte das Konfidenzintervall das
T. Schäfer, Die New Statistics in der Psychologie
Mittel der Wahl sein. Es stellt einen direkten Bezug zu den Rohwerten der Messung und zur Stichprobenverteilung her. Bei Mittelwerten gilt also, dass der Standardfehler nichts anderes als ein 68 % Konfidenzintervall ist (bei vielen anderen Effekten stimmt diese Beziehung nicht hundertprozentig; der Unterschied ist aber in der Regel klein und tut unserer Argumentation keinen Abbruch). Bevor die Verwendung von Konfidenzintervallen genauer thematisiert wird, soll noch die dritte Möglichkeit inferenzstatistischer Aussage angesprochen werden – der Signifikanztest. Er ist deswegen die schwierigste Alternative, weil er auf einer sehr abstrakten Logik aufbaut. Der Signifikanztest nimmt nicht die Stichprobenverteilung der erhobenen Daten als Grundlage, sondern eine andere, künstliche Verteilung, nämlich in aller Regel die der Nullhypothese (wie würden sich die Stichprobenergebnisse beim wiederholten Durchführen der Studie verteilen, wenn es gar keinen Effekt gäbe). Dies führt nicht nur dazu, dass Signifikanztestberechnungen die gut interpretierbare Grundlage der Rohdaten verlassen, sondern auch dazu, dass sie per se von der Gültigkeit der Nullhypothese ausgehen, die durch die Daten möglichst abgelehnt werden soll, was aber in der Praxis in aller Regel eine wenig sinnvolle Annahme ist. Das Ergebnis (der p-Wert) ist folgerichtig auch keines, aus dem entweder die Größe des Effektes oder dessen Verlässlichkeit abgelesen werden können. Stattdessen zeigt es nur, wie gut man es geschafft hat, den Zufall als Erklärung für ein gefundenes Ergebnis auszuschließen (völlig losgelöst davon, was dieses Ergebnis überhaupt ist). Dabei legt man die Grenze, ab der man nicht mehr an den Zufall zu glauben bereit ist, willkürlich fest, in der Regel auf 5 Prozent (Alpha). Diese magischen 5 Prozent sind nicht inhaltlich begründet, sondern im Verlauf der Jahrzehnte blind und unreflektiert als eine gegebene Selbstverständlichkeit durch die psychologische Methodengeschichte getragen worden – und das, obwohl Fisher selbst eine ganz andere Überzeugung im Hinterkopf hatte: No scientific worker has a fixed level of significance at which from year to year, and in all circumstances, he rejects hypotheses; he rather gives his mind to each particular case in the light of his evidence and his ideas. (Fisher, 1956, S. 42) Dass neben solchen Unreflektiertheiten über die Randbedingungen des Signifikanztests aber vor allem Missverständnisse über deren Interpretation zu Fehlern führen (und zwar auch bei Expert_innen), hat etwa Cohen (1994) in seinem berühmten Aufsatz „The earth is round (p < .05)“ zusammengetragen (siehe auch Gigerenzer, 2004; Haller & Krauss, 2002). Problematisch ist vor allem die bereits thematisierte irrige Annahme, der p-Wert
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 3–18
© 2018 Hogrefe Verlag
T. Schäfer, Die New Statistics in der Psychologie
11
sage etwas über die Wahrscheinlichkeit oder Unwahrscheinlichkeit der Nullhypothese aus – ein noch immer vorherrschendes Missverständnis, das Gigerenzer (1993) als „permanente Illusion“ bezeichnet hat. Dabei geht er so weit, die Wahrscheinlichkeit von Hypothesen als das freudianische „Es“ zu betrachten, da es diejenige Information ist, an der Forscher intrinsisch interessiert sind. Wird der Signifikanztest in dieser Hinsicht missverstanden, befriedigt er ebendieses Bedürfnis, was seine ungebrochene Popularität über die Jahrzehnte erklären mag (Gigerenzer, 2004). De facto sagt der p-Wert aber lediglich etwas über die Wahrscheinlichkeit des gefundenen Effektes unter der Annahme der Nullhypothese aus. Es handelt sich dabei also um eine höchst abstrakte Idee, die an der Beantwortung der meisten Forschungsfragen vorbeigeht. Die Nullhypothese ist eine Idealisierung und trifft in der Praxis (also empirisch gesehen) niemals zu, sofern man hinreichend viele Dezimalstellen betrachtet (z. B. Tukey, 1991), was bei hinreichend großen Stichproben also immer zu ihrer Ablehnung führen kann. Da für ausreichende Teststärke und reliable Aussagen aber größtmögliche Stichproben unerlässlich sind (siehe unten), ergibt sich ein forschungslogisches Dilemma, welches nur vermieden werden kann, wenn man die Verwendung des Signifikanztests möglichst vermeidet. Darüber hinaus ist die Nullhypothese für nahezu alle Forschungsfragen eine unlogische Annahme, da Studien in einem Kontext früherer Studien durchgeführt werden, also schon Vorwissen über die Größe und Richtung von Effekten existiert. Geht man von dem sehr konstruierten Fall aus, dass (1) die Nullhypothese doch eine sinnvolle Ausgangsbasis ist, gegen die man testen möchte, (2) man das Alpha-Niveau (5 %) inhaltlich begründet hat und (3) sich mit einer ja / nein-Entscheidung (signifikant oder nicht) zufriedengeben möchte, ohne die Genauigkeit und Verlässlichkeit des Studienergebnisses in Betracht zu ziehen, dann liefert der Signifikanztest eine verwertbare Aussage. Dies trifft umso mehr zu, wenn vor dem Test Überlegungen zum erhofften Populationseffekt und zur Abwägung von Alpha- und Betafehler gemacht wurden, wie es Neyman und Pearson (1933) in ihrem Ansatz vorgeschlagen haben – der aber leider weder in den Lehrbüchern noch in den Statistikpaketen nennenswerte Berücksichtigung gefunden hat. Doch auch wenn sinnvolle Vorüberlegungen existieren, sollte auf die Durchführung eines Signifikanztests verzichtet und ein Konfidenzintervall berechnet
1
werden – aus dem simplen Grund, dass Konfidenzintervalle die Aussage des Signifikanztests bereits beinhalten: Überdeckt etwa ein 90 % Intervall den Wert 0 nicht, ist dies gleichbedeutend mit einem signifikanten Ergebnis mit Alpha = 5 % bei einseitigem Testen bzw. Alpha = 10 % bei zweiseitigem Testen. Für alle anderen Fälle halten Konfidenzintervalle – wie oben dargestellt – aber noch weitere Informationen bereit, die uns deutlich besser in die Nähe sinnvoller Antworten auf unsere Forschungsfragen bringen. Sie sind nicht nur in Rohwerten ausgedrückt und erleichtern daher die Interpretierbarkeit, sondern liefern durch die Intervallschätzung eine Information über Genauigkeit und Verlässlichkeit des gefundenen Effektes. Dadurch dass sie aus der Stichprobenverteilung des Effektes ermittelt werden, gesellen sie sich also als inferenzstatistische Information perfekt zum Effekt (bzw. zur Effektgröße) selbst. Die zusätzliche Angabe von Signifikanztestergebnissen ist nicht nötig und sollte möglichst vermieden werden – nicht zuletzt deswegen, weil dadurch ein überkommener und unnötiger Ballast aus der Statistikausbildung entfallen würde: „The introductory statistics course need no longer turn promising students away from our discipline, having terminally discouraged them with the weird arbitrariness of NHST [null hypothesis significance testing]“ (Cumming, 2014, S. 14). Noch besser als der Standardfehler eignen sich Konfidenzintervalle daher schließlich als Maß für die Fehlerbalken in Abbildungen (siehe oben). Sie liefern zum Effekt eine gut interpretierbare inferenzstatistische Größe über dessen Genauigkeit1. Zudem liefern sie oft direkt sichtbare Informationen über das gute alte Signifikanzniveau. Am einfachsten ist dies an einem simplen Mittelwert zu erkennen. Wird er etwa mit einem 95 % Konfidenzintervall versehen und dieses überdeckt die 0 nicht, so weiß man, dass dieser Mittelwert signifikant (mit Alpha = 5 %, zweiseitig) von 0 abweicht. Noch relevanter wird diese Systematik beim Interpretieren von Mittelwertsunterschieden. Cumming und Finch (2005) haben für den Fall unabhängiger Stichproben Faustregeln vorgestellt (siehe Abb. 1). Überschneiden sich die zugewandten Arme der Konfidenzintervalle von zwei Mittelwerten um höchstens die Hälfte, korrespondiert dies in etwa mit einem Ergebnis, das auf Alpha = 5 % signifikant ist; treffen sich nur noch die Enden der beiden Arme, korrespondiert dies in etwa mit einem signifikanten Ergebnis mit Alpha = 1 %. Diese einfache Beziehung führt zur Empfehlung, die Streuung von Mittelwerten in Abbildungen stets mit Hilfe
Man sollte jedoch berücksichtigen, dass die Länge der Konfidenzintervalle von der Stichprobengröße abhängt, was für die Standardabweichung der Stichprobendaten nicht zutrifft. Soll die Streuung von Stichprobendaten in ihrer „reinen“ Form, d. h. deskriptiv und nicht im Sinne einer inferenzstatistischen Information, dargestellt werden, ist die Standardabweichung also besser geeignet als Konfidenzintervalle oder Standardfehler.
© 2018 Hogrefe Verlag
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 3–18
12
von Konfidenzintervallen anzugeben, da dann allein an der Abbildung (1) die Mittelwerte, (2) die Verlässlichkeit der Mittelwerte, (3) der Mittelwertsunterschied (bzw. mehrere Mittelwertsunterschiede), (4) die Verlässlichkeit des Mittelwertsunterschieds (bzw. mehrerer Mittelwertsunterschiede) sowie (5) der ungefähre p-Wert des Mittelwertsunterschieds (bzw. die p-Werte mehrerer Mittelwertsunterschiede) erkennbar sind. Dies ist zweifellos die effizienteste Form Mittelwerte und Mittelwertsunterschiede zu berichten.
Abbildung 1. Faustregel für die Interpretation des Unterschieds zwischen zwei Mittelwerten aus unabhängigen Messungen (Gruppe 1 und Gruppe 2). Die rechte Achse zeigt die korrespondierende Entwicklung des p-Wertes bei zunehmendem Mittelwertsunterschied. Die Faustregel gilt, wenn beide Gruppengrößen mindestens N = 10 betragen und sich die Längen der Konfidenzintervalle um nicht mehr als den Faktor 2 unterscheiden. (Abbildung nach Cumming & Finch, 2005, Figure 5)
Bei Mittelwerten hat sich diese Art der Darstellung schon in gewissem Umfang verbreitet, was wohl hauptsächlich daran liegt, dass sie bereits in Statistikpaketen implementiert ist und einfach angefordert werden kann. Anders sieht das (noch) bei Effekten und Effektgrößen aus. Folgt man der Idee, dass man für möglichst alle Studienergebnisse Effekte bzw. Effektgrößen berichten und diese als das zentrale Ergebnis anbieten möchte, dann legen die New Statistics nahe, auch dafür in Abbildungen anstelle von Sternchen oder p-Werten zu berichten nun Konfidenzintervalle zu konstruieren. Dies ist in der Praxis
T. Schäfer, Die New Statistics in der Psychologie
leider noch nicht ansatzweise umgesetzt (was wohl wiederum an der noch fehlenden Implementierung in Statistikpaketen liegt), soll an dieser Stelle aber dringend empfohlen werden. Die Empfehlung soll an einem Effekt und an einer Effektgröße demonstriert werden. Im Reaktionszeiten-Beispiel oben betrug der Effekt (Männer vs. Frauen) Δµ = 10ms. Das 95 %-Konfidenzintervall für diesen Unterschied reicht von 6 bis 14ms. Die Empfehlung ist, den gefundenen Effekt und das Konfidenzintervall in die Abbildung der Mittelwerte zu integrieren (siehe Abb. 2 A). Der Effekt ist hier auf einer so genannten floating axis dargestellt und mit einem Konfidenzintervall versehen, welches die Verlässlichkeit dieses Effektes anschaulich visualisiert. Zudem ist hier – anders als bei den Faustregeln oben – nun exakt zu sehen, ob dieses Intervall den Wert der Nullhypothese überdeckt, ob also ein signifikanter Unterschied vorliegt. Außerdem kann diese Art der Darstellung auch für Mittelwertsunterschiede aus abhängigen Messungen gemacht werden. Diese Art von Abbildung hilft schließlich auch, die Konfidenzintervalle für die einzelnen Mittelwerte und das Konfidenzintervall für den Mittelwertsunterschied zu unterscheiden. Besonders bei Messungen aus abhängigen Stichproben ist dies relevant, da das Konfidenzintervall des Mittelwertsunterschieds hier nichts mit den Streuungen in den beiden Messungen zu tun hat. Auch bei komplexeren Analysen sollten die einzelnen Effekte inklusive ihrer Konfidenzintervalle berichtet werden. So liefern etwa (mehrfaktorielle) Varianzanalysen, multiple Regressionen, Strukturgleichungsmodelle oder Mehrebenenanalysen teilweise eine Vielzahl von Effekten, für die sich aber durchweg sinnvolle Effektgrößen und dazugehörige Konfidenzintervalle bestimmen lassen. Dies ist in einigen Fällen sicher (noch) nicht trivial, da etwa für Regressionskoeffizienten ungleich Null eine asymmetrische Stichprobenverteilung simuliert bzw. durch Verfahren wie Bootstrap gesampelt werden muss, um verlässliche Konfidenzintervalle abzuleiten. In einigen Softwarepaketen ist dies aber schon gut umgesetzt (z. B. für Mehrebenenanalysen im Paket lmer4 für R; Bates et al., 2014; für Strukturgleichungsmodelle in AMOS, Arbuckle, 2006). Zudem sollte die allgegenwärtige Verfügbarkeit von Signifikanztests für Ergebnisse aus solchen komplexen Analysen nicht über die geschilderten Probleme der Signifikanztestergebnisse hinwegtäuschen, nur weil die besseren Alternativen dazu mit mehr Denk- und Rechenaufwand verbunden sind. Natürlich können in solchen Abbildungen der Effekt und sein Konfidenzintervall auch für sich – also nur die floating axis ohne die einzelnen Mittelwerte – dargestellt werden, vor allem, wenn viele Mittelwertsunterschiede gleichzeitig analysiert werden sollen. Geht es nur um einen Mittelwertsunterschied (oder einige wenige), ist je-
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 3–18
© 2018 Hogrefe Verlag
T. Schäfer, Die New Statistics in der Psychologie
13
Abbildung 2. Beispielhafte Darstellung von deskriptiven Ergebnissen (hier Mittelwerte) und inferenzstatistischen Informationen. Effekt (A) bzw. Effektgröße (B) sind gemeinsam mit ihrem jeweiligen Konfidenzintervall auf einer floating axis dargestellt. Bei A kann einer der beiden Mittelwerte als Referenz für das Abtragen des Effektes verwendet werden. Die gestrichelten Linien helfen den Effekt sowie Informationen zu seiner signifikanten Verschiedenheit vom Wert der Nullhypothese (0) zu erkennen. Bei B ist die Effektgröße (hier Cohen’s d) mit frei wählbarer Skalierung dargestellt. Die gestrichelte Linie repräsentiert den Wert der Nullhypothese (0). Alle Konfidenzintervalle haben eine Vertrauenswahrscheinlichkeit von 95 %.
doch die hier gezeigte Darstellung der am meisten zu empfehlende Weg der Datenaufbereitung. Geht es um Effektgrößen, ist der Weg der gleiche: Man ermittelt für die Effektgröße das Konfidenzintervall und stellt es mittels einer eigenen Achse dar. Bei Korrelationen ist dieses Prinzip hinlänglich aus der Konstruktion von forest plots bei Metaanalysen bekannt und sollte sich endlich für das Berichten aller Effektgrößen in einzelnen Studien durchsetzen. Abbildung 2 (B) zeigt dieselben Daten wie (A), nun aber mit einer Effektgröße auf der floating axis. Als Effektgröße wurde hier Cohen’s d gewählt, was für das Datenbeispiel 1.0 beträgt, mit einem 95 % Konfidenzintervall von [0.46, 1.53]. (Die Abbildungen wurden auf Grundlage der Software ESCI – Exploratory Software for Conficence Intervals – erstellt, die Cumming, 2013, in Excel implementiert hat und kostenlos zur Verfügung stellt: http://thenewstatistics.com. Die Software eignet sich zudem hervorragend für die Demonstration statistischer Zusammenhänge zwischen Effektgrößen, Konfidenzintervallen, Signifikanztests, Teststärke und Replikationen.) Tabelle 1 zeigt den Anteil von Artikeln mit inferenzstatistischen Tests in den sechs ausgewählten Zeitschriften des Jahrgangs 2015, die Konfidenzintervalle berichten. Hier zeigt sich einerseits, dass es erhebliche Unterschiede zwischen den Disziplinen gibt (die Entwicklungspsychologie und die Pädagogische Psychologie liegen hier noch weit hinten), und andererseits, dass auch hier die Zielmarke noch längst nicht erreicht ist. Dies wäre erst bei einem Anteil von 100 Prozent der Fall. Auch hier zeigen © 2018 Hogrefe Verlag
weitere Studien ähnliche oder noch wesentlich schlechtere Ergebnisse. Bei der oben vorgestellten Analyse aus 29 Überblicksartikeln von Fritz, Scherndl et al. (2012) zeigte sich, dass in nur 10 Prozent aller Artikel Konfidenzintervalle berechnet wurden. Fidler et al. (2005) fanden bei der Analyse des Jahrgangs 2001 des Journal of Consulting and Clinincal Psychology, dass nur 17 Prozent aller Artikel Konfidenzintervalle berichteten.
Power und Replikation Effektgrößen und Konfidenzintervalle liefern bessere Evidenz als Signifikanztestergebnisse und sollten diesen daher in jedem Fall vorgezogen werden. Bei der Auswertung und Darbietung von Daten aus einzelnen Studien ist dies eine sehr einfach einzulösende Forderung. Darüber hinaus kann aber schon bei der Planung von Studien das Augenmerk auf die potenzielle Evidenz der Ergebnisse gelegt werden. Dies kann einerseits durch das Fokussieren auf möglichst substanzielle Effekte geschehen. Andererseits sollten – unabhängig von der Größe des Effektes – Überlegungen zur Teststärke (Power) angestellt werden. Verlässliche Evidenz bedeutet letztlich auch, dass Effekte replizierbar sein sollten um als stabiles, gesichertes, verlässliches Wissen in die Lehrbücher einzugehen. Neben den schon geschilderten Fehlinterpretationen des p-Wertes ist diejenige weit verbreitet, dass der p-Wert etwas
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 3–18
14
T. Schäfer, Die New Statistics in der Psychologie
über die Replizierbarkeit des Ergebnisses aussage. Tatsächlich aber steckt diese Information nicht im p-Wert, sondern in der Teststärke, denn diese fragt eben nach der Wahrscheinlichkeit für ein signifikantes Ergebnis unter der Annahme, dass ein Effekt in der Population existiert. Kurz gesagt, lässt sich also die Evidenz von Studien weiterhin dadurch erhöhen, dass man sie mit einer hinreichend großen Teststärke (üblicherweise mindestens 80 %, siehe Cohen, 1969, 1988) ausstattet. Dass Studien in der Psychologie typischerweise dramatisch „underpowered“ sind (Bezeau & Graves, 2001; Cohen, 1962; Fraley & Vazire, 2014; Fritz, Scherndl et al., 2012; Open Science Collaboration, 2015; Sedlmeier & Gigerenzer, 1989; Tressoldi, 2012; siehe auch Bakker et al., 2016; Bakker, van Dijk & Wicherts, 2012), erklärt damit einen Großteil der Replikationskrise (neben den anderen oben genannten Ursachen). Dass dieser Zusammenhang bisher offenbar zu wenig salient war, lässt sich durch eine fehlende Sensibilität gegenüber der Macht des Zufalls erklären. Die Versuchung ist groß, die Teststärke außer Acht zu lassen und jedes signifikante Ergebnis als gleichermaßen bedeutsam hinzunehmen. Dass dies ein grober Fehler ist, hat Cumming (2012, 2014) mit dem Begriff „Tanz der p-Werte“ thematisiert: Uns sollte bewusst sein, dass das Ergebnis einer Studie das Resultat einer Zufallsziehung ist und dieses beim wiederholten Ziehen ganz anders aussehen kann – wobei dieses Anderssein umso dramatischer ausfällt, je kleiner die Teststärke der Studie ist. Anders gesagt, bedeutet jedes signifikante Ergebnis zunächst, dass man Glück hatte. Nimmt man dieses eine Ergebnis zu ernst und lässt den Zufall nicht zeigen, wie dieses Ergebnis beim oftmaligen Wiederholen derselben Studie „tanzt“, dann verzerrt man die Aussagekraft dieses Ergebnisses – und zwar potenziell immer in Richtung eines Effektes, der eventuell gar nicht da ist. Den Spielraum dieses Tanzes zu verkleinern und damit tatsächlich die Evidenz zu vergrößern, schafft man nur durch eine größere Teststärke. In Abbildung 3 ist der Tanz der Effekte bzw. Konfidenzintervalle und p-Werte für dieselbe Studie einmal mit kleiner und einmal mit großer Teststärke dargestellt (am Beispiel eines Mittelwertsunterschieds zwischen zwei unabhängigen Gruppen). Bei inferenzstatistischen Analysen sollten Überlegungen und Berechnungen zur Teststärke immer erfolgen, wobei eine möglichst hohe Teststärke angestrebt werden sollte. Auch für die Verbreitung von Poweranalysen zeigt Tabelle 1 die Daten für die sechs analysierten Zeitschriften
2
in 2015 (gezählt wurden Artikel, in denen eine Teststärkeanalyse a priori oder post hoc durchgeführt wurde). Auch hierzu sind Fritz, Scherndl et al. (2012) zu ähnlich schlechten Ergebnissen gekommen: In lediglich 2,9 Prozent der analysierten 6,366 Artikel wurde eine Poweranalyse berechnet (gezählt wurden hier nur a priori Berechnungen). Außerdem stellten die Autoren keine Zunahme der Berechnung von Poweranalysen von 1990 bis 2007 fest. Dass diese Situation dramatisch und alles andere als zufriedenstellend ist, erschließt sich von selbst. Der Tanz der Effekte und p-Werte in Abbildung 3 demonstriert den Kern der Inferenzstatistik: Mit einer einzigen Studie wissen wir schlicht nicht, wo wir mit dem gefundenen Ergebnis – relativ zum tatsächlichen Populationseffekt – liegen. Diese Unsicherheit (die durch Konfidenzintervalle hervorragend sichtbar gemacht wird) schränkt die Aussagekraft von Ergebnissen aus einzelnen Studien per se ein – und dies vor allem dann, wenn die Teststärke klein ist. Die große Variabilität der Effekte im oberen Teil der Abbildung macht deutlich, dass signifikante Ergebnisse auch dann auftreten können, wenn der Effekt in der Population gar nicht vorhanden oder sehr klein bzw. inhaltlich bedeutungslos ist (oder gar in die andere Richtung geht). Die Lösung für dieses Problem kann einerseits in einer größeren Teststärke liegen – zumindest dann, wenn die Teststärke durch eine Verringerung des Standardfehlers (d. h., in der Regel durch eine Erhöhung der Stichprobengröße) erreicht wird2. Der kleinere Standardfehler schränkt dann den Tanz der Effekte oder p-Werte ein und macht das Ergebnis vertrauenswürdiger. Leider aber weisen psychologische Studien wie erwähnt oft eine zu geringe Teststärke auf. Außerdem sind auch Studien mit ausreichend Power noch immer Punktschätzungen für Populationseffekte, wobei für die Mehrzahl der Populationseffekte aber angenommen werden darf, dass diese nicht fix sind, sondern in der Population einer Verteilung unterliegen (siehe etwa Borenstein, Hedges, Higgins & Rothstein, 2010; Schmidt, Oh & Hayes, 2009). Der Grund dafür ist, dass es Schätzungen für „die“ Population gar nicht gibt, da einzelne Studien durch eine Vielzahl (oft komplex miteinander verbundener) Moderatorvariablen nie exakt dieselbe Population untersuchen. Daher liegt die zweite – und weitaus bessere – Lösung in der aktuell zurecht stark hervorgehobenen Forderung nach Replikationen (z. B. Brandt et al., 2014; Cumming, 2014; Ottenbacher, 1996). Replikationen und Metaanalysen lösen sowohl das Problem des Tanzes von
Es sollte erwähnt werden, dass die Erhöhung der Stichprobengröße nicht die einzige Möglichkeit ist den Standardfehler zu reduzieren. Andere Möglichkeiten bestehen in der Reduktion des Schätzfehlers (z. B. durch die Verwendung reliablerer Messinstrumente, dem besseren Kontrollieren konfundierender Variablen oder der Verwendung von within-Designs), im Erhöhen der Varianz von Prädiktorvariablen (z. B. durch die Verwendung differenzierterer Skalen) oder im Vermeiden von Kollinearität bei Prädiktorvariablen (siehe Mackinnon, 2013).
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 3–18
© 2018 Hogrefe Verlag
T. Schäfer, Die New Statistics in der Psychologie
15
Abbildung 3. Der Tanz der Effekte und p-Werte in Abhängigkeit der Teststärke. Gezeigt sind jeweils die Ergebnisse von simulierten Replikationsstudien basierend auf denselben Populationsverteilungen und Effekten. Oben führt eine Stichprobengröße von N = 10 je Gruppe zu einer Teststärke von nur 20 %. Der Tanz der p-Werte (und damit der völlig unterschiedlichen Interpretation der Ergebnisse!) ist dramatisch und reicht von extrem großen bis hin zu extrem kleinen Werten. (Welche dieser Studien wäre wohl publiziert worden?) Unten führt eine Stichprobengröße von N = 100 je Gruppe zu einer hohen Teststärke von 94 %. Der Tanz der p-Werte ist hier deutlich eingeschränkt (Abbildungen erstellt mit Hilfe der Software ESCI, Cumming, 2013).
© 2018 Hogrefe Verlag
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 3–18
16
T. Schäfer, Die New Statistics in der Psychologie
Tabelle 3. Empfehlungen für die Planung von Studien und das Berichten von Analyseergebnissen Bei der Planung von Studien · Überlegungen zur Größe des erhofften Effektes anstellen und entsprechende Schätzungen machen · Überlegungen zur Teststärke anstellen und ggf. die nötige Stichprobengröße berechnen · (im besten Fall Replikationsstudien planen) Beim Berichten von Analyseergebnissen · · · · · · ·
Abbildungen der Stichprobenergebnisse erstellen Lagemaße niemals ohne Streuungsmaße berichten (im Idealfall Konfidenzintervalle als Fehlerbalken verwenden) Effekte und / oder Effektgrößen berichten als inferenzstatistische Angabe Konfidenzintervalle berichten (auf Signifikanztestergebnisse soweit es geht verzichten) Konfidenzintervalle auch in Abbildungen für Effekte und Effektgrößen verwenden (floating axis) (Teststärke post hoc berechnen, falls nicht bereits vor der Studie berechnet) bei der Publikation alle Daten so berichten bzw. zur Verfügung stellen, dass Replikationsstudien und Metaanalysen einfach durchgeführt werden können
Effekten und p-Werten als auch das Problem der Selektivität von in einzelnen Studien geschätzten Populationseffekten. Sie liefern ein deutlich verlässlicheres Bild über die Lage des wahren (durchschnittlichen) Effektes und stellen unser Wissen auf eine sichere Basis. Ein Blick in die Online-Ausgaben der Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie seit 1999 ergibt bei der Suche nach Replikationsstudien keinen einzigen Treffer, bei der Suche nach Metaanalysen lediglich 4 Treffer – eine Situation die sich in den nächsten Jahren deutlich wandeln sollte. Replikationen und Metaanalysen sollten der Königsweg der Erkenntnisgenerierung in der Psychologie sein. Natürlich kann dies nur dann gelingen, wenn die publizierten Ergebnisse, die in Metaanalysen eingehen, keiner systematischen Selektion unterliegen („Müll-rein-Müll-raus“). Questionable Research Practices, datenabhängiges Analysieren, das File Drawer Problem und der Publication Bias verzerren die publizierten Effekte und damit auch das Endergebnis. Dieses Problem lässt sich durch methodische und statistische Sensibilisierung und Aufklärung, durch ein transparentes Forschungsprocedere, durch Präregistrierung von Studien, durch das transparente und vollständige Berichten aller Daten und Ergebnisse und schließlich durch ein verändertes Anreizsystem in der Wissenschaft lösen (Brandt et al., 2014; Cumming, 2014; Ioannidis, 2014; Munafò et al., 2017; Schmidt & Oh, 2016; Schönbrodt et al., 2017; Wagenmakers et al., 2012). Natürlich sind Replikationen im Vergleich betrachtet aufwändig, teuer und mit Durststrecken verbunden, die zunächst wenig spektakuläre Replikationsstudien erfordern. Außerdem erfordern sie drastische Veränderungen in der Art und Weise, wie Studien geplant und publiziert werden – insbesondere dann, wenn die Ergebnisse trivial sind. Die hier vorgestellten Argumente, zusammen mit der aktuell identifizierten Replikationskrise, sollten aber verdeutlichen, dass es dazu wohl keine Alternative gibt.
Fazit Der Wert psychologischer Forschung muss sich an der Stärke der durch Studien gefundenen Evidenz messen lassen. Fehler beim Darstellen von Daten und Analyseergebnissen und bei deren Interpretation schwächen die Evidenz ebenso sehr wie die unreflektierte Verwendung von Signifikanztests, die die Forschungsfragen (wie groß ist der Effekt) unbeantwortet lassen. Fortschritte im Verstehen psychischer Phänomene und im fruchtbaren Anwenden solcher Erkenntnisse in der Praxis können sich nur aus der Betrachtung der Größe und Genauigkeit von Effekten ergeben. Mit Signifikanztestergebnissen ist eben das nicht möglich, da sie maximal die Richtung eines Effektes anzeigen können. Autoren wie Cohen (1994) oder Kirk (1996) haben zurecht gefragt, wie weit wohl die Physik als Wissenschaft gediehen wäre, wenn sie sich mit solchen bloßen Richtungsinformationen zufriedengegeben hätte. Cohen (1994, S. 1001) folgert, dass die Verwendung von p-Werten die Entwicklung der Psychologie als Wissenschaft hemmt und schreibt ironisch: „Go build a quantitaitve science with p values!“ Wenn auch Menschen und unbelebte Materie nur schwer vergleichbar sind, ist der Unterschied in der Genauigkeit von Messungen und Theorien doch gewaltig. Zumindest als grobe Richtungsvorgabe sollte die psychologische Forschung die Verbesserung der Präzision von Messungen und Theorien im Auge behalten, um zu belastbareren Aussagen zu gelangen (z. B. Roberts & Pashler, 2000). Die New Statistics konkretisieren den Weg in diese Richtung, indem sie die Sensibilisierung gegenüber der praktischen Bedeutsamkeit von Studienergebnissen durch die Berechnung von Effekten, Effektgrößen und Konfidenzintervallen und die Durchführung von Replikationen und Metaanalysen erhöhen. Tabelle 3 fasst die Empfehlungen noch einmal zusammen. Die New Statistics bedeuten letztlich nicht mehr und nicht weniger als den sachgerechten Umgang
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 3–18
© 2018 Hogrefe Verlag
T. Schäfer, Die New Statistics in der Psychologie
17
mit Daten und Analyseergebnissen und der daraus abgeleiteten Evidenz. Ernst genommen, bedeutet das drastische forschungsstrategische und wissenschaftspolitische Änderungen, das Anpassen statistischer Softwarepakete und das Revidieren von Lehrbüchern und Lehrveranstaltungen. Dieses längst überfällige Umdenken sind wir uns selbst und denjenigen schuldig, die Forschung und Wissenschaft finanzieren und die publizierten Ergebnisse ernst nehmen und sie möglicherweise in praktische Interventionen umsetzen.
Literatur American Psychological Association (2001). Publication manual of the American Psychological Association (5th ed.). Washington, DC: American Psychological Association. American Psychological Association (2010). Publication manual of the American Psychological Association (6th ed.). Washington, DC: American Psychological Association. Arbuckle, J. L. (2006). Amos (Version 7.0) [Computer Program]. Chicago: SpSS. Bakker, M., Dijk, A. van & Wicherts, J. M. (2012). The rules of the game called psychological science. Perspectives on Psychological Science, 7, 543 – 554. Bakker, M., Hartgerink, C. H., Wicherts, J. M. & Maas, H. L. van der (2016). Researchers’ intuitions about power in psychological research. Psychological Science, 27, 1069 – 1077. Bates, D., Maechler, M., Bolker, B., Walker, S., Christensen, R. H. B., Singmann, H. et al. (2014). Package ‘lme4’. Vienna: R foundation for statistical computing. Berkson, J. (1938). Some difficulties of interpretation encountered in the application of the chi-square test. Journal of the American Statistical Association, 33, 526 – 536. Bezeau, S. & Graves, R. (2001). Statistical power and effect sizes of clinical neuropsychology research. Journal of Clinical and Experimental Neuropsychology, 23, 399 – 406. Borenstein, M., Hedges, L. V., Higgins, J. & Rothstein, H. R. (2010). A basic introduction to fixed-effect and random-effects models for meta-analysis. Research Synthesis Methods, 1, 97 – 111. Brandt, M. J., Ijzerman, H., Dijksterhuis, A., Farach, F. J., Geller, J., Giner-Sorolla, R. et al. (2014). The replication recipe: What makes for a convincing replication? Journal of Experimental Social Psychology, 50, 217 – 224. Callahan, J. L. & Reio Jr, T. G. (2006). Making subjective judgments in quantitative studies: The importance of using effect sizes and confidence intervals. Human Resource Development Quarterly, 17, 159 – 173. Cohen, J. (1962). The statistical power of abnormal social psychological research: a review. Journal of Abnormal and Social Psychology, 65, 145 – 153. Cohen, J. (1969). Statistical power analysis for the behavioral sciences. New York, NY: Academic Press. Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). New York, NY: Academic Press. Cohen, J. (1990). Things I have learned (so far). American Psychologist, 45, 1304 – 1312. Cohen, J. (1994). The earth is round (p < .05). American Psychologist, 49, 997 – 1003. © 2018 Hogrefe Verlag
Cumming, G. (2012). Understanding the new statistics: Effect sizes, confidence intervals, and meta-analysis. New York, NY: Routledge. Cumming, G. (2013). The new statistics: Estimation for better research. Retrieved from www.thenewstatistics.com Cumming, G. (2014). The new statistics: Why and how. Psychological Science, 25, 7 – 29. Cumming, G. & Finch, S. (2005). Inference by eye: Confidence intervals, and how to read pictures of data. American Psychologist, 60, 170 – 180. https://doi.org/10.1037/0003 – 066X.60.2. 170 Dienes, Z. (2016). How Bayes factors change scientific practice. Journal of Mathematical Psychology, 72, 78 – 89. Ellis, P. D. (2010). The essential guide to effect sizes: Statistical power, meta-analysis, and the interpretation of research results. Cambridge, United Kingdom: Cambridge University Press. Fidler, F., Cumming, G., Thomason, N., Pannuzzo, D., Smith, J., Fyffe, P., et al. (2005). Toward improved statistical reporting in the journal of consulting and clinical psychology. Journal of Consulting and Clinical Psychology, 73, 136 – 143. Fidler, F. & Loftus, G. R. (2009). Why figures with error bars should replace p values: Some conceptual arguments and empirical demonstrations. Zeitschrift für Psychologie, 217, 27 – 37. Fisher, R. A. (1956). Statistical Methods and Scientific Inference. Edinburgh: Oliver & Boyd. Fraley, R. C. & Vazire, S. (2014). The N-pact factor: evaluating the quality of empirical journals with respect to sample size and statistical power. PloS ONE, 9, e109019. Fritz, A., Scherndl, T. & Kühberger, A. (2012). A comprehensive review of reporting practices in psychological journals: Are effect sizes really enough? Theory & Psychology, 23, 98 – 122. Fritz, C. O., Morris, P. E. & Richler, J. J. (2012). Effect size estimates: Current use, calculations, and interpretation. Journal of Experimental Psychology: General, 141, 2 – 18. https://doi.org/ 10.1037/a0024338 Gelman, A. & Loken, E. (2014). The Statistical Crisis in Science. Data-dependent analysis – a “garden of forking paths” – explains why many statistically significant comparisons don’t hold up. American Scientist, 102, 460. Gigerenzer, G. (1993). The superego, the ego, and the id in statistical reasoning. In G. Keren & C. Lewis (Eds.), A handbook for data analysis in the behavioral sciences: Methodological issues (pp. 311 – 339). Hillsdale, NJ: Erlbaum. Gigerenzer, G. (2004). Mindless statistics. The Journal of SocioEconomics, 33, 587 – 606. Haller, H. & Krauss, S. (2002). Misinterpretations of significance: A problem students share with their teachers. Methods of Psychological Research, 7, 1 – 20. Hammond, G. (1996). The objections to null hypothesis testing as a means of analysing psychological data. Australian Journal of Psychology, 48, 104 – 106. Ioannidis, J. P. A. (2005). Why most published research findings are false. PLoS Medicine, 2, e124. Retrieved from http://www. plosmedicine.org/article/info. https://doi.org/10.1371/journal. pmed.0020124 Ioannidis, J. P. A. (2014). How to make more published research true. PLoS medicine, 11, e1001747. Ioannidis, J. P. A. (2016). Why most clinical research is not useful. PLoS medicine, 13, e1002049. Kirk, R. E. (1996). Practical significance: A concept whose time has come. Educational and psychological measurement, 56, 746 – 759. Kirk, R. E. (2007). Effect magnitude: a different focus. Journal of statistical planning and inference, 137, 1634 – 1646. Krueger, J. (2001). Null hypothesis significance testing: On the survival of a flawed method. American Psychologist, 56, 16.
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 3–18
18
Mackinnon, S. (2013). Increasing statistical power in psychological research without increasing sample size. Retrieved January 6, 2017 from http://osc.centerforopenscience.org/category/con tent5.html Margraf, J. (2015). Zur Lage der Psychologie. Psychologische Rundschau, 66, 1 – 30. Meehl, P. E. (1978). Theoretical risks and tabular asterisks: Sir Karl, Sir Ronald, and the slow progress of soft psychology. Journal of consulting and clinical Psychology, 46, 806. Munafò, M. R., Nosek, B. A., Bishop, D. V., Button, K. S., Chambers, C. D. Sert, N. P. du et al. (2017). A manifesto for reproducible science. Nature Human Behaviour, 1, 0021. Nasser-Abu Alhija, F. & Levy, A. (2009). Effect size reporting practices in published articles. Educational and Psychological Measurement, 69, 245 – 265. Neyman, J. & Pearson, E. S. (1933). On the problem of the most efficient tests of statistical hypotheses. Philosophical Transactions of the Royal Society of London, 231, 289 – 337. Nickerson, R. S. (2000). Null hypothesis significance testing: a review of an old and continuing controversy. Psychological Methods, 5, 241 – 301. Onwuegbuzie, A. J. & Levin, J. R. (2003). Without supporting statistical evidence, where would reported measures of substantive importance lead? To no good effect. Journal of Modern Applied Statistical Methods, 2, 12. Open Science Collaboration. (2012). An open, large-scale, collaborative effort to estimate the reproducibility of psychological science. Perspectives on Psychological Science, 7, 657 – 660. Open Science Collaboration. (2015). Estimating the reproducibility of psychological science. Science, 349 (6251), aac4716. Osborne, J. W. (2008). Sweating the small stuff in educational psychology: how effect size and power reporting failed to change from 1969 to 1999, and what that means for the future of changing practices. Educational Psychology, 28, 151 – 160. Ottenbacher, K. J. (1996). The power of replications and replications of power. The American Statistician, 50, 271 – 275. Roberts, S. & Pashler, H. (2000). How persuasive is a good fit? A comment on theory testing. Psychological Review, 107, 358. Schäfer, T. (2017). Die Gefährdung des wissenschaftlichen Fortschritts durch adaptives Verhalten von Nachwuchswissenschaftler_innen. Kommentar zum Beitrag von Rentzsch, Harzer & Wolter (2017). Psychologische Rundschau, 68. Schmidt, F. L. & Oh, I. S. (2016). The crisis of confidence in research findings in psychology: Is lack of replication the real pPro-
T. Schäfer, Die New Statistics in der Psychologie
blem? Or is it something else? Archives of Scientific Psychology, 4, 32 – 37. Schmidt, F. L., Oh, I. S. & Hayes, T. L. (2009). Fixed- versus random-effects models in meta-analysis: Model properties and an empirical comparison of differences in results. British Journal of Mathematical and Statistical Psychology, 62, 97 – 128. https://doi.org/10.1348/000711007X255327 Schönbrodt, F., Gollwitzer, M. & Abele-Brehm, A. (2017). Der Umgang mit Forschungsdaten im Fach Psychologie: Konkretisierung der DFG-Leitlinien. Psychologische Rundschau, 68, 20 – 35. Sedlmeier, P. & Gigerenzer, G. (1989). Do studies of statistical power have an effect on the power of studies? Psychological Bulletin, 105, 309 – 316. Simmons, J. P., Nelson, L. D. & Simonsohn, U. (2011). False-positive psychology: Undisclosed flexibility in data collection and analysis allows presenting anything as significant. Psychological Science, 22, 1359 – 1366. https://doi.org/10.1177/0956797611417632 Simonsohn, U. (2015). Small telescopes: Detectability and the evaluation of replication results. Psychological Science, 26, 559 – 569. Spellman, B. A. (2012). Introduction to the special section on research practices. Perspectives on Psychological Science, 7, 655 – 656. https://doi.org/10.1177/1745691612465075 Tressoldi, P. E. (2012). Replication unreliability in psychology: elusive phenomena or “elusive” statistical power? Frontiers in Psychology, 3, 218. Tukey, J. W. (1991). The philosophy of multiple comparisons. Statistical Science, 6, 100 – 116. Verhagen, J. & Wagenmakers, E.-J. (2014). A Bayesian Test to Quantify the Success or Failure of a Replication Attempt. Journal of Experimental Psychology: General, 143, 1457 – 1475. Wagenmakers, E.-J., Wetzels, R., Borsboom, D., Maas, H. J. L. van der & Kievit, R. A. (2012). An agenda for purely confirmatory research. Perspectives on Psychological Science, 7, 632 – 638. https://doi.org/10.1177/1745691612463078
Thomas Schäfer Technische Universität Chemnitz Fakultät für Human- und Sozialwissenschaften Institut für Psychologie 09107 Chemnitz thomas.schaefer@psychologie.tu-chemnitz.de
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 3–18
© 2018 Hogrefe Verlag
Originalarbeit
Benotung und Autonomieförderung – (k)ein Widerspruch in sich!? Natalia Hofferber, Melanie Basten und Matthias Wilde Universität Bielefeld, Biologiedidaktik Zusammenfassung: Gemäß der Selbstbestimmungstheorie der Motivation kann die intrinsische Motivation von Schülerinnen und Schülern durch autonomieförderliches Lehrerverhalten begünstigt werden. Autonomieförderliches Verhalten ist unter anderem durch den Verzicht auf externe Anreizbedingungen gekennzeichnet. Eine Umsetzung derartigen Lehrerverhaltens erweist sich im Regelunterricht als schwierig. Noten stellen einen festen Bestandteil des deutschen Schulsystems dar und werden oft als externe Anreizbedingungen bezeichnet. Ziel der vorliegenden Studie war es, zu untersuchen, ob sich Benotung in einem autonomieförderlichen Lernsetting destruktiv auf die intrinsische Motivation der Schülerinnen und Schüler auswirkt. Dazu wurden drei unterschiedliche Treatments konzipiert: autonomieförderliches Lehrerverhalten in einer unbenoteten Lernumgebung (A), autonomieförderliches Lehrerverhalten in einer benoteten Lernumgebung (A+B) sowie kontrollierendes Lehrerverhalten in einer benoteten Lernumgebung (K+B). An der Untersuchung nahmen insgesamt 483 Schülerinnen und Schüler der sechsten Jahrgangsstufe (MAlter = 11.28 Jahre, SDAlter = 0.57 Jahre) teil, die jeweils in einer kurzen Sequenz von drei Stunden unterrichtet wurden. Die Befunde deuten darauf hin, dass Benotung bei autonomieförderlichem Lehrerverhalten praktisch keine demotivierende Wirkung hat. Schlüsselwörter: Benotung, Autonomieförderung, Selbstbestimmungstheorie der Motivation
Grading and Students’ Autonomy – Does It Fit? Abstract: According to self-determination theory, students’ intrinsic motivation can be facilitated by autonomy-supportive teaching behavior. A characteristic of autonomy support is the absence of extrinsic incentives. It might seem impossible to implement such a teaching style in school lessons because grades are an inherent part of the German school system and can be perceived as external rewards. The aim of the current study was to investigate whether grading by an autonomy-supportive teacher has a destructive influence on students’ intrinsic motivation. We designed three different educational settings: autonomy-supportive teaching style without grading (A), autonomysupportive teaching style with grading (A+B), and controlling teaching style with grading (K+B). The sample consisted of 483 sixth-graders (Mage = 11.28 years, SDage = 0.57 years) who received three lessons. Results indicate that grading does not have a demotivating effect when autonomy-supportive lessons are given. Keywords: grading, autonomy support, self-determination theory
In der Pädagogischen Psychologie werden Begabung und Motivation „seit langem als erklärungsmächtigste Prädiktoren individueller Schulleistungen gehandelt“ (Heller & Ziegler, 1998, S. 161). Trotz der zentralen Rolle, die Motivation für die Schulleistung hat, wird eine Abnahme der schulbezogenen Motivation sowohl über mehrere Schülergenerationen hinweg (Spinath, Kriegbaum, Stiensmeier-Pelster, Schöne & Dickhäuser, 2016) als auch im Laufe der eigenen Schulzeit verzeichnet (Prokop, Tuncer & Chudá, 2007). Die Untersuchung von Prokop et al. (2007) ergab, dass im Biologieunterricht ein besonders starker Motivationsverfall von der sechsten zur siebten Klasse zu verzeichnen ist. Während Lehrpersonen auf die Begabung der Schülerinnen und Schüler keinen Einfluss ha© 2018 Hogrefe Verlag
ben, können sie gemäß der Selbstbestimmungstheorie der Motivation durch ihr Verhalten maßgeblich auf die Motivation der Schülerinnen und Schüler einwirken (Ryan & Stiller, 1991). In einer Pilotstudie konnte bereits aufgezeigt werden, dass autonomieförderndes Lehrerverhalten im Vergleich zu kontrollierendem die Motivation der Schülerinnen und Schüler im Biologieunterricht begünstigt (Hofferber, Eckes, Kovaleva & Wilde, 2015). In der autonomiegeförderten Lerngruppe wurde in der Untersuchung von Hofferber et al. (2015) auf die Vergabe von für den Regelunterricht üblichen Noten verzichtet. Dadurch ergeben sich Einschränkungen hinsichtlich einer generalisierbaren Aussage zur positiven Wirkung autonomieförderlichen Lehrerverhaltens für den regulären Biologieun-
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 19–32 https://doi.org/10.1026/0049-8637/a000185
20
N. Hofferber et al., Benotung und Autonomieförderung – (k)ein Widerspruch in sich!?
terricht, in dem Noten vergeben werden. Noten stellen nach Auffassung von Covington und Müeller (2001) sowie Lin, McKeachie und Kim (2003) den Inbegriff externer Anreize in der Schule dar und scheinen im Widerspruch zu autonomieförderndem Verhalten zu stehen. Laboruntersuchungen von Koestner, Ryan, Bernieri und Holt (1984) sowie Joussemet, Koestner, Lekes und Houlfort (2004) deuten hingegen darauf hin, dass das Darbieten extrinsischer Anreize nicht per se das Autonomieerleben und die damit einhergehende Motivation der Schülerinnen und Schüler destruieren muss (vgl. auch Ryan, Mims & Koestner, 1983). Ziel der vorliegenden Studie war es, erstmalig im Biologieunterricht zu untersuchen, ob der externe Anreiz durch Notengebung bei autonomieförderndem Lehrerverhalten mit einer geringeren Motivation von Schülerinnen und Schülern der sechsten Klasse einhergeht. Dadurch erfolgt die Implementation eines autonomieförderlichen Lehrerverhaltens, das sich gut im Regelunterricht umsetzen lassen würde und die in der Schule geforderte Leistungsbeurteilung berücksichtigt.
Motivation im Kontext Schule Die Schule bietet zahlreiche Möglichkeiten, Schülerinnen und Schüler zu motivieren oder zu demotivieren. Die Motivation der Schülerinnen und Schüler kann bspw. durch die Schüler-Lehrer-Beziehung, das Klassenklima, den ethnischen Hintergrund der Schülerinnen und Schüler, den elterlichen Erziehungsstil, den Einsatz unterschiedlicher Unterrichtsmittel sowie die Interessantheit der behandelten Lehrinhalte beeinflusst werden (Hidi, 2000; Tsai, Kunter, Lüdtke, Trautwein & Ryan, 2008; Wigfield et al., 2015). Untersuchungen von Meyer-Ahrens, Meyer, Witt und Wilde (2014) deuten darauf hin, dass Schülerinnen und Schüler die Inhalte des Kernlehrplans für das Fach Biologie als unterschiedlich interessant wahrnehmen. Zudem kann, gemäß Berger und Hänze (2004), auch die Wahl der Sozialform die Motivation der Schülerinnen und Schüler beeinflussen. Gruppenarbeit begünstigt bspw. im Vergleich zu Frontalunterricht die Motivation der Lernenden (Berger & Hänze, 2004). Während Inhalte an den Lehrplan gebunden sind und die Wahl der Sozialform immer auf den zu erarbeitenden Lehrinhalt abgestimmt sein sollte, stellt das Verhalten der Lehrperson ein relativ stabiles Merkmal des Unterrichts dar. Der Einfluss des Lehrerverhaltens auf die Motivation der Schülerinnen und Schüler wird in der Selbstbestimmungstheorie der Motivation erläutert. Diese gilt als eine der gängigsten Motivationstheorien im schulischen Lernbereich (Mittag, Bieg, Hiller, Metz & Melenk, 2009).
Die Selbstbestimmungstheorie der Motivation Motivation ist ein hypothetisches Konstrukt, das in der Literatur nicht einheitlich definiert ist (Heckhausen, 1989; Sansone & Harackiewicz, 2000). Das Motivationserleben einer Person wird gemäß der von Deci und Ryan (1985a, 2000; Ryan & Deci, 2017) beschriebenen Selbstbestimmungstheorie sowohl durch einen intrapersonalen als auch einen interpersonalen Prozess beeinflusst. Der intrapersonale Prozess findet sich in vielen Definitionen wieder und beinhaltet bspw. die tätigkeitsbezogenen Interessen einer Person (Reeve & Jang, 2006). Intrinsisch motivierte Handlungen werden von der handelnden Person als spannend, interessant und herausfordernd erlebt (Schiefele & Köller, 2006). Handlungen, die als interessenbestimmt definiert werden, spontan und freiwillig von einer Person ausgeführt werden sowie durch den Verzicht auf Druck gekennzeichnet sind, gelten als intrinsisch motiviert (Black & Deci, 2000; Deci & Ryan, 1993). Das Interesse/ Vergnügen, das eine Person bei der Ausführung einer Tätigkeit empfindet, gilt als Selbstberichtswert für die intrinsische Motivation (Deci & Ryan, 2003). Der intrapersonale Prozess ist aus Sicht der Selbstbestimmungstheorie der Motivation wichtig, aber nicht hinreichend, um intrinsische Motivation zu beschreiben (Reeve & Jang, 2006). Deci und Ryan (2000) nehmen an, dass intrinsisch motiviertes Verhalten auf die Befriedigung von drei psychologischen Grundbedürfnissen (basic needs) nach sozialer Eingebundenheit, Kompetenz und Autonomie angewiesen ist. Die wahrgenommene Kompetenz und Autonomie werden als positive Prädiktoren für intrinsisch motiviertes Handeln angesehen (Deci & Ryan, 2003) und im Folgenden als positive motivationale Erlebensqualitäten bezeichnet. Druck / Anspannung wird als eine negative motivationale Erlebensqualität und damit negativer Prädiktor bezeichnet und Interesse/ Vergnügen als die intrinsische Erlebensqualität (Ryan, Connell & Plant, 1990). Die Befriedigung der basic needs kann durch die soziale Umwelt beeinflusst werden und stellt damit die interpersonale Ebene dar. Im Unterricht sind es insbesondere Lehrpersonen, die durch ihr Verhalten Einfluss auf die basic needs nehmen können (Reeve, Ryan, Deci & Jang, 2007). Das Bedürfnis nach sozialer Eingebundenheit beinhaltet den Wunsch, sich einer Gruppe zugehörig zu fühlen und in dieser zu interagieren (Ryan & Deci, 2002). Ihm wird beim Darbieten interessanter Inhalte eine eher untergeordnete motivationale Wirkung zugeschrieben (Ryan & Deci, 2000). Das Bedürfnis nach Kompetenz beinhaltet die Tendenz eines Individuums, sich wirkungsvoll und erfolgreich bei der Auseinandersetzung mit der Umwelt zu fühlen (Deci & Ryan, 2000). Die handelnde Person fühlt sich vor allem dann kompetent, wenn sie das Gefühl
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 19–32
© 2018 Hogrefe Verlag
N. Hofferber et al., Benotung und Autonomieförderung – (k)ein Widerspruch in sich!?
hat, die Handlung eigenständig ausgeübt zu haben, und sich als Handlungsverursacher wahrnimmt (Bieg & Mittag, 2009). Dies sind Kennzeichen des Autonomieerlebens, denn das Bedürfnis nach Autonomie äußert sich im Bestreben der handelnden Person, Aktivitäten auszuführen, die mit ihrem Selbstkonzept übereinstimmen (Deci & Ryan, 2000). Das Autonomieerleben setzt sich aus den Komponenten choice, volition und locus of causality zusammen (Reeve, Nix & Hamm, 2003). Choice ist gekennzeichnet durch den Wunsch der handelnden Person, echte Wahlmöglichkeiten zu haben (de Charms, 1977). Die Autonomiekomponente volition beinhaltet die willentliche Handlungsausführung (Reeve et al., 2003). Die auszuführende Handlung sollte dem Handlungswunsch der Person entsprechen bzw. von dieser im Kern befürwortet werden (Ryan & Deci, 2002). Mit locus of causality ist der Ort der Handlungsverursachung gemeint (de Charms, 1968). Eine Person ist intrinsisch motiviert, wenn sie ein Gefühl der Selbststeuerung hat und der Ort der Handlungsverursachung damit in der Person selbst liegt. Wird der handelnden Person das Gefühl der Selbststeuerung entzogen, nimmt sie sich als fremdgesteuert wahr, wodurch der Ort der Handlungsverursachung außerhalb der Person liegt und sie extrinsisch motiviert ist (de Charms, 1968). Anders als vorangegangene Motivationstheorien unterscheiden Deci und Ryan (1985a, 2000) nicht nur zwischen intrinsisch und extrinsisch motivierten Handlungen, sondern beschreiben vier Formen der extrinsischen Motivation: integriert, identifiziert, introjiziert und external, wobei der Grad der wahrgenommenen Selbststeuerung (Autonomie) kontinuierlich abnimmt und das der Handlung zugrundeliegende Ziel zunehmend von der eigentlichen Handlungsausführung separiert wird. Diese Motivationsstile sind nicht nur situationsspezifische Zustände, sondern können auch eine überdauernde domänenspezifische Disposition im Sinne einer überdauernden Motivation sein (Thomas & Müller, 2015). Aus der von Deci und Ryan (1985a, 2000; Ryan & Deci, 2017) beschriebenen Selbstbestimmungstheorie der Motivation lässt sich ableiten, dass autonomieförderliches Verhalten intrinsisch motiviertes Verhalten begünstigt. Erste Untersuchungen von Basten, Meyer-Ahrens, Fries und Wilde (2014) deuten darauf hin, dass Schülerinnen und Schüler unterschiedlicher Schulformen verschieden stark von autonomieförderndem Verhalten profitieren können. Zudem kann autonomieförderliches Lehrerverhalten von Schülerinnen anders wahrgenommen werden als von Schülern (Lietaert, Roorda, Laevers, Verschueren & De Fraine, 2015). Autonomieförderliches Lehrerverhalten ist unter anderem durch das Einräumen von Wahlmöglichkeiten, die Orientierung von Lehrinhalten an den Interessen der Schülerinnen und Schüler, die Betonung der Schülerrelevanz von im Unterricht vermittelten Inhalten © 2018 Hogrefe Verlag
21
sowie die Vermeidung externer Anreize gekennzeichnet (Deci, Eghrari, Patrick & Leone, 1994; Katz & Assor, 2006; Reeve, Bolt & Cai, 1999; Vansteenkiste, Lens & Deci, 2006). In zahlreichen Labor- und Felduntersuchungen konnte diese Annahme bereits bestätigt werden (z. B. Hofferber et al., 2015; Übersicht bei Joussemet et al., 2004). In den autonomiegeförderten Lerngruppen wurde in diesen Untersuchungen auf externe Anreize (wie ihn bspw. Schulnoten darstellen) verzichtet. Auf Grund des Verzichts auf Noten kann nur eingeschränkt auf eine positive motivationale Wirkung der Autonomieförderung im Regelunterricht geschlossen werden, da Noten fester Bestandteil von Regelschulen in Deutschland sind. Lehrpersonen nutzen im Regelunterricht häufig die Vergabe von Noten bzw. das Androhen schlechter Noten bei Nichtausführung einer Handlung, um ihre Schülerinnen und Schüler zur Bearbeitung von Aufgaben zu bewegen (Reeve, 2014; Ryan & Deci, 2000). Das Darbieten und Betonen derartiger externer Anreizbedingungen bei einer für die handelnde Person interessanten Tätigkeit entspricht kontrollierendem Verhalten und führt auf Seiten der Lernenden zum Prozess der kognitiven Umbewertung. Die Handlung wird nicht mehr autonom, sondern als durch die Umwelt kontrolliert wahrgenommen (Deci, Koestner & Ryan, 1999). Dadurch nimmt sich die handelnde Person nicht mehr als Handlungsverursacher wahr und die Handlungsausführung wird zunehmend extrinsisch motiviert. Einen derartigen Motivationsverfall bezeichnen Deci und Ryan (2000) als Unterminierungseffekt. Externe Anreize stehen damit in einem scheinbaren Widerspruch zur Autonomieförderung. Erste Ergebnisse von Laborstudien deuten hingegen darauf hin, dass externe Anreize in ansonsten autonomieförderlichen Lernsettings keinerlei Einfluss auf die Motivation der Probanden haben (Joussemet et al., 2004; Koestner et al., 1984). Ob ein externer Anreiz intrinsisch motiviertes Verhalten aufrechterhält oder destruiert, hängt von dessen funktioneller Bedeutung ab (Deci, 1975). Externe Anreize (z. B. Noten) haben immer einen kontrollierenden und einen informierenden Aspekt. Lehrpersonen neigen im Regelunterricht zu eher kontrollierendem Verhalten (Martinek, 2010), wodurch der kontrollierende Aspekt der Noten betont wird. Wird hingegen der informierende Aspekt betont, indem Noten nicht als Druckmittel zur Handlungsausführung, sondern als informative Rückmeldung genutzt werden, sollten externe Anreize wie Noten keinen Einfluss auf die intrinsische Motivation haben (vgl. Koestner et al., 1984). Der Grund für die Vergabe externer Anreize, das „Warum“ (zur Kontrolle einer Handlung oder eher als konstruktives Feedback), könnte damit entscheidend dafür sein, welchen Einfluss die externe Anreizbedingung auf die intrinsische Motivation hat (Reeve, 2014). Diese Annahme wird durch Ryan und Deci (2000)
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 19–32
22
N. Hofferber et al., Benotung und Autonomieförderung – (k)ein Widerspruch in sich!?
gestützt, die zudem vermuten, dass die destruktive Wirkung externer Anreizbedingungen durch den Verzicht auf deren Betonung abgemildert wird. Eine Überprüfung der Befunde aus vorangegangenen Feld- und Laboruntersuchungen (bspw. Joussemet et al., 2004 sowie Koestner et al., 1984) steht bei einem gezielt implementierten autonomieförderlichen Lehrerverhalten über mehrere Unterrichtsstunden im Regelunterricht noch aus.
H2c Schülerinnen und Schüler des A+B-Treatments haben niedrigere Werte beim wahrgenommenen Druck / Anspannung als Schülerinnen und Schülern des K+B-Treatments. H2d Schülerinnen und Schüler des A+B-Treatments haben höhere Werte im Interesse/ Vergnügen als Schülerinnen und Schüler des K+B-Treatments.
Methode Fragestellungen und Hypothesen
Stichprobe
Beruhend auf den dargestellten Annahmen und den empirischen Befunden sollen die folgenden Hypothesen über die Wirkung des Lehrerverhaltens und der Notengebung auf die motivationalen Erlebensqualitäten geprüft werden: H1 Autonomiegeförderte Schülerinnen und Schüler, die benotet werden (A+B), unterscheiden sich hinsichtlich ihres Motivationserlebens nicht von autonomiegeförderten Schülerinnen und Schülern, bei denen auf Notengebung verzichtet wird (A; H1: A+B = A). Dies äußert sich wie folgt: H1a Schülerinnen und Schüler des A+B-Treatments unterscheiden sich hinsichtlich ihrer wahrgenommenen Wahlfreiheit nicht von den Schülerinnen und Schülern des A-Treatments. H1b Schülerinnen und Schüler des A+B-Treatments unterscheiden sich hinsichtlich ihrer wahrgenommenen Kompetenz nicht von den Schülerinnen und Schülern des A-Treatments. H1c Schülerinnen und Schüler des A+B-Treatments unterscheiden sich hinsichtlich des wahrgenommenen Drucks / Anspannung nicht von den Schülerinnen und Schülern des A-Treatments. H1d Schülerinnen und Schüler des A+B-Treatments unterscheiden sich hinsichtlich ihres Interesse/ Vergnügens nicht von den Schülerinnen und Schülern des A-Treatments. H2 Schülerinnen und Schüler, die bei autonomieförderlichem Lehrstil Noten erhalten, haben ein positiveres Motivationserleben als kontrollierend behandelte Schülerinnen und Schüler, die ebenfalls benotet werden (K+B; H2: A+B > K+B). Folgende Hypothesen werden konkret angenommen: H2a Schülerinnen und Schüler des A+B-Treatments haben höhere Werte in der wahrgenommenen Wahlfreiheit als Schülerinnen und Schülern des K+B-Treatments. H2b Schülerinnen und Schüler des A+B-Treatments haben höhere Werte in der wahrgenommenen Kompetenz als Schülerinnen und Schülern des K+B-Treatments.
Die Stichprobe dieser quasiexperimentellen Untersuchung setzt sich aus 483 Schülerinnen und Schülern der sechsten Klassen (257 Mädchen und 226 Jungen) aus fünf Gymnasialklassen, 6 Realschulklassen und 7 Gesamtschulklassen zusammen. Das durchschnittliche Alter der Schülerinnen und Schüler betrug 11.28 Jahre (SD = 0.57 Jahre). Die Untersuchung fand mit Schülerinnen und Schülern der sechsten Klassen statt, da die Studie von Prokop et al. (2007) ergab, dass die Motivation von Schülerinnen und Schüler im Fach Biologie von Klasse sechs nach sieben erheblich abnimmt. Da an vielen Realschulen Biologie ab der siebten Klasse auf Grund der Wahlpflichtkurse im Kurs- und nicht im Klassenverband unterrichtet wird, fand die Studie mit Sechst- und nicht mit Siebtklässlern statt. Zudem endet die Erprobungsstufe mit der sechsten Klasse, weshalb angenommen wurde, dass Noten für die Schülerinnen und Schüler in der sechsten Klasse, im Vergleich zur fünften, an Wichtigkeit gewinnen.
Versuchsdesign und Unterrichtsablauf Zur Überprüfung der Hypothesen wurden drei Treatments konzipiert. Treatment 1 (A, N = 162): Autonomieförderliches Lehrerverhalten, in dem auf die für den Schulunterricht typischen Noten verzichtet wurde. Treatment 2 (A+B, N = 162): Autonomieförderliches Lehrerverhalten, wobei die Schülerinnen und Schüler in dieser Treatmentgruppe Noten erhielten. Treatment 3 (K+B, N = 159): Kontrollierendes Lehrerverhalten und die Schülerinnen und Schüler wurden benotet. Die Untersuchung fand im Klassenverband statt. Die Klassen wurden zufällig einer der drei Treatmentgruppen zugeordnet, so dass jede Schülerin und jeder Schüler nur an einem Treatment teilgenommen hat. Die drei Treatments waren gleichmäßig auf die jeweiligen Schulformen (Gymnasium, Realschule und Gesamtschule) sowie die beiden Lehrpersonen verteilt. Die beiden Lehrpersonen waren Studierende des höheren Fachsemesters, die die Schülerinnen und Schüler zuvor nicht kannten.
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 19–32
© 2018 Hogrefe Verlag
N. Hofferber et al., Benotung und Autonomieförderung – (k)ein Widerspruch in sich!?
23
Tabelle 1. Operationalisierung des autonomiefördernden vs. kontrollierenden Lehrerverhaltens Autonomieförderndes Lehrerverhalten
Kontrollierendes Lehrerverhalten
Es wurden die Wendungen „können“ oder „wenn ihr wollt …“ verwendet, wenn den Schülerinnen und Schülern Entscheidungsmöglichkeiten eingeräumt wurden.
Es wurden die Wendungen „ müssen“ und „sollen“ verwendet.
Die im Umgang mit den Tieren aufgestellten Regeln wurden begründet dargestellt. „Wir möchten euch bitten, nicht gegen die Käfige zu klopfen, da sich die Mäuse erschrecken können und sich dann verstecken würden.“
Regeln wurden aufgestellt, ohne diese begründend darzustellen. „Ihr dürft nicht gegen die Käfige schlagen.“
Die Bedeutsamkeit des Unterrichtsinhalts wurde gefördert, indem den Schülerinnen und Schülern mitgeteilt wurde, dass der Bestand der Zwergmäuse in Deutschland zurückgeht und sie die Aufgabe haben, zu untersuchen, wie ein optimaler Lebensraum der Zwergmaus aussehen kann.
Es wurde nicht erläutert, warum die Schülerinnen und Schüler die gestellten Aufgaben bearbeiten sollen.
Informierendes Feedback, in dem den Schülerinnen und Schülern bspw. mitgeteilt wurde, dass sie die Aufgaben sorgfältig bearbeitet haben.
Kontrollierendes Feedback, in dem den Schülerinnen und Schülern bspw. mitgeteilt wurde, dass sie die Aufgabe entsprechend der Erwartung der Lehrperson bearbeitet haben.
Die Schülerinnen und Schüler durften sich die Gruppenmitglieder, die Die Lehrperson legte die Gruppenzusammensetzung und die ReihenReihenfolge der zu bearbeitenden Aufgaben sowie die Mäuse aussuchen. folge der zu bearbeitenden Blätter fest und teilte den jeweiligen Gruppen die Mäuse zu.
Eine Woche vor Beginn der Intervention (t0) wurde die überdauernde Motivation der Schülerinnen und Schüler im Fach Biologie erfasst. Es sollte überprüft werden, ob sich die Schülerinnen und Schüler der einzelnen Treatments hinsichtlich ihrer überdauernden Motivation unterscheiden. Die Teilnahmequote betrug zu diesem Messzeitpunkt 100 %. Die durchgeführte Unterrichtseinheit zum Thema „Angepasstheiten der Eurasischen Zwergmaus“ ist an Wilde, Meyer und Klingenberg (2010) angelehnt und umfasste drei Unterrichtsstunden. In den ersten beiden Stunden hatten die Schülerinnen und Schüler aller Treatmentgruppen die Möglichkeit, in Kleingruppen Aufgaben zum Steckbrief und Kletterverhalten der Zwergmäuse zu bearbeiten. In der dritten Stunde wurden die Ergebnisse im Plenum gesichert. Am Ende der ersten (t1) und der dritten (t2) Unterrichtsstunde wurden die motivationalen Erlebensqualitäten (positive, negative und intrinsische) der Schülerinnen und Schüler erhoben. Die Erhebung der motivationalen Erlebensqualitäten fand zu zwei verschiedenen Messzeitpunkten statt, da die Erarbeitung der Lehrinhalte zu den beiden Messzeitpunkten in unterschiedlichen Sozialformen stattfand (t1 Gruppenarbeit, t2 Frontalunterricht). Zu t1 lag die Teilnahmequote bei 96 %, zu t2 bei 93 %. Die Erfassung der Implementationskontrolle erfolgte eine Woche nach der Unterrichtseinheit (t3). Hier lag die Teilnahmequote bei 91 %. Inhaltlich und methodisch gab es keine Unterschiede im Unterricht für die Schülerinnen und Schüler der drei Treatmentgruppen. Lediglich das Lehrerverhalten und der Faktor der Benotung wurden variiert (s. Abb. 1). Um eine möglichst theoriekonforme Implementation des autonomiefördernden bzw. kontrollierenden Lehrerverhaltens zu gewährleisten, wurden © 2018 Hogrefe Verlag
die Befunde und Operationalisierungsmöglichkeiten aus unterschiedlichen Studien (z. B. Basten et al., 2014; Reeve, 2002; Reeve et al., 1999) gesammelt, verschriftlicht und von den Versuchsleitern vor Beginn der Untersuchung eingeübt. Beispiele des in der vorliegenden Studie operationalisierten autonomiefördernden bzw. kontrollierenden Verhaltens können Tabelle 1 entnommen werden. Zudem wurden weitere Faktoren wie Schulform, Betreuer sowie das Geschlecht der einzelnen Schülerinnen und Schüler erhoben, da diese unter Umständen die wahrgenommenen motivationalen Erlebensqualitäten und die damit einhergehende intrinsische Motivation der Schülerinnen und Schüler beeinflussen können (Basten et al., 2014; Lietaert et al., 2015; Reeve, 1998). Den Schülerinnen und Schülern der A+B- und K+BTreatments wurde zu Beginn der ersten Stunde mitgeteilt, dass die Mitarbeit und die am Ende jeder Stunde eingesammelten Arbeitsblätter, wie im Regelunterricht üblich, benotet und die Noten an die Biologielehrerinnen und Biologielehrer weitergegeben werden. Die Schülerinnen und Schüler des A-Treatments wurden hingegen zu Beginn der Unterrichtseinheit darüber informiert, dass ihre gesamten Leistungen in dieser Unterrichtssequenz unbenotet bleiben. Zur Betonung der Bedeutsamkeit der Unterrichtsreihe wurde den beiden autonomiegeförderten Gruppen zu Beginn der ersten Stunde gesagt, dass die Schülerinnen und Schüler den Studierenden bei der Erforschung zur Optimierung eines geeigneten Käfigs für die Zwergmäuse sowie dessen Ausstattung helfen sollen, da derzeit noch nicht viel darüber bekannt ist. Durch die gesammelten Erkenntnisse könne man geeignete Gehege bauen und somit den Arterhalt der Zwergmäuse in Deutschland sichern. Den Schülerinnen und Schüler des
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 19–32
24
N. Hofferber et al., Benotung und Autonomieförderung – (k)ein Widerspruch in sich!?
Abbildung 1. Darstellung des Versuchsdesigns. Überblick über die Erhebungszeitpunkte und die verwendeten Messinstrumente. Das Versuchsdesign war in allen drei Treatmentgruppen (A-Treatment, A+B-Treatment und K+B-Treatment) identisch.
K+B-Treatments wurde mitgeteilt, dass die Anpassung von Tieren an einen Lebensraum Bestandteil des Kernlehrplans sei.
Messinstrumente Überdauernde Motivation Zu Beginn der Studie wurde eine adaptierte und übersetzte Version des ursprünglich von Ryan und Connell (1989) entwickelten und von Müller, Hanfstingl und Andreitz (2007) weiter ausgearbeiteten Self-Regulation Questionnaire eingesetzt, um die motivationalen Voraussetzungen der Schülerinnen und Schüler der drei Treatmentgruppen zu erfassen. Dieser adaptierte Self-Regulation Questionnaire Academic (SRQ-A) besteht aus fünf Subskalen: external, introjiziert, identifiziert, integriert und intrinsisch (s. Tab. 2). Die Antwortmöglichkeiten wurden mittels einer fünfstufigen Rating-Skala erfasst, die von stimmt gar nicht (0) bis stimmt völlig (4) reichte. Anhand der Daten, die durch den SRQ-A geliefert werden, kann der adaptierte Relative Autonomy Index (RAI) anhand folgender Formel berechnet werden: (2 x intrinsisch + integriert) – (introjiziert + 2 x external). Der RAI kann dabei Werte von –12 bis +12 annehmen. Je höher der Wert ist, desto selbstbestimmter, je niedriger, desto fremdbestimmter ist der Regulationsstil der Schülerinnen und Schüler (Ryan & Connell, 1989). Implementationskontrolle Um zu überprüfen, inwieweit den Versuchsleitern die Implementation des kontrollierenden bzw. autonomiefördernden Verhaltens aus Schülersicht in den jeweiligen Treatmentgruppen gelungen ist, wurde eine Woche nach der Unterrichtseinheit eine adaptierte und übersetzte Version des von Reeve (2002) und Reeve et al. (2003) entwickelten Fragebogens Perceived Self-Determination (PSD) eingesetzt (s. Tab. 2). Dieser umfasst acht Items und beinhaltet die Autonomiekomponenten choice, perceived locus of causality und volition. Auch hier wurden die Antwortmöglichkeiten auf einer fünfstufigen Rating-Skala vorgegeben, die von „stimmt gar nicht“ (0) bis „stimmt völlig“ (4) reicht.
Motivationale Erlebensqualitäten Die motivationalen Erlebensqualitäten der Schülerinnen und Schüler wurden am Ende der ersten und dritten Unterrichtsstunde mit Hilfe der Kurzskala intrinsischer Motivation (KIM; Wilde, Bätz, Kovaleva & Urhahne, 2009) erfasst. Die KIM stellt eine adaptierte und verkürzte Version des von Ryan (1982) und Ryan et al. (1990) entwickelten Intrinsic Motivation Inventory (IMI) dar. Sie umfasst zwölf Items und besteht aus den Subskalen wahrgenommene Wahlfreiheit (WW), wahrgenommene Kompetenz (WK), Druck / Anspannung (D/A) sowie Interesse/ Vergnügen (I/V) (s. Tab. 2). Die Subskalen wahrgenommene Wahlfreiheit sowie wahrgenommene Kompetenz erfassen die positiven und Druck / Anspannung die negativen motivationalen Erlebensqualitäten während der jeweiligen Biologiestunden. Die Subskala Interesse/ Vergnügen misst, wie viel Spaß und Interesse die Schülerinnen und Schüler bei den Tätigkeiten der jeweiligen Biologiestunden empfunden haben, und stellt damit einen Selbstwertbericht für die intrinsische Erlebensqualität dar (Deci & Ryan, 2003; Wilde et al., 2009). Die Erfassung der einzelnen Items erfolgt über eine fünfstufige Rating-Skala (0 = stimmt gar nicht bis 4 = stimmt völlig).
Auswertung Die Auswertung der Daten fand unter Verwendung der Statistiksoftware SPSS statt. Zunächst wurde mittels univariater bzw. multivariater Varianzanalyse (ANOVA bzw. MANOVA) ermittelt, ob es allgemeine Unterschiede zwischen den drei Treatmentgruppen gab. Der Einfluss der möglichen Kovariaten Schulform, Geschlechtszugehörigkeit und Betreuer konnte nicht einbezogen werden, da diese nicht durchgängig die Voraussetzungen für eine Kovarianzanalyse erfüllten. Dies sind erstens, dass keine signifikante Korrelation zwischen der Kovariate und der unabhängigen Variable, dem Treatment, vorliegen darf (s. Tab. 3), und zweitens, dass eine signifikante Korrelation zwischen der Kovariate und der abhängigen Variable (den Subskalen der Kurzskala intrinsischer Motivation (KIM) und der Implementationskontrolle (IK), s. Tab. 4) vorliegen muss (Bortz, 2013; Field, 2013). Während die
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 19–32
© 2018 Hogrefe Verlag
N. Hofferber et al., Benotung und Autonomieförderung – (k)ein Widerspruch in sich!?
25
Tabelle 2. Cronbachs Alpha-Werte (α) der einzelnen Subskalen zum Vortest t0 (überdauernde Motivation, SRQ-A), eine Woche nach dem Unterricht t3 (Implementationskontrolle, PSD), unmittelbar nach der ersten Unterrichtsstunde t1 sowie nach der dritten Unterrichtsstunde t2 (aktuelle intrinsische Motivation, KIM) (Sub)skala
Beispielitem
α
SRQ-A
Ich arbeite und lerne im Fach Biologie, …
External
… weil ich sonst schlechte Noten bekomme. (4)
.65 (t0)
Introjiziert
… weil ich ein schlechtes Gewissen hätte, wenn ich wenig tun würde. (4)
.70 (t0)
Identifiziert
… weil ich mit dem Wissen aus diesem Fach später einen besseren Job bekommen kann. (4)
.82 (t0)
Integriert
…weil es dem entspricht, wie ich bin. (6)
.84 (t0)
Intrinsisch
…weil es Spaß macht. (5)
.83 (t0)
PSD
Diese Betreuerin ist darauf eingegangen, wie ich Dinge sehe. (8)
.74 (t3)
Wahrgenommene Wahlfreiheit
Ich konnte die Tätigkeit im Unterricht selbst steuern. (3)
.72/.78
Wahrgenommene Kompetenz
Bei der Tätigkeit im Unterricht stellte ich mich sehr geschickt an. (3)
.76/.81
Druck / Anspannung
Bei der Tätigkeit im Unterricht fühlte ich mich unter Druck gesetzt. (3)
.60/.67
Interesse / Vergnügen
Ich fand die Tätigkeit im Unterricht sehr interessant. (3)
.80/.86
KIM
t1 / t2
Anmerkungen: Hinter jedem Beispielitem ist in Klammern die Itemanzahl der entsprechenden (Sub)skalen vermerkt.
Tabelle 3. Korrelationen nach Pearson zwischen dem Treatment und den möglichen Kovariaten Schulform, Geschlecht und Betreuer. Schulform
Treatment
Realschule
Gymnasium
Gesamtschule
.005 (.90)
-.146 (.00)
.132 (.00)
Geschlecht
Betreuer
-.008 (.86)
-.002 (.96)
Anmerkungen: In Klammern ist das Signifikanzniveau der jeweiligen Korrelation aufgeführt. Die Kovariate Schulform wurde als Dummy-Variable (0; 1) kodiert. Lag die Ausprägung der aufgeführten Schulform vor, wurde diese entsprechend mit 1 codiert, die anderen Schulformen erhielten dann entsprechend die 0.
Schulform keine der beiden Voraussetzungen erfüllt, verletzen die Kovariaten Geschlechtszugehörigkeit und Betreuer die zweite Voraussetzung, die nach Bortz (2013) allerdings eine wesentliche Voraussetzung für eine effektive Reduktion der Fehlervarianz durch die Kovariate darstellt. Um konkret zu überprüfen, ob Benotung bei autonomieförderndem Lehrerverhalten die motivationalen Erlebensqualitäten und die damit einhergehende intrinsische Motivation der Schülerinnen und Schüler beeinflusst, wurden die Werte der autonomiegeförderten Schülerinnen und Schüler, welche für den Regelunterricht typischen Noten erhielten (A+B-Treatment), mittels Kontrastanalyse sowohl mit denen der autonomiegeförderten Gruppe, die keine Noten erhielt (A-Treatment), als auch mit denen der kontrollierend behandelten Gruppe (K+B-Treatment) verglichen. Die Werte des A-Treatments und die des K+BTreatments dienten als Richtwert, um eine Aussage über die motivationale Wirkung der Benotung in einem autonomieförderlichen Lernsetting treffen zu können (vgl. Sedlmeier & Renkewitz, 2008). Es werden Mittelwerte, Standardabweichungen, t-Werte, Signifikanzen sowie die Effektstärken der Gruppenvergleiche berichtet. Die t-Werte wurden anhand einer K-Matrix ermittelt. Effektstärken zwischen η² = .01 und .05 werden als klein, Werte zwi© 2018 Hogrefe Verlag
schen η² = .060 und .130 als mittel und η² ˃ .14 als groß bezeichnet (Cohen, 1988; Sedlmeier & Renkewitz, 2008).
Ergebnisse In der vorliegenden Arbeit sollte untersucht werden, ob sich Benotung bei autonomieförderlichem Lehrerverhalten destruierend auf die motivationalen Erlebensqualitäten von Schülerinnen und Schülern im Regelunterricht auswirkt.
Prüfung der überdauernden Motivation Zunächst wurde mittels einer einfaktoriellen Varianzanalyse (ANOVA) untersucht, ob es Unterschiede hinsichtlich der überdauernden Motivation zwischen den Schülerinnen und Schülern der drei Treatmentgruppen zu Beginn der Studie gab. Dazu wurden die Werte des Relative Autonomy Index (RAI) zwischen den Schülerinnen und Schülern der Treatmentgruppen verglichen. Diese ergaben keinen signifikanten Unterschied zwischen den Treat-
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 19–32
26
N. Hofferber et al., Benotung und Autonomieförderung – (k)ein Widerspruch in sich!?
Tabelle 4. Korrelationen nach Pearson zwischen den Subskalen der KIM (Interesse / Vergnügen = IV, Wahrgenommene Wahlfreiheit = WW, Wahrgenommene Kompetenz = WK und Druck / Anspannung = DA) zum ersten (t1) und zweiten (t2) Messzeitpunkt sowie der Implementationskontrolle (IK) und den möglichen Kovariaten Schulform, Geschlecht und Betreuer.
Kovariaten
Abhängige Variable IVt1
WWt1
WKt1
DAt1
IVt2
WWt2
Realschule
-.043 (.36)
-.105 (.02)
-.007 (.88)
-.027 (.56)
-.029 (.55)
-.074 (.12)
Gymnasium
.001 (.99)
.084 (.07)
-.104 (.03)
-.125 (.01)
-.014 (.77)
.064 (.18)
Gesamtschule
.042 (.37)
.023 (.62)
.107 (.02)
.147 (.00)
.042 (.38)
.013 (.79)
-.106 (.23)
-.003 (.95)
-.021 (.06)
.176 (.00)
-.190 (.00)
.055 (.24)
.098 (.04)
.057 (.22)
.027 (.57)
.004 (.93)
Geschlecht Betreuer
WKt2
DAt2
IK
.042 (.38)
.023 (.63)
-.096 (.04)
-.115 (.02)
-.113 (.02)
.049 (.30)
.069 (.15)
.085 (.07)
.050 (.29)
.004 (.94)
-.038 (.43)
.233 (.00)
-.027 (.57)
.041 (.39)
-.024 (.62)
.005 (.92)
.123 (.01)
Anmerkungen: In Klammern ist das Signifikanzniveau der jeweiligen Korrelation aufgeführt. Die Kovariate Schulform wurde als Dummy-Variable (0; 1) kodiert. Lag die Ausprägung der aufgeführten Schulform vor, wurde diese entsprechend mit 1 codiert, die anderen Schulformen erhielten dann entsprechend die 0.
mentgruppen (F (2, 480) = 2.68, p = .28). Die Schülerinnen und Schüler aller Treatmentgruppen gaben im Durchschnitt an, sich im Regelunterricht des Faches Biologie leicht selbstbestimmt zu fühlen (A-Treatment: M = 3.33, SD = 2.96, A+B-Treatment: M = 2.66, SD = 3.42 sowie K+B-Treatment: M = 2.60, SD = 3.11).
Prüfung der Implementationskontrolle Die Überprüfung der Implementationskontrolle (PSD) erfolgte mittels ANOVA. Erwartungsgemäß ergaben sich beim PSD signifikante Unterschiede zwischen den drei Treatmentgruppen (F (2, 438) = 40.27, p = .00, η² = .155). Durch Kontrastanalysen wurde untersucht, inwieweit sich die beiden Treatmentkombinationen theoriekonform voneinander unterschieden (s. Tab. 5). A+B vs. A. Wie man Tabelle 5 entnehmen kann, gaben die benoteten autonomiegeförderten Schülerinnen und Schüler an, in etwa gleich viel Autonomieförderung wahrgenommen zu haben wie die autonomiegeförderten Schülerinnen und Schüler, die nicht benotet wurden. A+B vs. K+B. Die Schülerinnen und Schülern des A+B‐Treatments und die des K+B-Treatments unterschieden sich hinsichtlich der wahrgenommenen Autonomie (s. Tab. 5). Hier kam es zu signifikanten Differenzen mit einer mittleren Effektstärke (η² = .103) zugunsten der autonomiegeförderten Schülerinnen und Schüler, die Noten erhielten.
Hypothesenprüfung Während der Unterrichtseinheit wurden die motivationalen Erlebensqualitäten der Schülerinnen und Schüler anhand der KIM erhoben, um zu erfassen, ob Noten die positive motivationale Wirkung der Autonomieförderung beeinträchtigen. Die Überprüfung allgemeiner Unterschie-
de bezüglich der motivationalen Erlebensqualitäten erfolgte durch die MANOVA. Auch hier ergaben sich sowohl zum ersten (F (4, 910) = 5.60 p < .01, η² = .047; WW: F (2, 457) = 18.48 , p < .01, η² = .075; WK: F (2, 457) = 4.18, p = .02, η² = .018; D/A: F (2, 457) = 0.51, p = .60, η² = .002; I/V: F (2, 457) = 11.14, p = .00, η² = .046) wie auch zum zweiten (F (8, 880) = 5.44, p < .01, η² = .047; WW: F (2, 442) = 15.99 p < .01, η² = .067; WK: F (2, 442) = 1.60, p = .20, η² = .007; D/A: F (2, 442) = 1.44, p = .24, η² = .006; I/V: F (2, 442) = 7.77, p < .01, η² = .034) Messzeitpunkt signifikante Unterschiede zwischen den drei Treatmentgruppen. Die gezielte Untersuchung der Wirkung des jeweiligen Lehrerverhaltens erfolgte mittels Kontrastanalysen (s. Tab. 5). H1: A+B vs. A. Zum Messzeitpunkt nach der ersten Unterrichtsstunde t1 berichteten die Schülerinnen und Schüler des A-Treatments eine höhere wahrgenommene Wahlfreiheit verspürt zu haben als die Schülerinnen und Schüler des A+B-Treatments. Die Schülerinnen und Schüler beider Gruppen unterschieden sich nicht signifikant hinsichtlich ihres Kompetenzerlebens und gaben an, gleich wenig Druck / Anspannung verspürt zu haben. Zudem empfanden die Schülerinnen und Schüler beider Gruppen in etwa gleich viel Interesse/ Vergnügen, das als zentrales Merkmal intrinsischer Motivation gilt (s. Tab. 5). Zum Erhebungszeitpunkt nach der dritten Unterrichtsstunde t2 konnten in keiner der Subskalen der KIM signifikante Unterschiede zwischen den beiden Treatmentgruppen gefunden werden (s. Tab. 5). Die Ausprägung der motivationalen Erlebensqualitäten der autonomiegeförderten Schülerinnen und Schüler mit und ohne Benotung war zu dem Zeitpunkt im Durchschnitt etwa gleich. H2: A+B vs. K+B. Deutlich ausgeprägter waren die Unterschiede zwischen den Schülerinnen und Schülern des A+BTreatments und denen des K+B-Treatments (s. Tab. 5). Die benoteten autonomiegeförderten Schülerinnen und Schüler gaben zu beiden Messzeitpunkten t1 und t2 an,
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 19–32
© 2018 Hogrefe Verlag
N. Hofferber et al., Benotung und Autonomieförderung – (k)ein Widerspruch in sich!?
27
Tabelle 5. Effektstärken (η²), t-Werte, Mittelwerte (M) und Standardabweichung (SD) der autonomiegeförderten und unbenoteten (A-Treatment), der autonomiegeförderten und benoteten (A+B-Treatment) sowie der kontrollierend behandelten und benoteten (K+B-Treatment) Gruppen bei der Implementationskontrolle (PSD) sowie der aktuellen intrinsischen Motivation (KIM) zum Erhebungszeitpunkt t3 (eine Woche nach dem Unterricht), t1 (1. Unterrichtsstunde) und t2 (3. Unterrichtsstunde) Messinstrumente mit Subskala
A-Treatment A+B-Treatment K+B-Treatment M (SD)
PSD t3 KIM t1
KIM t2
M (SD)
M (SD)
A+B-Treatment und A-Treatment t-Werte (p-Werte)
η²
A+B-Treatment und K+B-Treatment t-Werte (p-Werte)
η²
3.20 (0.66)
3.10 (0.57)
2.97 (0.69)
t (438) = -1.44 (.15) .005
t (438) = 7.09 (.00) .103
Wahrgenommene Wahlfreiheit
2.85 (0.81)
2.65 (0.86)
2.28 (0.86)
t (457) = -2.20 (.03) .011
t (457) = 3.84 (.00) .031
Wahrgenommene Kompetenz
3.06 (0.76)
2.94 (0.72)
2.82 (0.77)
t (457) = -1.41 (.16) .004
t (457) = 1.51 (.13) .005
Druck / Anspannung
1.41 (0.87)
1.43 (0.94)
1.51 (0.95)
t (457) = 0.25 (.80) .000
t (457) = -0.73 (.47) .001
Interesse / Vergnügen
3.65 (0.53)
3.58 (0.56)
3.31 (0.83)
t (457) = -0.85 (.40) .002
t (457) = 3.61 (.00) .028
Wahrgenommene Wahlfreiheit
2.62 (0.88)
2.66 (0.91)
2.13 (0.91)
t (443) = 0.36 (.72) .000
t (443) = 5.10 (.00) .058
Wahrgenommene Kompetenz
2.92 (0.76)
2.94 (0.77)
2.79 (0.74)
t (443) = 0.18 (.86) .000
t (443) = 1.64 (.10) .006
Druck / Anspannung
1.55 (0.95)
1.62 (1.06)
1.74 (0.95)
t (443)= 0.64 (.52) .000 t (443) = -1.05 (.29) .003
Interesse / Vergnügen
3.35 (0.79)
3.45 (0.65)
3.10 (0.99)
t (443) = 0.99 (.33) .002
signifikant mehr Wahlfreiheit sowie mehr Interesse / Vergnügen erlebt zu haben als die kontrollierend behandelten Schülerinnen und Schüler. Hinsichtlich der wahrgenommenen Kompetenz und des wahrgenommenen Drucks/ Anspannung kam es im Mittel hingegen zu keinem der beiden Messzeitpunkte zu einem signifikanten Unterschied zwischen den Schülerinnen und Schülern der beiden Treatmentgruppen (s. Tab. 5).
Diskussion In der vorliegenden Studie sollte erstmalig die Wirkung der Notengebung in einer autonomiefördernden Lernumgebung im Regelunterricht des Faches Biologie auf die motivationalen Erlebensqualitäten der Schülerinnen und Schüler einer sechsten Klasse untersucht werden. Die Befunde der vorliegenden Arbeit sind weitgehend theoriekonform. In H1 wurde angenommen, dass sich die autonomiegeförderten Schülerinnen und Schüler, die benotet werden, hinsichtlich ihrer motivationalen Erlebensqualitäten nicht von denen unterscheiden, die autonomieförderlich behandelt werden und keine Noten erhalten. Der Vergleich zwischen den beiden autonomiegeförderten Gruppen (benotet vs. unbenotet) deutet darauf hin, dass Notengebung in einer autonomiefördernden Lernumgebung kaum Einfluss auf die motivationalen Erlebensqualitäten der Schülerinnen und Schüler hat. Diese Befunde decken sich mit der Annahme von Ryan et al. (1983), die vermuten, dass nicht das Darbieten externer Anreize selbst, sondern vielmehr der Lehrstil (autonomiefördernd vs. kontrollierend) entscheidend für die Motivation der Schülerinnen und Schüler ist. Die Schülerinnen und Schüler der bei© 2018 Hogrefe Verlag
t (443) = 3.83 (.00) .032
den autonomiegeförderten Gruppen verspürten zu beiden Messzeitpunkten kaum Druck / Anspannung (H1c) während der Unterrichtseinheit, nahmen diese in gleichem Maße als interessant bzw. vergnüglich wahr (H1d) und erlebten sich etwa in gleichem Maße als kompetent (H1b). Lediglich in der zum ersten Erhebungszeitpunkt erfassten wahrgenommenen Wahlfreiheit kam es zu kleinen Unterschieden zwischen den Schülerinnen und Schülern der beiden Treatmentgruppen zugunsten der autonomiegeförderten Schülerinnen und Schüler, die keine Noten für die Unterrichtseinheit erhielten (H1a). Radel, Pelletier, Baxter, Fournier und Sarrazin (2014) nehmen an, dass autonomieförderliche Maßnahmen von den Schülerinnen und Schülern nicht in vollem Ausmaß als solche wahrgenommen werden, wenn das autonomieförderliche Lernsetting mit gewohnten, eher kontrollierenden Situationen assoziiert wird. Covington und Müeller (2001) gehen davon aus, dass viele Schülerinnen und Schüler mit der Benotung einen gewissen Druck assoziieren. Dieser ist kennzeichnend für kontrollierendes Verhalten. Möglicherweise führte die Benotung in der autonomiegeförderten Gruppe dazu, dass der Unterricht zu Beginn der Untersuchung von den Schülerinnen und Schülern dieser Treatmentgruppe mit dem Regelunterricht in Verbindung gebracht wurde. Dieser wird von den Schülerinnen und Schülern als eher kontrollierend wahrgenommen (Martinek, 2010). Diese anfänglichen Unterschiede bezüglich der wahrgenommenen Wahlfreiheit zwischen den beiden autonomiegeförderten Treatmentgruppen (benotet vs. unbenotet) waren jedoch offenbar so gering, dass sie das Autonomieerleben der Schülerinnen und Schüler, das retrospektiv für die gesamte Unterrichtsreihe erfasst wurde (Implementationskontrolle), nicht bedeutsam beeinflusst haben, was für eine gute Implementation des autonomie-
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 19–32
28
N. Hofferber et al., Benotung und Autonomieförderung – (k)ein Widerspruch in sich!?
förderlichen Lehrerverhaltens in den beiden Treatmentgruppen spricht. Anscheinend hat Notengebung in einer autonomieförderlichen Lernumgebung kaum einen negativen Einfluss auf die motivationalen Erlebensqualitäten der Schülerinnen und Schüler. Das zeigt sich auch bei der Überprüfung von H2a-d. Hier wurde postuliert, dass Schülerinnen und Schüler, die bei autonomieförderlichem Lehrstil Noten erhalten, eine höhere Ausprägung bei den positiven motivationalen Erlebensqualitäten sowie im intrinsischen Erleben und eine geringere Ausprägung bezüglich der negativen motivationalen Erlebensqualität Druck / Anspannung aufweisen als kontrollierend behandelte Schülerinnen und Schüler, die ebenfalls benotet werden. Beide Treatmentgruppen (kontrollierendes Lehrerverhalten mit Noten (K+B) und autonomiegefördert mit Noten (A+B)) unterschieden sich in ihrem Interesse / Vergnügen, das einen Selbstbericht intrinsischer Motivation darstellt (H2d) sowie der wahrgenommenen Wahlfreiheit (H2a), die als Indikator des Autonomieerlebens gilt. In der Subskala wahrgenommene Kompetenz (H2b), die ein Indiz für das Kompetenzerleben darstellt, konnten zu beiden Messzeitpunkten keine signifikanten Unterschiede zwischen den Schülerinnen und Schülern beider Treatmentgruppen gemessen werden. Zu ähnlichen Befunden kam es auch in der Untersuchung von Meyer, Meyer-Ahrens und Wilde (2013), in der den Schülerinnen und Schülern einer Gruppe eine einmalige Schülerwahl geboten wurde, was der autonomieförderlichen Komponente choice entspricht, während die andere Gruppe keine Wahlmöglichkeiten erhielt. Das Kompetenzerleben kann durch das Autonomieerleben begünstigt werden (Ryan & Deci, 2000). Gleichzeitig kann das Kompetenzerleben aber auch durch die Sozialform beeinflusst werden (Gudjons, 2014). Ein, wie in der vorliegenden Studie dargebotener, handlungsorientierter und schüleraktiver Unterricht kann sich positiv auf das Kompetenzerleben der Schülerinnen und Schüler auswirken. Es ist denkbar, dass sich eine Leistungsrückmeldung von einer externen Lehrperson nicht so stark auf das Kompetenzerleben der Schülerinnen und Schüler in der Gruppe A+B ausgewirkt hat oder die Implementation des kontrollierenden Verhaltens nicht ausreichend war, um das Kompetenzerleben der Schülerinnen und Schüler in der K+B-Gruppe zu destruieren. Für diese Annahme sprechen auch die nicht signifikanten Unterschiede zwischen den Schülerinnen und Schülern des K+B- und A+B-Treatments in der Subskala Druck / Anspannung (H2c). Gemäß Reeve, Deci und Ryan (2004) geht intrinsisch motiviertes Verhalten mit wenig bis kaum Druck / Anspannung einher. Die Wahrnehmung von Druck / Anspannung ist charakteristisch für extrinsische Motivationsformen und gilt als Prädiktor für diese (Basten et al., 2014; Deci & Ryan, 2003; Wilde et al., 2009). Möglicherweise wurde in der
ungewohnten Lernsituation mit den lebenden Tieren das Aussprechen von Verboten und Maßregelungen nicht als besonders großer Druck empfunden. Insgesamt destruiert kontrollierendes Lehrerverhalten positive motivationale Erlebensqualitäten und das damit einhergehende intrinsische Erleben, während Autonomieförderung auch im Regelunterricht des Faches Biologie, unabhängig von dem externen Anreiz durch Schulnoten, positive motivationale Erlebensqualitäten und intrinsisches Erleben begünstigt. Die Betrachtung der deskriptiven Statistik zeigt, dass alle drei Treatmentgruppen im Durchschnitt zum ersten Messzeitpunkt höhere Ausprägungen bei den positiven motivationalen Erlebensqualitäten und der intrinsischen Erlebensqualität bzw. geringere bei der negativen motivationalen Erlebensqualität Druck / Anspannung haben als zum zweiten. Die Operationalisierung des Lehrerverhaltens war zu beiden Messzeitpunkten identisch. Lediglich die Sozialformen und die eingesetzten Unterrichtsmittel variierten zu beiden Messzeitpunkten. Zum ersten Messzeitpunkt (t1) wurden lebende Zwergmäuse eingesetzt. Diese gehen im Vergleich zu anderen Unterrichtsmitteln, wie Lehrfilmen, mit einer höheren intrinsischen Motivation der Schülerinnen und Schüler einher (Hummel, 2011). Zum zweiten Erhebungszeitpunkt (t2) fand die Ergebnissicherung unter Verwendung einer Folie statt. Die Aufgabenbearbeitung erfolgte zum ersten Messzeitpunkt (t1) in Kleingruppen, die Ergebnissicherung (t2) fand in Form von Frontalunterricht statt. Untersuchungen von Berger et al. (2004) ergaben, dass Gruppenarbeit gegenüber Frontalunterricht intrinsische Motivation begünstigt. Bei Gruppenarbeit können Lehrpersonen ihren Schülerinnen und Schülern im Vergleich zu Frontalunterricht mehr Entscheidungsmöglichkeiten einräumen. Die Schülerinnen und Schüler können bspw. selbst über die Reihenfolge der zu bearbeitenden Aufgaben sowie das Lerntempo entscheiden (Berger & Hänze, 2004). Möglicherweise werden diese Entscheidungsmöglichkeiten als bedeutsamer und damit autonomieförderlicher wahrgenommen (Assor, Kaplan & Roth, 2002) als die im Frontalunterricht gebotenen Wahl- und Entscheidungsmöglichkeiten (z. B. Wahl der Person, die die Ergebnisse als nächstes präsentiert). Die Unterrichtsreihe und die beiden Messzeitpunkte wurden bewusst so gewählt, dass die Wirkung der jeweiligen Treatments auf die motivationalen Erlebensqualitäten der Schülerinnen und Schüler beim Einsatz verschiedener Unterrichtsmittel und Sozialformen erhoben wurden. Dadurch wurden verschiedene realitätsnahe Unterrichtssituationen geschaffen. Denn Lehrpersonen nutzen auch im Regelunterricht unterschiedliche Unterrichtsmittel sowie Sozialformen. Der Frontalunterricht stellt dabei nach wie vor die dominierende Sozialform dar. In den naturwissenschaftlichen Fächern, zu denen auch der Bio-
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 19–32
© 2018 Hogrefe Verlag
N. Hofferber et al., Benotung und Autonomieförderung – (k)ein Widerspruch in sich!?
logieunterricht gehört, erfolgt die Erarbeitung von Lehrinhalten deutlich häufiger in Gruppenarbeit als bspw. im Vergleich zu den gesellschaftswissenschaftlichen Fächern und repräsentiert ebenfalls eine gängige Sozialform des regulären Biologieunterrichts (Hage et al., 1985). Die vorliegende Arbeit stützt deutlich die Aussage, dass Notengebung in einem autonomieförderlichen Lernsetting nicht zwangsläufig intrinsische Erlebensqualitäten destruieren muss. Diese Befunde decken sich mit denen von Weidinger, Spinath und Steinmayr (2015), die daraus schließen, dass nicht die Notengebung als solche für den Motivationsabfall der Schülerinnen und Schüler verantwortlich ist. Zudem scheint eine Implementation von Autonomieförderung im regulären Biologieunterricht möglich zu sein. Dadurch kann also eine der zentralen von Jansen, Schroeders und Stanat (2013) formulierten Zielgrößen des Unterrichts, nämlich die Motivation, begünstigt werden. Covington und Müeller (2001) nehmen an, dass mit zunehmendem Alter Benotung und damit das Erreichen guter Noten immer wichtiger werden. Gute Noten werden von älteren Schülerinnen und Schülern als Zugang für höhere Bildungsmöglichkeiten angesehen und das Selbstwertgefühl kann durch Noten maßgeblich beeinflusst werden. In nachfolgenden Untersuchungen sollte die Wirkung von Notengebung bei differierendem Lehrerverhalten (autonomiefördernd vs. kontrollierend) auf verschiedene Altersstufen ausgeweitet werden. Weiterhin sollte überprüft werden, wie und ob sich ggf. gute bzw. schlechte Noten auf die Motivation der Schülerinnen und Schüler auswirken. Untersuchungen von Weidinger et al. (2015) deuten darauf hin, dass sich Leistungsrückmeldung in Form von Noten unabhängig davon, ob diese gut oder schlecht sind, nicht automatisch destruktiv auf die intrinsische Motivation auswirken. Rakoczy, Harks, Klieme, Blum und Hochweber (2013) nehmen an, dass es auf die Art der Rückmeldung ankommt. Ihre Studie ergab, dass sich lösungsprozessbezogenes Feedback vermittelt über die wahrgenommene Nützlichkeit von diesem sowie dessen Kompetenzunterstützung positiver auf die intrinsische Motivation der Schülerinnen und Schüler auswirkt als Schulnoten. Zudem könnten innerhalb von Klassen autonomieförderliches Verhalten sowie die Rückmeldung von Noten von Schülerinnen und Schülern unterschiedlicher Leistungsniveaus verschieden erlebt werden und differenzielle motivationale Wirkung erzielen. Gemäß der Causality Orientations Theorie nach Deci und Ryan (1985b) können sich Lernende hinsichtlich ihrer motivationalen Orientierung unterscheiden. Lernende, die zu einer Autonomieorientierung neigen, nehmen ihre Umwelt als autonomieförderlicher wahr als Lernende, die zu einer Kontrollorientierung tendieren (Gagné & Deci, 2005; Reeve, 2012). Leistungsstärkere Schülerinnen und Schü© 2018 Hogrefe Verlag
29
ler neigen, im Vergleich zu leistungsschwächeren Schülerinnen und Schülern, eher zur Autonomieorientierung und nehmen die Bewertungen von Lehrpersonen als fairer wahr (Deci & Ryan, 1985b). Um allgemeingültige Aussagen für den Schulunterricht hinsichtlich der Wirkung von Benotung bei autonomieförderlichem Lehrerverhalten auf die motivationalen Erlebensqualitäten der Schülerinnen und Schüler treffen zu können, bedarf es zudem weiterer Untersuchungen in unterschiedlichen Fächern und beim Einsatz unterschiedlich interessanter Lehrinhalte. Weiterhin ergeben sich Einschränkungen durch den quasiexperimentellen Charakter der Studie. Zu überprüfen wäre, ob die in der vorliegenden Studie erfassten Effekte auch auftreten, wenn die Biologielehrkräfte entsprechend des Treatments geschult werden und die Unterrichtsreihe mit ihren eigenen Schülerinnen und Schülern durchführen. Zudem sind die Schülerinnen und Schüler in Klassen und die Klassen in der jeweiligen Schule sowie Schulform genestet. Basten et al. (2014) fanden heraus, dass die positive motivationale Wirkung der Autonomieförderung vom Leistungsniveau der Schülerinnen und Schüler abhängen kann. Gymnasiasten profitierten an einem außerschulischen Lernort stärker von einem autonomieförderlichen Lernsetting als Realschülerinnen und- schüler (Basten et al., 2014). In der vorliegenden Untersuchung wurde die genestete Datenstruktur als „Störfaktor“ (Lüdtke, 2009) betrachtet. Das Treatment, das klassenweise zugeteilt wurde, sollte das individuelle Erleben der Schülerinnen und Schüler (intrapersonaler Prozess) beeinflussen. Es ist jedoch nicht ausgeschlossen, dass ganze Klassen durch ein unterschiedliches motivationales Klassen- oder Schulklima etwas unterschiedlich auf die Intervention reagieren (vgl. Basten et al., 2014). Die Nichtbeachtung dieser Unterschiede, die sich auf Grund der Klumpenstichprobe ergeben, können zur Unterschätzung des Standardfehlers und damit zu ungenauen Signifikanztestungen führen (Ditton, 1998). Durch die Überprüfung der überdauernden Motivation haben wir dies für unsere Stichprobe teilweise kontrolliert. Zudem handelt es sich bei unserer Studie um eine Interventionsstudie, die von zwei Studierenden durchgeführt wurde. Es sollten die motivationalen Erlebensqualitäten der Schülerinnen und Schüler während der durchgeführten Unterrichtseinheit erfasst werden. Auch wenn motivationale Komponenten zu einem gewissen Grad auch von der Klassen- bzw. Schulzugehörigkeit abhängen, ist das Autonomieerleben der Schülerinnen und Schüler, das mit den motivationalen Erlebensqualitäten einhergeht, zu einem erheblichen Teil von deren subjektiver Wahrnehmung beeinflusst (Reeve et al., 2003). Nichtsdestotrotz sollten größer angelegte Studien die Mehrebenenstruktur bei der Untersuchung von Autonomieförderung im schulischen Kontext gezielt berücksichtigen.
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 19–32
30
N. Hofferber et al., Benotung und Autonomieförderung – (k)ein Widerspruch in sich!?
Zusätzlich könnten weitere methodische Möglichkeiten zur Umsetzung autonomiefördernder Maßnahmen im Regelunterricht erarbeitet (Hartinger, 2005) und an Lehrpersonen, bspw. in Form von Weiterbildungen, herangetragen werden. Eine mögliche Umsetzung der Autonomieförderung könnte sich durch die Art der Leistungsrückmeldung ergeben. Untersuchungen von Harks, Rakoczy, Klieme, Hattie und Besser (2014) ergaben, dass Schülerinnen und Schüler kompetenzbezogene und lösungsprozessbezogene Rückmeldungen im Vergleich zu Noten als nützlicher wahrnahmen. Ähnlich wie der Bezug von Lehrinhalten zur Lebenswelt der Schülerinnen und Schüler könnte auch die Nützlichkeit von Rückmeldungen autonomieförderlichen Charakter haben. Trotz vieler offener Fragen lässt sich auf Basis der vorliegenden Befunde vermuten, dass, wenn sich Autonomieförderung im Unterricht etabliert, vermutlich der derzeitige Motivationsverfall im Regelunterricht abgemildert werden könnte. So würde einer der „erklärungsmächtigste[n] Prädiktoren individueller Schulleistungen“ begünstigt werden (Heller & Ziegler, 1998, S. 161).
Literatur Assor, A., Kaplan, H. & Roth, G. (2002). Choice is good, but relevance is excellent: Autonomy-enhancing and suppressing teacher behaviours predicting students’ engagement in schoolwork. British Journal of Educational Psychology, 72, 261 – 278. Basten, M., Meyer-Ahrens, I., Fries, S. & Wilde, M. (2014). The effects of autonomy-supportive vs. controlling guidance on learners’ motivational and cognitive achievement in a structured field trip. Science Education, 98, 1033 – 1053. Berger, R. & Hänze, M. (2004). Das Gruppenpuzzle im Physikunterricht der Sekundarstufe II – Einfluss auf Motivation, Lernen und Leistung. Zeitschrift für Didaktik der Naturwissenschaften, 10, 205 – 219. Bieg, S. & Mittag, W. (2009). Die Bedeutung von Unterrichtsmerkmalen und Unterrichtsemotionen für die selbstbestimmte Lernmotivation. Empirische Pädagogik, 23, 117 – 142. Black, A. E. & Deci, E. L. (2000). The effects of instructors’ autonomy support and students’ autonomous motivation on learning organic chemistry: A Self-Determination Theory perspective. Science Education, 84, 740 – 756. Bortz, J. (2013). Statistik für Sozialwissenschaftler. Berlin: Springer. Charms, R. de (1968). Personal Causation: The Internal Affective Determinants of Behavior. New York: Academic Press. Charms, R. de (1977). Pawn or origin? Enhancing motivation in disaffected youth. Educational Leadership, 34, 444 – 448. Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences. Hillsdale, NJ: Erlbaum. Covington, M. V. & Müeller, K. J. (2001). Intrinsic versus extrinsic motivation: An approach / avoidance reformulation. Educational Psychology Review, 13, 157 – 176. Deci, E. L. (1975). Intrinsic motivation. New York: Plenum. Deci, E. L., Eghrari, H., Patrick, B. C. & Leone, D. R. (1994). Facilitating internalization: The Self-Determination Theory perspective. Journal of Personality, 62, 119 – 142.
Deci, E. L., Koestner, R. & Ryan, R. M. (1999). Extrinsic rewards and intrinsic motivation in education: Reconsidered once again. Review of Educational Research, 71 (1), 1 – 27. Deci, E. L. & Ryan, R. M. (1985a). Intrinsic Motivation and Self-Determination in Human Behavior. New York: Plenum. Deci, E. L. & Ryan, R. M. (1985b). The general causality orientations scale: Self-determination in personality. Journal of Research in Personality, 19, 109 – 134. Deci, E. L. & Ryan, R. M. (1993). Die Selbstbestimmungstheorie der Motivation und ihre Bedeutung für die Pädagogik. Zeitschrift für Pädagogik, 39, 223 – 238. Deci, E. L. & Ryan, R. M. (2000). The “what“ and “why“ of goal pursuits: Human needs and the self-determination of behavior. Psychological Inquiry, 11, 227 – 268. Deci, E. L. & Ryan, R. M. (2003). Intrinsic Motivation Inventory. Retrieved from http://www.psych.rochester.edu/SDT/measures/ intrins.html. Ditton, H. (1998). Mehrebenenanalyse: Grundlagen und Anwendungen des hierarchisch linearen Modells. Weinheim: Juventa. Field, A. (2013). Discovering Statistics using IBM SPSS Statistics (4th ed.). Newbury Park, CA: Sage Publications. Gagné, M. & Deci, E. L. (2005). Self-Determination Theory and work motivation. Journal of Organizational Behavior, 26, 331 – 362. Gudjons, H. (2014). Handlungsorientiert lehren und lernen: Schüleraktivierung, Selbsttätigkeit, Projektarbeit. Bad Heilbrunn: Klinkhardt. Hage, K., Bischoff, H., Dichanz, H., Eubel, K.-D., Oehlschläger, H.-J. & Schwittmann, D. (1985). Das Methoden-Repertoire von Lehrern. Eine Untersuchung zum Unterrichtsalltag in der Sekundarstufe I. Leverkusen: Leske + Budrich. Harks, B., Rakoczy, K., Klieme, E., Hattie, J. & Besser, M. (2014). Indirekte und moderierte Effekte von schriftlicher Rückmeldung auf Leistung und Motivation. In H. Ditton & A. Müller (Hrsg.), Feedback und Rückmeldungen. Theoretische Grundlagen, empirische Befunde, praktische Anwendungsfelder (S. 163 – 194). Waxmann: Münster. Hartinger, A. (2005). Verschiedene Formen der Öffnung von Unterricht und ihre Auswirkung auf das Selbstbestimmungsempfinden von Grundschulkindern. Zeitschrift für Pädagogik, 51, 397 – 414. Heckhausen, H. (1989). Motivation und Handeln. Berlin: Springer. Heller, K. A. & Ziegler, A. (1998). Motivationsförderung im Unterricht. Psychologie in Erziehung und Unterricht, 45, 161 – 167. Hidi, S. (2000). An interest researcher’s perspective: The effects of intrinsic and extrinsic factors on motivation. In C. Sansone & J. M. Harackiewicz (Eds.), Intrinsic and Extrinsic Motivation: The Search for Optimal Motivation and Performance (pp. 309 – 339). San Diego, CA: Academic Press. Hofferber, N., Eckes, A., Kovaleva, A. & Wilde, M. (2015). Die Auswirkung von autonomieförderndem Lehrerverhalten im Biologieunterricht mit lebenden Tieren. Zeitschrift für Didaktik der Naturwissenschaften, 21 (1), 17 – 27. Hummel, E. (2011). Experimente mit lebenden Tieren. Hamburg: Kovač. Jansen, M., Schroeders, U. & Stanat, P. (2013). Motivationale Schülermerkmale in Mathematik und den Naturwissenschaften. In H. A. Pant, P. Stanat, U. Schroeders, A. Roppelt, T. Siegle & C. Pöhlmann (Hrsg.), IQB-Ländervergleich 2012: Mathematische und naturwissenschaftliche Kompetenzen am Ende der Sekundarstufe I (S. 347 – 365). Münster: Waxmann. Joussemet, M., Koestner, R., Lekes, N. & Houlfort, N. (2004). Introducing uninteresting tasks to children: A comparison of the effects of rewards and autonomy support. Journal of Personality, 72, 140 – 166. Katz, I. & Assor, A. (2006). When choice motivates and when it does not. Educational Psychology Review, 19, 429 – 442.
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 19–32
© 2018 Hogrefe Verlag
N. Hofferber et al., Benotung und Autonomieförderung – (k)ein Widerspruch in sich!?
Koestner, R., Ryan, R. M., Bernieri, F. & Holt, K. (1984). Setting limits on children’s behavior: The differential effects on controlling vs. informational styles on intrinsic motivation and creativity. Journal of Personality, 52, 233 – 248. Lietaert, S., Roorda, D., Laevers, F., Verschueren, K. & De Fraine, B. (2015). The gender gap in student engagement: The role of teachers’ autonomy support, structure, and involvement. British Journal of Educational Psychology, 85, 498 – 518. Lin, Y. G., McKeachie, W. J. & Kim, Y. C. (2003). College student intrinsic and / or extrinsic motivation and learning. Learning and Individual Differences, 13, 251 – 258. Lüdtke, O. (2009). Mehrebenenmodellierung in der empirischen Bildungsforschung. In O. Zlatkin-Troitschanskaia, K. Beck, D. Sembill, R. Nickolaus & R. Mulder (Hrsg.), Lehrprofessionalität: Bedingungen, Genese, Wirkungen und ihre Messung (S. 275 – 293). Weinheim: Beltz. Martinek, D. (2010). Wodurch geraten Lehrer/innen unter Druck? Zeitschrift für Erziehung und Unterricht, 160, 784 – 791. Meyer, A., Meyer-Ahrens, I. & Wilde, M. (2013). The beneficial effects of non-received choice – a study on intrinsic motivation in biology education. European Journal of Educational Research, 2, 185 – 190. Meyer-Ahrens, I., Meyer, A., Witt, C. & Wilde, M. (2014). Die Interessantheit des Kernlehrplanes Biologie aus Schülersicht – Schülerorientierung durch fachliche Kontexte. Der mathematische und naturwissenschaftliche Unterricht, 67, 234 – 240. Mittag, W., Bieg, S., Hiller, F., Metz, K. & Melenk, H. (2009). Förderung selbstbestimmter Lernmotivation im Biologieunterricht. Psychologie in Erziehung und Unterricht, 4, 271 – 286. Müller, F. H., Hanfstingl, B. & Andreitz, I. (2007). Skalen zur motivationalen Regulation beim Lernen von Schülerinnen und Schülern. Verfügbar unter http://ius.uniklu.ac.at/publikationen/wiss_beitra ege/dateien/IUS_Forschungsbericht_1_Motivationsskalen.pdf. Prokop, P., Tuncer, G. & Chudá, J. (2007). Slovakian students’ attitudes toward biology. Eurasia Journal of Mathematics, Science & Technology Education, 3, 287 – 295. Radel, R., Pelletier, L., Baxter, D., Fournier, M. & Sarrazin, P. (2014). The paradoxical effect of controlling context on intrinsic motivation in another activity. Learning and Instruction, 29, 95 – 102. Rakoczy, K., Harks, B., Klieme, E., Blum, W. & Hochweber, J. (2013). Written feedback in mathematics: Mediated by students’ perception, moderated by goal orientation. Learning and Instruction, 27, 63 – 73. Reeve, J. (1998). Autonomy Support as an Interpersonal Motivating Style: Is it Teachable? Contemporary Educational Psychology, 23, 312 – 330. Reeve, J. (2002). Self-Determination Theory applied to educational settings. In R. M. Ryan & E. L. Deci (Eds.), Handbook of SelfDetermination Research (pp. 183 – 203). Rochester, NY: University of Rochester Press. Reeve, J. (2012). A Self-Determination Theory perspective on student engagement. In S. L. Christenson, A. L. Reschly, & C. Wylie (Eds.), Handbook of Research on Student Engagement (pp. 149 – 172). New York: Springer. Reeve, J. (2014). Extrinsic rewards in inner motivation. In C. M. Evertson (Eds.), Handbook of Classroom Management (pp. 645 – 664). Mahwah, NJ: Lawrence Erlbaum Associates. Reeve, J., Bolt, E. & Cai, Y. (1999). Autonomy-supportive teachers: How they teach and motivate students. Journal of Educational Psychology, 91, 537 – 548. Reeve, J., Deci, E. L. & Ryan, R. M. (2004). Self-Determination Theory. A didactical framework for understanding sociocultural influences on student motivation. In D. M. McInerney & S. Van Etten (Eds.), Big Theories Revisited (pp. 31 – 60). Charlotte, NC: Information Age Publishing.
© 2018 Hogrefe Verlag
31
Reeve, J. & Jang, H. (2006). What teachers say and do to support students’ autonomy during learning activities. Journal of Educational Psychology, 98, 209 – 218. Reeve, J., Nix, G. & Hamm, D. (2003). Testing models of the experience of self-determination in intrinsic motivation and the conundrum of choice. Journal of Educational Psychology, 95, 375 – 392. Reeve, J., Ryan, R. M., Deci, E. L. & Jang, H. (2007). Understanding and promoting autonomous self-regulation: A self-determination theory perspective. In D. Schunk & B. Zimmerman (Eds.), Motivation and self-regulated learning: Theory, research, and application (pp. 223 – 244). Mahwah, NJ: Lawrence Erlbaum Associates. Ryan, R. M. (1982). Control and information in the intrapersonal sphere: An extension of cognitive evaluation theory. Journal of Personality and Social Psychology, 43, 450 – 461. Ryan, R. M. & Connell, J. P. (1989). Perceived locus of causality and internalization: Examining reasons for acting two domains. Journal of Personality and Psychology, 57, 749 – 761. Ryan, R. M., Connell, J. P. & Plant, R. W. (1990). Emotions in nondirected text learning. Learning and Individual Differences, 2, 1 – 17. Ryan, R. M. & Deci, E. L. (2000). Intrinsic and extrinsic motivations: classic definitions and new directions. Contemporary Educational Psychology, 25, 54 – 67. Ryan, R. M. & Deci, E. L. (2002). An overview of self-determination theory. In E. L. Deci & R. M. Ryan (Eds.), Handbook of Self-Determination Research (pp. 3 – 33). Rochester, NY: University of Rochester Press. Ryan, R. M. & Deci, E. L. (2017). Self-Determination Theory. Basic psychological needs in motivation, development, and wellness. New York: Guilford Press. Ryan, R. M., Mims, V. & Koestner, R. (1983). Relation of reward contingency and interpersonal context to intrinsic motivation: A review and test using cognitive evaluation theory. Journal of Personality and Social Psychology, 45, 736 – 750. Ryan, R. M. & Stiller, J. (1991). The social context of internalization: Parent and teacher influences on autonomy, motivation and learning. In P. R. Pintrich & M. L. Maehr (Eds.), Advances in motivation and achievement (Vol. 7, pp. 115 – 149). Greenwich, CT: JAI Press. Sansone, C. & Harackiewicz, J. (2000). Intrinsic and Extrinsic Motivation. The Search for Optimal Motivation and Performance. San Diego, CA: Academic Press. Schiefele, U. & Köller, O. (2006). Intrinsische und extrinsische Motivation. In D. H. Rost (Hrsg.), Handwörterbuch Pädagogische Psychologie (S. 303 – 310). Weinheim: Beltz. Sedlmeier, P. & Renkewitz, F. (2008). Forschungsmethoden und Statistik in der Psychologie. München: Pearson. Spinath, B., Kriegbaum, K., Stiensmeier-Pelster, J., Schöne, C. & Dickhäuser, O. (2016). Negative Veränderungen von Zielorientierungen über Schülergenerationen hinweg: Ein 10-Jahresvergleich der SELLMO. Zeitschrift für Pädagogische Psychologie, 30, 271 – 278. Thomas, A. E. & Müller, F. H. (2015). Entwicklung und Validierung der Skalen zur motivationalen Regulation beim Lernen. Diagnostica, 62, 1 – 11. Tsai, Y.-M., Kunter, M., Lü dtke, O., Trautwein, U. & Ryan, R. M. (2008). What makes lessons interesting? The roles of situation and individual factors in three school subjects. Journal of Educational Psychology, 100, 460 – 472. Vansteenkiste, M., Lens, W. & Deci, E. L. (2006). Intrinsic versus extrinsic goal contents in Self-Determination Theory: Another look at the quality of academic motivation. Educational Psychologist, 41 (1), 19 – 31.
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 19–32
32
N. Hofferber et al., Benotung und Autonomieförderung – (k)ein Widerspruch in sich!?
Weidinger, A. F., Spinath, B. & Steinmayr, R. (2015). Zur Bedeutung von Grundschulnoten für die Veränderung von Intrinsischer Motivation und Fähigkeitsselbstkonzept in Deutsch. Zeitschrift für Pädagogische Psychologie, 29, 193 – 204. Wigfield, A., Eccles, J. S., Fredricks, J. A., Simpkins, S., Roeser, R. & Schiefele, U. (2015). Development of achievement motivation and engagement. In R. M. Lerner & M. Lamb (Eds.), Handbook of Child Psychology and Developmental Science (Vol. 3: Socioemotional Processes; pp. 657 – 700). Hoboken, NJ: Wiley. Wilde, M., Bätz, K., Kovaleva, A. & Urhahne, D. (2009). Überprüfung einer Kurzskala intrinsischer Motivation (KIM). Zeitschrift für Didaktik der Naturwissenschaften, 15, 31 – 42. Wilde, M., Meyer, A. & Klingenberg, K. (2010). Klein aber oho – Zwergmäuse im Unterricht. Unterricht Biologie, 34 (357/358), 32 – 36.
Dr. Natalia Hofferber Dr. Melanie Basten Prof. Dr. Matthias Wilde Universität Bielefeld Biologiedidaktik Universitätsstraße 25 33615 Bielefeld natalia_romanow@web.de melanie.basten@uni-bielefeld.de matthias.wilde@uni-bielefeld.de
Nina Heinrichs / Arnold Lohaus / Johanna Maxwill
Emotionsregulationstraining (ERT) für Kinder im Grundschulalter
Nina Heinrichs Arnold Lohaus Johanna Maxwill
Therapeutische Praxis
Emotionsregulationstraining (ERT) für Kinder im Grundschulalter (Reihe: „Therapeutische Praxis“) 2017, 84 Seiten, Großformat, inkl. CD-ROM, € 39,95 / CHF 48.50 ISBN 978-3-8017-2766-6 Auch als eBook erhältlich
Das in diesem Manual vorgestellte Emotionsregulationstraining (ERT) richtet sich an Kinder im Alter von 6 bis 10 Jahren. Es zielt darauf ab, die Emotionsregulationskompetenzen zu stärken. Das ERT wurde für die Durchführung in Gruppen konzipiert und umfasst sechs Sitzungen. Einleitend gibt
der Band theoretische Hintergrundinformationen zur Emotionsregulation und erläutert das Konzept des Trainings. Anschließend wird die Durchführung der einzelnen Sitzungen beschrieben. Zum einen enthält das Training Übungen zur Wissensvermittlung über Emotionen, um das Emotionsverständnis der Kinder zu stärken. Zum anderen umfasst es Übungen zu den Teilprozessen der Emotionsregulation. Auf spielerische Weise werden Strategien zur Situationsselektion, Situationsmodifikation, Aufmerksamkeitslenkung, kognitiven Veränderung und Reaktionsmodulation vermittelt. Das Manual beinhaltet Arbeitsblätter mit zahlreichen Illustrationen, die direkt von der beiliegenden CD-ROM ausgedruckt werden können. Zusätzlich zum Manual sind Materialien zur Durchführung des Trainings erhältlich, die über die Testzentrale (www.testzentrale.de) bezogen werden können.
www.hogrefe.com
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 19–32
© 2018 Hogrefe Verlag
Die optimale Ergänzung zu den Conners 3®
Von 6 2 bis n Jahre
Simon Harbarth / Ricarda Steinmayr / Eva Neidhardt / Hanna Christiansen
Conners EC™
Conners Skalen zu Aufmerksamkeit, Verhalten und Entwicklungsmeilensteinen im Vorschulalter
Test komplett bestehend aus: • Manual • je 5 Fragebogen Conners EC™ (je Eltern- und Erzieherversion) • je 5 Auswertungs- und Profilbogen Conners EC™ (je Elternund Erzieherversion) • Übersichtskarte • Box Best.-Nr. 03 187 01 € 306,00 / CHF 376.00
Die Conners EC™ bieten Ihnen • eine flexible und ökonomische Erfassung der häufigsten Störungen im Vorschulalter • die Erfassung von Verhaltensproblemen und Entwicklungsmeilensteinen • mehrere Fragebogenversionen für unterschiedliche Fragestellungen, die individuell eingesetzt werden können Einsatzbereich Bei Kindern von 2 bis 6 Jahren als Teil der Diagnostik (nach ICD-10 und DSM-5) und der Therapieevaluation der häufigsten psychischen Störungen im Vorschulalter. Die Bearbeitungsdauer liegt zwischen 5 (Global-Index) und 30 (Langform) Minuten. Verfahren Die Conners Skalen zu Aufmerksamkeit, Verhalten und Entwicklungsmeilensteinen im Vorschulalter (Conners EC™) sind die deutschsprachige Adaptation der Conners Early Childhood Scales (Conners EC™), einem von C. Keith Conners entwickelten Fragebogenverfahren zur Erfassung von klinisch-psychologischen Verhaltensproblemen sowie von Entwicklungsmeilensteinen im Vorschulalter. Normen Alters- und geschlechtsspezifische Normen für 2- bis 6-Jährige. N = 720 (Elternbeurteilung) bzw. N = 599 (Erzieherbeurteilung).
www.hogrefe.com
Depressionstest für Kinder – II
Im ersten Teil werden theoretische Grundlagen, Diagnose- und Fördermöglichkeiten von Motivation und Emotion im Allgemeinen dargestellt. Dabei werden einige der für Forschung und Praxis fruchtbarsten theoretischen Ansätze vorgestellt, wie zum Beispiel diejenigen zu Fähigkeitsselbstkonzepten und Selbstwert.
P. Rossmann Einsatzbereich:
Der zweite Teil widmet sich verschiedenen Anwendungskontexten. Es wird veranschaulicht, wie das Wissen um Motivation und Emotionen etwa in der Schulpsychologie, der Psychotherapie und im Human Resources Management angewandt wird.
Hogrefe Verlagsgruppe
Göttingen · Bern · Wien · Oxford · Paris Boston · Amsterdam · Prag · Florenz Kopenhagen · Stockholm · Helsinki · Oslo Madrid · Barcelona · Sevilla · Bilbao Saragossa · São Paulo · Lissabon www.hogrefe.com
ISBN 978-3-8017-2876-2
Normen:
Grundlagen und Anwendung in ausgewählten Lern- und Arbeitskontexten
Grundlagen und Anwendung in ausgewählten Lernund Arbeitskontexten 2018, 208 Seiten, € 29,95 / CHF 39.90 ISBN 978-3-8017-2876-2 Auch als eBook erhältlich
Mietzel
Gerd Mietzel
Pädagogische Psychologie des Lernens und Lehrens Gerd Mietzel
rbu leh ch
Pädagogische Psychologie des Lernens und Lehrens
9., akt. und erw. Auflage 2017, XII/718 Seiten, € 49,95 / CHF 65.00 ISBN 978-3-8017-2457-3 Auch als eBook erhältlich
9., aktualisierte und erweiterte Auflage
s plu
psych
Gesamtnormen in Form von Prozenträngen (N = 1.250) für die Lang- sowie die Kurzversion.
Psychologie der Motivation und Emotion
Im ersten Teil dieses Buches werden theoretische Grundlagen, Diagnose- und Fördermöglichkeiten von Motivation und Emotion im Allgemeinen dargestellt. Dabei werden einige der für Forschung und Praxis fruchtbarsten theoretischen Ansätze vorgestellt, wie zum Beispiel diejenigen zu Fähigkeitsselbstkonzepten und Selbstwert. Der zweite Teil widmet sich verschiedenen Anwendungskontexten. Es wird veranschaulicht, wie das Wissen um Motivation und Emotionen etwa in der Schulpsychologie, der Psychotherapie und im Human Resources Management angewandt wird.
Pädagogische Psychologie des Lernens und Lehrens
Der DTK-II ist ein Fragebogen zur Selbstbeurteilung der aktuellen depressiven Befindlichkeit von Kindern. Auf drei depressionsrelevanten Dimensionen wird das kindliche Befinden abgebildet, die sich auf 1) dysphorische Stimmung und Selbstwertprobleme, 2) agitiertes Verhalten sowie 3) Müdigkeit und andere psychosomatische Aspekte beziehen. Der Fragebogen besteht aus kurzen und kindgerechten Items, welche von den Kindern mit „ja“ oder „nein“ beantwortet werden können. Die Langform umfasst 55 Items, außerdem ist eine Kurzform mit 11 Items enthalten. Das Manual wurde für den DTK-II komplett überarbeitet (neue Validierungsstudien, Ergänzungen zum theoretischen Hintergrund, aktualisierte Literaturhinweise). Darüber hinaus wurde das Verfahren neu normiert (N = 1.250) und um ein Screeningverfahren erweitert.
Birgit Spinath Oliver Dickhäuser Claudia Schöne (Hrsg.)
9 783801 728762
Das Verfahren:
hogrefe.de
Bearbeitungsdauer:
Langform: ca. 10 bis 15 Minuten Kurzform: ca. 5 Minuten.
www.hogrefe.com
Psychologie der Motivation und Emotion
Das Buch zeichnet sich durch einen starken Anwendungsbezug aus. Jedes Kapitel beginnt mit einem Fallbeispiel, das ein motivationales oder emotionales Problem illustriert. Davon ausgehend werden die theoretischen Konzepte erläutert und zentrale Forschungsbefunde dargestellt. Einschlägige diagnostische Instrumente werden kompakt vorgestellt. Die Kapitel werden durch eine Zusammenfassung der wichtigsten Erkenntnisse sowie durch Verständnisfragen abgerundet.
Kinder im Alter von 9 bis 14 Jahren. Einsatz durch Kinderpsychologen und -psychiater sowie durch Schul- und Entwicklungspsychologen als Screeningverfahren in Schülerpopulationen. Als Einzel- und Gruppentest einsetzbar.
03 197 01 Test komplett
Birgit Spinath / Oliver Dickhäuser / Claudia Schöne (Hrsg.)
Spinath / Dickhäuser / Schöne (Hrsg.)
In diesem Buch werden sowohl die Grundlagen zum Verständnis von Motivation und Emotion in Lern- und Arbeitskontexten dargelegt als auch Beispiele für die Arbeit mit diesen Konzepten in verschiedenen Anwendungsbereichen illustriert. Der Schwerpunkt liegt dabei auf der anschaulichen Vermittlung dessen, wie theoretisches Wissen um Motivation und Emotionen für Anwendungen nutzbar gemacht werden kann.
Psychologie der Motivation und Emotion
DTK-II
Das Lehrbuch bietet einen gut verständlichen und umfassenden Einblick in die Pädagogische Psychologie. Es beschäftigt sich mit dem Lernen und Lehren von der Kindheit bis ins Erwachsenenalter. Vor allem aus konstruktivistischer Sicht werden Themen wie (kooperatives) Lernen, Gedächtnis, Denken, Motivation und pädagogische Diagnostik dargestellt. Besonderer Wert wurde darauf gelegt, den Bezug zur unterrichtlichen Praxis herauszuarbeiten.
89,00 €
www.hogrefe.com
Originalarbeit
Kompetenztestung bei Grundschulkindern Differenzielle Effekte unterschiedlicher Testbedingungen Kathrin Lockl1, Marion Händel2 und Cordula Artelt1 1
Leibniz-Institut für Bildungsverläufe e.V., Otto-Friedrich-Universität Bamberg
2
Universität Erlangen-Nürnberg, Lehrstuhl für Pädagogische Psychologie und Exzellenzforschung Zusammenfassung: Die vorliegende Studie ging der Frage nach, ob die Validität eines sprachlich vorgegebenen Wissenstests für Grundschülerinnen und Grundschüler durch bestimmte Administrationsbedingungen gesteigert werden kann. In der Studie bearbeiteten 319 Drittklässlerinnen und Drittklässler im Klassenkontext einen inhaltlichen Test zum metakognitiven Wissen über Lernstrategien, der in zwei Varianten (Zuhören vs. Zuhören und Mitlesen) vorgegeben wurde. Darüber hinaus wurde ein Wortschatztest eingesetzt und der familiäre Sprachhintergrund der Kinder erhoben. Als wichtigsten Befund ergab eine Mehrebenenanalyse eine signifikante Interaktion von Testbedingung und den sprachlichen Kompetenzen: Kinder mit vergleichsweise geringem Wortschatz erzielten in der Zuhören-und-Mitlesen-Bedingung höhere Werte in einem Test zum metakognitiven Wissen als in der Zuhören-Bedingung, wohingegen sich bei Kindern mit größerem Wortschatz kein Unterschied zwischen den Testbedingungen ergab. Ein entsprechendes Befundmuster zeigte sich, wenn anstatt des Wortschatzes der Sprachhintergrund berücksichtigt wurde. Somit sprechen die Ergebnisse dafür, dass Kinder mit geringeren Sprachkompetenzen von der Möglichkeit profitieren, die Aufgabentexte mitzulesen. Folglich erhöht die Zuhören-und-Mitlesen-Bedingung die Validität der Testung, was mit Blick auf die theoretischen und diagnostischen Implikationen diskutiert wird. Schlüsselwörter: Kompetenztestung, Zuhören und Mitlesen, Sprache, Validität
Competence Testing in Primary School Children: Differential Effects of Different Test Administration Modes Abstract: The present study investigated whether the validity of a verbally presented knowledge test for primary school children can be increased by the mode of test administration. In this study, 319 third-graders were given a test concerning metacognitive knowledge about learning strategies, which was presented in a classroom context in two different versions (listening and reading-while-listening). In addition, a vocabulary test was administered and children’s family language background was assessed. As a main result, a multilevel analysis revealed a significant interaction between administration mode and language competencies: Children with comparatively reduced vocabulary attained higher scores in the metacognitive knowledge test in the reading-while-listening condition compared with the listening condition. By contrast, there was no effect of test administration mode for children with more advanced vocabulary. Corresponding results were found when children’s language background instead of vocabulary was taken into account. Thus, the results suggest that children with lower language competencies benefit from the possibility to read the task-related texts while listening. Hence, the reading-while-listening condition increases the validity of testing. The findings are discussed in terms of their theoretical and diagnostic implications. Keywords: competence tests, reading-while-listening, language, validity
Zahlreiche Studien wurden und werden mit dem Ziel durchgeführt, Kompetenzen zu erfassen, die bedeutsam für das Erreichen von Bildungsabschlüssen sind und die zu einem erfolgreichen individuellen und gesellschaftlichen Leben beitragen (Klieme et al., 2010; Weinert et al., 2011). Als Voraussetzung dafür, Kompetenzen in einem bestimmten Bereich angemessen beschreiben und Entwicklungsverläu-
fe oder Zusammenhänge mit anderen Konstrukten adäquat abbilden zu können, sollte die Erfassung der Kompetenzen dabei möglichst objektiv, reliabel und valide erfolgen. Werden Testverfahren im schulischen Kontext eingesetzt, erfolgt die Messung von Kompetenzen üblicherweise standardisiert und papierbasiert in Gruppensettings. Die Testsituation setzt hierbei ein gewisses Maß an Kon-
Die vorliegende Studie wurde als Entwicklungsstudie im Rahmen des Nationalen Bildungspanels (National Educational Panel Study, NEPS) durchgeführt. Wir danken allen teilnehmenden Kindern und Schulen für ihre Kooperation bei der Studie. Zudem geht unser Dank an Ilka Wolter, Tabea Durda und Timo Gnambs für die wertvollen Hinweise zur Datenanalyse. © 2018 Hogrefe Verlag
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 33–43 https://doi.org/10.1026/0049-8637/a000183
34
K. Lockl et al., Kompetenztestung bei Grundschulkindern
zentration, Ausdauer und sprachlichen Kompetenzen auf Seiten der Schülerinnen und Schüler voraus. Wenn Tests sprachliche Aufgabenstellungen beinhalten und nicht das Ziel verfolgen, die sprachlichen Kompetenzen selbst zu messen, besteht dabei die Gefahr einer Konfundierung der eigentlichen Testleistung mit den sprachlichen Kompetenzen der Kinder. Besonders relevant erscheint dies dann, wenn die am Test teilnehmenden Personen zum Beispiel aufgrund ihres Alters oder eines Migrationshintergrunds nicht über ausreichende Kenntnisse in der Sprache, in der der Test vorgegeben wird, verfügen. Vor diesem Hintergrund wird im vorliegenden Beitrag der Frage nachgegangen, wie sprachliche Anforderungen in einer Testsituation gestaltet werden können, um für Kinder im Grundschulalter eine möglichst valide und faire Messung von Kompetenzen zu ermöglichen. Eine faire Messung meint hierbei, dass die aus dem Test resultierenden Werte zu keiner Benachteiligung bestimmter Testpersonen bzw. Gruppen führen sollten (Krampen, 2014). Diese Fragestellung wird anhand des Beispiels eines Tests zum metakognitiven Wissen (d. h. einem Test zum Wissen über Lern- und Gedächtnisvorgänge, Flavell & Wellman, 1977) untersucht, wobei die Auswirkungen zweier Testbedingungen (Zuhören vs. Zuhören und Mitlesen) kontrastiert werden (für andere Studien zu Testakkommodationen im Rahmen des Nationalen Bildungspanels siehe z. B. Händel, Lockl, Heydrich, Weinert & Artelt, 2015; Südkamp, Pohl, Heydrich & Weinert, 2016; Südkamp, Pohl & Weinert, 2015).
Sprachliche Anforderungen in der Testsituation Soll Wissen über einen bestimmten Inhaltsbereich (z. B. Wissen über naturwissenschaftliche Themen oder metakognitives Wissen) erfasst werden, ist eine vollständig von sprachlichen Kompetenzen unabhängige Messung nicht möglich. Sprachliche Kompetenzen können aus verschiedenen Gründen für das Abschneiden in inhaltlichen Wissenstests bedeutsam sein: Zum einen ist von einem entwicklungsbezogenen Einfluss der Sprache auf den Erwerb inhaltlichen Wissens auszugehen. Sprache bietet die Möglichkeit, sich mit anderen Menschen über verschiedene Themen und Inhalte auszutauschen und auf diese Weise neues Wissen zu erwerben. Zudem erleichtert Sprache die Integration und Ordnung von Erfahrungen beim Aufbau von Wissensstrukturen im Langzeitgedächtnis (Weinert, 2006).
1
Zum anderen gibt es einen Einfluss von sprachlichen Kompetenzen, der dadurch zustande kommt, dass beim Verstehen der Testinstruktion und der Bearbeitung von Testaufgaben Anforderungen an die Sprachkompetenzen der Kinder gestellt werden. Zwar können Anforderungen an produktive sprachliche Kompetenzen dadurch umgangen werden, dass offene Antworten (z. B. im Sinne von Begründungen) vermieden und stattdessen geschlossene Antwortformate (z. B. multiple choice, Bildung von Rangreihen) gewählt werden; jedoch sind darüber hinaus rezeptive Sprachkompetenzen zum Verstehen von gesprochener und / oder geschriebener Sprache erforderlich, um die Fragestellung nachvollziehen und die Fragen beantworten zu können. Dieser Einfluss von Sprache, der sowohl das Verstehen der Instruktion als auch die Aufgabenbearbeitung selbst betreffen kann, sollte so weit wie möglich reduziert werden, wenn es darum geht, inhaltliches Wissen valide zu erfassen. So werden in Studien mit jüngeren Kindern häufig Bildmaterialien eingesetzt, die die in den Fragen beschriebenen Situationen oder die Antwortalternativen illustrieren, um das Verstehen des Gehörten zu erleichtern (bezogen auf Tests zum metakognitiven Wissen vgl. z. B. Fritz, Howie & Kleitman, 2010; Wellman, 1977). Bezüglich der Art und Weise der Vorgabe und Bearbeitung von Testaufgaben sind darüber hinaus verschiedene Möglichkeiten denkbar, darunter die folgenden: (1) Die Kinder lesen die Aufgabenstellungen selbst, (2) die Kinder hören zu, während vorgelesen wird (Zuhören), und (3) die Kinder hören zu, während vorgelesen wird, und lesen den Text gleichzeitig leise mit (Zuhören und Mitlesen). Lesen die Kinder selbst, ist auf Basis der Forschung zur Entwicklung von Lesekompetenzen zu erwarten, dass das Verständnis des Gelesenen bis etwa zur Mitte der Grundschulzeit noch stark von grundlegenden Prozessen der Dekodierung abhängig ist (Cain, 2010; Ebert & Weinert, 2013). Zudem ist aus Perspektive der Testdurchführung im Rahmen eines Gruppentests zu beachten, dass es vermutlich große interindividuelle Unterschiede in der Geschwindigkeit der Aufgabenbearbeitung gibt (u. a. bedingt durch eine unterschiedliche Lesegeschwindigkeit). Aus diesen Gründen werden in dieser Studie (lediglich) das Zuhören während vorgelesen wird und das Zuhören und gleichzeitige leise Mitlesen in den Blick genommen1.
Zuhören versus Zuhören und Mitlesen Sowohl das Zuhören als auch das Zuhören und Mitlesen zeichnen sich dadurch aus, dass die einzelnen Wörter
Das wiederholte Lesen (repeated reading) wurde in anderen Untersuchungen häufig eingesetzt (z. B. Rasinski, 1989), allerdings bietet es sich aufgrund von Zeitrestriktionen nicht für eine Testsituation an (vgl. Hale et al., 2005).
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 33–43
© 2018 Hogrefe Verlag
K. Lockl et al., Kompetenztestung bei Grundschulkindern
nicht von den Lesern selbst dekodiert werden müssen und somit das Arbeitsgedächtnis und die Aufmerksamkeit der Kinder dahingehend entlastet werden (Hale et al., 2005). Entsprechend sollte die dadurch gewonnene Verarbeitungskapazität jeweils für das Verstehen der Informationen genutzt werden können (Belgrad & Schünemann, 2011). Der entscheidende Unterschied zwischen dem Zuhören und dem Zuhören und Mitlesen ist das Vorliegen bzw. Fehlen von textueller Information. Zum Vergleich von Zuhören und Zuhören und Mitlesen wird angenommen, dass die beiden Präsentationsformen die kognitiven Ressourcen in unterschiedlicher Weise beanspruchen (z. B. Hale et al., 2005). So wird argumentiert, dass das alleinige Zuhören förderlich für das Verständnis ist, da die Kinder keine Kapazitäten dafür aufwenden müssen, den Text mitzulesen, sondern ihre Kapazitäten ganz auf das Verstehen des Gehörten verwenden können (z. B. Durkin, 1983). Auch aus Sicht der Cognitive Load Theory wäre davon auszugehen, dass die kognitive Belastung unnötigerweise erhöht wird, wenn zwei Informationsquellen exakt denselben Informationsgehalt enthalten („Redundanzeffekt“, Chandler & Sweller, 1991). Demnach müsste eine Person, die gleichzeitig dem gesprochenen und dem geschriebenen Text Aufmerksamkeit schenkt, sicherstellen, dass beide Modalitäten eng koordiniert werden, wozu zusätzliche Arbeitsgedächtnisressourcen benötigt werden. Würde das Mitlesen des Textes nicht mehr synchron zum vorgelesenen Text geschehen, würde die Information ggf. unzusammenhängend und wahrscheinlich unverständlich werden (Kalyuga & Sweller, 2014). Aber es gibt auch Argumente, die für einen Vorteil des Zuhören und Mitlesens sprechen. So dürfte der in den Testheften abgedruckte Text zu einer Reduktion der Gedächtnisbelastung führen, da dieser auch nach Beendigung des Vorlesens zur Verfügung steht. Dadurch gibt es nach dem Zuhören noch die Möglichkeit der Kontrolle oder des sich-Rückbeziehens auf die dargebotene Information (vgl. Chang, 2009; Moussa-Inaty, Ayres & Sweller, 2012). Als weiterer möglicher Vorteil des Zuhören und Mitlesens kann angeführt werden, dass bei gleichzeitiger Präsentation von sowohl visuellen als auch auditiven Informationen individuelle Stärken der Informationsverarbeitung bedient werden können (Wong, 1986). Daher könnte sich das (Mit‐)Lesen zumindest für einen Teil der Schülerinnen und Schüler positiv auswirken. Die Annahme hierbei wäre, dass sich diejenigen, die Schwierigkeiten haben, das Gehörte z. B. aufgrund einer für sie zu hohen Geschwindigkeit des auditiven Inputs zu verstehen, stärker auf das Lesen des Textes konzentrieren können bzw. die Möglichkeit haben, dies nach Ende des auditiven Inputs zu tun. Die Frage, ob es eher zu Nachteilen (Redundanzeffekt) oder zu Vorteilen in der Bedingung Zuhören © 2018 Hogrefe Verlag
35
und Mitlesen im Vergleich zur Bedingung Zuhören kommt, ist dabei nicht unabhängig davon zu sehen, ob aufgabenbezogene Texte erneut konsultiert werden können und dies – ggf. für bestimmte Schülerinnen und Schüler – eine kompensatorische Wirkung hat. Was empirische Befunde zu einem Vergleich der beiden Bedingungen Zuhören und Zuhören und Mitlesen betrifft, gibt es bisher nur wenige quantitative Studien; darunter sind unseres Wissens nach keine, die sich direkt auf Variationen in einer Testsituation beziehen. Einige Studien beschäftigten sich im Kontext des Zweitspracherwerbs mit den Effekten des simultanen Mitlesens (Brown, Waring, Donkaewbua, 2008; Chang, 2009; Diao, Sweller & Chandler, 2007; Moussa-Inaty et al., 2012). Bezüglich des Vergleichs von Zuhören und Mitlesen mit alleinigem Zuhören fanden sich hierbei Vorteile des zusätzlichen Mitlesens auf das Hörverstehen (Chang, 2009) und den Wortschatzerwerb in einer neu zu erlernenden Zweitsprache (Brown et al., 2008). Andere Studien befassten sich mit der Frage, wie Leseverständnis und auch Leseflüssigkeit bei Schülerinnen mit verschiedenen (Lern‐) Schwierigkeiten, insbesondere mit Leseproblemen, günstig beeinflusst werden können (z. B. Daly & Martens, 1994; Eckert, Ardoin, Daly & Martens, 2002; Hale et al., 2005). Auch in diesen Studien wirkte sich eine Kombination von Zuhören und Mitlesen positiv auf das Leseverständnis und die Leseflüssigkeit aus, wobei diese Studien allerdings nur sehr kleine und selektive Stichproben beinhalteten. Entgegengesetze Befunde zeigten sich in einer deutschen Untersuchung mit Hauptschülerinnen und Hauptschülern der 8. Jahrgangsstufe, in der die Leseleistungen bei Zuhören höher ausfielen als wenn die Lernenden zuhören und mitlesen konnten (Belgrad & Schünemann, 2011). Auch Befunde aus der Multimediaforschung deuten auf einen Vorteil des alleinigen Zuhörens im Vergleich zum simultanen Zuhören und Mitlesen hin (Kalyuga, Chandler & Sweller, 2004). Insgesamt lässt sich die Befundlage als widersprüchlich beschreiben, wobei allerdings berücksichtigt werden sollte, dass ein direkter Vergleich der Studien aufgrund von Unterschieden in der Art der erfassten abhängigen Variablen (Hörverstehenstest in einer Zweitsprache, Leseverständnis oder Leseflüssigkeit) und dem Alter und / oder der Sprach- bzw. Lesekompetenzen der teilnehmenden Personen schwierig erscheint.
Die vorliegende Studie Aus entwicklungspsychologischer Perspektive ist es besonders interessant, für einen Vergleich der Bedingungen Zuhören und Zuhören und Mitlesen Kinder im mittleren Grundschulalter in den Blick zu nehmen. Als Voraussetzung, um einen Vergleich zwischen den beiden Testbe-
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 33–43
36
K. Lockl et al., Kompetenztestung bei Grundschulkindern
dingungen vornehmen zu können, sollten die Kinder in ausreichendem Maße in der Lage sein, die im Text enthaltene Information zu lesen und zu verstehen. Basierend auf der Theorie des Simple View of Reading (Hoover & Gough, 1990) lässt sich das Leseverstehen als das Produkt zweier Teilfähigkeiten definieren, nämlich der Fähigkeit der Dekodierung geschriebener Wörter und einer allgemeinen Fähigkeit des Sprachverstehens. Erst wenn Kinder genügend Erfahrung mit Dekodierprozessen gesammelt haben und weniger Ressourcen für diese Prozesse beanspruchen, stehen ihnen ausreichend kognitive Ressourcen für das Verstehen der im Text gegebenen Information zur Verfügung (Perfetti, 1985). In der Mitte der Grundschulzeit spielen grundlegende Prozesse der Dekodierung zwar immer noch eine wichtige Rolle für das Leseverständnis, sodass das Selbst-Lesen als Option bei einer Testvorgabe weniger zielführend scheint. Dennoch sind die Dekodier- und Lesefähigkeiten in diesem Alter in der Regel so weit fortgeschritten, um ein Mitlesen des Textes während vorgelesen wird, zu ermöglichen (McMahon, 1983). Für die vorliegende Studie wurden daher Schülerinnen und Schüler zu Beginn der dritten Jahrgangsstufe ausgewählt. Untersucht werden die Auswirkungen der beiden Testbedingungen Zuhören und Zuhören und Mitlesen am Beispiel eines Tests zum metakognitiven Wissen, wobei der Frage nachgegangen wird, ob das zusätzliche Mitlesen als „Überforderung“ (d. h. als zusätzliche Belastung der kognitiven Ressourcen) oder als „Hilfestellung“ (durch das Vorhandensein der textuellen Information) betrachtet werden kann. Die Hilfestellung könnte sowohl im simultanen Mitlesen des Textes zu sehen sein als auch im erneuten Konsultieren des Textes, nachdem der Text vorgelesen wurde, was vor allem für Schülerinnen und Schüler mit Schwierigkeiten beim Verstehen des auditiven Inputs eine Möglichkeit zur Kompensation darstellen könnte. Um dies untersuchen zu können und da generell anzunehmen ist, dass das Verständnis der aufgabenbezogenen Texte sowohl beim Zuhören als auch beim Zuhören und Mitlesen von den Sprachkompetenzen der Kinder abhängig ist, werden diese als weitere Variable in die Untersuchung einbezogen. Als Indikatoren für sprachliche Kompetenzen werden dabei sowohl die Leistungen in einem rezeptiven Wortschatztest als auch der familiäre Sprachhintergrund berücksichtigt. Im Einzelnen werden die folgenden Fragestellungen untersucht: (a) Haben die Testbedingungen Zuhören und Zuhören und Mitlesen unter Berücksichtigung des rezeptiven Wortschatzes unterschiedliche Effekte auf die Ergebnisse in einem inhaltlichen Wissenstest (zum metakognitiven Wissen)? (b) Fal-
2
len mögliche Unterschiede zwischen den Testbedingungen je nach Sprachhintergrund der Kinder unterschiedlich groß aus?
Methode Stichprobe Insgesamt nahmen 319 Schülerinnen und Schüler aus der 3. Jahrgangsstufe (48.3 % weiblich) an der Studie teil, die im Rahmen des Nationalen Bildungspanels (NEPS, Blossfeld, Roßbach & von Maurice, 2011) als Pilotstudie durchgeführt wurde. Die Daten eines Kindes, dessen Antworten im metakognitiven Wissenstest auf mangelndes Instruktionsverständnis und / oder fehlende Motivation verweisen, wurden von den Analysen ausgeschlossen2. Die Testung fand in 15 Grundschulen (Regelschulen) in den Bundesländern Bayern, Hamburg, Nordrhein-Westfalen und Thüringen statt. Zum Zeitpunkt der Testung waren die Kinder im Mittel 8 Jahre und 11 Monate alt (SD = 5.3 Monate). Den Angaben der Lehrkräfte zufolge hatten 92.8 % der Schülerinnen und Schüler einen deutschen Sprachhintergrund, d. h. sie gaben an, dass Deutsch „die vorwiegend zu Hause gesprochene Sprache“ darstellt.
Vorgehen und Messinstrumente Die Erhebungen wurden in Gruppen von maximal 25 Schülerinnen und Schülern in den Räumen der jeweiligen Schulen durchgeführt. Es kamen ein Test zum metakognitiven Wissen und ein Test zum rezeptiven Wortschatz zum Einsatz, wobei der Test zum metakognitiven Wissen jeweils zuerst administriert wurde. Vor der Bearbeitung der Aufgaben wurde das Aufgabenformat anhand von Beispielaufgaben, die auf Postern präsentiert wurden, erläutert. Die Zuweisung zu den unten näher beschriebenen Bedingungen Zuhören bzw. Zuhören und Mitlesen erfolgte zufällig pro getesteter Schülergruppe.
Test zum metakognitiven Wissen Der eingesetzte Test zum metakognitiven Wissen wurde auf der Grundlage der Rahmenkonzeption zur Erfassung von Metakognition im NEPS (vgl. Händel, Artelt & Weinert, 2013) neu konstruiert. Der Test enthält 20 verschiedene Szenarien, die Situationen aus Schul- und Freizeit-
Das Kind hatte bei 58 von 60 der Alternativen immer die gleiche Einschätzung angegeben.
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 33–43
© 2018 Hogrefe Verlag
K. Lockl et al., Kompetenztestung bei Grundschulkindern
37
Abbildung 1. Beispielszenario in den beiden Testbedingungen: Während in der Bedingung Zuhören und Mitlesen die Aufgabentexte (Beschreibung des Szenarios und der Strategien) in den Testheften abgedruckt sind, ist dies in der Zuhören-Bedingung nicht der Fall. In beiden Bedingungen werden die Aufgabentexte vorgelesen.
kontexten beschreiben. In jedem Szenario werden drei Strategien bzw. Handlungsalternativen vorgegeben, deren Nützlichkeit anhand einer dreistufigen kindgerechten Skala eingeschätzt werden soll (vgl. Abbildung 1). Der Test dient der Erfassung konditionalen und relationalen metakognitiven Wissens (Artelt, Beinicke, Schlagmüller & Schneider, 2009), d. h. des Wissens darüber, welche Strategien im Vergleich zu anderen Strategien mehr oder weniger nützlich sind, um die gestellten Anforderungen in einer bestimmten Situation zu bewältigen. Als Orientierungshilfe während der Testbearbeitung wurden die Inhalte der Aufgaben mit Hilfe von Zeichnungen veranschaulicht (vgl. auch frühere Studien zu metakognitivem Wissen im Grundschulalter, z. B. Annevirta & Vauras, 2001; Lockl, Händel, Haberkorn & Weinert, 2016). Der Text zu den Aufgaben, bestehend aus einer Beschreibung des Szenarios und den drei zugehörigen Strategien, wurde in beiden Bedingungen von den Testleitern und Testleiterinnen vorgelesen. Die Kinder wurden instruiert, ihre Bewertung erst abzugeben, nachdem jeweils alle drei Strategieoptionen eines Szenarios vorgelesen worden waren. Zur Kontrolle von Reihenfolgeef© 2018 Hogrefe Verlag
fekten wurde der Test in zwei Versionen (Reihenfolge der Szenarien vorwärts versus rückwärts) durchgeführt. Die Auswertung des Tests erfolgte anhand von Paarvergleichen (Nützlichkeit der Strategie X im Vergleich zur Nützlichkeit von Strategie Y) basierend auf zuvor eingeholten Expertenratings. Dabei gehen von allen potenziellen Paarvergleichen nur solche in die Auswertung ein, bei denen die Experten zu mindestens 75 Prozent in der Richtung des Paarvergleichs übereinstimmten. Ein Paarvergleich wurde als korrekt gewertet, wenn in Einklang mit den Expertenratings eine Strategie als nützlicher beurteilt wurde als eine andere Strategie. Beispielsweise erhielten die Kinder bezogen auf das Beispiel in Abbildung 1 einen Punkt, wenn sie Strategie 1 (Erstellen einer Tabelle) als nützlicher erachteten als Strategie 2 (Durchblättern des Buches). Ausgewertet wurde somit die relative Nützlichkeit, nicht die absolute Bewertung einer Strategie (vgl. Händel et al., 2013; Lockl et al., 2016). Der Test beinhaltet insgesamt 42 valide Paarvergleiche. Um zu untersuchen, wie sich unterschiedliche sprachliche Anforderungen bei der Bearbeitung des Testmaterials auswirken, wurden zwei Testbedingungen realisiert:
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 33–43
38
K. Lockl et al., Kompetenztestung bei Grundschulkindern
Tabelle 1. Ergebnisse im Wortschatztest und im metakognitiven Wissenstest in Abhängigkeit von Sprachhintergrund und Testbedingung Abhängige Variable Wortschatz
(Sub‐)Gruppe
N
M
SD
295
36.00
5.02
23
28.91
5.58
zuhören
168
35.33
5.56
zuhören und mitlesen
150
35.66
5.17
gesamt
318
35.44
5.43
deutsch
295
23.58
5.95
23
20.48
6.63
zuhören
168
22.66
6.16
zuhören und mitlesen
150
24.12
5.83
gesamt
318
23.35
6.04
deutsch nicht-deutsch
Metakognitives Strategiewissen
nicht-deutsch
Zuhören und Zuhören und Mitlesen. Die beiden Bedingungen unterschieden sich lediglich darin, dass in der Zuhören-und-Mitlesen-Bedingung zusätzlich die Aufgabentexte in den Testheften abgedruckt waren. Die Kinder in dieser Bedingung wurden darauf hingewiesen, dass sie den Text in ihren Heften mitlesen können. Demgegenüber standen den Kindern die Texte in der Zuhören-Bedingung nicht zur Verfügung und wurden nur vorgelesen. Die interne Konsistenz des Tests (Cronbachs alpha) liegt über beide Testbedingungen hinweg bei α = .76, in der Zuhören-Bedingung bei α = .77 und in der Zuhören-und-Mitlesen-Bedingung bei α = .75.
Wortschatztest Zur Erfassung des rezeptiven Wortschatzes wurde eine Version des Peabody Picture Vocabulary Tests (PPVT) mit 50 Items, basierend auf der deutschen Forschungsversion von Roßbach, Tietze und Weinert (2005) eingesetzt. Aufgabe der Kinder war es, zu jeweils einem vorgelesenen Wort das zugehörige Bild aus vier Alternativen auszuwählen und anzukreuzen. Die interne Konsistenz des Tests (Cronbachs alpha) beträgt α = .74.
Ergebnisse Vorausgehende Analysen ergaben keine signifikanten Geschlechtsunterschiede in Bezug auf die Ergebnisse im Wortschatztest und im metakognitiven Wissenstest, wie auch keine signifikanten Reihenfolgeeffekte beim metakognitiven Wissenstest. Daher werden diese beiden Variablen nicht weiter berücksichtigt.
Im Folgenden werden einführend einige grundlegende Ergebnisse präsentiert, bevor auf die zentralen Untersuchungsfragen zu den Effekten der Testbedingungen eingegangen wird.
Deskriptive Ergebnisse Tabelle 1 präsentiert deskriptive Ergebnisse zum Wortschatztest und zum metakognitiven Wissenstest. Ein Vergleich von Kindern mit unterschiedlichem Sprachhintergrund zeigt erwartungsgemäß, dass Kinder mit deutschem Sprachhintergrund über einen größeren Wortschatz (im Deutschen) verfügen als Kinder mit einem nicht-deutschen Sprachhintergrund, t (316) = 6.47, p < .01, d = 1.40. Kinder mit deutschem Sprachhintergrund lösten zudem mehr Paarvergleiche im Test zum metakognitiven Strategiewissen als Kinder mit nicht-deutschen Sprachhintergrund, t (316) = 2.38, p = .02, d = 0.52. Als wichtige Voraussetzung für die folgenden Analysen zeigte sich, dass die Ergebnisse im Wortschatztest zwischen den beiden Testbedingungen (Zuhören vs. Zuhören und Mitlesen) vergleichbar waren, t (316) = 0.55, p = .58, d = 0.06. Bezogen auf die Verteilung der Kinder mit unterschiedlichem Sprachhintergrund auf die Testbedingungen waren von den 295 Kindern mit deutschem Sprachhintergrund 154 der Bedingung Zuhören zugeordnet, 141 der Bedingung Zuhören und Mitlesen. Von den 23 Kindern mit nichtdeutschem Sprachhintergrund waren 14 in der ZuhörenBedingung und 9 in der Zuhören-und-Mitlesen-Bedingung. Ein Χ2-Test ergab keinen Hinweis auf einen Zusammenhang der Merkmale Sprachhintergrund und Testbedingung, Χ2 = 0.64, p = .42. Um einen Einblick zu erhalten, wie die Ergebnisse im Wortschatztest und im metakognitiven Wissenstest zueinander in Beziehung stehen, wurden biseriale (Pear-
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 33–43
© 2018 Hogrefe Verlag
K. Lockl et al., Kompetenztestung bei Grundschulkindern
39
Abbildung 2. Metakognitives Wissen (Anzahl korrekter Paarvergleiche) in Abhängigkeit von der Testbedingung und den Ergebnissen im Wortschatztest.
son‐)Korrelationen berechnet. Für die Gesamtgruppe ergibt sich eine signifikante, aber relativ schwach ausgeprägte Korrelation zwischen beiden Maßen von r = .23, p < .01. Bei separater Betrachtung der beiden Testbedingungen zeigte sich, dass das metakognitive Wissen in der Zuhören-Bedingung signifikant stärker mit den Ergebnissen im Wortschatztest assoziiert ist (r = .31, p < .01) als in der Zuhören-und-Mitlesen-Bedingung (r = .11, p = .17, z = 1.82, p = .04).
Effekte der Testbedingungen in Abhängigkeit des Wortschatzumfangs Um die erste zentrale Forschungsfrage zu untersuchen, wurde die differenzielle Wirkung der Testbedingungen auf Kinder mit unterschiedlichem Wortschatzumfang analysiert. Da die Kinder schulspezifisch zu Testgruppen zusammengefasst und dann testgruppenweise zufällig den Bedingungen zugewiesen wurden, wurde eine Mehrebenenanalyse berechnet, bei der als unabhängige Variablen die Testbedingung auf Ebene 2 (Testgruppenebene) und der Wortschatz auf Ebene 1 (Individualebene) eingingen. Die abhängige Variable bildete das metakognitive Wissen.
3
Der Wortschatz und das metakognitive Wissen gingen z‐standardisiert in das Modell ein, sodass die resultierenden Parameter ebenfalls als standardisierte Effekte betrachtet werden können. Um zudem die Größe der Effekte besser interpretieren zu können, wurden die Ergebnisse entsprechend der von Tymms (2004) empfohlenen Vorgehensweise bei Mehrebenenanalysen in Effektstärken3 umgewandelt. Die Analysen wurden mit MPlus Version 7 (Muthén & Muthén, 2012) durchgeführt. Die Anzahl der Testgruppen auf Ebene 2 betrug 15, die mittlere Testgruppengröße 21.2. Die Intraklassenkorrelation bezogen auf den Test zum metakognitiven Wissen lag bei ρ = .13. Die Ergebnisse der Mehrebenenanalyse ergaben einen signifikanten Haupteffekt für Wortschatz, Β = 0.19, SE = 0.05, p < .01, d = 0.41, aber keinen signifikanten Haupteffekt der Bedingung, Β = 0.29, SE = 0.21, p = .16, d = 0.32. Kinder mit größerem Wortschatzumfang wiesen signifikant höhere Werte im metakognitiven Wissen auf als ihre Altersgenossen mit geringerem Wortschatz. Weiterhin zeigte sich eine signifikante Cross-Level-Interaktion Wortschatz x Bedingung, Β = -0.19, SE = 0.09, p = .03, d = 0.42. Wie in Abbildung 2 zu sehen ist, geht die Interaktion zwischen Wortschatz und Bedingung darauf zurück, dass
Nach Cohen (1988) indiziert eine Effektstärke d zwischen 0.2 und 0.5 einen kleinen Effekt, zwischen 0.5 und 0.8 einen mittleren und ein d größer als 0.8 einen starken Effekt.
© 2018 Hogrefe Verlag
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 33–43
40
Kinder mit vergleichsweise geringerem Wortschatz (M – 1 SD) in der Zuhören-und-Mitlesen-Bedingung besser abschnitten als in der Zuhören-Bedingung (simple slope: B = 0.48, SE = 0.25, p = .06, d = 0.53). Bei Kindern mit größerem Wortschatz (M + 1 SD) ergab sich dagegen kein Unterschied zwischen den Testbedingungen (simple slope: B = 0.10, SE = 0.19, p = .60, d = 0.11).
Effekte der Testbedingungen in Abhängigkeit des Sprachhintergrunds Abschließend wurde ergänzend die differenzielle Wirkung der Testbedingungen auf Kinder mit unterschiedlichem Sprachhintergrund betrachtet. Da die Gruppe der Kinder mit nicht-deutschem Sprachhintergrund recht klein ist (N = 23) und die Stichprobenumfänge der Gruppen von Kindern mit und ohne deutschen Sprachhintergrund sehr unterschiedlich sind, wurden die Effekte der Testbedingungen bei beiden Sprachgruppen separat analysiert. Die Testbedingung wurde wiederum als unabhängige Variable auf Ebene 2 (Testgruppenebene) modelliert, das metakognitive Wissen ging als z-standardisierte abhängige Variable in die Analysen ein. Bei der Gruppe der Schülerinnen und Schüler mit nicht-deutschem Sprachhintergrund zeigte sich ein bedeutsamer Haupteffekt der Testbedingung, wobei in der Zuhören-und-Mitlesen-Bedingung (M = 24.00, SD = 5.07) bedeutsam höhere Werte im metakognitiven Wissen erzielt wurden als in der Zuhören-Bedingung (M = 18.21, SD = 6.66, B = 0.87, SE = 0.35, p = .01, d = 0.99). Bei Schülerinnen und Schülern mit deutschem Sprachhintergrund hatte die Testbedingung keinen signifikanten Effekt auf die Testleistungen (Zuhören und Mitlesen: M = 24.13, SD = 5.89, Zuhören: M = 23.06, SD = 5.97, B = 0.25, SE = 0.22, p = .25, d = 0.27).
Diskussion Ziel der vorliegenden Studie war es, zu untersuchen, ob die Validität eines inhaltlichen Wissenstests im Grundschulalter durch bestimmte Administrationsbedingungen gesteigert werden kann. Im Fokus standen die Testbedingungen Zuhören und Zuhören und Mitlesen und deren Auswirkungen auf Testergebnisse in einem metakognitiven Wissenstest bei Kindern mit unterschiedlichen sprachlichen Kompetenzen. Als ein wichtiges Ergebnis kann zunächst das Ausbleiben eines signifikanten Haupteffekts der Testbedingung festgehalten werden. Interessant sind jedoch die differenziellen Auswirkungen der Testbedingungen auf Kinder mit unterschiedlichen sprachlichen Kompetenzen: Wäh-
K. Lockl et al., Kompetenztestung bei Grundschulkindern
rend bei Kindern mit vergleichsweise geringem Wortschatz die Werte im Test zum metakognitiven Wissen beim Zuhören und Mitlesen höher ausfielen als beim Zuhören, ergab sich bei Kindern mit größerem Wortschatz kein Unterschied zwischen den Testbedingungen. Ein entsprechendes Befundmuster zeigte sich, wenn anstatt des Wortschatzes der Sprachhintergrund berücksichtigt wurde, wenngleich die Stichprobe der Kinder mit nichtdeutschem Sprachhintergrund relativ klein ist. Die Ergebnisse weisen somit darauf hin, dass die Verfügbarkeit der Aufgabentexte in der Zuhören und Mitlesen- Bedingung bei Kindern mit geringeren sprachlichen Kompetenzen als „Hilfestellung“ bei der Aufgabenbearbeitung diente. Es ist anzunehmen, dass Kinder mit geringeren rezeptiven sprachlichen Kompetenzen häufiger Schwierigkeiten beim Verstehen des einmal vorgelesenen Aufgabentextes hatten, die sie durch das Vorhandensein von textuellen Informationen kompensieren konnten (Chang, 2009; Moussa-Inaty et al., 2012; Wong, 1986). Ohne die abgedruckten Texte könnte demnach die Flüchtigkeit und Kurzlebigkeit des auditiven Inputs insbesondere für die Kinder mit geringeren rezeptiven sprachlichen Kompetenzen ein Problem dargestellt haben. Ergänzend zu diesen differenziellen Effekten zeigte sich, dass die Testleistungen in der Zuhören-und-Mitlesen-Bedingung geringer mit dem Wortschatz der Kinder korreliert waren als in der Zuhören-Bedingung. Dieser Befund spricht ebenfalls dafür, dass die Leistungen in dem metakognitiven Wissenstest bei Verfügbarkeit der Aufgabentexte weniger von den Anforderungen an die sprachlichen Kompetenzen im Sinne der aktuellen Sprachverarbeitung abhängig waren. Weder bei Kindern mit geringeren noch bei Kindern mit höher ausgeprägten sprachlichen Kompetenzen führte die Möglichkeit zum Mitlesen der Aufgabentexte zu einer Abnahme der Leistungen im metakognitiven Wissenstest. Es scheint daher bei der Bearbeitung der Aufgaben zu keiner Überforderung der kognitiven Ressourcen (z. B. Durkin, 1983) gekommen zu sein. Dies ist insofern bemerkenswert, als die Aufgaben zum metakognitiven Wissen vermutlich einen hohen cognitive load (Sweller, van Merriënboer & Paas, 1998) aufweisen, bedingt durch den Umstand, dass bei dem Test pro Aufgabe jeweils ein Szenario und die dazugehörigen Strategien gleichzeitig verarbeitet und zueinander in Beziehung gesetzt werden müssen. Dennoch sprechen die Befunde dafür, dass die kognitive Belastung in der Zuhören-und-Mitlesen-Bedingung nicht weiter erhöht wurde. Somit konnte der in der Multimediaforschung gefundene Redundanz-Effekt nicht repliziert werden, demzufolge die Präsentation gleicher Information auf verschiedenen Kanälen zu erhöhtem extraneous cognitive load führt und damit aufgrund ihrer Redundanz negativ wirkt (vgl. Chandler & Sweller, 1991).
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 33–43
© 2018 Hogrefe Verlag
K. Lockl et al., Kompetenztestung bei Grundschulkindern
Offen bleibt an dieser Stelle allerdings, ob die Schülerinnen und Schüler den Text in der Zuhören-und-MitlesenBedingung tatsächlich mitgelesen haben. Vor diesem Hintergrund könnte ein Ausbleiben des Redundanzeffekts dadurch begründet werden, dass die gegebene Information womöglich nicht oder zumindest nicht von einem Großteil der Kinder simultan verarbeitet wurde. Stattdessen könnte vermutet werden, dass Kinder in der Zuhören-und-Mitlesen-Bedingung – und möglicherweise insbesondere jene mit geringeren rezeptiven Sprachkompetenzen – die Verfügbarkeit der Aufgabentexte als Gedächtnisstütze und als Möglichkeit des sich-Rückbeziehens auf den Text genutzt haben. Dies könnte dadurch begünstigt worden sein, dass es sich um eher kurze und gut gegliederte Textabschnitte handelte, so dass die relevante Information vermutlich schnell gefunden werden konnte. Konsistent mit dieser Annahme sind auch Befunde aus der Multimediaforschung, denen zufolge der Redundanzeffekt bei längeren, nicht aber bei kürzeren Texteinheiten beobachtet wurde (Kalyuga & Sweller, 2014). Letztendlich kann aber anhand der Befunde dieser Studie nicht eindeutig geklärt werden, worauf die Schülerinnen und Schüler in der Zuhören-und-Mitlesen-Bedingung fokussierten – auf das Gehörte oder das Geschriebene oder beides gleichzeitig (vgl. die Vermutung von Chang, 2009, dass manche Lernende auf das eine und andere auf das andere fokussieren). Einschränkend ist weiterhin zu erwähnen, dass nicht geprüft werden konnte, ob die Vorlesegeschwindigkeit für die einzelnen Kinder passend war (insbesondere wenn mitgelesen wurde); zudem wurde nicht kontrolliert, ob die Vorlesegeschwindigkeit möglicherweise auch zwischen den Testleiterinnen bzw. Testleitern variiert hat (vgl. Shany & Biemiller, 1995). Trotz dieser Einschränkungen lassen die Ergebnisse dieser Studie insgesamt den Schluss zu, dass vor allem Kinder mit geringeren (rezeptiven) sprachlichen Kompetenzen von der Möglichkeit zum Mitlesen der Aufgabentexte profitieren, ohne dass dabei die Leistungen anderer Kinder beeinträchtigt werden würden. In diesem Sinne führt die Verfügbarkeit der Aufgabentexte zu einer erhöhten Validität und Fairness der Testung. Diese Befunde sind aus unserer Sicht trotz der statistisch eher kleinen Effekte praktisch bedeutsam und führen zu der Empfehlung, textuelle Informationen bei inhaltlichen Tests im Grundschulalter zur Verfügung zu stellen. Die hier beschriebene Studie kann somit wertvolle Hinweise geben, wie eine Testsituation gestaltet sein sollte, um für Kinder im Grundschulalter unterschiedlichen Sprachhintergrunds und Entwicklungsstands der Sprache eine möglichst valide und faire Messung von inhaltlichem Wissen zu ermöglichen. Ein wichtiges Ziel für zukünftige Arbeiten könnte auf Basis dieser Befunde darin bestehen, die den Effekten © 2018 Hogrefe Verlag
41
zugrundeliegenden Informationsverarbeitungsprozesse etwa anhand von Eyetracking-Methoden näher zu untersuchen (vgl. Lindner, Eitel, Strobel & Köller, 2017). Der Einsatz solcher Methoden könnte Aufschluss darüber geben, wo der Aufmerksamkeitsfokus der Kinder bei der Bearbeitung der Aufgaben liegt und es könnte beispielsweise geklärt werden, ob die Kinder sich nach dem Vorlesen nochmals auf den Text rückbeziehen. Darüber hinaus wäre es wünschenswert, in nachfolgenden Studien nicht nur die rezeptiven sprachlichen Kompetenzen der Kinder, sondern auch ihre Lesekompetenzen in die Analysen einzubeziehen. Im Hinblick auf die Generalisierung der Befunde wäre weiterhin interessant zu prüfen, inwiefern sich die Ergebnisse auf andere Altersgruppen und auf andere inhaltliche Testverfahren übertragen lassen. So könnte beispielsweise bezogen auf Leseanfänger zu Beginn der Grundschule vermutet werden, dass die Belastung der kognitiven Ressourcen bei der Dekodierung der Aufgabentexte zu hoch wäre. Entsprechend könnte sich die Zuhören-und-Mitlesen-Bedingung bei jüngeren Kindern möglicherweise negativ auf die Testleistung auswirken. Insgesamt bieten die berichteten Befunde unserer Meinung nach Anlass dazu, die optimalen Testbedingungen für Schülerinnen und Schülern mit niedrig ausgeprägten sprachlichen Kompetenzen zukünftig auch bei anderen Verfahren systematisch auszuloten.
Literatur Annevirta, T. & Vauras, M. (2001). Metacognitive knowledge in primary grades: A longitudinal study. European Journal of Psychology of Education, 16, 257 – 282. Artelt, C., Beinicke, A., Schlagmüller, M. & Schneider, W. (2009). Diagnose von Strategiewissen beim Textverstehen. Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 41, 96 – 103. Belgrad, J. & Schünemann, R. (2011). Leseförderung durch Vorlesen: Ergebnisse und Möglichkeiten eines Konzepts zur basalen Leseförderung. In B. Eriksson & U. Behrens (Hrsg.), Sprachliches Lernen zwischen Mündlichkeit und Schriftlichkeit (S. 144 – 171). Bern: hep Verlag. Blossfeld, H.-P., Roßbach, H.-G. & Maurice, J. von (2011). Education as a lifelong process: The German National Educational Panel Study (NEPS) [Special Issue]. Zeitschrift für Erziehungswissenschaft, 14 (Suppl. 2). Brown, R., Waring, R. & Donkaewbua, S. (2008). Incidental vocabulary acquisition from reading, reading-while-listening, and listening to stories. Reading in a Foreign Language, 20, 136 – 163. Cain, K. (2010). Reading development and difficulties. Oxford: Wiley-Blackwell. Chandler, P. & Sweller, J. (1991). Cognitive load theory and the format of instruction. Cognition and Instruction, 8, 293 – 332. Chang, A. C. S. (2009). Gains to L2 listeners from reading while listening vs. listening only in comprehending short stories. System, 37, 652 – 663.
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 33–43
42
Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Hillsdale, NJ: Lawrence Earlbaum Associates. Daly, E. J. III & Martens, B. K. (1994). A comparison of three interventions for increasing oral reading performance: Application of the instructional hierarchy. Journal of Applied Behavior Analysis, 27, 459 – 469. Diao, Y., Sweller, J. & Chandler, P. A. (2007). The effect of written text on comprehension of spoken English as a foreign language. American Journal of Psychology, 120, 237 – 261. Durkin, D. (1983). Teaching them to read. Boston, MA: Allyn & Bacon. Ebert, S. & Weinert, S. (2013). Predicting reading literacy in primary school: The contribution of various language indicators in preschool. In M. Pfost, C. Artelt & S. Weinert (Eds.), The development of reading literacy from early childhood to adolescence (pp. 93 – 149). Bamberg: University of Bamberg Press. Eckert, T. L., Ardoin, S. P., Daly, E. J. III & Martens, B. K. (2002). Improving oral reading fluency: An examination of the efficacy of combining skill-based and performance-based interventions. Journal of Applied Behavior Analysis, 35, 271 – 281. Flavell, J. & Wellman, H. (1977). Metamemory. In R. V. Kail & J. W. Hagen (Eds.), Perspectives on the development of memory and cognition (pp. 3 – 33). Hillsdale, NJ: Erlbaum. Fritz, K., Howie, P. & Kleitman, S. (2010). “How do I remember when I got my dog?” The structure and development of children’s metamemory. Metacognition and Learning, 5, 207 – 228. Hale, A. D., Skinner, C. H., Winn, B. D., Oliver, R., Allin, J. D. & Molloy, C. C. M. (2005). An investigation of listening and listeningwhile-reading accommodations on reading comprehension levels and rates in students with emotional disorders. Psychology in the Schools, 42, 39 – 51. Händel, M., Artelt, C. & Weinert, S. (2013). Assessing metacognitive knowledge: Development and evaluation of a test instrument. Journal of Educational Research Online, 5, 162 – 188. Händel, M., Lockl, K., Heydrich, J., Weinert, S. & Artelt, C. (2015). Kompetenztestung bei Schülern und Schülerinnen mit Förderschwerpunkt Lernen – Effekte unterschiedlicher Testbedingungen am Beispiel eines Tests zum metakognitiven Wissen. In P. Kuhl, P. Stanat, B. Lütje-Klose, C. Gresch, H. A. Pant & M. Prenzel (Hrsg.), Inklusion von Schülerinnen und Schülern mit sonderpädagogischem Förderbedarf in Schulleistungserhebungen (S. 221 – 242). Wiesbaden: Springer VS. Hoover, W. A. & Gough, P. B. (1990). The simple view of reading. Reading and Writing: An Interdisciplinary Journal, 2, 127 – 160. Kalyuga, S. & Sweller J. (2014). The redundancy principle in multimedia learning. In R. E. Mayer (Eds.), The Cambridge Handbook of Multimedia Learning (2nd ed., pp. 247 – 262). New York, NY: Cambridge University Press. Kalyuga, S., Chandler, P. & Sweller, J. (2004). When redundant onscreen text in multimedia technical instruction can interfere with learning. Human Factors, 46, 567 – 581. Klieme, E., Artelt, C., Hartig, J., Jude, N., Köller, O., Prenzel, M. et al. (2010). PISA 2009. Bilanz nach einem Jahrzehnt. Münster: Waxmann. Krampen, D. (2014). Testfairness. In M. A. Wirtz (Hrsg.), Dorsch – Lexikon der Psychologie (18. Aufl.). Bern: Hogrefe. Lindner, M. A., Eitel, A., Strobel, B. & Köller, O. (2017). Identifying processes underlying the multimedia effect in testing: An eyemovement analysis. Learning and Instruction, 47, 91 – 102. Lockl, K., Händel, M., Haberkorn, K. & Weinert, S. (2016). Metacognitive knowledge in young children: Development of a new test procedure for first graders. In H.-P. Blossfeld, J. von Maurice, M. Bayer & J. Skopek (Eds.), Methodological issues of longitudinal surveys: The example of the National Educational Panel Study (pp. 465 – 484). Wiesbaden: Springer VS.
K. Lockl et al., Kompetenztestung bei Grundschulkindern
McMahon, M. L. (1983). Development of reading-while-listening skills in the primary grades. Reading Research Quarterly, 19, 38 – 52. Moussa-Inaty, J., Ayres, P. & Sweller, J. (2012). Improving listening skills in English as a foreign language by reading rather than listening: A cognitive load perspective. Applied Cognitive Psychology, 26, 391 – 402. Muthén, L. K. & Muthén, B. O. (2012). Mplus User’s Guide (7th ed.). Los Angeles, CA: Muthén & Muthén. Perfetti, C. A. (1985). Reading ability. New York, NY: Oxford University Press. Rasinski, T. V. (1989). The effects of repeated reading and repeated listening while reading on reading fluency. Washington, D.C.: ERIC Clearinghouse. Roßbach, H.-G., Tietze, W. & Weinert, S. (2005). Peabody Picture Vocabulary Test (Unveröffentlichte Deutsche Forschungsversion des Tests von L. M. Dunn & L. M. Dunn von 1997). Bamberg, Berlin: Otto-Friedrich-Universität Bamberg & Freie Universität Berlin. Shany, M. T. & Biemiller, A. (1995). Assisted reading practice: Effects on performance for poor readers in Grades 3 and 4. Reading Research Quarterly, 30, 382 – 395. Südkamp, A., Pohl, S., Heydrich, J. & Weinert, S. (2016). Including students with special educational needs in the competence assessment of the NEPS—results on the comparability of test scores in reading. In H.-P. Blossfeld, J. von Maurice, M. Bayer & J. Skopek (Eds.), Methodological issues of longitudinal surveys. The example of the National Educational Panel Study (pp. 485 – 501). Wiesbaden: Springer VS. Südkamp, A., Pohl, S. & Weinert, S. (2015). Competence assessment of students with special educational needs—Identification of appropriate testing accommodations. Frontline Learning Research, 3 (2), 1 – 25. Sweller, J., Merriënboer, J. J. G. van & Paas, F. G. W. C. (1998). Cognitive architecture and instructional design. Educational Psychology Review, 10, 251 – 296. Tymms, P. (2004). Effect sizes in multilevel models. In I. Schagen, und K. Elliot (Eds.), But what does it mean? The use of effect sizes in educational research (pp. 55 – 66). London: National Foundation for Educational Research. Weinert, S. (2006). Sprachentwicklung. In W. Schneider & B. Sodian (Hrsg.), Kognitive Entwicklung (S. 609 – 719). Göttingen: Hogrefe. Weinert, S., Artelt, C., Prenzel, M., Senkbeil, M., Ehmke, T. & Carstensen, C. (2011). Development of competencies across the life span. Zeitschrift für Erziehungswissenschaft, 14 (Suppl. 2), 67 – 86. Wellman, H. M. (1977). Tip of the tongue and feeling of knowing experiences: A developmental study of memory monitoring. Child Development, 48, 13 – 21. Wong, B. Y. L. (1986). Problems and issues in the definition of learning disabilities. In J. K. Torgesen & B. Y. L. Wong (Eds.), Psychological and educational perspectives on learning disabilities (pp. 3 – 26). New York: Academic Press.
Dr. Kathrin Lockl Prof. Dr. Cordula Artelt Leibniz-Institut für Bildungsverläufe e.V. Otto-Friedrich-Universität Bamberg Abteilung 1: Kompetenzen, Persönlichkeit, Lernumwelten Wilhelmsplatz 3 96047 Bamberg kathrin.lockl@lifbi.de
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 33–43
© 2018 Hogrefe Verlag
K. Lockl et al., Kompetenztestung bei Grundschulkindern
43
Dr. Marion Händel Universität Erlangen-Nürnberg Lehrstuhl für Pädagogische Psychologie und Exzellenzforschung Regensburger Str. 160 90478 Nürnberg
Ulrike Petermann
Die Kapitän-NemoGeschichten Geschichten gegen Angst und Stress Ulrike Petermann
Die Kapitän-NemoGeschichten Geschichten gegen Angst und Stress 19., aktualisierte Auflage
19., aktualisierte Auflage 2016, 104 Seiten, Kleinformat, € 9,95 / CHF 13.50 ISBN 978-3-8017-2809-0
Die Entspannungsgeschichten zielen darauf ab, Kindern Strategien zur Selbstberuhigung und Entspannung zu vermitteln, die sie selbstständig in schwierigen Alltagssituationen anwenden können. Sie sind für Kinder im Alter von etwa fünf bis zwölf Jahren konzipiert und eignen sich sowohl zum Vorlesen als auch zum selbstständigen Lesen. Leitfigur ist Kapitän Nemo, der die Kinder zu Reisen durch die Weltmeere mit dem Unterwasserboot Nautilus einlädt.
www.hogrefe.com
PsychJOB
der Online-Stellenmarkt für PsychologInnen Unterstützt durch die Deutschen Gesellschaft für Psychologie erleichtert PsychJOB das zielgerichtete Matching von Arbeitgebern und Kandidaten durch • täglich neue, branchenspezifische Stellenangebote • ausführliche Unternehmens- / Bewerberprofile • direkte Bewerbungsmöglichkeiten für interessierte Kandidaten • regelmäßige Benachrichtigung über geeignete Anzeigen per Email
www.hogrefe.eu
© 2018 Hogrefe Verlag
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 33–43
Originalarbeit
Freundschaften im Klassenzimmer und deren Bedeutung für einen adaptiven individuellen Umgang mit Fehlern Maria Tulis, Marion Reindl und Markus Dresel Universität Augsburg, Lehrstuhl für Psychologie Zusammenfassung: Erfolgreiches Lernen aus Fehlern setzt einen adaptiven Umgang mit Fehlern voraus: Als affektiv-motivational adaptiv wird die Aufrechterhaltung der Motivation sowie günstiger Lernemotionen angesehen, während sich handlungsadaptive Fehlerreaktionen auf geeignete Lernhandlungen und -strategien zur tieferen Auseinandersetzung mit dem Fehler und dessen Korrektur beziehen. Neben individuellen Merkmalen des Lernenden wird ein solch adaptiver Umgang mit Fehlern maßgeblich vom sozialen Kontext mitbestimmt. Obwohl Klassenkamerad_innen einen wesentlichen Bestandteil des sozialen Lernkontextes von Jugendlichen ausmachen, wurde in Forschungsarbeiten zum Fehlerklima bisher vorrangig das Lehrkraftverhalten (im Umgang mit Mitschülerreaktionen) in den Blick genommen. Demgegenüber stehen empirische und entwicklungspsychologische Evidenzen, dass Peerbeziehungen insbesondere im Jugendalter eine zentrale Stellung – auch für die Übernahme schulischer Überzeugungen und Verhaltensweisen – einnehmen. Basierend auf einer Stichprobe von 270 Schüler_innen der 5. – 7. Jahrgangsstufe wurde untersucht, inwiefern dyadische reziproke Freundschaften innerhalb der Klasse im Zusammenhang mit dem Umgang mit Fehlern und somit auch indirekt mit der Leistung von Schüler_innen stehen. Dazu wurde von jeder_m Jugendlichen die beste Freundin bzw. der beste Freund innerhalb der Klasse nominiert und alle Schüler_innen mittels eines standardisierten Fragebogens zu deren individuellem Umgang mit Fehlern in Mathematik und Englisch befragt. Als Leistungsmaß wurde die Schulaufgabennote in beiden Unterrichtsfächern herangezogen. Ergebnisse von Strukturgleichungsmodellen ergaben positive Zusammenhänge zwischen dem adaptiven Fehlerumgang befreundeter Jugendlicher, sowie indirekte Effekte auf die Leistung. Die Ergebnisse zeigten sich in beiden Unterrichtsfächern und ergänzen bisherige Erkenntnisse zu den sozialen Faktoren, die das schulische Lernverhalten beeinflussen. Schlüsselwörter: Fehler, Freundschaft, Motivation, Affekt
Friendships in the Classroom and Their Importance for Adaptive Individual Dealing with Errors Abstract: Learning from errors can be effective – provided that learners are able to deal with them in an adaptive manner. Affectivemotivational adaptive reactions following errors encompass the maintenance of motivation and activating learning emotions, whereas action adaptivity of error reactions comprises the adaptation of one’s learning behavior and metacognitive activities, including a detailed analysis of the error at hand and its correction. Besides individual determinants, the social context has an important impact on students’ adaptive dealing with errors. Although classmates constitute an essential part of students’ social learning context, research on error climate has primarily focused on teachers’ error-management behavior in class. There is empirical evidence from developmental psychology that peer relationships play a particularly central role in adolescence – also for the adoption of academic motivational orientations and learning behavior. On the basis of a sample of 270 students (Grades 5 – 7), we investigated the impact of reciprocal, dyadic friendships in classes on students’ individual dealing with errors and the indirect effects on achievement. Friendship dyads were identified through peernominations. Self-reported individual reactions to errors were analyzed domain-specifically (in mathematics and English as a foreign language). Exam grades were used as an indicator for domain-specific achievement. Using structural equation modeling, we found positive associations between students’ adaptive individual reactions following errors and those of their best friends, as well as indirect effects on achievement. The results were consistent over both school subjects, and they expand previous findings on the social factors that impact students’ learning behavior. Keywords: errors, friendship, motivation, affect
Fehler gehören zum Alltag von Schüler_innen und stellen je nach Fehlerart eine wichtige Informationsquelle über bestehende Wissenslücken, fehlerhafte Konzepte oder auch
mangelnde Aufmerksamkeit dar. Die Folge daraus ist, dass Lernprozesse in Gang gesetzt werden können (vgl. Van Lehn, 1988), die wiederum Anlass zur Selbstregula-
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 44–58 https://doi.org/10.1026/0049-8637/a000186
© 2018 Hogrefe Verlag
M. Tulis et al., Freundschaften im Klassenzimmer und deren Bedeutung für einen adaptiven individuellen Umgang mit Fehlern
tion von Motivation und Emotionen, Metakognitionen und Lernverhalten geben (Mathan & Koedinger, 2005; Tulis, Steuer & Dresel, 2015). Fehler besitzen demnach ein hohes Lernpotenzial, können aber – insbesondere in Verbindung mit Misserfolgserleben und maladaptiven Reaktionen – auch dazu führen, dass Schüler_innen die Freude und das Interesse an Aufgaben verlieren, ungünstige motivationale Überzeugungen oder negative Selbstbewertungen entwickeln (für einen Überblick siehe z. B. Graham & Williams, 2009). Aus diesem Grund widmet sich die pädagogisch-psychologische Forschung zunehmend der Frage, welche Bedingungen einen adaptiven Umgang mit Fehlern unterstützen (z. B. Dresel, Schober, Ziegler, Grassinger & Steuer, 2013; Kreutzmann, Zander & Hannover, 2014; Oser & Spychiger, 2005; Tulis et al., 2015). Die Mehrzahl an Studien – wenngleich insgesamt gesehen noch wenige in diesem Forschungsfeld angesiedelt sind – fokussieren auf das Verhalten der Lehrkraft und der durch sie maßgeblich (mit‐) bestimmten Fehlerkultur in der Klasse (Oser & Spychiger, 2005). Mitschülerreaktionen werden dabei zwar auch als eine Dimension des Fehlerklimas betrachtet (Steuer, Rosentritt-Brunn & Dresel, 2013), aber insgesamt eher peripher in den Blick genommen. Explizit auf Klassenkamerad_innen ausgerichtete Analysen mit einem gezielten Augenmerk auf deren Bedeutung für einen adaptiven individuellen Umgang mit Fehlern liegen nur vereinzelt vor. Meist wurden dabei soziometrische Analysen des gesamten Klassenverbandes durchgeführt bzw. die Integration der Schüler_innen diese soziale Netzstruktur – operationalisiert durch die Anzahl wechselseitiger Beziehungen – untersucht (Zander, 2015; Zander, Kreutzmann & Wolter, 2014). Vorliegender Beitrag widmet sich verstärkt diesen reziproken Freundschaftsbeziehungen und nimmt konkret die im Jugendalter immer wichtiger werdenden dyadischen Freundschaften innerhalb einer Schulklasse in den Blick. Im Detail wird deren Bedeutung für einen adaptiven Umgang mit Fehlern und somit deren indirekter Einfluss auf die Leistung von Schüler_innen betrachtet. Damit leistet die vorliegende Studie einerseits einen Beitrag zur Forschungsliteratur über die Bedeutung von Gleichaltrigen zur Übernahme schulbezogener Überzeugungen und Verhaltensweisen (Altermatt & Kenney-Benson, 2006; Berndt, 1999) und erweitert diese andererseits um Erkenntnisse zum Umgang mit akademischen Fehlern.
Adaptiver Umgang mit Fehlern in der Schule und dessen Bedeutung für Leistung Um das Lernpotenzial von Fehlern in Lernsituationen optimal nutzen zu können, haben sich grundsätzlich zwei © 2018 Hogrefe Verlag
45
Arten von Reaktionen als bedeutsam und lernförderlich herausgestellt (Dresel et al., 2013; Tulis, Grassinger & Dresel, 2011): Affektiv-motivational adaptive Reaktionen auf Fehler beinhalten die erfolgreiche Regulation bzw. Aufrechterhaltung von Motivation und günstigen Lernemotionen, während sich eine handlungsbezogene Adaptivität von Fehlerreaktionen auf die Planung, Initiierung und Ausführung von geeigneten Lernhandlungen und (meta‐) kognitiven Strategien zur tieferen Auseinandersetzung mit dem Fehler, dessen Ursache und Korrektur beziehen. Die Adaptivität der auf Lernhandlungen bezogenen Reaktionen auf Fehler ist also in Abgrenzung zur affektivmotivationalen Adaptivität, welche durch einen hohen emotionalen Selbstbezug gekennzeichnet ist (vgl. Kanfer & Ackerman, 1989), eher als metakognitives bzw. volitionales Konstrukt zu verstehen (vgl. Hasselhorn & Labuhn, 2008). Handlungsadaptivität nach Fehlern ist durch einen hohen Aufgabenbezug charakterisiert und auf Aufgabenbewältigung durch entsprechendes Lernverhalten fokussiert. Bisherige empirische Arbeiten liefern Hinweise darauf, dass beide Reaktionsweisen tatsächlich voneinander abgrenzbar, wenngleich nicht unabhängig voneinander sind (z. B. Dresel et al., 2013). Beide Arten von adaptiven Reaktionen auf Fehler können somit als Voraussetzung für effektives Lernen aus Fehlern und den dazu notwendigen kognitiven Verarbeitungsprozessen verstanden werden, wobei die Aufrechterhaltung von Motivation und günstigen Lernemotionen wiederum als Voraussetzung für handlungsadaptive Reaktionsweisen angenommen werden kann (vgl. Boekaerts, 1999). Zudem zeigen einschlägige Befunde, dass beide Reaktionsweisen auf Fehler mit lern- und leistungsrelevanten Erlebens- und Verhaltensweisen assoziiert sind und somit die Leistung von Schüler_innen positiv beeinflussen können: Sowohl affektiv-motivational günstige als auch handlungsadaptive Reaktionen auf Fehler hängen negativ mit Hilflosigkeitserleben und positiv mit Anstrengungseinsatz, selbstreguliertem Lernen, Overachievement und Transferleistungen zusammen (Dresel et al., 2013; Keith & Frese, 2008; Tulis et al., 2011).
Der Einfluss von Freundschaften auf den adaptiven Umgang mit Fehlern Erkenntnisse der Unterrichts- bzw. Fehlerklimaforschung (z. B. Meyer, Seidel & Prenzel, 2006) machen deutlich, dass neben individuellen motivationalen Tendenzen und Überzeugungen, wie beispielsweise einem günstigen Fähigkeitsselbstkonzept oder einer ausgeprägten Lernzielorientierung (Dresel et al., 2013; Tulis & Ainley, 2011), insbesondere der soziale Kontext einen Einfluss auf individuelle Fehlerreaktionen ausübt (z. B. Baumgartner,
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 44–58
46
M. Tulis et al., Freundschaften im Klassenzimmer und deren Bedeutung für einen adaptiven individuellen Umgang mit Fehlern
Dresel, Dußler, Schumann & Seifried, 2015; Kreutzmann, et al., 2014; Steuer et al., 2013; Tulis, 2013). Bisherige Studienergebnisse geben Hinweise darauf, dass die Rolle der Mitschüler_innen für lernrelevante Merkmale, wie beispielsweise die Anstrengungsbereitschaft oder das Selbstwirksamkeitserleben, nicht zu unterschätzen ist (Kreutzmann et al., 2014; Steuer et al., 2013). Allerdings beruhen diese Befunde zumeist auf aggregierten Einschätzungen der Schüler_innen zum Verhalten von den Mitschüler_innen im Klassenverband, sowie von den Lehrkräften. Beide Instanzen sind für die Festlegung von Normen für den Umgang mit und die Bewertung von Fehlern im Unterricht maßgeblich. Theoretisch als auch auf Basis empirischer Befunde ist jedoch auch anzunehmen, dass der_die beste Freund_in innerhalb der Klasse wichtige weitere Funktionen übernimmt, die die Art und Weise, wie adoleszente Schüler_innen mit schulischen Fehlern umgehen, beeinflussen. Definiert werden Freundschaften in vorliegender Studie als eine Form dyadischer, reziproker Beziehungen (Hartup, 1989), die durch die gegenseitige Nennung als jeweils beste_r Freund_in operationalisiert sind. In manchen Arbeiten werden auch unilaterale Freundschaften, d. h. die Freundschaftsbeziehung wird nur von einem Jugendlichen genannt, einbezogen (z. B. Bot, Engels, Knibbe & Meeus, 2005). Allerdings ist anzunehmen, dass insbesondere der Austausch über schulische Fehler und Misserfolge ein besonderes Vertrauensverhältnis voraussetzt. Reziproke Freundschaftsdyaden sind durch solch ein Vertrauensverhältnis und eine hohe Intimität gekennzeichnet (Berndt & Keefe, 1995), sodass sich mit höherer Wahrscheinlichkeit beste Freund_innen bei schulischen Fehlern und Misserfolgen unterstützen oder die Reaktionsweisen des anderen übernehmen. Hinweise darauf liefern Studien, die den Einfluss von Freundschaften auf die schulische Motivation und das Lernverhalten von Schüler_innen untersucht haben (Altermatt & Kenney-Benson, 2006; Berndt, Laychak & Park, 1990; Wentzel, Donlan & Morrison, 2012). Dabei wird deutlich, dass Schüler_innen von qualitativ hochwertigen Freundschaftsbeziehungen mehr profitieren und bessere Leistungen aufweisen als Schüler_innen in weniger innigen bzw. unterstützenden Freundschaftsbeziehungen (z. B. Berndt & Keefe, 1995). Im Gegensatz zu nicht-befreundeten Mitschüler_innen üben Freunde insbesondere einen positiven Einfluss auf das emotionale Erleben, schulische Engagement und Problemlösen von Schüler_innen aus, da sie einander besser kennen und unterstützen (für eine Metaanalyse siehe: Newcomb & Bagwell, 1995). Beste Freund_innen kommunizieren effektiver und effizienter (z. B. Ladd & Emerson, 1984), teilen schulische Einstellungen und Aspirationen (z. B. Epstein, 1983) und stellen damit eine wichtige soziale Ressource zur Bewältigung schulbezogener
Entwicklungsaufgaben in der Adoleszenz dar (vgl. Fend, 2001). Demnach ist zu erwarten, dass Reaktionsweisen auf Fehler sowohl in affektiv-motivationaler Hinsicht, als auch bezogen auf das Lernverhalten, in reziproken Freundschaften einander ähneln. Klasseninterne Freundschaftsbeziehungen sind zudem durch hohe räumliche und zeitlich beständige Nähe gekennzeichnet und stellen einen wesentlichen Bestandteil des alltäglichen, sozialen Lerngeschehens von Schüler_innen dar. Mit zunehmendem Alter erhöht sich außerdem der Anteil an Schüler_innen, die sich durch schulische Anforderungen und den damit verbundenen schulischen Misserfolgen, Fehlern und deren Rückmeldung stark oder sehr stark belastet fühlen (HBSC-Studienverbund Deutschland, 2015), sodass reziproke Freundschaftsbeziehungen in der Klasse noch mehr an Bedeutung gewinnen dürften. Insgesamt lässt sich also festhalten, dass, obwohl Freundschaften im Jugendalter zunehmend relevanter werden (Brown & Larson, 2009; Kessels & Hannover, 2009), diese noch kaum im Zusammenhang mit dem Umgang mit schulischen Fehlern und Rückschlägen berücksichtigt wurden. Dabei ist anzunehmen, dass der Umgang mit Fehlern zwar durch den gesamten Klassenkontext – charakterisiert durch die wahrgenommenen Reaktionsweisen der Mitschüler_innen und der Lehrkraft – mitbestimmt, aber in besonderem Maße auch von der besten Freundin bzw. vom besten Freund innerhalb der Klasse beeinflusst werden. Für die Erklärung der Mechanismen des Übernahmeprozesses innerhalb von Freundschaftsbeziehungen können unterschiedliche theoretische Perspektiven herangezogen werden (vgl. auch Ryan, 2001): Eine theoretische Grundlage für die Übernahme von schulischen Überzeugungen und Verhaltensweisen bilden soziale Vergleichsprozesse (Festinger, 1954), wonach sich Jugendliche mit ihren Freunden, die für sie persönlich wichtige und ihnen ähnliche Bezugspersonen darstellen, bewusst oder automatisch vergleichen, um ihr eigenes Verhalten und ihre eigenen Überzeugungen zu bewerten und zu „optimieren“ (Ruble, Boggiano, Feldman & Loebl, 1980). Klasseninterne Freund_innen stellen in vielfältigen lern- und leistungsbezogenen Situationen Modelle oder Vorbilder dar (vgl. Mussweiler, Rüter & Epstude, 2004). Wann immer Jugendliche mit Informationen über deren Freund_in konfrontiert werden, beziehen sie diese mit hoher Wahrscheinlichkeit auf sich selbst (Corcoran, Crusius & Mussweiler, 2011). Dabei stellt der Vergleich mit der bzw. dem besten Freund_in einen typischen Routinestandard dar (Mussweiler & Rüter, 2003), d. h. je häufiger sich Jugendliche mit ihren Freund_innen vergleichen, umso wahrscheinlicher werden diese auch in Zukunft als Vergleichsstandard herangezogen. Es ist anzunehmen, dass sich soziale Vergleichsprozesse insbesondere bei Jugendlichen im Schulalter auch auf den individuellen Umgang
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 44–58
© 2018 Hogrefe Verlag
M. Tulis et al., Freundschaften im Klassenzimmer und deren Bedeutung für einen adaptiven individuellen Umgang mit Fehlern
mit akademischen Fehlern und Fehlerrückmeldungen beziehen. Ein weiterer, theoretisch plausibler Grund für Übernahmeprozesse ist im individuellen Bedürfnis nach Anerkennung und Zugehörigkeit zu sehen (Baumeister & Leary, 1995), das durch die Übereinstimmung mit den Normen und Überzeugungen der Interaktionspartner befriedigt werden kann (Kindermann & Skinner, 2009). Dabei ist anzunehmen, dass Freundschaften auf Basis von Ähnlichkeiten in Bezug auf bestimmte Merkmale (z. B. Leistungsniveau) gebildet werden (Selektion) und sich durch normative Prozesse und kommunizierte Erwartungen zunehmend weiter angleichen und verstärken (Sozialisation) (z. B. Altermatt & Pomerantz, 2003; Kandel, 1978). Dies scheint besonders dann wahrscheinlich, wenn es sich – wie auch in der vorliegenden Studie – um reziproke, dyadische Freundschaften innerhalb der Klasse handelt, die durch eine hohe positive Freundschaftsqualität (z. B. gegenseitiges Vertrauen und Unterstützung) gekennzeichnet sind (Berndt & Keefe, 1995). Demnach wäre ebenfalls zu erwarten, dass befreundete Schüler_innen auch in ihren (adaptiven oder maladaptiven) Reaktionsweisen auf Fehler zunehmend übereinstimmen. Auf Basis von Sozialisationsprozessen bieten die Ansätze der Ko-Regulation (Järvelä, Volet & Järvenoja, 2010) und der sozialen Ressourcennutzung (Gasser-Steiner & Freidl, 1995; Röhrle, 1994) eine andere Erklärung für die Übereinstimmung adaptiver Fehlerreaktionen innerhalb von Freundschaftsbeziehungen. Vor diesem Hintergrund ist einerseits anzunehmen, dass Schüler_innen insbesondere dann Strategien zum affektiv-motivationalen und handlungsbezogenen Umgang mit Fehlern von den besten Freund_innen übernehmen, wenn deren eigene Anwendung misslingt oder die eigenen Ressourcen nicht ausreichen. Da Freund_innen bevorzugt in stressreichen Situationen, z. B. insbesondere bei Schwierigkeiten bei den Hausaufgaben, zur Unterstützung herangezogen werden (Mantzicopoulos, 1997), ist anzunehmen, dass Schüler_innen auch bei der kognitiven und emotionalen Verarbeitung von Fehlern bei den besten Freund_innen Unterstützung suchen. Die Ergebnisse einer Studie von Altermatt und Broady (2009) liefern Hinweise zur Bestätigung dieser Annahme: Schüler_innen der 4. – 6. Jahrgangsstufe wiesen dann vermehrt adaptive Reaktionen (z. B. ausdauernderes Lernverhalten) im Gegensatz zu maladaptiven Reaktionen (z. B. Hilflosigkeitsreaktionen) nach akademischem Misserfolg auf, wenn sie entsprechend mehr (emotionale) Unterstützung in Form von konkretem Verhalten und / oder verbalen Äußerungen von ihren Freund_innen erhielten. In dieser Hinsicht wäre zu erwarten, dass durch die besten Freund_innen handlungsadaptive Reaktionen (z. B. Persistenz, Anstrengungseinsatz, kognitive Auseinandersetzung mit dem Fehler und dessen Korrektur) unterstützt werden. © 2018 Hogrefe Verlag
47
Verschiedene weitere Studien zur Beziehung zwischen Gleichaltrigen zeigen zudem, dass Freund_innen eine wesentliche Quelle für die Regulierung von Emotionen darstellen (z. B. Bukowski, Brendgen & Vitaro, 2007; Reindl, Gniewosz & Reinders, 2016). Demnach wäre zu erwarten, dass auch affektiv-motivational adaptive Reaktionen auf Fehler (z. B. Aufrechterhaltung von Motivation und Lernfreude, geringere Entmutigung durch Fehler) von den besten Freund_innen angenommen und übernommen werden. Neben der Unterstützung bei schulischen Problemen kann die Übernahme schließlich durch Beobachtungsprozesse im Rahmen der sozial-kognitiven Lerntheorie (Bandura, 1971, 2012) erklärt werden. Wie bereits erwähnt, stellen befreundete Klassenkamerad_innen, analog zur Modellwirkung von Eltern, Lehrkräften und anderen Mitschüler_innen, Vorbilder dar. Es ist anzunehmen, dass über die Beobachtung des Lernverhaltens der Freund_innen und vor allem dessen Auswirkungen auf die Leistung (stellvertretende Verstärkung) ein adaptiver Umgang mit Fehlern erlernt wird. Motivation und emotionales Erleben der Freund_innen nach Fehlern können durch entsprechende mimische und verbale Äußerungen zum Ausdruck gebracht und übernommen werden (Berndt & Keefe, 1995; Wild, Enzle, Nix & Deci, 1997). Der Klassen- bzw. Unterrichtskontext bietet (je nach Domäne mehr oder weniger) Situationen, in denen Fehler rückgemeldet, kommentiert oder korrigiert werden (Tulis, 2013), sodass affektiv-motivationale als auch handlungsbezogene Reaktionen der besten Freundin bzw. des besten Freundes, sowie deren Konsequenzen beobachtet werden können.
Ziele und Hypothesen der Studie Auf Basis dieser theoretischen Grundlagen und empirischen Evidenzen zielt die vorliegende Studie darauf ab, Übereinstimmungen zwischen adaptiven Fehlerreaktionen der besten Freundin bzw. des besten Freundes und der jeweiligen Schülerin bzw. des jeweiligen Schülers herauszustellen und deren indirekten Effekt auf die (fachspezifische) Leistung zu untersuchen. Folgende zentrale Hypothesen wurden formuliert: H1.1 Affektiv-motivational adaptive Reaktionen der besten Freundin oder des besten Freundes auf Fehler korrelieren positiv mit affektiv-motivational adaptiven Reaktionen der Schülerin bzw. des Schülers. H1.2 Handlungsadaptive Reaktionen der besten Freundin bzw. des besten Freundes auf Fehler korrelieren positiv mit handlungsadaptiven Reaktionen der Schülerin bzw. des Schülers. H2.1 Affektiv-motivational adaptive Reaktionen der besten Freundin bzw. des besten Freundes auf Fehler haben einen indirekten Effekt auf die Leistung.
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 44–58
48
M. Tulis et al., Freundschaften im Klassenzimmer und deren Bedeutung für einen adaptiven individuellen Umgang mit Fehlern
H2.2 Handlungsadaptive Reaktionen der besten Freundin bzw. des besten Freundes auf Fehler haben einen indirekten Effekt auf die Leistung. Die Mehrzahl bisheriger Studien zum Einfluss von Gleichaltrigen griff auf subjektive Einschätzungen der Schüler_innen zu Überzeugungen und Verhaltensweisen ihrer Freund_innen zurück, was zu einer Überschätzung der Zusammenhänge führen kann (vgl. Ryan, 2001). Um dieser Limitation entgegenzuwirken, analysierten wir in vorliegender Studie den jeweils selbstberichteten Umgang mit Fehlern, d. h. sowohl von Schüler_innen, als auch von den besten Freund_innen. Außerdem wird die Studie einer domänenspezifischen Betrachtung des Umgangs mit Fehlern gerecht, indem die Reaktionsweisen auf Fehler in zwei unterschiedlichen Unterrichtsfächern (Mathematik und Englisch) analysiert wurden. Zwar wären unterschiedliche Ausprägungen in den affektiv-motivational adaptiven sowie handlungsadaptiven Fehlerreaktionen in verschiedenen Schulfächern denkbar, jedoch erwarteten wir keine Unterschiede in der Übereinstimmung zwischen Schüler_innen und deren Freund_innen aufgrund des Schulfaches per se. Ähnliche Zusammenhangsmuster würden indes für die Generalisierbarkeit der Befunde sprechen. Darüber hinaus wurde auch der Einfluss der Klasse kontrolliert, indem der affektiv-motivationale (bzw. handlungsadaptive) Umgang mit Fehlern auch als latente Klassenvariable in alle Modelle aufgenommen wurde.
Methode Stichprobe und Durchführung Für die Untersuchung der Fragestellungen wurden Daten aus einer größeren Untersuchung verwendet, bei der insgesamt über 748 Schülerinnen und Schüler der 5. – 7. Jahrgangsstufe im November und Dezember 2015 befragt wurden. Gemäß der Fokussierung auf reziproke Freundschaften wurden jene 270 Jugendliche aus der Gesamtstichprobe ausgewählt, die sich wechselseitig als beste Freund_innen benannt hatten (d. h. 135 Freundschaftsdyaden). Dabei ergab sich für die Stichprobe eine Geschlechterverteilung von 158 Mädchen und 112 Jungen mit einem durchschnittlichen Alter von 11.75 (SD = 0.99) Jahren; 156 Schüler_innen besuchten das Gymnasium und 114 Schüler_innen die Realschule, insgesamt verteilt auf 34 Klassen. Die Anzahl der Klassen innerhalb der sechs Schulen variierte dabei zwischen drei und zwölf. Pro Klasse ließen sich durchschnittlich vier reziproke Freundschaftsdyaden finden, wobei es sich fast ausschließlich
um gleichgeschlechtliche Freundschaftsnennungen handelte. Insgesamt waren lediglich drei reziproke Dyaden durch eine Mädchen-Jungen-Freundschaft charakterisiert. Auf Grund der Unterschiede geschlechtsspezifischer Einstellungen von gegengeschlechtlichen Freundschaftsdyaden im Vergleich zu gleichgeschlechtlichen Freundschaftsdyaden (McDougall & Hymel, 2007) sowie der geringen Anzahl dieser Freundschaftsform wurden diese drei Dyaden aus den weiteren Analysen ausgeschlossen. Die Teilnahme an der Studie war freiwillig, für die Erhebung wurden Genehmigungen der Schulleitung, der Lehrpersonen als auch der Eltern eingeholt.
Erhebungsinstrumente Für die Erfassung der Fehlerreaktionen wurde ein MultiMatrix-Design verwendet (Munger & Loyd, 1988). Den Schüler_innen wurden dabei die Fragen für ein Schulfach komplett präsentiert (Fragebogen-Langform) und für das andere Fach wurden jeweils drei Ankeritems ausgewählt. Die Fragebögen wurden randomisiert verteilt. Da diese Studie Teil einer größeren Studie ist, wurde diese Methode als ökonomisches Verfahren angewandt, mit welcher bereits ähnliche Resultate – verglichen zu vollständigen Datensätzen – erzielt wurden (Smits & Vorst, 2007). Freundschafts-Dyaden Reziproke Freundschaften wurden über Peernominationen erfasst (Bukowski et al., 1994). Hierbei wurden die Schüler_innen gebeten, ihre drei besten Freund_innen in der Klasse der Reihenfolge nach zu benennen. Alle befragten Schüler_innen haben eine_n beste_n Freund_in aus ihrer Klasse benannt. Im Anschluss daran wurden die Daten des Jugendlichen mit denen der besten Freundin bzw. des besten Freundes – in der Liste der erstgenannte Name – an Hand einer zugewiesenen Identifikationsnummer zusammengefügt. Affektiv-motivational und handlungsbezogene Adaptivität von Reaktionen auf Fehler Analog zu Dresel et al. (2013) wurde zum einen die affektiv-motivationale Adaptivität nach Fehlern (in der Fragebogen-Langform) mit sechs Items (Cronbach’s α = .73 in Mathematik bzw. α = .83 in Englisch), wie beispielsweise „Wenn ich in Mathe [Englisch] einen Fehler mache, habe ich danach weniger Spaß am Mathe-Unterricht“ (umgepolt) erfasst. Zum anderen wurde die handlungsbezogene Adaptivität (in der Fragebogen-Langform) mit sieben Items (α = .89 in Mathematik bzw. α = .91 in Englisch) abgefragt. Ein Beispielitem hierfür lautet: „Wenn ich in Mathe [Englisch] einen Fehler mache, versuche ich gezielt, mich zu verbessern“. Die Items bei-
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 44–58
© 2018 Hogrefe Verlag
M. Tulis et al., Freundschaften im Klassenzimmer und deren Bedeutung für einen adaptiven individuellen Umgang mit Fehlern
der Skalen sind im Anhang ersichtlich. Die Zustimmung wurde mit Likert-Skalen mit den Polen von 1 (stimmt gar nicht) bis 6 (stimmt völlig) erfragt. Aufgrund der relativ hohen latenten Korrelation zwischen Handlungsadaptivität und affektiv-motivationaler Adaptivität in beiden Unterrichtsfächern (r = .77 und r = .82), wurde mittels konfirmatorischer Faktorenanalyse die zweifaktorielle Struktur adaptiver Reaktionen auf Fehler für Mathematik und Englisch in einem Modell geprüft und für die vorliegende Stichprobe bestätigt (χ2 = 284.86, df = 240, CFI = .99, TLI = .99, RMSEA = .03, SRMR = .04). Zusätzlich haben wir ein einfaktorielles Modell berechnet, wobei das zweifaktorielle Modell eine signifikant bessere Passung im Vergleich zum einfaktoriellen Modell aufwies, TRd (df = 30) = 313.81, p < 001. Neben dem affektiv-motivationalen sowie handlungsadaptiven Umgang mit Fehlern auf Individualebene wurde auch die affektiv-motivationale Adaptivität (bzw. Handlungsadaptivität) der Klasse als latente Variable in den Analysen berücksichtigt. Dazu wurde fallweise pro Item ein Klassenwert (= Mittelwert aller Mitschüler_innen jeweils ohne den_die Schüler_in und dessen beste_n Freund_in) ermittelt. Leistung Als Leistungsmaß wurden die selbstberichteten Noten der Schüler_innen herangezogen1. Diese bezogen sich hierbei auf die letzte Note in der Schulaufgabe in Mathematik bzw. Englisch. Die Noten wurden so kodiert, dass hohe Werte einer guten Leistung entsprechen.
Analysen Für die Hypothesenprüfung wurden Strukturgleichungsmodelle mit Mplus 7.31 (Muthén & Muthén, 1998 – 2015) gerechnet. Aufgrund des Multi-Matrix Designs ergaben sich 33 % fehlende Werte und weitere 0,02 % missings aufgrund von Item-non-Response bei den Items zu affek-
1
2
3
4
49
tiv-motivationaler Adaptivität. Alle fehlenden Werte wurden geschätzt.2 Für die Bildung der beiden latenten Konstrukte zum Umgang mit Fehlern (affektiv-motivationale Adaptivität und handlungsbezogene Adaptivität von Reaktionen auf Fehler) – sowohl von den Jugendlichen als auch von deren besten Freund_innen, sowie von der Klasse auf Basis der bereinigten Klassenwerte – wurden jeweils drei Item-Parcels gebildet (Item-to-Construct Gewichtung; Little, Cunningham, Shahar & Widaman, 2002). Auf Grund der spezifischen Datenstruktur durch reziproke Freundschaften (Jugendliche sind gleichzeitig beste Freundin bzw. bester Freund) wurden zudem die Ladungen, Intercepts und Residualvarianzen der latenten Variablen zum Fehlerumgang und die Mittelwerte und Varianzen der Leistungsvariablen gleichgesetzt.3 Um unsere Hypothesen zu testen, wurden Actor-Partner-Interdependence Modelle (APIM) in Form von insgesamt vier Strukturgleichungsmodellen (2 Fächer × 2 Reaktionsarten auf Fehler) berechnet (vgl. Olsen & Kenny, 2006). In diesen Modellen wurde die handlungsbezogene Adaptivität (bzw. die affektiv-motivationale Adaptivität) der Schüler_innen durch die handlungsbezogene Adaptivität (bzw. die affektiv-motivationale Adaptivität) der besten Freundin bzw. des besten Freundes vorhergesagt. Zusätzlich wurde die fachspezifische Leistung durch die handlungsbezogene Adaptivität (bzw. die affektiv-motivationale Adaptivität) der Schüler_innen (Actor-Effekt) und der besten Freundin bzw. des besten Freundes (Partner-Effekt) prädiziert.4 Die Hypothesen H 2.1 und H 2.2 fokussierten indirekte Effekte (adaptive Fehlerreaktionen der besten Freund_innen hängen indirekt über die adaptive Fehlerreaktionen der Schüler_innen mit deren Leistung zusammen). Für die Schätzung dieser indirekten Effekte wurde in Mplus die Funktion MODEL INDIRECT und die bootstrapping Methode mit 500 Resamplings (MacKinnon, 2008) angewandt. Diese Methode prüft die Standardfehler auf ihre statistische Signifikanz basierend auf einem 95 %igen
Dickhäuser und Plenter (2005) belegen, dass von Schüler_innen selbst berichtete Noten in hohem Maß mit den über die Lehrkraft erfassten Leistungsmaßen korrelieren. Da das Fehlen der Werte keine Systematik hatte (Completely at Random), Little’s MCAR Test: χ² (n = 270) = 106.38, p= .50, wurden diese mit dem robusten Maximum-Likelihood (MLR) Schätzverfahren, basierend auf den Fällen mit vollständigen Daten, geschätzt und somit Verzerrungen vorgebeugt, wie sie bei fallweisen Ausschlüssen zustande kommen würden (vgl. Arbuckle, 1996). Des Weiteren lag eine genestete Datenstruktur auf Grund der Erhebung in Klassenverbänden vor. Die Unabhängigkeit der Daten ist somit nicht mehr gewährleistet und würde folglich zu Verzerrungen in den Ergebnissen führen (Raudenbush & Bryk, 2002). Daher nutzt der MLR-Schätzer das Pseudo-Maximum-Likelihood (PML) Verfahren in Mplus (Asparouhov & Muthén, 2005). Diese Methode korrigiert die Standardfehler für die Abhängigkeit der Beobachtungen und beugt somit Verzerrungen in den Ergebnissen vor. Diese Methode ist angelehnt an Olsen und Kenny (2006), die Strukturgleichungsmodelle bei nicht-unterscheidbaren Dyaden beschreiben. Dabei wird eine Überschätzung der Zusammenhänge verhindert (für nähere Erklärungen siehe Olsen & Kenny, 2006 sowie Kenny, Kashy & Cook, 2006). Zudem wurden die Residuen der Leistung der besten Freundin bzw. des besten Freundes mit der Leistung der Schülerin bzw. des Schülers korreliert. Auf Grund einer zweifachen Inklusion der Daten (nominierte_r Freund_in ist ebenfalls als Schüler_in im Datenset vorhanden) benutzten wir eine Gewichtungsoption in Mplus mit 0.5 (Olsen & Kenny, 2006).
© 2018 Hogrefe Verlag
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 44–58
50
M. Tulis et al., Freundschaften im Klassenzimmer und deren Bedeutung für einen adaptiven individuellen Umgang mit Fehlern
Konfidenzintervall. Im Rahmen vorliegender Studie ist jedoch zu beachten, dass nach Zhao, Lynch und Chen (2010) eine indirekte Mediation getestet wird, da theoretisch kein totaler Effekt (Leistung des Jugendlichen wird durch adaptive Fehlerreaktionen der besten Freundin bzw. des besten Freundes vorhergesagt) angenommen wird und somit dieser auch nicht statistisch signifikant sein muss (MacKinnon, Krull & Lockwood, 2000; Preacher & Hayes, 2008; Zhao et al., 2010).
Ergebnisse Deskriptive Ergebnisse Die deskriptiven Resultate zeigten, dass sowohl affektivmotivational adaptive als auch handlungsadaptive Reaktionen auf Fehler deutlich über dem theoretischen Skalenmittelpunkt lagen (siehe Tabelle 1). Bei der Betrachtung der Korrelationen war auffällig, dass beide Reaktionsarten innerhalb der beiden Unterrichtsfächer jeweils relativ hoch miteinander korrelierten. Zwischen den Domänen fielen diese Zusammenhänge allerdings eher moderat aus. Im Unterrichtsfach Mathematik fiel der Zusammenhang zwischen affektiv-motivationaler Adaptivität nach Fehlern und der Leistung stärker aus als im Unterrichtsfach Englisch (r = .40 versus r = .28), während sich im Fach Englisch insgesamt ein stärkerer Zusammenhang sowohl zwischen den Leistungen als auch beiden adaptiven Fehlerreaktionen der befreundeten Jugendlichen zeigte. Weiterhin wurden durchaus bedeutsame Unterschiede zwischen den einbezogenen Schulklassen (ICC = .09-.22) deutlich, die aber nicht im Fokus der vorliegenden Arbeit stehen. Gleichzeitig weisen die Intraklassenkorrelationen darauf hin, dass ein bedeutsamer Anteil der Varianz auf Individualebene liegt, der durch die fokussierten Prädiktoren erklärt werden sollte. Schließlich wiesen auch die latenten Korrelationen zwischen den Fehlerreaktionen der befreundeten Jugendlichen darauf hin, dass die angenommenen Zusammenhänge innerhalb von Freundschaftsdyaden existieren.
Hypothesenprüfende Ergebnisse: Zusammenhänge zwischen Freunden Die Modelle für die affektiv-motivationale Adaptivität von Fehlerreaktionen zeigten einen sehr guten Fit (siehe Tabelle 2). Die im Folgenden berichteten Ergebnisse sind in Abbildung 1 dargestellt. Wie erwartet, sagten die adaptiven affektiv-motivationalen Fehlerreaktionen der besten Freundin bzw. des besten Freundes die Ausprägung
adaptiver affektiv-motivationaler Fehlerreaktionen der Schülerin bzw. des Schülers in Mathematik vorher, β = .16, SE = .09, p = .04, allerding war dieser Pfad in Englisch nicht signifikant, β = .16, SE = .16, p = .30 (siehe Abbildung 1). Je höher die affektiv-motivationale Adaptivität der besten Freundin bzw. des besten Freundes, desto höher die Ausprägung auf dieser Dimension beim Jugendlichen in Mathematik. Weiterhin zeigte sich ein erwartungskonformer Actor-Effekt zwischen dem affektiv-motivational adaptiven Umgang mit Fehlern seitens der Schüler_innen und deren Leistung: Mathematik, β = .36, SE = .06, p < .001; Englisch, β = .24, SE = .10, p < .01. Je höher die selbstberichtete affektiv-motivationale Adaptivität nach Fehlern, desto besser die Leistung im betreffenden Unterrichtsfach. Die Partner-Effekte – der Zusammenhang zwischen dem affektiv-motivational adaptiven Umgang mit Fehlern seitens der Freundin bzw. des Freundes und der Leistung der Schülerin bzw. des Schülers waren in beiden Fächern (ebenfalls erwartungsgemäß) nicht signifikant. Zudem wurde die affektiv-motivationale Adaptivität der Schülerin bzw. des Schülers durch die affektiv-motivationalen Fehlerreaktionen der Klasse vorhergesagt (in Mathematik: β = .45, SE = .20, p = .01; in Englisch: β = .43, SE = .15, p < .01). Auch die Modelle für handlungsadaptive Fehlerreaktionen zeigten eine sehr gute Passung (Tabelle 2). Hier zeigte sich ebenfalls, dass adaptive Reaktionen der besten Freundin bzw. des besten Freundes jene des Jugendlichen sowohl für Mathematik, β = .18, SE = .08, p = .01, als auch für Englisch, β = .30, SE = .12, p < .01, vorhersagen (siehe Abbildung 2). Gemäß unseren Erwartungen zeigte sich zudem, dass handlungsadaptive Fehlerreaktionen der Schüler_innen mit deren Leistung sowohl in Mathematik, β = .22, SE = .07, p < .01, als auch in Englisch, β = .24, SE = .09, p < .01, korrelieren. Im Hinblick auf die Handlungsadaptivität fiel der Pfadkoeffizient von der Klasse auf den_die Schüler_in insgesamt geringer aus als im Modell zu affektiv-motivationalen Adaptivität und wurde nur für das Unterrichtsfach Englisch signifikant (β = .28, SE = .11, p < .01), nicht für Mathematik (β = .15, SE = .11, p = .08). Wie schon bei den Modellen des affektivmotivationalen Umgangs mit Fehlern waren auch bei den handlungsadaptiven Fehlerreaktionen die Partner-Effekte in beiden Fächern nicht signifikant. In allen Modellen zeigte die Leistung der Schülerin bzw. des Schülers erwartungsgemäß einen positiven mittleren Zusammenhang zur Leistung der besten Freundin bzw. des besten Freundes (in Mathematik für beide adaptiven Fehlerreaktionen: r = .21/.21, in Englisch für affektivmotivationale/ handlungsadaptive Fehlerreaktionen: r = .29/.34).
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 44–58
© 2018 Hogrefe Verlag
© 2018 Hogrefe Verlag
HA Klasse Englisch
16
4.90
4.92
4.81
4.78
4.56
4.48
4.74
4.68
4.82
4.78
4.49
4.49
4.74
4.68
4.82
4.78
0.37
0.45
0.37
0.41
0.97
0.99
0.72
0.89
0.73
0.80
0.96
0.99
0.73
0.90
0.74
0.80
SD
.20**
.15
.20**
.25**
.02
.08
.08
.12
.19*
.18
.04
.40**
.28**
.58**
.46*
(.83)
1
.12
.13
.24**
.26**
.16*
.06
.32**
.18*
.31**
.18*
.28**
.19*
.67**
.36**
(.80)
2
.10
.93
.07
.17*
.07
.01
.17
.17*
.18*
.11
.15*
.20**
.60**
(.91)
3
.19**
.12
.25**
.21**
.12
.03
.32**
.16
.32**
.07
.20*
.17
(.86)
4
.25**
.21*
.30**
.25*
.08
.24*
.01
.01
.08
.07
.26**
−
5
.01
.00
.21**
.12
.37**
.05
.11
.06
.16*
.04
−
6
.21**
.16
.19*
.24**
-.06
.41**
.27**
.58**
.44**
(.83)
7
.12
.13
.23**
.25**
.24**
.13
.66**
.35**
(.80)
8
.10
.09
.06
.16*
.10
.18*
.59**
(.91)
9
.19**
.12
.25**
.20*
.15*
.14
(.86)
10
.27**
.22*
.27*
.23*
.24**
−
11
.05
.03
.17
.08
−
12
.60**
.82**
.69**
(.90)
13
.77**
.46**
(.85)
14
.60**
(.95)
15
(.95)
16
Anmerkungen: HA = Handlungadaptiver Umgang mit Fehlern, AMA = Affektiv-motivational adaptiver Umgang mit Fehlern, BF = beste_r Freund_in. Dargestellt sind bivariate, latente Korrelationen. *p < .05 **p < .01. Die Mittelwerte und Standardabweichungen der Leistungen sind in dieser Tabelle bereits umkodiert (je höher der Wert desto besser die Leistung). Im Falle der bivariaten Korrelationen handelt es sich um die Intraklassenkorrelationen zwischen den Variablen der Freundin bzw. des Freundes und den Variablen der Schülerin bzw. des Schülers (siehe Olsen & Kenny, 2006). In Klammern sind die jeweiligen Werte für die Konstruktreliabilität (Jöreskog’s rho) dargestellt.
HA Klasse Mathe
HA Englisch BF
10
15
HA Mathe BF
9
AMA Klasse Englisch
AMA Englisch BF
8
14
AMA Mathe BF
7
AMA Klasse Mathe
Leistung Englisch
6
13
Leistung Mathe
5
Leistung Mathe BF
HA English
4
Leistung Englisch BF
HA Mathe
3
11
AMA English
2
12
AMA Mathe
1
M
Tabelle 1. Mittelwerte, Standardabweichungen, bivariate Korrelationen und Reliabilitäten.
M. Tulis et al., Freundschaften im Klassenzimmer und deren Bedeutung für einen adaptiven individuellen Umgang mit Fehlern 51
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 44–58
52
M. Tulis et al., Freundschaften im Klassenzimmer und deren Bedeutung für einen adaptiven individuellen Umgang mit Fehlern
Tabelle 2. Fit Indices der Actor-Partner-Interdependence Modelle Χ²
df
p
CFI
RMSEA
SRMR
AMA Mathematik
51.04
44
.22
.99
.02
.03
AMA English
77.18
44
.00
.95
.05
.06
HA Mathematik
84.83
44
.00
.97
.06
.03
HA English
70.74
44
.01
.98
.05
.03
Anmerkungen: HA = Handlungadaptiver Umgang mit Fehlern, AMA = Affektiv-motivational adaptiver Umgang mit Fehlern; CFI = comparative fit index; RMSEA = Root-mean-square error of approximation; SRMR = Standardized root-mean-square residual
Abbildung 1. Actor-Partner-Interdependence Modell für einen affektiv-motivational adaptiven Umgang mit Fehlern (AMA) in Mathematik/Englisch, kontrolliert für den affektiv-motivational adaptiven Umgang mit Fehlern der Klasse.
Abbildung 2. Actor-Partner-Interdependence Modell für einen handlungsadaptiven Umgang mit Fehlern (HA) in Mathematik/Englisch, kontrolliert für den handlungsadaptiven Umgang mit Fehlern der Klasse.
Indirekte Effekte In einem finalen Schritt wurden die indirekten Effekte geschätzt. Für affektiv-motivational adaptive Reaktionen der Freunde auf Fehler konnten wir keinen indirekten Effekt
über die affektiv-motivationale Adaptivität der Schüler_innen auf die Leistung in Mathematik nachweisen, β = .06; CI = [‐.003; .172]). Aufgrund des nicht signifikanten direkten Pfades in Englisch wurde für dieses Unterrichtsfach kein indirekter Effekt geschätzt. Für handlungs-
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 44–58
© 2018 Hogrefe Verlag
M. Tulis et al., Freundschaften im Klassenzimmer und deren Bedeutung für einen adaptiven individuellen Umgang mit Fehlern
adaptive Reaktionen auf Fehler ließen sich in beiden Fächern indirekte Effekte zeigen, sowohl in Mathematik: β = .04; CI = [.007; .107]) als auch in Englisch: β = .05; CI = [.017; .189]. Beide indirekten Effekte lassen sich auf Grund der Effektstärken als kleine bis mittlere Effekte einordnen (vgl. Preacher & Kelley, 2011): Mathematik k2 = .038 und Englisch k2 = .053.
Diskussion Die vorliegende Studie verfolgte das Ziel, reziproke Freundschaftsbeziehungen innerhalb der Klasse als Ressource für einen adaptiven individuellen Umgang von Schüler_innen mit ihren Fehlern und folglich deren Leistung zu identifizieren. Die Ergebnisse weisen zunächst auf einen bedeutsamen positiven Zusammenhang zwischen den beiden Formen eines adaptiven Umgangs mit Fehlern und der schulischen Leistung hin. Sowohl affektiv-motivational adaptive als auch handlungsbezogene adaptive Reaktionen auf akademische Fehler gingen mit besseren Leistungen – operationalisiert durch die jeweilige Schulaufgabennote – einher. Dieser Zusammenhang zeigte sich in beiden untersuchten Unterrichtsfächern (Mathematik und Englisch) und deutet auf die Relevanz eines lernförderlichen Umgangs mit Fehlern für nachfolgende Lernprozesse hin (vgl. Grassinger et al., 2015; Hascher & Hagenauer, 2010). Einschränkend sei an dieser Stelle erwähnt, dass jedoch auch die umgekehrte Wirkrichtung denkbar wäre, nämlich dass sich die Leistungen zwischen Freund_innen angleichen und sich dadurch der individuelle Umgang mit Fehlern ändert. Auf Grund des Querschnittdesigns können wir keine eindeutige Aussage darüber treffen. Theoretische Überlegungen legen allerdings nahe, dass von einer höheren Erklärungskraft in der Übernahme bestimmter Lern- und Verhaltensweisen auszugehen ist, die wiederum zu einer Angleichung der Leistungen befreundeter Jugendlicher führt, als andersherum. Nicht zuletzt sollte in zukünftigen Studien, welche explizit auf die Übernahmeprozesse akademischer Variablen innerhalb von Freundschaften fokussieren, das individuelle Leistungsniveau als unabhängige Variable untersucht werden, da eben auch denkbar ist, dass leistungsstarke Schüler_innen adaptiver mit ihren Fehlern umgehen als leistungsschwache Schüler_innen (vgl. Tulis, Grassinger & Dresel, 2011). Im Einklang mit Forschungsbefunden zum Einfluss von Freundschaften auf die schulische Motivation (z. B. Berndt & Keefe, 1995; Shin & Ryan, 2014) zeigten sich Zusam-
5
53
menhänge zwischen adaptiven Reaktionsweisen der besten Freundin bzw. des besten Freundes auf Fehler und jenen der Schüler_innen 5. Die indirekten Effekte handlungsadaptiver Fehlerreaktionen auf die Leistungen der Schüler_innen untermauern die Gewichtigkeit dieser gegenseitigen sozialen Ressource für einen lernförderlichen Umgang mit Fehlern. Interessanterweise ließ sich in den vorliegenden Daten kein indirekter Effekt hinsichtlich der affektiv-motivationalen Adaptivität der besten Freundin bzw. des besten Freundes nachweisen. Im Gegenzug zeigte sich hier ein – im Vergleich zur Handlungsadaptivität – stärkerer Effekt der Klasse auf die affektiv-motivationale Reaktionen der Schüler_innen. Damit ergänzen die vorliegenden Befunde die Erkenntnisse zum Einfluss des sozialen Klassenkontextes auf die Ausprägung und Entwicklung eines adaptiven individuellen Umgangs von Schüler_innen mit ihren Fehlern in zweierlei Hinsicht: Erstens betonen sie die Bedeutsamkeit von klasseninternen Freundschaftsbeziehungen für das individuelle Lernverhalten, und zweitens verdeutlichen sie die Notwendigkeit einer differenzierten Betrachtung und Erfassung eines adaptiven Umgangs mit Fehlern im Sinne der Unterscheidung zwischen affektiv-motivationalen und lernverhaltensbezogenen Reaktionen. So könnten die emotionalen Reaktionen einer Schülerin bzw. eines Schülers insgesamt stärker vom gesamten Klassengeschehen beeinflusst werden (vgl. Mitschülerreaktionen als wichtige Dimension des Fehlerklimas; Steuer & Dresel, 2015), während das auf Fehler bezogene Lernhandeln der Schülerin bzw. des Schülers stärker von einzelnen, ihm wichtigen Personen in der Klasse geprägt wird. Neben der Lehrkraft, die hierbei eine sicherlich wichtige Einflussgröße darstellt, lenken die vorliegenden Ergebnisse den Blick auf klasseninterne (gleichgeschlechtliche) Freundschaften und ergänzen damit die noch relativ wenig vorhandene Literatur zu den sozialen Einflussfaktoren auf einen adaptiven Umgang mit Fehlern (z. B. Kreutzmann et al., 2014; Steuer et al., 2013; Zander et al., 2014). Zudem sind die gefundenen Ergebnisse auch in die vorhandene Literatur zur allgemeinen Bedeutung von Freundschaftsbeziehungen im Jugendalter einzuordnen (z. B. Altermatt & Broady, 2009; Costanza, Derlega & Winstead, 1988) und erweitern diese dahingehend, dass sich auch für adaptive Reaktionsweisen auf Fehler Ähnlichkeiten zwischen Freund_innen zeigen lassen. Zusammengefasst und unter Hinzunahme bisheriger Forschungsarbeiten spielen demnach sowohl Mitschülerreaktionen, als auch die Eingebundenheit der Schüler_innen in das soziale Klassennetzwerk, und auch die_der beste Freund_in eine Rolle für das individuelle Erleben und Verhalten in schulischen Fehlersituationen. Die Er-
Die Zusammenhänge zeigten sich auch nach Hinzunahme der Reaktionen aller anderen Mitschüler im Klassenverband.
© 2018 Hogrefe Verlag
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 44–58
54
M. Tulis et al., Freundschaften im Klassenzimmer und deren Bedeutung für einen adaptiven individuellen Umgang mit Fehlern
gebnisse der vorliegenden Studie legen nahe, dass der_die beste Freund_in in der Klasse zu einem adaptiven Lernverhalten nach Fehlern und damit auch zur Leistung seines Freundes beitragen kann. Eine wichtige, sich daraus ergebende Implikation für die Unterrichtspraxis wäre, dass Lehrkräfte auch Freundschaften zwischen Schüler_innen (z. B. in selbstgewählten Partnerarbeiten) gezielt dazu nutzen, einen lernförderlichen Umgang mit Fehlern anzuregen. Wenngleich es in diesem Sinne ein wichtiges Forschungsanliegen sein sollte, die Mechanismen der Übernahme schulischer Erlebens- und Verhaltensweisen, und damit auch adaptiver Reaktionsweisen auf Fehler, näher zu untersuchen, war es nicht Ziel der vorliegenden Studie, die dafür verantwortlichen Interaktions- oder Vergleichsprozesse genauer zu analysieren. Vielmehr sollten Indizien für den Einfluss von reziproken Freundschaftsbeziehungen innerhalb der Klasse auf den individuellen Umgang mit Fehlern analysiert werden, um so den Forschungsstand zu den Determinanten adaptiver Reaktionen auf Fehler im schulischen Kontext zu erweitern. In einer Studie von Molloy, Gest und Rulison (2011) zeigte sich sogar, dass der Einfluss reziproker Freundschaften auf die schulische Anstrengungsbereitschaft und das Fähigkeitsselbstkonzept stärker ausfiel als der Einfluss durch die Peergruppe. Nichtsdestotrotz stellen Freundschaftsbeziehungen nur einen von mehreren sozialen Einflussfaktoren auf das individuelle Erleben und Verhalten von Schüler_innen in Lern- und Leistungskontexten dar, wie auch die Ergebnisse unserer Analysen zeigen. Im Einklang mit Forschungsbefunden zum Fehlerklima bleibt unumstritten, dass auch der gesamte Klassenverband (und die Interaktion zwischen Lehrkräften und Schüler_innen) einen Einfluss ausüben. Negative Reaktionen von Mitschüler_innen können die Motivation und damit auch adaptives Lernverhalten Einzelner unterbinden, während ein positives (Fehler‐) Klima in der Klasse einen konstruktiven individuellen Umgang mit Fehlern unterstützen kann (Steuer et al., 2013). Der Klassenverband und allen voran die Lehrkraft bestimmen dabei die Normen und Regeln für das Verhalten in und die Bewertungen von Fehlersituationen, welche von den einzelnen Schüler_innen übernommen werden (z. B. Steuer et al., 2013; Tulis, 2013). Die in vorliegender Studie gefundenen Zusammenhangsmuster fanden sich schließlich in zwei unterschiedlichen Unterrichtsfächern. Dies ist durchaus erwartungsgemäß, wenn man bedenkt, dass sich (schulische) Freundschaften nicht domänenspezifisch entwickeln, sondern über alle Unterrichtsfächer hinweg bestehen. Passend dazu fanden Grassinger et al. (2015) hinsichtlich der Entwicklung adaptiver individueller Reaktionen auf Fehler neben Unterschieden zwischen Schulklassen auch deutliche Unterschiede zwischen den Schüler_innen inner-
halb der Klassen, die nur zum Teil mit individuellen motivationalen Determinanten, wie dem Fähigkeitsselbstkonzept oder der Lernzielorientierung, erklärt werden konnten. Zudem wurden in vorliegender Studie weder unterschiedliche Fehlersituationen noch das Lernpotenzial spezifischer Fehlerarten in unterschiedlichen Unterrichtsfächern untersucht, welche je nach Domäne in der Tat andere Bedeutung bzw. Konsequenzen haben dürften. Vielmehr wurden affektiv-motivationale und handlungsbezogene Reaktionsweisen auf Fehler im Allgemeinen erfasst, welche als Voraussetzung für weitere Lernprozesse nach Fehlern verstanden werden können (vgl. Tulis et al., 2015). Dabei spielt die subjektive Wahrnehmung der Schüler_innen eine größere Rolle als eine objektive Fehlerklassifikation – so muss beispielsweise (unabhängig vom Unterrichtsfach) sowohl nach Flüchtigkeitsfehlern als auch nach wissensbasierten Fehlern die Motivation aufrechterhalten und das Lernverhalten angepasst werden, wenngleich in weiterer Folge dies bei wissensbasierten Fehlern in anderer Art und Weise geschehen sollte als bei Fehlern aufgrund mangelnder Aufmerksamkeit. Zu erwähnen sind die relativ hohen Korrelationen zwischen den beiden Konstrukten Handlungsadaptivität und affektiv-motivationale Adaptivität in beiden Unterrichtsfächern. Dabei ist jedoch zu berücksichtigen, dass es sich hierbei um latente, also messfehlerbereinigte Korrelationen handelt, und die Trennbarkeit beider Konstrukte durch den Vergleich eines Ein- versus Zwei-FaktorenModells geprüft wurde. Auch frühere Analysen (z. B. Dresel et al., 2013) belegen, dass diese beiden Aspekte eines adaptiven Umgangs mit akademischen Fehlern theoretisch als auch empirisch voneinander abgrenzbar, wenngleich nicht als unabhängig voneinander zu betrachten sind. Zuletzt sind auch einige Einschränkungen der Studie zu thematisieren. So erlaubt das querschnittliche Design der Studie keine Aussagen über die Entwicklung adaptiver Reaktionsweisen auf Fehler im schulischen Kontext. Damit bleibt ungeklärt, ob die Übereinstimmung zwischen den Schüler_innen und ihren Freund_innen im Hinblick auf adaptive Umgangsformen mit Fehlern darauf beruhen, dass die Freundschaften auf Basis dieser Ähnlichkeiten gebildet wurden (Selektion) oder Übernahmeprozesse zwischen den befreundeten Jugendlichen stattgefunden haben (Sozialisation). Gestützt durch empirische Befunde zur Übernahme anderer motivationaler Variablen (für einen Überblick siehe Rodkin & Ryan, 2012), ist davon auszugehen, dass insbesondere Sozialisationsprozesse für einen individuellen adaptiven Umgang mit Fehlern ausschlaggebend sind. So fanden beispielsweise Shin und Ryan (2014) bei klasseninternen Freundschaften deutliche Hinweise für Sozialisations-, nicht jedoch für Selektionseinflüsse für die Schulfreude, das Interesse und
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 44–58
© 2018 Hogrefe Verlag
M. Tulis et al., Freundschaften im Klassenzimmer und deren Bedeutung für einen adaptiven individuellen Umgang mit Fehlern
die Anstrengungsbereitschaft von Schüler_innen. Eine tiefergehende Analyse dieser Prozesse wäre dennoch erforderlich, um die soziale Dynamik in einer Klasse in ihrer Gesamtheit zu erfassen (Gest, Davidson, Rulison, Moody & Welsh, 2007). Mit anderen Worten: Sowohl die Schüler_innen selbst als auch deren freundschaftliche Beziehungen (in kleineren und größeren Subgruppen) unterliegen einer fortwährenden interdependenten Entwicklung bzw. Veränderungen, die wiederum in größere soziale Netzwerke eingebettet sind. Somit wäre interessant, auch größerer Gruppen Gleichaltriger und deren Wechselwirkungen zwischen reziproken Freundschaften zu analysieren. Dabei können Schüler_innen natürlich auch Freundschaften außerhalb der Klasse oder der Schule pflegen, was in vorliegender Studie nicht erfasst wurde. Hierzu ist jedoch anzumerken, dass alle befragten Jugendlichen eine_n beste_n Freund_in aus ihrer Klasse benannt haben. Zudem konnten durch den ausschließlichen Fokus auf klasseninterne Freundschaftsbeziehungen Umweltbedingungen des Klassen- und Unterrichtskontextes für die befreundeten Jugendlichen konstant gehalten und – anstelle von Fremdeinschätzungen durch die Schüler_innen – der von den Freund_innen selbstberichtete Umgang mit Fehlern erfasst werden. Als eine weitere Limitation ist anzuführen, dass ausschließlich retrospektive Selbstberichte der Jugendlichen herangezogen wurden. Affektiv-motivational adaptive und handlungsadaptive Reaktionen auf Fehler wurden demnach eher als fachspezifische Erlebens- und Verhaltenstendenzen erfasst. Diese sollten in zukünftigen Forschungsarbeiten stärker prozessorientiert in konkreten Fehlersituationen beobachtet werden, um der Vielfalt der oben angesprochenen Fehlerarten und –situationen im schulischen Kontext und den damit einhergehenden unmittelbaren Reaktionen Rechnung zu tragen. Gleichwohl ist anzumerken, dass der selbstberichtete, affektiv-motivationale und handlungsadaptive Umgang mit Fehlern im Zusammenhang mit schulischen Leistungsmaßen (Schulaufgabennoten) stand. Schließlich ist aus entwicklungspsychologischer Sicht (vgl. Tudge, 1990; Vygotski, 1978) anzunehmen, dass aus Kompetenzvorsprüngen der besten Freundin bzw. des besten Freundes positive Konsequenzen für die Entwicklung des Jugendlichen resultieren. In vorliegender Studie lagen in 90 % der reziproken, gleichgeschlechtlichen Freundschaftsdyaden Notenunterschiede zwischen den beiden Freunden vor. Davon wies bei 74 Freundschaftspaaren (61 % der Dyaden mit unterschiedlichen Noten) der_die Freund_in eine bessere Note in Mathematik auf als der Schüler_innen selbst, bei 70 Freundschaftspaaren (58 % der Dyaden mit unterschiedlichen Noten) war dies im Unterrichtsfach Englisch der Fall. Zukünftige Studien sollten (auf Basis einer entsprechend größeren Stichpro© 2018 Hogrefe Verlag
55
be) Leistungsunterschiede zwischen Freund_innen stärker in den Blick nehmen. Ebenfalls entwicklungsperspektivisch betrachtet wäre es interessant, dabei auch potenzielle Unterschiede in den unterschiedlichen Jahrgangsstufen zu untersuchen. Trotz der genannten Einschränkungen liefern die vorliegenden Befunde erste Hinweise darauf, dass klasseninterne, reziproke Freundschaften das Potenzial haben, indirekt die Leistung von Jugendlichen, vermittelt über einen lernförderlichen Umgang mit Fehlern, günstig zu beeinflussen.
Literatur Altermatt, E. R. & Broady, E. F. (2009). Coping with achievementrelated failure: An examination of conversations between friends. Merrill-Palmer Quarterly: Journal of Developmental Psychology, 55, 454 – 487. Altermatt, E. R. & Kenney-Benson, G. A. (2006). Friends’ influence on school adjustment: A review of three perspectives. In A. V. Mitel (Ed.), Trends in Educational Psychology (pp. 137 – 153). New York: Nova Science. Altermatt, E. R. & Pomerantz, E. M. (2003). The development of competence-related and motivational beliefs: An investigation of similarity and influence among friends. Journal of Educational Psychology, 95, 111 – 123. Arbuckle, J. (1996). Full information estimation in the presence of incomplete data. In G. A. Marcoulides & R. E. Schumacker (Eds.), Advanced structural equation modeling: Issues and techniques (pp. 243 – 277). Hillsdale, NJ: Erlbaum. Asparouhov, T. & Muthén, B. (2005). Multivariate Statistical Modeling with Survey Data. Proceedings of the Federal Committee on Statistical Methodology (FCSM) Research Conference. Retrieved from https://statmodel.com/download/2005FCSM.pdf Bandura, A. (1971). Social learning theory. New York: General Learning Press. Bandura, A. (2012). Social cognitive theory. In P. A. M. van Lange (Ed.), Handbook of theories of social psychology. (Vol. 1, pp. 349 – 375). Los Angeles: Sage. Baumeister, R. F. & Leary, M. R. (1995). The need to belong: Desire for interpersonal attachments as a fundamental human motivation. Psychological Bulletin, 117, 497 – 529. Baumgartner, A., Dresel, M., Dußler, J., Schumann, S. & Seifried, J. (2015). Fehlerklima und individueller Umgang mit Fehlern im Ausbildungsbetrieb. Zeitschrift für Berufs- und Wirtschaftspädagogik, 111, 379 – 397. Berndt, T .J. (1999). Friends’ influence on students’ adjustment to school. Educational Psychologist, 34, 15 – 28. Berndt, T. J. & Keefe, K. (1995). Friends’ influence on adolescents’ adjustment to school. Child Development, 66, 1312 – 1329. Berndt, T. J., Laychak, A. E. & Park, K. (1990). Friends’ influence on adolescents’ academic achievement motivation: An experimental study. Journal of Educational Psychology, 82, 664 – 670. Boekaerts, M. (1999). Self-regulated learning: Where we are today. International Journal of Educational Research, 31, 445 – 457. Bot, S. M., Engels, R. C., Knibbe, R. A. & Meeus, W. H. (2005). Friend’s drinking behavior and adolescent alcohol consumption: The moderating role of friendship characteristics. Addictive Behaviors, 30, 929 – 947.
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 44–58
56
M. Tulis et al., Freundschaften im Klassenzimmer und deren Bedeutung für einen adaptiven individuellen Umgang mit Fehlern
Brown, B. & Larson, J. (2009). Peer relationships in adolescence. In R. Lerner & L. Steinberg (Eds.), Handbook of adolescent psychology (3rd ed., Vol. 2, pp. 74 – 103). New York: Wiley. Bukowski, W. M., Brendgen, M. & Vitaro, F. (2007). Peers and socialization: Effects on externalizing and internalizing problems. In J. E. Grusec & P. D. Hastings (Eds.), Handbook of socialization: Theory and research (pp. 355 – 381). New York: Guilford Press. Corcoran, K., Crusius, J. & Mussweiler, T. (2011). Social comparison: Motives, standards, and mechanisms. In D. Chadee (Ed.), Theories in social psychology (pp. 119 – 139). Oxford, UK: WileyBlackwell. Costanza, R. S., Derlega, V. J. & Winstead, B. A. (1988). Positive and negative forms of social support: Effects of conversational topics on coping with stress among same-sex friends. Journal of Experimental Social Psychology, 23, 182 – 193. Dickhäuser, O. & Plenter, I. (2005). „Letztes Halbjahr stand ich zwei“. Zur Akkuratheit selbst berichteter Noten. Zeitschrift für Pädagogische Psychologie, 19, 219 – 224. Dresel, M., Schober, B., Ziegler, A., Grassinger, R. & Steuer, G. (2013). Affektiv-motivational adaptive und handlungsadaptive Reaktionen auf Fehler im Lernprozess. Zeitschrift für Pädagogische Psychologie, 27, 255 – 271. Epstein, J. L. (1983). Examining theories of adolescent friendship. In J. L. Epstein & N. L. Karweit (Eds.), Friends in school (pp. 39 – 61). San Diego: Academic Press. Fend, H. (2001). Entwicklungspsychologie des Jugendalters (2. Aufl.). Opladen: Leske + Budlich. Festinger, L. (1954). A Theory of Social Comparison Processes. Human Relations, 7, 117 – 140. Gasser-Steiner, P. & Freidl, W. (1995). Soziale Netzwerke und soziale Unterstützung. In O. Frischenschlager, M. Hexel & W. Kantner-Rumplmair (Hrsg.). Lehrbuch der Psychosozialen Medizin (S. 69 – 76). Wien: Springer. Gest, S. D., Davidson, A. J., Rulison, K. L., Moody, J. & Welsh, J. A. (2007). Features of groups and status hierarchies in girls’ and boys’ early adolescent peer networks. New Directions for Child and Adolescent Development, 118, 43 – 60. Graham, S. & Williams, C. (2009). An attributional approach to motivation in school. In K. R. Wentzel & A. Wigfield (Eds.), Handbook of motivation at school (pp. 11 – 33). New York, NY: Routledge. Grassinger, R., Steuer, G., Berner, V. D., Zeinz, H., Scheunpflug, A. & Dresel, M. (2015). Ausprägung und Entwicklung adaptiver Reaktionen auf Fehler in der Sekundarstufe. Zeitschrift für Pädagogische Psychologie, 29, 215 – 225. Hartup, W. W. (1989). Social relationships and their developmental significance. American Psychologist, 44 (2), 120 – 126. Hascher, T. & Hagenauer, G. (2010). Lernen aus Fehlern. In C. Spiel, R. Reimann, B. Schober & P. Wagner (Hrsg.), Bildungspsychologie (S. 377 – 381). Göttingen: Hogrefe. Hasselhorn, M. & Labuhn, A. S. (2008). Metakognition und selbstreguliertes Lernen. In W. Schneider & M. Hasselhorn (Hrsg.), Handbuch der Pädagogischen Psychologie (S. 28 – 37). Göttingen: Hogrefe. HBSC-Studienverbund Deutschland (2015). Studie Health Behaviour in School-aged Children – Faktenblatt „Schulische Belastung von Kindern und Jugendlichen“. http://www.gbe-bund.de/ pdf/Fakteubl_schulische_belastungen_2013_14.pdf Järvelä, S., Volet, S. & Järvenoja, H. (2010). Research on motivation in collaborative learning: Moving beyond the cognitive–situative divide and combining individual and social processes. Educational Psychologist, 45, 15 – 27. Kandel, D. B. (1978). Homophily, selection, and socialization in adolescent friendships. American Journal of Sociology, 84, 427 – 436.
Kanfer, R. & Ackerman, P. L. (1989). Motivation and cognitive abilities: An integrative / aptitude-treatment interaction approach to skill acquisition. Journal of Applied Psychology, 74, 657 – 690. Keith, N. & Frese, M. (2008). Effectiveness of error management training: A meta-analysis. Journal of Applied Psychology, 93, 59 – 69. Kenny, D. A., Kashy, D. A. & Cook, W. L. (2006). Dyadic data analysis. New York, NY: Guilford Press. Kessels, U. & Hannover, B. (2009). Gleichaltrige. In E. Wild & J. Möller (Hrsg.), Pädagogische Psychologie (S. 283 – 304). Heidelberg: Springer. Kindermann, T. A. & Skinner, E. A. (2009). How do naturally existing peer groups shape children’s academic development during sixth grade? European Journal of Psychological Science, 3, 31 – 43. Kreutzmann, M., Zander, L. & Hannover, B. (2014). Der Umgang mit Fehlern auf Klassen- und Individualebene. Zusammenhänge mit Selbstwirksamkeit, Anstrengungsbereitschaft und Lernfreude von Schülerinnen und Schülern. Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 46, 101 – 113. Ladd, G. W. & Emerson, E. S. (1984). Shared knowledge in children’s friendships. Developmental Psychology, 20, 932 – 940. Little, T. D., Cunningham, W. A., Shahar, G. & Widaman, K. F. (2002). To parcel or not to parcel: Exploring the question, weighing the merits. Structural Equation Modeling, 9, 151 – 173. MacKinnon, D. P. (2008). Introduction to Statistical Mediation Analysis. Mahwah, NJ: Erlbaum. MacKinnon, D. P., Krull, J. L. & Lockwood, C. M. (2000). Equivalence of the mediation, confounding and suppression effect. Prevention Science, 1, 173 – 181. Mantzicopoulos, P. (1997). Coping with school failure: Characteristics of children employing successful and unsuccessful coping strategies. Psychology in the Schools, 27, 138 – 143. Mathan, S. A. & Koedinger, K. R. (2005). Fostering the intelligent novice: Learning from errors with metacognitive tutoring. Educational Psychologist, 40, 257 – 265. McDougall, P. & Hymel, S. (2007). Same-gender versus crossgender friendship conceptions: Similar or different? MerrillPalmer Quarterly, 53, 347 – 380. Meyer, L., Seidel, T. & Prenzel, M. (2006). Wenn Lernsituationen zu Leistungssituationen werden: Untersuchung zur Fehlerkultur in einer Videostudie. Schweizerische Zeitschrift für Bildungswissenschaften, 28, 21 – 41. Molloy, L., Gest, S. & Rulison, K. L. (2011). Peer influences on academic motivation: Exploring multiple methods of assessing youth’s most “influential” peer relationships. Journal of Early Adolescence, 31, 13 – 40. Munger, G. F. & Loyd, B. H. (1988). The use of multiple matrix sampling for survey research. The Journal of Experimental Education, 56, 187 – 191. Mussweiler, T. & Rüter, K. (2003). What friends are for! The use of routine standards in social comparison. Journal of Personality and Social Psychology, 85, 467 – 481. Mussweiler, T., Rüter, K. & Epstude, K. (2004). The ups and downs of social comparison: Mechanisms of assimilation and contrast. Journal of Personality and Social Psychology, 87, 832 – 844. Muthén, L. K. & Muthén, B. O. (1998 – 2015). Mplus User’s Guide (7th Ed.). Los Angeles, CA: Muthén & Muthén. Newcomb, A. F. & Bagwell, C. (1995). Children’s friendship relations: A meta-analytic review. Psychological Bulletin, 117, 306 – 347. Olsen, J. A. & Kenny, D. A. (2006). Structural equation modeling with interchangeable dyads. Psychological Methods, 11, 127 – 141. Oser, F. & Spychiger, M. (2005). Lernen ist schmerzhaft: Zur Theorie des negativen Wissens und zur Praxis der Fehlerkultur. Weinheim: Beltz.
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 44–58
© 2018 Hogrefe Verlag
M. Tulis et al., Freundschaften im Klassenzimmer und deren Bedeutung für einen adaptiven individuellen Umgang mit Fehlern
Preacher, K. J. & Hayes, A. F. (2008). Contemporary approaches to assessing mediation in communication research. In A. F. Hayes, M. D. Slater & L. B. Snyder (Eds.), The Sage sourcebook of advanced data analysis methods for communication research (pp. 13 – 54). Thousand Oaks, CA: Sage. Preacher, K. J. & Kelley, K. (2011). Effect size measures for mediation models: Quantitative strategies for communicating indirect effects. Psychological Methods, 16, 93 – 115. Raudenbush, S. W. & Bryk, A. S. (2002). Hierarchical linear models: Applications and data analysis methods. Newbury Park, CA: Sage Publications. Reindl, M., Gniewosz, B. & Reinders, H. (2016). Socialization of emotion regulation strategies through friends. Journal of Adolescence, 49, 146 – 157. Rodkin, P. & Ryan, A. M. (2012). Child and adolescent peer relations in an educational context. In K. Harris, S. Graham, & T. Urdan (Eds.), Educational psychology handbook (Vol. 2, pp. 363 – 389), Washington, DC: American Psychological Association. Röhrle, B. (1994). Soziale Netzwerke und soziale Unterstützung. Weinheim: Beltz. Ruble, D. N., Boggiano, A. K., Feldman, N. S. & Loebl, J. H. (1980). Developmental analysis of the role of social comparison in selfevaluation. Developmental Psychology, 16, 105 – 115. Ryan, A. M. (2001). The peer group as a context for the development of young adolescent motivation and achievement. Child Development, 72, 1135 – 1150. Shin, H. & Ryan, A. M. (2014). Early adolescent friendships and academic adjustment: Examining selection and influence processes with longitudinal social network analysis. Developmental Psychology, 50, 2462 – 2472. Smits, N. & Vorst, H. C. M. (2007). Reducing the length of questionnaires through structurally incomplete designs: An illustration. Learning and Individual Differences, 17, 25 – 34. Steuer, G. & Dresel, M. (2015). A constructive error climate as an element of effective learning environments. Psychological Test and Assessment Modeling, 57, 262 – 275. Steuer, G., Rosentritt-Brunn, G. & Dresel, M. (2013). Dealing with errors in mathematics classrooms: Structure and relevance of perceived error climate. Contemporary Educational Psychology, 38, 196 – 210. Tudge, J. (1990). Vygotsky, the zone of proximal development,and peer collaboration: Implications for classroom practice. In L. C. Moll (Ed.), Vygotsky and Education: Instructional implications and applications of sociohistorical psychology (pp. 155 – 172). New York: Cambridge University Press. Tulis, M. (2013). Error management behavior in classrooms: Teachers’ responses to students’ mistakes. Teaching and Teacher Education: An International Journal of Research and Studies, 33, 56 – 68. Tulis, M. & Ainley, M. (2011). Interest, enjoyment and pride after failure experiences? Predictors of students’ state-emotions af-
© 2018 Hogrefe Verlag
57
ter success and failure during learning mathematics. Educational Psychology, 31, 779 – 807. Tulis, M., Grassinger, R. & Dresel, M. (2011). Adaptiver Umgang mit Fehlern als Aspekt der Lernmotivation und des selbstregulierten Lernens von Overachievern. In M. Dresel & L. Lämmle (Hrsg.), Motivation, Selbstregulation und Leistungsexzellenz (S. 29 – 51). Münster: LIT-Verlag. Tulis, M., Steuer, G. & Dresel, M. (2015). Learning from errors: Process and contextual conditions. Towards a model of individual processes within contexts. In M. Gartmeier, H. Gruber, T. Hascher & H. Heid (Hrsg.), Funktionen von Fehlern im Kontext individueller und gesellschaftlicher Entwicklung (S. 53 – 70). Münster: Waxmann. Van Lehn, K. (1988). Toward a theory of impasse-driven learning. In H. Mandl & A. Lesgold (Eds.), Learning issues for intelligent tutoring systems (pp. 19 – 41). New York: Springer. Vygotsky, L. S. (1978). Interaction between learning and development. In M. Gauvain & M. Cole (Eds.), Readings on the development of children (pp. 34 – 40). New York: Scientific American Boooks. Wentzel, K. R., Donlan, A. & Morrison, D. (2012). Peer relationships and social motivational processes. In A. M. Ryan & G. W. Ladd (Eds.), Adolescence and education. Peer relationships and adjustment at school (pp. 79 – 107). Charlotte: Information Age Publishing. Wild, T. C., Enzle, M. E., Nix, G. & Deci, E. L. (1997). Perceiving others as intrinsically or extrinsically motivated: Effects on expectancy formation and task engagement. Personality and Social Psychology Bulletin, 23, 837 – 848. Zander, L. (2015). Umgang mit Fehlern in schulischen Peernetzwerken. In M. Gartmeier, H. Gruber, T. Hascher & H. Heid (Hrsg.), Fehler: Ihre Funktionen im Kontext individueller und gesellschaftlicher Entwicklung (S. 163 – 176). Münster: Waxmann. Zander, L., Kreutzmann, M. & Wolter, I. (2014). Constructive handling of mistakes in the classroom: The conjoint power of collaborative networks and self-efficacy beliefs. Zeitschrift für Erziehungswissenschaften, 17, 205 – 223. Zhao, X., Lynch, J. G. & Chen, Q. (2010). Reconsidering Baron and Kenny: Myths and truths about mediation analysis. Journal of Consumer Research, 37, 197 – 206.
Dr. Maria Tulis Dr. Marion Reindl Prof. Dr. Markus Dresel Universität Augsburg Lehrstuhl für Psychologie Universitätsstraße 10 86135 Augsburg maria.tulis-oswald@sbg.ac.at
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 44–58
M. Tulis et al., Freundschaften im Klassenzimmer und deren Bedeutung für einen adaptiven individuellen Umgang mit Fehlern
Anhang Tabelle A1. Skalen zur Erfassung der affektiv-motivationaler Adaptivität (Items 2, 5, 7, 9, 11, 13) und der Handlungsadaptivität von Fehlerreaktionen (Items 1, 3, 4, 6, 8, 10, 12). Itemstamm für das Unterrichtsfach Matematik. Wenn ich in Mathe … 1
etwas nicht kann, strenge ich mich das nächste Mal umso mehr an.
2
etwas Falsches sage, vermiest mir das die ganze Mathestunde. (umgepolt)
3
etwas nicht kann, merke ich, dass ich mich besser vorbereiten muss.
4
einen Fehler mache, versuche ich gezielt, mich zu verbessern.
5
etwas Falsches sage, macht mir die Mathestunde trotzdem noch genauso viel Spaß.
6
einen Fehler mache, weiß ich, wobei ich mich das nächste Mal am meisten anstrengen muss.
7
etwas nicht kann, habe ich in Zukunft trotzdem den gleichen Spaß am Mathe-Unterricht.
8
etwas falsch mache, versuche ich, genau diese Lücke zu schließen.
9
eine Aufgabe nicht lösen kann, habe ich beim nächsten Mal weniger Lust. (umgepolt)
10
eine Aufgabe nicht lösen kann, hilft mir das zu erkennen, wobei ich mich noch verbessern kann.
11
einen Fehler mache, habe ich danach weniger Spaß am Mathe-Unterricht. (umgepolt)
12
eine Aufgabe nicht lösen kann, übe ich genau diesen Aufgabentyp.
13
etwas nicht kann, habe ich trotzdem Lust weiter zu arbeiten.
Anmerkung: Item- und Skalenanalysen werden in Dresel et al. (2013) ausführlich berichtet.
Menschen mit einer intellektuellen Beeinträchtigung erfolgreich behandeln Empfohlen von
Anton Došen Došen
d mit vielen nderen rungen bei gen bei Kindern gung.
58
Psychische Störungen und Verhaltensauffälligkeiten bei Menschen mit intellektueller Beeinträchtigung
Psychische Störungen und Verhaltensauffälligkeiten bei Menschen mit intellektueller Beeinträchtigung
funde und lung aufksichtigung gen im DSM-5 Kapitel zu
weisen und sowohl ung als auch So werden ein rte diagnostische e, Menschen und pädagogisch ganz im Sinne n mit Behin-
den weltweit sauffälligkeiten ellektueller
ISBN 978-3-8017-2828-1
Psychische Störungen und Verhaltensauffälligkeiten bei Menschen mit intellektueller Beeinträchtigung
n Ansatz, der psychiatrische, kte integriert. pt der inteng entwickelt. nd sozialen als ungerungsbilder, pulskontrolle, der wie affektive törungen, rum-Störungen,
Anton Došen
Ein integrativer Ansatz für Kinder und Erwachsenen
Ein integrativer Ansatz für Kinder und Erwachsene
2., überarbeitete Auflage 2018, XXV/515 Seiten, € 49,95 / CHF 65.00 ISBN 978-3-8017-2828-1 Auch als eBook erhältlich
Herausgeber und Bearbeiter der deutschsprachigen Ausgabe Klaus Hennicke und Michael Seidel 2., überarbeitete Auflage
9 783801 728281 2. Auflage
14.12.2017 11:33:36
Das Buch liefert einen fundierten Überblick zur Entstehung, Diagnostik und multimodalen Behandlung von psychischen Störungen und Verhaltensauffälligkeiten bei Kindern und Erwachsenen mit einer intellektuellen Beeinträchtigung. Dem diagnostischen und therapeutischen Vorgehen liegt ein Konzept der emotionalen und der Persönlichkeitsentwicklung zugrunde, welches psychologische und psychiatrische sowie heilpädagogische und biologische Erkenntnisse integriert. Die Neuauflage berücksichtigt u. a. aktuelle Befunde und Entwicklungen im Bereich der emotionalen Entwicklung sowie Veränderungen im DSM-5 und enthält neu ein Kapitel zu Störungen der Entwicklung des Selbst
www.hogrefe.com
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 44–58
© 2018 Hogrefe Verlag
Hinweise für Autorinnen und Autoren Die Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (ZEPP) veröffentlicht deutsch- und englischsprachige Originalarbeiten, Kurzartikel und kritische Übersichtsreferate aus dem gesamten Gebiet der Entwicklungspsychologie und der Pädagogischen Psychologie. Als Originalarbeiten und Kurzartikel kommen vor allem theoriegeleitete empirische Forschungsbeiträge in Frage, in besonderen Fällen aber auch Beiträge zur Methodenentwicklung und zur Theoriebildung einschließlich Computermodellierung. Unter einer besonderen Rubrik werden Testrezensionen veröffentlicht. Einsendung von Manuskripten. Alle Manuskripte sind in elektronischer Form im Editorial Manager unter http://www.editori almanager.com/zepp einzureichen. Detaillierte Hinweise für Autoren finden Sie unter http://www. hogrefe.com/j/zepp Urheber- und Nutzungsrechte. Der Autor bestätigt und garantiert, dass er uneingeschränkt über sämtliche Urheberrechte an seinem Beitrag einschließlich eventueller Bildvorlagen, Zeichnungen, Pläne, Karten, Skizzen und Tabellen verfügt, und dass der Beitrag keine Rechte Dritter verletzt. Der Autor räumt – und zwar auch zur Verwertung seines Beitrages außerhalb der ihn enthaltenen Zeitschrift und unabhängig von deren Veröffentlichung – dem Verlag räumlich und mengenmäßig unbeschränkt für die Dauer des gesetzlichen Urheberrechts das ausschließliche Recht der Vervielfältigung und Verbreitung bzw. der unkörperlichen Wiedergabe des Beitrags ein. Der Autor räumt dem Verlag ferner die folgenden ausschließlichen Nutzungsrechte am Beitrag ein: a) Das Recht zum ganzen oder teilweisen Vorabdruck oder Nachdruck – auch in Form eines Sonderdrucks, zur Übersetzung in
Jahrgang 49 / Heft 1 / 2017
Zeitschrift für
Herausgeber Martin Pinquart Ursula Kessels Horst Krist Mareike Kunter Matthias Nücklesl
g p y
g
g g
y
g
Entwicklungspsychologie und Pädagogische Psychologie
andere Sprachen, zu sonstiger Bearbeitung und zur Erstellung von Zusammenfassungen (Abstracts); b) das Recht zur Veröffentlichung einer Mikrokopie-, Mikroficheund Mikroformausgabe, zur Nutzung im Weg von Bildschirmtext, Videotext und ähnlichen Verfahren, zur Aufzeichnung auf Bildund/oder Tonträger und zu deren öffentlicher Wiedergabe – auch multimedial – sowie zur öffentlichen Wiedergabe durch Radiound Fernsehsendungen; c) das Recht zur maschinenlesbaren Erfassung und elektronischen Speicherung auf einem Datenträger (z. B. Diskette, CDRom, Magnetband) und in einer eigenen oder fremden OnlineDatenbank, zum Download in einem eigenen oder fremden Rechner, zur Wiedergabe am Bildschirm – sei es unmittelbar oder im Wege der Datenfernübertragung – sowie zur Bereithaltung in einer eigenen oder fremden Online-Datenbank zur Nutzung durch Dritte; d) das Recht zu sonstiger Vervielfältigung, insbesondere durch fotomechanische und ähnliche Verfahren (z. B. Fotokopie, Fernkopie) und zur Nutzung im Rahmen eines sogenannten Kopienversands auf Bestellung; e) das Recht zur Vergabe der vorgenannten Nutzungsrechte an Dritte in In- und Ausland sowie die von der Verwertungsgesellschaft WORT wahrgenommenen Rechte einschließlich der entsprechenden Vergütungsansprüche. Nutzungsrichtlinien für Hogrefe Zeitschriftenartikel. Hinweise für Autoren zur Online-Archivierung einer elektronischen Version Ihres Manuskriptes finden Sie auf unserer Homepage unter http://hgf.io/nutzungsrichtlinien. September 2016
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie Wir freuen uns über die Einreichung von Beiträgen für unsere Zeitschrift. Weitere Informationen zur Zeitschrift sowie alle notwendigen Hinweise für die Einreichung von Manuskripten (Autorenhinweise) finden Sie auf unserer Homepage.
www.hogrefe.com/produkte/zeitschriften
© 2018 Hogrefe Verlag
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie (2018), 50 (1), 59
Unsere Buchtipps
Umgang mit sexueller Gewalt in Einrichtungen für Kinder und Jugendliche
Allroggen / Gerke / Rau / Fegert
Marc Allroggen / Jelena Gerke / Thea Rau / Jörg M. Fegert
Marc Allroggen Jelena Gerke Thea Rau Jörg M. Fegert
Umgang mit sexueller Gewalt in Einrichtungen für Kinder und Jugendliche Eine praktische Orientierungshilfe für pädagogische Fachkräfte
Umgang mit sexueller Gewalt in Einrichtungen für Kinder und Jugendliche
Eine praktische Orientierungshilfe für pädagogische Fachkräfte
2018, 110 Seiten, € 19,95 / CHF 26.90 ISBN 978-3-8017-2839-7 Auch als eBook erhältlich
Sexueller Missbrauch
Goldbeck / Allroggen / Münzer / Rassenhofer / Fegert
Der Band informiert Fachkräfte in pädagogischen Einrichtungen über Formen und Folgen sexualisierter Gewalt. Der Schwerpunkt liegt auf konkreten Handlungsempfehlungen zur Prävention von und zum Umgang mit sexueller Gewalt.
Sexueller Missbrauch
Lutz Goldbeck Marc Allroggen Annika Münzer Miriam Rassenhofer
Lutz Goldbeck / Marc Allroggen / Annika Münzer / Miriam Rassenhofer / Jörg M. Fegert
Sexueller Missbrauch
Jörg M. Fegert
Leitfaden Kinder- und Jugendpsychotherapie
(Reihe: „Leitfaden Kinder- und Jugendpsychotherapie“, Band 21). 2017, XVI/138 Seiten, € 24,95 / CHF 32.50 (Im Reihenabonnement € 17,95 / CHF 24.50) ISBN 978-3-8017-1680-6 Auch als eBook erhältlich Der Leitfaden will Sicherheit im Umgang mit Missbrauchsfällen bzw. Verdachtsfällen vermitteln. Dazu werden u. a. Leitlinien für das Erkennen sexuellen Missbrauchs, für den Umgang mit Verdachtsfällen sowie für die Diagnostik und Therapie beschrieben.
www.hogrefe.com
ESV 3-6 Emotionale und soziale Verhaltensweisen 3- bis 6-Jähriger Ratingskala für pädagogische Fachkräfte C. Kiese-Himmel Einsatzbereich: Für pädagogische Fachkräfte in Kitas, um erste Anhaltspunkte für mögliche emotionale und soziale Auffälligkeiten zu gewinnen. Das Rating ist keine spezifische Entwicklungsstandbestimmung. Das Verfahren: Störungen des emotionalen und sozialen Verhaltens zeichnen sich bereits im Kindergartenalltag ab und können die Ursache für spätere Lernstörungen, kognitive Störungen und Schulleistungsprobleme sein. Eine frühe Entdeckung ist daher unerlässlich. Die Ratingskala ESV 3-6 listet verschiedenste Verhaltensweisen eines Kindes in einer Kita auf. Aufgabe der pädagogischen Fachkraft ist es, deren Auftretenshäufigkeit in den letzten vier Wochen einzuschätzen. Empirisch wurde gezeigt, dass die Verhaltensliste inhaltlich ausdifferenziert ist und mit zwei Skalen die Konstrukte „internalisierende Verhaltensweisen“ (Skala 1) sowie „externalisierende Verhaltensweisen“ (Skala 2) erfasst. Aus der Addition der beiden Skalensummenwerte resultiert der Gesamtskalenwert. Für alle Skalenwerte kann bestimmt werden, ob die Häufigkeiten, in der ein Kind die beschriebenen Verhaltensweisen gezeigt hat, im Vergleich mit Jungen und Mädchen derselben Altersstufe auffällig oder unauffällig erscheinen. Bearbeitungsdauer: Durchführung: ca. 10 Minuten; Auswertung: ca. 5 Minuten.
01 545 01 Test komplett
www.hogrefe.com
78,00 €
Ressourcenaktivierung mit jungen Menschen
Astrid Riedener Nussbaum / Maja Storch
Ich packs! Selbstmanagement für Jugendliche Ein Trainingsmanual für die Arbeit mit dem Zürcher Ressourcen Modell 4., unveränd. Aufl. 2018. 496 S., 44 Abb., 6 Tab., Gb € 34,95 / CHF 45.50 ISBN 978-3-456-85872-2 Auch als eBook erhältlich Wie können verdeckte Handlungspotenziale von Jugendlichen erkannt und trainiert werden? Wie lernen junge Menschen vorhandene Stärken – Ressourcen – freizulegen, wertzuschätzen und gezielt zu nutzen? Mit dem Zürcher Ressourcen Modell (ZRM®) erkennen Jugendliche, in welcher Lebenslage sie gerade stehen und was ihnen besonders wichtig ist. Sie durchschauen, wohin sie am sinnvollsten ihre Aufmerksamkeit und Energien lenken sollten. Sie entwickeln mit somatischen Markern, das sind individuelle Körpersignale,
www.hogrefe.com
stark motivierende Motto-Ziele. Da diese Ziele von ihrer Gesamtpersönlichkeit getragen sind, werden sie überdurchschnittlich oft erreicht. Die Jugendlichen erlangen so Identitätskompetenz, die ihnen eine zukunftsgerichtete Lebensplanung und Lebensgestaltung ermöglicht. Das vorliegende Manual ist ein komplettes Training mit ausführlicher theoretischer Hintergrundinformation. Es enthält Impulsreferate, Vorschläge für Flipcharts und Arbeitsblätter.
MBK 0
Manual
K. Krajewski
Test mathematischer Basiskompetenzen im Kindergartenalter
Ein Leseverständnistest für Erst- bis Siebtklässler – Version II
Test mathematischer Basiskompetenzen im Kindergartenalter
Hogrefe Vorschultests
Dem MBK 0 liegt das entwicklungspsychologische Modell des Erwerbs der Zahl-Größen-Verknüpfung zugrunde. Das Verfahren eignet sich zur kurz- und langfristigen Überprüfung des Entwicklungsstandes numerischer Kompetenzen von Kindergartenkindern. Es ermöglicht, zu einem frühen Zeitpunkt Kinder mit Defiziten in ihrer numerischen Entwicklung zu identifizieren und gegebenenfalls daran anschließende Präventions- und Fördermaßnahmen im Elementarbereich zu evaluieren. Die numerischen Kompetenzen der Kinder werden auf drei verschiedenen Entwicklungsebenen erfasst (1. Zahlwörter und Ziffern ohne Größenbezug, 2. Zahl-Größen-Verknüpfung, 3. Zahlrelationen). Mithilfe des Normwerteprogramms können die Normwerte zeitsparend und taggenau ermittelt werden.
Manual
Test mathematischer Basiskompetenzen ab Schuleintritt
Hogrefe Schultests
Hogrefe Schultests
ELFE II erfasst die Leseverständnisleistung, die Leseflüssigkeit und die Lesegenauigkeit auf der Wort-, Satz- und Textebene. ELFE II ist als Computer- oder Papierform anwendbar. ELFE II stellt die Weiterentwicklung und umfassende Neunormierung des etablierten Verfahrens ELFE 1-6 dar. Neu sind u. a. zwei Kurzversionen für die Klassen 1–3 bzw. 4–7. Die Erhöhung der Anzahl der Items erlaubt eine bessere Differenzierung über das gesamte Leistungsspektrum. Eine neuartige Normierungsmethode ermöglicht die verlässliche Zuordnung von Normwerten zur erfassten Testleistung zu jedem beliebigen Zeitpunkt des Schuljahres. Auch die Computerform wurde komplett neu entwickelt und auf den neuesten technischen Stand gebracht.
M. Ennemoser / K. Krajewski / D. Sinner
DRT 4
Diagnostischer Rechtschreibtest für 4. Klassen
MBK 1+
Martin Grund Rainer Leonhart Carl Ludwig Naumann
Hogrefe Schultests
M. Grund / R. Leonhart / C. L. Naumann
DRT 4 *
3., aktualisierte und neu normierte Auflage
3., aktualisierte und neu normierte Auflage Reihe: Hogrefe Schultests Hrsg. von M. Hasselhorn / W. Schneider / U. Trautwein Best.-Nr.04 156 01 Test komplett: € 88,00
Der DRT 4 kann als Gruppen- und als Einzeltest eingesetzt werden. Er liegt in zwei Parallelformen mit je 42 Wörtern vor, die nach Diktat in Lückensätze eingetragen werden. Für die 3., aktualisierte und neu normierte Auflage wurde das Verfahren an einer Stichprobe von 2.055 Schülern aus 12 Bundesländern neu normiert. Im Zuge der Neunormierung des DRT 4 wurden die Diktattexte leicht angepasst und die Fehleranalyse überarbeitet. Das Manual wurde aktualisiert und um ein Kapitel zu Modellen des Rechtschreiberwerbs erweitert. *
www.hogrefe.com
Manual
Diagnostischer Rechtschreibtest für 4. Klassen
Reihe: Hogrefe Schultests Hrsg. von M. Hasselhorn / W. Schneider / U. Trautwein Best.-Nr. 01 355 01 Test komplett: € 168,00
Der MBK 1+ ist ein Gruppentest zur Erfassung mathematischer Basiskompetenzen, die als wichtige Voraussetzung für den späteren Schulerfolg in Mathematik gelten. Dem Verfahren liegt das entwicklungspsychologische Modell des Erwerbs der Zahl-Größen-Verknüpfung zugrunde. Der Test dient der ökonomischen Früherkennung von Entwicklungsrisiken über den gesamten Verlauf der ersten Klassenstufe hinweg. In sonderpädagogischen und lerntherapeutischen Arbeitsfeldern ist er auch bei älteren Kindern einsetzbar. Es steht eine Lang- und eine Kurzversion zur Verfügung.
ELFE II
Reihe: Hogrefe Schultests Hrsg. von M. Hasselhorn / W. Schneider / U. Trautwein Best.-Nr. 04 210 02 Test komplett: € 148,00
Wolfgang Lenhard Alexandra Lenhard Wolfgang Schneider
Test mathematischer Basiskompetenzen ab Schuleintritt
Marco Ennemoser Kristin Krajewski Daniel Sinner
W. Lenhard / A. Lenhard / W. Schneider Ein Leseverständnistest für Erst- bis Siebtklässler – Version II
Reihe: Hogrefe Vorschultests Hrsg. von G. Esser / M. Hasselhorn / W. Schneider Best.-Nr. 01 354 01 Test komplett: € 388,00
Kristin Krajewski
MBK 1+
ELFE II
MBK 0
Manual
außerdem lieferbar: DRT 1, DRT 2, DRT 3 und DRT 5
Unsere Buchtipps Uta Klusmann / Natalie Waschke
Gesundheit und Wohlbefinden im Lehrerberuf
Uta Klusmann Natalie Waschke
Gesundheit und Wohlbefinden im Lehrerberuf
Psychologie im Schulalltag
(Reihe: „Psychologie im Schulalltag“, Band 1) 2017, 132 Seiten, € 22,95 / CHF 29.90 ISBN 978-3-8017-2863-2 Auch als eBook erhältlich
Dieses Buch bietet einen umfassenden Überblick über aktuelle theoretische Ansätze und empirische Befunde zur Gesundheit und zum Wohlbefinden im Lehrerberuf. Zudem zeigt es ganz konkrete Handlungsmöglichkeiten für die Schulpraxis auf. Themen sind z.B. die Reflexion der beruflichen Rolle, die Erhöhung der Achtsamkeit und Selbstfürsorge im Schulalltag, mehr Professionalität in schwierigen Arbeitssituationen, die Ausgewogenheit der Work-Life-Balance sowie Anregungen für eine gesunde Schule.
Wolfgang Schneider / Marcus Hasselhorn (Hrsg.)
Schuleingangs diagnostik
Wolfgang Schneider Marcus Hasselhorn (Hrsg.)
Tests und Trends – Jahrbuch der pädagogischpsychologischen Diagnostik
Franz Petermann / Heike Natzke / Nicole Gerken / Hans-Jörg Walter
Auf Schatzsuche
Franz Petermann Heike Natzke Nicole Gerken Hans-Jörg Walter Illustrationen von Iris Walter
Auf Schatzsuche Ein Abenteuer mit Ferdi und seinen Freunden Das Arbeitsheft für Kinder zum „Verhaltenstraining für Schulanfänger“ 3., unveränderte Auflage
Das „Verhaltenstraining für Schulanfänger“ ist ein Gruppenprogramm zur gezielten Förderung sozialer und emotionaler Kompetenzen. Es wurde speziell für Kinder in der Schuleingangsphase entwickelt, die noch nicht lesen und schreiben können. Das vorliegende Arbeitsheft dient der Unterstützung des Trainings. Es enthält alle notwendigen Arbeitsmaterialien für Kinder. Das Training kann in der Schule und in anderen pädagogischen Einrichtungen durchgeführt werden.
www.hogrefe.com
(Reihe: „Jahrbuch der pädagogisch-psychologischen Diagnostik. Tests und Trends“, Band 16) 2018, X/224 Seiten, € 34,95 / CHF 45.50 ISBN 978-3-8017-2926-4 Auch als eBook erhältlich
Der Band thematisiert die Probleme und Möglichkeiten der Einschulungsdiagnostik, die im deutschen Sprachraum eine lange Tradition hat. Die Beiträge beschäftigen sich mit der theoretischen Fundierung des Konzepts der Schulbereitschaft, skizzieren historische Trends in der Entwicklung von diagnostischen Verfahren und stellen neuere Verfahren zur Schuleingangsdiagnostik vor, die etwa die sprachliche und motorische Entwicklung, phonologische Kompetenzen und frühe mathematische Fertigkeiten beinhalten.
Franz Petermann / Heike Natzke / Nicole Gerken / Hans-Jörg Walter 3., unveränderte Auflage 2018, 48 Seiten, Großformat, € 7,95 / CHF 10.90 ISBN 978-3-8017-2869-4 Auch als eBook erhältlich
Schuleingangsdiagnostik
Verhaltenstraining für Schulanfänger Franz Petermann Heike Natzke Nicole Gerken Hans-Jörg Walter
Verhaltenstraining für Schulanfänger Ein Programm zur Förderung emotionaler und sozialer Kompetenzen
Ein Programm zur Förderung emotionaler und sozialer Kompetenzen
4., aktualisierte Auflage
4., aktualisierte Auflage 2016, 316 Seiten, € 34,95 / CHF 45.50 ISBN 978-3-8017-2709-3 Auch als eBook erhältlich Das Training dient der gezielten Förderung sozialer und emotionaler Kompetenzen von Schülern und wurde speziell für Kinder in der Schuleingangsphase entwickelt. Das Trainerhandbuch gibt eine Einführung in den theoretischen Hintergrund des Trainings, behandelt Themen wie Klassenführung und Krisenintervention und enthält detaillierte Beschreibungen der Trainingssitzungen, einschließlich aller Trainingsmaterialien.
IDS-2
für Jetzt 02 5- bis ge Jähri
Intelligence and Development Scales – 2
Vollständige Überarbeitung und konzeptuelle Erweiterung der erfolgreichen Intelligenz- und Entwicklungsskalen von Alexander Grob und Priska Hagmann-von Arx. Die IDS-2 ermöglichen in einzigartiger Weise, ein Kind bzw. einen Jugendlichen bezüglich Intelligenz und Entwicklung in seiner Gesamtheit zu erfassen und zu verstehen. Der modulare Aufbau des attraktiven Testmaterials erlaubt die effiziente Anpassung der Testdurchführung an die jeweils individuelle Fragestellung. • Modular einsetzbar • IQ-Screening (in 10 Min.) • Differenzierter IQ-Test und umfassendes IQ-Profil • Erfassung exekutiver Funktionen • Altersgerechte Erfassung der allgemeinen Entwicklungsfunktionen • Zeitsparende und anwenderfreundliche elektronische Auswertung • Intelligenzerfassung nach dem Cattell-Horn-Carroll-Modell (CHC-Theorie) • Aktuelle Normierung mit Continuous Norming
www.hogrefe.com
Best.-Nr. 03 175 01, € 1.450,00 / CHF 1790.00