62. Jahrgang / Heft 1 / 2016
Diagnostica
Herausgeber Olaf Köller Sven Barnow Judith Glück Oliver Lüdtke Franz J. Neyer Franz Petermann Florian Schmiedek Oliver Wilhelm
Zeitschrift für Psychologische Diagnostik und Differentielle Psychologie
Katrin Reuter / David Spiegel
Rainer Sachse
Klärungsprozesse in der Klärungsorientierten Psychotherapie Rainer Sachse
Klärungsprozesse in der Klärungsorientierten Psychotherapie
Psychische Belastungen bei Krebserkrankungen Katrin Reuter David Spiegel
Gruppentherapie nach dem supportiv-expressiven Ansatz
Psychische Belastungen bei Krebserkrankungen Gruppentherapie nach dem supportiv-expressiven Ansatz
Praxis der psychodynamischen Psychotherapie – analytische und tiefenpsychologisch fundierte Psychotherapie
2015, 125 Seiten, € 24,95 / CHF 32,50 ISBN 978-3-8017-2726-0 Auch als E-Book erhältlich
(Reihe: „Praxis der psychodynamischen Psychotherapie – analytische und tiefenpsychologisch fundierte Psychotherapie“, Band 9). 2016, VI/132 Seiten, € 24,95 / CHF 32,50 ISBN 978-3-8017-2503-7 / Auch als E-Book erhältlich
Dieses Buch vermittelt Therapeuten, worauf sie bei der Klärung von Schemata achten sollten und unter welchen Bedingungen sie die KlientenProzesse durch welche Strategien konstruktiv steuern können.
Der Band beschreibt ein psychotherapeutisches Vorgehen für die Gruppentherapie zur Behandlung von psychischen Belastungen bei Patienten mit einer Krebserkrankung.
Stefan Koch / Dirk Lehr Andreas Hillert
Hansjörg Znoj
Komplizierte Trauer
Hansjörg Znoj
Komplizierte Trauer
2., überarbeitete Auflage
Fortschritte der Psychotherapie
Burnout und chronischer beruflicher Stress
Burnout und chronischer beruflicher Stress
Stefan Koch Dirk Lehr Andreas Hillert
Fortschritte der Psychotherapie
(Reihe: „Fortschritte der Psychotherapie“, Band 23) 2., überarb. Auflage 2016, VI/97 Seiten, € 19,95 / CHF 23,90 (Im Reihenabonnement €15,95 / CHF 21,50) ISBN 978-3-8017-2720-8 / Auch als E-Book erhältlich
(Reihe: „Fortschritte der Psychotherapie“, Band 60) 2015, VI/108 Seiten, € 19,95 / CHF 23,90 (Im Reihenabonnement € 15,95 / CHF 21,50) ISBN 978-3-8017-2650-8 / Auch als E-Book erhältlich
Die Neuauflage des Bandes informiert über die Behandlung von Patienten, die unter einer komplizierten Trauerreaktion leiden.
Dieser Band zeigt Strategien auf, wie chronischer beruflicher Stress in der Therapie gezielt aufgegriffen und bearbeitet werden kann.
www.hogrefe.de
Diagnostica Zeitschrift für Psychologische Diagnostik und Differentielle Psychologie
62. Jahrgang / Heft 1 / 2016 Informationsorgan über psychologische Tests und Untersuchungsmethoden
Herausgeber
Prof. Dr. Olaf Köller, Leibniz-Institut für die Pädagogik der Naturwissenschaften und Mathematik (IPN), Olshausenstraße 62, 24098 Kiel Prof. Dr. Sven Barnow, Universität Heidelberg, Psychologisches Institut, AE Klinische Psychologie, Hauptstraße 47-51, 69117 Heidelberg Prof. Dr. Judith Glück, Institut für Psychologie der Universität Klagenfurt, Abteilung für Entwicklungs- und Pädagogische Psychologie, Universitätsstraße 65-67, A-9020 Klagenfurt Prof. Dr. Oliver Lüdtke, Leibniz-Institut für die Pädagogik der Naturwissenschaften und Mathematik (IPN), Olshausenstraße 62, 24098 Kiel Prof. Dr. Franz J. Neyer, Universität Jena, Fakultät für Sozial- und Verhaltenswissenschaften, Humboldtstraße 11, 07743 Jena Prof. Dr. Franz Petermann, Universität Bremen, Klinische Psychologie, Grazer Straße 2, 28359 Bremen Prof. Dr. Florian Schmiedek, Deutsches Institut für Internationale Pädagogische Forschung, Schloßstraße 29, 60486 Frankfurt am Main Prof. Dr. Oliver Wilhelm, Institut für Psychologie und Pädagogik, Universität Ulm, 89069 Ulm
Geschäftsführung
Prof. Dr. Olaf Köller, Kiel (Redaktionsassistenz: Dipl.-Psych. Kristine List, Dr. Steffani Saß und Dipl.-Psych. Benjamin Strobel) E-Mail: diagnostica@ipn.uni-kiel.de
Beirat
Prof. Dr. Manfred Amelang, Heidelberg Prof. Dr. André Beauducel, Hamburg Prof. Dr. Hans-Werner Bierhoff, Bochum Prof. Dr. Peter Borkenau, Halle-Wittenberg Prof. Dr. Elmar Brähler, Leipzig Prof. Dr. Boris Egloff, Mainz Prof. Dr. Michael Eid, Berlin Prof. Dr. Gabriele Helga Franke, Magdeburg-Stendal Prof. Dr. Kurt Hahlweg, Braunschweig Prof. Dr. Bettina Hannover, Berlin Prof. Dr. Martin Hautzinger, Tübingen Prof. Dr. Guido Hertel, Münster Prof. Dr. Lutz F. Hornke, Aachen Prof. Dr. Jürgen Hoyer, Dresden Prof. Dr. Karl Christoph Klauer, Freiburg Prof. Dr. Carl-Walter Kohlmann, Schwäbisch Gmünd Prof. Dr. Heinz Walter Krohne, Mainz Prof. Dr. Roselind Lieb, Basel Prof. Dr. Jürgen Margraf, Bochum Prof. Dr. Thorsten Meiser, Mannheim
Hinweise für Autoren
Die Richtlinien zur Manuskriptgestaltung und Hinweise für Autoren können unter www.hogrefe.de/ zeitschriften/dia mit dem Acrobat Reader heruntergeladen werden.
Verlag
Hogrefe Verlag GmbH & Co. KG, Merkelstraße 3, 37085 Göttingen, Postfach 3751, 37027 Göttingen, Tel. 0551 99950-0, Fax 0551 99950-111, E-Mail Verlag: verlag@hogrefe.de, Redaktion: journals@hogrefe.de, Internet: http://www.hogrefe.de Verleger: Dr. G.-Jürgen Hogrefe, Wissenschaftlicher Verlagsleiter: Dr. Michael Vogtmeier
Herstellung
Silke Ludewig, Hogrefe Verlag GmbH & Co. KG, Merkelstraße 3, 37085 Göttingen, Tel. 0551 99950-441, Fax 0551 99950-445
Gesamtherstellung
Konrad Triltsch, Print und digitale Medien GmbH, Johannes-Gutenberg-Straße 1 – 3, 97199 Ochsenfurt-Hohestadt
ISSN
ISSN-L 0012-1924, ISSN-Print 0012-1924, ISSN-Online 2190-622X
Prof. Dr. Aljoscha Neubauer, Graz Prof. Dr. Christoph Perleth, Rostock Prof. Dr. Franzis Preckel, Trier Prof. Dr. Thomas Rammsayer, Göttingen Prof. Dr. Eibe-Rudolf Rey, Mannheim Prof. Dr. Rainer Riemann, Jena Prof. Dr. Detlef Rost, Marburg Prof. Dr. Lothar Schmidt-Atzert, Marburg Prof. Dr. Manfred Schmitt, Landau Prof. Dr. Heinz Schuler, Hohenheim Prof. Dr. Christiane Spiel, Wien Prof. Dr. Thomas Staufenbiel, Osnabrück Prof. Dr. Elsbeth Stern, Zürich Prof. Dr. Rolf Steyer, Jena Prof. Dr. Heinz-Martin Süß, Magdeburg Prof. Dr. Hans Westmeyer, Greifswald Prof. Dr. Oliver Wilhelm, Berlin Prof. Dr. K. Wilmes-von Hinckeldey, Aachen Prof. Dr. Hans-Ulrich Wittchen, Dresden
Die Zeitschrift und alle in ihr enthaltenen einzelnen Beiträge und Abbildungen sind urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Alle Rechte, auch das der Übersetzung, vorbehalten. Erscheinungsweise
vierteljährlich
Bezugsbedingungen
Jahresabonnement Institute € 201,– / SFr 258,–; Jahresabonnement Privat € 91,– / SFr 121,–; Einzelheft € 51,– / SFr 65,– zzgl. Porto- und Versandgebühren (unverbindliche Preisempfehlung). Die Preise verstehen sich in Deutschland inkl. MwSt. und für Lieferungen von Deutschland ins Ausland exkl. MwSt. Das Abonnement verpflichtet zum Bezug eines ganzen Jahrgangs. Das Abonnement verlängert sich, wenn nicht bis 8 Wochen vor Jahresende abbestellt wird. Bei Ausfall der Lieferung durch höhere Gewalt, Streik oder dergleichen ergeben sich hieraus keine Ansprüche auf Lieferung oder Rückzahlung des Bezugsgeldes durch den Verlag. Lieferung erfolgt auf Gefahr des Empfängers. Der Abonnent ist damit einverstanden, dass der Transportdienstleister ggf. den Verlag während der Laufzeit des Abonnements über eine Anschriftenänderung informiert. Ist er nicht damit einverstanden, hat er dies spätestens zwei Wochen nach Erhalt des ersten Heftes schriftlich dem Verlag mitzuteilen.
Zahlungen
an Hogrefe Verlag GmbH & Co. KG, Merkelstraße 3, 37085 Göttingen Bankverbindung: Deutsche Bank AG, Kto. 41 111 600, BLZ 260 700 72 IBAN DE32 2607 0072 0041 1116 00, BIC DEUTDE2H260
Gelistet in
Social Science Citation Index (SSCI), Research Alert, Current Contents/Social & Behavioral Sciences, Social Sci Search, PsycINFO, PsycLit, PsyJOURNALS, PSYNDEX, Scopus, IBZ, IBR und Europ. Reference List for the Humanities (ERIH), Impact Faktor (2014): 1.057
Elektronische Volltexte
http://econtent.hogrefe.com/
Diagnostica (2016), 62(1)
© 2016 Hogrefe Verlag
Inhalt Editorial
Hat sich die Prophezeiung erfüllt? Computerbasierte Testung in PISA 2015
1
Olaf Köller Originalia
Fragebogen zur Erfassung des Humors von Lehrkräften aus Schülersicht (HUMLAS): Konstruktion und Validierung
3
Construction and Validation of the German Questionnaire to Assess Students´ Perceptions of Teacher Humor Sonja Bieg und Markus Dresel Der Kinder-Titelrekognitionstest (K-TRT): Ein Instrument zur Erfassung des Lesevolumens von Kindern im Deutschen
16
The Children Title Recognition Test (K-TRT): A Test to Assess Children´s Print Exposure in German Sascha Schroeder, Jutta Segbers und Pauline Schröter Die Spontaneous Use of Imagery Scale (SUIS) – Entwicklung und teststatistische Prüfung einer deutschen Adaption
31
The Spontaneous Use of Imagery Scale (SUIS) – Development and Psychometric Evaluation of a German Adaptation Stefanie Maria Görgen, Wolfgang Hiller und Michael Witthöft Prädiktoren studentischer Lehrveranstaltungsevaluationen: Eine Mehrebenenanalyse
44
Predictors of Students´ Evaluations of Teaching: A Multilevel Analysis Thomas Staufenbiel, Thomas Seppelfricke und Judith Rickers Danksagung
© 2016 Hogrefe Verlag
60
Diagnostica (2016), 62(1)
LSA
MOT 4-6
Leadership Style Assessment
Motoriktest für vier- bis sechsjährige Kinder
Ein Situational Judgment Test zur Erfassung von Führungsstilen
3., überarbeitete und neu normierte Auflage
C. Peus / S. Braun / D. Frey
R. Zimmer
Einsatzbereich: Erwachsene. Einsatz in der Führungskräftebeurteilung, Führungskräfteentwicklung, Führungskräfteauswahl und -beförderung sowie in der Führungsforschung. Durchführung einzeln oder in Gruppen.
Einsatzbereich: Der MOT 4-6 erfasst den motorischen Entwicklungsstand von Kindern im Vorschulalter (4 bis 6 Jahre). Für Kinder mit Behinderungen oder Entwicklungsverzögerungen kann über diesen Altersbereich hinaus das motorische Entwicklungsalter ermittelt werden. Der Test ermöglicht eine quantitative Auswertung der Ergebnisse, er kann darüber hinaus aber auch als prozessbegleitendes Beobachtungsverfahren verwendet werden.
Das Verfahren: Das Leadership Style Assessment (LSA) ist ein Fragebogenverfahren zur Erfassung verschiedener Führungsstile bei Personen mit Führungsverantwortung oder mit Erfahrungen in der Führung von Mitarbeitenden. Die theoretische Grundlage des LSA bildet das Full Range of Leadership Model nach Bernard Bass und Bruce Avolio, in welchem acht verschiedene Führungsstile unterschieden werden, die von passiven, ineffektiven Verhaltensweisen bis hin zu aktiven und als besonders effektiv erwiesenen Verhaltensweisen reichen. Die Besonderheit des LSA ist die situationsabhängige Erfassung des Führungsverhaltens: Jeder Fragebogen beinhaltet acht Situationsbeschreibungen, wobei zu jeder Situation acht mögliche Reaktionen präsentiert werden, welche den Dimensionen des Full Range of Leadership Models entsprechen. Die befragte Person (entweder die Führungskraft selbst oder ein Mitarbeiter/eine Mitarbeiterin) soll für jede Reaktion angeben, wie wahrscheinlich sich die Führungskraft auf diese Weise verhalten würde. Aufgrund dieses situationalen Bezugs liefert das LSA präzisere Einschätzungen als herkömmliche Instrumente, die nach mittleren Verhaltenstendenzen bzw. globalen Einstellungen fragen. Bearbeitungsdauer: Die Bearbeitungsdauer beträgt für einen Fragebogen durchschnittlich 20 bis 30 Minuten. Für die Auswertung eines LSA-F-Fragebogens benötigen geübte Auswerter ca. 10 Minuten. Artikel-Nr. 01 451 01
€ Test komplett
www.testzentrale.de
Das Verfahren: Der MOT 4-6 besteht aus 17 Testaufgaben (und einer Aufwärmaufgabe), die in spielerischer, kindgerechter Weise den motorischen Entwicklungsstand des Kindes erfassen und sich sieben motorischen Bereichen zuordnen lassen (z.B. gesamtkörperliche Gewandtheit und Koordinationsfähigkeit, feinmotorische Geschicklichkeit, Gleichgewichtsvermögen). Neben der Ermittlung eines Normwertes (Gesamttestwert), der die Einordnung des Testergebnisses im Vergleich zur durchschnittlichen Leistung in der betreffenden Altersgruppe ermöglicht, gibt der Test dem Praktiker zusätzlich nützliche Hilfen zur qualitativen Beobachtung und Beurteilung der motorischen Performanz des Kindes an die Hand. Bearbeitungsdauer: Für die Durchführung des Tests müssen 20 bis 30 Minuten veranschlagt werden.
Artikel-Nr.
Beschreibung
04 082 01
Test komplett bestehend aus: Manual, 2 Instruktionshefte, 40 Protokollbogen und Testmaterial im Koffer
278,00
www.testzentrale.de
€ 628,00
Diagnostica, 62 (1), 1 – 2 ' Hogrefe Verlag, Go¨ttingen 2016
Editorial Hat sich die Prophezeiung erfüllt? Computerbasierte Testung in PISA 2015 In Zeiten von Web 2.0 und einer zunehmend digitalisierten Welt mutete es fast anachronistisch an, dass bis zum Jahr 2012 die großen internationalen Schulleistungsstudien auf Papier-und-Bleistift-Tests zur Erfassung schulischer Kompetenzen bauten. In einer Gesellschaft, in der der Computer zunehmend alle Lebensbereiche dominiert, bestand großer Druck, das Testmedium in Studien wie PISA zu wechseln. Bei der PISA-2015-Testung hat die OECD jetzt Ernst gemacht und die schulischen Kompetenzen im Lesen, in Mathematik und in den Naturwissenschaften mit Computern getestet. Mit dieser Umstellung sind und waren viele Hoffnungen verbunden. Die Nutzung des Computers sollte u. a. folgende Vorteile im Large-scale Assessment bringen: (a) neue, dynamische Itemformate, mit denen sich komplexere Skills erfassen lassen; (b) mehr Testeffizienz durch sparsamere, adaptive Testverfahren; (c) zusa¨tzliche Informationen durch die Log-Files, welche den individuellen Bearbeitungsprozess dokumentieren; (d) mehr Testo¨konomie, dadurch, dass die von den Schu¨lerinnen und Schu¨lern im Testheft bearbeiteten Aufgaben bzw. die Antworten darauf nicht nachtra¨glich am Computer eingegeben werden mu¨ssen; (e) mehr Akzeptanz durch die Schu¨lerinnen und Schu¨ler und dadurch gesteigerte Testmotivation. Risiken wurden natu¨rlich auch im Vorfeld diskutiert: (a) Potenzielle Mode-Effekte, d. h. Vera¨nderungen in den Testleistungen gegenu¨ber fru¨heren PISA-Erhebungen, die allein auf den Wechsel des Testmediums zuru¨ckzufu¨hren sind; (b) Hardwareabha¨ngigkeit des Testsystems; (c) fehlende oder antiquierte Hardware in den Schulen. Fu¨r PISA 2015 wurde dann in der Tat ein Plattformunabha¨ngiges System zur Erfassung von Lese-, mathematischen und naturwissenschaftlichen Kompetenzen entwickelt, das von einem Memory-Stick gestartet wurde, alle sonstigen Funktionen des Rechners (vor allem auch den Internetzugriff) unterdru¨cken sollte und generell auf Windows-Rechnern in allen Teilnehmerstaaten lauffa¨hig sein sollte. Nach diesem ersten Durchgang ist die Bilanz insgesamt ernu¨chternd, die Hoffnungen großer Vorteile des Computer-basierten Testens haben sich nicht erfu¨llt. Letztendlich wurde weitgehend auf innovative Itemformate verzichtet. Stattdessen wurden die alten Papierund-Bleistift-Aufgaben auf den Rechner u¨bertragen, auf eine adaptive Testumgebung wurde verzichtet. Unbestritten steigt damit natu¨rlich die Chance, dass Mode-EfDOI: 10.1026/0012-1924/a000160
fekte klein bis unbedeutend bleiben und die PISA-2015Ergebnisse so besser mit denen aus fru¨heren Erhebungen vergleichbar sind. Die Nutzung von Log-Daten bei der Auswertung ist meines Wissens nicht geplant. Auch das wirtschaftliche Einsparungspotenzial von Computer-basierten Testungen hat sich in Deutschland nicht umsetzen lassen. Da viele Schulen nicht u¨ber entsprechende Computerausstattungen verfu¨gten, musste die deutsche PISA-Gruppe in Mu¨nchen ganze Klassensa¨tze von Notebooks kaufen, mit denen dann Testleiterinnen und Testleiter in die Schulen geschickt wurden. Statt zu sparen, musste so mehr Geld ausgegeben werden. Schließlich wurde es dann richtig heikel, als manche Rechner in Schulen die Zusammenarbeit mit dem System verweigerten oder Virenscanner den Stick nicht akzeptierten. Hier wurden dann gleich auf Schulebene fehlende Werte generiert. Wenigstens besteht die Hoffnung, dass diese missings completely at random sind. Inwieweit die Testmotivation gesteigert wurde und es Zeitersparnisse bei der Datenkodierung gibt, la¨sst sich gegenwa¨rtig noch nicht einscha¨tzen. Insgesamt hat dieser erste Durchlauf mit Computern in PISA 2015 aber deutlich gemacht, dass sich der Mehrwert Computer-basierten Testens zumindest bei der Diagnostik von Schulleistungen sehr in Grenzen ha¨lt. Was folgt daraus? Sollte man wieder zum bewa¨hrten Papier-und-Bleistift-Format zuru¨ckkehren? Die Antwort ist sicherlich: „Nein.“ Zum einen wird der Druck der OECD, in einer digitalen Welt beim Testen auf Computer zuru¨ckzugreifen, bleiben. Zum anderen ist zu hoffen, dass diese anfa¨nglichen Probleme zuku¨nftig nicht wieder auftreten werden. Die Schule der Zukunft wird vermutlich eine entsprechende Infrastruktur aufweisen, so dass man langfristig nicht mehr auf zusa¨tzliche Notebooks zuru¨ckgreifen muss. Sicherlich wird es in absehbarer Zeit auch mo¨glich sein, die Testsysteme via Internet zu administrieren. Wie schnell sich die Itemformate modernisieren lassen, wird sich zeigen. Zum gegenwa¨rtigen Zeitpunkt la¨sst sich aber leider festhalten: Die Prophezeiung hat sich (noch) nicht erfu¨llt.
Zum Schluss etwas in eigener Sache Die Diagnostica hat nach wie vor sehr viele Einreichungen, die angesichts des begrenzten Volumens der Hefte ein strenges Begutachtungssystem zur Folge haben. Im ab-
2
Editorial
gelaufenen Jahr 2015 war die Zahl der Einreichungen wieder so hoch, dass wir viele durchaus gute Manuskripte ablehnen mussten und aktuell bei einer Annahmequote von unter 30 % liegen. Die Zahl der Manuskripte, die in der ersten Begutachtungsrunde akzeptiert werden, ist sehr gering (unter 20 %) und signalisiert die hohen Qualita¨tsstandards, die wir an Beitra¨ge anlegen. Diagnostica verzichtet nach wie vor darauf, das Editorial zu Jahresanfang zur artifiziellen Erho¨hung des eigenen Impact-Factors zu nutzen. Als Folge bekommen wir ein realistisches Bild u¨ber die Zitationsquoten der bei uns publizierten Arbeiten. Der Journal Citation Report in seiner aktuellen Version berichtet fu¨r 2014 einen Faktor von 1.057, was einen deutlichen Anstieg gegenu¨ber den Vorjahren bedeutet (2010: 0.732; 2011: 0.721; 2012: 0.860; 2013: 0.771). Damit ist sichergestellt, dass die qualitativ hochwertigen Arbeiten in unserer Zeitschrift nicht nur viel gelesen, sondern auch regelma¨ßig und steigend zitiert werden. Dies mag weiterhin Ansporn fu¨r die Autorinnen und Autoren sein, ihre besten deutschsprachigen Arbeiten im Bereich der Diagnostischen und Differenziellen Psychologie bei Diagnostica einzureichen.
Fu¨r das neue Jahr mo¨chte ich auch einen Wechsel in der Herausgeberschaft verku¨nden. Frank Neuner (Universita¨t Bielefeld) verla¨sst nach mehreren Jahren erfolgreicher Mitarbeit das Herausgeberteam. Mit der Betreuung der Arbeiten aus der Klinischen Psychologie hat er maßgeblich zur Qualita¨tssteigerung dieser Manuskripte beigetragen. Traditionell werden sehr viele Papiere aus dem Bereich der Klinischen Psychologie eingereicht, so dass hier eine besondere Belastung der Herausgeber auftritt. Frank Neuner hat diese große Last auf sich genommen, wofu¨r ich ihm herzlich danke. Seine Nachfolge wird Sven Barnow (Universita¨t Heidelberg) antreten. Mit ihm gewinnt das Diagnostica-Team einen Herausgeber, dessen Forschungsaktivita¨ten u¨ber den Bereich der Klinischen Psychologie hinausgehen und der mit seiner Expertise ebenso wie sein Vorga¨nger fu¨r eine hohe Qualita¨t der Artikel sorgen wird. Das ganze Redaktionsteam wu¨nscht Sven Barnow viel Erfolg und Spaß bei der Arbeit und freut sich auf die Kooperation. Olaf Ko¨ller Gescha¨ftsfu¨hrender Herausgeber
Diagnostica, 62 (1), 3 – 15 Hogrefe Verlag, Go¨ttingen 2014
Fragebogen zur Erfassung des Humors von Lehrkräften aus Schülersicht (HUMLAS): Konstruktion und Validierung Sonja Bieg und Markus Dresel
Zusammenfassung. Eine deutschsprachige Adaption der „Teacher Humor Scale“ (Frymier, Wanzer & Wojtaszczyk, 2008) erfasst mit 17 Items vier Formen des schu¨lerperzipierten Lehrerhumors: lerngegenstandsbezogener Humor, Humor ohne Bezug zum Lerngegenstand, selbstabwertender Humor und aggressiver Humor. Eine Studie mit 890 Gymnasiasten der 9. und 10. Jahrgangsstufe aus 41 Schulklassen erbrachte klare Hinweise auf die Messgu¨te des Verfahrens. Konfirmatorische Faktorenanalysen auf Schu¨lerebene besta¨tigten die vierfaktorielle Struktur. Ergebnisse von explorativen Zwei-Ebenen-Faktorenanalysen standen auch auf Klassenebene im Einklang mit der angenommenen Struktur des Lehrerhumors. Die auf dieser Basis gebildeten Subskalen verfu¨gten u¨ber eine gute Reliabilita¨t. Die Analyse der Zusammenha¨nge mit Schu¨lermerkmalen und anderen Lehrer-/Unterrichtsmerkmalen erbrachte Hinweise auf die konvergente und die diskriminante Validita¨t des Verfahrens. Mit dem „Fragebogen zur Erfassung des Humors von Lehrkra¨ften aus Schu¨lersicht“ (HUMLAS) liegt damit ein reliables, valides und o¨konomisches Instrument zu einem Aspekt von Unterricht vor, zu dem es bislang kein differenziertes Verfahren gab. Schlu¨sselwo¨rter: Lehrer, Humor, Humorformen, Schu¨lerwahrnehmung, Fragebogen
Construction and Validation of the German Questionnaire to Assess Students’ Perceptions of Teacher Humor Abstract. The construction and validation of the German Questionnaire to Assess Student Perceptions of Teacher Humor, a translation and adaptation of the Teacher Humor Scale (Frymier, Wanzer & Wojtaszczyk, 2008), is reported. The scale consists of 17 items assessing four types of teacher humor, namely humor related to course material, humor unrelated to course material, self-disparaging humor, and aggressive humor. A study with 890 high school students in Years 9 and 10 from 41 different school classes was conducted to test the quality of the measuring instrument. Results from confirmatory factor analyses on the student level and two-level exploratory factor analyses supported the hypothesized structure with four factors. Subsequently constructed subscales demonstrated a good internal consistency. Convergent and discriminant validity was supported by correlations with student, teacher and class characteristics. It can be concluded that the new questionnaire is a reliable, valid and parsimonious measuring instrument, which can be used in several contexts. Keywords: teacher, types of humor, student perceptions, questionnaire
Humor spielt im Unterricht eine nicht zu unterscha¨tzende Rolle (z. B. Banas, Dunbar, Rodriguez & Liu, 2011). Bringen Lehrkra¨fte Witz und Heiterkeit in den Unterricht ein, bietet ihnen dies eine Mo¨glichkeit, soziale, motivationale und kognitive Aspekte gu¨nstig zu beeinflussen und ihre Lehrziele besser zu erreichen (vgl. Dresel et al., 2014; Ziv, 1979). Nach Frymier, Wanzer und Wojtaszczyk (2008) muss zwischen verschiedenen Humorformen bei Lehrpersonen differenziert werden – demnach ist Lehrerhumor ein multidimensionales Konzept, das sowohl angemessene Humorformen (z. B. witzige Beispiele fu¨r Unterrichtsinhalte) wie auch unangemessene Humorformen (z. B. Lernende la¨cherlich machen) umfasst (vgl. Martin, PuhlikDoris, Larsen, Gray & Weir, 2003; Wanzer, Frymier, Wojtaszczyk & Smith, 2006; Wanzer, Frymier & Irwin, 2010). Bislang gibt es jedoch kein deutschsprachiges Instrument, DOI: 10.1026/0012-1924/a000132
mit dem eine differenzierte Erfassung des Lehrerhumors valide mo¨glich ist. Die wenigen Studien zum Lehrerhumor im deutschsprachigen Raum (z. B. Rißland, 2002) nutzten fast ausschließlich Lehrerselbstberichte. Eine Ausnahme stellt lediglich eine Studie von Dresel et al. (2014) dar, fu¨r die der Humor von Lehrkra¨ften mit Hilfe der Wahrnehmungen von Schu¨lerinnen und Schu¨lern operationalisiert wurde (allerdings nicht nach verschiedenen Formen differenziert). Ein Messzugang mit Hilfe von Schu¨lerper¨ berwindung der Verzerrungen zeptionen bietet sich zur U an, die ha¨ufig mit Lehrerselbstberichten verbunden sind (vgl. Helmke, 2009). Zudem bietet dies den Vorteil, dass damit jener Anteil des Lehrerhumors erfasst wird, der fu¨r das Erleben und Lernverhalten von Schu¨lerinnen und Schu¨lern vorrangig relevant ist. Ziel der vorliegenden Arbeit ist vor diesem Hintergrund die Entwicklung und
4
Sonja Bieg und Markus Dresel
¨ bersicht u¨ber Humorformen im Modell von Martin et al. (2003) fu¨r Alltagskontexte, im Instrument zur Abbildung 1. U Erfassung des Lehrerhumors von Frymier et al. (2008) sowie in der theoretischen Konzeption des „Fragebogens zur Erfassung des Humors von Lehrkra¨ften aus Schu¨lersicht“ (HUMLAS). Validierung eines Fragebogenverfahrens, mit dem relevante Formen des Lehrerhumors differenziert aus Schu¨lersicht erfasst werden. Basierend auf den Modellvorstellungen von Martin et al. (2003) sowie den im Kontext USamerikanischer Colleges entwickelten Skalen von Frymier et al. (2008) wurde dazu ein deutsches Messinstrument entwickelt, das anhand einer Studie im Deutschunterricht der 9. und 10. Jahrgangsstufe empirisch u¨berpru¨ft wurde.
Definition, Funktionen und Formen von Humor Nach Martin (2007) umfasst Humor die Kommunikation von inkongruenten Bedeutungen, die in irgendeiner Weise amu¨sierend sind, und basiert rezipientenseitig auf der Wahrnehmung und Auflo¨sung dieser Inkongruenzen (vgl. Berlyne, 1960; LaFave, Haddad & Maesen, 1996). Fu¨r soziale Kontexte im Allgemeinen findet sich in der Literatur eine große Zahl an Forschungsarbeiten zur Nutzung von Humor und dessen Wirkungen fu¨r Humorprodu¨ berblicke bei Lefcourt, 2001; zenten und -rezipienten (U Martin, 2007). Fu¨r die vorliegende Arbeit sind zwei theoretische Aspekte von besonderer Bedeutung (Martin, 2003): (1) Humor sollte als multidimensionales Konzept mit verschiedenen Humorformen aufgefasst werden. (2) Zur Erkla¨rung der Wirkungen von Humor fu¨r Produzenten und Rezipienten ist eine funktionale Perspektive, die zwischen verschiedenen Intentionen und Anla¨ssen fu¨r die Humorproduktion differenziert, geeigneter als eine Perspektive, die nach verschiedenen Humorinhalten (z. B. Witze, Anekdoten, Kommentare etc.) unterscheidet.
Das theoretische Versta¨ndnis des Lehrerhumors in dieser Arbeit geht auf das 2 x 2-Modell von Martin et al. (2003) zum Humor in Alltagskontexten zuru¨ck (Abbildung 1). Martin und Kollegen unterscheiden dabei, ob Humor genutzt wird, um soziale Beziehungen zu fo¨rdern (soziale Funktion) oder um das Selbst zu fo¨rdern (intrapsychische Funktion). Auf einer zweiten Dimension unterscheiden sie, ob Humor fu¨r alle Beteiligten vertra¨glich ist oder nicht (d. h. entweder auf Kosten anderer Personen oder des Humorproduzenten selbst geht). Aus diesen beiden Dimensionen leiteten Martin et al. (2003) vier verschiedene Formen von Humor ab: Dies sind zuna¨chst „affiliativer Humor“ (Martin et al., 2003, S. 53) (z. B. Erza¨hlen von freundlichen Witzen) und „selbstabwertender Humor“ (Martin et al., 2003, S. 54) (z. B. Selbstironie; Anekdoten u¨ber eigene Missgeschicke), die beide prima¨r dazu genutzt werden, die Beziehungen mit Interaktionspartnern zu fo¨rdern. Wa¨hrend die erste Humorform vertra¨glich fu¨r alle Beteiligten ist, geht die zweite auf Kosten des Selbst und hat auch empirisch nachweisbar negative Wirkungen fu¨r den Humorproduzenten (vgl. Kubie, 1971). Weiterhin ist „selbstgerichteter Humor“ (Martin et al., 2003, S. 53) (Betrachtung des Lebens aus einer generell humorvollen Perspektive) zu nennen, der prima¨r zur Stressbewa¨ltigung und zum Selbstwertschutz genutzt wird; charakteristisch fu¨r ihn sind vor allem bestimmte intrapsychische Prozesse (z. B. humorvolle Gedanken), weshalb er fu¨r andere Personen schwer wahrnehmbar ist (Kuiper, Martin & Olinger, 1993). Schließlich zielt „aggressiver Humor“ (Martin et al., 2003, S. 54) (z. B. andere Personen la¨cherlich ma-
Humor von Lehrkra¨ften aus Schu¨lersicht
chen) auf die Aufwertung des Selbst auf Kosten Anderer; er hat negative Wirkungen fu¨r soziale Beziehungen und die Personen, auf die der Humor gerichtet ist (Martin et al., 2003; Zillman, 1983).
Konzeption und Erfassung verschiedener Formen des Lehrerhumors Zum Humor von Lehrpersonen liegt mittlerweile eine durchaus nennenswerte Zahl an Forschungsarbeiten vor, die allerdings u¨berwiegend an US-amerikanischen Colleges oder Universita¨ten durchgefu¨hrt wurden, meist ein unidimensionales Versta¨ndnis des Lehrerhumors anlegten und sich dabei ha¨ufig prima¨r dessen Inhalten zuwandten ¨ berblicke siehe Banas et al., 2011; Booth-Butter(fu¨r U field & Wanzer, 2010). Eine Ausnahme von der unidimensionalen Perspektive stellen die Forschungen der Gruppe um Wanzer und Frymier dar (z. B. Frymier et al., 2008; Wanzer & Frymier, 1999; Wanzer et al., 2006; Wanzer et al., 2010), die zentral fu¨r die vorliegende Arbeit sind – obwohl sie ebenfalls im Hochschulbereich angesiedelt waren. Anhand einer qualitativen Befragung von Studierenden schlossen Wanzer et al. (2006) auf verschiedene Humorformen, die in der universita¨ren Lehre eingesetzt werden, sowie die Angemessenheit dieser Humorformen. Dabei zeigte sich, dass affiliativer Humor und selbstabwertender Humor der Lehrperson von Studierenden als angemessen erlebt werden, etwa weil dies das Klima in der Gruppe verbessert. Dies galt insbesondere, wenn ein Bezug zum Lerngegenstand bestand (z. B. wenn humorvolle Erkla¨rungen fu¨r Lerninhalte pra¨sentiert wurden); dies trug aus Studierendensicht dazu bei, die Interessantheit des Lerninhalts zu steigern sowie Informationsenkodierung und -abruf zu fo¨rdern. In einer quantitativen Nachfolgestudie zeigte sich, dass affiliativer Lehrerhumor, der auf den Lerngegenstand bezogen ist, positiv mit dem Lernzuwachs der Lernenden assoziiert ist (Wanzer et al., 2010). Aggressiver Lehrerhumor auf Kosten Anderer (anwesende oder nicht anwesende Personen, Personengruppen) wurde von Studierenden dagegen als unangemessen wahrgenommen und korrelierte nicht mit dem Lernzuwachs. Basierend auf diesen Ergebnissen konstruierten Frymier et al. (2008) ein Fragebogenverfahren, mit dem Studierende den Humor von Lehrpersonen beurteilen ko¨nnen. Insbesondere beru¨cksichtigten sie dabei neben der sozialen und der auf das Selbst gerichteten Funktion auch die auf die Vermittlung des Lerngegenstands gerichtete Funktion des Lehrerhumors, die spezifisch fu¨r instruktionale Kontexte ist (vgl. Abbildung 1). Im Anschluss an die Ergebnisse von Wanzer et al. (2006) differenzierten sie zwischen „Humor mit Unterrichtsbezug“ und „Humor ohne Unterrichtsbezug“ (Frymier et al., 2008, S. 275). Daneben operationalisierten sie Humor, mit dem sich die Lehrperson selbst
5
herabsetzt, und solchem, mit dem sie andere Personen herabsetzt. Selbstgerichteter Humor, der von außen schwer wahrnehmbar ist, wurde aufgrund seiner geringen Relevanz fu¨r Lehr-Lernprozesse nicht beru¨cksichtigt. Frymier et al. (2008) untersuchten die Dimensionalita¨t des von ihnen entwickelten Fragebogens (ausschließlich) anhand explorativer Methoden (explorative Faktorenanalyse der individuellen Wahrnehmungen der Studierenden unter Anwendung des Eigenwertkriteriums; keine Beru¨cksichtigung der Lehrpersonen-/Kursebene). Die Ergebnisse standen im Einklang mit den vier angenommenen Formen des Lehrerhumors. Daneben fand sich aber auch noch ein fu¨nfter, theoretisch nicht klar abgegrenzter Faktor, der sich u. a. auf die Nutzung vulga¨rer Sprache bezog und als besonders starke Form des aggressiven Humors verstanden werden kann („offensiver Humor“) (Frymier et al., 2008, S. 275). Das Instrument von Frymier et al. (2008) wies fu¨r alle Faktoren eine gute bis sehr gute Reliabilita¨t auf (Cronbachs a = .80 – .93). ¨ bertragbarkeit der im US-ameOffen ist bislang die U rikanischen College-Bereich gewonnenen Befunde auf den Kontext des schulischen Unterrichts und auf den deutschsprachigen Kulturraum. Wir erwarten, dass die vier aus einer theoretisch-funktionalen Perspektive auf Lehrerhumor abgeleiteten Faktoren von Frymier et al. (2008) auch im hiesigen Schulkontext voneinander abgrenzbare Humorformen darstellen und von Relevanz sind – auch wenn diese aufgrund des unterschiedlichen Alters der Lernenden und der Kulturabha¨ngigkeit von Humor mo¨glicherweise in anderen spezifischen Humorinhalten zum Ausdruck kommen (Davies, 1998; Hill, 1988; Neuliep, 1991; Nevo, Nevo & Yin, 2001). Als u¨bertragbar erachten wir auch die Annahme, dass selbstgerichteter Humor von Lehrpersonen wenig relevant im Kontext des Unterrichts ist. Beim offensiven Humor wichen wir jedoch von der Konzeption von Frymier und Kollegen ab: Hier ist bedeutsam, dass das ho¨here Alter von Studierenden und die andere Beziehungsstruktur in Lehrveranstaltungen im Hochschulbereich Dozierenden weniger Restriktionen bezu¨glich des Humorinhalts auferlegt als Lehrkra¨ften an Schulen im Primar- oder Sekundarbereich (Hill, 1988). Damit korrespondierend erbrachte die Befragung von Neuliep (1991), dass Lehrkra¨fte an Schulen im Vergleich zu Dozierenden an Hochschulen kaum offensive Humorformen einsetzten. Vor dem Hintergrund dieser kontextuellen Unterschiede und aufgrund der mangelnden theoretischen Fundierung des offensiven Humors sowie seiner schwachen empirischen Begru¨ndung erscheint es nicht gerechtfertigt, aggressiven Lehrerhumor in eine weniger offensive und eine offensivere Form zu differenzieren. Damit umfasst unser theoretisches Konzept vier relevante und von Schu¨lerinnen und Schu¨lern wahrnehmbare Formen des Lehrerhumors (vgl. Abbildung 1): lerngegenstandsbezogener Humor, Humor ohne Bezug zum Lerngegenstand, selbstabwertender Humor und aggressiver Humor.
6
Sonja Bieg und Markus Dresel
Zur Erfassung der fu¨r das subjektive Erleben und (Lern-)Verhalten von Schu¨lerinnen und Schu¨lern prima¨r bedeutsamen Aspekte des Lehrerhumors sowie zur Vermeidung der mit Lehrerselbstberichten verbundenen methodischen Probleme bietet sich die Nutzung von Fremdbeurteilungen durch Lernende an (vgl. Marsh et al., 2012). Dass das Instrument von Frymier et al. (2008) diesen Ansatz nutzt, ist eine seiner Sta¨rken. Allerdings wurden in den Arbeiten von Frymier et al. (2008) und Wanzer et al. (2010) ausschließlich die individuellen Wahrnehmungen der Studierenden fokussiert und die vorrangig interessierende Ebene der Lehrperson sowie die geschachtelte Datenstruktur als solches ignoriert (mehrere Lernende beurteilen den Humor einer Lehrperson). Damit fehlt bislang eine Separierung der Effekte auf Ebene der Lehrpersonen (geteilte Wahrnehmung aller Lernenden) von jenen auf Ebene der Lernenden (von der geteilten Wahrnehmung abweichende Individualwahrnehmung, beeinflusst z. B. durch Erwartungseffekte). Daru¨ber hinaus ist nichts u¨ber die Messgu¨te des Verfahrens von Frymier et al. (2008) auf der Ebene der Lehrpersonen bekannt.
Ziele und Hypothesen Die Ergebnisse der bisherigen Forschung, die u¨berwiegend im Hochschulbereich angesiedelt war, verweisen darauf, dass Lehrpersonen verschiedene Humorformen einsetzen, dass diese von Lernenden differenziert wahrgenommen werden ko¨nnen und sie fu¨r Unterricht und Lernverhalten relevant sind. Da allerdings bislang kein entsprechendes deutschsprachiges Verfahren vorliegt, war die Entwicklung und Validierung einer deutschen Adaption der „Teacher Humor Scale“ von Frymier et al. (2008) das Ziel der vorliegenden Arbeit, wobei dabei auch Schwa¨chen der Originalskala u¨berwunden werden sollten. Im Zusammenhang der Validierung pru¨ften wir – ausgehend von den darge¨ berlegungen und Befunden – drei Hypothesen. stellten U Hypothese H1 bezieht sich auf die faktorielle Validita¨t des Verfahrens und reflektiert das vorgestellte theoretische Versta¨ndnis des Lehrerhumors: H1: Schu¨lerperzipierter Lehrerhumor umfasst vier Humorformen: lerngegenstandsbezogener Humor, Humor ohne Bezug zum Lerngegenstand, selbstabwertender Humor und aggressiver Humor. Hypothese H2 thematisiert die konvergente Validita¨t des Verfahrens, zu deren Beurteilung theoretisch mit dem Lehrerhumor eng assoziierte Aspekte fokussiert wurden: H2: Schu¨lerwahrnehmungen des Lehrerhumors stehen im Zusammenhang mit Schu¨lerwahrnehmungen des Lehrerenthusiasmus und der Interessantheit des Unterrichts (lerngegenstandsbezogener Humor, Humor ohne Bezug zum Lerngegenstand und selbstabwertender Humor: positive Zusammenha¨nge; aggressiver Humor: negative Zusammenha¨nge).
Der Enthusiasmus von Lehrkra¨ften (im Sinne eines dispositionalen Lehrermerkmals, das sich darauf bezieht, wie viel Freude und Begeisterung Lehrkra¨fte wa¨hrend des Unterrichtens erleben; vgl. Kunter et al., 2008) bezieht sich ebenso wie deren Humor auf ihr emotionales Erleben und hat u¨berdies a¨hnliche Effekte auf sozioemotionale und motivationale Dimensionen des Unterrichts (Dresel et al., 2014; Turner et al., 2002). Anzunehmen ist, dass Lehrerhumor daru¨ber hinaus auch mit der Interessantheit des Unterrichts assoziiert ist, da die fu¨r Humor kennzeichnende Inkongruenz von Informationen eines der Aufgabencharakteristika ist, das situationales Interesse im Unterricht fo¨rdern kann (z. B. Ber¨ berlelyne, 1963; Hidi & Renninger, 2006). Diesen U gungen entsprechend korrelierte der unidimensional erfasste Lehrerhumor in der Studie von Dresel et al. (2014) moderat bis stark mit dem Lehrerenthusiasmus und der Interessantheit des Unterrichts. Hypothese H3 adressiert schließlich die diskriminante Validita¨t des Verfahrens, zu deren Beurteilung Unterrichts- und Schu¨lermerkmale herangezogen wurden, die theoretisch nicht mit dem Lehrerhumor assoziiert sind: H3: Schu¨lerwahrnehmungen des Lehrerhumors stehen in keinem substanziellen Zusammenhang mit Schu¨lerwahrnehmungen der Zeitnutzung im Unterricht sowie der Humororientierung und der Selbstwirksamkeit von Schu¨lerinnen und Schu¨lern. Lehrkra¨fte ko¨nnen Humor dazu nutzen, bestimmte Lehrfunktionen des Unterrichts (Klauer, 1985) zu sichern (z. B. Motivationsfunktion); fu¨r bestimmte andere Lehrfunktionen ist aber nicht anzunehmen, dass er hilfreich ist (siehe Dresel et al., 2014, zur Frage, zu welchen Lehrfunktionen Humor beitragen kann). Letzteres gilt insbesondere fu¨r die u¨bergeordnete Funktion der Steuerung und Kontrolle von Lernprozessen, die sich u. a. in der Zeitnutzung im Unterricht (Time on Task) manifestiert. Dieses theoretisch vom Lehrerhumor unabha¨ngige Unterrichtsmerkmal fokussiert, wie viel Zeit im Unterricht auf den Lerngegenstand und wie viel Zeit fu¨r andere, fu¨r das eigentliche Unterrichtsthema irrelevante Aspekte verwendet wird (Helmke, 2009). Die Humororientierung und die Selbstwirksamkeit der Lernenden wurden betrachtet, da stets die Mo¨glichkeit besteht, dass Fremdurteile (hier: des Lehrerhumors) von Merkmalen der Beurteiler (hier: der Lernenden) abha¨ngen. Schu¨lerinnen und Schu¨ler mit ¨ uausgepra¨gtem Sinn fu¨r Humor ko¨nnten humorvolle A ßerungen ihrer Lehrkra¨fte entweder als besonders lustig ¨ hnlichkeitseffekt; ko¨nnte auch deshalb wahrnehmen (A auftreten, weil diese Schu¨lerinnen und Schu¨ler darin geu¨bt sind, Inkongruenzen aufzulo¨sen) oder sie als weniger lustig wahrnehmen als es ihre Mitschu¨lerinnen und Mitschu¨ler tun (Kontrasteffekt; vgl. Booth-Butterfield & Booth-Butterfield, 1991). Ebenso ko¨nnte eine hohe Selbstwirksamkeit bedingen, dass die Lehrkraft, ihr Unterricht und somit auch ihr Humor generell positiver
Humor von Lehrkra¨ften aus Schu¨lersicht
wahrgenommen werden – mo¨glicherweise auch aufgrund eines allgemeinen Sympathieeffektes, der beispielsweise aus positiven Leistungsbeurteilungen resultieren ko¨nnte, die auch das Wirksamkeitserleben der Schu¨lerinnen und Schu¨ler fo¨rdern (vgl. Helmke, 2009; Schwarzer & Jerusalem, 2002). Fu¨r die diskriminante Validita¨t des Verfahrens spricht, wenn derartige Urteilereffekte hinreichend klein sind.
Methode Konstruktion des Fragebogens Die Items der „Teacher Humor Scale“ von Frymier et al. (2008) wurden ins Deutsche u¨bersetzt und an den deutschen Kulturraum angepasst. Da es sich bei der Originalskala um ein Instrument zum Einsatz in US-amerikanischen Colleges handelt, war die Passung einiger Items zum deutschen Schulunterricht fraglich. Deshalb wurde der Itempool zum Einen um ein wenig inhaltsvalides Item aus der Skala „Humor ohne Unterrichtsbezug“ (Frymier et al., 2008, S. 275) geku¨rzt („Unser Lehrer verwendet kritischen, zynischen oder sarkastischen Humor zu allgemeinen Themen“) und zum Anderen um vier neu konstruierte Items erga¨nzt. Bei der Item-Neukonstruktion wurde darauf geachtet, dass sie den Spezifika des schulischen Unterrichts und dem ju¨ngeren Alter der Lernenden gerecht werden. Um eine einfache Adaption an unterschiedliche Doma¨nen (Schulfa¨cher) zu ermo¨glichen, wurde die Fachspezifita¨t im Itemstamm repra¨sentiert, die Items selbst aber allgemein formuliert (Beispiel: „Unsere Deutschlehrerin/Unser Deutschlehrer … verwendet lustige Beispiele im Unterricht“). Die insgesamt 26 Items der Konstruktionsversion sind in Tabelle 1 aufgefu¨hrt. Analog zum Originalinstrument wurden die Items mit einer Ha¨ufigkeitsskala mit den Abstufungen 1 (nie), 2 (selten), 3 (gelegentlich), 4 (oft) und 5 (sehr oft) vorgegeben.
Stichprobe und Untersuchungsablauf ¨ berpru¨fung der Messgu¨te der Skala wurde eine Zur U Untersuchung im Schulfach Deutsch durchgefu¨hrt. Die Stichprobe bestand aus 890 Schu¨lerinnen und Schu¨lern aus 41 Schulklassen der 9. und 10. Jahrgangsstufe an 11 Gymnasien in Baden-Wu¨rttemberg, Bayern und Thu¨ringen. Der Anteil der Ma¨dchen lag bei 47 %. Das Durchschnittsalter der Schu¨lerinnen und Schu¨ler betrug 16.1 Jahre (SD = 0.85). Die Teilnahme an der Studie war freiwillig und fu¨r jeden Jugendlichen lag das schriftliche Einversta¨ndnis der Eltern vor (Teilnahmequote: 86 %). Die Untersuchung erfolgte im Rahmen einer regula¨ren Unterrichtsstunde und wurde von geschulten Testleitern durchgefu¨hrt.
7
Messinstrumente zur Überprüfung der konvergenten und diskriminanten Validität Enthusiasmus der Lehrkra¨fte. Der schu¨lerperzipierte Enthusiasmus der Lehrkra¨fte fu¨r das Unterrichten wurde mit einem auf das Fach Deutsch adaptierten Instrument von Baumert et al. (2008) erfasst (Beispielitem: „Unser Lehrer ist selbst vom Fach Deutsch begeistert“). Die drei Items wurden mit einer fu¨nfstufigen Likert-Skala vorgegeben, die von 1 (stimme u¨berhaupt nicht zu) bis 5 (stimme vo¨llig zu) reichten. Die interne Konsistenz war mit a = .85 gut, ebenso lagen die u¨brigen Skalenkennwerte in einem angemessenen Bereich (M = 3.91; SD = 0.88; Intraklassenkorrelation ICC1 = .20). Interessantheit des Unterrichts. Eine sechs Items umfassende Skala von Ditton und Merz (1999) erfasste, inwieweit die Lehrperson aus Sicht der Lernenden den Unterricht interessant gestaltet (Beispielitem: „Unser Lehrer gestaltet den Deutschunterricht abwechslungsreich“). Es kam eine fu¨nfstufige Antwortskala zum Einsatz, die von 1 (nie) bis 5 (immer) reichte. Die Skala wies mit a = .91 eine sehr gute interne Konsistenz auf (M = 2.65; SD = 0.88; ICC1 = .34). Zeitnutzung im Unterricht. Der Umfang der fu¨r den Lerngegenstand genutzten Zeit im Unterricht wurde mit dem bereits in der Studie „Bildungsverla¨ufe und psychosoziale Entwicklung im Jugendalter“ (BIJU) eingesetzten und negativ formulierten Einzelitem „Bei uns im Deutschunterricht wird viel Zeit vertro¨delt“ erfasst (Baumert, Gruehn, Heyn, Ko¨ller & Schnabel, 1997). Verwendung fand eine Antwortskala, die von 1 (stimmt gar nicht) bis 6 (stimmt vo¨llig) reichte. Die Werte wurden rekodiert, so dass hohe Werte eine gute Zeitnutzung repra¨sentierten. Die deskriptiven Kennwerte lagen im angemessenen Bereich (M = 3.87; SD = 1.46; ICC1 = .22). Humororientierung der Schu¨lerinnen und Schu¨ler. Der Grad, zu dem sich die Schu¨lerinnen und Schu¨ler selbst als humorvoll verstehen und zu dem sie in der sozialen ¨ bersetInteraktion Humor einsetzen, wurde mit einer U zung der sechs Items umfassenden „Humor Orientation Scale“ von Booth-Butterfield und Booth-Butterfield (1991) erfasst. Ein Beispielitem lautet: „Ich erza¨hle regelma¨ßig Witze oder lustige Geschichten, wenn ich mit anderen zusammen bin“. Die Antworten wurden mit einer fu¨nfstufigen Antwortskala von 1 (stimmt gar nicht) bis 5 (stimmt vo¨llig) erfasst. Mit a = .85 war die interne Konsistenz gut (M = 3.29, SD = 0.75; ICC1 = .03). Selbstwirksamkeitsu¨berzeugung der Schu¨lerinnen und Schu¨ler. Die Selbstwirksamkeit von Schu¨lerinnen und Schu¨lern im Fach Deutsch wurde mit einer modifizierten Skala von Jerusalem und Satow (1999) erhoben. Sie um¨ berzeufasst sechs Items und erfasst das Ausmaß der U gung, u¨ber die notwendigen personalen Ressourcen zur
8
Sonja Bieg und Markus Dresel
Bewa¨ltigung schwieriger Aufgaben im Fach Deutsch zu verfu¨gen (Beispielitem: „Ich kann auch die schwierigen Aufgaben in Deutsch lo¨sen, wenn ich mich anstrenge“). Alle Items waren auf einer vierstufigen Antwortskala von 1 (trifft nicht zu) bis 4 (trifft vo¨llig zu) zu beantworten. Die interne Konsistenz war mit a = .86 gut (M = 3.14; SD = 0.56; ICC1 = .05).
wurden alle Analysen mit Hilfe von Mplus 6 (Muthe´n & Muthe´n, 2010) durchgefu¨hrt. Dabei behandelten wir alle Items als ordinalskaliert und wendeten entsprechend den Means-and-Variance-Adjusted-Weighted-Least-SquaresScha¨tzer (WLSMV-Scha¨tzer) an.
Ergebnisse Umgang mit fehlenden Werten und methodisches Vorgehen Aufgrund von Nichtbeantwortung einzelner Items kam es zu fehlenden Werten (bei keinem Item ha¨ufiger als 5 %, bei keinem Humoritem ha¨ufiger als 1 %), die mit Hilfe des Expectation-Maximization-Algorithmus imputiert wurden (vgl. Peugh & Enders, 2004). Es wurde eine Analysestrategie gewa¨hlt, die der geschachtelten Datenstruktur gerecht wird (der Humor jeder Lehrkraft wurde von mehreren Lernenden beurteilt). Abgesehen von grundlegenden Item- und Skalenanalysen
Itemanalysen Tabelle 1 zeigt Mittelwerte, Standardabweichungen, Schiefe und Intraklassenkorrelation (ICC1) aller Items der Konstruktionsversion der Skala zur Erfassung des Lehrerhumors. Fu¨nf Items wiesen einige sehr ungu¨nstige Kennwerte auf (Items 21, 22, 24, 25 und 26). Vor allem die sehr niedrigen Mittelwerte verweisen darauf, dass der darin angesprochene (aggressive) Humor sehr selten vorkommt und nicht wesentlich zur Differenzierung zwischen Lehrkra¨ften beitra¨gt. Daher wurden diese Items verworfen. Bei allen Items waren die fu¨r die Erfassung von Lernumweltmerkmalen notwendigen moderaten bis großen Un-
Tabelle 1. Itemformulierungen und Itemkennwerte Nr.
Itemstamm: Unser [Fach-]Lehrer …
M
SD
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
verwendet Humor im Zusammenhang des Unterrichtsstoffs. verwendet witzige Dinge zur Veranschaulichung oder als Beispiel. erza¨hlt uns Witze, die sich auf den Unterrichtsinhalt beziehen. erza¨hlt uns witzige Geschichten, die zum Unterricht passen. spielt uns etwas vor oder fu¨hrt etwas auf, um den Stoff zu veranschaulichen. la¨sst uns Rollenspiele durchfu¨hren, um den Unterrichtsinhalt zu veranschaulichen. verwendet eine lustige Sprache, um den Stoff zu erkla¨ren. * bringt uns den Stoff auf humorvolle Art bei. * verwendet lustige Beispiele im Unterricht. erza¨hlt uns Geschichten, die nichts mit dem Unterricht zu tun haben. erza¨hlt uns Witze, die mit dem Stoff nichts zu tun haben. * schweift vom Thema ab und erza¨hlt uns stattdessen witzige Geschichten. macht sich im Unterricht u¨ber sich selbst lustig. erza¨hlt Geschichten, die fu¨r ihn selbst peinlich sind. macht sich u¨ber sich selbst lustig, wenn er einen Fehler im Unterricht macht. * lacht u¨ber sich selbst. macht sich im Unterricht u¨ber Schu¨ler lustig. macht sich im Unterricht u¨ber die Intelligenz von Schu¨lern lustig. macht witzige Bemerkungen u¨ber das Privatleben oder perso¨nliche Vorlieben von Schu¨lern. macht sich u¨ber den Kleidungsstil von Schu¨lern lustig. veralbert Schu¨ler, weil sie ein Ma¨dchen oder ein Junge sind. macht witzige Bemerkungen u¨ber die Religion von Schu¨lern. benutzt Vorurteile, um witzig zu sein. macht Witze u¨ber bestimmte Bevo¨lkerungsgruppen (z. B. Ausla¨nder). macht Witze u¨ber bestimmte Religionen. macht Witze u¨ber Homosexuelle (Schwule und Lesben).
2.8 2.4 2.0 2.1 1.9 2.4 1.8 2.3 2.2 1.8 1.6 1.4 1.7 1.5 1.9 2.4 1.9 1.7 1.6
1.2 1.1 1.0 1.0 1.0 1.1 1.1 1.2 1.0 0.9 0.9 0.7 1.0 0.8 1.0 1.2 1.2 1.0 1.0
0.1 0.4 0.9 0.7 1.0 0.3 1.3 0.6 0.6 1.2 1.6 2.1 1.4 2.0 0.9 0.4 1.1 1.6 1.6
.49 .40 .39 .36 .23 .44 .31 .42 .40 .19 .30 .22 .18 .18 .20 .24 .32 .31 .21
1.3 1.2 1.1 1.3 1.2 1.1 1.1
0.8 0.6 0.4 0.7 0.7 0.5 0.5
3.2 3.8 6.0 2.7 3.7 5.4 5.0
.19 .21 .21 .28 .35 .32 .20
20 21 22 23 24 25 26
Schiefe ICC1
Anmerkungen: N = 890 Schu¨lerinnen und Schu¨ler in 41 Schulklassen. ICC1 = Intraklassenkorrelation 1 (Anteil der Zwischenklassenvarianz an der Gesamtvarianz). Neu-konstruierte Items sind mit * gekennzeichnet, die u¨brigen Items sind Adaptionen aus dem Instrument von Frymier et al. (2008). Items der finalen Version des Fragebogens sind kursiv gedruckt.
Humor von Lehrkra¨ften aus Schu¨lersicht
9
Abbildung 2. Ergebnisse von konfirmatorischen Faktorenanalysen des Lehrerhumors auf Schu¨lerebene: Standardisierte Ladungen und Faktorkorrelationen des postulierten Modells mit vier Faktoren (alle p < .05). terschiede zwischen Schulklassen bzw. Lehrkra¨ften zu beobachten (ICC1 = .18 – .49).
Faktorenstruktur des wahrgenommenen Lehrerhumors Die Analyse der faktoriellen Validita¨t (Hypothese 1) erfolgte wegen der auf Klassenebene eingeschra¨nkten Stichprobe mit Hilfe eines gestuften Vorgehens (vgl. Hox, Maas & Brinkhuis, 2010): Im ersten Schritt wurde die postulierte vier-faktorielle Struktur des Lehrerhumors mit Hilfe von konfirmatorischen Faktorenanalysen auf Ebene der individuellen Schu¨lerwahrnehmungen getestet, wobei die Standardfehler fu¨r die geschachtelte Datenstruktur korrigiert wurden (Mplus-Option „type is complex“). Um Hinweise zur Dimensionalita¨t des wahrgenommenen Lehrerhumors auch auf Klassenebene zu erhalten, wurden im zweiten Schritt explorative Zwei-Ebenen-Faktorenanalysen mit Geomin-Rotation durchgefu¨hrt (vgl. Muthe´n & Asparouhov, 2010). Das postulierte Vier-Faktoren-Modell, bei dem alle Items auf dem theoretisch zugeho¨rigen Faktor laden, erbrachte in den konfirmatorischen Analysen auf Schu¨lerebene eine akzeptable Passung (c2 = 451.8; df = 183; p < .001; CFI = .95; RMSEA = .04). Die Items 5 und 6, deren Ladungen (.58 und .39) unterhalb der von Kline (2005) empfohlenen Schwelle von .60 lagen, wurden verworfen. Das reduzierte Modell wies ebenfalls eine akzeptable Datenpassung auf (c2 = 411.1; df = 146; p < .001; CFI = .96; RMSEA = .05). Standardisierte Ladungen und
Faktorkorrelationen dieses Modells sind in Abbildung 2 dargestellt. Als Alternative zum postulierten Vier-Faktoren-Modell testeten wir ein Modell, bei dem alle Humoritems auf einem einzigen Faktor laden. Dieses Modell war dem postulierten Modell deutlich unterlegen (c2 = 2386.9; df = 152; p < .001; CFI = .64; RMSEA = .13). In den anschließenden explorativen Zwei-EbenenFaktorenanalysen zur Dimensionalita¨t des wahrgenommenen Lehrerhumors auf Klassenebene wurde eine Serie von Modellen mit variierender Faktorenzahl gescha¨tzt, wobei die Anzahl der Faktoren auf Schu¨lerebene – als Ergebnis des ersten Schritts – auf Vier fixiert wurde (siehe Tabelle 2). Zusa¨tzlich scha¨tzten wir als Referenz fu¨r die Datenpassung ein freies Korrelationsmodell auf Klassenebene. Eine akzeptable Datenpassung war fu¨r die Modelle mit zwei oder mehr Faktoren auf Klassenebene zu beobachten, wobei sich diese mit steigender Faktorenzahl erkennbar verbesserte (zur Beurteilung der Datenpassung auf der zweiten Ebene ist vor allem der SRMR -Index auf Klassenebene relevant). Die Ladungsmuster der Modelle mit zwei oder drei Faktoren auf Klassenebene waren durch eine gro¨ßere Zahl an Doppelladungen gekennzeichnet. Das Modell mit vier Faktoren auf Klassenebene wies dagegen nur eine Doppelladung auf. Insgesamt erwies sich das Vier-Faktoren-Modell damit als u¨berlegen. Item 23, bei dem die genannte Doppelladung auftrat, sowie Item 7, das auf dem zugeho¨rigen Klassenfaktor des lerngegenstandsbezogenen Humors eine zu geringe Ladung aufwies (.53), wurden eliminiert (vgl. Kline, 2005).
10
Sonja Bieg und Markus Dresel
Tabelle 2. Ergebnisse von explorativen Zwei-Ebenen Faktorenanalysen des Lehrerhumors: Datenpassung fu¨r Modelle mit variierender Faktorenzahl auf Klassenebene Anzahl Faktoren
SRMR
Schu¨lerebene
Klassenebene
df
4 4 4 4 4
frei 1 2 3 4
101 253 235 218 202
2 a
c
226.5 435.5 368.4 355.3 344.1
CFI
RMSEA
Schu¨lerebene
Klassenebene
.97 .96 .97 .97 .97
.04 .03 .03 .03 .03
.03 .03 .03 .03 .03
.00 .22 .06 .04 .02
Anmerkungen: N = 890 Schu¨lerinnen und Schu¨ler in 41 Schulklassen. Als Ergebnis der auf Schu¨lerebene durchgefu¨hrten konfirmatorischen Faktorenanalysen wurde die Faktorenzahl dort auf 4 fixiert (vgl. Text). Die Analysen wurden mit Mplus 6 durchgefu¨hrt (Geomin-Rotation; WLSMV -Scha¨tzer). a Alle p < .001
Tabelle 3. Ergebnisse von explorativen Zwei-Ebenen Faktorenanalysen des Lehrerhumors: Standardisierte Ladungen des Modells mit jeweils vier Faktoren auf Schu¨ler- und Klassenebene Schu¨lerebene Faktor 1. Lerngegenstandsbezogener Humor
2. Humor ohne Bezug zum Lerngegenstand
3. Selbstabwertender Humor
4. Aggressiver Humor
Klassenebene
Item
1
2
3
4
1
2
3
4
1 2 3 4 8 9 10 11 12 13 14 15 16 17 18 19 20
.79 .86 .83 .77 .67 .71 -.08 .03 .09 -.08 .03 .04 .17 -.04 .03 -.02 -.02
-.03 -.04 -.03 .05 .10 .12 .02 .02 -.06 .88 .70 .78 .56 .01 -.10 .11 .09
-.04 -.00 .06 .03 -.13 .03 -.01 .01 .10 .05 .14 -.01 -.10 .81 .89 .74 .67
-.02 -.06 -.04 .07 .06 .02 .91 .83 .62 -.02 .03 -.06 .12 .03 -.01 -.01 .07
.77 .78 .79 .89 .76 .70 .07 .17 -.08 -.02 .02 .04 .10 -.01 -.09 .15 .33
.33 .29 .12 -.05 .33 .26 -.03 .04 .03 .99 .62 .97 .87 .12 .02 -.03 -.22
.05 -.00 .00 -.15 .01 .06 .00 .10 .00 .17 -.01 -.20 -.07 .98 1.00 .89 .77
-.04 -.01 .16 .20 -.02 .12 .97 .80 1.02 .04 .39 -.04 .07 .02 -.03 .12 -.01
Anmerkungen: N = 890 Schu¨lerinnen und Schu¨ler in 41 Schulklassen. Die Analysen wurden mit Mplus 6 durchgefu¨hrt (Geomin-Rotation; WLSMVScha¨tzer). Faktorladungen > .40 sind fett gedruckt (nach Jo¨reskog (1999), ko¨nnen Ladungen korrelierter Faktoren in Ausnahmefa¨llen auch gro¨ßer 1 sein). Die Itemformulierungen finden sich in Tabelle 1.
Tabelle 3 zeigt das Ladungsmuster fu¨r die favorisierte Lo¨sung mit jeweils vier Faktoren auf Schu¨ler- und Klassenebene mit den finalen 17 Items (c2 = 286.9; df = 148; p < .001; CFI = .97; RMSEA = .03; SRMR Schu¨lerebene = .03; SRMR Klassenebene = .02).1 Dieses wies fu¨r alle Items sowohl auf Schu¨ler- als auch auf Klassenebene hinreichend große Ladungen auf dem postulierten Faktor und hinreichend kleine Ladungen auf den u¨brigen Faktoren auf.
1 Auch eine konfirmatorische Faktorenanalyse auf Schu¨lerebene mit den finalen 17 Items erbrachte eine gute Datenpassung (c2 = 399.3; df = 113; p < .001; CFI = .96; RMSEA = .05)
Skalenanalysen Basierend auf den Ergebnissen der Faktorenanalysen bildeten wir vier Skalen mit insgesamt 17 Items, die die vier angenommenen Formen des Lehrerhumors reflektieren (entsprechend den Zuordnungen zu Faktoren in Tabelle 3). Die Subskala lerngegenstandsbezogener Humor erfasst mit sechs Items das Ausmaß, in dem die Lehrkraft den Lerngegenstand etwa durch humorige Beispiele verdeutlicht. Die Subskala Humor ohne Bezug zum Lerngegenstand erfasst mit drei Items, inwiefern die Lehrkraft Witziges im Unterricht zum Besten gibt, das jedoch nicht im Zusammenhang mit dem Unterrichtsstoff steht. Mit vier Items erfasst eine weitere Subskala selbstabwertender Humor, inwiefern die Lehrkraft u¨ber sich
-.03
.20*
.51* .44*
.29* .32*
3
.35 .53* .21* — — — — .98 .96 .93 .93 2.30 1.58 1.88 1.63 Lerngegenstandsbezogener Humor Humor ohne Bezug zum Lerngegenstand Selbstabwertender Humor Aggressiver Humor 1. 2. 3. 4.
0.67 0.41 0.43 0.49
Klassenebene 0.43 2.16 0.64 1.41
— — — —
.12* .30* -.04 .95 .89 .87 .91 .93 .81 .81 .85 2.30 1.58 1.88 1.63
0.93 0.71 0.81 0.84
Schu¨lerebene 0.59 1.50 0.98 1.73
.46 .28 .24 .31
ICC2 ICC1 a Schiefe SD
Lerngegenstandsbezogener Humor Humor ohne Bezug zum Lerngegenstand Selbstabwertender Humor Aggressiver Humor
Im Hinblick auf die diskriminante Validita¨t (Hypothese 3) waren – wie erwartet – keine substanziellen Korrela-
1. 2. 3. 4.
Erwartungsgema¨ß zeigten sich moderat positive Zusammenha¨nge des lerngegenstandsbezogenen Lehrerhumors mit dem wahrgenommenen Lehrerenthusiasmus und der wahrgenommenen Interessantheit des Unterrichts. Wie ha¨ufig der Fall, fiel das Muster der Zusammenha¨nge auf Klassenebene noch deutlicher aus (vgl. Marsh et al., 2012). Dies galt auch fu¨r die Zusammenha¨nge des selbstabwertenden Lehrerhumors. Fu¨r den Humor ohne Bezug zum Lerngegenstand war dagegen nur ein moderat positiver Zusammenhang mit der erlebten Interessantheit auf Klassenebene evident. Aggressiver Lehrerhumor korrelierte wie erwartet schwach bis moderat negativ mit den Schu¨lerwahrnehmungen von Lehrerenthusiasmus und Interessantheit des Unterrichts.
M
¨ berpru¨fung der konvergenten Validita¨t (HypotheZur U se 2) wurden die Korrelationen der vier Subskalen des Lehrerhumors mit den erfassten Außenmaßen simultan auf Schu¨ler- und Klassenebene bestimmt, wobei die Variablen auf Schu¨lerebene am jeweiligen Klassenmittelwert zentriert wurden (siehe Tabelle 5).
Form des Lehrerhumors
Konvergente und diskriminante Validität
Tabelle 4. Ergebnisse der Skalen- und Korrelationsanalysen auf Schu¨ler- und Klassenebene
Lerngegenstandsbezogener Humor, Humor ohne Bezug zum Lerngegenstand sowie selbstabwertender Humor korrelierten moderat positiv (vgl. Tabelle 4). Die Zusammenha¨nge mit aggressivem Humor waren in der Tendenz ebenfalls positiv, aber nicht in jedem Fall signifikant.
1
Die internen Konsistenzen der vier Subskalen waren gut bis sehr gut (Tabelle 4). Auf Klassenebene zeigte sich durchwegs eine exzellente interne Konsistenz von ¨ hnliches gilt auch fu¨r das zweite Cronbachs a > .90. A berechnete Reliabilita¨tsmaß, die Intraklassenkorrelation ICC2 – diese spezifiziert die Homogenita¨t von Messungen, bei denen ein Merkmal mit Hilfe mehrerer individueller Fremdeinscha¨tzungen (hier: zu Klassenmittelwerten aggregierte Schu¨lerwahrnehmungen) erfasst wird (wobei Werte von ICC2 .70 eine gute Reliabilita¨t indizieren; vgl. Lu¨dtke, Trautwein, Kunter & Baumert, 2006). Basierend auf den beobachteten großen Unterschieden zwischen Lehrkra¨ften (ICC1 .24) zeigten sich hierbei durchgehend sehr gute Reliabilita¨tswerte der aggregierten Schu¨lerwahrnehmungen (ICC2 .87). Die Trennscha¨rfen der finalen Items in Bezug auf ihre zugeho¨rigen Faktoren lagen auf Schu¨lerebene im Bereich rit = .51–.82 und auf Klassenebene im Bereich rit = .71 – .97.
2
Bivariate Korrelationen
selbst lachen kann und sich u¨ber sich selbst lustig macht. Die Subskala aggressiver Humor bildet schließlich mit vier Items das Ausmaß ab, in dem die Lehrkraft Humor auf Kosten der Schu¨lerinnen und Schu¨ler zeigt, etwa wenn sie ¨ ußerlichkeiten sich u¨ber die Leistungen, Vorlieben oder A von Schu¨lerinnen und Schu¨lern lustig macht.
Anmerkungen: N = 890 Schu¨lerinnen und Schu¨ler in 41 Schulklassen. ICC1 = Intraklassenkorrelation 1 (Anteil der Zwischenklassenvarianz an der Gesamtvarianz). ICC2 = Intraklassenkorrelation 2 (Maß fu¨r die Reliabilita¨t der Schulklassenmittelwerte der einzelnen Schu¨lerwahrnehmungen). Die Korrelationen wurden simultan auf beiden Ebenen mit Hilfe von Mplus 6 bestimmt (WLSMV-Scha¨tzer; Variablen auf Schu¨lerebene wurden am jeweiligen Klassenmittelwert zentriert). * p < .05.
11
Humor von Lehrkra¨ften aus Schu¨lersicht
12
Sonja Bieg und Markus Dresel
Tabelle 5. Korrelationen zwischen Lehrerhumor und Außenkriterien auf Schu¨ler- und Klassenebene Form des Lehrerhumors
ENT
INT
ZEI
HOS
SWS
Lerngegenstandsbezogener Humor Humor ohne Bezug zum Lerngegenstand Selbstabwertender Humor Aggressiver Humor
Schu¨lerebene .21* .45* -.02 .00 .10* .28* -.13* -.10*
.14* -.23* -.03 -.23*
.04 .06 .03 .06
.09* .00 .03 .01
Lerngegenstandsbezogener Humor Humor ohne Bezug zum Lerngegenstand Selbstabwertender Humor Aggressiver Humor
Klassenebene .40* .49* .14 .42* .52* .78* -.35* -.03
.11 -.22 .21 .04
-.55* -.16 -.03 -.08
-.04 -.05 .29 -.32
Anmerkungen: N = 890 Schu¨lerinnen und Schu¨ler in 41 Schulklassen. Die Korrelationen wurden simultan auf beiden Ebenen mit Hilfe von Mplus 6 bestimmt (WLSMV-Scha¨tzer; Variablen auf Schu¨lerebene wurden am jeweiligen Klassenmittelwert zentriert). ENT = Enthusiasmus der Lehrkraft. INT = Interessantheit des Unterrichts. ZEI = Zeitnutzung im Unterricht. HOS = Humororientierung der Schu¨lerinnen und Schu¨ler. SWS = Selbstwirksamkeit der Schu¨lerinnen und Schu¨ler. * p < .05.
tionen mit der wahrgenommenen Zeitnutzung im Unterricht, der Humororientierung der Schu¨lerinnen und Schu¨ler oder der Selbstwirksamkeitsu¨berzeugung der Schu¨lerinnen und Schu¨ler evident (vgl. Tabelle 5). Eine Ausnahme davon stellte lediglich ein moderat negativer Zusammenhang auf Klassenebene zwischen der Humororientierung der Schu¨lerinnen und Schu¨ler und lerngegenstandsbezogenem Humor dar.
Diskussion Das Ziel der vorliegenden Arbeit war es, auf der Basis des theoretischen Modells von Martin et al. (2003) und des fu¨r den US-amerikanischen Hochschulbereich konstruierten Fragebogens von Frymier et al. (2008) ein deutschsprachiges Instrument zur Erfassung des Humors von Lehrkra¨ften zu entwickeln und zu validieren. Zentrale Sta¨rken des vorgelegten Instruments und der berichteten Studie sind die Einnahme einer multidimensionalen Perspektive auf Lehrerhumor, die Nutzung von Schu¨lerwahrnehmungen zu dessen Operationalisierung und die systematische Beru¨cksichtigung von Schu¨ler- als auch Lehrkraftebene. In Bezug auf die faktorielle Validita¨t des entwickelten Instruments (Hypothese 1) lieferten die Analysen sehr klare Evidenz fu¨r das postulierte Modell mit vier Formen des Lehrerhumors. Konfirmatorische Faktorenanalysen erbrachten eine gute Datenpassung dieses Modells auf Ebene der individuellen Schu¨lerwahrnehmungen. Aus ¨ berlegenheit gegenu¨ber einem Ein-Faktor-Modell seiner U la¨sst sich folgern, dass Schu¨lerinnen und Schu¨ler in der Lage sind, verschiedene Formen des Lehrerhumors differenziert wahrzunehmen. Die Ergebnisse von explorativen Zwei-Ebenen-Faktorenanalysen standen auch auf Klassenebene im Einklang mit den vier angenommenen Humorformen. Diese Ergebnisse besta¨tigen die bisherigen Befunde, die fu¨r die Annahme einer differenzierten Humorwahr-
nehmung bei Studierenden sprachen (Frymier et al., 2008; Wanzer et al., 2010) – zugleich erweitern sie den Altersbereich fu¨r die Gu¨ltigkeit dieser Annahme nach unten. Daneben zeigten sich aber auch einige Unterschiede zu den Befunden aus US-amerikanischen Colleges (z. B. Frymier et al., 2008; Wanzer & Frymier, 1999; Wanzer et al., 2006; Wanzer et al., 2010). So fand sich in der vorliegenden Studie – wie erwartet – keine Evidenz dafu¨r, dass schulische Lehrkra¨fte in nennenswertem Umfang besonders aggressiven Humor einsetzen, der auf Stereotypen basiert und bestimmte Personengruppen herabsetzt (vgl. Hill, 1988; Neuliep, 1991). Weiterhin fielen die Zusammenha¨nge zwischen den vier Humorformen teilweise sogar etwas niedriger aus als in den Studien von Frymier et al. (2008) und Wanzer et al. (2010), auch wenn das gefundene Korrelationsmuster insgesamt sehr gut mit fru¨heren Befunden korrespondiert. Dieses unterstreicht nochmals, dass Schu¨lerinnen und Schu¨ler ebenso wie Studierende sehr gut zwischen verschiedenen Formen des Humors von Lehrpersonen differenzieren ko¨nnen. Die auf der Basis des validierten Vier-Faktoren-Modells gebildeten Skalen verfu¨gen u¨ber eine gute bis sehr gute Reliabilita¨t (Cronbachs a und ICC2), die den von Frymier et al. (2008) identifizierten, guten Kennwerten mindestens entsprechen. Insbesondere auf Klassenebene war die Reliabilita¨t exzellent (die Schu¨lerinnen und Schu¨ler einer individuellen Lehrkraft beurteilten deren Humor mit angemessen kleinem Messfehler). Die Messgenauigkeiten lagen damit in einem Bereich, der eine Verwendung des Instruments im Rahmen einer Individualdiagnostik von Lehrkraftmerkmalen als denkbar erscheinen la¨sst – zuku¨nftige Untersuchungen mit den dafu¨r noch no¨tigen empirischen Schritten (z. B. Normierung) erachten wir deshalb als lohnend. Evidenz fu¨r die konvergente Validita¨t des Verfahrens (Hypothese 2) lieferten Korrelationen der verschiedenen
Humor von Lehrkra¨ften aus Schu¨lersicht
Formen des Lehrerhumors mit Schu¨lerwahrnehmungen des Lehrerenthusiasmus und der Interessantheit des Unterrichts. Dabei zeigten sich differentielle Zusammenhangsmuster: Unterschiedliche Humorformen standen in unterschiedlichem Zusammenhang mit den Außenmaßen. Dies darf als weiterer Beleg fu¨r die Angemessenheit der Unterscheidung verschiedener Humorformen gewertet werden. Hypothesenkonform waren positive Zusammenha¨nge der von Lernenden als angemessen erlebten Humorformen sowie negative Zusammenha¨nge des als unangemessen erlebten aggressiven Humors zu beobachten (vgl. Wanzer et al., 2006). Auch die positiven Zusammenha¨nge zwischen selbstabwertendem Lehrerhumor und dem Enthusiasmus der Lehrkraft sowie der Interessantheit des Unterrichts stehen im Einklang mit bisherigen Ergebnissen, obwohl diese Art des Humors auf Kosten des Humorproduzenten geht und negative Auswirkungen fu¨r die betreffenden Lehrkra¨fte haben ko¨nnte (vgl. Wanzer et al., 2010). Von Lernenden wird jedoch auch selbstabwertender Lehrerhumor als unterhaltend wahrgenommen und als angemessen bewertet (Booth-Butterfield & Wanzer, 2010). Die bei diesen Analysen auf Klassenebene teilweise zu beobachtenden großen Zusammenha¨nge sind dabei nicht untypisch fu¨r die Aggregatebene der geteilten Schu¨lerwahrnehmungen (auf der Messfehler deutlich reduziert sind), liegen in einem Bereich, der aus bisherigen Studien mit unidimensional erfasstem Lehrerhumor bereits bekannt sind, und stellen die Abgrenzbarkeit der beteiligten Merkmale nicht in Frage (vgl. Dresel et al., 2014). Fu¨r die diskriminante Validita¨t des Instruments sprachen die wie erwartet nicht-signifikanten oder nur kleinen Zusammenha¨nge der verschiedenen Humorformen mit der Zeitnutzung im Unterricht sowie der Humororientierung und der Selbstwirksamkeit der Schu¨lerinnen und Schu¨ler (Hypothese 3). Die schwach negativen Zusammenha¨nge des Humors ohne Bezug zum Lerngegenstand und des aggressiven Humors mit der Zeitnutzung, die sich auf der Schu¨lerebene fanden, ko¨nnten daraufhin deuten, dass diese Humorformen von den Lernenden eher als Zeitverschwendung empfunden werden und damit wichtige Lehrfunktionen des Unterrichts nicht unterstu¨tzen (vgl. Klauer, 1985). Auch sonst lagen die wenigen signifikanten Zusammenha¨nge u¨berwiegend auf der Ebene der (von der geteilten Wahrnehmung in der Klasse abweichenden) Individualwahrnehmung der Schu¨lerinnen und Schu¨ler und beeintra¨chtigten die Validita¨t des Verfahrens auf Ebene der Klasse damit nicht. Die einzige Ausnahme davon war eine moderat negative Korrelation auf Klassenebene zwischen der Humororientierung der Schu¨lerinnen und Schu¨ler und dem wahrgenommenen lerngegenstandsbezogenen Lehrerhumor. Da die Humororientierung der Schu¨lerinnen und Schu¨ler auf Klassenebene jedoch nur eine sehr geringe Varianz aufwies (ICC1 = .03), du¨rfte dieser Zusammenhang nur von geringer substantieller Bedeutung sein.
13
Trotz des insgesamt sehr eindeutigen Ergebnismusters, das fu¨r die psychometrische Qualita¨t des Instruments spricht, weist die vorgestellte Studie auch einige Limitationen auf. Erstens ist die Generalisierbarkeit der Befunde eingeschra¨nkt, da in der vorliegenden Untersuchung nur Gymnasiasten in Bezug auf das Fach Deutsch untersucht wurden. Lehrkra¨fte ko¨nnen Humor jedoch prinzipiell in allen Fa¨chern und Schularten in seinen verschiedenen Facetten einsetzen und du¨rften dies auch tun (wenngleich in variierender Intensita¨t). Zudem sind Kinder in einem Alter von 11 bis 12 Jahren u¨blicherweise bereits in der Lage, komplexen Humor mit konzeptueller Inkongruenz und linguistischer Ambiguita¨t zu verstehen (Bergen, 1998). Deshalb darf man fu¨r die Sekundarstufe insgesamt optimistisch sein, dass der Fragebogen dort erfolgreich eingesetzt werden kann. Limitierend ist, zweitens, die auf Klassenebene vergleichsweise kleine Stichprobe, die den Einsatz von explorativen anstelle von (noch angemesseneren) konfirmatorischen Zwei-Ebenen-Faktorenanalysen bedingte. Deren Ergebnisse waren jedoch vergleichsweise eindeutig, so dass die Zweifel an einer Struktur mit vier Formen des Lehrerhumors auf Klassenebene nicht allzu groß ausfallen du¨rften. Eine dritte ¨ berpru¨fung Limitation liegt schließlich darin, dass zur U der konvergenten Validita¨t des Schu¨lerfragebogens zum Lehrerhumor ebenfalls nur die Schu¨lerperspektive herangezogen wurde, die Perspektive der Lehrkra¨fte selbst aber unberu¨cksichtigt blieb. Auch um Diskrepanzen zwischen Selbst- und Fremdwahrnehmung des Lehrerhumors zu analysieren, wa¨re es wu¨nschenswert, zuku¨nftig mehrere Perspektiven zu erfassen (vgl. Clausen, 2002). Auch wenn die genannten Limitationen auf noch offene Fragestellungen verweisen, belegen die vorgelegten Ergebnisse, dass das fu¨r den US-amerikanischen Hochschulbereich konstruierte Originalinstrument von Frymier et al. (2008) erfolgreich auf den deutschsprachigen Schulkontext adaptiert wurde. In der Zusammenschau der Ergebnisse stellt sich der „Fragebogen zur Erfassung des Humors von Lehrkra¨ften aus Schu¨lersicht“ (HUMLAS) als reliables und valides Instrument dar, das bisherige Schwachstellen bei der Erfassung des Lehrerhumors u¨berwindet – insbesondere seine eindimensionale Konzeption und seine Operationalisierung durch Lehrerselbstberichte. Damit kann ein bislang noch zu selten untersuchter Aspekt des Unterrichts und des professionellen Handelns von Lehrkra¨ften ku¨nftig differenziert und o¨konomisch erfasst werden.
Literatur Banas, J. A., Dunbar, N., Rodriguez, D. & Liu, S.-J. (2011). A review of humor in educational settings: Four decades of research. Communication Education, 60, 115 – 144. Baumert, J., Blum, W., Brunner, M., Dubberke, T., Jordan, A., Klusmann, U. et al. (2008). Professionswissen von Lehrkra¨ften, kognitiv aktivierender Mathematikunterricht und
14
Sonja Bieg und Markus Dresel
die Entwicklung von mathematischer Kompetenz (COACTIV): Dokumentation der Erhebungsinstrumente (Materialien aus der Bildungsforschung, Nr. 83). Berlin: MaxPlanck-Institut fu¨r Bildungsforschung. Baumert, J., Gruehn, S., Heyn, S., Ko¨ller, O. & Schnabel, K.-U. (1997). Bildungsverla¨ufe und psychosoziale Entwicklung im Jugendalter (BIJU). Dokumentation, Band 1. Skalen La¨ngsschnitt I, Welle 1 – 4. Berlin: Max-Planck-Institut fu¨r Bildungsforschung. Bergen, D. (1998). Development of the sense of humor. In W. Ruch (Ed.), The sense of humor: Explorations of a personality characteristic (pp. 329 – 358). New York, NY: Mouton de Gruyter. Berlyne, D. E. (1960). Conflict, arousal and curiosity. New York, NY: Mc Graw-Hill. Berlyne, D. E. (1963). Complexity and incongruity variables as determinants of exploratory choice and evaluative ratings. Canadian Journal of Psychology, 17, 274 – 290. Booth-Butterfield, S. & Booth-Butterfield, M. (1991). Individual differences in the communication of humorous messages. Southern Communication Journal, 56, 205 – 217. Booth-Butterfield, S. & Wanzer, M. B. (2010). Humor and communication in instructional contexts: Goal-oriented communication. In D. L. Fassett & J. T. Warren (Eds.), The SAGE handbook of communication and instruction (pp. 221 – 239). Thousand Oaks, CA: SAGE. Clausen, M. (2002). Qualita¨t von Unterricht – Eine Frage der Perspektive? Waxmann: Mu¨nster. Davies, C. (1998). The dog that didn’t bark in the night: A new sociological approach to the cross-cultural study of humor. In W. Ruch (Ed.), The sense of humor: Explorations of a personality characteristic (pp. 293 – 306). New York, NY: Mouton de Gruyter. Dresel, M., Bieg, S., Fasching, M., Steuer, G., Nitsche, S. & Dickha¨user, O. (2014). Humor von Lehrkra¨ften in der Schu¨lerwahrnehmung: Abgrenzung von Lehrerenthusiasmus und Zusammenha¨nge mit Dimensionen des Unterrichts. Psychologie in Erziehung und Unterricht, 61, 56 – 74. Ditton, H. & Merz, D. (1999). Interessantheit des Unterrichts. Zugriff am 03. 05. 2012. Verfu¨gbar unter http://www.quassu. net/Sch_fgb1.pdf Frymier, A. B., Wanzer, M. B. & Wojtaszczyk, A. M. (2008). Assessing students’ perceptions of inappropriate and appropriate teacher humor. Communication Education, 57, 266 – 288. Helmke, A. (2009). Unterrichtsqualita¨t und Lehrerprofessionalita¨t. Seelze-Velber: Kallmeyer/Klett. Hidi, S. & Renninger, K. A. (2006). The four-phase model of interest development. Educational Psychologist, 41, 111 – 127. Hill, D. J. (1988). Humor in the Classroom. A handbook for teachers (and other entertainers!) Springfield, IL: Thomas. Hox, J. J., Maas, C. J. M. & Brinkhuis, M. J. S. (2010). The effect of estimation method and sample size in multilevel structural equation modeling. Statistica Neerlandica, 64, 157 – 170. Jerusalem, M. & Satow, L. (1999). Schulbezogene Selbstwirksamkeit. In R. Schwarzer & M. Jerusalem (Hrsg.), Skalen zur Erfassung von Lehrer- und Schu¨lermerkmalen (S. 18 – 19). Berlin: Institut fu¨r Psychologie, Freie Universita¨t Berlin. Jo¨reskog, K. G. (1999). How large can a standardized coefficient be? Zugriff am 30. 07. 2014. Verfu¨gbar unter http://www. ssicentral.com/lisrel/techdocs/HowLargeCanaStandard izedCoefficientbe.pdf
Klauer, K. J. (1985). Framework for a theory of teaching. Teaching and Teacher Education, 1, 5 – 17. Kline, R. B. (2005). Principles and practice of structural equation modeling. New York, NY: Guilford Press. Kubie, L. S. (1971). The destructive potential of humor in psychotherapy. American Journal of Psychiatry, 127, 37 – 42. Kuiper, N. A., Martin, R. A. & Olinger, L. J. (1993). Coping humour, stress, and cognitive appraisals. Canadian Journal of Behavioural Science, 25, 81 – 96. Kunter, M., Tsai, Y.-M., Klusmann, U., Brunner, M., Krauss, S. & Baumert, J. (2008). Students’ and mathematics teachers’ perceptions of teacher enthusiasm and instruction. Learning and Instruction, 18, 468 – 482. LaFave, L., Haddad, J. & Maesen, W. A. (1996). Superiority, enhanced self-esteem, and perceived incongruity humor theory. In A. J. Chapman & H. C. Foot (Eds.), Humor and laughter: Theory research and applications (pp. 63 – 91). New Brunswick, NT: Transaction. Lefcourt, H. M. (2001). Humor: The psychology of living buoyantly. New York, NY: Kluwer Academic Publishers. Lu¨dtke, O., Trautwein, U., Kunter, M. & Baumert, J. (2006). Analyse von Lernumwelten: Ansa¨tze zur Bestimmung der ¨ bereinstimmung von Schu¨lerwahrnehReliabilita¨t und U mungen. Zeitschrift fu¨r Pa¨dagogische Psychologie, 20, 85 – 96. Marsh, H. W., Lu¨dtke, O., Nagengast, B., Trautwein, U., Morin, A. J. S., Abduljabbar, A. S. et al. (2012). Classroom climate and contextual effects: Conceptual and methodological issues in the evaluation of group-level effects. Educational Psychologist, 47, 106 – 124. Martin, R. A. (2003). Sense of humor. In S. J. Lopez & C. R. Snyder (Eds.), Positive psychological assessment: A handbook of models and measures (pp. 313 – 326). Washington, DC: American Psychological Association. Martin, R. A. (2007). The psychology of humor: An integrative approach. Oxford: Elsevier Academic Press. Martin, R. A., Puhlik-Doris, P., Larsen, G., Gray, J. & Weir, K. (2003). Individual differences in uses of humor and their relation to psychological well-being: Development of the Humor Styles Questionnaire. Journal of Research in Personality, 37, 48 – 75. Muthe´n, B. & Asparouhov, T. (2010). Beyond multilevel regression modeling: Multilevel analysis in a general latent variable framework. In J. J. Hox & J. K. Roberts (Eds.). Handbook of advanced multilevel analysis (pp. 15 – 40). New York, NY: Routledge. Muthe´n, L. K. & Muthe´n, B. O. (2010). Mplus (Version 6) [Computer Software]. Los Angeles, CA: Muthe´n & Muthe´n. Neuliep, J. W. (1991). An examination of the content of high school teachers’ humor in the classroom and the development of an inductively derived taxonomy of classroom humor. Communication Education, 40, 343 – 355. Nevo, O., Nevo, B. & Yin, J. L. S. (2001). Singaporean humor: A cross-cultural, cross-gender comparison. Journal of General Psychology, 128, 143 – 156. Peugh, J. L. & Enders, C. K. (2004). Missing data in educational research: A review of reporting practices and suggestions for improvement. Review of Educational Research, 74, 525 – 556. Rißland, B. (2002). Humor und seine Bedeutung fu¨r den Lehrerberuf. Bad Heilbrunn: Klinkhardt. Schwarzer, R. & Jerusalem, M. (2002). Das Konzept der Selbstwirksamkeit. Zeitschrift fu¨r Pa¨dagogik, 44, 28 – 53.
15
Humor von Lehrkra¨ften aus Schu¨lersicht Turner, J. C., Midgley, C., Meyer, D. K., Gheen, M., Anderman, E. M., Kang, Y. et al. (2002). The classroom environment and students’ reports of avoidance strategies in mathematics: A multimethod study. Journal of Educational Psychology, 94, 88 – 106. Wanzer, M. B. & Frymier, A. B. (1999). The relationship between student perceptions of instructor humor and students’ reports of learning. Communication Education, 48, 48 – 62. Wanzer, M. B., Frymier, A. B. & Irwin, J. (2010). An explanation of the relationship between instruction humor and student learning: Instructional humor processing theory. Communication Education, 59, 1 – 18. Wanzer, M. B., Frymier, A. B., Wojtaszczyk, A. M. & Smith, T. (2006). Appropriate and inappropriate uses of humor by teachers. Communication Education, 55, 178 – 196.
Zillman, D. (1983). Disparagement humor. In P. E. McGhee & J. H. Goldstein (Eds.), Handbook of humor research (Vol.1, pp. 85 – 108). New York, NY: Springer. Ziv, A. (1979). The teacher’s sense of humor and the atmosphere in the classroom. School Psychology International, 1, 21 – 23.
Onlinevero¨ffentlichung: 19. 12. 2014 Dr. Sonja Bieg Prof. Dr. Markus Dresel Universita¨t Augsburg Lehrstuhl fu¨r Psychologie Universita¨tsstraße 10 86135 Augsburg E-mail: sonja.bieg@phil.uni-augsburg.de
Hendrik Niemann / Wolfgang Hartje
Fahreignung bei neurologischen Erkrankungen
Hendrik Niemann Wolfgang Hartje
Fortschritte der Neuropsychologie
www.hogrefe.de
Fahreignung bei neurologischen Erkrankungen
(Reihe: „Fortschritte der Neuropsychologie“, Band 16). 2016, VII/98 Seiten, € 22,95 / CHF 29,90 (Im Reihenabonnement € 15,95 / CHF 21,50) ISBN 978-3-8017-2644-7 Auch als E-Book erhältlich Der Band beschreibt die Grundlagen der neuropsychologischen Untersuchung und Begutachtung der Fahreignung von Patienten mit zerebralen Schädigungen oder Erkrankungen. Bei der Darlegung der rechtlichen Grundlagen wird speziell auf die Legitimation und den besonderen Stellenwert
der klinischen Fahreignungsbeurteilung eingegangen, die sich aus der ärztlichen/psychologischen Aufklärungspflicht einerseits und Schweigepflicht andererseits ergeben. Bei der Darstellung der als verkehrsrelevant geltenden Leistungsmängel wird deutlich, dass nicht die Diagnose eines bestimmten Krankheitsbildes entscheidend ist, sondern die Feststellung der Art und Schwere der im Einzelfall vorliegenden Funktionsstörungen. Für die praktische Aufgabe der neuropsychologischen Fahreignungsbegutachtung wird das schrittweise Vorgehen bei der Untersuchung und Beurteilung der Fahreignung, der Aufklärung der Patienten und Beratung über Möglichkeiten zur Wiederherstellung der Fahreignung als Leitfaden beschrieben.
Diagnostica, 62 (1), 16 – 30 Hogrefe Verlag, Go¨ttingen 2014
Der Kinder-Titelrekognitionstest (K-TRT) Ein Instrument zur Erfassung des Lesevolumens von Kindern im Deutschen Sascha Schroeder, Jutta Segbers und Pauline Schröter
Zusammenfassung. In diesem Beitrag stellen wir den K-TRT (Kinder-Titelrekognitionstest) vor, ein o¨konomisches und objektives Verfahren, um das Lesevolumen bei Kindern und Jugendlichen im Deutschen zu erfassen. Der K-TRT orientiert sich an vergleichbaren Instrumenten aus dem Englischen, die eine Rekognitionsmethode verwenden: Die Probanden sollen angeben, welche Titel sie aus einer Liste von Kinder- und Jugendbu¨chern kennen. Um Ratetendenzen zu vermeiden, entha¨lt diese Liste auch Distraktor-Titel. Wir stellen dar, wie der K-TRT entwickelt wurde und welche Struktur er hat. Danach berichten wir die Ergebnisse von zwei Validierungsstudien. Studie 1 untersucht die Reliabilita¨t des Verfahrens und die Verteilung der Testwerte in einer altersheterogenen Stichprobe. Studie 2 vergleicht die differenziellen Außenkorrelationen des K-TRT mit dem Wortschatz und der Lesegeschwindigkeit in einer Stichprobe von Schu¨lerinnen und Schu¨lern aus der 2., 4. und 6. Klasse. Die Ergebnisse sprechen fu¨r die Reliabilita¨t und Konstruktvalidita¨t des K-TRTs. Alle Items und ihre Kennwerte sind im Artikel aufgefu¨hrt. Schlu¨sselwo¨rter: Lesevolumen, Rekognitionstest, Leseentwicklung
The Children Title Recognition Test (K-TRT): A Test to Assess Children’s Print Exposure in German Abstract. In this article we introduce the K-TRT (The Children Title Recognition Test), an economic and objective method to assess children’s print exposure in German. The K-TRT is modeled on other recognition measures commonly used in English: Children have to indicate which titles from a list of children’s books they know. In order to prevent guessing, the list also comprises distractor items. First, the development and structure of the K-TRT are described. Next, the results from two validation studies are reported. In Study 1, the reliability and distribution of the test scores were examined in a sample of children and adults. In Study 2, we report differential correlations of the K-TRT with vocabulary and reading fluency measures in Grades 2, 4, and 6. Together, results indicate that the K-TRT is a reliable and valid measure of children’s print exposure. All items and their parameters are provided in the article. Keywords: print exposure, title recognition test, reading development
Seit dem bekannten Aufsatz von Stanovich (1986) interessiert sich die psychologische Forschung versta¨rkt fu¨r das Zusammenspiel von Leseverhalten und Lesefa¨higkeit (z. B. Becker, McElvany & Kortenbruck, 2010; Pfost, Do¨rfler & Artelt, 2013): Die Vorstellung ist dabei, dass Kinder, die viel lesen, leserelevante Prozesse trainieren, was sich positiv auf ihre Leseentwicklung auswirkt (Wortschatz, Lesegeschwindigkeit etc.). Inzwischen liegt starke Evidenz dafu¨r vor, dass zwischen dem Lesevolumen eines Kindes und seiner (spa¨teren) Lesefa¨higkeit eine (reziproke) Beziehung besteht (Mol & Bus, 2011). Forschungsbedarf besteht aber hinsichtlich der Frage, wie sich das Lesevolumen optimal erfassen la¨sst. Wir danken dem ganzen Team REaD fu¨r seine Hilfe bei der Erstellung des Tests und der Durchfu¨hrung der Testungen, Frau Christine Kranz, Stiftung Lesen Mainz, fu¨r hilfreiche Kommentare zur aktuellen Kinder- und Jugendliteratur und Herrn Benjamin Scheffler, Kinder- und Jugendbibliothek Berlin, fu¨r die Bereitstellung von Ausleihstatistiken. DOI: 10.1026/0012-1924/a000131
In diesem Beitrag stellen wir ein neues Forschungsinstrument vor, mit dem sich das Lesevolumen von Kindern schnell, einfach und objektiv erheben la¨sst: den KinderTitelrekognitionstest (K-TRT). Der K-TRT ist eine Adaption des „Title Recognition Test“, der von der Gruppe um Keith Stanovich entwickelt und validiert wurde (Cunningham & Stanovich, 1990; Allen, Cipielewski & Stanovich, 1992; Stanovich & West, 1989; West, Stanovich & Mitchell, 1993). Dieses Verfahren ist inzwischen ein Standardinstrument im englischen Sprachraum und wurde bereits in andere Sprachen, nicht jedoch das Deutsche u¨bertragen. Im Folgenden diskutieren wir zuna¨chst die methodischen Vor- und Nachteile verschiedener Verfahren zur Erfassung des Lesevolumens bei Kindern und beschreiben, wie der K-TRT konstruiert wurde. Danach berichten wir die Ergebnisse von zwei Validierungsstudien, die unterschiedliche Zielstellungen hatten. In Studie 1 verglei-
Der Kinder-Titelrekognitionstest (K-TRT)
chen wir die Erkennungsraten der im K-TRT verwendeten Titel in einer Stichprobe, welche die gesamte Lebensspanne abdeckte. Dadurch la¨sst sich u¨berpru¨fen, ob der K-TRT das Lesevolumen von Kindern und Jugendlichen spezifisch erfasst. In Studie 2 wurde der K-TRT dann in der 2., 4. und 6. Klasse eingesetzt und seine Außenkorrelationen mit Aspekten der Lesefa¨higkeit und anderen fragebogen-basierten Lesevariablen bestimmt.
Erfassung des Lesevolumens Das Lesevolumen (im Englischen meist als „print exposure“ bezeichnet, vgl. Stanovich & West, 1989), d. h., wie lange und wie ha¨ufig ein Kind liest, ist ein wichtiger Faktor in der Leseentwicklung. Allerdings ist es nicht leicht zu erfassen. Als Goldstandard gelten nach wie vor Medientagebu¨cher, in denen Personen detailliert angeben, von wann bis wann sie welche Aktivita¨ten (z. B. Lesen) durchgefu¨hrt haben (Allen et al., 1992; Anderson, Wilson & Fielding, 1988). Der gro¨ßte Vorteil solcher Verfahren ist, dass sie eine pra¨zise Scha¨tzung (Minuten/Tag) fu¨r verschiedene, verhaltensnahe Indikatoren des Leseverhaltens erlauben. Allerdings sind sie auch nicht unproblematisch, da sie mit erheblichem Aufwand verbunden sind. Zum einen ist das Protokollieren aller Aktivita¨ten sehr zeitaufwa¨ndig, was meist dazu fu¨hrt, dass nur Daten fu¨r einen relativ kurzen Zeitraum (z. B. eine Woche) erhoben werden (Anderson et al., 1988), deren Generalisierbarkeit fu¨r das sonstige Leseverhalten der Person fraglich ist. Zum anderen ist der kognitive Aufwand, der mit dem Ausfu¨llen von Medientagebu¨chern verbunden ist, sehr hoch. Er besteht darin, dass Personen ihren kontinuierlichen Tagesablauf in diskrete Teilta¨tigkeiten klassifizieren mu¨ssen, die jedoch manchmal inhaltlich und zeitlich schwer voneinander zu trennen sind (z. B. Lesen in der U-Bahn, beim Fernsehen etc.). Dieses Problem wird noch versta¨rkt, wenn die Medientagebu¨cher, wie in den meisten Studien mit Kindern, nicht zeitnah zur Ta¨tigkeit selbst ausgefu¨llt werden, sondern am na¨chsten Tag in der Schule (z. B. Allen et al., 1992). Dadurch erho¨ht sich die Abstraktionsleistung deutlich, da dies eine retrospektive Rekonstruktion des Tagesverlaufs erfordert. Fragebogenskalen, die das Lesevolumen global erfassen, z. B. wie ha¨ufig man zum Vergnu¨gen liest, wie viele Bu¨cher man besitzt etc. (vgl. Becker et al., 2010; Pfost, Do¨rfler & Artelt, 2010), sind weniger aufwa¨ndig und werden deshalb ha¨ufiger verwendet. Solche Skalen ko¨nnen in Fragebo¨gen oder in Interviews eingesetzt werden und von Kindern selbst oder von ihren Eltern beantwortet werden. Der offensichtlichste Vorteil solcher Verfahren ist, dass sie sehr o¨konomisch sind und auch in Gruppentestungen eingesetzt werden ko¨nnen. Im Gegensatz zur Tagebuch-Methode erlauben sie jedoch keine absolute Bestimmung der Lesezeit (in Minuten), sondern erfassen lediglich relative Unterschiede zwischen Perso-
17
nen. Auch ist relevant, dass es sich um Selbstausku¨nfte handelt, die methodischen Verzerrungen, wie sozialer Erwu¨nschtheit etc., unterliegen. Das gilt gerade fu¨r das ¨ fThema Lesen, das in den letzten Jahren stark in der O fentlichkeit diskutiert wird. Kinder wie Eltern ko¨nnen deswegen dazu neigen, mehr Leseaktivita¨t anzugeben als eigentlich stattfindet. Relevanter als ein solcher allgemeiner Bias ist jedoch, dass Fragebogenskalen neben dem Lesevolumen u. U. auch andere Konstrukte miterfassen. Beantworten die Kinder die Fragen selbst, ist eine gewisse konzeptuelle ¨ berschneidung zur Lesemotivation gegeben („Wie ha¨ufig U liest du zum Vergnu¨gen?“ vs. „Lesen macht mir Spaß.“). ¨ berlapWerden sie von den Eltern beantwortet, gibt es U pungen mit Aspekten der Bildungsaspiration, d. h. dem perso¨nlichen Stellenwert bildungsrelevanter Aktivita¨ten. ¨ berschneidungen im AntwortforHinzu kommen noch U mat, die zu geteilter Methodenvarianz fu¨hren. Solche in¨ berlappungen fu¨hren meist haltlichen und methodischen U zu sehr hohen Korrelationen zwischen diesen Variablen (r = .5 – .7 auf manifester Ebene). Dadurch wird die Beantwortung der Frage nach der Interrelation der verschiedenen Konstrukte (wie Lesemotivation, Leseverhalten und Lesefa¨higkeit; McElvany, Kortenbruck & Becker, 2008) zusa¨tzlich erschwert. Hier wa¨ren alternative Maße, die eine unabha¨ngigere Erfassung verschiedener Konstrukte erlauben, wu¨nschenswert. Als Reaktion auf solche Probleme hat die Gruppe um Keith Stanovich verschiedene Forschungsinstrumente entwickelt, die auf eine objektive und unabha¨ngige Erfassung des Lesevolumens abzielen (Stanovich & West, 1989, Cunningham & Stanovich, 1990), wie z. B. den AutorenRekognitionstest oder den Zeitschriften-Rekognitionstest. Alle diese Verfahren folgen einer signal-detektionstheoretischen Logik, bei der reale und fiktive Element voneinander diskriminiert werden mu¨ssen. Beim Autoren-Rekognitionstest werden z. B. reale (Steven King, Paul Auster etc.) und fiktive (Allen Kirkby, John Miller etc.) Autorennamen miteinander gemischt. Aufgabe der Probanden ist, die Autoren zu markieren, die sie kennen. Durch die Distraktoren lassen sich Ratetendenzen vermeiden und methodisch kontrollieren, indem der Anteil falsch erkannter Distraktoren vom Anteil richtig erkannter Autoren abgezogen wird. Dem gleichen Prinzip folgt auch der ZeitschriftenRekognitionstest, nur dass hier reale und fiktive Zeitschriftentitel verwendet werden. Im Gegensatz zu Erwachsenen kennen Kinder ha¨ufig nicht die Namen der Autoren, deren Bu¨cher sie lesen. Stattdessen sind die konkreten Titel („Die kleine Hexe“) oder die zentralen Protagonisten (Harry Potter) prominenter. Aus diesem Grund haben Cunningham und Stanovich (1990) fu¨r Kinder den Titelrekognitionstest (TRT) entwickelt, bei dem zwischen echten und fiktiven Kinderbuchtiteln unterschieden werden muss. ¨ hnlich wie Fragebogenskalen erlauben RekognitiA onsmethoden keine absolute, sondern nur eine relative
18
Sascha Schroeder, Jutta Segbers und Pauline Schro¨ter
Bestimmung des Lesevolumens. Daru¨ber hinaus ist offensichtlich, dass es sich um eine indirekte Erfassung des Lesevolumens handelt: Einen Titel zu kennen, impliziert nicht zwangsla¨ufig, dass man das Buch auch gelesen hat – man kann ihn z. B. auch nur in einer Buchhandlung gesehen oder von Freunden davon erfahren haben. Allerdings argumentieren Cunningham und Stanovich (1990), dass diese indirekte Erfassung auch Vorteile hat, da dadurch verschiedene leserelevante Verhaltensklassen erfasst werden, die selbst wieder mit dem Lesevolumen korrelieren. Wenn jemand z. B. einen Titel kennt, weil er das zugeho¨rige Buch in einer Bu¨cherei gesehen hat, dann hat diese Person vielleicht einen Bu¨chereiausweis, was selbst wieder mit einem ho¨heren Lesevolumen assoziiert ist. Es kann also durchaus sein, dass der TRT gerade aufgrund der Tatsache, dass er viele leserelevante Aktivita¨ten gleichzeitig abdeckt, das Lesevolumen globaler und damit stabiler erfasst. Gleichzeitig ist er sehr o¨konomisch und kann sowohl in Einzel- als auch in Gruppensettings eingesetzt werden, a¨hnlich wie Fragebogenskalen. Im Gegensatz zu diesen ist er aufgrund seiner Anlage weniger anfa¨llig fu¨r soziale Erwu¨nschtheit und fu¨hrt zu ¨ berschneidungen mit anderen leserelevanten weniger U Konstrukten, wie z. B. Lesemotivation und Leseselbstkonzept. Seit ihrer Einfu¨hrung haben sich Rekognitionsverfahren als ausgesprochen erfolgreich erwiesen. Mol und Bus (2011) haben in ihrer Metaanalyse zum Zusammenhang zwischen Leseverhalten und (schrift)sprachlichen Fa¨higkeiten, die u¨ber 100 Studien auswertet, sogar nur Studien aufgenommen, die diese Methode verwendet haben. Sie liegen mittlerweile sowohl fu¨r verschiedene Formate (Buch, Comic etc.) als auch verschiedene Altersgruppen (Vorschulkinder, Schulkinder, Erwachsene) vor und ko¨nnen entweder von den Kindern selbst oder auch von Eltern oder Erziehern beantwortet werden (z. B. als Maß dafu¨r, wie gut sie sich selbst mit Kinder- und ¨ bertragunJugendliteratur auskennen). Es liegen auch U gen in verschiedene andere Sprachen vor (u. a. Franzo¨sisch, Finnisch, Norwegisch), nicht jedoch fu¨r das Deutsche. Die Reliabilita¨t und Validita¨t der Rekognitionsmethoden ist gut belegt. Es liegen mehrere Studien vor, die sie mit anderen Verfahren verglichen, mit verschiedenen Außenkriterien in Beziehung gesetzt und ihre Konstruktvalidita¨t u¨berpru¨ft haben. So korreliert der englische TRT hoch mit Werten aus dem Tagebuch-Verfahren (Allen et al., 1992), und sagt die Lesefa¨higkeit sowohl querschnittlich als auch la¨ngsschnittlich voraus (Allen et al., 1992; Harlaar, Dale & Plomin, 2007). Er ist jedoch kaum mit lesefernen Konstrukten assoziiert (vgl. Stanovich, West & Harrison, 1995) und korreliert mit o¨kologisch validen Verhaltensindikatoren des Lesevolumens (z. B. haben Personen, die im Wartebereich eines Flughafens ein Buch lesen, ho¨here TRTWerte als Personen, die das nicht tun; West, Stanovich & Mitchell, 1993).
Studien, die Fragebogenmaße und Rekognitionstests direkt miteinander verglichen haben (Acheson, Wells & MacDonald, 2008; Allen et al., 1992; Stanovich & Cunningham, 1992; Spear-Swerling, Brucker & Alfano, 2010), zeigen meist, dass Rekognitions- und Fragebogenmaße nur moderat miteinander korrelieren (r = .2–.3) und die Außenkorrelationen zu Indikatoren der Leseentwicklung fu¨r Rekognitionsmaße meist sta¨rker ausfallen als fu¨r Fragebogenmaße (r = .5–.6 vs. r = .3–.4). Angesichts ihrer breiten Verwendung und guten psychometrischen Eigenschaften wa¨re ein TRT in deutscher Sprache wu¨nschenswert. Wir haben in Anlehnung an Cunningham und Stanovich (1990) ein vergleichbares Verfahren erstellt, das auf deutsche Kinderbuchtitel zuru¨ckgreift. Im Folgenden beschreiben wir zuerst, wie bei der Konstruktion des Tests vorgegangen wurde und welche Struktur er hat. Danach berichten wir die Ergebnisse von zwei Validierungsstudien, in denen wir seine psychometrischen Eigenschaften und Konstruktvalidita¨t u¨berpru¨ft haben.
Der K-TRT: Entwicklung und Struktur Die Erkennungsraten und damit die Sensitivita¨t der Rekognitionsbeurteilungen im TRT werden von verschiedenen Faktoren (wie Bekanntheit, Lesealter, Aktualita¨t etc.) beeinflusst, weshalb der Auswahl der Titel eine Schlu¨sselstellung zukam. Um sicherzustellen, dass die Titel aktuell und den Kindern wirklich bekannt sein ko¨nnen, haben wir auf mehrere Informationsquellen zuru¨ckgegriffen: Erstens haben wir die Buchpra¨ferenzen von Kindern und Jugendlichen analysiert, die an unseren Untersuchungen teilgenommen haben oder uns anderweitig verfu¨gbar gemacht wurden (z. B. die „Fragebo¨gen“ der KinderZEIT 2010 – 2012 oder die Lieblingsbu¨cher aus der KIM-Studie 2012, vgl. Medienpa¨dagogischer Forschungsverbund Su¨dwest, 2013). Zweitens haben wir die Verkaufsstatistiken von großen Online-Buchhandlungen (amazon.de, buecher.de) ausgewertet, denen detailliert entnommen werden kann, welche Titel in welchen Altersgruppen wie ha¨ufig verkauft werden. Drittens hat uns eine große Berliner Kinder- und Jugendbibliothek ihre Ausleihstatistiken fu¨r die Jahre 2010 – 2012 zur Verfu¨gung gestellt, die Informationen u¨ber die Beliebtheit einzelner Titel in verschiedenen Altersgruppen enthalten (Scheffler, 2012). Aus diesen Informationen wurde dann eine erste Liste von Titeln erstellt, die eine hinreichende Bekanntheitsstreuung hatten und verschiedene Zielgruppen ansprachen. Auf Grundlage dieser Auswahl haben wir dann Gespra¨che mit Kinderbuch-Experten (z. B. von der Stiftung Lesen), Buchha¨ndlern (z. B. bei der Leipziger Buchmesse) und Grundschullehrkra¨ften gefu¨hrt. Auf Grundlage dieser Gespra¨che wurde die Liste noch einmal revidiert und optimiert. So stellte sich z. B. heraus, dass
Der Kinder-Titelrekognitionstest (K-TRT)
Kinder vornehmlich Serien lesen, wie „Die drei ???“, „Das magische Baumhaus“ oder „Warrior Cats“. Sie ko¨nnen nur bedingt zwischen verschiedenen Einzeltiteln innerhalb einer Reihe diskriminieren, unterscheiden sich aber in ihrer Kenntnis ganzer Reihen. So gibt es z. B. neben den klassischen „Die drei ???“ auch „Die drei ???-Kids“ fu¨r ju¨ngere Kinder und „Die drei !!!“, die sich speziell an Ma¨dchen wendet. Da nicht jede dieser Reihen allen Kindern bekannt ist, haben wir sowohl Einzelba¨nde als auch Serien in die Auswahlliste aufgenommen. Am Ende des Auswahlprozesses stand eine Liste von 30 Titeln, die sowohl klassische Kinder- und Jugendbu¨cher („Das kleine Gespenst“, „Urmel“) als auch neuere Titel beinhaltete (die nach 2000 erschienen sind). Daru¨ber hinaus wurde darauf geachtet, dass die Titel verschiedene Lesealter (6 – 8, 9 – 10, 11 – 12 Jahre) abdecken und sowohl bekannte als auch eher unbekannte Bu¨cher enthalten. Eine Liste aller Titel, inklusive relevanter Verkaufsmerkmale (Amazon-Verkaufsrang, Erscheinungsjahr, Lesealter) und ihrer mittleren Erkennungsraten in den Validierungsstudien findet sich in Tabelle 1. Die 30 Titel wurden zufa¨llig in 3 Sets aufgeteilt, mit denen zwei Testversionen A und B erstellt wurden (siehe Tabelle 1). Die Titel in Set 1 wurden in beiden Versionen parallel eingesetzt, um ihre Schwierigkeit vergleichen zu ko¨nnen. In Version A wurde zusa¨tzlich Set 2 verwendet und in Version B Set 3. Gleichzeitig wurde zu jedem Titel in Set 2 und 3 jeweils ein Distraktor-Titel generiert. Die Distraktor-Titel von Set 2 wurden in Version B verwendet und die von Set 3 in Version A. Jede Version enthielt also 20 echte und 10 Distraktor-Titel. Die Distraktor-Titel wurden dabei so generiert, dass jeweils ein relevantes Merkmal des Original-Titels erhalten blieb, um gro¨ßtmo¨gliche Authentizita¨t zu gewa¨hrleisten (z. B. „Beast Quest“ vs. „Dragon God“, „Harry Potter und die Heiligtu¨mer des Todes“ vs. „Harry Potter und die Ho¨hle der Verdammnis“ etc.). Insgesamt waren die Distraktor-Titel sehr realistisch und wurden in Pilotuntersuchungen als plausible Kinderbuchtitel beurteilt. Gleichzeitig haben wir gepru¨ft, dass es keine echten Bu¨cher mit den gleichen Namen gibt. Wie in dem Original-TRT von Cunningham und Stanovich (1990) wurden die Titel der beiden Testversionen in alphabetischer Reihenfolge auf ein DIN A4-Blatt gedruckt und mit einem Ka¨stchen und der Beschriftung „Kenne ich“ versehen. Das heißt, die Probanden mu¨ssen nicht zwischen zwei Optionen auswa¨hlen und DistraktorTitel aktiv zuru¨ckweisen, sondern lediglich angeben, ob sie den Titel kennen. Das hat den Vorteil, dass sich der kognitive Aufwand bei der Bearbeitung wesentlich vereinfacht, was gerade fu¨r Untersuchungen mit Kindern essenziell ist. Der signal-detektionstheoretischen Logik des Tests folgend, werden bei der Auswertung angekreuzte echte Titel als „Hits“ gewertet und angekreuzte DistraktorTitel als „False Alarms“, die zur Korrektur von Rate-
19
tendenzen verwendet werden (das sogenannte Two-HighThreshold-Model, vgl. Snodgrass & Corwin, 1988). Die Rationale dahinter ist, dass eine Person auch allein durch Raten viele Treffer bei den echten Titeln haben kann, aber dann auch versehentlich mehr Distraktoren ankreuzen wird. Indem man die Anzahl der False Alarms von den Hits abzieht, erha¨lt man einen korrigierten Testscore, der eventuelle Rate-Tendenzen kontrolliert. Durch das reduzierte Antwortformat ist jedoch keine weitergehende Differenzierung zwischen „Misses“ (d. h. echte Titel, die nicht angekreuzt wurden) und „Correct Rejections“ (d. h. Distraktor-Titel, die nicht angekreuzt werden) mo¨glich. Die korrekte Zuru¨ckweisung von Distraktoren tra¨gt deshalb nicht zum Testscore bei. Die Instruktion fu¨r den K-TRT war eine direkte ¨ bersetzung der Instruktion des Original-TRTs und wies U explizit auf die Distraktor-Titel und ihre Funktion hin: „Hier siehst Du die Namen von einigen Bu¨chern. Einige Buchnamen gibt es wirklich, andere sind erfunden. Lies Dir alle Namen gru¨ndlich durch und kreuze fu¨r jeden an, ob Du ihn kennst. Rate nicht, sondern kreuze nur die Namen an, die du wirklich kennst. Vergiss nicht, dass einige Namen erfunden sind. Raten kann deswegen leicht erkannt werden.“ Die Bearbeitung erfolgte ohne Zeitlimit und ist sowohl in Einzel- als auch in Gruppensitzungen mit einer durchschnittlichen Bearbeitungszeit von ca. 3 – 5 Minuten sehr o¨konomisch.
Ziele der Validierungsstudien 1 und 2 Um die neu konstruierte Version des K-TRTs zu u¨berpru¨fen, wurden zwei Validierungsuntersuchungen durchgefu¨hrt. Diese verfolgten komplementa¨re Zieldimensionen, die sich in ihrer analytischen Breite und Tiefe gegenseitig erga¨nzten: In Studie 1 wurde der K-TRT eher informell in einer heterogenen, angefallenen Stichprobe eingesetzt, die einen großen Altersbereich abdeckte. Ein erstes Ziel dieser Untersuchung war, na¨here Informationen zur Reliabilita¨t und der Verteilung von Personen- und Itemkennwerten zu gewinnen. Daru¨ber hinaus sollte ein Teilaspekt der Konstruktvalidita¨t des K-TRTs u¨berpru¨ft werden, na¨mlich die spezifische Erfassung des Lesevolumens von Kindern und Jugendlichen. Wenn dies der Fall ist, dann sollten Kinder und Jugendliche bessere Testwerte erzielen als Erwachsene. Zudem sind im K-TRT Titel enthalten, die eine gewisse Geschlechterspezifita¨t aufweisen („Ma¨dchen“- vs. „Jungen“-Bu¨cher) und sich deshalb bezu¨glich ihrer Bekanntheit in den beiden Geschlechtergruppen unterscheiden sollten. Außer dem Alter und Geschlecht wurden in Studie 1 keine weiteren Variablen erfasst. Studie 2 hatte einen komplementa¨ren Fokus: Hier wurde der K-TRT bei Kindern in der 2., 4. und 6. Klasse eingesetzt. Dabei sollte zuna¨chst u¨berpru¨ft werden, ob sich die Alters- und Geschlechtereffekte aus Studie 1 in
20
Sascha Schroeder, Jutta Segbers und Pauline Schro¨ter
Tabelle 1. Titel, Erscheinungsjahr, Lesealter und Verkaufsrang der Bu¨cher im K-TRT, Verteilung der Titel (T) und Distraktor-Titel (DT) auf die Versionen A und B sowie die Hit- und False Alarm-Raten in Studie 1 und 2 Titel
Version
Studie 1
Studie 2
Jahr
Altera
Rangb
A
B
A
B
A
B
T: T: T: T: T: T: T: T: T: T:
Das Schwein kam mit der Post Die kleine Hexe Die Olchis Drachenreiter Ein Pferd namens Milchmann Eliot und Isabella No Jungs! Zutritt nur fu¨r Hexen Urmel aus dem Eis Warrior Cats Yakari
2008 1957 1990 1997 2007 2008 2001 1969 2008 1977
9 8 8 10 8 6 9 8 10 5
13177 1264 999 1728 2581 7686 1465 7155 668 1135
T T T T T T T T T T
Set 1 T T T T T T T T T T
.04 .81 .73 .33 .13 .04 .14 .73 .34 .58
.04 .82 .69 .29 .23 .09 .12 .72 .44 .65
.07 .70 .69 .19 .15 .10 .12 .39 .22 .70
.09 .75 .68 .24 .12 .08 .13 .45 .23 .71
T: DT: T: DT: T: DT: T: DT: T: DT: T: DT: T: DT: T: DT: T: DT: T: DT:
Beast Quest Dragon God Das magische Baumhaus Der verfluchte Berg Der kleine Drache Kokosnuss Die Bru¨der Drachenpfote Die unendliche Geschichte Das Tal der langen Schatten Die wilden Fußballkerle Blutmorgen Die wilden Hu¨hner Die Stadt der Hunde Gregs Tagebuch Kapita¨n Kuddeldu Kein Keks fu¨r Kobolde Große Kinder kru¨meln nicht Lola Schwesterherz Lars der Superdetektiv Mia and me Naseweis der Magier
2008
8
4694
T
Set 2 DT
.09
.06
.07
.08
2007
8
678
T
DT
.68
.03
.73
.09
2002
6
66
T
DT
.61
.07
.63
.03
1979
12
742
T
DT
.68
.02
.37
.08
2003
8
9348
T
DT
.37
.00
.45
.02
1993
10
3944
T
DT
.72
.05
.61
.07
2008
10
85
T
DT
.71
.02
.68
.04
1989
8
2087
T
DT
.27
.05
.33
.05
2010
9
3258
T
DT
.19
.05
.24
.12
2012
7
705
T
DT
.34
.03
.44
.07
T: DT: T: DT: T: DT: T: DT: T: DT: T: DT: T: DT: T: DT: T: DT: T: DT:
Das kleine Gespenst Die Geisterweide Das Vamperl Das Schlamperl Die Sockensuchmaschine Die Hosensuchmaschine Fliegender Stern Strahlende Hufe Harry Potter und die Heiligtu¨mer des Todes Harry Potter und die Ho¨hle der Verdammnis Immer dieser Michel Alles klar, Cora O wie scho¨n ist Panama Morgen komme ich wieder, sagte der Tiger Rico, Oskar und die Tieferschatten Klaus und ich Tintenherz Tintenschmerz Der kleine Ritter (Drache) Trenk Das rosarote Nashorn
1966
6
501
DT
Set 3 T
.01
.87
.10
.71
1985
7
7959
DT
T
.01
.15
.07
.11
1989
8
10562
DT
T
.02
.09
.05
.10
2007
8
19040
DT
T
.00
.20
.03
.30
2007
10
1216
DT
T
.27
.78
.45
.72
1971
8
2153
DT
T
.01
.49
.09
.30
1978
5
4950
DT
T
.07
.63
.08
.51
2011
10
1196
DT
T
.04
.22
.05
.30
1003
11
3481
DT
T
.05
.64
.09
.34
2006
6
2078
DT
T
.07
.17
.07
.21
Anmerkungen: a Nach Verlagsangaben. b Amazon-Gesamtverkaufsrang (Stand: 13. 09. 2013).
Der Kinder-Titelrekognitionstest (K-TRT)
einer neuen, breiter gefassten Schu¨lerstichprobe replizieren lassen, die fu¨r pa¨dagogisch-psychologische Studien typischer ist. Im Gegensatz zu Studie 1 wurden jedoch auch weitere Variablen erhoben, die eine weitergehende ¨ berpru¨fung der Konstruktvalidita¨t des K-TRTs erlauben. U So wurden der Wortschatz und die Lesegeschwindigkeit der Kinder erfasst, fu¨r die Effekte des Lesevolumens intensiv diskutiert werden (Stanovich, 1986). Gleichzeitig wurden mittels Fragebogen auch Kurzskalen zur Lesemotivation, zum Leseselbstkonzept und zur Anzahl der Bu¨cher erhoben, die die Kinder besitzen. Dadurch la¨sst sich kla¨ren, ob und inwieweit sich Fragebogen- und Rekognitionsmaße in ihrer Vorhersagekraft unterscheiden. Wir erwarteten, dass sie nur moderat miteinander korrelieren und der K-TRT ho¨here Außenkorrelationen zu den Lesekompetenz-Maßen aufweist.
Studie 1 Das zentrale Ziel der ersten Validierungsstudie war, erste Informationen zur Reliabilita¨t des K-TRTs und die Verteilung der Personen und Itemkennwerte zu ermitteln. Gleichzeitig sollte u¨berpru¨ft werden, ob es altersspezifische Effekte gibt, die einen wichtigen Aspekt der Konstruktvalidita¨t darstellen. Um eine mo¨glichst breite Altersspanne abzudecken, wurde der K-TRT informell in einer heterogeneren Stichprobe eingesetzt, als fu¨r pa¨dagogisch-psychologischen Untersuchungen u¨blich ist, und nur das Alter und das Geschlecht der Probanden erfasst. Wir erwarteten, dass Kinder ho¨here Testwerte erreichen als Erwachsene und dass es plausible geschlechterspezifische Pra¨ferenzen fu¨r einzelne Titel gibt.
Methode Die Studie wurde in Form einer Fragebogenaktion an verschiedenen o¨ffentlichen Veranstaltungen (Lange Nacht der Wissenschaft, KinderUni, Tag der offenen Tu¨r etc.) in den Jahren 2012 und 2013 durchgefu¨hrt. Die Teilnehmer und Teilnehmerinnen wurden dabei aufgefordert, ihr Wissen u¨ber Kinderbu¨cher zu testen, und konnten, sofern (optional) eine Kontaktadresse hinterlassen wurde, an der Verlosung von Buchgutscheinen im Wert von 10 Euro teilnehmen. Die Teilnehmer wurden daru¨ber aufgekla¨rt, dass ihre Angaben anonymisiert in einer wissenschaftlichen Studie ausgewertet werden und gebeten, freiwillig auch ihr Alter (in Jahren) und ihr Geschlecht anzugeben. Außer dem K-TRT wurden keine weiteren Variablen erfasst. Der K-TRT wurde in den Versionen A und B von den Teilnehmern selbststa¨ndig ausgefu¨llt und in eine Antwortbox eingeworfen. Insgesamt gaben 381 Personen einen Antwortzettel ab. Von diesen fehlten bei 29 (8 %) Angaben zum Ge-
21
schlecht und/oder dem Alter. Vier Fragebo¨gen (1 %) wurden ausgeschlossen, da ein Alter ju¨nger als 6 Jahre angegeben worden war. Insgesamt wurden die Antworten von 348 Personen (161 Version A, 187 Version B) ausgewertet, von denen 200 (58 %) angaben, weiblich zu sein, und 148 (43 %) ma¨nnlich. Wie intendiert war die Spannweite der Altersverteilung betra¨chtlich (6 – 76 Jahre, M = 21.2, SD = 19.2). Da die Kinder die Veranstaltungen meist in Begleitung eines (Groß-)Elternteils besuchten, stammten ca. zwei Drittel aller Antworten von Kindern oder Jugendlichen (bis 20 Jahren) und ca. ein Drittel von Erwachsen. Auf Grundlage der Altersverteilung wurden sieben verschiedene Altersgruppen gebildet: drei Gruppen ju¨ngerer (6 – 8 Jahre), mittlerer (9 – 10 Jahre) und a¨lterer Kinder (11 – 13 Jahre), eine Gruppe Jugendlicher (14 – 20 Jahre) und drei Gruppen ju¨ngerer (21 – 35 Jahre), mittlerer (36 – 50 Jahre) und a¨lterer Erwachsener (51 – 76 Jahre). Die Geschlechterverteilung in den Gruppen unterschied sich nicht, c2(6, N = 348) = 11.44. Aufgrund eines Versehens wurde einer der Titel in Version B falsch abgedruckt („Der kleine Drache Trenk“ vs. korrekt „Der kleine Ritter Trenk“). Faktisch fungierte er also als zusa¨tzlicher Distraktor. Da sich die absolute Anzahl von Titeln (20 vs. 19) und Distraktoren (10 vs. 11) in den beiden Versionen unterscheidet, ko¨nnen nur Anteilswerte (d. h. absolute Werte geteilt durch die maximale Anzahl) direkt miteinander verglichen werden.
Ergebnisse Reliabilität Als Maß fu¨r die Reliabilita¨t wurde die interne Homogenita¨t (Cronbachs a) der Hit-Antworten berechnet. Diese war fu¨r die Version A (.82) und B (.72) a¨hnlich hoch ausgepra¨gt und in den verschiedenen Altersgruppen vergleichbar (6 – 8 Jahre: .71/.77; 9 – 10 Jahre: .79/.58; 11 – 13 Jahre: .77/.71; 14 – 20 Jahre: .77/.76; 21 – 35 Jahre: .76/.87; 36 – 50 Jahre: .78/.71; 51 – 76 Jahre: .73/.79). Insgesamt kann die Reliabilita¨t somit als gut beurteilt werden. Personenkennwerte ¨ berblick u¨ber die Verteilung der Hit- und False Einen U Alarm-Raten in den Versionen A und B gibt Abbildung 1a. Die durchschnittliche Anzahl richtig erkannter Bu¨cher (Hits) war ungefa¨hr normalverteilt mit einem Mittelwert von M = 8.34 (SD = 3.56). Der Modus lag bei 11, der Median bei 9 Bu¨chern. Die niedrigste Anzahl korrekt identifizierter Bu¨cher lag bei 0 (5 Personen), die ho¨chste bei 16 (7 Personen). Die Hit-Rate war in den beiden Versionen a¨hnlich (A: M = .426, SD = .198; B: M = .430, SD = .167; t(346) < 1).
22
Sascha Schroeder, Jutta Segbers und Pauline Schro¨ter
Anmerkungen: HR = Hit-Rate, FA = False Alarm-Rate.
Abbildung 1. Nonparametrische Verteilung von Hit- und False Alarm-Rate der Versionen A und B in Studie 1 und 2. Die absolute Anzahl fa¨lschlich identifizierter Distraktoren (False Alarms) war mit M = 0.56 (SD = 1.01) sehr gering. Diese Verteilung war ausgesprochen rechtsschief: Zwei Drittel aller Befragten machten keinen Fehler, weitere 20 % nur einen einzigen. Die ho¨chste Anzahl von False Alarms war 7 (2 Personen). Die False AlarmRate unterschied sich nicht zwischen den beiden Versionen (A: M = .056, SD = .089; B: M = .050, SD = .010; t (346) < 1). Instruktion und Distraktoren konnten also erfolgreich Ratetendenzen vermeiden. Wie bei Cunningham und Stanovich (1990) wurde fu¨r jede Person ein korrigierter Testscore berechnet, indem zuna¨chst die „Hit-Rate“ (HR, d. h. die Anzahl von „Hits“ geteilt durch die Anzahl aller tatsa¨chlichen Buchtitel in der Testversion) und die „False Alarm-Rate“ (FA, d. h. die Anzahl der „False Alarms“ geteilt durch die Anzahl aller Distraktoren in der Testversion) fu¨r jede Person berechnet und dann die FA von der HR abgezogen wurden. Der korrigierte Mittelwert lag bei M = .376 (SD = .195) und unterschied sich nicht signifikant zwischen den beiden Versionen (A: M = .370, SD = .216; B: M = .380, SD = .175; t (346) < 1). Insgesamt waren die Werte vergleichbar mit denen von Cunningham und Stanovich (deren Werte im Bereich .180–.436 liegen). Die SplitHalf-Reliabilita¨t der korrigierten Testwerte (odd-even, korrigiert nach Spearman-Brown) war hoch, r = .71. In einem na¨chsten Schritt wurde gepru¨ft, ob sich die Testwerte in verschiedenen Teilnehmergruppen voneinander unterscheiden. Die mittlere Auspra¨gung der Testscores in den verschiedenen Teilnehmergruppen ist Tabelle 2 zu entnehmen. Eine 2 (Geschlecht) 7 (Altersgruppe) Varianzanalyse ergab signifikante Haupteffekte fu¨r die Fakto-
ren Geschlecht, F(1, 334) = 9.71, p < .01, hp2 = 0.03, und Altersgruppe, F(6, 334) = 11.40, p < .01, hp2 = 0.17. Die Interaktion war nicht signifikant, F(6, 334) < 1. Der Haupteffekt des Faktors Geschlecht war darauf zuru¨ckzufu¨hren, dass weibliche Befragte insgesamt eine bessere Erkennungsleistung hatten als ma¨nnliche. Die Effektsta¨rke lag im kleinen bis mittleren Bereich (d = 0.30). Die Unterschiede zwischen den verschiedenen Altersgruppen waren jedoch noch gro¨ßer: Tuckey-Post-hocVergleiche zeigten, dass sich die Altersgruppen in drei verschiedene Leistungsklassen gliedern ließen. Erwartungsgema¨ß wiesen Kinder in den Altersgruppen 9 – 10 und 11 – 13 Jahre sowie Jugendliche (die sich alle nicht voneinander unterschieden, p > .20) besonders hohe Testwerte auf. Die Leistung in der Gruppe der 6 – 8-Ja¨hrigen fiel hingegen etwas ab (p < .05). Die drei Erwachsenengruppen waren sehr inhomogen: Wa¨hrend die jungen Erwachsenen (21 – 35 Jahre) nur eine a¨hnliche Erkennungsleistung wie die 6 – 8-Ja¨hrigen hatten, kannte sich die Gruppe der 36 – 50-Ja¨hrigen (also die Elterngeneration) beinahe so gut mit Kinder- und Jugendbu¨chern aus wie die Kinder selbst. Die Erkennungsleistung bei den a¨lteren Erwachsenen (51 – 76 Jahre, also der Großelterngeneration) war erwartungsgema¨ß die geringste der ganzen Stichprobe (alle p < .05). Itemkennwerte Personenkennwerte, d. h. die Erkennungsrate fu¨r jede Person gemittelt u¨ber alle Items, die bislang berichtet wurden, machen Aussagen daru¨ber, wie gut eine Person die Titel im K-TRT erkannt hat. Dieser Wert kann dann
23
Der Kinder-Titelrekognitionstest (K-TRT)
Tabelle 2. Teilnehmer und Teilnehmerinnen in Studie 1 Altersgruppe
N M Jahre (SD) M K-TRT (SD)
Geschlecht
6–8
9 – 10
11 – 13
14 – 20
21 – 35
36 – 50
51 – 76
m
w
60 7.5 (0.7) 0.34 (0.18)
101 9.5 (0.5) 0.43 (0.17)
49 11.8 (0.8) 0.47 (0.19)
31 15.5 (1.5) 0.39 (0.22)
36 26.8 (3.6) 0.31 (0.17)
34 43.8 (4.5) 0.40 (0.18)
37 66.6 (6.4) 0.20 (0.17)
148 21.5 (18.1) 0.34 (0.20)
200 20.9 (20.6) 0.40 (0.19)
mit anderen relevanten Personenmerkmalen (Geschlecht, Alter etc.) in Beziehung gesetzt werden. Parallel hierzu lassen sich auch Itemkennwerte berechnen, d. h. die Erkennungsrate fu¨r jedes Item gemittelt u¨ber alle Personen. Diese repra¨sentieren, wie leicht oder schwierig ein Item ist und ko¨nnen mit relevanten Itemmerkmalen (Verkaufsrang eines Titels, Erscheinungsjahr etc.) in Beziehung gesetzt werden. Dadurch kann man u¨berpru¨fen, ob sie in verschiedenen Testversionen a¨hnlich ausfallen, was ein Indiz fu¨r die Reliabilita¨t des Tests ist. Die Itemkennwerte der 10 Titel, die in den beiden Versionen identisch waren, korrelierten sehr hoch miteinander, r = .985, t (8) = 15.93, p < .01, und wichen nur wenige Prozentpunkte (M = 4.3 %, SD = 3.7 %) voneinander ab. Auch fu¨r die Titel, die sich in den beiden Versionen unterschieden, waren die Itemkennwerte sehr a¨hnlich (A: M = .465, SD = .242; B: M = .452, SD = .292; t (17) < 1). In einem na¨chsten Schritt wurde u¨berpru¨ft, ob die Itemkennwerte plausibel mit anderen, schwierigkeitsgenerierenden Itemmerkmalen kovariieren (was ein Indiz fu¨r die Konstruktvalidita¨t des K-TRTs ist). Der (logarithmierte) Amazon-Verkaufsrang (siehe Tabelle 1) korrelierte stark negativ mit der Hit-Rate, r = -.52, t (27) = -3.18, p < .01. Ein Buch mit einem Amazon-Verkaufsrang von 20 kannte fast jede/r (91 %), wa¨hrend ein Buch mit einem Verkaufsrang von 20 000 nur eine Erkennungsrate von 20 % hatte. Auch das Erscheinungsjahr der Titel korrelierte stark negativ mit der Hit-Rate, r = -.52, t (27) = -3.12, p < .01. Ein Buch aus dem Jahr 2010 wurde nur von 30 % der Personen erkannt, ein Buch aus dem Jahr 1980 aber von 56 %. Das Lesealter korrelierte nicht mit der Hit-Rate, r = .03, t (27) < 1. In einem letzten Schritt wurden die Itemkennwerte einzeln auf Alters- und Geschlechterunterschiede u¨berpru¨ft. Unterschiede lassen darauf schließen, dass bestimmte Titel in verschiedenen Teilnehmergruppen einfacher oder schwieriger ausfallen (sog. „differential item functioning“). Wenn der K-TRT in der Tat spezifisch die Buchkenntnis von Kindern und Jugendlichen erfasst, dann ist zu erwarten, dass sich die Lo¨sungswahrscheinlichkeiten von Kindern und Erwachsenen voneinander unterscheiden. Die Itemkennwerte fu¨r die verschiedenen Teilnehmergruppen sind in Tabelle 3 abgetragen.
Signifikante Alterseffekte ergaben sich bei insgesamt 19 Bu¨chern. Einerseits gab es Bu¨cher („Kein Keks fu¨r Kobolde“, „Beast Quest“ etc.), die von Kindern und Jugendlichen besser erkannt wurden als von Erwachsenen. Andererseits gab es aber auch Bu¨cher („Die kleine Hexe“, „Die unendliche Geschichte“ etc.), fu¨r die Erwachsene eine a¨hnliche Erkennungsleistung zeigten wie Kinder. Dies waren vornehmlich die „klassischen“ Kinder- und Jugendbu¨cher mit fru¨herem Erscheinungsjahr. Auch innerhalb der Kindergruppe gab es Unterschiede. Ein paar Bu¨cher („Die Olchis“, „Der kleine Drache Kokosnuss“ etc.) wurden von ju¨ngeren Kindern besser erkannt, ihre Erkennungsrate fiel dann jedoch kontinuierlich mit dem Alter ab. Bei typischen Jugendbu¨chern („Gregs Tagebuch“, „Warrior Cats“ etc.) stieg die Hit-Rate hingegen mit dem Alter an. Daru¨ber hinaus haben wir u¨berpru¨ft, ob sich die Itemkennwerte einzelner Titel fu¨r weibliche und ma¨nnliche Testteilnehmer voneinander unterscheiden und ob diese ein plausibles Muster zeigen. Von den insgesamt 9 Titeln, bei denen sich die Erkennungsraten signifikant unterschieden, waren 2 „Jungen“-Bu¨cher („Die wilden Fußballkerle“, „Das Schwein kam mit der Post“ etc.) und 7 „Ma¨dchen“Bu¨cher („Lola Schwesterherz“, „No Jungs!“ etc.).
Diskussion Insgesamt sprechen die Ergebnisse fu¨r die Konstruktvalidita¨t des K-TRTs: Kinder und Jugendliche erreichten ho¨here Testwerte als Erwachsene und die Hit-Rate der Titel wurde systematisch von ihrem Verkaufsrang und ¨ ltere Titel wurden dem Erscheinungsjahr beeinflusst. A dabei von Kindern und Erwachsenen gleichermaßen erkannt, wa¨hrend die neueren nur die Kinder kannten. Auch fu¨r die einzelnen Titel ergaben sich plausible Unterschiede zwischen den Gruppen: So wurden Bu¨cher fu¨r ju¨ngere Kinder in der ju¨ngsten Altersgruppe besser erkannt, wa¨hrend die Hit-Rate fu¨r Jugendbu¨cher kontinuierlich mit dem Alter anstieg. Das Ergebnismuster passt damit gut zu den Ergebnissen der Forschung zum „current-events knowledge“, einer Wissenskomponente, die in enger Beziehung zur kristallinen Intelligenz steht und erfahrungsabha¨ngige Unterschiede zwischen Personen in verschie-
24
Sascha Schroeder, Jutta Segbers und Pauline Schro¨ter
Tabelle 3. Hit-Raten nach Alter und Geschlecht in Studie 1 Altersgruppe
Geschlecht
Titel
6 – 8 9 – 10 11 – 13 14 – 20 21 – 35 36 – 50 51 – 76
m
w
Effekt
Beast Quest Das kleine Gespenst Das Magische Baumhaus Das Schwein kam mit der Post Das Vamperl Der kleine Drache Kokosnuss Die kleine Hexe Die Olchis Die Sockensuchmaschine Die unendliche Geschichte Die wilden Fußballkerle Die wilden Hu¨hner Drachenreiter Ein Pferd namens Milchmann Eliot und Isabella Fliegender Stern Gregs Tagebuch Harry Potter Immer dieser Michel Kein Keks fu¨r Kobolde Lola Schwesterherz Mia and me No Jungs! O wie scho¨n ist Panama Rico, Oskar, und die Tieferschatten Tintenherz Urmel aus dem Eis Warrior Cats Yakari
.05 .83 .81 .10 .13 .92 .75 .90 .00 .30 .43 .70 .27 .08 .08 .09 .73 .78 .48 .32 .08 .46 .05 .74 .26
.10 .93 .90 .06 .13 .87 .82 .87 .06 .71 .48 .84 .18 .42 .06 .30 .84 .81 .44 .58 .32 .71 .16 .56 .17
.28 .88 .92 .06 .38 .64 .80 .84 .13 .68 .40 .84 .45 .18 .02 .13 .92 .83 .54 .28 .44 .44 .20 .67 .42
.00 .59 .50 .00 .18 .14 .77 .68 .24 .71 .43 .86 .58 .06 .10 .24 .79 .76 .35 .00 .29 .00 .42 .59 .29
.06 .84 .12 .00 .05 .18 .89 .31 .16 .94 .12 .59 .42 .08 .06 .11 .59 .68 .68 .06 .00 .06 .00 .63 .05
.05 .92 .71 .03 .15 .76 .91 .71 .16 .95 .38 .71 .35 .06 .18 .23 .71 .77 .77 .24 .10 .10 .06 .77 .31
.00 .90 .31 .00 .05 .06 .81 .19 .05 .81 .13 .38 .19 .03 .03 .10 .13 .67 .38 .00 .00 .06 .05 .67 .19
.13 .84 .66 .08 .10 .62 .72 .70 .08 .67 .46 .67 .22 .19 .05 .20 .66 .82 .41 .21 .08 .25 .09 .61 .22
.06 .89 .70 .02 .19 .61 .89 .72 .10 .68 .31 .75 .38 .18 .08 .20 .74 .74 .56 .30 .25 .39 .17 .65 .23
A
.35 .60 .18 .75
.56 .68 .54 .84
.79 .76 .63 .84
1.00 .81 .65 .42
.74 .83 .08 .28
.77 .82 .35 .47
.57 .76 .11 .16
.55 .69 .34 .61
.71 .76 .43 .63
A A, G A, G A G A A A, G A A, G A
A
A A, G A, G A, G
A, G A A
Anmerkungen: A = Effekt Altersgruppe, G = Effekt Geschlecht.
denen Doma¨nen abbildet (vgl. z. B. Beier & Ackerman, 2001): Offensichtlich unterscheiden sich Kinder und Jugendliche in ihrem Wissen u¨ber Kinderbu¨cher und dieses Wissen wird stark von ihren bisherigen Erfahrungen gepra¨gt und vera¨ndert sich deutlich u¨ber die Lebensspanne. Daru¨ber hinaus zeigten sich substanzielle Geschlechtereffekte. Ma¨dchen schnitten generell besser ab als Jungen, was im Einklang mit bisherigen Studien zum Leseverhalten steht. Daru¨ber hinaus wurden „Ma¨dchen“-Bu¨cher von Ma¨dchen besser erkannt als von Jungen (und umgekehrt).
Studie 2 Die Ergebnisse von Studie 1 sind ermutigend, allerdings war die dort untersuchte Stichprobe nicht repra¨sentativ fu¨r die Population, die typischerweise in Lesestudien mit
Kindern untersucht wird. Außerdem wurden in Studie 1 nur wenige Variablen erfasst, sodass keine detaillierten Angaben zu den Außenkorrelationen des K-TRTs gemacht werden konnten. Studie 2 hatte deswegen einen komplementa¨ren Fokus: Hier wurden der K-TRT in der 2., 4. und 6. Klasse eingesetzt und weitere flankierende Maße erhoben, die zusa¨tzliche Ru¨ckschlu¨sse auf die Konstruktvalidita¨t des K-TRTs erlauben. Dabei handelt es sich einerseits um zwei Indikatoren der Lesefa¨higkeit: den Wortschatz und die Lesegeschwindigkeit, von denen angenommen wird, dass sie vom Lesevolumen besonders stark beeinflusst werden (Stanovich, 1986). Andererseits wurden mittels Fragebo¨gen weitere leserelevante Konstrukte erfasst, na¨mlich Lesemotivation, Leseselbstkonzept und die Anzahl der Bu¨cher, die die Kinder besitzen. ¨ hnliche Variablen wurden bereits in anderen Studien A zusammen mit fragebogengestu¨tzten Maßen des Lesevolumens erfasst (Becker et al., 2010; Pfost et al., 2013), sodass sich die Effekte zwischen den Studien vergleichen
Der Kinder-Titelrekognitionstest (K-TRT)
lassen. Ein erstes Ziel der Untersuchung bestand darin, die zentralen Ergebnisse aus Studie 1 in einer neuen Stichprobe zu replizieren, die fu¨r Untersuchungen im Bereich des Schriftspracherwerbs typisch ist. Weiter interessierten wir uns fu¨r die Korrelationen des K-TRTs mit den Fragebogenmaßen und fu¨r die (differenziellen) Beziehungen dieser beiden Variablentypen zu den beiden Kriteriumsvariablen (bei gleichzeitiger Kontrolle des Alters und der nonverbalen Intelligenz). Wir erwarteten, dass es sowohl Gemeinsamkeiten als auch Unterschiede zwischen dem K-TRT und den Fragebogenmaßen gibt, die Außenkorrelationen fu¨r den K-TRT aber ho¨her ausfallen.
Methode Stichprobe Studie 2 war Teil einer gro¨ßeren Untersuchung („The Developmental Lexicon Project“), die eine Klassentestung und eine computergestu¨tzte Einzelerhebung umfasste. An der hier relevanten Klassentestung nahmen insgesamt N = 416 Kinder aus 26 Klassen an 4 Berliner Grundschulen teil (vgl. Tabelle 4), die sich gleichma¨ßig auf die Klassenstufen 2 (36 %), 4 (33 %) und 6 (31 %), c2 (2, N = 416) = 1.2, verteilten. Das Verha¨ltnis von Jungen und Ma¨dchen war ausgeglichen (48 % Jungen vs. 52 % Ma¨dchen) und unterschied sich nicht in den drei Klassenstufen, c2 (2, N = 416) = 3.6. Tabelle 4. Teilnehmer und Teilnehmerinnen in Studie 2 Klasse
N M Jahre (SD) M K-TRT (SD)
Geschlecht
2
4
6
m
w
148 7.3 (0.8) 0.19 (0.16)
138 9.2 (0.7) 0.33 (0.18)
130 11.1 (0.6) 0.35 (0.19)
198 9.0 (1.7) 0.26 (0.19)
218 9.2 (1.7) 0.31 (0.19)
25
Die Lesemotivation der Schu¨lerinnen und Schu¨ler wurde mit drei Items erhoben („Lesen ist langweilig“, „Ich lese nur, wenn ich muss“, „Ich lese leise fu¨r mich, weil es mir Spaß macht“), die mit einer vierstufigen Antwortskala (1 = stimme u¨berhaupt nicht zu bis 4 = stimme sehr zu) beantwortet wurden. Die Reliabilita¨t der Skala war akzeptabel. Das Leseselbstkonzept wurde mit drei Items und derselben Antwortskala erfasst („Lesen fa¨llt mir leicht“, „Ich lese langsamer als andere in meiner Klasse“, „Wenn ich lese, verstehe ich fast alles“). Die Reliabilita¨t der Skala war niedrig. Im letzten Item wurde nach der Anzahl der Bu¨cher, die das Kind besitzt, gefragt, wofu¨r eine sechsstufige Antwortskala zur Verfu¨gung stand (1 = keine, 2 = 1 Regalbrett, 3 = 2 Regalbretter, 4 = 1 ganzes Regal, 5 = 2 ganze Regale, 6 = mehr als 2 ganze Regale). Die Antworten waren normalverteilt und wurden als kontinuierliche Variable behandelt. Der K-TRT wurde in den Versionen A und B bearbeitet, wobei Version B wieder den gleichen Fehler enthielt, der zum Ausschluss eines Titels fu¨hrte. Die Versionen A und B wurden in den drei Klassenstufen gleich ha¨ufig eingesetzt, c2 (2, N = 416) < 1. Auf die Reliabilita¨t und die Verteilung der Testwerte wird im Ergebnisteil ausfu¨hrlich eingegangen. Der Wortschatz wurde mit den beiden pseudoparallelisierten Versionen A und B des Wortschatztests des CFT 20-R erfasst. Da keine Normen fu¨r die 2. Klasse existieren, wurden die Rohwerte fu¨r die Analyse verwendet. Die Reliabilita¨t des Tests war gut. Die Lesegeschwindigkeit wurde mit den beiden pseudoparallelisierten Versionen A und B des SLS erfasst. In diesem Test lesen Kinder Sa¨tze und beurteilen, ob sie wahr oder falsch sind. Der Rohwert ist die Anzahl der in 3 Minuten korrekt bearbeiteten Sa¨tze. Da in der 2./4. und 6. Klasse unterschiedliche Sa¨tze verwendet werden, wurden alterskorrigierte Normwerte (M = 100, SD = 15) verwendet. Die Reliabilia¨t des Tests war gut.
Erhebungsinstrumente ¨ berblick u¨ber die Anzahl der Items, Reliabilita¨t, Einen U deskriptive Kennwerte und Interkorrelation der Variablen in Studie 2 findet sich in Tabelle 5. Die nonverbale Intelligenz der Kinder wurde mit dem Matrix-Subtest des CFT 20-R (Weiß, 2006) erhoben. Da lediglich ein Subtest durchgefu¨hrt wurde, ko¨nnen nur die Rohwerte fu¨r die Analyse verwendet werden. Die Reliabilita¨t der Subskala war akzeptabel. Es wurden Fragebogenskalen zu drei leserelevanten Konstrukten verwendet, die sich an IGLU 2011 (Bos, Tarelli, Bremerich-Vos & Schwippert, 2012) anlehnten.
Analyse Der K-TRT und alle anderen Tests wurden von allen Kindern vollsta¨ndig bearbeitet. Fu¨r einige Fragebogenmaße (die am Ende der Testung beantwortet wurden) liegen aufgrund von organisatorischen Problemen fu¨r einige Kinder fehlende Werte vor (Ausfall zwischen 7.7 und 8.4 %, vgl. Tabelle 4). Um einen unno¨tigen Teststa¨rkenverlust zu vermeiden, wurden die entsprechenden Werte (multipel) imputiert (10 Replikationen). Des Weiteren sind durch das Design der Studie Kinder in Klassen genestet, was bei der Analyse dadurch beru¨cksichtigt wurde, dass die Standardfehler entsprechend der Klas-
26
Sascha Schroeder, Jutta Segbers und Pauline Schro¨ter
Tabelle 5. Deskriptive Kennwerte und Interkorrelationen der Variablen in Studie 2 Reliabilita¨t und Interkorrelationen
Deskriptive Kennwerte
Kontrollvariablen 1. Alter (Jahre) 2. Matrizen Fragebogenvariablen 3. Motivation 4. Selbstkonzept 5. Anzahl Bu¨cher 6. K-TRT Kriteriumsvariablen 7. Wortschatz 8. Lesegeschwindigkeit
N
Items
M
SD
1
2
3
4
5
6
7
8
416 416
1 12
9.12 5.34
1.69 2.40
(1.0) .24
.30 (.62)
-.05 .21
-.07 .15
-.13 .08
.32 .47
.75 .60
.07 .28
383 381 384 416
3 3 1 20
3.23 3.19 3.53 0.24
0.91 0.89 1.40 0.18
-.04 -.05 -.10 .27
.13 .09 .05 .31
(.61) .21 .20 .23
.36 (.57) .12 .24
.33 .21 (.60) .21
.35 .38 .32 (.71)
.34 .31 .14 .78
.46 .51 .21 .51
416 416
30 70
13.74 96.95
7.47 15.75
.70 .07
.44 .22
.25 .35
.22 .38
.10 .16
.58 .42
(.88) .49
.53 (.97)
Anmerkungen: Alle Korrelationen u¨ber jrj = .10 sind statistisch signifikant (a = .05, zweiseitige Testung). Reliabilita¨ten sind in der Diagonale angegeben. Fu¨r das Alter wurde dabei eine Reliabilita¨t von 1 festgesetzt, fu¨r die Bu¨cher-Variable eine Reliabilita¨t von .6. In der unteren Dreiecksmatrix befinden sich die manifesten, in der oberen Dreiecksmatrix die minderungskorrigierten Korrelationen.
Die Reliabilita¨t wurde als interne Homogenita¨t der HitAntworten berechnet und war mit a = .70 und .71 in den beiden Versionen und in den einzelnen Klassenstufen a¨hnlich hoch (2. Klasse: .75/.62; 4. Klasse: .69/.72; 6. Klasse: .63/.74).
Die korrigierten Testwerte sind getrennt fu¨r die drei Klassenstufen und Jungen und Ma¨dchen in Tabelle 4 abgetragen. Eine 2 (Geschlecht) 3 (Klassenstufe) Varianzanalyse ergab signifikante Haupteffekte fu¨r die Faktoren Geschlecht, F(1, 412) = 5.41, p < .05, hp2 = 0.01, und Klassenstufe, F(2, 412) = 52.24, p < .01, hp2 = 0.11, wa¨hrend die Interaktion nicht signifikant war, F(2, 412) < 1. Ma¨dchen hatten ho¨here Werte als Jungen, die Effektsta¨rke lag im kleinen bis mittleren Bereich (d = 0.26). Die Unterschiede zwischen den Klassenstufen waren deutlicher: Tuckey-Post-hoc-Vergleiche zeigten, dass Kinder in der 2. Klasse geringere Testwerte hatten als Kinder in der 4. und 6. Klasse (beide p < .01), die sich nicht voneinander unterschieden (p > .75). Dieses Ergebnismuster repliziert die Effekte von Studie 1.
Personenkennwerte
Itemkennwerte
Die Verteilung der Hit- und False Alarm-Raten in den Versionen A und B (vgl. Abb. 1b) war nahezu identisch mit der in Studie 1. Die durchschnittliche Anzahl richtig erkannter Bu¨cher (Hits) war ungefa¨hr normalverteilt mit einem Mittelwert von M = 7.35 (SD = 3.30). Die niedrigste Anzahl korrekt identifizierter Titel lag bei 0 (2 Personen), die ho¨chste bei 20 (1 Person). Die durchschnittliche Anzahl fa¨lschlich identifizierter DistraktorTitel (False Alarms) war mit M = 0.97 (SD = 1.62) wiederum sehr gering. 54 % aller Kinder machten keinen Fehler, weitere 25 % nur einen. Der Mittelwert der korrigierten Testwerte lag bei M = .283 (SD = .190) und unterschied sich nicht zwischen den beiden Versionen (A: M = .286, SD = .190; B: M = .281, SD = .190; t(414) < 1). Die Split-Half-Reliabilita¨t der korrigierten Testscores (korrigiert nach Spearman-Brown) war mit r = .58 zufriedenstellend.
In einem na¨chsten Schritt wurden wiederum die Itemkennwerte fu¨r die einzelnen Titel untersucht: Die HitRaten fu¨r die Titel in Studie 2 sind im Tabelle 1 angegeben. Fu¨r die 10 Titel, die in den beiden Versionen identisch waren, korrelierten sie hoch miteinander, r = .994, t(8) = 25.57, p < .01, und die absoluten Abweichungen zwischen ihnen betrug nur wenige Prozentpunkte (M = 2 %, SD = 2 %). Zusa¨tzlich wurde u¨berpru¨ft, wie gut die Itemkennwerte aus Studie 1 und Studie 2 insgesamt u¨bereinstimmten. Die Korrelationen waren in Version A mit r = .919, t(28) = 12.31, p < .01, und in Version B mit r = .942, t(27) = 14.86, p < .01, sehr hoch und die absoluten Abweichung gering (A: M = 7.9 %, SD = 8.0 %; B: M = 7.7 %, SD = 7.7 %; t(58) < 1.2). Wie in Studie 1 korrelierten die Hit-Raten negativ mit dem (logarithmierten) Amazon-Verkaufsrang, r = -.57, t (27) = -3.63, p < .01, und dem Erscheinungs-
senzugeho¨rigkeit korrigiert wurden (Sandwich-Estimator). Alle Analysen wurden mit dem Programm Mplus 6.1 durchgefu¨hrt.
Ergebnisse Reliabilität
27
Der Kinder-Titelrekognitionstest (K-TRT)
Tabelle 6. Hierarchische Regressionsanalysen mit dem Wortschatz und der Lesegeschwindigkeit als Kriteriumsvariablen Wortschatz 2
Analyse 1 1. Hintergrund 2. Fragebogen 3. K-TRT Analyse 2 1. Hintergrund 2. K-TRT 3. Fragebogen
2
R
DR
.568 .655 .721
– .087 .066
.568 .684 .721
– .115 .037
Lesegeschwindigkeit D R2
DF
.051 .241 .308
– .190 .067
– 34.2* 39.6*
– .051 151.2* .196 18.1* .308 Finale Koeffizienten
– .145 .112
– 74.3* 22.1*
DF
R
– 34.5* 96.8*
2
Wortschatz
Alter Matrizen Motivation Selbstkonzept Bu¨cher K-TRT
Lesegeschwindigkeit
b
SE
t
b
SE
t
.58 .17 .15 .13 .02 .30
.04 .02 .03 .03 .02 .04
16.2* 7.0* 5.6* 3.8* 0.9 8.2*
-.01 .08 .20 .26 .03 .28
.05 .04 .05 .05 .05 .05
-0.3 1.8 4.3* 5.3* 0.6 5.9*
Anmerkungen: Die Hintergrundvariablen wurden immer in Schritt 1 aufgenommen. In Analyse 1 folgten in Schritt 2 die Fragebogenvariablen und Schritt 2 der K-TRT. In Analyse 2 folgten in Schritt 2 der K-TRT und in Schritt 3 die Fragebogenvariablen. * = signifikant bei a = .05.
jahr der Titel, r = -.33, t (27) = -1.79, p = .09, nicht aber mit dem Lesealter, r = -.18, t (27) < 1. Korrelations- und Regressionsanalysen Tabelle 5 zeigt die Interkorrelationen der verschiedenen Variablen in Studie 2 (untere Dreiecksmatrix) sowie die korrespondierenden minderungskorrigierten Korrelationen (obere Dreiecksmatrix), welche Unterschiede in der Reliabilita¨t der Variablen beru¨cksichtigen. Wie erwartet, korrelierte der K-TRT nur moderat mit den drei Fragebogenvariablen und in a¨hnlicher Ho¨he wie in bisherigen Studien (r = .2 – .3). Gleichzeitig korrelierte der K-TRT sehr stark (r = .4 – .6) mit den beiden Kriteriumsvariablen, wobei die Korrelation mit dem Wortschatz ho¨her ausfiel, t (414) = 3.96, p < .01. Auch die drei Fragebogenmaße korrelierten substanziell mit den Kriteriumsvariablen (r = .2 – .3), wobei die Korrelationen mit der Lesegeschwindigkeit ho¨her ausfielen, t (414) = -2.15, p < .05. Fu¨r den Wortschatz waren die Korrelationen fu¨r den K-TRT erwartungsgema¨ß ho¨her als fu¨r die Fragebogenvariablen, t (414) = 3.01, p < .01. Fu¨r die Lesegeschwindigkeit ließen sich hingegen keine Unterschiede zwischen den K-TRT-Effekten und denen der Lesemotivation und des Leseselbstkonzepts absichern, t (414) < 1.3. Insgesamt gab es sowohl Gemeinsamkeiten als auch Unterschiede zwischen dem K-TRT und den Fragebogen-
variablen. Um die Effekte der verschiedenen Variablentypen klarer voneinander zu trennen und gleichzeitig den Einfluss allgemeiner Entwicklungsfaktoren zu kontrollieren, wurden fu¨r jede Kriteriumsvariable zwei hierarchische Regressionsanalysen berechnet. In diesen Analysen wurden dabei das Alter und die nonverbale Intelligenz als allgemeine Hintergrundvariablen behandelt und immer als erstes in die Analyse eingeschlossen. In einem zweiten Schritt wurden dann entweder alle Fragebogenvariablen (Analyse 1) oder der K-TRT (Analyse 2) in die Analyse aufgenommen, bevor in einem dritten Schritt dann die jeweils andere Variablengruppe dazu kam (vgl. Tabelle 6 oben). Dadurch konnte u¨berpru¨ft werden, ob die beiden Variablentypen differenzielle Beitra¨ge zur Vorhersage der Kriteriumsvariablen leisten und inwieweit sie sich u¨berschneiden. Die Ergebnisse zeigen, dass sowohl der K-TRT als auch die Fragebogenvariablen jeweils ein signifikantes Inkrement u¨ber die Hintergrundvariablen und die jeweils andere Variablengruppe hinaus hatten. Fu¨r den Wortschatz hatte der K-TRT ein uniques Inkrement von 7 % und die Fragebogenmaße von 4 % (von dem wiederum 2 % nur auf die Lesemotivation entfiel und 0.8 % auf das Leseselbstkonzept). Der K-TRT und die Fragebogenvariablen teilten sich einen substanziellen Inkrementanteil von 5 %. Fu¨r die Lesegeschwindigkeit hatte der K-TRT wiederum ein uniques Inkrement von 7 % und die Fragebogenmaße eines von 11 % (von dem 4.5 % auf die Lesemotivation und 4.8 % auf das Leseselbstkonzept entfielen). Der An-
28
Sascha Schroeder, Jutta Segbers und Pauline Schro¨ter
teil geteilter Varianz lag bei 8 %. Die vollsta¨ndigen Regressionsgleichungen mit allen Pra¨diktoren (vgl. Tabelle 6 unten) zeigten jeweils einen starken Effekt fu¨r den K-TRT. Bei den Fragebogenvariablen hatten nur die Lesemotivation und das Leseselbstkonzept einen eigensta¨ndigen Beitrag, wa¨hrend der Effekt der Bu¨cher-Frage nicht mehr signifikant war.
Diskussion Insgesamt konnten alle zentralen Ergebnisse aus Studie 1 mit einer neuen Stichprobe repliziert werden. Das deutet darauf hin, dass das Muster in Studie 1 kein Artefakt der informellen Stichprobenziehung war, sondern sich auf Untersuchungen in Schulen generalisieren la¨sst. Die Itemkennwerte in den beiden Studien korrelierten hoch miteinander, was ebenfalls fu¨r die Stabilita¨t der Ergebnisse spricht. Erwartungsgema¨ß waren die Korrelationen des K -TRTs mit den mit Fragebogen erhobenen Maßen der Lesemotivation und des Leseselbstkonzepts geringer als bei einer Erfassung des Lesevolumens mit Selbstbericht (vgl. z. B. Becker et al., 2010). Gleichzeitig entsprach der Effekt des K-TRTs auf den Wortschatz und Lesegeschwindigkeit mit ca. 7 % Varianzaufkla¨rung ungefa¨hr dem, der von Mol und Bus (2011) in ihrer Metaanalyse berichtet wird. Insgesamt zeigen die Ergebnisse sowohl Gemeinsamkeiten als auch Unterschiede zwischen dem K-TRT und Fragebogenmaßen wie der Lesemotivation oder dem Leseselbstkonzept. Ungefa¨hr ein Drittel der aufgekla¨rten Varianz teilten sich die beiden Variablentypen, gleichzeitig kla¨rten sie aber auch jeweils eigensta¨ndig ein Drittel der Varianz auf. Die zusa¨tzliche Beru¨cksichtigung des Lesevolumens mit einem objektiven und unabha¨ngig definierten Indikator du¨rfte damit fu¨r viele Studien vorteilhaft sein, da einerseits ein substanzieller zusa¨tzlicher Va¨ berrianzanteil aufgekla¨rt werden kann und gleichzeitig U schneidungen zu anderen Variablen minimiert werden. Einschra¨nkend ist allerdings anzumerken, dass die Reliabilia¨t einer Fragebogenvariablen niedrig war. Es ist deshalb mo¨glich, dass der unique Varianzanteil fu¨r den K-TRT in anderen Untersuchungen evtl. geringer ausfa¨llt.
Zusammenfassung und Ausblick In diesem Beitrag haben wir den K-TRT vorgestellt, ein neues, o¨konomisches und objektives Instrument zur Erfassung des Lesevolumens von Kindern im Deutschen. Der K-TRT basiert auf dem englischen „Title Recognition Test“, der von der Gruppe um Keith Stanovich entwickelt wurde und eine signal-detektionstheoretische Logik verwendet: Kinder sollen aus einer Liste von realen und fiktiven Kinderbuchtiteln diejenigen markieren, die ihnen
bekannt sind. Er ist kognitiv und zeitlich weniger aufwa¨ndig als Tagebuch-Methoden und vermeidet im Gegensatz zu Fragebogenskalen Verzerrungen durch soziale ¨ berErwu¨nschtheit sowie inhaltliche und methodische U lappungen mit anderen leserelevanten Konstrukten. Selbstversta¨ndlich ist der K-TRT (wie die anderen Methoden zur Erfassung des Lesevolumens) selbst nicht frei von methodischen Problemen. Im Gegensatz zu Tagebuchverfahren (aber a¨hnlich wie Fragebogenskalen) erlaubt er keine Erfassung des absoluten Lesevolumens, sondern nur von relativen Unterschieden zwischen Personen. Daru¨ber hinaus basiert er auf einer indirekten Erfassung des Lesevolumens, da die Kenntnis eines Titels durch sehr unterschiedliche Erfahrungen zustande kommen kann. So ist nicht auszuschließen, dass ein Kind einen Harry Potter-Titel nicht durch die Lektu¨re des Buches, sondern allein durch den zugeho¨rigen Film oder das Computerspiel kennt. Eine solche cross-mediale Verwertung ist gerade fu¨r Kinder typisch und hat in den letzten Jahren stark zugenommen. Selbst wenn ein Kind einen Titel ausschließlich aus non-print-Medien kennt, schließt dies nicht aus, dass auch dieses Wissen pra¨diktiv fu¨r die Entwicklung leserelevanter Kompetenzen sein ko¨nnte. Da Vielleser meist ein vielfa¨ltigeres und differenziertes Mediennutzungsverhalten aufweisen als Nichtleser (vgl. z. B. Hurrelmann, Hammer & Nieß, 1993), eignen sich auch diese Formen der Mediennutzung fu¨r eine indirekte Erfassung der Lesekompetenz. Die Ergebnisse von zwei Validierungsstudien zeigen, dass beide Versionen des K -TRTs substanziell mit Aspekten der Lesekompetenz korrelieren und ungefa¨hr 7 % Varianz u¨ber die Effekte allgemeiner Entwicklungsindikatoren und Fragebogenmaße wie Lesemotivation und Leseselbstkonzept hinaus aufkla¨ren, was im Einklang mit anderen, internationalen Untersuchungen steht (Mol & Bus, 2011). Daru¨ber hinaus werden die Itemkennwerte in plausibler Weise von relevanten Buchmerkmalen wie dem Verkaufsrang oder dem Erscheinungsjahr beeinflusst und erwiesen sich u¨ber die beiden Untersuchungen als sehr stabil. Auch erfasst der K-TRT in der Tat das Lesevolumen von Kindern und Jugendlichen spezifisch: Erwachsene (mit Ausnahme der Eltern) erreichen durchga¨ngig niedrigere Testwerte als Kinder. Dies spricht fu¨r die Konstruktvalidita¨t des Instruments. Deswegen halten wir es fu¨r eine nu¨tzliche Erweiterung des existierenden Methodenrepertoires zur Erfassung des Lesevolumens, von der viele Forschungsfragen profitieren ko¨nnen. Allerdings ist es lohnenswert, auch die umgekehrte Perspektive einzunehmen und sich zu fragen, welche Faktoren dafu¨r verantwortlich sind, dass Kinder mehr Buchtitel kennen und damit besser im K-TRTabschneiden. Bei dieser Fragerichtung fungiert der K-TRT also nicht als Pra¨diktor-, sondern als Outcome-Variable (vgl. Beier & Ackerman, 2001; Hambrick, Meinz & Oswald, 2007). Unsere Daten (vgl. die Korrelationen in Tabelle 4) sprechen dabei fu¨r ein Ressourcen-Nutzungs-Modell, in dem distale Ressourcen-
Der Kinder-Titelrekognitionstest (K-TRT)
Pra¨diktoren (nonverbale Intelligenz, Lesemotivation etc.) proximale, mediierende Prozess-Variablen (Anzahl verfu¨gbarer Bu¨cher, Lesegeschwindigkeit, Wortschatz etc.) beeinflussen, die dann wiederum fu¨r die Leistung im K -TRT entscheidend sind (vgl. auch Schroeder, 2011). In der Tat zeigten sowohl die nonverbale Intelligenz (r = .05) als auch die Lesemotivation (r = .01) keine direkten Effekte auf die Testleistung, beeinflussen aber die Anzahl verfu¨gbarer Bu¨cher, die Lesegeschwindigkeit und den Wortschatz, die selbst wiederum mit der K-TRT-Leistung in Verbindung stehen. Dieses Muster ist kompatibel mit der Sichtweise, dass sich Kinder sowohl in den ihnen zur Verfu¨gung stehenden kognitiven und motivationalen Ressourcen unterscheiden, als auch darin, wie sie diese in Leseaktivita¨ten investieren, die sich in einer besseren Kenntnis von Buchtiteln niederschlagen (vgl. Hambrick et al., 2007). An dieser Stelle ko¨nnen eventuell Bedenken bestehen, dass durch die Auswahl der Titel, bestimmte Gruppen, wie z. B. Kinder aus bildungsfernen Familien oder Jugendliche mit Migrationshintergrund, systematisch benachteiligt werden. Zum Teil liegt dies wahrscheinlich in der Natur der Sache, da in diesen Gruppen in der Tat weniger Lektu¨reaktivita¨ten stattfinden. Wir haben uns jedoch bemu¨ht, im K-TRT nicht alleine den typischen bildungsbu¨rgerlichen Kinderliteratur-Kanon („Die kleine Hexe“, „Urmel“ etc.) abzudecken, sondern sehr bewusst auch Titel einzubeziehen, die sich gezielt an eher bildungsferne Schichten wenden („Mia and Me“, „No Jungs!“ etc.) oder als niederschwellige Angebote im Schnittbereich zwischen Buch und Comic anzusehen sind („Yakari“, „Beast Quest“ etc.), die gerade bei Jungen sehr beliebt sind. Allerdings werden im K-TRT nur deutsche Titel verwendet. In bilingualen Kontexten, in denen sich Leseaktivita¨ten auf mehrere Sprachen verteilen, wird also nur der Anteil des Lesevolumens erfasst, der auf Deutsch stattfindet. Diese Beschra¨nkung hat jedoch gleichzeitig auch ihre Vorteile, da in den meisten Forschungskontexten, in denen der K-TRT eingesetzt werden kann, die Vorhersage der Leseleistung im Deutschen im Vordergrund steht und dementsprechend die spezifische Vertrautheit mit der deutschen (Schrift-)Sprache besonders wichtig ist. Fu¨r Forschungsfragen, bei denen die differenzielle Vorerfahrung mit dem orthographischen System verschiedener Sprachen im Vordergrund steht, empfehlen wir, Testinstrumente in verschiedenen Sprachen (z. B. Deutsch und Englisch) einzusetzen. Der K-TRT ist ein Forschungsinstrument, das von allen Interessierten frei und ohne weitere Kosten genutzt werden kann. Alle notwendigen Informationen zur Durchfu¨hrung sind in diesem Artikel beschrieben. Eine Ansichtsfassung der Papierversion und weitere Informationen sind unter www.mpib-berlin.mpg.de/de/forschung/ max-planck-forschungsgruppen/mpfg-read/methoden/k-trt verfu¨gbar. In diesem Zusammenhang weisen wir noch einmal explizit darauf hin, dass fu¨r den K-TRT keine
29
Normwerte zur Verfu¨gung stehen und er lediglich zur Erfassung relativer Unterschiede zwischen Personen eingesetzt werden sollte, nicht aber dafu¨r, absolute oder normative Aussagen u¨ber das Lesevolumen zu treffen. Genauso wenig eignet er sich fu¨r die Individualdiagnose, sondern sollte nur zur Charakterisierung von Gruppen eingesetzt werden. Wie jedes Testverfahren ist der K-TRT zeit- und kontextabha¨ngig. Auch wenn wir uns bemu¨ht haben, die Titel so auszuwa¨hlen, dass sie mo¨glichst verschiedene aktuelle, soziale und regionale Kontexte abdecken, so unterliegt die Auswahl der Titel sicherlich zeitlichen Trends und modischen Stro¨mungen. So ko¨nnte z. B. die Verbreitung der Harry-Potter-Romane zuku¨nftig zuru¨ckgehen. Wir denken allerdings, dass der K-TRT zumindest in den na¨chsten Jahren ohne gro¨ßere Probleme eingesetzt werden kann. Das Originalinstrument von Cunningham und Stanovich ist inzwischen 25 Jahre alt und wird seit seiner Einfu¨hrung sta¨ndig modifiziert und erneuert (vgl. Acheson et al., 2008, fu¨r eine vergleichbare Neukonstruktion des AutorRekognitionstest). Das ist unproblematisch, solange die genauen Testwerte nicht zwischen Untersuchungen verglichen werden sollen.
Literatur Acheson, D. J., Wells, J. B. & MacDonald, M. C. (2008). New and updated tests of print exposure and reading abilites in college students. Behavior Research Methods, 40, 278 – 289. Allen, L., Cipielewski, J. & Stanovich, K. E. (1992). Multiple indicators of children’s reading habits and attitudes: Construct validity and cognitive correlates. Journal of Educational Psychology, 84, 489 – 503. Amazon.de [Abfrage der Bestseller unter der Rubrik „Romane und Erza¨hlungen, Kinder- und Jugendbu¨cher“]. Zugriff am 13. 09. 2013. Verfu¨gbar unter http://www.amazon.de/gp/be stsellers/books/280857/ref=zg_bs_nav_b_2_280652 Anderson, R. C., Wilson, P. T. & Fielding, L.G. (1988). Growth in reading and how children spend their time outside of school. Reading Research Quarterly, 23, 285 – 303. Becker, M., McElvany, N. & Kortenbruck, M. (2010). Intrinsic and extrinsic reading motivation as predictors of reading literacy: A longitudinal study. Journal of Educational Psychology, 102, 773 – 785. Beier, M. E. & Ackerman, P. L. (2001). Current-events knowledge in adults: An investigation of age, intelligence, and nonability determinants. Psychology and Aging, 16, 615 – 628. Bos, W., Tarelli, I., Bremerich-Vos, A. & Schwippert, K. (2012). IGLU 2011. Lesekompetenz von Grundschulkindern in Deutschland und im internationalen Vergleich. Mu¨nster: Waxmann. Buecher.de [Abfrage der Bestseller unter der Rubrik „Kinder- und Jugendbu¨cher“]. Zugriff am 13. 09. 2013. Verfu¨gbar unter http://www.buecher.de/shop/Start/Buecher/kinderbuecher/ kinderbuecher_kinderbuecher/start/vnode/11543/ Cunningham, A. E. & Stanovich, K. E. (1990). Assessing print exposure and orthographic processing skill in children: a
30
Sascha Schroeder, Jutta Segbers und Pauline Schro¨ter
quick measure of reading experience. Journal of Educational Psychology, 82, 733 – 740. Hambrick, D. Z., Meinz. E. J. & Oswald, F. L. (2007). Individual differences in current events knowledge: Contributions of ability, personality, and interests. Memory & Cognition, 35, 304 – 316. Harlaar, N., Dale, P. S. & Plomin, R. (2007). Reading exposure: A (largely) environmental risk factor with environmentallymediated effects on reading performance in the primary school years. Journal of Child Psychology and Psychiatry, 48, 1192 – 1199. Hurrelmann, B., Hammer, M. & Nieß, F. (1993). Lesesozialisation. Leseklima in der Familie. Gu¨tersloh: Bertelsmann. Medienpa¨dagogischer Forschungsverbund Su¨dwest (2013). KIM-Studie 2012. Stuttgart: Landesanstalt fu¨r Kommunikation Baden-Wu¨rttemberg. McElvany, N., Kortenbruck, M. & Becker, M. (2008). Lesekompetenz und Lesemotivation. Entwicklung und Mediation des Zusammenhangs durch Leseverhalten. Zeitschrift fu¨r Pa¨dagogische Psychologie, 22, 207 – 219. Mol. S. E. & Bus, A. G. (2011). To read or not to read: A metaanalysis of print exposure from infancy to early adulthood. Psychological Bulletin, 137, 267 – 296. Pfost, M., Do¨rfler, T. & Artelt, C. (2010). Der Zusammenhang zwischen außerschulischem Lesen und Lesekompetenz. ¨ bergang von der Ergebnisse einer La¨ngsschnittstudie am U Grund- zur weiterfu¨hrenden Schule. Zeitschrift fu¨r Entwicklungspsychologie und Pa¨dagogische Psychologie, 42, 167 – 176. Pfost, M., Do¨rfler, T. & Artelt, C. (2013). Students‘ extracurricular reading behavior and the development of vocabulary and reading comprehension. Learning and Individual Differences, 26, 89 – 102. Scheffler, B.(2012). Perso¨nliche Kommunikation via Telefon, 05. 12. 2012. Schroeder, S. (2011). What readers have and do: Effects of students’ verbal ability and reading time components on comprehension with and without text availability. Journal of Educational Psychology, 103, 877 – 896.
Snodgrass, J. G. & Corwin, J. (1988). Pragmatics of measuring recognition memory: Applications to dementia and amnesia. Journal of Experimental Psychology: General, 117, 34 – 50. Spear-Swerling, L., Brucker, P. O. & Alfano, M. P. (2010). Relationships between sixth-graders‘ reading comprehension and two different measures of print exposure. Reading and Writing, 23, 73 – 96. Stanovich, K. E. (1986). Matthew effects in reading: Some consequences of individual differences in the acquisition of literacy. Reading Research Quarterly, 21, 360 – 407. Stanovich, K. E. & Cunningham, A. E. (1992). Studying the consequences of literacy within a literate society: The cognitive correlates of print exposure. Memory & Cognition, 1992, 51 – 68. Stanovich, K. E. & West, R. F. (1989). Exposure to print and orthographic processing. Reading Research Quarterly, 24, 402 – 433. Stanovich, K. E., West, R. F. & Harrison, M. R. (1995). Knowledge growth and maintenance across the life span: Developmental Psychology, 31, 811 – 826. Weiß, R. H. (2006). Grundintelligenztest Skala 2 – Revision (CFT20-R) mit Wortschatztest und Zahlenfolgentest – Revision (WS/ZF-R). Go¨ttingen: Hogrefe. West, R. F., Stanovich, K. E. & Mitchell, H. R. (1993). Reading in the real world and its correlates. Reading Research Quarterly, 28, 35 – 49.
Onlinevero¨ffentlichung: 19. 12. 2014
Dr. Sascha Schroeder M. Sc. Jutta Segbers M. Ed. Pauline Schro¨ter Max-Plank-Institut fu¨r Bildungsforschung MPFG Reading Education and Development (REaD) Lentzallee 94 14195 Berlin E-Mail: sascha.schroeder@mpib-berlin.mpg.de
... mögen vergangen sein, sind aber nie ganz vergessen. Mit einer Kondolenzspende erzählen Sie die Geschichte eines geliebten Menschen weiter und unterstützen zugleich die Erforschung der Alzheimer-Krankheit.
Tel. 0800 / 200 400 1 (gebührenfrei)
Kreuzstr. 34 · 40210 Düsseldorf www.alzheimer-forschung.de
E41
Wir informieren Sie gerne.
ProsA
Prosodie-Analyse
Ein computergestütztes Verfahren zur Erfassung rezeptiver prosodischer Fähigkeiten
ProsA
Manual
Prosodie-Analyse
Wenke Walther Meike Otten
Ein computergestütztes Verfahren zur Erfassung rezeptiver prosodischer Fähigkeiten
unter Mitarbeit von Katharina Schulz
W. Walther und M. Otten Unter Mitarbeit von K. Schulz Einsatzbereich: Kinder zwischen 4;0 und 8;11 Jahren. Die ProsA wird in der sprachtherapeutischen/ logopädischen Praxis eingesetzt sowie im Bereich der Diagnostik in sozial-pädiatrischen Zentren oder Abteilungen für Pädaudiologie und Phoniatrie. Weitere Einsatzbereiche sind die Ausbildung und das Studium der Logopädie. Einzeltest. Das Verfahren: Die ProsA ist ein computergestütztes Verfahren zur Erfassung rezeptivprosodischer Fähigkeiten. Das Instrument besteht aus fünf separaten Untertests (ein Formtest mit 15 Items und vier Funktionstests mit je 13 Items). Alle Items werden akustisch vorgegeben. Der „Formtest“ dient der Überprüfung der auditiven Diskriminationsfähigkeit für prosodische Merkmale (Tonhöhen, Pausen, Betonungen). Mit dem Funktionstest „Satzmodus“ wird die Fähigkeit bestimmt, den Äußerungstyp (Frage versus Aussage) korrekt zu bestimmen. Mit dem Funktionstest „Wortgrenzen“ wird die Fähigkeit untersucht, Wortgrenzen anhand prosodischer Merkmale zu erkennen. Der Funktionstest „Satzfokus“ ermöglicht die Untersuchung der Fähigkeit, anhand prosodischer Elemente den Fokus eines Satzes korrekt zu erkennen. Mit dem Funktionstest „Emotionen“ kann untersucht werden, inwieweit ein Kind anhand prosodischer Elemente den emotionalen Gehalt einer Äußerung erfassen kann. Bei allen Untertests antwortet das untersuchte Kind, in dem es ein visuell dargebotenes Symbol auf dem Bildschirm anklickt. Der Untersucher sitzt während der Testdurchführung neben dem Kind. Eine Testung in Abwesenheit des Untersuchers ist nicht vorgesehen. Bearbeitungsdauer: Die Durchführungszeit beträgt je nach Alter, Mitarbeit und Konzentrationsfähigkeit des untersuchten Kindes ca. 20 Minuten. Artikel-Nr. Beschreibung H5 196 01
(HTS5)*, Testkit inkl 50 Nutzungen und Manual
€ 360,00
* PC-Version benötigt Programmoberfläche HTS. Nähere Informationen erhalten Sie in unserer Software-Abteilung: (0551) 99950-880.
Hogrefe Verlag GmbH & Co. KG Testzentrale Tel. +49 551 999 50-999 / Fax -998 testzentrale@hogrefe.de www.testzentrale.de
Empirische Praxis in der Geistigbehindertenpädagogik
Jan Kuhl / Nils Euker (Hrsg.)
Evidenzbasierte Diagnostik und Förderung von Kindern und Jugendlichen mit intellektueller Beeinträchtigung 2016. 312 S., 15 Abb., 11 Tab., Kt € 29.95 / CHF 39.90 ISBN 978-3-456-85499-1 AUCH ALS E-BOOK
Innerhalb der Erziehungs- und Bildungswissenschaft, der pädagogischen Praxis und auch der Bildungspolitik setzt sich immer stärker die Ansicht durch, dass die Unterrichtung, Förderung und Therapie von Kindern und Jugendlichen auf Grundlage fundierter empirischer Erkenntnisse erfolgen sollte. Innerhalb der deutschen Geistigbehindertenpädagogik hat sich dieser Ansatz der evidenzbasierten Praxis noch nicht so sehr verbreitet, wie in anderen Teildisziplinen der (Sonder-) Pädagogik.
www.hogrefe.com
Dennoch gibt es, international und inzwischen auch vermehrt in Deutschland, eine substanzielle Anzahl fundierter Studien zur Diagnostik und Förderung von Kindern und Jugendlichen mit intellektueller Beeinträchtigung in verschiedenen Inhaltsbereichen. Ziel des Buches ist es, die aktuelle Forschungslage zusammenzutragen und für weitere Forschung, insbesondere aber für eine evidenzbasierte Praxis nutzbar zu machen.
Diagnostica, 62 (1), 31 – 43 ' Hogrefe Verlag, Go¨ttingen 2015
Die Spontaneous Use of Imagery Scale (SUIS) – Entwicklung und teststatistische Pru ¨fung einer deutschen Adaption Stefanie Maria Görgen, Wolfgang Hiller und Michael Witthöft
Zusammenfassung: Mentale Vorstellungsbilder spielen bei zahlreichen kognitiven, motorischen und emotionalen Prozessen eine bedeutende Rolle. Die Spontaneous Use of Imagery Scale (SUIS; Kosslyn, Chabris, Shephard & Thompson, 1998) ist ein Selbstbeurteilungsinstrument zur Erfassung von interindividuellen Unterschieden hinsichtlich des allta¨glichen Gebrauchs mentaler Vorstellungsbilder. In zwei Studien wurde eine deutsche Adaption der SUIS entwickelt und psychometrisch erprobt. Mittels konfirmatorischer Faktorenanalyse wurde in beiden Studien die Eindimensionalita¨t der Skala nachgewiesen. Erste Validita¨tshinweise ergeben sich aus Beziehungen der SUIS zu Maßen von bildhaften (visuell-imaginativen) sowie verbal-gedanklichen kognitiven Stilen (Studie 1, N = 216). Mit der deutschen Version konnten auch positive Zusammenha¨nge mit Hypomanie repliziert werden. In der zweiten Studie (N = 447) konnte die interne Konsistenz der deutschen Version durch eine Erweiterung der Skala deutlich verbessert werden. Mit der erweiterten Version der SUIS liegt nun erstmalig fu¨r den deutschsprachigen Raum ein Instrument vor, das die Imaginationsneigung reliabel erfassen kann. Schlu¨sselwo¨rter: Mentale Vorstellungen, Visualisierung, Imagination, Hypomanie The Spontaneous Use of Imagery Scale (SUIS) – Development and Psychometric Evaluation of a German Adaptation Abstract: Mental imagery plays an important role in numerous cognitive, motoric, and emotional processes. The Spontaneous Use of Imagery Scale (SUIS; Kosslyn, Chabris, Shephard & Thompson, 1998) is a self-report measure for assessing interindividual differences in the everyday use of mental images. In two studies, a German adaptation of the SUIS was developed and validated. Using confirmatory factor analysis, we demonstrated the unidimensionality of the scale in both studies. Associations between the SUIS and measures of visual imaginative and verbal cognitive styles provide evidence for the convergent and discriminant validity (Study 1, N = 216). Using the German version, relationships between the SUIS and hypomania could be replicated. In the second study (N = 447), the internal consistency of the German version could be considerably improved by adding further items. In sum, the extended German version of the SUIS is a reliable measure for assessing the tendency to use mental imagery. Keywords: mental imagery, mental images, visualization, hypomania
Mentale Vorstellungsbilder spielen im Leben vieler Menschen eine bedeutende Rolle. Im Alltag treten Gedanken an vergangene oder bevorstehende Ereignisse ha¨ufig in Form mentaler Bilder auf. Mentale Vorstellungen ko¨nnen fu¨r kognitive Funktionen wie Lernen, Geda¨chtnis und Problemlo¨sen von großer Bedeutung sein (Kosslyn, Thompson & Ganis, 2006; Paivio, 1969; Tartaglia, Bamert, Mast & Herzog, 2009). Zudem ko¨nnen Visualisierungen auch wesentlich zur Entstehung und Modifizierung von Gefu¨hlszusta¨nden (Go¨rgen, Joormann, Hiller & Wittho¨ft, 2015) sowie zur Steigerung sportlicher Leistungen beitragen (Martin, Moritz & Hall, 1999).
Mit mentalen Vorstellungen werden innere Repra¨sentationen bezeichnet, die der Wahrnehmung von Umweltreizen a¨hnlich sind, allerdings ohne entsprechende externe Reize entstehen (Kosslyn, Ganis & Thompson, 2001). Mentale Bilder ko¨nnen den aus dem Langzeitgeda¨chtnis abgerufenen Informationen entsprechen oder Modifikationen und Kombinationen der gespeicherten Informationen darstellen und ko¨nnen in jeder Sinnesmodalita¨t vorkommen (Kosslyn et al., 2001; Pearson & Kosslyn, 2013). Sie ko¨nnen sich in Form von Erinnerungen, Tra¨umen sowie intrusiven oder absichtlich erzeugten Vorstellungen a¨ußern (Hackmann & Holmes, 2004).
Wir danken Professor Stephen M. Kosslyn fu¨r die freundliche Genehmigung, die SUIS u¨bersetzen zu du¨rfen und Jasmina Eskic sowie AnnKathrin Weiß fu¨r die Unterstu¨tzung bei der Datenerhebung fu¨r Studie 2.
Empirische Befunde zu interindividuellen Unterschieden hinsichtlich der Ha¨ufigkeit sowie qualitativer Merkmale mentaler Bilder (z. B. Klarheit) liegen bereits
DOI: 10.1026/0012-1924/a000135
32
Stefanie Maria Go¨rgen, Wolfgang Hiller und Michael Wittho¨ft
seit mehr als 100 Jahren vor (Betts, 1909). Neben experimentellen Aufgaben, beispielsweise zur Untersuchung von Prozessen der Bildung und Aufrechterhaltung mentaler Bilder, wurden auch Selbstbeurteilungsinstrumente zur Erfassung qualitativer Merkmale mentaler Bilder entwickelt. Zur Erfassung der Fa¨higkeit, klare und lebhafte mentale Vorstellungen zu generieren, kommen seit vielen Jahren der Betts’ Questionnaire upon Mental Imagery (QMI; Betts, 1909; Sheehan, 1967) und der Vividness of Visual Imagery Questionnaire (VVIQ; Marks, 1973) zur Anwendung. Die Tellegen Absorption Scale (TABS; Ritz & Dahme, 1995; Tellegen & Atkinson, 1974) erfasst die Disposition, sensorischen oder imaginativen Erfahrungen besondere Aufmerksamkeit zu schenken bzw. darin zu „versinken“. Zwischen der TABS und dem VVIQ fand sich eine Korrelation von r = .59 (Crawford, 1982). Diese Messinstrumente zeigten in bisherigen Studien Zusammenha¨nge mit kognitiven Funktionen wie Aufmerksamkeits- und Geda¨chtnisleistungen sowie mit Kreativita¨t und affektiven Reaktionen (Marks, 1973; Pekala, Wenger & Levine, 1985; Riske, Wallace & Allen, 2000; Shaw & Belmore, 1982). Im englischsprachigen Raum ist die Spontaneous Use of Imagery Scale (SUIS; Kosslyn, Chabris, Shephard & Thompson, 1998) ein weit verbreitetes Instrument zur Selbstbeurteilung der Imaginationsneigung. Die SUIS erfasst den habituellen Gebrauch mentaler Vorstellungsbilder im Sinne eines Traits und umfasst 12 Aussagen zur Visualisierung allta¨glicher Situationen (z. B. „Wenn ich daran denke, eine/n Verwandte/n zu besuchen, habe ich fast immer ein klares mentales Bild von ihr/ihm.“). Der Grad der Zustimmung wird u¨ber eine fu¨nfstufige LikertSkala erfasst. Im Sinne eines eindimensionalen Konstrukts, das von einer niedrigen zu einer hohen Auspra¨gung eines visuell-imaginativen Denkstils reicht, erfolgt die Auswertung mittels des Summenwerts aller 12 Items. Ho¨here Werte in der SUIS deuten dabei auf eine sta¨rkere Imaginationsneigung hin. Die SUIS demonstrierte eine hohe interne Konsistenz (a " .81) und konvergente Validita¨t (Blackwell et al., 2013; McCarthy-Jones, Knowles & Rowse, 2012; Reisberg, Pearson & Kosslyn, 2003). Bisherige Studien konnten zeigen, dass die Imaginationsneigung mit kognitiven Funktionen wie Problemlo¨sen (Jola & Mast, 2005) sowie mit der Klarheit und Emotionalita¨t mentaler Bilder assoziiert ist (Blackwell et al., 2013; Murphy, Barnard, Terry, Carthery-Goulart & Holmes, 2011). Zusa¨tzlich wurde die SUIS in zahlreichen Studien angewendet, um den Einfluss der Imaginationsneigung auf abha¨ngige Variablen oder Zusammenha¨nge zu kontrollieren (z. B. Deeprose & Holmes, 2010; Holmes, Mathews, Mackintosh & Dalgleish, 2008; Vassilopoulos & Moberly, 2013). In den letzten Jahren hat die Erforschung mentaler bildhafter Vorstellungen speziell in der klinischen Psychologie eine zunehmende Bedeutung gewonnen, wobei auch hier die SUIS ein ha¨ufig angewandtes Instrument
darstellt (Pearson, Deeprose, Wallace-Hadrill, Burnett Heyes & Holmes, 2013). In zahlreichen Studien konnten Holmes und Kollegen belegen (z. B. Holmes & Mathews, 2005; Holmes, Mathews, Dalgleish & Mackintosh, 2006), dass mentale Vorstellungsbilder unser emotionales Erleben sta¨rker beeinflussen als eine verbale Verarbeitung. Aus diesem Grund wurden ku¨rzlich theoretische Modelle zur besonderen Bedeutung emotionsversta¨rkender mentaler Vorstellungen bei affektiven Sto¨rungen formuliert (Holmes, Geddes, Colom & Goodwin, 2008; Holmes, Lang & Deeprose, 2009), die allerdings empirisch noch wenig u¨berpru¨ft wurden. Depressive Stimmung soll dabei durch negative Vorstellungsbilder sowie durch ein Defizit an positiven Vorstellungen versta¨rkt und aufrechterhalten werden (Holmes et al., 2009). Im Rahmen bipolarer Sto¨rungen besteht die Annahme, dass insbesondere positive Imaginationen eine bedeutende Rolle bei der Aufrechterhaltung manischer Symptome spielen (Holmes, Geddes et al., 2008). Trotz der Verbreitung der SUIS wurde die angenommene Eindimensionalita¨t fu¨r die englischsprachige Originalversion bislang nicht konsequent psychometrisch u¨berpru¨ft. Ku¨rzlich wurde die SUIS auch im deutschsprachigen Raum im Rahmen einer Studie zur virtuellen Realita¨t angewandt (Scheel et al., 2012). Allerdings wur¨ bersetzung vero¨ffentde bislang noch keine deutsche U licht und es fehlen Angaben zu deren Testgu¨tekriterien sowie wichtigen teststatistischen Kennwerten. Die vorliegenden Studien haben daher zum Ziel, eine deutsche Adaption der SUIS zu entwickeln und deren Faktorenstruktur, interne Konsistenz sowie erste Belege der Validita¨t zu pru¨fen. Zudem sollen die in theoretischen Modellen postulierten Zusammenha¨nge zwischen mentalen Vorstellungsbildern und Depressivita¨t sowie Hypomanie untersucht werden.
Studie 1 In Studie 1 wurde die SUIS ins Deutsche u¨bersetzt. Die deutsche Adaption wurde hinsichtlich ihrer Faktorenstruktur, internen Konsistenz und weiterer wichtiger teststatistischer Kennwerte gepru¨ft. Um erste Hinweise auf konvergente Validita¨t zu pru¨fen, wurde der Zusammenhang mit der TABS ermittelt. Die TABS wurde gewa¨hlt, da sie wie die SUIS relativ stabile, interindividuelle Unterschiede im Sinne eines Traits erfasst, wa¨hrend beispielsweise Fragebo¨gen wie der QMI oder VVIQ die Klarheit der aktuell erzeugten mentalen Bilder erfragen. Zur Beurteilung der diskriminanten Validita¨t erschien die Pru¨fung der Assoziation der SUIS mit einem verbal-gedanklichen Verarbeitungsstil geeignet. Rumination, die wiederholt verbal-gedankliche Bescha¨ftigung mit Ereignissen oder Problemen, kann auch wie die Imaginationsneigung als u¨berdauerndes Merkmal betrachtet werden, das sich in spontan auftretenden Kognitionen a¨ußert (Bu¨r-
Die Spontaneous Use of Imagery Scale (SUIS) ger & Ku¨hner, 2007; Fresco, Frankel, Mennin, Turk & Heimberg, 2002). Eine ku¨rzlich durchgefu¨hrte Studie konnte zeigen, dass sich die Imaginationsneigung gut von prima¨r verbalen Ruminationsprozessen abgrenzen la¨sst (r = .05, p = .75; Torkan, Kalantari, Neshatdoost, Maroufi & Talebi, 2012). Auch in der vorliegenden Studie sollten sich daher keine oder lediglich schwache Zusammenha¨nge zwischen bildhaften (SUIS) und verbalen (Rumination) Kognitionen finden lassen. Basierend auf den Modellen zur besonderen Rolle emotionsversta¨rkender mentaler Vorstellungen fu¨r affektive Symptome (Holmes, Geddes et al., 2008; Holmes et al., 2009) sollen Zusammenha¨nge zwischen der SUIS und Hypomanie sowie negativem Affekt (Depressivita¨t und ¨ ngstlichkeit) untersucht werden. Im Vergleich zu einem A verbalen Denkstil fu¨hrt ein visuell-imaginativer Denkstil zu sta¨rkeren emotionalen Reaktionen (Holmes & Mathews, 2005). Vorherrschende Kognitionen, wie positive Bewertungen bei Hypomanie (Mason, O’Sullivan, Bentall & ElDeredy, 2012) und ha¨ufige negative Bewertungen sowie ein reduziertes Maß an positiven Kognitionen bei Depressivita¨t (Gotlib & Joormann, 2010), a¨ußern sich bei einem visuell-imaginativen Denkstil in Form mentaler Vorstellungsbilder, die aufgrund ihrer emotionsversta¨rkenden Wirkung wesentlich zur Versta¨rkung und Aufrechterhaltung affektiver Symptome beitragen ko¨nnen (Holmes, Geddes et al., 2008; Holmes et al., 2009). In der vorliegenden Studie erwarteten wir eine positive Assoziation zwischen der Imaginationsneigung und Hypomanie. Die Zusammenha¨nge zwischen der SUIS und Depressivita¨t waren in bisherigen Studien uneinheitlich. Wa¨hrend Berna, Lang, Goodwin und Holmes (2011) fanden, dass Personen mit ho¨heren Werten im Beck-Depressionsinventar verglichen zu Personen mit niedrigen Werten eine signifikant ho¨here Imaginationsneigung angaben, konnten zwei weitere Studien diese Assoziation nicht belegen (Deeprose & Holmes, 2010; Holmes, Lang, Moulds & Steele, 2008). Hinsichtlich Angstsymptomen deuten bisherige Studien darauf hin, dass spezifische negative Imaginationen im Sinne des emotionsversta¨rkenden Effekts Zustandsangst (State-Angst) versta¨rken ko¨nnen (z.B. Holmes & Mathews, 2005), wa¨hrend kaum Studien zu einem Zusammenhang zwischen der SUIS und Trait-Angst vorliegen (Lang, Blackwell, Harmer, Davison & Holmes, 2012). Dabei fanden Lang et al. (2012) keine signifikante Korrelation ¨ ngstlichkeit (r = -.17, p > .05). zwischen der SUIS und A ¨ Da Angstlichkeit im Rahmen psychopathologischer Prozesse ein relevanter Faktor ist (z. B. bei affektiven Sto¨rungen), soll deren Assoziation mit der adaptierten deutschen Version der SUIS gepru¨ft werden. Die Untersuchung der Zusammenha¨nge zwischen der SUIS und psychopathologischen Symptomen (Hypomanie, Depressi¨ ngstlichkeit) kann somit weiter zur Validierung vita¨t und A der deutschen Version der SUIS sowie zur Pru¨fung der postulierten Rolle mentaler Vorstellungen bei affektiven Symptomen beitragen.
33
Methode Übersetzung der SUIS ¨ bersetzung der SUIS orientierte sich an den EmpDie U fehlungen von Schmitt und Eid (2007) fu¨r die Adaption fremdsprachiger Messverfahren. Die 12 englischen Items der Originalversion wurden zuna¨chst von einer wissenschaftlich ta¨tigen Psychologin (Erstautorin) ins Deutsche u¨bersetzt. Die u¨bersetzten Items wurden in einem zweiten ¨ bersetzerin, die besondere Schritt von einer bilingualen U Erfahrung mit Arbeiten im psychologischen Bereich aufweist, ins Englische ru¨cku¨bersetzt. Die beiden eng¨ bereinlischsprachigen Versionen zeigten eine große U stimmung. In 3 der 12 Items wurde je ein einzelnes Wort u¨berarbeitet. Die Items (siehe Tabelle 1) werden mittels einer fu¨nfstufigen Skala beantwortet (1 = nie zutreffend bis 5 = immer voll zutreffend; Instruktion siehe Anhang). Stichprobe Die Stichprobe umfasste N = 216 Personen (72 % weiblich) und bestand fast ausschließlich aus Studierenden (96 %, 4 % Mitarbeiter der Universita¨t). Das Durchschnittsalter betrug M = 23.68 Jahre (SD = 4.46). Fu¨r 90 % der Testpersonen war Deutsch die Muttersprache. Die Personen, deren Muttersprache nicht Deutsch war, lebten bereits seit mindestens 12 Monaten in der Bundesrepublik Deutschland (M = 106.84 Monate, SD = 97.15; 1 % machte keine Angabe). Die Untersuchung fand im Rahmen von Gruppentestungen (" 5 Personen) im PC-Labor des Psychologischen Instituts statt. Weitere Messinstrumente Die Tellegen Absorption Scale (TABS; Ritz & Dahme, 1995; Tellegen & Atkinson, 1974) erfasst mit 34 Items die Disposition, sensorischen oder imaginativen Erfahrungen die volle Aufmerksamkeit zu schenken bzw. darin zu „versinken“. Der Grad der Zustimmung zu Aussagen wie „Meine Gedanken erscheinen oft nicht als Worte sondern als Bilder“ und „Manche Musik erinnert mich an Bilder oder sich a¨ndernde Farbmuster“ wird mittels einer fu¨nfstufigen Skala erfasst (0 = trifft nicht zu bis 4 = trifft vo¨llig zu). Die vorliegende Studie belegte eine sehr gute interne Konsistenz (a = .94). Der Response Styles Questionnaire (RSQ-D; Bu¨rger & Ku¨hner, 2007; Nolen-Hoeksema & Morrow, 1991) mit 23 vierstufigen Items ist ein weit verbreitetes Instrument zur Erfassung von Rumination (z. B. „Wenn ich mich traurig oder niedergeschlagen fu¨hle, denke ich daru¨ber nach, weshalb ich mich so fu¨hle.“). Der RSQ-D setzt sich aus drei Subskalen zusammen: symptomfokussierte Rumination (8 Items), selbstfokussierte Rumination
34
Stefanie Maria Go¨rgen, Wolfgang Hiller und Michael Wittho¨ft
(7 Items) und Ablenkung (8 Items). In der aktuellen Studie wiesen die Subskalen zufriedenstellende interne Konsistenzen auf (a " .73). Die Trait-Angstskala des State-Trait-Angstinventars (STAI-T; Laux, Glanzmann, Schaffner & Spielberger, 1981) erfasst Angst als u¨berdauerndes Perso¨nlichkeitsmerkmal mithilfe von 20 vierstufigen Aussagen. Die interne Konsistenz lag in der aktuellen Studie bei a = .90. Das Beck-Depressionsinventar (BDI-II; Hautzinger, Keller & Ku¨hner, 2006) mit 21 vierstufigen Items dient der Beurteilung der Schwere depressiver Symptome in den letzten zwei Wochen. Die vorliegende Studie belegte eine hohe interne Konsistenz (a = .89). Die Hypomane Perso¨nlichkeitsskala (HPS; Eckblad & Chapman, 1986; Meyer, Dru¨ke & Hautzinger, 2000) erfasst einen Perso¨nlichkeitsstil, der sich durch Optimismus, Tatendrang und gesteigerte Energie auszeichnet. Mittels der HPS ko¨nnen auch Personen mit einem erho¨hten Risiko fu¨r bipolare Sto¨rungen identifiziert werden. Die HPS umfasst 48 Items mit dichotomem Antwortformat (Ja – Nein) und sollte nach Schalet, Durbin und Revelle (2011) in drei Subskalen unterteilt werden: Soziale Vitalita¨t (22 Items), Stimmungsschwankungen (15 Items) und Erregtheit (8 Items). Die interne Konsistenz der Gesamtskala war hoch (a = .87), der Subskalen soziale Vitalita¨t und Stimmungsschwankungen zufriedenstellend (a " .76) und der Subskala Erregtheit niedrig (a = .66). Statistische Analysen Fu¨r die statistischen Analysen wurden die Softwareprogramme IBM SPSS Statistics 20 (IBM, 2011) sowie Mplus 6 (Muthe´n & Muthe´n, 1998 – 2011) herangezogen. Die explorative Pru¨fung der Faktorenstruktur erfolgte mittels einer Parallelanalyse nach Horn (1965). Die gefundene Faktorenlo¨sung wurde anschließend konfirmatorisch mittels eines Strukturgleichungsmodells in Mplus 6 (Muthe´n & Muthe´n, 1998 – 2011) getestet. Die Analysen in Mplus wurden unter Verwendung des mittelwerts- und varianzadjustierten weighted-least-squareAlgorithmus (WLSMV) durchgefu¨hrt, der sich gegenu¨ber Abweichungen von der Normalverteilungsannahme als robust erwiesen hat. Da der WLSMV-Scha¨tzer auf tetrachorischen Korrelationen basiert, deren Stabilita¨t bei kleinen Zellbesetzungen (< 5 %) reduziert ist (Brown & Benedetti, 1977), wurden spa¨rlich besetzte Antwortkategorien so zusammengefasst, dass die Antwortha¨ufigkeit je Kategorie > 5 % betrug. Aufgrund der Sensitivita¨t des c2-Werts gegenu¨ber der Stichprobengro¨ße wurden alternative Kennwerte zur Beurteilung der Modellgu¨te herangezogen (Schermelleh-Engel, Moosbrugger & Mu¨ller, 2003). Als absoluten Fit-Index wird der RMSEA (root mean square error of approximation) und als inkrementelle Fit-Indizes werden der CFI (comparative-fit-index)
sowie der TLI (Tucker-Lewis-Index) berichtet (Kriterien zur Beurteilung vgl. Schweizer, 2010).
Ergebnisse Faktorenstruktur In der Parallelanalyse (Horn, 1965) lag nur ein empirischer Eigenwert u¨ber dem 95 % Perzentil zufa¨llig generierter Eigenwerte, was auf eine einfaktorielle Lo¨sung hinweist. Unter Verwendung eines Strukturgleichungsmodells wurde die explorativ gefundene Eindimensionalita¨t der Skala konfirmatorisch u¨berpru¨ft. Das eindimensionale Messmodell zeigte eine akzeptable bis gute Anpassungsgu¨te: c2 (df = 54) = 86.91, p < .01; RMSEA = .05; CFI = .92; TLI = .90. Die Faktorladungen der 12 Items sind in Tabelle 1 dargestellt. Deskriptive Kennwerte und Reliabilität Der mittlere Summenwert der 12 Items lag bei M = 39.09 (SD = 7.44). Frauen (M = 39.89, SD = 7.37) erreichten dabei signifikant ho¨here Summenwerte als Ma¨nner (M = 37.05, SD = 7.27), t(214) = 2.56, p < .05, d = 0.39. Die Verteilung der Summenwerte wies eine Schiefe von -0.29 (SD = 2.44) und eine Kurtosis von 0.05 (SD = 4.85) auf. Die interne Konsistenz der 12 Items ist mit einem Cronbachs a-Wert von .66 als niedrig zu bewerten. Die Itemschwierigkeit wurde mittels der Formel von Fisseni (2004) berechnet. Die Schwierigkeiten der einzelnen Items variierten zwischen .19 und .71 (siehe Tabelle 2). Ein Item (Item 6) wies eine Trennscha¨rfe unterhalb der empfohlenen Grenze von .30 auf (Lienert & Raatz, 1994). Durch Ausschluss des Items 6 („Wenn relativ einfache technische Dinge klar in einem Text beschrieben sind, finde ich Abbildungen ablenkend, da diese meine Fa¨higkeit, die Dinge bildhaft vorzustellen, sto¨ren.“) verbesserte sich die interne Konsistenz der Skala, aber sie lag immer noch im niedrigen Bereich (a = .69). Tabelle 2 zeigt auch, dass alle Items hinsichtlich Schiefe und Kurtosis im Normbereich liegen (Schiefe: -2 bis +2; Kurtosis: -7 bis +7). Konvergente und diskriminante Validitätshinweise und Zusammenhänge mit psychischen Symptomen Tabelle 3 zeigt die Zusammenha¨nge der SUIS mit der TABS, dem RSQ sowie psychopathologischen Merkmalen. Die SUIS korrelierte mit der TABS signifikant sta¨rker (r = .43, p < .001) als mit dem RSQ (RSQsym: r = .14, p < .05; tdiff = 3.77, p < .001).
35
Die Spontaneous Use of Imagery Scale (SUIS) Tabelle 1. Itemwortlaut und Faktorladungen der SUIS-Items in Studie 1 (N = 216) und Studie 2 (N = 447) Nr. Item
Faktorladung S1 S2
1 Wenn ich an einen mir unbekannten Ort gehe, habe ich lieber Wegbeschreibungen, die zusa¨tzlich zu den Namen von Orientierungspunkten auch detaillierte Beschreibungen dieser (wie z. B. Gro¨ße, Umriss und Farbe einer Tankstelle) beinhalten. 2 Wenn ich einen kurzen Blick auf ein Auto werfe, das teilweise durch Stra¨ucher verdeckt ist, dann „vervollsta¨ndige“ ich es automatisch, d. h. ich sehe das ganze Auto vor meinem geistigen Auge. 3 Wenn ich mich in einem Gescha¨ft nach neuen Mo¨beln umschaue, dann stelle ich mir immer bildlich vor, wie die Mo¨bel an bestimmten Stellen meiner Wohnung aussehen wu¨rden. 4 Ich bevorzuge es, Romane zu lesen, bei denen ich mir einfach vorstellen kann, wo die Personen sind und was sie gerade tun anstatt Romane, die schwer bildlich vorzustellen sind. 5 Wenn ich daran denke, eine/n Verwandte/n zu besuchen, habe ich fast immer ein klares mentales Bild von ihr/ihm. 6 Wenn relativ einfache technische Dinge klar in einem Text beschrieben sind, finde ich Abbildungen ablenkend, da diese meine Fa¨higkeit, die Dinge bildhaft vorzustellen, sto¨ren. 7 Wenn mich jemand bittet, zweistellige Zahlen zu addieren (z. B. 24 und 31), wu¨rde ich mir diese bildhaft vorstellen, um sie zu addieren. 8 Bevor ich mich anziehe, um auszugehen, stelle ich mir zuerst bildlich vor, wie ich aussehen werde, wenn ich verschiedene Kombinationen an Kleidern trage. 9 Wenn ich an die Reihe von Besorgungen denke, die ich noch erledigen muss, dann stelle ich mir die Gescha¨fte, die ich aufsuchen werde, bildlich vor. 10 Wenn ich zuerst die Stimme eines Freundes ho¨re, kommt mir fast immer spontan ein Bild von ihr/ihm in den Sinn. 11 Wenn ich einen Radiosprecher oder einen DJ ho¨re, die ich nie gesehen habe, ertappe ich mich gewo¨hnlich dabei, mir ein Bild zu machen, wie sie aussehen ko¨nnten. 12 Wenn ich einen Autounfall gesehen ha¨tte, wu¨rde ich mir das Geschehene bildhaft vorstellen, wenn ich spa¨ter versuchen wu¨rde, mich an Details zu erinnern. 13 Bevor ich an einen Urlaubsort reise, kommen mir spontan Bilder in den Kopf, wie es dort wohl aussehen wird. 14 Wenn ich an einen bevorstehenden Vortrag oder an ein wichtiges Gespra¨ch denke, dann stelle ich mir diese Szene bildlich vor. 15 Wenn ich Nachrichten lese oder ho¨re, kommen mir bildliche Vorstellungen der Geschehnisse in den Sinn. 16 Bevor ich sportliche Ta¨tigkeiten (z. B. Tennisaufschlag, Tor schießen) ausfu¨hre, stelle ich mir die entsprechenden Bewegungen zuerst bildlich vor. 17 Wenn ich Hunger habe, kommen mir spontan Bilder in den Sinn, was ich gerne essen wu¨rde. 18 Wenn ich Musik ho¨re, habe ich ein klares Bild der/s Interpretin/en im Kopf bzw. stelle mir vor, wie sie/er aussehen ko¨nnte.
.22
.26
.38
.40
.51
.43
.21
.41
.41
.63
-.05 .52
.44
.64
.60
.58
.73
.58
.69
.51
.65
.43
.45 .65 .69 .66 .51 .62 .51
Anmerkungen: S1 = Studie 1; S2 = Studie 2. Eine Parallelanalyse legte in beiden Studien die Extraktion eines Faktors nahe. Aufgrund einer niedrigen psychometrischen Qualita¨t wurde Item 6 von den Analysen in Studie 2 ausgeschlossen.
Diskussion Ziel von Studie 1 war die Entwicklung sowie faktorenanalytische und teststatistische Pru¨fung einer deutschen Adaption der SUIS als Maß fu¨r die Neigung zu mentalen bildhaften Vorstellungen. Wie fu¨r die englische Originalversion angenommen, konnten wir auch fu¨r die deutschsprachige Version mit Hilfe einer Parallelanalyse zuna¨chst die Eindimensionalita¨t der SUIS nachweisen. Eine konfirmatorische Analyse eines einfaktoriellen Modells erbrachte eine akzeptable (CFI und TLI) bis gute (RMSEA) Modellpassung. Niedrigere CFI und TLI Werte ko¨nnen, insbesondere bei kleineren Stichproben, auch aus einer
hohen Anzahl von Indikatoren pro Faktor resultieren. Erste Hinweise fu¨r die konvergente Validita¨t ergeben sich aus einem mittleren positiven Zusammenhang mit der TABS. Im Gegensatz dazu zeigte sich kein Zusammenhang mit selbstbezogener Rumination und nur ein sehr schwacher Zusammenhang in Form eines kleinen Effekts mit symptombezogener Rumination, was aufgrund der stark verbalen Auspra¨gung ruminativer Prozesse (Fresco et al., 2002) als erster vorla¨ufiger diskriminanter Validita¨tshinweis angesehen werden kann. Zur weiteren Validierung der deutschen Version sowie zur Pru¨fung einer fru¨heren Studie (Lang et al., 2012)
36
Stefanie Maria Go¨rgen, Wolfgang Hiller und Michael Wittho¨ft
Tabelle 2. Deskriptive Kennwerte fu¨r Studie 1 (N = 216) und Studie 2 (N = 447) Item Nr. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
M
SD
Pi
rit
Schiefe
Kurtosis
S1
S2
S1
S2
S1
S2
S1
S2
S1
S2
S1
S2
2.85 2.98 3.82 3.34 3.95 1.83 3.34 3.24 3.13 3.58 2.96 4.06
2.78 3.03 3.68 3.18 3.77
1.41 1.38 1.30 1.36 1.12 1.13 1.65 1.42 1.44 1.29 1.49 1.14
1.33 1.25 1.21 1.26 1.06
.40 .43 .65 .52 .67 .19 .56 .50 .47 .58 .44 .71
.38 .43 .60 .47 .61
.39 .48 .50 .34 .42 .10 .52 .61 .58 .57 .52 .43
.34 .46 .44 .46 .60
0.18 0.02 -0.97 -0.27 -0.90 1.40 -0.35 -0.18 -0.18 -0.59 -0.02 -1.21
0.22 -0.12 -0.65 -0.18 -0.62
-1.26 -1.11 -0.14 -1.10 0.03 1.24 -1.53 -1.29 -1.30 -0.67 -1.41 0.71
-1.21 -1.13 -0.65 -1.04 -0.39
2.96 3.06 2.87 3.44 2.73 3.64 3.70 3.59 3.10 2.62 3.39 2.25
1.52 1.33 1.32 1.19 1.33 1.11 1.06 1.18 1.09 1.29 1.21 1.14
.44 .44 .40 .53 .37 .58 .59 .57 .43 .34 .52 .25
.49 .60 .68 .65 .62 .45 .61 .62 .62 .51 .61 .51
-0.01 -0.05 0.06 -0.49 0.18 -0.68 -0.68 -0.59 -0.14 0.39 -0.46 0.61
-1.50 -1.21 -1.21 -0.73 -1.18 -0.20 -0.23 -0.58 -0.72 -0.98 -0.72 -0.52
Anmerkungen: S1 = Studie 1; S2 = Studie 2. M = Mittelwerte; SD = Standardabweichungen; Pi = Schwierigkeit; rit = Trennscha¨rfe. Die Mittelwerte der Items ko¨nnen Werte zwischen 1 und 5 annehmen.
Tabelle 3. Zusammenha¨nge der SUIS mit der TABS, dem RSQ sowie psychischen Symptomen fu¨r Studie 1 (N = 216) und Studie 2 (N = 447) Eingesetzte Verfahren mit Subskalen TABS RSQsym RSQselbst RSQdist STAI-T BDI-II HPS HPSsoz HPSStim HPSErr
S1 (12-Item Version) .43** .14* .07 .11 .05 .11 .26** .13 .25** .26**
a
SUIS
S2 (17-Item Version) .42**a
.16**
Anmerkungen: S1 = Studie 1; S2 = Studie 2; SUIS = Spontaneous Use of Imagery Scale; TABS = Tellegen Absorption Scale (in Studie 2 verku¨rzte 16-Item Version); RSQsym = symptomfokussierte Rumination; RSQselbst = selbstbezogene Rumination; RSQdist = Distraktion; STAI-T = Trait Version des State-Trait-Angstinventars; BDI-II = Beck-Depressionsinventar II; HPS = Hypomane Perso¨nlichkeitsskala; HPSsoz = Subskala Soziale Vitalita¨t der HPS; HPSStim = Subskala Stimmungsschwankungen der HPS; HPSErr = Subskala Erregtheit der HPS. a Die latenten Korrelationen betragen r = .56, p < .001 (Studie 1) und r = .49, p < .001 (Studie 2). ** p < .01; * p < .05.
wurde die Assoziation zwischen der SUIS und Trait-Angst ¨ bereinstimmung mit dem Ergebnis von betrachtet. In U Lang et al. (2012) fand sich keine signifikante Korrelation ¨ ngstlichkeit. zwischen der Imaginationsneigung und A Hierbei erscheint wichtig zu beachten, dass im Kontext ¨ ngstlichkeit bzw. klinisch bedeutsamer Angsterho¨hter A sto¨rungen (z. B. der Sozialen Angststo¨rung) imaginative Prozesse sowohl theoretisch (Clark & Wells, 1995) als
auch empirisch (Chiupka, Moscovitch & Bielak, 2012) eine bedeutsame Rolle in der Aufrechterhaltung von ¨ ngsten und negativen affektiven Zusta¨nden spielen. A Aufgrund der emotionsversta¨rkenden Wirkung mentaler Vorstellungen wa¨re es auch denkbar, dass ein visuell¨ ngstlichkeit zusammenha¨ngt. imaginativer Denkstil mit A ¨ ngstlichkeit Allerdings werden im Rahmen erho¨hter A bzw. von Angststo¨rungen zumeist sehr spezifische, selbst-
Die Spontaneous Use of Imagery Scale (SUIS) relevante und aversive negative Vorstellungsbilder berichtet, die innerhalb der SUIS keine direkte Erfassung finden. Die SUIS erfragt stattdessen die generelle, affektiv eher neutrale, gewohnheitsma¨ßige Nutzung mentaler Vorstellungen im Alltag. Erwartungskonform fand sich ein positiver Zusammenhang zwischen der SUIS und Hypomanie, der allerdings gering ausfiel. Die vorliegende Arbeit erweiterte bisherige Studien (z. B. McCarthy-Jones et al., 2012), indem unterschiedliche Facetten von Hypomanie betrachtet wurden. Dabei scheinen Merkmale wie Stimmungsschwankungen und Erregtheit sta¨rker mit dem habituellen Einsatz mentaler Bilder zusammenzuha¨ngen als Geselligkeit oder soziale Aktivita¨t. Dies steht im Einklang mit dem postulierten Modell von Holmes, Geddes et al. (2008), in dem mentale Vorstellungsbilder die Instabilita¨t der Stimmung bei Personen mit bipolaren Sto¨rungen versta¨rken und aufrechterhalten. Eine ku¨rzlich durchgefu¨hrte Studie konnte zeigen, dass bei Personen mit einer bipolaren Sto¨rung affektive Zusta¨nde im Zusammenhang mit mentalen Vorstellungen mit einer Handlungsmotivation im Sinne eines Traits assoziiert sind (Ivins, Di Simplicio, Close, Goodwin & Holmes, 2014). Die Skala Erregtheit der HPS umfasst auch Bereiche wie Energie oder Tatendrang (z. B. „Ich bin oft so glu¨cklich und energiegeladen, dass ich fast leichtsinnig werde.“), sodass der gefundene Zusammenhang dieser Skala mit der Imaginationsneigung mit der Annahme u¨bereinstimmt, dass bei einer bestehenden manischen Symptomatik Imaginationen zur Ausfu¨hrung von Handlungen motivieren und diese somit wahrscheinlicher machen ko¨nnen (Holmes, Geddes et al., 2008). Einschra¨nkend ist jedoch zu erwa¨hnen, dass die positiven Zusammenha¨nge zwischen der SUIS und Hypomanie lediglich gering ausfallen. Ein Grund hierfu¨r ko¨nnte in der vergleichsweise homogenen, weitgehend aus Studierenden bestehenden Untersuchungsstichprobe liegen. Im Gegensatz dazu konnten wir keine bedeutsamen Zusammenha¨nge zwischen der Imaginationsneigung und depressiven Symptomen finden. Fu¨r die fehlende Assoziation zwischen der SUIS und dem BDI ko¨nnen mehrere Erkla¨rungen in Betracht gezogen werden. Bisherige Studien konnten belegen, dass Ruminationsprozesse bei der Versta¨rkung und Aufrechterhaltung depressiver Symptome eine bedeutende Rolle spielen (Nolen-Hoeksema, Wisco & Lyubomirsky, 2008), womit auch die in unserer Studie gefundenen Korrelationen zwischen dem BDI und dem RSQ im Einklang stehen (RSQsym: r = .47, p < .001; RSQselbst: r = .31, p < .001; RSQdist: r = -.18, p < .01). Obwohl wir keine Aussagen zu spezifischen und sta¨rker affektiven mentalen Vorstellungsbildern treffen ko¨nnen, deutet dieser Befund darauf hin, dass Depressivita¨t sta¨rker mit einem verbalen-ruminativen als mit einem visuellimaginativen Denkstil zusammenha¨ngt. Allerdings wa¨re auch anzunehmen, dass verbal-ruminative und negative visuell-imaginative Kognitionen interagieren und sich gegenseitig versta¨rken (Holmes et al., 2009). Birrer, Michael
37
und Munsch (2007) fanden beispielsweise in Stichproben von Personen mit einer depressiven Sto¨rung als auch von Personen mit einer Posttraumatischen Belastungssto¨rung, dass Ruminationsprozesse ein ha¨ufiger Auslo¨ser von intrusiven negativen Vorstellungsbildern sind. Im Unterschied zu diesen negativen und belastenden Vorstellungen, erfasst die SUIS wie oben bereits erwa¨hnt den Gebrauch mentaler Bilder bezu¨glich allta¨glicher Situationen oder Aktivita¨ten, die hinsichtlich der Valenz deutlich neutraler oder angenehmer sind. Zusa¨tzlich zu diesem Unterschied hinsichtlich der Valenz, wa¨re es mo¨glich, dass Symptome von Depressivita¨t weniger mit der Ha¨ufigkeit oder Neigung zu mentalen Bildern assoziiert sind, sondern eher mit deren Qualita¨t. Empirische Befunde zeigen, dass Personen mit Symptomen von Depressivita¨t oder einer depressiven Sto¨rung allta¨gliche oder positive mentale Vorstellungsbilder weniger lebhaft beschreiben als Kontrollprobanden (Holmes, Lang et al., 2008; Morina, Deeprose, Pusowski, Schmid & Holmes, 2011; Torkan et al., 2012). Insgesamt scheinen unsere Ergebnisse mit aktuellen Studien u¨bereinzustimmen, die sta¨rkere Zusammenha¨nge von mentalen Vorstellungen mit bipolaren Sto¨rungen als mit depressiven Sto¨rungen fanden (Hales, Deeprose, Goodwin & Holmes, 2011; Ivins et al., 2014). Allerdings ist einschra¨nkend anzumerken, dass die vorliegenden Daten aufgrund fehlender klinischer Diagnosen bzw. sorgfa¨ltig diagnostizierter Patientengruppen keine abschließende Aussage hinsichtlich dieser Hypothese zulassen. Der gefundene Mittelwert der SUIS ist vergleichbar zu Ergebnissen, die in anderen Stichproben aus der Allgemeinbevo¨lkerung ermittelt wurden (Holmes, Mathews et al., 2008; McCarthy-Jones et al., 2012). Dass Frauen ho¨here Mittelwerte als Ma¨nner erreichten, ko¨nnte daran liegen, dass weibliche Teilnehmer sich von einigen Items (z. B. 3, 8 und 9), die Themen wie Einkaufen und Kleidung beinhalten, eher angesprochen fu¨hlen. Tatsa¨chlich fanden wir die Geschlechtsunterschiede genau hinsichtlich dieser drei Items (Items 3 und 8: ts (86.63) " 3.46, ps < .01, ds " 0.54; Item 9: t (214) = 1.75, p = .08, d = 0.27). Zudem verwendeten Frauen beim Summieren von Zahlen ha¨ufiger mentale Bilder (Item 7: t (214) = 3.07, p < .01, d = 0.45). Kritisch anzumerken bleibt, dass die interne Konsistenz der deutschen Version der SUIS als niedrig zu bewerten ist (a = .66) und durch die Eliminierung eines Items mit schwachen psychometrischen Kennwerten nicht wesentlich verbessert werden konnte (a = .69). Auch Vassilopoulos und Moberly (2013) fanden fu¨r eine verku¨rzte griechische Version der SUIS (6 Items) eine schwache interne Konsistenz (a = .63). Allerdings liefern die Autoren keine weiteren Informationen, um mo¨gliche Ursachen der niedrigen Reliabilita¨t einscha¨tzen zu ko¨nnen. Insgesamt werden im Verha¨ltnis zur Verbreitung der Originalversion seltener Angaben u¨ber deren interne Konsistenz gemacht, was die Vergleichbarkeit der deutschen Version mit der englischen Originalversion hin-
38
Stefanie Maria Go¨rgen, Wolfgang Hiller und Michael Wittho¨ft
sichtlich der internen Konsistenz erschwert. Eine geeignete Methode, die Reliabilita¨t eines Fragebogens zu erho¨hen, stellt die Verla¨ngerung der Skala dar (Bu¨hner, 2011). Aus diesem Grund wurde in einer zweiten Studie eine erweiterte Version der deutschsprachigen SUIS entwickelt und getestet. Da die psychometrischen Kennwerte von Item 6 ungenu¨gend sind und sich weder die Modellanpassung noch die interne Konsistenz durch Eliminierung dieses Items bedeutsam vera¨nderten, wird das Item 6 in den Analysen von Studie 2 ausgeschlossen. Auch unter Aspekten der Inhaltsvalidita¨t ist der Ausschluss von Item 6 zu empfehlen. Im Gegensatz zu den u¨brigen Items beschreibt Item 6 eine spezielle Bedingung, unter der die Imaginationsfa¨higkeit eingeschra¨nkt sein kann. Zudem kann eine Abbildung zusa¨tzlich zu einer Textform sowohl fu¨r Personen mit einer niedrigen als auch hohen Imaginationsneigung hilfreich sein.1
Studie 2 Aufgrund der schwachen internen Konsistenz der deut¨ bersetzung der SUIS in Studie 1 hatte die zweite schen U Studie zum Ziel, eine erweiterte deutsche Adaption der SUIS zu entwickeln und deren psychometrische Qualita¨t zu pru¨fen. Wir erwarteten, dass die erweiterte Version der SUIS zumindest eine zufriedenstellende interne Konsistenz (a " .80) zeigt. Wie in Studie 1 sollte die erweiterte Version mit der TABS zusammenha¨ngen (konvergente Validita¨t). Erste Befunde zu einem fehlenden bzw. geringen Zusammenhang zwischen der SUIS und Trait¨ ngstlichkeit (Studie 1; Lang et al., 2012) sollten in StuA die 2 besta¨tigt werden, wodurch sich erste Hinweise fu¨r die diskriminante Validita¨t der erweiterten deutschen Version der SUIS zeigen.
Methode Erweiterung der SUIS Die SUIS wurde um 6 Items zu einer 17-Item Version erweitert (Ausschluss von Item 6 der 12-Item Version). Um die Erfassung des Gebrauchs mentaler Vorstellungen im allta¨glichen Leben bzw. als Trait sicherzustellen, wurden Items mit hohem Alltagsbezug formuliert: z. B. „Wenn ich an einen bevorstehenden Vortrag oder an ein wichtiges Gespra¨ch denke, dann stelle ich mir diese Szene bildlich vor“ (weitere Items siehe Tabelle 1). Das fu¨nfstufige Antwortformat von 1 = nie zutreffend bis 5 = immer voll zutreffend wurde beibehalten.
1
Wir danken einem anonymen Gutachter fu¨r diesen weiteren Aspekt bezu¨glich der geringen Inhaltsvalidita¨t des Items 6.
Stichprobe Im Rahmen einer Online-Erhebung nahmen 447 Personen (64 % weiblich) an der Studie teil. Die Probanden wurden u¨ber soziale Netzwerke sowie u¨ber einen E-Mail Verteiler der Universita¨t (Mitarbeiter und Studierende) rekrutiert. Unter den Teilnehmerinnen und Teilnehmern wurden dreimal je 50 Euro verlost und Psychologie-Studierende hatten die Mo¨glichkeit, sich eine Versuchspersonenstunde bescheinigen zu lassen. Das mittlere Alter der Probanden betrug M = 24.93 Jahre (SD = 6.56) und 94 % hatten die (Fach-) Hochschulreife. Fu¨r 95 % der Testpersonen war Deutsch die Muttersprache (2 % machten keine Angabe, fu¨r 3 % war Deutsch nicht die Muttersprache2). Weitere Messinstrumente ¨ konomie zur konIn Studie 2 wurde aus Gru¨nden der O vergenten Validierung eine verku¨rzte 16-Item Version der TABS verwendet. Die interne Konsistenz betrug a = .89. Zusa¨tzlich wurde, wie in Studie 1, die Trait-Skala des STAI verwendet (a = .92), da sie wie die SUIS ein relativ stabiles, u¨berdauerndes Merkmal erfasst. Somit kann ausgeschlossen werden, dass sich fehlende oder schwache Zusammenha¨nge aufgrund der unterschiedlichen zeitlichen Stabilita¨t (State vs. Trait) der erfassten Merkmale ergeben. Die verwendeten Statistikprogramme sowie die statistischen Analysen waren identisch zu denen in Studie 1.
Ergebnisse Faktorenstruktur Auch in Studie 2 legte eine Parallelanalyse (Horn, 1965) fu¨r die 17 Items die Extraktion von einem Faktor nahe. Das eindimensionale Messmodell erreichte in einer konfirmatorischen Faktorenanalyse (in Mplus mit dem Scha¨tzverfahren WLSMV) eine akzeptable Modellgu¨te: c2 (df = 119) = 413.71, p < .001; RMSEA = .07; CFI = .92; TLI = .91. Die Faktorladungen der 17 Items sind in Tabelle 1 dargestellt. Deskriptive Kennwerte und Reliabilität Der Summenwert der 17 Items lag im Mittel bei ¨ bereinstimmung mit StuM = 53.79 (SD = 11.38). In U die 1 erreichten Frauen (M = 55.22, SD = 11.38) signifikant ho¨here Summenwerte als Ma¨nner (M = 51.18, SD = 10.91), t (442) = 3.63, p < .001, d = 0.36. Frauen 2 Bei Ausschluss dieser Personen zeigten sich keine bedeutsamen Unterschiede hinsichtlich der Faktorenstruktur, internen Konsistenz sowie der Zusammenha¨nge mit der TABS und dem STAI-T.
Die Spontaneous Use of Imagery Scale (SUIS) zeigten in sieben Items eine ho¨here Auspra¨gung als Ma¨nner (Items: 3, 4, 7, 8, 10, 17 und 18: ts (442) " 2.26, ps < .05, ds " 0.22). Ma¨nnliche Teilnehmer erzielten hingegen in Item 16 im Mittel einen ho¨heren Wert (t (442) = 2.32, p < .05, d = 0.22). Die Verteilung der Summenwerte wies eine Schiefe von -0.16 (SD = 2.43) und eine Kurtosis von -0.14 (SD = 4.86) auf. Die interne Konsistenz der erweiterten Version kann mit a = .85 als gut bezeichnet werden. Die erweiterte 17-Item Version zeigte eine sehr hohe Korrelation (r = .96, p < .001) mit der 11-Item Version (urspru¨ngliche Version ohne Item 6). Die Schwierigkeiten aller Items lagen zwischen .20 und .80 (siehe Tabelle 2). Alle sechs neu formulierten Items erreichten Trennscha¨rfen " .50 (siehe Tabelle 2). Auch in Studie 2 lagen alle Items hinsichtlich Schiefe und Kurtosis im Normbereich (Schiefe: -2 bis +2; Kurtosis: -7 bis +7; siehe Tabelle 2).
39
lich der Klarheit und Ha¨ufigkeit mentaler Bilder berichten (Richardson, 1995; Schredl & Reinhard, 2008). Bereits Harshman und Paivio (1987) fanden, dass Frauen mentale Bilder ha¨ufiger nutzen, um sich an vergangene Ereignisse zu erinnern, wa¨hrend Ma¨nner mentale Bilder versta¨rkt zur Problemlo¨sung heranziehen. Die Autoren schlussfolgerten, dass Frauen vermutlich sta¨rker zu statischen mentalen Vorstellungen tendieren und Ma¨nner sta¨rker zu dynamischen mentalen Bildern, in denen Aspekte der Imagination vera¨ndert oder transformiert werden. Somit ko¨nnten die gefundenen Geschlechtsunterschiede dadurch erkla¨rt werden, dass einige Items Frauen inhaltlich sta¨rker ansprechen oder von Frauen besonders lebendig imaginiert werden ko¨nnen. Zudem erfasst die SUIS vornehmlich statische mentale Bilder und erfordert keine Transformation oder Vera¨nderung der Imagination.
Gesamtdiskussion Konvergente Validitätshinweise und Zusammenhänge mit Ängstlichkeit Die in der Tabelle 3 dargestellten Zusammenha¨nge der SUIS fallen fu¨r die Trait-Skala des STAI deutlich niedriger aus (r = .16, p < .01) im Vergleich zu einer mittleren positiven Korrelation mit der TABS (r = .42, p < .001; tDiff = 4.53, p < .001).
Diskussion Studie 2 hatte zum Ziel, durch eine Testverla¨ngerung die interne Konsistenz der SUIS zu verbessern und die in Studie 1 gefundenen Zusammenha¨nge mit der TABS und dem STAI-T einer kritischen Pru¨fung zu unterziehen. Durch die Erweiterung der SUIS um sechs Items konnte die interne Konsistenz deutlich verbessert werden (von a = .66 auf a = .85). Die Eindimensionalita¨t der Skala wurde auch fu¨r die erweiterte 17-Item Version belegt. Zudem zeigte die erweiterte Version eine mittlere positive Assoziation mit der TABS, was als erster Hinweis fu¨r die konvergente Validita¨t betrachtet werden kann. Hingegen ¨ ngstlichkeit ledigzeigte sich zum Konstrukt der Trait-A lich ein schwacher Zusammenhang. Zusa¨tzlich zu den in Studie 1 gefundenen Geschlechtsunterschieden zeigten Frauen in Studie 2 hinsichtlich der Items 4 und 10 sowie der erga¨nzten Items 17 und 18 signifikant ho¨here Werte als Ma¨nner (ts(442) " 2.26, ps < .05, ds " 0.22). In Studie 2 wurden Geschlechtsunterschiede allgemein aufgrund des gro¨ßeren Stichprobenumfangs mit gro¨ßerer Wahrscheinlichkeit identifiziert. Bisherige Befunde zeigten, dass Ma¨nner hinsichtlich der ra¨umlichen Vorstellungskraft, wie sie beispielweise in Aufgaben zur mentalen Rotation erfasst wird, Frauen u¨berlegen sind (Maeda & Yoon, 2013), wohingegen Frauen ho¨here Werte hinsicht-
Ziel der vorliegenden Studien war die Entwicklung einer deutschen Adaption der SUIS und deren Pru¨fung hinsichtlich Faktorenstruktur sowie psychometrischer Gu¨te. Da die deutsche Version im Rahmen der ersten Studie eine geringe Reliabilita¨t (interne Konsistenz) aufwies, hatte die zweite Studie das Ziel, durch eine Testverla¨ngerung die interne Konsistenz zu verbessern. Fu¨r die deutsche 12-Item Version sowie fu¨r die erweiterte 17-Item Version der SUIS konnte die Eindimensionalita¨t belegt werden. In beiden Studien ist die Modellgu¨te der einfaktoriellen Struktur als mindestens akzeptabel zu werten. Die interne Konsistenz konnte durch eine Erweiterung der SUIS um sechs Items deutlich verbessert werden (a = .85), so dass das Ziel von Studie 2 erreicht wurde. Die deutlich niedrigere interne Konsistenz von a = .66 im Vergleich zur englischen Originalversion (z. B. Cronbachs a = .81, Blackwell et al., 2013) ko¨nnte dadurch erkla¨rt werden, dass die Homogenita¨t der studentischen Stichprobe zu einer niedrigeren Varianz fu¨hrte, die in einem niedrigeren Cronbachs a-Wert resultierte (Helms, Henze, Sass & Mifsud, 2006). Allerdings ist anzumerken, dass auch fu¨r die englische Fassung der SUIS bislang umfangreiche und verla¨ssliche Reliabilita¨tsund Validita¨tsstudien an gro¨ßeren bevo¨lkerungsbasierten Stichproben fehlen. Hinsichtlich der Validita¨t zeigte die SUIS in beiden Studien mittlere positive Zusammenha¨nge mit der TABS, was als konvergenter Validita¨tshinweis angesehen werden kann. Im Gegensatz zu den Zusammenha¨ngen mit der TABS, konnte in Studie 1 gezeigt werden, dass die SUIS nicht bzw. nur sehr schwach mit Rumination, einem vornehmlich verbal-gedanklichen Prozess (Fresco et al., 2002), zusammenha¨ngt. Studie 1 besta¨tigte daru¨ber hinaus bisherige Befunde hinsichtlich positiver Zusammenha¨nge zwischen mentalen Vorstellungen und Hypomanie
40
Stefanie Maria Go¨rgen, Wolfgang Hiller und Michael Wittho¨ft
bzw. manischen Symptomen (Hales et al., 2011; Holmes et al., 2011). Die Befunde von einem signifikanten Zusammenhang der SUIS mit Hypomanie und einem niedrigen Zusam¨ ngstlichkeit bzw. keinem Zusammenhang menhang mit A mit Depressivita¨t weisen darauf hin, dass ein visuellimaginativer Denkstil nicht allgemein mit psychopatho¨ berlogischen Merkmalen assoziiert zu sein scheint. In U einstimmung mit bisherigen Befunden (Hales et al., 2011; Ivins et al., 2014) deuten auch unsere Ergebnisse darauf hin, dass mentale Vorstellungen sta¨rker mit manischen Symptomen als mit Depressivita¨t assoziiert sein ko¨nnten. Hinsichtlich mentaler Vorstellungen kann die vorliegende Studie nur Aussagen u¨ber die habituelle Imaginationsneigung treffen und nicht u¨ber spezifische mo¨glicherweise sto¨rungsspezifische und besonders emotionale Vorstellungsbilder, wie sie im Kontext von Angststo¨rungen (z. B. der Sozialen Angststo¨rung) und affektiven Sto¨rungen beschrieben wurden. Fu¨r eine explizite Testung dieser Hypothese bedarf es daru¨ber hinaus auch einer umfangreichen Erhebung der entsprechenden Merkmale in entsprechend diagnostizierten Patientengruppen. Kritisch zu erwa¨hnen ist, dass, obwohl die Zusammenha¨nge zwischen der SUIS und der TABS (konvergente Validita¨t) signifikant ho¨her ausfallen als die Zusammenha¨nge der SUIS mit dem RSQ (diskriminante Validita¨t), insgesamt die gefundenen Korrelationen zur konvergenten Validita¨t hinsichtlich ihrer Effektsta¨rke eine lediglich geringe bis mittlere Ho¨he aufweisen. Aufgrund dessen kann in der vorliegenden Arbeit keine abschließende Validierung der SUIS erfolgen. Eine sorgfa¨ltige und umfassende, mo¨glichst auch multimethodale Pru¨fung der konvergenten und diskriminanten Validita¨t, sollte daher in kommenden Studien erfolgen. Wie bereits in der Diskussion kritisch angemerkt, ko¨nnten die niedrigen oder fehlenden Zusammenha¨nge zwischen der SUIS und dem RSQ sowie dem STAI-T auch daraus resultieren, dass der RSQ und STAI-T im Gegensatz zur SUIS auch eher eine problem- und affektfokussierte Bescha¨ftigung erfassen. Daher sollten in zuku¨nftigen Studien alternative Instrumente zur Pru¨fung der konvergenten und diskriminanten Validita¨t der SUIS eingesetzt werden, wie beispielsweise die revidierte Version des Visualizer-Verbalizer Questionnaire (Kirby, Moore & Schofield, 1988) oder der Visualizer-Verbalizer Cognitive Style Questionnaire (Kozhevnikov, Kosslyn & Shephard, 2005). Zudem sollten zuku¨nftige Studien auch experimentelle Verfahren zur Erfassung der affektiven Auswirkungen von mentalen Vorstellungsbildern beru¨cksichtigen und Zusammenha¨nge zur SUIS pru¨fen (Lang et al., 2012). Im Rahmen der Erfassung des habituellen Einsatzes mentaler Bilder im Sinne eines Traits ist es des Weiteren auch notwendig, die zeitliche Stabilita¨t des Merkmals mittels der Retest-Reliabilita¨t nachzuweisen. Obwohl die Stichprobe in Studie 2 bereits heterogener ist als die studentische Stichprobe in Studie 1 (hin-
sichtlich Alter und Bildung), sollte die psychometrische Gu¨te der SUIS zuku¨nftig in bevo¨lkerungsrepra¨sentativeren Stichproben u¨berpru¨ft werden. Zudem ist einschra¨nkend zu beachten, dass wir in Studie 2 bezu¨glich 5 % der Teilnehmerinnen und Teilnehmer (2 % keine Angabe, 3 % Deutsch nicht als Muttersprache) keine Informationen zu deren Deutschkenntnissen haben und nicht einscha¨tzen ko¨nnen, inwieweit die Items inhaltlich korrekt verstanden wurden. Durch den Ausschluss dieser Personen zeigten sich allerdings keine Unterschiede hinsichtlich der Faktorenstruktur, internen Konsistenz sowie Validita¨t. Da mentale Vorstellungen in den letzten Jahren im Bereich der klinischen Psychologie zunehmendes Forschungsinteresse geweckt haben und sich zeigte, dass bei vielen psychischen Sto¨rungen mentale Bilder eine Rolle zu spielen scheinen (Pearson et al., 2013), wa¨re es auch aufschlussreich die Assoziation der Imaginationsneigung mit weiteren psychischen Sto¨rungen (z. B. Esssto¨rungen, Substanzsto¨rungen und Hypochondrie) zu untersuchen. Beispielsweise ko¨nnten so weitere Aspekte von Sto¨rungsmodellen untersucht und diese gegebenenfalls erga¨nzt werden, wie es bereits fu¨r die bipolare Sto¨rung geschehen ist (Holmes, Geddes et al., 2008). Wichtig wa¨re hierbei auch, dass zusa¨tzlich sto¨rungsspezifische Imaginationen weiter erforscht werden, da diese bei verschiedenen psychischen Sto¨rungen von besonderer Bedeutung zu sein scheinen (z. B. Soziale Angststo¨rung; Chiupka et al., 2012; Hypochondrie; Muse, McManus, Hackmann, Williams & Williams, 2010). Zusammenfassend ist die erweiterte deutsche Adaption der SUIS ein reliables Instrument zur Erfassung der allta¨glichen Imaginationsneigung mit einer akzeptablen La¨nge. Es handelt sich um ein vielversprechendes Instrument zur weiteren Erforschung der Zusammenha¨nge von mentalen Vorstellungen mit kognitiven (z. B. Problemlo¨sen), motorischen (z. B. sportliche Ta¨tigkeiten) und emotionalen Prozessen (z. B. Emotionsregulation) sowie mit psychischen Symptomen und Sto¨rungen. Zudem ist es ein sinnvolles Verfahren, um die Imaginationsneigung (z. B. zwischen verschiedenen Bedingungen) in entsprechenden Studien zu mentalen Vorstellungen kontrollieren zu ko¨nnen.
Literatur Berna, C., Lang, T. J., Goodwin, G. M. & Holmes, E. A. (2011). Developing a measure of interpretation bias for depressed mood: An ambiguous scenarios test. Personality and Individual Differences, 51, 349 – 354. Betts, G. H. (1909). The distribution and functions of mental imagery. New York, NY: Teachers College. Birrer, E., Michael, T. & Munsch, S. (2007). Intrusive images in PTSD and in traumatised and non-traumatised depressed patients: A cross-sectional clinical study. Behaviour Research and Therapy, 45, 2053 – 2065.
Die Spontaneous Use of Imagery Scale (SUIS) Blackwell, S. E., Rius-Ottenheim, N., Schulte-van Maaren, Y. W., Carlier, I. V., Middelkoop, V. D., Zitman, F. G. et al. (2013). Optimism and mental imagery: A possible cognitive marker to promote well-being? Psychiatry Research, 206, 56 – 61. Brown, M. B. & Benedetti, J. K. (1977). On the mean and variance of the tetrachoric correlation coefficient. Psychometrika, 42, 347 – 355. Bu¨hner, M. (2011). Einfu¨hrung in die Test- und Fragebogenkonstruktion (3., aktualisierte Aufl.). Mu¨nchen: Pearson. Bu¨rger, C. & Ku¨hner, C. (2007). Copingstile im Umgang mit depressiver Stimmung. Faktorenstruktur und psychometrische Gu¨tekriterien der deutschen Version des Response Styles Questionnaire (RSQ). Zeitschrift fu¨r Klinische Psychologie und Psychotherapie, 36, 36 – 45. Chiupka, C. A., Moscovitch, D. A. & Bielak, T. (2012). In-vivo activation of anticipatory vs. post-event autobiographical images and memories in social anxiety. Journal of Social and Clinical Psychology, 31, 783 – 809. Clark, D. & Wells, A. (1995). A cognitive model of social phobia. In R. G. Heimberg, M. R. Liebowitz, D. A. Hope & F. R. Schneier (Eds.), Social phobia: Diagnosis, assessment, and treatment (pp. 69 – 93). New York, NY: Guilford. Crawford, H. J. (1982). Hypnotizability, daydreaming styles, imagery vividness, and absorption: A multidimensional study. Journal of Personality and Social Psychology, 42, 915 – 926. Deeprose, C. & Holmes, E. A. (2010). An exploration of prospective imagery: The Impact of Future Events Scale. Behavioural and Cognitive Psychotherapy, 38, 201 – 209. Eckblad, M. & Chapman, L. J. (1986). Development and validation of a scale for hypomanic personality. Journal of Abnormal Psychology, 95, 214 – 222. Fisseni, H.-J. (2004). Lehrbuch der psychologischen Diagnostik. Mit Hinweisen zur Intervention (3. Aufl.). Go¨ttingen: Hogrefe. Fresco, D. M., Frankel, A. N., Mennin, D. S., Turk, C. L. & Heimberg, R. G. (2002). Distinct and overlapping features of rumination and worry: The relationship of cognitive production to negative affective states. Cognitive Therapy and Research, 26, 179 – 188. Go¨rgen, S. M., Joormann, J., Hiller, W. & Wittho¨ft, M. (2015). Implicit affect after mental imagery: Introduction of a novel measure and relations to depressive symptoms in a nonclinical sample. Journal of Experimental Psychopathology, 6, 59 – 81. Gotlib, I. H. & Joormann, J. (2010). Cognition and depression: Current status and future directions. Annual Review of Clinical Psychology, 6, 285 – 312. Hackmann, A. & Holmes, E. A. (2004). Reflecting on imagery: A clinical perspective and overview of the special issue of memory on mental imagery and memory in psychopathology. Memory, 12, 389 – 402. Hales, S. A., Deeprose, C., Goodwin, G. M. & Holmes, E. A. (2011). Cognitions in bipolar affective disorder and unipolar depression: Imagining suicide. Bipolar Disorders, 13, 651 – 661. Harshman, R. A. & Paivio, A. (1987). Paradoxical sex differences in self-reported imagery. Canadian Journal of Psychology, 41, 287 – 302. Hautzinger, M., Keller, F. & Ku¨hner, C. (2006). Beck Depressions-Inventar. (BDI-II) (2. Aufl.). Frankfurt am Main: Harcourt Test Services.
41
Helms, J. E., Henze, K. T., Sass, T. L. & Mifsud, V. A. (2006). Treating Cronbach’s alpha reliability coefficients as data in counseling research. The Counseling Psychologist, 34, 630 – 660. Holmes, E. A., Deeprose, C., Fairburn, C. G., Wallace-Hadrill, S. M. A., Bonsall, M. B., Geddes, J. R. et al. (2011). Mood stability versus mood instability in bipolar disorder: A possible role for emotional mental imagery. Behaviour Research and Therapy, 49, 707 – 713. Holmes, E. A., Geddes, J. R., Colom, F. & Goodwin, G. M. (2008). Mental imagery as an emotional amplifier: Application to bipolar disorder. Behaviour Research and Therapy, 46, 1251 – 1258. Holmes, E. A., Lang, T. J. & Deeprose, C. (2009). Mental imagery and emotion in treatment across disorders: Using the example of depression. Cognitive Behaviour Therapy, 38, 21 – 28. Holmes, E. A., Lang, T. J., Moulds, M. L. & Steele, A. M. (2008). Prospective and positive mental imagery deficits in dysphoria. Behaviour Research and Therapy, 46, 976 – 981. Holmes, E. A. & Mathews, A. (2005). Mental imagery and emotion: A special relationship? Emotion, 5, 489 – 497. Holmes, E. A., Mathews, A., Dalgleish, T. & Mackintosh, B. (2006). Positive interpretation training: Effects of mental imagery versus verbal training on positive mood. Behavior Therapy, 37, 237 – 247. Holmes, E. A., Mathews, A., Mackintosh, B. & Dalgleish, T. (2008). The causal effect of mental imagery on emotion assessed using picture-word cues. Emotion, 8, 395 – 409. Horn, J. L. (1965). A rationale and test for the number of factors in factor analysis. Psychometrika, 30, 179 – 185. IBM. (2011). IBM SPSS Statistics 20. Chicago, IL: IBM Corp. Ivins, A., Di Simplicio, M., Close, H., Goodwin, G. M. & Holmes, E. A. (2014). Mental imagery in bipolar affective disorder versus unipolar depression: Investigating cognitions at times of ‘positive’ mood. Journal of Affective Disorders, 166, 234 – 242. Jola, C. & Mast, F. W. (2005). Mental object rotation and egocentric body transformation: Two dissociable processes? Spatial Cognition and Computation, 5, 217 – 237. Kirby, J. R., Moore, P. J. & Schofield, N. J. (1988). Verbal and visual learning styles. Contemporary Educational Psychology, 13, 169 – 184. Kosslyn, S. M., Chabris, C. F., Shephard, J. M. & Thompson, W. L. (1998). Spontaneous Use of Imagery Scale (SUIS). Unpublished. Zugriff am 07. 07. 2011 unter http://isites.harvard.edu/icb/icb.do?keyword=kosslynlab&pageid=icb.page675568 Kosslyn, S. M., Ganis, G. & Thompson, W. L. (2001). Neural foundations of imagery. Nature Reviews Neuroscience, 2, 635 – 642. Kosslyn, S. M., Thompson, W. L. & Ganis, G. (2006). The case for mental imagery. New York, NY: Oxford University Press. Kozhevnikov, M., Kosslyn, S. & Shephard, J. (2005). Spatial versus object visualizers: A new characterization of visual cognitive style. Memory and Cognition, 33, 710 – 726. Lang, T. J., Blackwell, S. E., Harmer, C. J., Davison, P. & Holmes, E. A. (2012). Cognitive bias modification using mental imagery for depression: Developing a novel computerized intervention to change negative thinking styles. European Journal of Personality, 26, 145 – 157.
42
Stefanie Maria Go¨rgen, Wolfgang Hiller und Michael Wittho¨ft
Laux, L., Glanzmann, P., Schaffner, P. & Spielberger, C. D. (1981). Das State-Trait-Angstinventar. Theoretische Grundlagen und Handanweisung. Weinheim: Beltz Test. Lienert, G. A. & Raatz, U. (1994). Testaufbau und Testanalyse (5. Aufl.). Weinheim: Beltz. Maeda, Y. & Yoon, S. Y. (2013). A meta-analysis on gender differences in mental rotation ability measured by the purdue spatial visualization tests: Visualization of rotations (PSVT: R). Educational Psychology Review, 25, 69 – 94. Marks, D. F. (1973). Visual imagery differences in the recall of pictures. British Journal of Psychology, 64, 17 – 24. Martin, K. A., Moritz, S. E. & Hall, C. R. (1999). Imagery use in sport: A literature review and applied model. The Sport Psychologist, 13, 245 – 268. Mason, L., O’Sullivan, N., Bentall, R. P. & El-Deredy, W. (2012). Better than I thought: Positive evaluation bias in hypomania. PLoS One, 7(10), e47754. McCarthy-Jones, S., Knowles, R. & Rowse, G. (2012). More than words? Hypomanic personality traits, visual imagery and verbal thought in young adults. Consciousness and Cognition, 21, 1375 – 1381. Meyer, T. D., Dru¨ke, B. & Hautzinger, M. (2000). Hypomane Perso¨nlichkeit – Psychometrische Evaluation und erste Ergebnisse zur Validita¨t der deutschen Version der Chapman-Skala. Zeitschrift fu¨r Klinische Psychologie und Psychotherapie, 29, 35 – 42. Morina, N., Deeprose, C., Pusowski, C., Schmid, M. & Holmes, E. A. (2011). Prospective mental imagery in patients with major depressive disorder or anxiety disorders. Journal of Anxiety Disorders, 25, 1032 – 1037. Murphy, F. C., Barnard, P. J., Terry, K. A. M., Carthery-Goulart, M. T. & Holmes, E. A. (2011). SenseCam, imagery and bias in memory for well-being. Memory, 19, 768 – 777. Muse, K., McManus, F., Hackmann, A., Williams, M. & Williams, M. (2010). Intrusive imagery in severe health anxiety: Prevalence, nature and links with memories and maintenance cycles. Behaviour Research and Therapy, 48, 792 – 798. Muthe´n, L. K. & Muthe´n, B. O. (1998 – 2011). Mplus User’s Guide. (6th ed.) Los Angeles, CA: Muthe´n & Muthe´n. Nolen-Hoeksema, S. & Morrow, J. (1991). A prospective study of depression and posttraumatic stress symptoms after a natural disaster: The 1989 Loma Prieta Earthquake. Journal of Personality and Social Psychology, 61, 115 – 121. Nolen-Hoeksema, S., Wisco, B. E. & Lyubomirsky, S. (2008). Rethinking rumination. Perspectives on Psychological Science, 3, 400 – 424. Paivio, A. (1969). Mental imagery in associative learning and memory. Psychological Review, 76, 241 – 263. Pearson, D. G., Deeprose, C., Wallace-Hadrill, S. M. A., Burnett Heyes, S. & Holmes, E. A. (2013). Assessing mental imagery in clinical psychology: A review of imagery measures and a guiding framework. Clinical Psychology Review, 33, 1 – 23. Pearson, J. & Kosslyn, S. M. (2013). Mental imagery. Frontiers in Psychology, 4, 198. Pekala, R. J., Wenger, C. F. & Levine, R. L. (1985). Individual differences in phenomenological experience: States of consciousness as a function of absorption. Journal of Personality and Social Psychology, 48, 125 – 132.
Reisberg, D., Pearson, D. G. & Kosslyn, S. M. (2003). Intuitions and introspections about imagery: The role of imagery experience in shaping an investigator’s theoretical views. Applied Cognitive Psychology, 17, 147 – 160. Richardson, J. T. E. (1995). Gender differences in the Vividness of Visual Imagery Questionnaire: A meta-analysis. Journal of Mental Imagery, 19, 177 – 187. Riske, M., Wallace, B. & Allen, P. A. (2000). Imaging ability and eyewitness accuracy. Journal of Mental Imagery, 24, 137 – 148. Ritz, T. & Dahme, B. (1995). Die Absorption-Skala: Konzeptuelle Aspekte, psychometrische Kennwerte und Dimensionalita¨t einer deutschsprachigen Adaptation. Diagnostica, 41, 53 – 61. Schalet, B. D., Durbin, C. E. & Revelle, W. (2011). Multidimensional structure of the Hypomanic Personality Scale. Psychological Assessment, 23, 504 – 522. Scheel, C. N., Kleim, B., Schmitz, J., Becker-Asano, C., Sun, D., Nebel, B. & Tuschen-Caffier, B. (2012). Psychophysiologische Belastungsreaktivita¨t nach einem simulierten Feuer in einer Parkgarage. Zeitschrift fu¨r Klinische Psychologie und Psychotherapie, 41, 180 – 189. Schermelleh-Engel, K., Moosbrugger, H. & Mu¨ller, H. (2003). Evaluating the fit of structural equation models: Tests of significance and descriptive goodness-of-fit measures. Methods of Psychological Research Online, 8, 23 – 74. ¨ bersetzung Schmitt, M. & Eid, M. (2007). Richtlinien fu¨r die U fremdsprachlicher Messinstrumente. Diagnostica, 53, 1 – 2. Schredl, M. & Reinhard, I. (2008). Gender differences in dream recall: A meta-analysis. Journal of Sleep Research, 17, 125 – 131. Schweizer, K. (2010). Some guidelines concerning the modeling of traits and abilities in test construction. European Journal of Psychological Assessment, 26, 1 – 2. Shaw, G. A. & Belmore, S. M. (1982). The relationship between imagery and creativity. Imagination, Cognition and Personality, 2, 115 – 123. Sheehan, P. W. (1967). A shortened form of Betts’ Questionnaire Upon Mental Imagery. Journal of Clinical Psychology, 23, 386 – 389. Tartaglia, E. M., Bamert, L., Mast, F. W. & Herzog, M. H. (2009). Human perceptual learning by mental imagery. Current Biology, 19, 2081 – 2085. Tellegen, A. & Atkinson, G. (1974). Openness to absorbing and self-altering experiences („absorption“), a trait related to hypnotic susceptibility. Journal of Abnormal Psychology, 83, 268 – 277. Torkan, H., Kalantari, M., Neshatdoost, H. T., Maroufi, M. & Talebi, H. (2012). Visual imagery and rumination as cognitive representations in major depressive disorder: A preliminary study. Interdisciplinary Journal of Contemporary Research in Business, 4, 777 – 789. Vassilopoulos, S. P. & Moberly, N. (2013). Cognitive bias modification in pre-adolescent children: Inducing an interpretation bias affects self-imagery. Cognitive Therapy and Research, 37, 547 – 556.
Onlinevero¨ffentlichung 26. 06. 2015
Die Spontaneous Use of Imagery Scale (SUIS) Dr. Stefanie Maria Go¨rgen Prof. Dr. Wolfgang Hiller
43
Prof. Dr. Michael Wittho¨ft
Johannes Gutenberg-Universita¨t Mainz Psychlogisches Institut Abteilung fu¨r klinische Psychologie und Psychotherapie Wallstraße 3 55122 Mainz E-Mail: goergst@uni-mainz.de
Johannes Gutenberg-Universita¨t Psychologisches Institut Abteilung fu¨r klinische Psychologie, Psychotherapie und experimentelle Psychopathologie Wallstraße 3 55122 Mainz
Anhang Instruktion für die SUIS ¨ berlegen Sie nicht Bitte lesen Sie jede der folgenden Beschreibungen und geben Sie an, inwieweit diese auf Sie zutrifft. U lange, sondern antworten Sie, was Sie denken, wie Sie jede Ta¨tigkeit ausfu¨hren oder nicht ausfu¨hren. Falls eine Beschreibung immer voll zutrifft, schreiben Sie bitte eine ”5”; falls sie nie zutrifft, schreiben Sie eine ”1”; falls sie in der Ha¨lfte der Zeit zutrifft, schreiben Sie eine ”3” neben die Aussage; und verwenden Sie die anderen Zahlen dementsprechend.
Umfassend und aktuell: das Wissen der Psychologie Markus Antonius Wirtz (Hrsg.)
Dorsch – Lexikon der Psychologie 17., überarb. Aufl. 2014. 2060 S., Gb € 74.95 / CHF 99.00 ISBN 978-3-456-85460-1
Der Dorsch ist seit vielen Studentengenerationen das Standardwerk, das eine umfassende Orientierung über Grundlagen, Konzepte und Begriffe der Psychologie ermöglicht. Das Lexikon der Psychologie wendet sich an Studierende der Psychologie, Psychiatrie und Pädagogik, Wissenschaftler und praktizierende
www.hogrefe.com
Fachpersonen dieser und verwandter Fächer sowie an interessierte Laien. Der neue Dorsch bietet insgesamt 12'500 Stichwörter von rund 600 Fachautoren aus allen Bereichen der Psychologie.
Diagnostica, 62 (1), 44 – 59 ' Hogrefe Verlag, Go¨ttingen 2015
Pra ¨diktoren studentischer Lehrveranstaltungsevaluationen Eine Mehrebenenanalyse Thomas Staufenbiel, Thomas Seppelfricke und Judith Rickers
Zusammenfassung. Trotz des breiten Einsatzes von Bewertungen von Lehrveranstaltungen durch Studierende wird die Validita¨t dieser Urteile immer wieder in Frage gestellt. Insbesondere wird befu¨rchtet, dass die Urteile dadurch verzerrt sind, dass sie durch Variablen beeinflusst werden, die nicht mit der Qualita¨t der Lehrveranstaltung zusammenha¨ngen. Auf der Basis eines Datensatzes mit studentischen Bewertungen von 2 898 Lehrveranstaltungen wurde der Einfluss von 10 potentiellen Biasvariablen mittels Mehrebenenanalysen untersucht. Die Variablen sind dabei auf der Ebene der Studierenden (Geschlecht, Vorab-Interesse, Rahmenbedingungen, Fehlzeiten), der Veranstaltungen (Veranstaltungsgro¨ße, Schwund, Pflichtcharakter) und der Lehrenden (Geschlecht, Status, Lehrerfahrung) lokalisiert. Fast alle der Einflussgro¨ßen auf den ersten beiden Ebenen sowie eine Cross-Level Interaktion der Geschlechtsvariablen sind statistisch signifikante Pra¨diktoren der Studierendenurteile. Mit Ausnahme des Vorab-Interesses und der Rahmenbedingungen sind diese Beziehungen aber nur schwach. Zudem ist meist schwierig zu entscheiden, ob es sich bei den Einflu¨ssen tatsa¨chlich um verzerrende Faktoren handelt. Schlu¨sselwo¨rter: Evaluation, studentische Bewertungen, Lehre, Biasvariablen, Mehrebenenanalyse Predictors of Students’ Evaluations of Teaching: A Multilevel Analysis Abstract. Despite the widespread use of student evaluations of teaching the validity of these ratings is still called into question. In particular it is suspected that student ratings are affected by variables that are not related to the quality of teaching and thus are biased. In a dataset with 2 898 courses the influences of 10 potentially biasing variables are analyzed using multilevel modelling. The variables are located on the student level (student gender, prior interest, surrounding conditions, absenteeism), the course level (class size, dropout, mandatory participation) and the teacher level (faculty status, gender, teaching experience). Nearly all of the variables on the first two levels and a cross-level interaction between student and teacher gender were statistically significant predictors of the student evaluations. However, with the exception of prior interest and the surrounding conditions these relationships are only weak. It is also often difficult to decide whether these variables are biasing factors. Keywords: evaluation, student ratings, teaching, bias variables, multilevel analysis
Die Bewertung von Lehrveranstaltungen durch Studierende unter Verwendung standardisierter Fragebo¨gen ist heute an vielen Hochschulen ein wichtiger Baustein in der Qualita¨tssicherung von Lehre und Studium (Schmidt & Loßnitzer, 2010; Spinath & Stehle, 2011). In einem prototypischen Vorgehen melden dabei Lehrende die zu evaluierenden Veranstaltungen bei einer koordinierenden Stelle an der Hochschule an und erhalten von dort standardisierte Fragebo¨gen, die sie gegen Ende der Veranstaltung an die Studierenden austeilen. Diese fu¨llen die Fragebo¨gen dann freiwillig und anonym aus. Die Lehrenden erhalten nach dem Ru¨cksenden der Fragebo¨gen einen Feedbackbericht durch die koordinierende Stelle, deren Ergebnisse die Lehrenden anschließend gemeinsam mit den Studierenden diskutieren. Trotz ihres umfassenden Einsatzes wird diese Form der Evaluation aber immer wieder kontrovers diskutiert. Dabei wird sowohl von Experten (Kromrey, 1994) als DOI: 10.1026/0012-1924/a000142
auch von Lehrenden Kritik an dem Vorgehen geu¨bt (Ory, 2001; Spiel, Wolf & Popper, 2002). Ein ha¨ufiger Einwand ist, dass die Urteile der Studierenden (im Folgenden als SBL fu¨r Studentische Bewertungen der Lehrveranstaltungen abgeku¨rzt) durch Gro¨ßen beeinflusst werden, die nichts mit der Qualita¨t der Lehre zu tun haben. So wird etwa vermutet, dass Studierende Lehrveranstaltungen besonders positiv beurteilen, wenn der Stoff leicht zu verstehen ist, die Lehrenden gute Noten verteilen, die Lehrenden beliebt sind oder die Zahl der Teilnehmer in der Veranstaltung klein ist. Beeinflussen solche Variablen die SBL positiv oder negativ, ohne aber mit der Qualita¨t der Lehre zusammenzuha¨ngen, so werden sie in der Literatur als Biasvariablen bezeichnet (Marsh, 1987). Der Nachweis, dass solche verzerrenden Einflu¨sse nicht bestehen oder wenigstens schwach sind, leistet daher einen wichtigen Beitrag zur Validierung der Studierendenurteile (Marsh, 2007; Spooren, Brockx & Mortelmans, 2013).
Pra¨diktoren studentischer Lehrveranstaltungsevaluationen Alternative Validierungsdesigns untersuchen etwa die ¨ bereinstimmung zwischen den Bewertungen der StuU dierenden und anderen Urteilsquellen (Feldman, 1989; Rindermann, 1995), darunter den Selbstbewertungen der Lehrenden (Marsh, Overall & Kesler, 1979; Staufenbiel, 2000), den Urteilen von Alumni (Howard, Conway & Maxwell, 1985) oder den Urteilen von geschulten externen Expertinnen und Experten, die die Lehre beobachten und beurteilen (Murray, 1983; Gollwitzer, Kranz & Vogel, 2006). Aktuellere zusammenfassende Bewertungen der Ergebnisse dieser und anderer Validierungsansa¨tze finden sich etwa in Marsh (2007) oder Spooren et al. (2013). Der Fokus dieser Studie liegt auf der Untersuchung des Einflusses potentieller Biasvariablen. Betrachtet man die obige Definition von Biasvariablen als Variablen, die mit den Studierendenurteilen, nicht aber mit der Qualita¨t der Lehrveranstaltung zusammenha¨ngen, so erkennt man, dass sich hier durchaus Abgrenzungsschwierigkeiten ergeben. Ein Problem resultiert daraus, dass nicht immer klar ist, ob ein Zusammenhang mit der Qualita¨t der Lehre besteht. Einige Autoren untersuchen z. B. die Gro¨ße der Lehrveranstaltung als eine potentielle Biasvariable (Feldman, 1984). Hier la¨sst sich aber argumentieren, dass eine geringere Gruppengro¨ße beispielsweise in Seminaren tatsa¨chlich der Qualita¨t der Lehre zugutekommen kann. Die Frage, ob es sich also bei der Veranstaltungsgro¨ße um eine Biasvariable handelt, la¨sst sich durch die Bestimmung der Korrelation mit den SBL allein nicht beantworten. Hier wa¨ren weitere empirische Untersuchungen erforderlich. Wu¨rden diese z. B. ergeben, dass der Zusammenhang auch bei anderen Beurteilungsquellen (z. B. Selbsteinscha¨tzungen, Experten) besteht und dass sich ein Einfluss auf die Bewertungsdimension Qualita¨t der Interaktion in der Lehrveranstaltung, nicht aber auf die Dimension Planung und Organisation zeigt, so wu¨rde dies dafu¨r sprechen, dass die Veranstaltungsgro¨ße tatsa¨chlich mit der Qualita¨t der Lehre in Beziehung steht. Damit wu¨rde es sich eher nicht um eine Biasvariable handeln. Ein weiteres Problem besteht darin, dass bei einer Reihe von Variablen die Wirkrichtung unklar ist. Wenn ein Zusammenhang zwischen den SBL und der Sympathie fu¨r den Lehrenden oder dem Interesse an der Veranstaltung besteht, so ist dies nicht zwangsla¨ufig auf eine verzerrende Wirkung dieser Variablen zuru¨ckzufu¨hren. Es kann ebenso sein, dass Dozentinnen und Dozenten, die eine gute Lehre machen, als Folge sympathischer erscheinen und Interesse stimulieren. In diesem Fall wu¨rde man aber nicht von invaliden SBL sprechen wollen. Insofern mu¨sste die obige Definition eigentlich dahingehend pra¨zisiert werden, dass es sich nur dann um Biasvariablen handelt, wenn diese die SBL beeinflussen. Vermutlich aufgrund der Schwierigkeit des Nachweises der Kausalrichtung wird auf diese Pra¨zisierung in der Literatur verzichtet. Insbesondere wenn die SBL als Leistungsindikatoren von Lehrenden in administrative Entscheidungen einge-
45
hen, ist die Frage wichtig, ob eine betrachtete Variable unter der Kontrolle des Lehrenden steht. Kann ein Lehrender eine Bedingung nicht beeinflussen, so ist die Verwendung der SBL zur Beurteilung der Leistung in dieser Hinsicht unfair. Ha¨ufig werden die Fragen, ob eine Variable einen verzerrenden Einfluss ausu¨bt bzw. ob ihre Verwendung durch den Lehrenden kontrollierbar ist, nicht klar getrennt (oder die Unkontrollierbarkeit als entscheidende Bedingung fu¨r die Existenz einer Biasvariable genannt, etwa bei Feldman, 2007, S. 95). Tatsa¨chlich sind aber alle Kombinationen mo¨glich: Variablen, die durch den Lehrenden kontrolliert werden ko¨nnen, ko¨nnten sowohl Biasvariablen darstellen (etwa die Milde bei der Bewertung der Klausuren) als auch nicht (etwa die Qualita¨t des Skriptes). Dies gilt ebenso fu¨r nicht durch Lehrende beeinflussbare Variablen wie das Geschlecht des Lehrenden (Biasvariable) und die Veranstaltungsgro¨ße (keine Biasvariable). Am problematischsten sind Biasvariablen, die nicht durch die Lehrenden kontrolliert werden ko¨nnen.
Analyse potentieller Biasvariablen auf multiplen Ebenen Im typischen Forschungsdesign zur Untersuchung von Biasvariablen werden Daten aus einer gro¨ßeren Zahl von evaluierten Lehrveranstaltungen gepoolt (etwa aus 66 Lehrveranstaltungen mit insgesamt 756 Studierenden bei Spiel & Go¨ssler, 2000). Die Struktur der Daten weist dadurch die Besonderheit auf, dass die Studierenden in den Veranstaltungen hierarchisch geschachtelt (genestet) sind; die Daten weisen eine Mehrebenenstruktur auf (Snijders & Bosker, 2012). Je nach Erhebungsdesign ergeben sich auch mehr als diese zwei Ebenen. Vorausgesetzt, man hat mehrere Lehrveranstaltungen pro Lehrenden vorliegen, so sind zusa¨tzlich die Veranstaltungen in den Lehrenden geschachtelt. Weitere u¨bergeordnete Ebenen sind prinzipiell mo¨glich: Lehrende ko¨nnen genestet sein in Fachbereichen, diese wiederum in Universita¨ten und so weiter. Die potentiellen Biasvariablen sind dabei auf den verschiedenen Ebenen lokalisiert, z. B. das Geschlecht der Studierenden auf der untersten Ebene (Level-1: Merkmale der Studierenden), die Zahl der Studierenden in einer Veranstaltung auf der daru¨ber liegenden zweiten Ebene (Level-2: Charakteristika der Veranstaltungen) und die Lehrerfahrung auf der dritten Ebene (Level-3: Merkmale der Lehrenden). In den meisten Studien, die Biasvariablen untersuchen, werden die Daten mit traditionellen linearen Regressionsmodellen (ordinary least squares, OLS) analysiert, wobei die SBL als Kriterium und die potentiellen Biasvariablen simultan als Pra¨diktoren eingesetzt werden (multiple Regression) oder, einfacher, bivariate Zusammenha¨nge mit den SBL betrachtet werden. Dabei wird
46
Thomas Staufenbiel, Thomas Seppelfricke und Judith Rickers
entweder der gepoolte Datensatz zugrunde gelegt, bei dem jeder Studierende einen Fall darstellt und damit die Mehrebenenstruktur ignoriert. Das Vorgehen wird auch als Disaggregierung bezeichnet und findet sich in deutschsprachigen Publikationen z. B. bei Hoffmann (2009) oder Spiel und Go¨ssler (2000).
rend man also beim disaggregierten Vorgehen zu dem einzigen Schluss ka¨me, das kein Zusammenhang besteht, und beim aggregierten, dass der lineare Zusammenhang perfekt positiv wa¨re, ermo¨glichen es geeignete statistische Verfahren, die divergierenden Effekte auf beiden Ebenen simultan aufzudecken.
Ha¨ufiger werden – eine ausreichend große Datenbasis vorausgesetzt – die Daten vor der Analyse durch Mittelung aller Variablen auf Ebene 2 aggregiert (z. B. bei Berger & Schleußner, 2003; Diehl, 2001). Manchmal finden sich auch Ergebnisdarstellungen, in denen sowohl aggregierte als auch disaggregierte Ergebnisse nebeneinander berichtet werden (z. B. bei Rindermann, 1995; Staufenbiel, 2001), Veranstaltungen getrennt ausgewertet und dann aggregiert werden (z. B. bei Vater, Grohs & Sedlmeier, 2007), oder es bleibt unklar, wie die Zusammenha¨nge bestimmt wurden (z. B. bei Peus et al., 2005). Sowohl das aggregierte als auch das disaggregierte Vorgehen sind dabei problematisch (Kreft & de Leeuw, 1998; Snijders & Bosker, 2012). Beim disaggregierten Vorgehen wird gegen die bei OLS-Analysen erforderliche Voraussetzung der Unabha¨ngigkeit der Beobachtungen verstoßen. Dies ist umso mehr der Fall, je sta¨rker sich die Veranstaltungen in der abha¨ngigen Variablen unterscheiden, d. h. je mehr Varianz zwischen den Veranstaltungen existiert (relativ ausgedru¨ckt durch einen IntraklassenKorrelationskoeffizienten, ICC). Durch die Verletzung der Voraussetzung wird die Zahl der unabha¨ngigen Beobachtungen u¨berscha¨tzt; entsprechend sind die Standardfehler zu klein und es resultieren zu liberale inferenzstatistische Entscheidungen. Bei der Alternative, dem aggregierten Vorgehen, ist zuna¨chst zu beachten, dass sich durch die Mittelung die Bedeutung der Variablen nun auf die ho¨here Ebene bezieht. So wird etwa aus der Variablen Geschlecht der Studierenden auf der daru¨ber liegenden Ebene beispielsweise mit anderer Bedeutung die Variable Frauenanteil in einer Veranstaltung. Daru¨ber hinaus sind Ergebnisse, die sich auf dem aggregierten Datenniveau ergeben, nicht notwendigerweise auch fu¨r die darunterliegende Ebene gu¨ltig. Werden etwa Veranstaltungen, in denen im Durchschnitt a¨ltere Studierende teilnehmen, besser eingescha¨tzt, so la¨sst sich daraus nicht schließen, dass a¨ltere Studierende bessere Bewertungen abgeben (ein Fehlschluss, der auch als ecological fallacy bezeichnet wird). Dies verdeutlicht Abbildung 1 mit konstruierten Daten fu¨r vier Veranstaltungen (gekennzeichnet durch unterschiedliche, gefu¨llte Symbole) mit jeweils vier Studierenden. Der aggregierte Zusammenhang, visualisiert mittels der durch die Mittelwerte der Gruppen laufende Regressionslinie, ist perfekt linear positiv (r = 1). Disaggregiert erga¨be sich ohne Beru¨cksichtigung der Gruppenzugeho¨rigkeit bei den 16 Studierenden eine Korrelation von r = 0 (Kreis). Innerhalb jeder der vier Veranstaltungen ist der Zusammenhang hingegen perfekt negativ (r = -1). Wa¨h-
Abbildung 1. Fiktive Zusammenha¨nge zwischen Alter und Veranstaltungsbewertungen (SBL) in vier Veranstaltungen mit jeweils vier Studierenden. Gleiche Symbole repra¨sentieren Studierende einer Veranstaltung. Eine derartige ada¨quate Auswertung von genesteten (hierarchischen) Designs kann mittels der Mehrebenenanalyse (auch bezeichnet als Hierarchische Lineare Modellierung) realisiert werden (Kreft & de Leeuw, 1998; Snijders & Bosker, 2012). Bisher ist die Mehrebenenanalyse bei der Untersuchung von Biasvariablen allerdings kaum zum Einsatz gekommen: Im deutschsprachigen Raum ist uns nur eine Studie bekannt (Dresel & Rindermann, 2011) und auch international ist deren Anwendung noch selten. Ausnahmen sind die Studien von Baek und Shin (2008), Brockx, Spooren und Mortelsmans (2011), Nasser und Hagtvet (2006), Spooren (2010) und Ting (2000). Im Kontext dieser Studie ermo¨glicht die Mehrebenenanalyse in einem linearen Regressionsmodell simultan die Einflu¨sse von potentiellen Biasvariablen als Pra¨diktoren auf die SBL als Kriterium zu untersuchen. Die Pra¨diktoren sind dabei auf drei verschiedenen Ebenen (Studierende, Veranstaltungen und Lehrende) lokalisiert. Ein Pra¨diktor wie z. B. das Interesse an der Veranstaltung auf der ersten Ebene der Studierenden kann sich dabei in allen Veranstaltungen gleich auswirken (fester Effekt), er kann aber auch zwischen Veranstaltungen variieren (zufa¨lliger Effekt). Liegen in einer Variable zufa¨llige Effekte vor, so ko¨nnen die Unterschiede in dem Effekt (random
Pra¨diktoren studentischer Lehrveranstaltungsevaluationen slopes, die variierenden Steigungen der Regressionsgeraden in den Veranstaltungen werden nun zur abha¨ngigen Variablen) potentiell durch Variablen auf einer ho¨heren Ebene vorhergesagt werden (Cross-Level-Interaktionen). In der folgenden Studie wird in einer Mehrebenenanalyse der Einfluss potentieller Biasvariablen auf drei Ebenen anhand von Daten analysiert, die an der Universita¨t Osnabru¨ck von 2006 bis 2013 in einer gro¨ßeren Zahl von Vorlesungen und Seminaren mit einem weiten Spektrum an Fa¨chern erhoben wurden.
Prädiktoren der Lehrveranstaltungsbewertungen: Hypothesen Im Folgenden werden die in dieser Studie untersuchten potentiellen Biasvariablen dargestellt. Da wie oben ero¨rtert sowohl die Kausalita¨tsfrage als auch die Frage nach dem Einfluss der SBL auf die Qualita¨t der Lehre in den meisten Untersuchungsdesigns (und auch auf der Basis der hier vorgestellten Daten) nicht beantwortet werden kann, sprechen wir in der Folge neutraler nur noch von Pra¨diktoren der Lehrveranstaltungsbewertungen. Die Beobachtung, dass sich das Interesse der Studierenden an der Veranstaltung vor deren Beginn in vielen Studien als relativ starker Pra¨diktor erweist (Marsh, 2007), zeigt sich auch in deutschsprachigen Studien (Berger & Schleußner, 2003; Daniel, 1994; Rindermann, 2001, Spiel & Go¨ssler, 2000; Staufenbiel, 2001; Wolbring, 2012). Dabei ist allerdings einschra¨nkend zu sagen, dass das Vorab-Interesse in den meisten Studien retrospektiv mit der Lehrevaluation gegen Ende der Veranstaltung erhoben wird, und so mo¨glicherweise durch den Besuch der Veranstaltung verzerrt wurde. Tatsa¨chlich gibt es Evidenz dafu¨r, dass der Zusammenhang mit den SBL geringer ausfa¨llt, wenn das Interesse vor der Veranstaltung erhoben wird (Olivares, 2001). Neben dem Einfluss des interindividuell variierenden Interesses ist daru¨ber hinaus vermutet worden, dass auch das mittlere Interesse an einer Veranstaltung einen Einfluss auf die Bewertung der Veranstaltungen haben ko¨nnte. Dies bedeutet, dass das allgemeine (Des)-Interesse an der Veranstaltung sich zusa¨tzlich auf die Urteile auswirken ko¨nnte. Kromrey (1994) spricht in diesem Zusammenhang von einem Ansteckungseffekt. In einer Mehrebenenanalyse von Dresel und Rindermann (2011) zeigt sich tatsa¨chlich ein Effekt des Interesses auf der ersten als auch der zweiten Ebene. Daru¨ber hinaus ist auch denkbar, dass sich das auf der dritten Ebene der Lehrenden aggregierte Interesse auf die SBL auswirkt. Entsprechend formulieren wir die Hypothesen auf allen drei Ebenen: Hypothese (1a): Das Vorab-Interesse an der Veranstaltung kovariiert auf Level-1 (Studierende) positiv mit den SBL.
47
Hypothese (1b): Das Vorab-Interesse an der Veranstaltung kovariiert auf Level-2 (Veranstaltungen) positiv mit den SBL. Hypothese (1c): Das Vorab-Interesse an der Veranstaltung kovariiert auf Level-3 (Lehrende) positiv mit den SBL. Ferner ist denkbar, dass Faktoren einen Einfluss ausu¨ben, die den ra¨umlich-zeitlichen Rahmenbedingungen zugerechnet werden. Solche Faktoren ko¨nnen etwa der Zeitpunkt der Lehrveranstaltung (z. B. der Wochentag oder die Tageszeit) oder auch Merkmale des Veranstaltungsraums sein (z. B. die Ausstattung, Temperatur, Gro¨ße, Beleuchtung, Akustik, La¨rm). Ha¨ufiger werden verschiedene Facetten der Rahmenbedingungen in einem Item abgefragt, z. B. bei Berger und Schleußner (2003): „Die Rahmenbedingungen (Raum, Ausstattung, Akustik) der Veranstaltungen waren gut“. Unter Verwendung solcher Items finden Berger und Schleußner sowie Spiel und Go¨ssler (2000) disaggregiert positive Zusammenha¨nge mit den SBL. Manchmal werden die Variablen auch spezifischer erfragt. In der angloamerikanischen Forschung trifft dies vor allem auf die Tageszeit der Lehrveranstaltung zu. Die Effekte in den wenigen Studien sind dabei unsystematisch und gering (Feldman, 1978). Die Bewertungen der Rahmenbedingungen auf der ersten Ebene spiegeln die subjektive Sichtweise der Studierenden wider (etwa in Bezug auf Pra¨ferenzen der Uhrzeit). Daneben ko¨nnen auch aggregierte Studierendenurteile oder objektive Maße (etwa der Uhrzeit oder der Ausstattung) auf der zweiten Ebene in ihrem Zusammenhang mit den SBL untersucht werden. Wir formulieren daher die Hypothesen entsprechend auf beiden Ebenen: Hypothese (2a): Die Bewertung der Rahmenbedingungen der Veranstaltung kovariiert auf Level-1 positiv mit den SBL. Hypothese (2b): Die Bewertung der Rahmenbedingungen der Veranstaltung kovariiert auf Level-2 positiv mit den SBL. Der Einfluss des Geschlechts der Studierenden auf die Bewertungen der Lehrveranstaltungen ist aufgrund der leichten Verfu¨gbarkeit als Variable in vielen Studien untersucht worden. Dabei zeigen sich ha¨ufiger widerspru¨chliche und, wenn u¨berhaupt, nur sehr geringe Effekte mit einer Tendenz, dass die Bewertungen von weiblichen Studierenden positiver ausfallen (Feldman, 2007). Dies gilt auch fu¨r deutschsprachige Studien (z. B. Rindermann, 1995; Spiel & Go¨ssler, 2000; Staufenbiel, 2001). Uneinheitliche Befunde bestehen in angloamerikanischen und deutschsprachigen Studien ebenfalls in Bezug auf das Geschlecht der Lehrenden. Auch dort bestehen allenfalls sehr geringe Haupteffekte (Feldman, 1993; Staufenbiel, 2001; Dresel & Rindermann, 2011). Allerdings
48
Thomas Staufenbiel, Thomas Seppelfricke und Judith Rickers
zeigen sich in einigen Studien Interaktionseffekte (Feldman, 1993), z. B. derart, dass weibliche Studierende weibliche Lehrende positiver bewerten als ma¨nnliche Studierende (Centra & Gaubatz, 2000), oder weitergehend, dass eine generelle Bevorzugung von Lehrenden des gleichen Geschlechts existiert (Feldman, 1993). Diese Hypothese soll im Folgenden gepru¨ft werden: Hypothese (3): Das Geschlecht der Studierenden (Level-1) und das Geschlecht der Lehrenden (Level-3) interagieren in ihrer Auswirkung auf die SBL (Cross-Level-Interaktion). Zum Einfluss der Ha¨ufigkeit des Fehlens sind empirische Studien bisher noch rar. Spooren (2010) findet ho¨here SBL bei Studierenden, die angaben, die Veranstaltung immer besucht zu haben, resu¨miert aber, dass die wenigen bisherigen Befunde widerspru¨chlich sind. In den deutschsprachigen Arbeiten zeigen sich bei Berger und Schleußner (2003) sowie bei Wolbring (2012) deutliche Effekte in diese Richtung, wa¨hrend sich bei Hoffmann (2009) kein Zusammenhang ergibt und dieser bei Spiel und Go¨ssler (2000) nur bei Vorlesungen, nicht aber bei Seminaren resultiert. Aufgrund erster Anhaltspunkte, dass sich die Fehlha¨ufigkeit negativ auswirken ko¨nnte, formulieren wir folgende Hypothese: Hypothese (4): Die Ha¨ufigkeit des Fehlens in der Veranstaltung (Level-1) kovariiert negativ mit den SBL. Eng mit der Abwesenheitsha¨ufigkeit als Level-1 Variable ha¨ngt auf der daru¨berliegenden Ebene das Ausmaß an Schwund der Studierenden im Laufe der Veranstaltung zusammen. Bisher wurde diese Variable kaum untersucht. In einer Mehrebenenanalyse findet Ting (2000) einen negativen Effekt auf die SBL (ohne allerdings das Fehlen auf individueller Ebene als Pra¨diktor untersucht zu haben). Entsprechend formulieren wir folgende Hypothese: Hypothese (5): Das Ausmaß an Schwund in Veranstaltungen (Level-2) kovariiert negativ mit den SBL. Eine ebenfalls ha¨ufig untersuchte Variable ist die Zahl der Studierenden in der Veranstaltung (Veranstaltungsgro¨ße). Theoretisch wird vermutet, dass in kleineren Veranstaltungen eine gro¨ßere Beteiligung der Studierenden und ein spezifischeres Eingehen auf ihre Bedu¨rfnisse mo¨glich sind und daher bessere Bewertungen resultieren. Tatsa¨chlich zeigt eine Reihe von Studien, dass SBL mit zunehmender Veranstaltungsgro¨ße geringfu¨gig schlechter werden (Feldman, 1984). In Studien an deutschen Universita¨ten resultiert bei Staufenbiel (2001) ein schwacher negativer Effekt bei Vorlesungen und ein sta¨rkerer negativer Zusammenhang in Seminaren; bei Berger und Schleußner (2003) sowie bei Wolbring (2012) sind die Effekte nahezu Null. Insgesamt spricht die Befundlage eher fu¨r einen schwachen negativen Zusammenhang: Hypothese (6): Die Zahl der Studierenden in einer Veranstaltung (Level-2) kovariiert negativ mit den SBL.
Veranstaltungen, die von Studierenden verpflichtend besucht werden mu¨ssen, erhalten fast durchga¨ngig kritischere Beurteilungen (Feldman, 1978; Marsh, 1987; Ting, 2000). In deutschsprachigen Studien wurde diese Variable bisher selten untersucht; die beiden verfu¨gbaren Studien zeigen heterogene Resultate (Dresel & Rindermann, 2011; Staufenbiel, 2001). Aufgrund der konsistenten Befunde in angloamerikanischen Untersuchungen wird hier die folgende Hypothese formuliert: Hypothese (7): Veranstaltungen, die von den Studierenden verpflichtend besucht werden mu¨ssen (Level-2), erhalten negativere SBL. Auf Ebene 3 der Lehrenden soll neben dem Interesse und dem Geschlecht (s. o.) untersucht werden, ob die Position und die Lehrerfahrung der Lehrenden eine Rolle ¨ berblicksarbeit berichtet Feldman spielen. In einer U (1983), dass in der u¨berwiegenden Zahl an Studien die SBL nicht mit der Position der Lehrenden (also etwa im Vergleich von Hochschullehrern mit anderen lehrenden Gruppen) kovariierten. Ergaben sich Zusammenha¨nge, so waren diese meist schwach und fast immer positiv, d. h. tendenziell durch bessere Bewertungen von Lehrenden in ho¨heren Positionen gekennzeichnet. Die Lehrerfahrung (bzw. das damit stark kovariierende Alter) stand ebenfalls in der Ha¨lfte der Studien in keiner Beziehung mit den SBL. Dort wo sich Zusammenha¨nge zeigten, waren diese meist negativ, d. h. erfahrenere Lehrende erhielten schlechtere Bewertungen. Auch in neueren Studien und in Mehrebenenanalysen zeigen sich keine signifikanten Unterschiede in den Bewertungen der Lehre von Hochschullehrern und anderen Lehrenden (Brockx et al., 2011; Dresel & Rindermann, 2011; Rindermann, 1995; Spooren, 2010; Ting, 2000). Das gilt a¨hnlich auch fu¨r die Lehrerfahrung bzw. das Alter, die meist keinen signifikanten Zusammenhang mit den SBL aufweisen (Brockx et al., 2011; Dresel & Rindermann, 2011; Spooren, 2010; Staufenbiel, 2001) oder einen schwach negativen (Baek & Shin, 2008; Nasser & Hagtvet, 2006; Spiel & Go¨ssler, 2000). Insgesamt sprechen die empirischen Befunde bisher eher dafu¨r, dass sich die Position und die Lehrerfahrung nicht auf die SBL auswirken.
Methodik Vorgehen Die Lehre an der Universita¨t Osnabru¨ck deckt ein weites Spektrum an Fa¨chern aus den Bereichen der Geistes-, Sozial-, Natur-, Rechts- und Wirtschaftswissenschaften ab (ohne technische Fa¨cher und ohne Medizin), die in 10 Fachbereichen organisiert sind. An der Universita¨t erfolgt eine fla¨chendeckende, systematische Evaluation aller Lehrveranstaltungen seit dem Wintersemester 2005/ 06. Das Prozedere ist dabei so, dass jede(r) Lehrende (Fachbereich) jedes dritte Semester an der Lehrevaluation
Pra¨diktoren studentischer Lehrveranstaltungsevaluationen
49
teilnehmen muss (und daru¨ber hinaus jederzeit freiwillig kann). Jede(r) Lehrende erha¨lt fu¨r jede Veranstaltung einen mittels des Programms EvaSys (2014) erzeugten Ru¨ckmeldebericht mit Vergleichsnormen (Prozentra¨nge), wenn mindestens sechs Studierende an der Befragung teilgenommen haben (Anonymita¨tsschutz).
Zufriedenheit mit den Rahmenbedingungen: „Mit den Rahmenbedingungen dieser Veranstaltung (Ra¨umlichkeiten, Ausstattung, Zeiteinteilung, Temperatur-/Gera¨usch-/Lichtverha¨ltnisse etc.) bin ich zufrieden.“ LikertAntwortskala: 1 = stimme u¨berhaupt nicht zu bis 5 = stimme voll und ganz zu.
Evaluationsinstrumente
Vorab-Interesse: „Wie groß war Ihr Interesse am Veranstaltungsthema vor Beginn der Veranstaltung?“ Antwortskala: 1 = sehr gering bis 5 = sehr groß.
Zur Evaluation stehen in Osnabru¨ck aktuell spezifische Fragebo¨gen fu¨r verschiedene Veranstaltungsformen zur Verfu¨gung. Im Folgenden werden nur die Daten der beiden am ha¨ufigsten eingesetzten Instrumente zur Evaluation von Vorlesungen (FEVOR) und Seminaren (FESEM) analysiert. Beide Fragebo¨gen wurden – aufbauend auf Instrumenten von Diehl (1994) – an der Universita¨t Marburg entwickelt (Staufenbiel, 2000). Aufgrund von praktischen Erfahrungen und Anmerkungen in der Literatur (z. B. Rindermann, 2001) wurden vor dem Einsatz der Instrumente in Osnabru¨ck kleinere Modifikationen vorgenommen; unter anderem sind nun alle Items positiv gepolt.1 Mit zwischen drei und acht Items werden in beiden Fragebo¨gen die Skalen Planung und Darstellung (PD), Umgang mit den Studierenden (US) sowie Interessantheit und Relevanz (IR) erfasst (vgl. Staufenbiel, 2000). Daru¨ber hinaus entha¨lt der Fragebogen Items, die nicht skalenweise ausgewertet werden, darunter globale Bewertungen von Lehrenden und Veranstaltungen, Fragen nach der Schwierigkeit der Inhalte und auch eine offene Frage nach Kritik und Anregungen.
Variablen Als abha¨ngige Variablen bieten sich (a) die globale Bewertung der Lehrveranstaltung mit der Einzelfrage „Welche „Schulnote“ wu¨rden Sie der Veranstaltung insgesamt geben?“ (Antwortskala von 1 = sehr gut bis 5 = mangelhaft) oder (b) der Mittelwert u¨ber die drei Skalen PD, US und IR an. Beide Maße korrelieren auf der Ebene der Lehrveranstaltungen sehr hoch: r = -0.90, p < .01 (FEVOR) bzw. r = -0.88, p < .01 (FESEM). Aufgrund der vermutlich ho¨heren Reliabilita¨t des aggregierten Maßes verwenden wir im Folgenden (b) als abha¨ngige Variable. Neben dem Geschlecht der Studierenden werden auf der ersten Ebene (Level-1: Studierende) folgende Variablen jeweils als Einzelitems im Evaluationsfragebogen erhoben:
1 Die vollsta¨ndigen Fragebo¨gen ko¨nnen von den Seiten der Servicestelle Lehrevaluation der Universita¨t Osnabru¨ck unter http://www.lehr eval.uni-osnabrueck.de/ unter Downloads heruntergeladen werden.
Fehlzeiten: „An wie vielen Sitzungen der Veranstaltung haben Sie gefehlt?“ Antwort: Ha¨ufigkeit. Zur Erhebung der Variablen der zweiten Ebene (Level-2: Lehrveranstaltung) mu¨ssen die Lehrenden bei der Ru¨cksendung der ausgefu¨llten Fragebo¨gen auf einem Mantelbogen die folgenden Fragen beantworten: Pflichtveranstaltung. „Handelt es sich um eine Pflichtveranstaltung, die alle Studierenden der Zielgruppe besuchen mu¨ssen?“ Antwortskala: Ja, Teils-teils oder Nein. Wir codieren die Variable dichotom bei Ja mit 1 und andernfalls mit 0. Veranstaltungsgro¨ße. „Wie viele Studierende haben an der ersten Stunde der Veranstaltung teilgenommen?“, bezeichnet als n1. Die Veranstaltungsgro¨ße wurde als Mittelwert aus n1 und der Zahl der Studierenden, die an der Evaluation am Ende der Veranstaltung teilgenommen haben, ne, bestimmt. Schwund. Die Schwundquote wurde mittels folgender Formel abgescha¨tzt: max (0, 100·(1 ( ne / n1)) und liegt damit im Wertebereich von 0 bis 100 %. Auf der dritten Ebene (Level-3: Lehrende) wurden bei der online-Anmeldung der Lehrveranstaltung neben dem Geschlecht der Lehrenden und der Lehrerfahrung (in ¨ bereinstimmung mit Jahren) die Position erfasst. In U Dresel und Rindermann (2011) unterscheiden wir bei der Position nur zwischen 1 = Professor/in; Apl. Professor/ in; Privatdozent/in und 0 = andere.
Daten Fu¨r die folgenden Analysen wurden alle vom SS 2006 bis zum SS 2013 an der Universita¨t Osnabru¨ck mit den beiden Fragebo¨gen evaluierten Veranstaltungen herangezogen. Diese 15 Semester entsprechen dem fu¨nfmaligen Durchlauf in jedem Fachbereich entsprechend dem oben geschilderten dreisemestrigen Rotationsschema. Wenngleich die Teilnahme fu¨r die Lehrenden verpflichtend ist, so nahmen beispielsweise im letzten Rotationszyklus SS 2012 bis SS 2013 im jeweiligen Zielsemester nur 58 % der Lehrenden mit mindestens einer Veranstaltung teil (erfasst u¨ber die Ru¨cksendung mindestens eines ausgefu¨llten Fragebogens). Die Beteiligungs-
50
Thomas Staufenbiel, Thomas Seppelfricke und Judith Rickers
quoten in den Fa¨chern werden vero¨ffentlicht2 und schwanken betra¨chtlich (z. B. im letzten Zyklus zwischen 28 und 85 %). Die teilweise geringe Beteiligung ha¨ngt auch damit zusammen, dass die Nicht-Teilnahme aktuell nicht sanktioniert wird. In jedem Semester beteiligen sich auch eine Vielzahl von Lehrenden außerhalb des Zielsemesters freiwillig; im obigen dreisemestrigen Zeitraum waren dies 43 % der evaluierten Veranstaltungen. Aus den Analysen wurden die folgenden Evaluationen ausgeschlossen: • alle online evaluierten Veranstaltungen (3 % beim FEVOR und 10 % beim FESEM), da fu¨r diese der Mantelbogen und damit bestimmte Bias-Variablen nicht vorliegen; • Veranstaltungen, die fu¨r den betreffenden Typus untypisch sind (z. B. Exkursionen, Kolloquia oder juristische Arbeitsgemeinschaften beim FEVOR); • alle Evaluationen bis auf die letzte, falls eine Veranstaltung in einem Semester mehrfach evaluiert wurde; • Veranstaltungen, in denen teilweise oder vollsta¨ndig englischsprachige Fragebo¨gen eingesetzt wurden (5 % beim FEVOR und 7 % beim FESEM), da die psychometrische Qualita¨t der u¨bersetzten Instrumente bisher nicht u¨berpru¨ft wurde und • Veranstaltungen, bei denen weniger als 6 Studierende geantwortet haben (4 % beim FEVOR und beim FESEM). Insgesamt verblieben nach dieser Selektion vollsta¨ndige Daten in allen untersuchten Variablen von 31 037 Studierenden in 988 Vorlesungen, gehalten von 360 Lehrenden und von 33 593 Studierenden in 1 910 Seminaren, durchgefu¨hrt von 595 verschiedenen Lehrenden. Dabei liegen fu¨r jeden Lehrenden durchschnittlich 2.74 evaluierte Vorlesungen (SD = 2.62, Min = 1, Max = 18) und 3.21 Seminare vor (SD = 3.13, Min = 1, Max = 19). Die Vorlesungen wurden durchschnittlich von 31.41 Studierenden evaluiert (SD = 29.16, Min = 6, Max = 240); in den Seminaren waren dies erwartungsgema¨ß mit durchschnittlich 17.59 Studierenden weniger (SD = 10.81, Min = 6, Max = 113).
Auswertung mittels Mehrebenenanalyse Entsprechend dem bei Snijders und Bosker (2012, S. 86 ff.) geschilderten Vorgehen wurden die Pra¨diktoren 2 Die Beteiligungsquoten der Fa¨cher finden sich unter http://www. lehreval.uni-osnabrueck.de/quoten.php. Fasst man die Fa¨cher zu Clustern zusammen, so sind die Beteiligungsquoten allerdings recht a¨hnlich: Sie liegen bei 57 % in den Sozialwissenschaften (stellen 5 % der Lehrenden), 61 % in den Kultur- und Geisteswissenschaften (34 % der Lehrenden), 54 % in den Naturwissenschaften (42 %) und bei 61 % in den Rechts- und Wirtschaftswissenschaften (19 %).
auf den verschiedenen Ebenen blockweise hinzugefu¨gt, bis das komplexeste, finale Modell resultierte. Modell 0. Zuna¨chst wurde das Nullmodell (interceptonly model) bestimmt, das keine Pra¨diktoren entha¨lt. Dabei werden die SBL als abha¨ngige Variable Y = (yijk) mit i = 1, …, njk (Studierende), j = 1, …, mk (Veranstaltungen) und k = 1, …, l (Lehrende) in den Mittelwert der Beurteilungen p0jk des Lehrenden k in der Veranstaltung j und die Abweichungen davon, eijk, additiv zerlegt (1)
yijk ¼ p0jk þ eijk .
Es wird angenommen, dass sich die Level-1 Residuen eijk normalverteilen mit Mittelwert 0 und Varianz s2, kurz eijk ~ N(0, s2). Fu¨r die gescha¨tzten Mittelwerte p0jk wird angenommen, dass sie zufa¨llig von der mittleren Bewertung der Lehrenden, b00k, abweichen (zufa¨lliger Level-2Effekt der Veranstaltung) (2)
p0jk ¼ b00k þ r0jk
mit r0jk ~ N(0, tp). Schließlich sollen die Mittelwerte der Lehrenden zufa¨llig um den Gesamtmittelwert g000 streuen (zufa¨lliger Level-3-Effekt der Lehrenden) (3)
b00k ¼ g000 þ u00k
mit u00k ~ N(0, tb). Insgesamt sind in dem Nullmodell vier Parameter zu scha¨tzen: Die Residualvarianzen s2, tp und tb auf den drei Ebenen (zufa¨llige Parameter) und der Gesamtmittelwert (intercept g000, fester Parameter). Das Nullmodell ermo¨glicht die Scha¨tzung der Variabilita¨ten in den drei Ebenen als Anteile der drei Varianzquellen an der Gesamtvarianz s2 + tp + t b. Modell 1. Als na¨chstes wurde ein Modell mit den vier Level-1-Pra¨diktoren gescha¨tzt. Alle Pra¨diktoren Xp = (xpijk), p = 1, …, 4, wurden am Veranstaltungsmittelwert ~ p ). zentriert (wir schreiben fu¨r die so zentrierte Variable X Entsprechend resultiert auf der ersten Ebene das Modell (4)
yijk ¼ p0jk þ
4 X
ppjk & ~xpijk þ eijk ,
p¼1
wobei fu¨r die zufa¨llig variierenden Achsenabschnitte auf Ebene 2 und 3 wieder (2) und (3) gelten. Daru¨ber hinaus wird zugelassen, dass die Steigungen (slopes) bei allen vier Pra¨diktoren zwischen den Veranstaltungen auf der zweiten Ebene (5)
ppjk ¼ bp0k þ rpjk
und zwischen den Lehrenden auf der dritten Ebene (6)
bp0k ¼ gp00 þ up0k
zufa¨llig variieren ko¨nnen (random slopes). Insgesamt sind hier u¨ber die obigen 4 Parameter hinaus weitere 32 Parameter zu scha¨tzen: die 4 festen Regressionsparameter fu¨r die Level-1-Pra¨diktoren (gp00), jeweils die 4 Varianzen der random slopes auf der Ebene der Veranstaltungen, Var (rp), und der Lehrenden, Var (up0), sowie
Pra¨diktoren studentischer Lehrveranstaltungsevaluationen die hier nicht dargestellten 20 Kovarianzen zwischen Parametern. Alle Varianzen und Kovarianzen wurden hier und im Folgenden ohne Restriktionen frei gescha¨tzt. Modell 2. Nachfolgend wurden die 5 Variablen auf der Ebene der Veranstaltung hinzugefu¨gt. Alle Level-2-Pra¨diktoren Vq, q = 1, …, 5, des Achsenabschnitts wurden ~ q) wieder am Gruppenmittelwert zentriert (notiert als V und random slopes zugelassen. Damit erweitert sich das Modell der zweiten Ebene aus (2) zu (7)
p0jk ¼ b00k þ
5 X
b0qk & ~vqjk þ r0jk
q¼1
fu¨r die festen Effekte der Pra¨diktoren. Daru¨ber hinaus wurden wieder zufa¨llig variierende Steigungen aller q Pra¨diktoren zwischen Lehrenden zugelassen: (8)
b0qk ¼ g0q0 þ u0qk .
Modell 3. Schließlich wurden als Block die vier Variablen auf der Ebene der Lehrenden Ws (s = 1, …, 4 Level-3 Pra¨diktoren), am Gesamtmittelwert zentriert € s ), in das Modell aufgenommen. In Erwei(notiert als W terung von Gleichung (3) resultiert (9)
b00k ¼ g000 þ
4 X
€ sk þ u00k . g00s & w
s¼1
Zusa¨tzlich wird noch die in Hypothese (3) formulierte (Cross-Level-) Interaktion zwischen dem Geschlecht der Studierenden (Level-1 Variable X3) und dem Geschlecht der Lehrenden (Level-3 Variable W1) erga¨nzend zu (6) wie folgt modelliert (10)
€ 1k þ u30k . b30k ¼ g300 þ g301 & w
In unseren Modellen wurden die Pra¨diktoren der ersten beiden Ebenen am Gruppenmittelwert und die der dritten Ebene am Gesamtmittelwert zentriert. Die Frage der Zentrierung der Pra¨diktoren, vor allem die Entscheidung, ob man die Pra¨diktoren am Gesamtmittelwert (grand-mean centering, z. B. fu¨r den ersten Pra¨diktor €x1ijk ¼ x1ijk ( % x1### ) oder am Gruppenmittelwert zentriert (group-mean centering, alternativ entsprechend ~x1ijk ¼ x1ijk ( %x1#jk ), hat Konsequenzen fu¨r die Interpretation des intercepts g000 und die Scha¨tzung und Interpretation der Parameter (Enders & Tofighi, 2007; Raudenbush & Bryk, 2002). Insbesondere, wenn, wie hier, die Varianz von Variablen (wie z. B. Interesse) auf den verschiedenen Ebenen partitioniert werden soll und wenn Cross-Level-Interaktionen gescha¨tzt werden sollen, wird group-mean centering empfohlen (Enders & Tofighi, 2007). Auf der obersten Ebene ist (neben der sehr selten angewandten Variante, die Variablen unzentriert zu belassen) nur eine Zentrierung am Gesamtmittelwert mo¨glich.
51
Ergebnisse Tabelle 1 und 2 zeigen fu¨r Vorlesungen und Seminare die univariaten Statistiken und die Ergebnisse der konventionellen bivariaten OLS-Analysen. Man erkennt, dass die Pra¨diktoren auf den drei Ebenen zum Teil sehr unterschiedlich hohe Zusammenha¨nge mit den SBL aufweisen (auch verglichen mit der auf der ersten Ebene bestimmten mittleren stichprobengewichteten Korrelation, entsprechend dem metaanalytischen Verfahren nach Hunter & Schmidt, 1990) und auch die inferenzstatistischen Entscheidungen teilweise diskrepant ausfallen. Ferner ist ersichtlich, dass die Pra¨diktoren z. T. bedeutsam untereinander zusammenha¨ngen, so dass ihr spezifischer Einfluss erst im Verbund sinnvoll abgescha¨tzt werden kann. Die Mehrebenenanalysen wurden mit dem Programm HLM 7.01 (Raudenbush, Bryk, Cheong, Congdon & du Toit, 2011) durchgefu¨hrt, das bei 3-Ebenen-Modellen die Parameter immer mittels des Full-Maximum-Likelihood (FML)-Verfahrens scha¨tzt. Die Ergebnisse der genesteten Modelle sind in Tabelle 3 und 4 getrennt fu¨r Vorlesungen und Seminare dargestellt. Das Informationskriterium nach Akaike (AIC) zeigt an, dass der globale Fit von Modell 1 bis Modell 3 bei Vorlesungen und Seminaren zunimmt. Im Nullmodell sind bei Vorlesungen 13 % der Varianz zwischen Veranstaltungen [0.049/(0.256+0.049+0.081) = 0.127] und ein gro¨ßerer Teil mit 21 % der Varianz zwischen den Lehrenden lokalisiert. Ein ausgeglicheneres Verha¨ltnis ergibt sich bei Seminaren (15 % vs. 16 %). Nur wenn diese Werte jeweils 0 % betragen wu¨rden, wa¨ren OLS-Analysen auf der ersten Ebene gerechtfertigt. Im finalen Modell weisen fast alle Pra¨diktoren auf den beiden unteren Ebenen statistisch signifikante Einflu¨sse in der erwarteten Richtung auf. Lediglich bei dem Ausmaß an Schwund und dem Pflichtcharakter zeigt sich entgegen den Hypothesen (5) und (7) kein statistisch signifikanter Zusammenhang. Auf der dritten Ebene resultieren wie erwartet ein positiver Einfluss des Interesses und kein Einfluss der Lehrerfahrung. Bezu¨glich der Position wurde kein Zusammenhang vermutet. Hier zeigt sich allerdings (nur) in Vorlesungen ein Effekt derart, dass Hochschullehrer schlechter bewertet werden. Modifiziert man das finale Modell so, dass alle zufa¨lligen Effekte der slopes auf 0 fixiert werden (vgl. Modell F in Tabellen 3 und 4), so kann man im Vergleich der Summe der Residualvarianzen dieses Modells und des Nullmodels abscha¨tzen, wie viel Varianz durch alle Pra¨diktoren gemeinsam aufgekla¨rt wird (Snijders & Bosker, 2012). Dies sind 11 % bei den Vorlesungen und 10 % bei den Seminaren. In den finalen Modellen zeigen sich daru¨ber hinaus vor allem in den unteren Ebenen bei Seminaren einige statistisch signifikante zufa¨llige Effekte der Pra¨diktoren. So fa¨llt
58.71 56.84 0.50 3.27 3.86 0.31 12.71 0.54 3.27
V1 = Veranstaltungsgro¨ße V2 = Schwund V3 = Pflichtveranstaltungb V4 = Mittl. Vorab-Interesse V5 = Mittl. Rahmenbeding.
a
b
0.61
0.46 9.84 0.50 0.42
57.12 18.27 0.50 0.46 0.50
0.94 1.00 0.49 1.68
SD
.04* -.01 -.03*
-.04* -.01 -.12*
.23* .13* .04* -.10*
.04 -.06 -.11*
-.20* -.08* -.21*
.37* .16* .08* -.08*
.00 -.12* -.13*
-.27* -.09 -.33*
.45* .19* .01 -.05
.18* .15* -.00 -.08*
Korrelationen der Pra¨diktoren mit Y Ebene 1 Ebene 2 Ebene 3 rMeta
-.10 .50*
r (W3, Wi)
r (W2, Wi) -.16*
.27* .11*
r (V3, Vi)
r (V2, Vi) .26*
.00 -.03*
.05*
.07 -.01 -.02
r (W4, Wi)
-.11* .03 -.22*
r (V4, Vi)
-.07* -.01 -.10*
-.13* -.03 -.04 .13*
r (V5, Vi)
Interkorrelationen der Pra¨diktoren r (X2, Xi) r (X3, Xi) r (X4, Xi)
Anmerkungen: *p < .05; 0 = ma¨nnlich, 1 = weiblich; 0 = nein, 1 = ja; c 1 = Hochschullehrer, 0 = kein Hochschullehrer; rMeta = metaanalytische aggregierte Korrelation; 31 037 Studierende (Ebene 1), 988 Veranstaltungen (Ebene 2), 360 Lehrende (Ebene 3); M (Mittelwert), SD (Standardabweichung) berechnet fu¨r X, Y auf der ersten, V auf der zweiten und W auf der dritten Ebene.
a
Y = Veranstaltungsbewertung SBL
4.00
3.21 3.80 0.59 1.22
X1 = Vorab-Interesse X2 = Rahmenbedingungen X3 = Geschlecht Studierendea X4 = Ha¨ufigkeit Fehlen
W1 = Geschlecht Lehrende W2 = Lehrfahrung W3 = Positionc W4 = Mittl. Vorab-Interesse
M
Pra¨diktoren
Tabelle 1. Univariate Statistiken und Produkt-Moment-Korrelationen auf den drei Ebenen fu¨r Vorlesungen
52 Thomas Staufenbiel, Thomas Seppelfricke und Judith Rickers
23.42 34.51 0.38 3.47 3.83 0.51 9.44 0.26 3.47
V1 = Veranstaltungsgro¨ße V2 = Schwund V3 = Pflichtveranstaltungb V4 = Mittl. Vorab-Interesse V5 = Mittl. Rahmenbeding.
a
0.58
0.50 9.47 0.44 0.35
14.44 20.54 0.49 0.43 0.55
0.88 1.03 0.44 1.10
SD
.06* -.03* -.08*
-.18* -.07* -.10*
.24* .17* .00 -.05*
.10* -.05* -.10*
-.31* -.12* -.17*
.38* .19* .05* -.06*
.10* -.10* -.07
-.29* -.18* -.15*
.36* .15* .05 -.13*
.19* .17* -.02* -.04*
Korrelationen der Pra¨diktoren mit Y Ebene 1 Ebene 2 Ebene 3 rMeta
-.22* .47*
r (W3, Wi)
r (W2, Wi) -.24*
.08* -.07*
r (V3, Vi)
r (V2, Vi) .23*
.05* -.03*
.07*
.03 .02 .01
r (W4, Wi)
-.18* -.09* -.19*
r (V4, Vi)
-.06* .01 -.02*
-.25* -.06* -.01 .09*
r (V5, Vi)
Interkorrelationen der Pra¨diktoren r (X2, Xi) r (X3, Xi) r (X4, Xi)
Anmerkungen: *p < .05; a 0 = ma¨nnlich, 1 = weiblich; b 0 = nein, 1 = ja; c 1 = Hochschullehrer, 0 = kein Hochschullehrer; rMeta = metaanalytische aggregierte Korrelation; 33 593 Studierende (Ebene 1), 1 910 Veranstaltungen (Ebene 2), 595 Lehrende (Ebene 3); M (Mittelwert), SD (Standardabweichung) berechnet fu¨r X, Y auf der ersten, V auf der zweiten und W auf der dritten Ebene.
Y = Veranstaltungsbewertung SBL
4.18
3.44 3.75 0.73 1.07
X1 = Vorab-Interesse X2 = Rahmenbedingungen X3 = Geschlecht Studierendea X4 = Ha¨ufigkeit Fehlen
W1 = Geschlecht Lehrende W2 = Lehrfahrung W3 = Positionc W4 = Mittl. Vorab-Interesse
M
Pra¨diktoren
Tabelle 2. Univariate Statistiken und Produkt-Moment-Korrelationen auf den drei Ebenen fu¨r Seminare Pra¨diktoren studentischer Lehrveranstaltungsevaluationen
53
54
Thomas Staufenbiel, Thomas Seppelfricke und Judith Rickers
Tabelle 3. Ergebnisse der Mehrebenenanalyse fu¨r Vorlesungen Feste Effekte
Ebene
Intercept
Parameter
Modell 0
Modell 1
Modell 2
Modell 3
Modell F
g000
4.047 (0.018)*
4.049 (0.018)* 0.104 (0.005)* 0.077 (0.005)* -0.009 (0.009) -0.019 (0.002)*
4.048 (0.018)* 0.103 (0.005)* 0.078 (0.005)* -0.009 (0.009) -0.020 (0.002)* -0.001 (0.000)* -0.001 (0.001) -0.019 (0.027) 0.191 (0.035)* 0.073 (0.024)*
4.052 (0.016)* 0.102 (0.005)* 0.079 (0.005)* -0.007 (0.009) -0.020 (0.002)* -0.001 (0.000)* -0.001 (0.001) -0.025 (0.027) 0.188 (0.035)* 0.072 (0.024)* -0.031 (0.034) -0.003 (0.002) -0.084 (0.035)* 0.373 (0.038)* 0.059 (0.019)*
4.052 (0.016)* 0.097 (0.003)* 0.077 (0.003)* -0.003 (0.006) -0.022 (0.002)* -0.001 (0.000)* -0.001 (0.001)* -0.036 (0.024) 0.209 (0.030)* 0.068 (0.021)* -0.029 (0.035) -0.003 (0.002) -0.060 (0.037) 0.381 (0.040)* 0.068 (0.015)*
0.256d 0.049* 0.081*
0.234d 0.050* 0.080* 0.003* 0.002* 0.004 0.000 0.001* 0.001* 0.006* 0.000
0.234d 0.025* 0.098* 0.003* 0.002 0.004 0.000 0.001 0.002* 0.006* 0.000 0.000* 0.000 0.027 0.043 0.023
0.234d 0.025* 0.072* 0.003* 0.002 0.004 0.000 0.001 0.002* 0.005* 0.000 0.000* 0.000 0.027 0.044 0.022
0.243d 0.039* 0.063*
48 005.27 4 48 013.27
46 082.97 36 46 154.97
45 898.93 81 46 060.93
45 792.64 86 45 964.64
46 157.65 18 46 193.65
X1 = Vorab-Interesse
1
g100
X2 = Rahmenbedingungen
1
g200
X3 = Geschlecht Studierendea
1
g300
X4 = Ha¨ufigkeit Fehlen
1
g400
V1 = Veranstaltungsgro¨ße
2
g010
V2 = Schwund
2
g020
V3 = Pflichtveranstaltungb
2
g030
V4 = Mittl. Vorab-Interesse
2
g040
V5 = Mittl. Rahmenbedingungen
2
g050
W1 = Geschlecht Lehrendea
3
g001
W2 = Lehrerfahrung
3
g002
W3 = Positionc
3
g003
W4 = Mittl. Interesse
3
g004
X3 x W1 = Interaktion Geschlecht
1, 3
g301
Zufa¨llige Effekte Residual Ebene 1 Residual Ebene 2 Residual Ebene 3 Slope X1 = Vorab-Interesse Slope X2 = Rahmenbedingungen Slope X3 = Geschlecht Stud.a Slope X4 = Ha¨ufigkeit Fehlen Slope X1 = Vorab-Interesse Slope X2 = Rahmenbedingungen Slope X3 = Geschlecht Stud.a Slope X4 = Ha¨ufigkeit Fehlen Slope V1 = Veranstaltungsgro¨ße Slope V2 = Schwund in % Slope V3 = Pflichtveranstaltungb Slope V4 = Mittl. Vorab-Interesse Slope V5 = Mittl. Rahmenbed. Dev = (2·ln (L) t = Zahl Parameter AIC = Dev + 2 · t
1 2 3 2 2 2 2 3 3 3 3 3 3 3 3 3
s2 tp tb Var (r1) Var (r2) Var (r3) Var (r4) Var (u10) Var (u20) Var (u30) Var (u40) Var (u01) Var (u02) Var (u03) Var (u04) Var (u05)
Anmerkungen: a 0 = ma¨nnlich, 1 = weiblich; b 0 = nein, 1 = ja; c 1=Hochschullehrer, 0 = kein Hochschullehrer; Studierende (Ebene 1), 988 Vorlesungen (Ebene 2), 360 Lehrende (Ebene 3); Standardfehler in Klammern; * p < .05.
d
ohne Signifikanztest; 31 037
55
Pra¨diktoren studentischer Lehrveranstaltungsevaluationen Tabelle 4. Ergebnisse der Mehrebenenanalyse fu¨r Seminare Feste Effekte
Ebene
Intercept
Parameter
Modell 0
Modell 1
Modell 2
Modell 3
Modell F
g000
4.217 (0.012)*
4.217 (0.012)* 0.104 (0.004)* 0.078 (0.004)* -0.030 (0.008)* -0.012 (0.003)*
4.220 (0.012)* 0.103 (0.004)* 0.079 (0.004)* -0.032 (0.008)* -0.012 (0.003)* -0.006 (0.001)* -0.001 (0.000) -0.015 (0.018) 0.201 (0.019)* 0.075 (0.013)*
4.221 (0.011)* 0.103 (0.004)* 0.079 (0.004)* -0.032 (0.008)* -0.012 (0.003)* -0.006 (0.001)* -0.001 (0.000) -0.017 (0.018) 0.202 (0.019)* 0.075 (0.013)* 0.044 (0.022)* -0.002 (0.001) -0.022 (0.027) 0.309 (0.031)* 0.043 (0.015)*
4.221 (0.011)* 0.102 (0.003)* 0.080 (0.003)* -0.029 (0.006)* -0.012 (0.003)* -0.005 (0.001)* -0.001 (0.000) -0.017 (0.016) 0.202 (0.018)* 0.078 (0.012)* 0.040 (0.023) -0.002 (0.001) -0.021 (0.028) 0.316 (0.032)* 0.048 (0.013)*
0.226d 0.050* 0.052*
0.204d 0.052* 0.052* 0.003* 0.003* 0.008 0.002* 0.001* 0.001 0.005* 0.000
0.204d 0.031* 0.059* 0.003* 0.003* 0.007* 0.002* 0.002* 0.001 0.005* 0.000 0.000 0.000 0.011 0.009 0.004*
0.204d 0.031* 0.047* 0.003* 0.003* 0.008* 0.002* 0.002* 0.001 0.004* 0.000 0.000 0.000 0.011 0.009 0.004*
0.213d 0.036* 0.044*
48 870.27 4 48 878.27
46 785.29 36 46 857.29
46 382.16 81 46 544.16
46 273.83 86 46 445.83
46 572.44 18 46 608.44
X1 = Vorab-Interesse
1
g100
X2 = Rahmenbedingungen
1
g200
X3 = Geschlecht Studierendea
1
g300
X4 = Ha¨ufigkeit Fehlen
1
g400
V1 = Veranstaltungsgro¨ße
2
g010
V2 = Schwund
2
g020
V3 = Pflichtveranstaltungb
2
g030
V4 = Mittl. Vorab-Interesse
2
g040
V5 = Mittl. Rahmenbedingungen
2
g050
W1 = Geschlecht Lehrendea
3
g001
W2 = Lehrerfahrung
3
g002
W3 = Positionc
3
g003
W4 = Mittl. Vorab-Interesse
3
g004
X3 x W1 = Interaktion Geschlecht
1, 3
g301
Zufa¨llige Effekte Residual Ebene 1 Residual Ebene 2 Residual Ebene 3 Slope X1 = Vorab-Interesse Slope X2 = Rahmenbedingungen Slope X3 = Geschlecht Stud.a Slope X4 = Ha¨ufigkeit Fehlen Slope X1 = Vorab-Interesse Slope X2 = Rahmenbedingungen Slope X3 = Geschlecht Stud.a Slope X4 = Ha¨ufigkeit Fehlen Slope V1 = Veranstaltungsgro¨ße Slope V2 = Schwund in % Slope V3 = Pflichtveranstaltungb Slope V4 = Mittl. Vorab-Interesse Slope V5 = Mittl. Rahmenbed. Dev = (2·ln (L) t = Zahl Parameter AIC = Dev + 2·t
1 2 3 2 2 2 2 3 3 3 3 3 3 3 3 3
s2 tp tb Var (r1) Var (r2) Var (r3) Var (r4) Var (u10) Var (u20) Var (u30) Var (u40) Var (u01) Var (u02) Var (u03) Var (u04) Var (u05)
Anmerkungen: a 0 = ma¨nnlich, 1 = weiblich; b 0 = nein, 1 = ja; c 1 = Hochschullehrer, 0 = kein Hochschullehrer; Studierende (Ebene 1), 1 910 Seminare (Ebene 2), 595 Lehrende (Ebene 3); Standardfehler in Klammern; * p < .05.
d
ohne Signifikanztest; 33 593
56
Thomas Staufenbiel, Thomas Seppelfricke und Judith Rickers
Abbildung 2. Cross-Level-Interaktionen des Geschlechts der Studierenden mit dem Geschlecht der Lehrenden in Vorlesungen (links) und Seminaren (rechts).
etwa bei Seminaren der Zusammenhang zwischen dem Vorab-Interesse und den SBL in verschiedenen Veranstaltungen, Var(r1), und bei verschiedenen Lehrenden, Var(u10), unterschiedlich stark aus. Erwartungskonform zeigen sich auch in beiden Veranstaltungsformen zufa¨llige Effekte beim Geschlecht der Studierenden in Abha¨ngigkeit von den Lehrenden, Var(u30). Hier war erwartet worden, dass die Effekte des Geschlechts der Studierenden vom Geschlecht der Lehrenden abha¨ngt. Tatsa¨chlich erweist sich diese Interaktion in beiden Veranstaltungsformen als statistisch signifikant. Abbildung 2 zeigt die Formen der beiden Cross-Level-Interaktionen. Na¨here Analysen der simple slopes (Bauer & Curran, 2005) auf der Basis des Modells F belegen, dass in Vorlesungen ma¨nnliche Studierende ma¨nnliche Lehrende besser bewerten als weibliche Lehrende, g = -0.070, p < 0.05, wa¨hrend sich bei Studentinnen kein solcher Unterschied findet, g = -0.002, p = 0.96. Daru¨ber hinaus werden in Vorlesungen Dozenten von Studentinnen kritischer bewertet als von Studenten, g = -0.023, p < 0.05; bei den weiblichen Lehrenden ist es umgekehrt, g = 0.044, p < 0.05. In Seminaren bewerten die Studentinnen Dozentinnen besser als Dozenten, g = 0.053, p < 0.05, wa¨hrend bei Studenten kein Bewertungsunterschied festzustellen ist, g = 0.005, p = 0.85. Gleichzeitig repliziert sich der Befund, dass ma¨nnliche Lehrende von Studenten besser bewertet als von weiblichen Studierenden, g = -0.053, p < 0.05. Weibliche Lehrende werden hingegen von beiden Studierendengruppen nicht unterschiedlich bewertet, g = -0.005, p = 0.60. Um die Ergebnisse insgesamt mit denen der einzigen deutschen Multilevel-Studie in diesem Kontext von Dresel und Rindermann (2011) vergleichbar zu machen, haben wir wie dort auch ein Modell gescha¨tzt, bei dem alle Pra¨diktoren am Gesamtmittelwert zentriert wurden. Bei diesem Modell zeigen sich sehr vergleichbare Ergebnisse, die sich in Bezug auf die festen Effekte vor allem darin unterscheiden, dass auch die Effekte des Pflichtcharakters und des Schwunds statistisch signifikant werden.
Diskussion Die Ergebnisse der hier durchgefu¨hrten Mehrebenenana¨ bereinstimmung mit lysen stehen ganz u¨berwiegend in U der Literatur und den daraus in der vorliegenden Studie abgeleiteten Hypothesen. So ergeben sich auf der Ebene der Studierenden und der Veranstaltung fu¨r fast alle Variablen statistisch signifikante Effekte. Insgesamt sind diese aber meist nicht sehr groß. Die hier untersuchten Variablen ko¨nnen in ihrer Gesamtheit nicht mehr als 11 % der Varianz in den Veranstaltungsbewertungen der Studierenden aufkla¨ren. Diese Gro¨ßenordnung stimmt mit Ergebnissen der angloamerikanischen Forschung u¨berein (Marsh, 2007). Zu beachten ist dabei, dass in Bezug auf die Frage der Verzerrung der Urteile die Variablen auf der Ebene der Studierenden weniger von Bedeutung sind als die auf der Ebene der Veranstaltung. Signifikante Einflussgro¨ßen auf der ersten Ebene, deren Mittelwerte nicht zwischen Veranstaltungen streuen, tragen nicht zu einer Verzerrung der Beurteilungen von Veranstaltungen bei, die ja auf den mittleren Studierendenurteilen basieren. Den sta¨rksten Effekt weist in Vorlesungen und Seminaren analog zu vielen anderen Studien die Variable Vorab-Interesse auf. Wie stark ist dieser Effekt einzuscha¨tzen? Nehmen wir einmal an, in einer Vorlesung sitzen Studierende mit durchschnittlichem Vorab-Interesse (auf allen Ebenen) und mittleren Auspra¨gungen auch in den anderen Variablen. Dann wu¨rde entsprechend des Modells eine mittlere Beurteilung der Veranstaltung von 4.052 resultieren (g000; vgl. Tabelle 3). Wa¨re jetzt das durchschnittliche Interesse der Studierenden an der Veranstaltung um eine Standardabweichung gro¨ßer (SDV4 = 0.46, also ungefa¨hr der Ha¨lfte des Zuwachses von mittel auf groß auf der Interessensskala; alle anderen Einflussgro¨ßen blieben konstant), so wu¨rde sich auf der Basis des Modells F die Bewertung um g040·SDV4 = 0.209·0.46 % 0.1 erho¨hen und die mittlere Bewertung auf 4.152 ansteigen. Dies wu¨rde immerhin einer Zunahme des Prozentrangs
Pra¨diktoren studentischer Lehrveranstaltungsevaluationen von 43.2 auf 53.9 entsprechen. Zu beru¨cksichtigen ist dabei allerdings, dass der Prozentrang-Zuwachs in Richtung auf die Ra¨nder der SBL-Verteilung immer kleiner wird. Ein Anstieg um 0.1 von 4.5 auf 4.6 entspricht beispielsweise nur noch einer Prozentrangsteigerung von 91.0 auf 95.3. Eine Sta¨rke der Mehrebenenanalysen ist, dass sie die Effekte auf den verschiedenen Ebenen separieren kann. Anders als auf der Basis von OLS-Analysen, la¨sst sich dadurch erkennen, dass das Interesse sich auf allen drei Ebenen simultan auswirkt. Dies bedeutet, dass Veranstaltungen von Lehrenden, deren Veranstaltungen insgesamt als interessanter eingestuft werden, besser bewertet werden. Ferner werden Veranstaltungen, die insgesamt als interessanter eingescha¨tzt werden, auch positiver bewertet. Schließlich geben dann innerhalb der Veranstaltungen wiederum diejenigen Studierenden bessere Bewertungen ab, die diese als interessanter einstufen. Neben dem Interesse erweisen sich in Vorlesungen und Seminaren die Rahmenbedingungen als eine bedeutsame Einflussgro¨ße. Dies gilt auf beiden Ebenen. Die durchschnittlichen Bewertungen der Rahmenbedingungen, die ja am ehesten die objektiven Bedingungen der Veranstaltung widerspiegeln sollten, spielen bei den Bewertungen ebenso eine Rolle wie idiosynkratische Pra¨ferenzen fu¨r Uhrzeit, Raumklima und a¨hnliches. Da diese Einflussgro¨ßen bisher kaum untersucht wurden, wa¨re hier weitere Forschung von Interesse. Dabei ko¨nnten die verschiedenen Bedingungen differenzierter erfasst werden und auch mit objektiven Indizes in Beziehung gesetzt werden. Eine weitere Sta¨rke der Mehrebenenanalyse liegt in der Modellierbarkeit der Zufallseffekte (random slopes). Ergeben sich signifikante Varianzen der random slopes fu¨r eine Variable, so sind die Einflu¨sse, die sich in den festen Parameterscha¨tzungen ausdru¨cken, nicht generalisierbar. Bei Vorlesungen ergaben sich beispielsweise solche zufa¨lligen Effekte beim Interesse (auf der Ebene der Veranstaltungen), den Rahmenbedingungen, der Veranstaltungsgro¨ße und dem Geschlecht (jeweils auf der Ebene der Lehrenden). Bei den meisten Variablen ko¨nnen wir in unserem Modell nicht weiter aufkla¨ren, warum der Zusammenhang mit den SBL in verschiedenen Veranstaltungen oder bei verschiedenen Lehrenden schwankt. Beim Geschlecht der Studierenden hatten wir die Hypothese aufgestellt, dass eine (Cross-Level-) Interaktion mit dem Moderator Geschlecht des Lehrenden besteht. Tatsa¨chlich bestehen solche Wechselwirkungen derart, dass Lehrende von gleichgeschlechtlichen Studierenden besser beurteilt werden als von gegengeschlechtlichen (mit der Ausnahme der weiblichen Lehrenden in Seminaren). Ein weiteres interessantes Ergebnis ist, dass in den Nullmodellen ein substantieller Anteil der Varianz zwischen Veranstaltungen auf Unterschiede der Lehrenden zuru¨ckzufu¨hren ist (62 % bei Vorlesungen und 51 % bei Seminaren). Obwohl also betra¨chtliche Varianz auf der
57
dritten Ebene lokalisiert ist, so sind die hier untersuchten Lehrendenmerkmale (bis auf das Interesse) nicht geeignet, einen Beitrag zur Vorhersage der SBL leisten. Diese Ergebnisse stehen in Einklang mit dem Befund der kleinen und inkonsistenten Effekte dieser Variablen in der Literatur und replizieren auch die Ergebnisse der Mehrebenenanalyse von Dresel und Rindermann (2011), die bei den gleichen drei Variablen ebenfalls keine statistisch signifikanten Effekte nachweisen konnten. Die ausbleibenden Zusammenha¨nge sind auch deshalb positiv zu bewerten, da Variablen wie Status, Geschlecht, Erfahrung oder Alter nicht durch Lehrende zu kontrollieren sind. Nimmt man die meist verwendete Definition ernst, dass Einflussgro¨ßen nur dann als Biasvariablen bezeichnet werden, wenn diese nicht mit der Qualita¨t der Lehre zusammenha¨ngen, so stellt man fest, dass fu¨r viele der untersuchten Variablen kaum zu entscheiden ist, ob dies der Fall ist. Pra¨ziser mu¨sste man eigentlich im Sinne der Validita¨t der Urteile fordern, dass die Einflu¨sse der Variablen auf die SBL genauso stark sind wie deren Einflu¨sse auf die Lehrqualita¨t. Dies impliziert u¨brigens, dass eine Verzerrung auch dann vorliegt, wenn eine Einflussgro¨ße, die sich auf die Qualita¨t auswirkt, nicht auf die SBL durchschla¨gt (Abrami, 1989). Letztlich ist die Frage nach Biasvariablen nur in dem Maße zu beantworten, in dem gesichertes Grundlagenwissen u¨ber die Effektivita¨t des Lehrens in Abha¨ngigkeit von diesen Variablen besteht. Bis dies vorliegt, sollte man den Begriff Biasvariable mit Vorsicht verwenden. Einige Schwa¨chen dieser Studie seien abschließend kritisch angemerkt. Wie in den meisten Studien zur Untersuchung von Biasvariablen, sind auch hier alle Pra¨diktoren nur mit Einzelitems unbekannter Reliabilita¨t erfasst. Aufgrund der Datengenese in einem angewandten Kontext sind ferner eine Reihe der Einflussgro¨ßen nicht optimal erfasst: Dazu za¨hlen etwa die Rahmenbedingungen (Konfundierung verschiedener Einflu¨sse) oder die Fehlha¨ufigkeit (erhoben mittels Selbstauskunft und damit mo¨glicherweise verzerrt; zudem Erhebungszeitpunkt nicht kontrolliert). Besonders deutlich wird dies auch bei der Variable Vorab-Interesse, die retrospektiv erfasst wird, wodurch mo¨glicherweise der Effekt u¨berscha¨tzt wird (Olivares, 2001). Obwohl durch die Mehrebenenanalyse die Abha¨ngigkeit der Beobachtungen auf den drei betrachteten Ebenen kontrolliert wird, so bleibt eine Abha¨ngigkeit unberu¨cksichtigt. Sie entsteht dadurch, dass Studierende in dem Datensatz mehrfach enthalten sind. Diese Varianzquelle ko¨nnte nur dann kontrolliert werden, wenn eine Identifizierung der Fragebo¨gen der Studierenden mo¨glich ist. Auf der Basis einer solchen Zuordnung kann diese nicht hierarchisch geschachtelte Varianzquelle in speziellen Mehrebenenverfahren systematisch beru¨cksichtigt werden (cross-classified multi-level analysis; Brockx et al., 2011; Spooren, 2010). In unserer Studie, wie in fast allen
58
Thomas Staufenbiel, Thomas Seppelfricke und Judith Rickers
anderen Studien in diesem Kontext, ist dies aus Gru¨nden der Wahrung der Anonymita¨t der Studierenden nicht mo¨glich. Die eingangs angesprochenen Probleme, die korrelierte Beobachtungen in Bezug auf zu geringe Standardfehler und liberale statistische Tests nach sich ziehen, sind also bei dieser Datenstruktur mit dem hier angewendeten Mehrebenenansatz nur partiell gelo¨st. Zusammenfassend kann man konstatieren, dass auch diese Studie auf der Basis einer großen, heterogenen Stichprobe und unter Beru¨cksichtigung der Mehrebenenstruktur der Daten besta¨tigt, dass viele der potentiellen Biasvariablen zwar einen systematischen, aber nur sehr geringen Einfluss auf die studentischen Bewertungen von Lehrveranstaltungen haben. Selbst wenn etwas sta¨rkere Zusammenha¨nge bestehen, was hier beim Interesse und den Rahmenbedingungen der Fall ist, bleibt offen, ob es sich tatsa¨chlich um verzerrende Einflu¨sse handelt.
Literatur Abrami, P. C. (1989). SEEQing the truth about student ratings of instruction. Educational Researcher, 18, 43 – 45. Baek, S.-G. & Shin, H.-J. (2008). Multilevel analysis of the effects of student and course characteristics on satisfaction in undergraduate liberal arts courses. Asia Pacific Education Review, 9, 475 – 486. Bauer, D. J. & Curran, P. J. (2005). Probing interactions in fixed and multilevel regression: Inferential and graphical techniques. Multivariate Behavioral Research, 40, 373 – 400. Berger, U. & Schleußner, C. (2003). Ha¨ngen Ergebnisse einer Lehrveranstaltungs-Evaluation von der Ha¨ufigkeit des Veranstaltungsbesuches ab? Zeitschrift fu¨r Pa¨dagogische Psychologie, 17, 125 – 131. Brockx, B., Spooren, P. & Mortelmans, D. (2011). Taking the grading leniency story to the edge. The influence of student, teacher, and course characteristics on student evaluations of teaching in higher education. Educational Assessment, Evaluation and Accountability, 23, 289 – 306. Centra, J. A. & Gaubatz, N. N. (2000). Is there gender bias in student evaluations of teaching? The Journal of Higher Education, 70, 17 – 33. Daniel, H.-D. (1994). Ho¨rerbefragung an der Universita¨t Mannheim: Konzeption, Erhebung, Auswertung. Empirische Pa¨dagogik, 8, 109 – 129. Diehl, J. M. (1994). Fragebo¨gen zur studentischen Evaluation von Hochschulveranstaltungen. Manual und Auswertungsprogramm zum VBVOR und VBREF. Gießen: Fachbereich 06 Psychologie, Universita¨t Gießen. Diehl, J. M. (2001). Studentische Lehrevaluation in den Sozialwissenschaften: Fragebo¨gen, Normen, Probleme. In E. Keiner (Hrsg.), Evaluation (in) der Erziehungswissenschaft (S. 63 – 90). Weinheim: Beltz Verlag. Dresel, M. & Rindermann, H. (2011). Counseling university instructors based on student evaluations of their teaching effectiveness: A multilevel test of its effectiveness under consideration of bias and unfairness variables. Research on Higher Education, 52, 717 – 737.
Enders, C. K. & Tofighi, D. (2007). Centering predictor variables in cross-sectional multilevel models: A new look at an old issue. Psychological Methods, 12, 121 – 138. EvaSys (2014). EvaSys (Version 6.0) [Computerprogramm]. Lu¨neburg: Electric Paper. Feldman, K. A. (1978). Course characteristics and college students’ ratings of their teachers and courses: What we know and what we don’t. Research in Higher Education, 9, 199 – 242. Feldman, K. A. (1983). Seniority and experience of college teachers as related to evaluations they receive from students. Research in Higher Education, 18, 3 – 124. Feldman, K. A. (1984). Class size and college students’ evaluations of teachers and courses: A closer look. Research in Higher Education, 21, 45 – 116. Feldman, K. A. (1989). Instructional effectiveness of college teachers as judged by teachers themselves, current and former students, colleagues, administrators, and external (neutral) observers. Research in Higher Education, 30, 137 – 194. Feldman, K. A. (1993). College students’ views of male and female college teachers: Part II – Evidence from students’ evaluations of their classroom teachers. Research in Higher Education, 34, 151 – 211. Feldman, K. A. (2007). Identifying exemplary teachers and teaching: Evidence from student ratings. In R. P. Perry & J. C. Smart (Eds.), The scholarship of teaching and learning in higher education: An evidence-based perspective (pp. 93 – 143). Dordrecht: Springer. Gollwitzer, M., Kranz, D. & Vogel, E. (2006). Die Validita¨t studentischer Lehrveranstaltungsevaluationen und ihre Nu¨tzlichkeit fu¨r die Verbesserung der Hochschullehre: Neuere Befunde zu den Gu¨tekriterien des „Trierer Inventars zur Lehrevaluation“ (TRIL). In G. Krampen & H. Zayer (Hrsg.), Didaktik und Evaluation in der Psychologie (S. 90 – 104). Go¨ttingen: Hogrefe. Hoffmann, A. (2009). Studentische Lehrveranstaltungsevaluation – Ein Zerrbild der Qualita¨t akademischer Lehre? Empirische Pa¨dagogik, 23, 19 – 49. Howard, G. S., Conway, C. G. & Maxwell, S. E. (1985). Construct validity of measures of college teaching effectiveness. Journal of Educational Psychology, 77, 187 – 196. Hunter, J. E. & Schmidt, F. L. (1990). Methods of meta-analysis: Correcting error and bias in research findings. Newbury Park, CA: Sage. Kreft, I. & de Leeuw, J. (1998). Introduction of multilevel modeling. London: Sage. Kromrey, H. (1994). Wie erkennt man „gute Lehre“? Was studentische Vorlesungsbefragungen (nicht) aussagen. Empirische Pa¨dagogik, 8, 153 – 168. Marsh, H. W. (1987). Students’ evaluations of university teaching: Research findings, methodological issues, and directions for future research. International Journal of Educational Research, 11, 253 – 388. Marsh, H. W. (2007). Students’ evaluations of university teaching: Dimensionality, reliability, validity, potential biases and usefulness. In R. P. Perry & J. C. Smart (Eds.), The scholarship of teaching and learning in higher education: An evidence-based perspective (pp. 319 – 383). Dordrecht: Springer. Marsh, H. W., Overall, J. U. & Kesler, S. P. (1979). Validity of student evaluation of instructional effectiveness: A compar-
Pra¨diktoren studentischer Lehrveranstaltungsevaluationen ison of faculty self-evaluations and evaluations by their students. Journal of Educational Psychology, 71, 149 – 160. Murray, H. G. (1983). Low inference classroom teaching behaviors and student ratings of college teaching effectiveness. Journal of Educational Psychology, 71, 856 – 865. Nasser, F. & Hagtvet, K. A. (2006). Multilevel analysis of the effects of student and instructor/course characteristics on student ratings. Research in Higher Education, 47, 559 – 590. Olivares, O. J. (2001). Student interest, grading leniency, and teacher ratings: A conceptual analysis. Contemporary Educational Psychology, 26, 382 – 399. Ory, J. C. (2001). Faculty thoughts and concerns about student ratings. New Directions for Teaching and Learning, 87, 3 – 15. Peus, V., Valerius, G., Scha¨rer, L., Freyer, T., Berger, M. & Voderholzer, U. (2005). Lehrevaluation an der Medizinischen Fakulta¨t Freiburg, Teil II: Formative Lehrveranstaltungsevaluation. GMS Zeitschrift fu¨r Medizinische Ausbildung, 22. Zugriff am 28. 02. 2014 unter http://www.egms.de/ static/pdf/journals/zma/2005 – 22/zma000017.pdf Raudenbush, S. & Bryk, A. S. (2002). Hierarchical linear models. Applications and data analysis methods (2nd ed.). Los Angeles, CA: Sage. Raudenbush, S., Bryk, A. S., Cheong, Y. F., Congdon, R. & du Toit, M. (2011). HLM 7. Hierarchical linear and nonlinear modeling. Lincolnwood, IL: Science Software International. Rindermann, H. (1995). Untersuchungen zur Brauchbarkeit studentischer Lehrevaluationen. Landau: Verlag Empirische Pa¨dagogik. ¨ berRindermann, H. (2001). Lehrevaluation. Einfu¨hrung und U blick zu Forschung und Praxis der Lehrveranstaltungsevaluation an Hochschulen mit einem Beitrag zur Evaluation computerbasierten Unterrichts. Landau: Verlag Empirische Pa¨dagogik. Schmidt, B. & Loßnitzer, T. (2010). Lehrveranstaltungsevaluation: State of the art, ein Definitionsvorschlag und Entwicklungslinien. Zeitschrift fu¨r Evaluation, 9, 49 – 72. Snijders, T. A. B. & Bosker, R. J. (2012). Multilevel analysis. An introduction to basic and advanced multilevel modeling (2nd ed.). Los Angeles, CA: Sage. Spiel, C. & Go¨ssler, P. M. (2000). Zum Einfluß von Biasvariablen auf die Bewertung universita¨rer Lehre durch Studierende. Zeitschrift fu¨r Pa¨dagogische Psychologie, 14, 38 – 47. Spiel, C., Wolf, P. & Popper, V. (2002). Lehre und Lehrevaluation – (un)geliebt? Die Perspektive der Universita¨tslehrenden. Zeitschrift fu¨r Psychologie, 210, 27 – 39.
59
Spinath, B. & Stehle, S. (2011). Evaluation von Hochschullehre. In L. F. Hornke, M. Amelang & M. Kersting (Hrsg.), Grundfragen und Anwendungsfelder psychologischer Diagnostik (Enzyklopa¨die der Psychologie, Serie Psychologische Diagnostik, Bd. 1, S. 617 – 667). Go¨ttingen: Hogrefe. Spooren, P. (2010). On the credibility of the judge. A crossclassified multilevel analysis on students’ evaluations of teaching. Studies in Educational Evaluation, 36, 121 – 131. Spooren, P., Brockx, B. & Mortelmans, D. (2013). On the validity of student evaluation of teaching: The state of the art. Review of Educational Research, 83, 598 – 642. Staufenbiel, T. (2000). Fragebogen zur Evaluation von universita¨ren Lehrveranstaltungen durch Studierende und Lehrende. Diagnostica, 46, 169 – 181. Staufenbiel, T. (2001). Universita¨tsweite Evaluation von Lehrveranstaltungen in Marburg: Vorgehen, Instrumente, Ergebnisse. In E. Keiner (Hrsg.), Evaluation (in) der Erziehungswissenschaft (S. 43 – 61). Weinheim: Beltz Verlag. Ting, K. (2000). A multilevel perspective on student ratings of instruction: Lessons from the Chinese experience. Research in Higher Education, 41, 637 – 661. Vater, A., Grohs, P. & Sedlmeier, P. (2007). Die Beeinflussbarkeit studentischer Urteile in universita¨ren Lehrevaluationen durch potenzielle Biasvariablen. In A. Kluge & K. Schu¨ler (Hrsg.), Qualita¨tssicherung und -entwicklung in der Hochschule: Methoden und Ergebnisse (S. 219 – 231). Lengerich: Pabst. Wolbring, T. (2012). Class attendance and students’ evaluations of teaching: Do no-shows bias course ratings and rankings? Evaluation Review, 36, 72 – 96.
Onlinevero¨ffentlichung: 26. 06. 2015 Prof. Dr. Thomas Staufenbiel Dr. Judith Rickers Universita¨t Osnabru¨ck Fachbereich Humanwissenschaften Institut fu¨r Psychologie Seminarstraße 20 49069 Osnabru¨ck E-Mail: thomas.staufenbiel@uos.de Dr. Thomas Seppelfricke Am Steinberg 37 40225 Du¨sseldorf
Diagnostica, 62 (1), 60 ' Hogrefe Verlag, Go¨ttingen 2016
Danksagung Die unten aufgefu¨hrten Kolleginnen und Kollegen sind im Jahr 2015 als Gutachterinnen und Gutachter fu¨r die Diagnostica ta¨tig gewesen. Ihnen sei ganz herzlich gedankt (Stand: 17. 09. 2015). Katrin Arens, Frankfurt am Main Anna Baumert, Koblenz-Landau Katrin Bo¨hme, Potsdam Elmar Bra¨hler, Leipzig Arndt Bro¨der, Mannheim Oliver Dickha¨user, Mannheim Philipp Doebler, Mu¨nster Ralf Dohrenbusch, Bonn Manfred Do¨pfner, Ko¨ln Thomas Eckes, Bochum Felix Ehrlenspiel, Mu¨nchen Michael Eid, Berlin Hermann Faller, Wu¨rzburg Christine Finn, Jena Alexander Freund, Lu¨neburg Kristina Antonette Frey, Mu¨nster Thomas Fydrich, Berlin Timo Gnambs, Osnabru¨ck Robert Grassinger, Augsburg Burkhard Gusy, Berlin Birk Hagemeyer, Jena Benedikt Hell, Olten, CH Philipp Herzberg, Hamburg Sven Hilbert, Mu¨nchen Ju¨rgen Hoyer, Dresden Roland Imhoff, Ko¨ln Malte Jansen, Berlin Veronika Job, Zu¨rich, CH Uwe Peter Kanning, Osnabru¨ck Erich Kasten, Hamburg Ursula Kastner-Koller, Wien, AU Augustin Kelava, Tu¨bingen Julia Klug, Wien, AU Uta Klusmann, Kiel Uwe Koch, Hamburg Ute Koglin, Oldenburg Levente Kriston, Hamburg Annett Kuschel, Berlin Sylvain Laborde, Ko¨ln Gerhard Lauth, Ko¨ln Wolfgang Lenhard, Wu¨rzburg Detlev Leutner, Duisburg-Essen DOI: 10.1026/0012-1924/a000159
Thomas Merten, Berlin Markus Moessner, Heidelberg Andreas Mokros, Zu¨rich, CH Helfried Moosbrugger, Frankfurt am Main Morten Moshagen, Kassel Karsten Mu¨ller, Osnabru¨ck Marcus Mund, Jena Johannes Naumann, Frankfurt am Main Alexandra Philipsen, Oldenburg Bernd Puschner, Ulm Gerolf Renner, Ludwigsburg Jan Retelsdorf, Kiel Rita Rosner, Eichsta¨tt-Ingolstadt Stefan Schipolowski, Berlin Alexander Schmidt, Luxemburg, LU So¨ren Schmidt, Ko¨ln Lothar Schmidt-Atzert, Marburg Claudia Scho¨ne, Gießen Ulrich Schroeders, Bamberg Holger Schulz, Hamburg Astrid Schu¨tz, Bamberg Karl Schweizer, Frankfurt am Main Jule Specht, Berlin Marion Spengler, Luxemburg, LU Nadine Spo¨rer, Potsdam Ulrich Stangier, Frankfurt am Main Mark Stemmler, Erlangen Nikola Stenzel, Leipzig Sefik Tegay, Duisburg-Essen Cora Titz, Frankfurt am Main Detlef Urhahne, Halle-Wittenberg Sophie von Stumm, London, UK Hans-Christian Waldmann, Bremen Eva-Verena Wendt, Mu¨nchen Eunike Wetzel, Konstanz Silvia Wiedebusch, Osnabru¨ck Ulrike Willutzki, Witten-Herdecke Wolfgang Woerner, Frankfurt am Main Matthias Ziegler, Berlin Rene´ Ziegler, Tu¨bingen Julia Zimmermann, Jena
M-KIT
Modularer Kurzintelligenztest Michael Dantlgraber • Erfassung der Grundintelligenz für anspruchsvolle Studien- und Berufslehrgänge • Modular einsetzbar – reine Testzeit je nach Modul ab 25 Minuten • Modernstes Online-Testen mit HTS 5 • Gut verständliche Ergebnisberichte • Überdurchschnittliche Zusammenhänge in der Praxis mit Schul- und Abiturnoten sowie Leistungsbeurteilungen durch Vorgesetzte
M-KIT Test komplett bestehend aus: Manual, Aufgabenhefte 1 – 6 (Wortfolgen, Bildteile, Zahlenvergleiche, Kurztexte, Kartenstapel, Ungleichungen), je 5 Antwortbogen 1 – 6 (Wortfolgen, Bildteile, Zahlenvergleiche, Kurztexte, Kartenstapel, Ungleichungen), 5 Auswertebogen, 5 Präsentiermappen, Auswerteschablonen 1 – 3 (Wortfolgen & Kurztexte / Bildteile & Kartenstapel / Zahlenvergleiche & Ungleichungen), Gesamtübersicht und Box Best. Nr. 03 202 01, € 244.00 / CHF 281.00 M-KIT HTS 5 Diese Version benötigt Administrationssoftware bzw. eine Jahreslizenz für das Hogrefe TestSystem (HTS). Für alle Informationen zu HTS und zur detaillierten Produktepalette M-KIT HTS 5 wenden Sie sich bitte an Ihre Testzentrale.
Der modulare Kurzintelligenztest (M-KIT) ist ein ökonomisches, (gender-) faires, universell und flexibel anwendbares Verfahren zur Erfassung fluider Intelligenz, das durch hohe Validität und hohe Akzeptanzratings besticht. Intelligenz wird dabei weitgehend unabhängig von Faktoren wie erworbenem Schulwissen, spezifischen Berufskenntnissen und ähnlichem erfasst. Der M-KIT ist so konzipiert, dass er in fünf eigenständigen Modulen eingesetzt werden kann. Hierfür wurden sechs neuartige Aufgabenformate entwickelt; zwei verbal (Modul V, verbal), zwei figural-bildhaft (Modul F, figural-bildhaft) und zwei numerisch (Modul N, numerisch) geprägte. Von diesen betont jeweils ein Aufgabenformat die fluid-schlussfolgernde Kernkomponente stärker (Modul K, kernfokussiert) und eines den verbalen, figural-bildhaften bzw. numerischen Aspekt (Modul A, ausbalanciert). Werden alle Aufgabenformate eingesetzt, lässt sich zusätzlich ein Gesamttestergebnis ableiten.
Für weitere Informationen: www.hogrefe.ch/m-kit
Testzentrale Göttingen Herbert-Quandt-Str. 4 37081 Göttingen, Deutschland Tel. +49 551 999 50 99-9 / Fax -8 E-Mail testzentrale@hogrefe.de www.testzentrale.de
Testzentrale Bern Länggass-Strasse 76 3000 Bern 9, Schweiz Tel. +41 31 300 45-45 / Fax -90 E-Mail testzentrale@hogrefe.ch www.testzentrale.ch
LLT
SI-KJ
Location Learning Test – Deutsche Version
Schlafinventar für Kinder und Jugendliche
Tests für die Neuropsychologie
M. G. Lehmkuhl / A. Agache / D. Alfer L. Fricke-Oerkermann / Ch. Tielsch A. Mitschke / E. Schäfermeister J. van der Stouwe / A. Wiater
Herausgeber: M. Eid / M. Niedeggen K. Willmes-von-Hickeldey / W. Ziegler R.P.C. Kessels / R.S. Bucks / J.R. Willison L.M.T. Byrne Einsatzbereich: Der LLT ist eine visuell-räumliche Alternative zu den sonst üblichen verbalen Gedächtnistests und kann bei Erwachsenen ab 18 Jahren eingesetzt werden. Da keine verbalen Antworten gefordert werden, ist der LLT auch für Aphasiker geeignet.
Einsatzbereich: Kinder und Jugendliche. Die vier Instrumente des SI-KJ umfassen unterschiedliche Altersbereiche, insgesamt wird der Altersbereich von 5 bis 18 Jahren abgedeckt. Das Verfahren kommt im Bereich der klinischen Psychologie, Kinder- und Jugendpsychiatrie, Pädiatrie und in Erziehungsberatungsstellen zum Einsatz.
Das Verfahren: Beim LLT wird der Proband aufgefordert, sich die räumliche Anordnung von Objekten in einem 5x5-Gitter zu merken. Nach fünf Lerndurchgängen erfolgt eine 15- (Durchführungsvariante I) bzw. 20- bis 30-minütige (Durchführungsvariante II) Pause, nach der der Proband nochmals das Gelernte abrufen soll. Die Lernkurve und die Leistung bei der verzögerten Wiedergabe erlauben eine sichere diagnostische Einordung möglicher Probleme beim Lernen und/oder Behalten von räumlichen Informationen. Es stehen sowohl zwei Durchführungsvarianten mit unterschiedlichen Schwierigkeitsgraden als auch zwei Parallelformen zur Verfügung.
Das Verfahren: Das Schlafinventar für Kinder und Jugendliche (SIKJ) beinhaltet vier verschiedene Instrumente zur Diagnostik von Schlafproblemen und Schlafstörungen bei Kindern und Jugendlichen. Zwei Fragebögen dienen der orientierenden Diagnostik aus Selbstsicht (Fragebogen für Kinder und Jugendliche) und Fremdsicht (Elternfragebogen). Es handelt sich um Screening-Instrumente, aus denen sich erste Hinweise für das Vorliegen von Schlafstörungen sowie von belastenden Schlafbedingungen ableiten lassen. Der Fragebogen für Kinder und Jugendliche enthält 28 Items, der Elternfragebogen umfasst 33 Items.
Bearbeitungsdauer: Für die Durchführung des LLT werden ca. 30 bis 45 Minuten (incl. Pause vor dem verzögerten Abruf) benötigt.
Bearbeitungsdauer: Die Bearbeitung eines Fragebogens dauert etwa 10 bis 15 Minuten. Der zeitliche Aufwand der Interviews ist davon abhängig, ob Schlafprobleme vorhanden sind. Insgesamt muss hier von einer Dauer zwischen 15 und 45 Minuten ausgegangen werden.
Artikel-Nr.
Beschreibung
01 508 01
Test komplett bestehend aus: Manual, 10 Protokollbogen Version A, 10 Protokollbogen Version B, Stimuluskarten (22), Übungs-Gitter (2x2) mit Abbildungen, Test-Gitter (5x5) mit Abbildungen Version A und B, Mappe
www.testzentrale.de
€ 178,00
Artikel-Nr. 01 397 01
€ Test komplett
www.testzentrale.de
112,00
Hinweise für Autoren „Diagnostica“ ist die deutschsprachige Zeitschrift für Psychologische Diagnostik und Differentielle Psychologie. Thematischer Schwerpunkt ist die wissenschaftliche Auseinandersetzung mit psychodiagnostischen Verfahren und Instrumenten sowie mit Methoden ihrer Entwicklung und Evaluation. Als Organ für diagnostische Fragen in allen Bereichen der Psychologie und als Informationsorgan über psychologische Tests und Untersuchungsmethoden dient die Diagnostica unmittelbar der praktischen psychologischen Arbeit und trägt durch Diskussion und Erfahrungsberichte über einzelne Instrumente und Methoden zur Entwicklung auf dem gesamten Gebiet der Psychologischen Diagnostik bei. 1. Art und Umfang von Beiträgen. Folgende Beiträge werden in der Diagnostica veröffentlicht: • empirische und theoretische Originalarbeiten zu Instrumenten, Methoden, Verfahren und Problemen der Psychodiagnostik (max. 30 Standard-Manuskriptseiten: Times New Roman; 27 Zeilen/Seite, 65 Zeichen/Zeile; jede Tabelle, jede Abbildung als eigene Seite; Gesamtzeichenzahl inkl. Leerzeichen: 52.650), • Kommentare zu kürzlich in der Diagnostica veröffentlichten Originalarbeiten (max. 5 Standard-Manuskriptseiten, bestehend aus: Titelblatt mit Anschrift des Autors, max. drei Seiten Text, max. eine Seite Literaturverzeichnis, keine Abbildungen, keine Tabellen; Gesamtzeichenzahl inkl. Leerzeichen: 8.775), • Software-Informationen über Computerprogramme zur Erhebung und Auswertung diagnostischer Daten oder zur Evaluation diagnostischer Instrumente und Verfahren (max. 10 Standard-Manuskriptseiten; Gesamtzeichenzahl inkl. Leerzeichen: 17.550), • Methodeninformationen als praxisorientierte Zusammenfassung des Forschungs- und Entwicklungsstandes hinsichtlich einzelner Methoden zur Entwicklung und Evaluation diagnostischer Instrumente und Verfahren (max. 30 StandardManuskriptseiten; Gesamtzeichenzahl inkl. Leerzeichen: 52.650), • Testinformationen als Rezensionen neuer Testveröffentlichungen (max. 8 Standard-Manuskriptseiten; Gesamtzeichenzahl inkl. Leerzeichen: 14.040), • Buchbesprechungen (max. 6 Standard-Manuskriptseiten; Gesamtzeichenzahl inkl. Leerzeichen: 10.530), • Berichte aus der Arbeit des Testkuratoriums (max. 20 Standard-Manuskriptseiten; Gesamtzeichenzahl inkl. Leerzeichen: 35.100). 2. Einsendungen. Manuskripte sind in elektronischer Form auf http://www.editorialmanager.com/dia einzureichen. Das web-basierte Manuskripteinreichungssystem bietet ein komfortables Arbeiten. Das System unterstützt eine breite Palette an gängigen File-Formaten (bevorzugtes Dateiformat WORD, für Abbildungen TIFF).
Länder einschließlich des Rechts der fotomechanischen Wiedergabe oder einer sonstigen Vervielfältigung an den Verlag über. 3. Urheber- und Nutzungsrechte. Der Autor bestätigt und garantiert, dass er uneingeschränkt über sämtliche Urheberrechte an seinem Beitrag einschließlich eventueller Bildvorlagen, Zeichnungen, Pläne, Karten, Skizzen und Tabellen verfügt und dass der Beitrag keine Rechte Dritter verletzt. Der Autor räumt – und zwar auch zur Verwertung seines Beitrages außerhalb der ihn enthaltenen Zeitschrift und unabhängig von deren Veröffentlichung – dem Verlag räumlich und mengenmäßig unbeschränkt für die Dauer des gesetzlichen Urheberrechts das ausschließliche Recht der Vervielfältigung und Verbreitung bzw. der unkörperlichen Wiedergabe des Beitrags ein. Der Autor räumt dem Verlag ferner die folgenden ausschließlichen Nutzungsrechte am Beitrag ein: a) Das Recht zum ganzen oder teilweisen Vorabdruck und Nachdruck – auch in Form eines Sonderdrucks, zur Übersetzung in andere Sprachen, zu sonstiger Bearbeitung und zur Erstellung von Zusammenfassung (Abstracts); b) das Recht zur Veröffentlichung einer Mikrokopie-, Mikrofiche- und Mikroformausgabe, zur Nutzung im Weg von Bildschirmtext, Videotext und ähnlichen Verfahren, zur Aufzeichnung auf Bild- und/oder Tonträger und zu deren öffentlicher Wiedergabe – auch multimedial – sowie zur öffentlichen Wiedergabe durch Radio- und Fernsehsendungen; c) das Recht zur maschinenlesbaren Erfassung und elektronischen Speicherung auf einem Datenträger (z. B. Diskette, CD-Rom, Magnetband) und in einer eigenen oder fremden Online-Datenbank, zum Download in einem eigenen oder fremden Rechner, zur Wiedergabe am Bildschirm – sei es unmittelbar oder im Weg der Datenfernübertragung – sowie zur Bereithaltung in einer eigenen oder fremden OnlineDatenbank zur Nutzung durch Dritte; d) das Recht zu sonstiger Vervielfältigung, insbesondere durch fotomechanische und ähnliche Verfahren (z. B. Fotokopie, Fernkopie) und zur Nutzung im Rahmen eines sogenannten Kopienversands auf Bestellung; e) das Recht zur Vergabe der vorgenannten Nutzungsrechte an Dritte in In- und Ausland sowie die von der Verwertungsgesellschaft WORT wahrgenommenen Rechte einschließlich der entsprechenden Vergütungsansprüche. 4. Formale Gestaltung der Arbeit. Die Manuskripte sind gemäß den Richtlinien zur Manuskriptgestaltung der Deutschen Gesellschaft für Psychologie (Göttingen: Hogrefe Verlag, 2007) zu gestalten. Sie enthalten den Titel, die Zusammenfassung (abstract) und bis zu fünf Schlüsselwörter (key words) in deutscher und englischer Sprache. Die Manuskriptrichtlinien können unter www.hogrefe.de/zeitschriften/dia mit Acrobat Reader heruntergeladen werden.
Einreichungen werden von einem zuständigen Mitglied des Herausgeberteams unter Heranziehung von in der Regel zwei externen Gutachtern bearbeitet. Der geschäftsführende Herausgeber entscheidet abschließend über Annahme, Revision oder Ablehnung.
5. Sonderdrucke. Der Hogrefe Verlag stellt dem korrespon dierenden Autor von seinem akzeptierten Artikel kostenfrei mit der Online-Erstveröffentlichung einen e-Sonderdruck (PDF) der Verlagsfassung zur Verfügung. Dieser e-Sonderdruck ist für den persönlichen Gebrauch bestimmt, inklusive der Weitergabe an die Koautoren (siehe auch „Online-Rechte für Zeitschriftenbeiträge“ auf unserer Homepage www.hogrefe.de/zeitschriften).
Grundsätzlich werden nur Arbeiten angenommen, die vorher weder im Inland noch im Ausland veröffentlicht worden sind. Mit der Annahme des Manuskriptes und seiner Veröffentlichung durch den Verlag geht das Verlagsrecht für alle Sprachen und
6. Online-Rechte für Zeitschriftenbeiträge. Hinweise für Autoren zur Online-Archivierung einer elektronischen Version Ihres Manuskriptes finden Sie unter den Autorenhinweisen auf unserer Homepage www.hogrefe.de/zeitschriften.
Bitte senden Sie keine Papierabzüge des Manuskripts ein.
American Psychiatric Association
Diagnostische Kriterien DSM-5®
Deutsche Ausgabe herausgegeben von Peter Falkai und Hans-Ulrich Wittchen mitherausgegeben von Manfred Döpfner, Wolfgang Gaebel, Wolfgang Maier, Winfried Rief, Henning Saß und Michael Zaudig
American Psychiatric Association
Diagnostische Kriterien DSM-5® Deutsche Ausgabe herausgegeben von Peter Falkai und Hans-Ulrich Wittchen, mitherausgegeben von Manfred Döpfner, Wolfgang Gaebel, Wolfgang Maier, Winfried Rief, Henning Saß und Michael Zaudig
Das AMDP-System
Arbeitsgemeinschaft für Methodik und Dokumentation in der Psychiatrie (AMDP) (Hrsg.)
Manual zur Dokumentation psychiatrischer Befunde
Arbeitsgemeinschaft für Methodik und Dokumentation in der Psychiatrie (AMDP) (Hrsg.)
Das AMDP-System Manual zur Dokumentation psychiatrischer Befunde
9., überarbeitete und erweiterte Auflage
2015, LIX/467 Seiten, Kleinformat, € 59,95 / CHF 75,– ISBN 978-3-8017-2600-3 / Auch als E-Book erhältlich
9., überarb. Auflage 2016, 204 Seiten, Kleinformat, € 24,95 / CHF 32,50 ISBN 978-3-8017-2707-9 / Auch als E-Book erhältlich
Die diagnostischen Kriterien des Diagnostischen und Statistischen Manuals Psychischer Störungen (DSM) dienen als Leitlinie für die Diagnosestellung und klinische Beurteilung. Das vorliegende Taschenbuch enthält die diagnostischen Kriterien für alle offiziellen Störungsbilder gemäß der aktuellen Fassung des DSM-5.
Das AMDP-System dient der Dokumentation psychiatrischer Befunde und anamnestischer Daten. Es kann erfolgreich zur Ausbildung in Psychopathologie eingesetzt werden. In der Neubearbeitung wurden der Psychische und Somatische Befund gründlich überarbeitet. Zudem wurden Zusatzmerkmale als Ergänzung zu den bisherigen Symptomen eingeführt.
Leitfaden zur Erfassung des psychopathologischen Befundes
Erdmann Fähndrich Rolf-Dieter Stieglitz
Halbstrukturiertes Interview anhand des AMDP-Systems 4., überarbeitete und erweiterte Auflage
Erdmann Fähndrich Rolf-Dieter Stieglitz
Leitfaden zur Erfassung des psychopathologischen Befundes Halbstrukturiertes Interview anhand des AMDP-Systems
Diagnostik von Suizidalität
Thomas Forkmann Tobias Teismann Heide Glaesmer
Diagnostik von Suizidalität
Thomas Forkmann Tobias Teismann Heide Glaesmer
Kompendien Psychologische Diagnostik
4., überarb. und erw. Auflage 2016, 135 Seiten, Kleinformat, € 24,95 / CHF 32,50 ISBN 978-3-8017-2727-7 / Auch als E-Book erhältlich
(Reihe: „Kompendien Psychologische Diagnostik“, Band 14). 2016, 162 Seiten, € 24,95 / CHF 32,50 ISBN 978-3-8017-2639-3 / Auch als E-Book erhältlich
Der Interviewleitfaden ist für die Arbeit mit dem AMDP-System entwickelt worden und dient der Erfassung des psychopathologischen Befundes. Die Neubearbeitung berücksichtigt die aktuellen Veränderungen im AMDP-System.
Dieses Buch bietet erstmals für den deutschen Sprachraum einen umfassenden Überblick über diagnostische Techniken und Instrumente zur Erfassung von Suizidalität und stellt somit ein wichtiges Nachschlagewerk für die diagnostische Praxis dar.
www.hogrefe.de