Jahrgang 64 / Heft 1 / 2018
Diagnostica
Herausgeber Olaf Köller Monika Daseking Johannes Hartig Oliver Lüdtke Franz J. Neyer Franz Petermann Franzis Preckel Florian Schmiedek Oliver Wilhelm
Zeitschrift für Psychologische Diagnostik und Differentielle Psychologie
Jetzt Einführungspreis sichern! Manual
LoMo 3-6
Leistungsinventar zur objektiven Überprüfung der Motorik von 3- bis 6-Jährigen
LoMo 3-6
Leistungsinventar zur objektiven Überprüfung der Motorik von 3- bis 6-Jährigen J. Jaščenoka / F. Petermann
Julia Jaščenoka Franz Petermann
Test komplett** bestehend aus: Manual, Durchführungsanleitung A + B, 25 Elternfragebogen A + B, 25 Protokollbogen A + B, 25 Auswertebogen A + B, Schablonensatz, Kopiervorlagen, Testbox für Printmaterialien, Materialset (bestehend aus Stoppuhr, Kinderschere, 5 Kunststofftaler, 3 kleine rote und 3 große blaue Perlen mit Schnur, Seil, Deckel, Schraube und Mutter, Kunststoffbecher, Tennisball, Männchen), graue Unterlage, 2 Bodenmatten, 6 Pylonen, Zielscheibe, Großer Schaumstoffball und Testbox
Jetzt d en un l l e t s * be
,– € 9a0ren! sp
Einsatzbereich: Das LoMo 3-6 unterstützt Ärzte und Therapeuten bei der Beurteilung des motorischen Entwicklungsstandes von Kindergarten- und Vorschulkindern. Er kann insbesondere dann eingesetzt werden, wenn der Verdacht auf eine umschriebene Entwicklungsstörung der motorischen Funktionen (UEMF) besteht. Leitliniengetreu (nach AWMF) können mit Ausnahme der medizinischen Beurteilung alle Diagnosekriterien einer UEMF überprüft werden. Das Verfahren: Es liegen zwei Testversionen für die Altersgruppe 3;0 bis 4;5 Jahre (Version A) und für die Altersgruppe 4;6 bis 6;11 Jahre (Version B) vor. Version A stellt mit 22 Aufgaben eine verkürzte und leicht modifizierte Variante der Testversion B (32 Aufgaben) dar. Es werden Aufgaben aus den Bereichen der „Hand- und Körpermotorik“ überprüft, die gemeinsam die Gesamtskala „Gesamtmotorik“ bilden. Anhand von Beobachtungen aus der Testsituation kann weiterhin ein Lateralitätsquotient zur Bestimmung der Handpräferenz gebildet werden. Mittels Fragebogen kann ein Gesamtwert zu „Alltäglichen motorischen Aktivitäten“ ermittelt werden. Normen: Es wurden insgesamt 963 Kinder untersucht. Für alle Skalen liegen geschlechtsspezifische und Gesamtaltersnormen in Sechs-Monatsintervallen vor. Bearbeitungsdauer: Testversion A lässt sich in etwa 25 bis 30 Minuten durchführen; für Testversion B werden etwa 35 bis 45 Minuten benötigt. 01 496 01 Test komplett *
Einführungspreis gültig bis 31.05.2018, danach € 840,00. Die Testbestandteile sind auch einzeln erhältlich.
**
www.hogrefe.com
750,00 €
Diagnostica Zeitschrift fĂźr Psychologische Diagnostik und Differentielle Psychologie
Jahrgang 64 / Heft 1 / 2018 Informationsorgan Ăźber psychologische Tests und Untersuchungsmethoden
Herausgeber
Prof. Dr. Olaf Köller, Leibniz-Institut für die Pädagogik der Naturwissenschaften und Mathematik (IPN), Olshausenstraße 62, 24098 Kiel Prof. Dr. Monika Daseking, Universität Bremen, Klinische Psychologie, Grazer Straße 2, 28359 Bremen Prof. Dr. Johannes Hartig, Deutsches Institut für Internationale Forschung, Schloßstraße 29, 60486 Frankfurt am Main Prof. Dr. Oliver Lüdtke, Leibniz-Institut für die Pädagogik der Naturwissenschaften und Mathematik (IPN), Olshausenstraße 62, 24098 Kiel Prof. Dr. Franz J. Neyer, Universität Jena, Fakultät für Sozial- und Verhaltenswissenschaften, Humboldtstraße 11, 07743 Jena Prof. Dr. Franz Petermann, Universität Bremen, Klinische Psychologie, Grazer Straße 2, 28359 Bremen Prof. Dr. Franzis Preckel, Universität Trier, FB I – Psychologie, 54286 Trier Prof. Dr. Florian Schmiedek, Deutsches Institut für Internationale Pädagogische Forschung, Schloßstraße 29, 60486 Frankfurt am Main Prof. Dr. Oliver Wilhelm, Institut für Psychologie und Pädagogik, Universität Ulm, 89069 Ulm
Geschäftsführung
Prof. Dr. Olaf Köller, Kiel (Redaktionsassistenz: Dipl.-Psych. Jennifer Meyer, Melike Ömeroǧ ullan, M. Sc. und Dr. Daniel Schmerse, diagnostica@ipn.uni-kiel.de
Beirat
Prof. Dr. André Beauducel, Bonn Prof. Dr. Peter Borkenau, Halle-Wittenberg Prof. Dr. Boris Egloff, Mainz Prof. Dr. Michael Eid, Berlin Prof. Dr. Gabriele Helga Franke, Magdeburg-Stendal Prof. Dr. Frank Goldhammer, Frankfurt am Main Prof. Dr. Kurt Hahlweg, Braunschweig Prof. Dr. Bettina Hannover, Berlin Prof. Dr. Martin Hautzinger, Tübingen Prof. Dr. Guido Hertel, Münster Prof. Dr. Jürgen Hoyer, Dresden Prof. Dr. Karl Christoph Klauer, Freiburg Prof. Dr. Carl-Walter Kohlmann, Schwäbisch Gmünd Prof. Dr. Roselind Lieb, Basel
Hinweise für Autoren
Die Richtlinien zur Manuskriptgestaltung und Hinweise für Autoren können unter http://www.hogrefe.com/j/dia mit dem Acrobat Reader heruntergeladen werden.
Verlag
Hogrefe Verlag GmbH & Co. KG, Merkelstraße 3, 37085 Göttingen, Postfach 3751, 37027 Göttingen, Tel. 0551 99950 0, Fax 0551 99950 111, verlag@hogrefe.de Redaktion: journals@hogrefe.de, www.hogrefe.de Verleger: Dr. G.-Jürgen Hogrefe
Herstellung
Silke Ludewig, Hogrefe Verlag GmbH & Co. KG, Merkelstraße 3, 37085 Göttingen, Tel. 0551 99950 441, Fax 0551 99950 445
Gesamtherstellung
Konrad Triltsch, Print und digitale Medien GmbH, Johannes-Gutenberg-Straße 1 – 3, 97199 Ochsenfurt-Hohestadt
ISSN
ISSN-L 0012-1924, ISSN-Print 0012-1924, ISSN-Online 2190-622X
Prof. Dr. Jürgen Margraf, Bochum Prof. Dr. Thorsten Meiser, Mannheim Prof. Dr. Aljoscha Neubauer, Graz Prof. Dr. Christoph Perleth, Rostock Prof. Dr. Franzis Preckel, Trier Prof. Dr. Thomas Rammsayer, Bern Prof. Dr. Beatrice Rammstedt, Mannheim Prof. Dr. Rainer Riemann, Bielefeld Prof. Dr. Manfred Schmitt, Landau Prof. Dr. Christiane Spiel, Wien Prof. Dr. Thomas Staufenbiel, Osnabrück Prof. Dr. Elsbeth Stern, Zürich Prof. Dr. Rolf Steyer, Jena Prof. Dr. Hans-Ulrich Wittchen, Dresden
Die Zeitschrift und alle in ihr enthaltenen einzelnen Beiträge und Abbildungen sind urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Alle Rechte, auch das der Übersetzung, vorbehalten. Erscheinungsweise
vierteljährlich
Bezugsbedingungen
Jahresabonnement Institute € 211,– / SFr 265,–; Jahresabonnement Privat € 91,– / SFr 121,–; Einzelheft € 53,– / SFr 69,10 zzgl. Porto- und Versandgebühren (unverbindliche Preisempfehlung). Die Preise verstehen sich in Deutschland inkl. MwSt. und für Lieferungen von Deutschland ins Ausland exkl. MwSt. Das Abonnement verpflichtet zum Bezug eines ganzen Jahrgangs. Das Abonnement verlängert sich, wenn nicht bis 8 Wochen vor Jahresende abbestellt wird. Bei Ausfall der Lieferung durch höhere Gewalt, Streik oder dergleichen ergeben sich hieraus keine Ansprüche auf Lieferung oder Rückzahlung des Bezugsgeldes durch den Verlag. Lieferung erfolgt auf Gefahr des Empfängers. Der Abonnent ist damit einverstanden, dass der Transportdienstleister ggf. den Verlag während der Laufzeit des Abonnements über eine Anschriftenänderung informiert. Ist er nicht damit einverstanden, hat er dies spätestens zwei Wochen nach Erhalt des ersten Heftes schriftlich dem Verlag mitzuteilen.
Zahlungen
an Hogrefe Verlag GmbH & Co. KG, Merkelstraße 3, 37085 Göttingen Bankverbindung: Deutsche Bank AG, IBAN DE32 2607 0072 0041 1116 00, BIC DEUTDE2H260
Gelistet in
Social Science Citation Index (SSCI), Research Alert, Current Contents/Social & Behavioral Sciences, Social Sci Search, PsycINFO, PsycLit, PsyJOURNALS, PSYNDEX, Scopus, IBZ, IBR und Europ. Reference List for the Humanities (ERIH), Impact Faktor (2016): 1.059
Elektronische Volltexte
http://econtent.hogrefe.com/
Diagnostica (2018), 64 (1)
© 2018 Hogrefe Verlag
Inhalt Editorial
Impact Factor von Diagnostica weiterhin über 1!
1
Olaf Köller Originalarbeiten
Vignettentest zur Erfassung des fachdidaktischen Wissens im Leseunterricht bei angehenden Lehrkräften
2
Assessing Future Teachers’ Pedagogical Content Knowledge in Reading Classes: A Vignette-Based Test Juliane Rutsch und Tobias Dörfler Entwicklung und Validierung einer Kurzversion des Fragebogeninventars für Freizeitinteressen (FIFI-K)
14
Development and Validation of the Short Version of the „Fragebogeninventar für Freizeitinteressen” (FIFI-K) Amelie Nikstat, Angelina Höft, Jessica Lehnhardt, Stephanie Hofmann und Christian Kandler Fehlbelastungen im Studium. Befunde zur Reliabilität und Validität einer studentischen Irritationsskala
26
Strains at University: Reliability and Validity of a Student Irritation Scale Anette Hiemisch, Alexandra Armbrust und Julia Gröger Das Eltern-Belastungs-Inventar (EBI). Einsatz und Nutzen in der Kinderund Jugendpsychiatrie und -psychotherapie
37
The Eltern-Belastungs-Inventar (EBI): Use and Benefit in Mental Health Treatments for Children and Adolescents Viktoria Irlbauer-Müller, Anna Eichler, Johanna A. Donhauser, Nina E. Poehlmann, Mark Stemmler, Gunther H. Moll und Oliver Kratz Softwareinformationen
Diagnostische Tests mit R und knitr. Erstellung, Auswertung und Vorbereitung der Rückmeldung
49
Applying R and knitr for Test Design, Test Analysis, and Score Reporting Christian Spoden und Florian Buchwald Nachrichten Hinweise für Autorinnen und Autoren
© 2018 Hogrefe Verlag
Danksagung
58 59
Diagnostica (2018), 64 (1)
Klare Richtlinien für die Gutachtenerstellung
LGVT 5-12+ Lesegeschwindigkeitsund verständnistest für die Klassen 5-12+ 2., erweiterte und neu normierte Auflage W. Schneider / M. Schlagmüller / N. Ennemoser Reihe: Hogrefe Schultests Hrsg. von M. Hasselhorn / W. Schneider / U. Trautwein Einsatzbereich: Anwendbar als Gruppen- und Einzeltest, z. B. für Förderdiagnosen und Lernverlaufsmessungen. Das Verfahren: Die Aufgabe besteht darin einen Fließtext zu lesen und innerhalb einer fest vorgegebenen Bearbeitungszeit an maximal 47 Textstellen auszuwählen welches von drei vorgegebenen Wörtern am besten in den Sinnzusammenhang passt. Die Anzahl der gelesenen Wörter, die Anzahl der korrekten Lösungen (ratekorrigiert) und schließlich das Verhältnis zwischen bearbeiteten und korrekt gelösten Items werden als Kennwerte für Lesegeschwindigkeit, Leseverständnis und Lesegenauigkeit herangezogen. Das Verfahren wurde gegenüber dem früheren LGVT 6-12 grundlegend erweitert, überarbeitet und neu normiert. Der bisherige Text wurde um zwei Paralleltexte ergänzt, so dass nun auch Mehrfachtestungen zur Dokumentation von Entwicklungsverläufen möglich sind. Ferner wurde durch die Erhöhung der Itemdichte und die verlängerte Testzeit eine sehr viel bessere Differenzierung im unteren Leistungsbereich erreicht, wodurch der Test nun auch in der 5. Klassenstufe einsetzbar ist. Bearbeitungsdauer: Die Testdurchführung erfordert ca. 10-15 Minuten. Die reine Testzeit beträgt 6 Minuten.
01 488 01 Test komplett
www.hogrefe.com
98,00 €
René T. Proyer / Tuulia M. Ortner
Praxis der Psychologischen Gutachtenerstellung Schritte vom Deckblatt bis zum Anhang 2., überarb. Aufl. 2017. 208 S., 2 Abb., 8 Tab., Kt € 29,95 / CHF 39.90 ISBN 978-3-456-85755-8 Auch als eBook erhältlich Das vorliegende Buch liefert klare Richtlinien, wie die Nachvollziehbarkeit eines fachgerechten Psychologischen Gutachtens erreicht werden kann. Ausgehend von der Fragestellung und dem Deckblatt werden Anforderungen und Hypothesen, die Auswahl diagnostischer Verfahren, das diagnostische Gespräch, die Ergebnisdarstellung in Bezug auf verschiedene Verfahrensklassen, Stellungnahme, Entscheidung und zuletzt Empfehlung (Intervention) thematisiert.
www.hogrefe.com
Editorial Impact Factor von Diagnostica weiterhin über 1! Olaf Köller Im Namen der gesamten Herausgebergruppe wünsche ich den Leserinnen und Lesern von Diagnostica mit dem Erscheinen des Heftes 1/2018 alles Gute für das neue Jahr und drücke die Daumen, dass Ihnen das Jahr 2018 die erhofften Forschungserträge bringen wird. Diagnostica geht ins 64. Jahr und hat von ihrer Attraktivität für Autorinnen und Autoren sowie Leserinnen und Leser nichts eingebüßt. Wir haben nach wie vor sehr viele Einreichungen, die angesichts des begrenzten Volumens der Hefte ein strenges Begutachtungssystem zur Folge haben. Im abgelaufenen Jahr 2017 war die Zahl der Einreichungen wieder so hoch, dass wir viele durchaus gute Manuskripte ablehnen mussten und aktuell bei einer Annahmequote von ca. 25 % liegen. Die Zahl der Manuskripte, die in der ersten Begutachtungsrunde akzeptiert werden, ist sehr gering (deutlich unter 20 %) und signalisiert die hohen Qualitätsstandards, die wir an Beiträge anlegen. Diagnostica verzichtet schon seit langem darauf, das Editorial zu Jahresanfang zur artifiziellen Erhöhung des eigenen Impact-Factors zu nutzen. Als Folge bekommen wir ein realistisches Bild über die Zitationsquoten der bei uns publizierten Arbeiten. Der Journal Citation Report in
© 2018 Hogrefe Verlag
seiner aktuellen Version (2016) berichtet einen Faktor von 1.095, was nach wie vor sehr zufriedenstellend ist (2010: 0.732; 2011: 0.721; 2012: 0.860; 2013: 0.771; 2014: 1.057; 2015: 1.265). Damit ist sichergestellt, dass die qualitativ hochwertigen Arbeiten in unserer Zeitschrift nicht nur viel gelesen, sondern auch regelmäßig und steigend zitiert werden. Dies mag weiterhin Ansporn für die Autorinnen und Autoren sein, ihre besten deutschsprachigen Arbeiten im Bereich der Diagnostischen und Differenziellen Psychologie bei Diagnostica einzureichen. Für das neue Jahr möchte ich auch Ergänzungen in der Herausgeberschaft verkünden. Mit Franzis Preckel ist es uns gelungen, eine ausgewiesene Kollegin im Bereich der Intelligenzdiagnostik zu gewinnen, die sich vor allem mit ihren Arbeiten im Rahmen der Hochbegabungsforschung einen Namen gemacht hat. Weiterhin konnten wir Monika Daseking gewinnen, die mit ihrer Expertise in der klinischpsychologischen Diagnostik die Diagnostica unterstützen wird. Olaf Köller Geschäftsführender Herausgeber
Diagnostica (2018), 64 (1), 1 https://doi.org/10.1026/0012-1924/a000197
Originalarbeit
Vignettentest zur Erfassung des fachdidaktischen Wissens im Leseunterricht bei angehenden Lehrkräften Juliane Rutsch und Tobias Dörfler Zusammenfassung: Es wird ein standardisiertes vignettenbasiertes Testverfahren zur Erfassung des fachdidaktischen Wissens im Leseunterricht bei angehenden Lehrkräften vorgestellt. Basierend auf Evidenzen der lesedidaktischen und kognitionspsychologischen Forschung wurden hierzu Unterrichtsvignetten erstellt. In diesen Vignetten werden authentische Situationen aus dem Leseunterricht beschrieben, die hinsichtlich einer fachdidaktisch relevanten Fragestellung in einem geschlossenen Antwortformat bewertet wurden. Das Testinstrument wurde 576 Deutschlehramtsstudierenden aller Semester vorgelegt (Alter: M = 23.08 Jahre, SD = 3.32). Der Vignettentest wurde mit dem Partial Credit Modell skaliert. Die Analysen zur Datenstruktur sprechen für ein eindimensionales Modell des fachdidaktischen Wissens im Leseunterricht; die Infit- und Outfitstatistiken für die verbleibenden Vignetten weisen auf eine gute Passung der Vignetten zum Modell hin (Werte zwischen 0.98 und 1.00, alle p ≤ .05 für alle Modelle). Die Verteilung der Itemkategorieschwellen und der Personenparameter werden graphisch illustriert. Die Ergebnisse zur Datenstruktur und zur Skalierung sind als vielversprechend zu bezeichnen und sollen in nachfolgenden (längsschnittlichen) Analysen ergänzt und präzisiert werden. Schlüsselwörter: Vignettentest, fachdidaktisches Wissen, Lesedidaktik
Assessing Future Teachers’ Pedagogical Content Knowledge in Reading Classes: A Vignette-Based Test Abstract: A standardized test to assess the pedagogical content knowledge of pre-service teachers in the reading domain is introduced. Based on findings in cognitive psychology and reading research, so-called vignettes were constructed. These vignettes describe authentic situations in reading classes that were rated by pre-service teachers using closed-ended questions in a rating scale format. Thus, vignette testing should allow for a situated assessment of pedagogical content knowledge in the reading domain. Empirical evidence from mathematics and natural sciences supports the assumption that vignette testing is appropriate for assessing pedagogical content knowledge. Since equivalent findings are still missing in reading research, this study aimed at closing this gap. The sample of the main study comprised 576 pre-service teachers (age: M = 23.08 years, SD = 3.32). The vignette test was scaled using the partial credit model. The analyses of the data structure support a one-dimensional model and the infit and outfit indices for the vignettes are good (values between 0.98 and 1.00, all p values ≤ .05); the distributions of person abilities and item difficulties are illustrated graphically. The results on the psychometric properties of the vignette test appear to be promising and should therefore be complemented and specified in further (longitudinal) studies. Keywords: vignette-based testing, pedagogical content knowledge, reading didactics
Theoretischer Hintergrund Der Lesekompetenz fällt in den meisten Bereichen des heutigen gesellschaftlichen Lebens eine zentrale Bedeutung zu. Neben der bloßen Fähigkeit, die Schriftsprache zu verstehen und ihr Fakten und Informationen zu entnehmen, werden auch kulturelle Werte und Inhalte über sie transportiert (Artelt, Stanat, Schneider, Schiefele &
Lehmann, 2004; Steck, 2009). Des Weiteren ist die Fähigkeit, Texte zu verstehen, eine wichtige Schlüsselqualifikation für den schulischen und beruflichen Erfolg. Schulleistungsuntersuchungen belegen jedoch, dass vergleichsweise viele Kinder und Jugendliche in Deutschland eine eingeschränkte Lesekompetenz aufweisen (Bos, Tarelli, Bremerich-Vos & Schwippert, 2012; Hohn, SchiepeTiska, Sälzer & Artelt, 2013). Zudem kann festgestellt
Diese Veröffentlichung wurde durch Sachbeihilfen des Landes Baden-Württemberg sowie der Pädagogischen Hochschulen Heidelberg und Ludwigsburg im Rahmen des Forschungs- und Nachwuchskollegs „Effektive Kompetenzdiagnose in der Lehrerbildung (EKoL)“ ermöglicht. Diagnostica (2018), 64 (1), 2–13 https://doi.org/10.1026/0012-1924/a000188
© 2017 Hogrefe Verlag
J. Rutsch und T. Dörfler, Vignettentest für den Bereich der Lesedidaktik
werden, dass sich der Anteil an schwachen Leserinnen und Lesern seit Beginn des systematischen Bildungsmonitorings in Deutschland nicht statistisch bedeutsam verändert hat (Prenzel, Sälzer, Klieme & Köller, 2013). Daher stellt die Förderung der Lesekompetenz von Schülerinnen und Schülern ein zentrales Anliegen in allen Schulfächern dar (Artelt & Dörfler, 2010). Im wissenschaftlichen und bildungspolitischen Diskurs sollte zudem verstärkt problematisiert werden, wie eine angemessene Förderung der Lesekompetenz im Rahmen des schulischen Unterrichts gelingen kann. Neben der Entwicklung und Evaluierung von systematischen Leseförderprogrammen (McElvany & Artelt, 2009; Rosebrock & Nix, 2014) verspricht die umfassende Schulung von (angehenden) Lehrkräften hinsichtlich lesedidaktischer Fähigkeiten und Kenntnisse einen weiteren – für das Schulsystem nachhaltigeren – Ansatzpunkt zur Verbesserung der Lesekompetenz von Schülerinnen und Schülern (Harnischfeger & Wiley, 1977; McElvany & Ohle, 2015).
Professionelles Wissen von Lehrkräften Die Arbeitsgruppe des Forschungsprojekts „Professionswissen von Lehrkräften, kognitiv aktivierender Mathematikunterricht und die Entwicklung mathematischer Kompetenz“ (COACTIV) hat ein viel rezipiertes theoretisches Strukturmodell der professionellen Kompetenz von Lehrkräften vorgelegt (Baumert & Kunter, 2011; Voss, Kunina-Habenicht, Hoehne & Kunter, 2015). Es wird hierin angenommen, dass sich die professionelle Kompetenz von Lehrkräften aus verschiedenen kognitiven und affektiven Teilkompetenzen zusammensetzt, die als bedeutsam für ein erfolgreiches Lehrerhandeln gelten: Überzeugungen / Werthaltungen / Ziele, Motivationale Orientierungen, Selbstregulation und Professionswissen (Kunter et al., 2011). Bezüglich des Professionswissens von Lehrkräften hat sich die theoretische Taxonomie von Shulman (1986, 1987) im wissenschaftlichen Diskurs bewährt und durchgesetzt. Shulman unterscheidet vorrangig drei inhaltliche professionelle Wissensdomänen von Lehrkräften, die sich über die Zeit der Ausbildung und mit zunehmender Berufserfahrung entwickeln sollen: das Fachwissen, das pädagogisch-psychologische Wissen und das fachdidaktische Wissen. Aufgrund der aktuellen Befundlage in der empirischen Bildungsforschung kann davon ausgegangen werden, dass das professionelle Wissen von Lehrkräften in bedeutsamer Weise zum Output des Bildungssystems beiträgt (Baumert & Kunter, 2013). Pädagogisch-psychologisches Wissen umfasst nach Shulman (1987) allgemeine pädagogische Wissensinhalte und Fertigkeiten von Lehrkräften wie beispielsweise Klas© 2017 Hogrefe Verlag
3
senführung. Dieses wird als fächerübergreifender Wissensinhalt konzeptualisiert. Fachwissen versteht Shulman (1987) als konkretes domänenspezifisches fachliches Wissen, das Lehrkräfte über die Zeit ihrer Ausbildung hinweg erwerben (sollen). Das Vorhandensein eines ausreichenden Maßes an Fachwissen gilt als Voraussetzung für die Entwicklung des fachdidaktischen Wissens (Baumert & Kunter, 2006; Özden, 2008; Shulman, 1987). Fachdidaktisches Wissen versteht Shulman schließlich als eine Verschmelzung von pädagogisch-psychologischem Wissen und Fachwissen; dies gilt für das professionelle und effiziente Handeln von Lehrkräften in besonderem Maße als bedeutsam (Voss et al., 2015). Das Konzept des fachdidaktischen Wissens von Lehrkräften wurde und wird national und international vielfach diskutiert und beforscht (Borowski & Riese, 2010; Depaepe, Verschaffel & Kelchtermans, 2013). Insbesondere das fachdidaktische Wissen bedingt die Unterrichtsqualität und − infolgedessen − die Schülerleistungen (im Fach Mathematik u. a. Baumert et al., 2010; Kunter et al., 2013). Für den Fachbereich Deutsch ist bislang nicht geklärt worden, inwiefern professionelle Wissensinhalte, wie beispielsweise das in der vorliegenden Studie fokussierte fachdidaktische Wissen, einen Einfluss auf die Schülerleistung nehmen (McElvany & Schneider, 2009). Des Weiteren ist die Struktur und die Entwicklung des fachdidaktischen Wissens angehender Deutschlehrkräfte bisher noch wenig untersucht (Kunze, 2004). Um Ansatzpunkte zur Verbesserung der Lesekompetenz deutscher Schülerinnen und Schüler auszuloten, lohnt es sich daher, die (angehenden) Deutschlehrkräfte zu untersuchen und das fachdidaktische Wissen sowie dessen Entwicklung im Fach Deutsch intensiver zu erforschen.
Erfassung des fachdidaktischen Wissens von Lehrkräften Neben klassischen Testformaten wie Multiple-ChoiceItems (z. B. Blömeke, Kaiser & Lehmann, 2010) hat sich bei der Erfassung des fachdidaktischen Wissens von (angehenden) Lehrkräften in empirischen Studien ein weiteres Testformat bewährt, der sogenannte Vignettentest (Brovelli, Bölsterli, Rehm & Wilhelm, 2013; König, 2015; Neuweg, 2015). Ein Vignettentest besteht aus mehreren unterrichtsnahen, authentischen Situationsbeschreibungen (Vignetten), die von den Probandinnen und Probanden in einem offenen (Kunter et al., 2011) oder geschlossenen (Tepner & Dollny, 2014) Antwortformat bewertet werden sollen (sog. „advokatorischer Ansatz“, vgl. Heinzer & Oser, 2013; Oser, Curcio & Düggeli, 2007). Verschiedene Studien haben gezeigt, dass sich mithilfe von Vignettentests im Bereich Mathematik und den NaDiagnostica (2018), 64 (1), 2–13
4
J. Rutsch und T. Dörfler, Vignettentest für den Bereich der Lesedidaktik
turwissenschaften eine Zunahme an fachdidaktischem Wissen im Laufe des Studiums (Baer et al., 2007) beziehungsweise des Referendariats abbilden lässt (Voss, Kunter & Baumert, 2011). Durch die Präsentation von praxisnahen Unterrichtssituationen gilt dieses Testformat in besonderem Maße als ökologisch valide (Baer et al., 2007; Seidel, Blomberg & Stürmer, 2010). Das Format Vignettentest wurde darüber hinaus zur Erfassung von pädagogisch-psychologischem Wissen (Voss et al., 2011) sowie der professionellen Unterrichtswahrnehmung (Steffensky, Gold, Holdynski & Möller, 2015; Stürmer & Seidel, 2015) erfolgreich umgesetzt.
Forschungsdesiderat Anschließend an Vorarbeiten aus dem Bereich Mathematik wird erwartet, dass das fachdidaktische Wissen von Lehrkräften auch im Leseunterricht Einfluss auf die Unterrichtsqualität und (darüber mediiert) auf die Lesekompetenz der Schülerinnen und Schüler nimmt (Baumert et al., 2010; Kunter et al., 2013). Es ist anzunehmen, dass (angehende) Lehrkräfte angemessener auf die Schülerinnen und Schüler eingehen können, wenn sie über ein höheres Ausmaß an lesedidaktischem Wissen und Können verfügen (Harnischfeger & Wiley, 1977; McElvany & Ohle, 2015). Empirische Arbeiten zur Entwicklung von professionellen Wissensinhalten von (angehenden) Lehrkräften und deren Einfluss auf die individuelle Schulleistungsentwicklung der Schülerinnen und Schüler im Bereich der sprachlichen Fächer sind allerdings bislang begrenzt (Herzmann & König, 2016). Für den Bereich Deutsch berichten Bremerich-Vos und Dämmer (2013) für ihre Skala zur fachdidaktischen Wissensdimension Literaturdidaktik (M = 50, SD = 10) bei Deutschlehramtsstudierenden einen marginal signifikanten Anstieg von 49 auf 52 Testpunkte im Zeitraum von einem Jahr (p = .05). Es gilt daher diese ersten empirischen Evidenzen zum fachdidaktischen Wissen im Bereich der Lesedidaktik durch weitere Untersuchungen zu ergänzen. Hierzu wurde in der vorliegenden Studie ein Vignettentest mit ausschließlich geschlossenem Antwortformat erstellt. So soll eine umfangreiche Untersuchung des lesedidaktischen Wissens über das Studium hinweg durch eine ökonomische Datenauswertung ermöglicht werden. Darüber hinaus wird das lesedidaktische Wissen durch den Einsatz von Unterrichtsvignetten situiert und kontextualisiert erfasst (König, 2015; König, Blömeke, Suhl, Döhrmann & Hoth, 2015; Neuweg, 2015). Das zentrale Ziel dieser Studie ist es, die Eignung eines vignettenbasierten Testverfahrens mit geschlossenem Antwortformat für den Bereich der Lesedidaktik zu überprüfen: Hierzu werden einerseits die inhaltliche Eignung Diagnostica (2018), 64 (1), 2–13
der Testaufgaben durch Expertinnen- und Expertenratings untersucht, andererseits die Reliabilität und die Validität der erzielten Testwerte, zum Beispiel durch die Prüfung der Faktorenstruktur des Tests und Analysen zum sogenannten Differentiellen Itemfunktionieren (Differential Item Functioning, DIF).
Testentwicklung Zunächst wurde aus der Literatur ein theoretisches Strukturmodell des lesedidaktischen Wissens abgeleitet, das als Grundlage für die Testentwicklung herangezogen wurde. Shulman (1986) hebt zwei Facetten des fachdidaktischen Wissens besonders hervor: (a) das Wissen über Erklären und Darstellen und (b) das Wissen über fachbezogene Kognitionen der Schülerinnen und Schüler. Diese Annahme zweier zentraler Kernbereiche des fachdidaktischen Wissens hat eine Vielzahl von nachfolgenden Autoren unterstützt (u. a. Kind, 2009; Park & Oliver, 2008; van Dijk & Kattmann, 2010). In dieser Tradition werden auch für das fachdidaktische Wissen im Leseunterricht zwei Facetten angenommen: Die erste Facette Förderwissen / Intervention ist an Shulmans (1986) Facette „Wissen über Erklären und Darstellen“ angelehnt und rekurriert auf das aktive fachdidaktische Handeln einer Lehrperson im Leseunterricht (siehe Beispielvignette im elektronischen Supplement 1). Verschiedene Autorinnen und Autoren haben Fördermöglichkeiten für eine Steigerung der Lesekompetenz im Unterricht beschrieben und untersucht (Artelt & Dörfler, 2010; McElvany & Ohle, 2015; Rosebrock & Nix, 2014; Streblow, 2004). Prominente Ansätze beinhalten die Förderung von (meta‐)kognitiven Lesestrategien (Carretti, Caldarola, Tencati & Cornoldi, 2014; Lenhard, Baier, Endlich, Schneider & Hoffmann, 2013), die Förderung der Leseflüssigkeit (Fuchs, Fuchs, Hosp & Jenkings, 2001; Rasinski, 2005) und die Förderung der Lesemotivation (Deci & Ryan, 1985; Mucherah & Ambrose-Stahl, 2014). Zuverlässiges Diagnostizieren von individuellen Schulleistungen gilt gemeinhin als zentrales Merkmal von Lehrerinnen- und Lehrerexpertise (Helmke, 2015). Die zweite Facette Diagnose/ Inhaltswissen ist an Shulmans (1986) Facette „Wissen über fachbezogene Schülerkognitionen“ angelehnt und meint das inhaltsbezogene fachdidaktische Wissen und Können von Lehrkräften. Diese Facette beschreibt die Fähigkeit der Lehrkraft, Lese- und Verstehensleistungen von Schülerinnen und Schülern korrekt einschätzen zu können. Eine Voraussetzung hierfür ist die Kenntnis über Kognitionen von Schülerinnen und Schülern bezüglich des Leseprozesses und seiner Determinanten. So kann bei Deutschlehrkräften teilweise ein mangelndes Wissen über Aufgabenmerkmale und ange© 2017 Hogrefe Verlag
J. Rutsch und T. Dörfler, Vignettentest für den Bereich der Lesedidaktik
messene Anforderungsniveaus festgestellt werden (Artelt et al., 2004). Zudem ist das Wissen über schwierigkeitsgenerierende Textmerkmale bedeutsam für den lesedidaktischen Unterricht (Bertschi-Kaufmann & Graber, 2007). Diese Facette adressiert nicht das theoretische Wissen von Lehrkräften über das Diagnostizieren von individuellen Schulleistungen, sondern handlungsnahe diagnostische Fähigkeiten. Letztere sollen über das Vignettenformat erfassbar gemacht werden (siehe Beispielvignette im elektronischen Supplement 2). Basierend auf diesem zweidimensionalen Strukturmodell des lesedidaktischen Wissens wurden 31 Unterrichtsvignetten erstellt, die sich auf Inhalte im Leseunterricht der Sekundarstufe I beziehen. Zu jeder Vignette werden eine fachdidaktisch relevante Fragestellung sowie Handlungsalternativen (Items) präsentiert, die umschreiben, wie die fiktive Lehrkraft in der beschriebenen Unterrichtssituation reagieren beziehungsweise den Unterricht fortführen könnte. Diese Items sollen von den Probandinnen und Probanden auf einer sechsstufigen LikertSkala eingeschätzt werden (1 = Trifft überhaupt nicht zu bis 6 = Trifft voll und ganz zu). Die Inhalte der Vignetten orientieren sich an den baden-württembergischen Bildungsplänen für die Werkrealschule (Ministerium für Kultus, Jugend und Sport Baden-Württemberg, 2012) und die Realschule (Ministerium für Kultus, Jugend und Sport Baden-Württemberg, 2004) sowie an evaluierten Leseförderprogrammen für Schülerinnen und Schüler (National Reading Panel, 2000; Rosebrock & Nix, 2014).
Methode Erstellung der Auswertungsnorm Für fachdidaktische Fragestellungen ist es häufig schwierig, eine eindeutig richtige beziehungsweise falsche Lösung aus der Literatur abzuleiten (Schmelzing, Wüsten, Sandmann & Neuhaus, 2008). Um eine Auswertungsnorm für die Lesevignetten mit geschlossenem Antwortformat zu generieren, wurden diese daher einer Gruppe von Expertinnen und Experten zur Bearbeitung vorgelegt (Beschreibung des Vorgehens siehe Abschnitt Überprüfung der inhaltlichen Eignung der Testaufgaben). Diesem Vorgehen liegt die Annahme zu Grunde, dass das durchschnittliche Expertinnen- und Expertenurteil als optimale Lösung für eine Vignette verstanden werden kann (sog. aggregierter Experte) (Krauss et al., 2008; Oser & Forster-Heinzer, 2015; Seidel et al., 2010). Zur Erstellung der Auswertungsnorm wurden nach der z-Standardisierung (zur Vermeidung von Antwortten© 2017 Hogrefe Verlag
5
denzen) der Rohwerte auf der sechsstufigen Likert-Skala innerhalb der jeweiligen Vignette Itemrelationen (auch: Paarvergleiche) zwischen den Items gebildet (Artelt & Gräsel, 2009; Tepner & Dollny, 2014). Aus den z-standardisierten Itembewertungen der Studierenden wurden ebenfalls Paarvergleiche gebildet. Um Testpunkte zu vergeben, werden nun die Itemrelationen der Expertennorm mit den Itemrelationen der Studierenden verglichen. Für eine korrekt gebildete Itemrelation erhält der beziehungsweise die Studierende einen Punkt, ansonsten 0 Punkte. Dabei sind keine absoluten Treffer bei den Studierenden notwendig, sie müssen lediglich die Items in äquivalenter Relation zueinander bewerten wie der aggregierte Experte, um einen Punkt zu erhalten (vgl. Abbildung 1). Die gebildeten Itemrelationen werden anschließend pro Vignette addiert, sodass für jede Vignette ein Vignettensummenscore resultiert. Dieses Vorgehen bezeichnen Cook, Dodd und Fitzpatrick (1999) als scorebasierten Ansatz, der es ermöglicht, methodisch mit einer erwarteten Testletstruktur umzugehen (Bühner, 2011; Wainer & Kiely, 1987). Eine Testletstruktur liegt dann vor, wenn Items innerhalb eines Testinstruments gruppiert vorliegen (hier: Items, die sich auf eine Vignette beziehen) und aufgrund dessen eine inhaltliche sowie statistische Abhängigkeit aufweisen. Die statistische Modellierung der Testletstruktur wird im Ergebnisteil beschrieben.
Überprüfung der inhaltlichen Eignung der Testaufgaben Die inhaltliche Eignung der Vignetten wurde durch eine mehrstufige Befragung von Expertinnen und Experten aus Forschung und Praxis sichergestellt. Dabei wurde darauf geachtet, verschiedene Expertisegruppen in den Auswahlprozess miteinzubeziehen. Zunächst wurden die 31 ursprünglich erstellten Vignetten Lehrbeauftragten an staatlichen Seminaren für Lehrerbildung in einem halb-standardisierten Interview vorgelegt (N = 7; Alter: wurde im Interview nicht abgefragt, 72 % weiblich). Mithilfe der qualitativen Interviews sollten die Vignetten inhaltlich und fachdidaktisch geschärft werden. Eine Vignette wurde ausgeschlossen. Anschließend wurde eine umfangreiche quantitative Expertinnen- und Expertenbefragung (Personen, die sich in ihrer Haupttätigkeit wissenschaftlich oder praktisch mit Leseforschung und / oder Lesedidaktik beschäftigen, N = 87; Alter: M = 46.54 Jahre, SD = 10.59, 64 % weiblich, Rücklaufquote: 22 %, Rekrutierung per E-Mail) sowie eine Pilotstudie mit Deutschlehramtsstudierenden (N = 35, Alter: M = 23.97, SD = 3.03, 91 % weiblich) durchgeführt. Basierend darauf wurden die 12 geeignetsten Vignetten für das Testinstrument ausgewählt. Die 12 Diagnostica (2018), 64 (1), 2–13
6
J. Rutsch und T. Dörfler, Vignettentest für den Bereich der Lesedidaktik
Anmerkungen: Im oberen Bereich der Abbildung ist schematisch eine Unterrichtsvignette dargestellt. Es ist zu sehen, wie die Items 1 – 5 von der Expertinnenund Expertengruppe (schwarze Dreiecke) und einer Probandin beziehungsweise einem Probanden (graue Dreiecke) bewertet wurden. Unter „Bildung der Itemrelationen und Vergleich mit den Studierendenantworten“ ist dargestellt, wie die Itemrelationen der Expertennorm mit den Itemrelationen der Probandin beziehungsweise des Probanden verglichen werden. Unter „Vergabe der Testpunkte anhand der Itemrelationen“ ist dargestellt, dass die Probandin beziehungsweise der Proband bei korrekt gebildeter Itemrelation einen Punkt erhält, ansonsten 0 Punkte. Die Punkte, die für die gebildeten Itemrelationen vergeben wurden, werden addiert, sodass ein Vignettensummenscore resultiert. Bei der Punktvergabe für die Vignetten wird also bewertet, ob die Studierenden verschiedene konkurrierende Handlungsalternativen gegeneinander abwägen können und nicht, ob diese einen bestimmten Punktwert auf der Likert-Skala ankreuzen.
Abbildung 1. Exemplarische Punktvergabe für eine Vignette anhand der Expertennorm.
Vignetten wurden auf einer sechsstufigen Skala (1 = Trifft überhaupt nicht zu bis 6 = Trifft voll und ganz zu) durchgängig als fachdidaktisch relevant (M = 5.44, SD = 0.82), eindeutig (M = 5.3, SD = 1.02) und nahe am Unterrichtsalltag (M = .24, SD = 0.94) eingeschätzt (siehe elektronisches Supplement 3). Für die Generierung der Auswertungsnorm wurde abschließend eine Expertinnen- und Expertenbefragung durchgeführt (Personen, die einschlägig im Bereich der Leseforschung veröffentlicht haben, N = 10, Alter: M = 47.10 Jahre, SD = 7.53, weiblich = 30 %, Rücklauf: 67 %, Rekrutierung per E-Mail). Die Einheitlichkeit, mit der die Expertinnen und Experten die Items der Unterrichtsvignetten beurteilt haben, wurde anhand des IntraklassenKorrelationskoeffizienten (ICC) untersucht. Der Wert von Diagnostica (2018), 64 (1), 2–13
r = .87 (p ≤ .05, 95 % ‐ Konfidenzintervall zwischen .82 und .92) spricht für eine zufriedenstellende Übereinstimmung zwischen den Expertinnen und Experten (Wirtz & Caspar, 2002). Daher kann davon ausgegangen werden, dass mithilfe dieser Testaufgaben valide Testwerte für das fachdidaktische Wissen im Leseunterricht erzielt werden können (American Educational Research Association, 2014; Messick, 1989).
Stichprobe Der Vignettentest wurde 576 Deutschlehramtsstudierenden aller Semester sowie Referendarinnen und Referendaren mit dem Fach Deutsch vorgelegt (Alter: © 2017 Hogrefe Verlag
J. Rutsch und T. Dörfler, Vignettentest für den Bereich der Lesedidaktik
M = 23.08 Jahre, SD = 3.32, 88 % weiblich). Die Befragung der Studierenden fand im Rahmen von regulären Seminaren beziehungsweise Vorlesungen statt und erfolgte freiwillig.
Ergebnisse Deskriptive Analysen Zu jeder Unterrichtsvignette gehören zumeist fünf Items (eine Vignette mit vier Items, eine Vignette mit sechs Items). Pro Vignette mit fünf Items können daher zehn Itemrelationen gebildet werden, sodass der Vignettenscore 11 Ausprägungen (0 bis 10 Punkte) annehmen kann. Eine 11-stufige Gliederung des zugrundeliegenden latenten Konstrukts lesedidaktisches Wissen ist allerdings wenig sinnvoll; es ist äußerst schwierig, zwischen solch geringen Abstufungen statistisch wie inhaltlich zu differenzieren. Daher sollten breitere Punktkategorien gebildet werden, die mehrere Relationen zusammenfassen. Die Kategorienbildung basiert sowohl auf theoretisch-logischen Überlegungen als auch auf empirischen Beobachtungen. Zunächst ist Folgendes zu überlegen: Wenn eine Probandin beziehungsweise ein Proband die beste (bzw. schlechteste) Handlungsalternative innerhalb einer Vignette erkennt und das Kreuz daher am weitesten rechts (bzw. am weitesten links) auf der Likert-Skala setzt, dann sind automatisch vier Relationen richtig gekreuzt, unabhängig davon, in welcher Anordnung die übrigen Items gekreuzt wurden (siehe Abbildung 1). Das ergibt sich daraus, dass jedes Item mit jedem anderen Item verglichen wird. Es ist plausibel, dass die beste (bzw. die schlechteste) Handlungsalternative für die Studierenden am einfachsten zu erkennen ist. Daher ist es relativ einfach, mindestens vier korrekte Relationen zu generieren. Die erste Punktkategorie 0 Punkte soll daher 0 bis 3 richtig gekreuzte Relationen zusammenfassen. Ein Ergebnis von vier korrekten Relationen ist also in der Regel auf das Erkennen der besten oder der schlechtesten Handlungsalternative zurückzuführen. Um fünf korrekte Relationen zu erreichen, ist nur eine weitere korrekte Relation notwendig. Daher wurden vier und fünf korrekte Relationen in die zweite Kategorie 1 Punkt zusammengefasst. Beim nächsten Schritt zur Kategorienbildung wurde das obere Ende der Skala betrachtet: Nur wer alle Relationen korrekt erkennt, erhält die volle Punktzahl. Da dies als ein sehr schwer zu erreichendes Kriterium erschien (da es dann nur ein einziges Kreuzmuster für die volle Punktzahl gäbe), sollten neun und zehn korrekte Relationen zur höchsten Kategorie 4 Punkte zusammengefasst werden. © 2017 Hogrefe Verlag
7
Die Kategorienbildung von sechs, sieben und acht korrekten Relationen wurde an den empirischen Ergebnissen zur Verteilung der korrekt erreichten Korrelationen orientiert. Resultierend daraus wurde folgende Zuordnung von korrekten Relationen zu Testpunkten festgelegt: 0 – 3 korrekte Relationen ergeben 0 Testpunkte, 4 – 5 korrekte Relationen ergeben einen Testpunkt, 6 – 7 korrekte Relationen ergeben 2 Testpunkte, 8 korrekte Relationen ergeben 3 Testpunkte und 9 – 10 korrekte Relationen ergeben 4 Testpunkte. Die Korrelation von r = .97 (p ≤ .001) zwischen dem ursprünglichen Testscore (0 – 10 Relationen pro Vignette) und dem kategorisierten Testscore (0 – 4 Punkte pro Vignette) weist darauf hin, dass durch die Kategorienbildung kein bedeutsamer Informationsverlust verursacht wurde.
Datenstruktur Zunächst wurde die erwartete Testletstruktur der Daten über das Vorhandensein von lokaler stochastischer Abhängigkeit zwischen den Itemrelationen innerhalb der Vignetten untersucht. Dazu wurde die Q3-Statistik herangezogen (Yen, 1993). Die Q3-Statistik wird jeweils paarweise für die vorliegenden Testitems berechnet; Werte von > │0.2│weisen auf ein Vorhandensein von lokaler stochastischer Abhängigkeit zwischen zwei Testitems hin (Chen & Thissen, 1997; Yen, 1993) In Abbildung 2 ist zu sehen, dass sich 12 dunkel gefärbte Cluster bilden; diese repräsentieren Werte von > 0.2 beziehungsweise < -0.2 und zeigen somit wie erwartet lokale stochastische Abhängigkeit der Relationen innerhalb der Vignetten an. Diese Abhängigkeiten werden durch die Bildung von Vignettensummenscores in den statistischen Analysen berücksichtigt. Zur Überprüfung der Datenstruktur wurde der Vignettentest mit dem R-Paket mirt skaliert (Chalmers, 2015). Zunächst sollte überprüft werden, ob das Partial Credit Modell (PCM; Masters, 1982) oder das weniger restriktive Generalized Partial Credit Modell (GPCM; Muraki, 1992) die Daten besser beschreibt. Der Modellvergleich zeigt eine Überlegenheit des PCM (AIC = 18 064.57, BIC = 18 278.19) gegenüber dem GPCM (AIC = 18 070.43, BIC = 18 332.01), χ² (11, N = 576) = 16.13, p = 0.14. Da es sich beim PCM um eine direkte Erweiterung des Rasch-Modells handelt, gelten im PCM die gleichen Annahmen und Eigenschaften wie im Rasch-Modell wie suffiziente Statistiken und spezifische Objektivität (Embretson & Reise, 2000). Im nächsten Analyseschritt wurde das theoretisch angenommene zweidimensionale Modell gegen ein alternatives eindimensionales Modell getestet. Hier ergibt sich ein signifikant besserer Fit eines eindimensionalen (AIC = Diagnostica (2018), 64 (1), 2–13
8
J. Rutsch und T. Dörfler, Vignettentest für den Bereich der Lesedidaktik
Abbildung 2. Graphische Darstellung der Q3-Statistiken. Die dunkel gefärbten Cluster repräsentieren die Abhängigkeiten zwischen den Itemrelationen innerhalb der zwölf Vignetten.
18 064.57, BIC = 18 278.19) gegenüber dem zweidimensionalen Modell (AIC = 18 136.42, BIC = 18 354.40), χ² (1, N = 576) = -69.86, p = 1.00. Zur Modellgeltungsprüfung werden für Rasch-Modelle in der Regel Tests zum Vorhandensein von DIF eingesetzt (Strobel, 2012). Wenn das Rasch-Modell gilt, dürfen sich die geschätzten Itemparameter nicht systematisch zwischen verschiedenen Gruppen von Personen innerhalb der Stichprobe unterscheiden. DIF konnte in den Daten nicht gefunden werden; für die Variable Geschlecht beispielsweise zeigen die Vignetten kein DIF (LikelihoodQuotienten-Test: χ² (39, N = 576) = 36.35, p = .59; nach Andersen, 1973). Des Weiteren wurde auf Vignettenebene die Infit- und Outfit-Statistik berechnet. Die Werte weisen ausnahmslos auf eine sehr gute Passung der Vignetten zum Modell hin (Werte zwischen 0.98 und 1.00, alle p ≤ .05; Ames & Penfield, 2015). Zur Untersuchung der psychometrischen Eigenschaften der Vignetten wurde eine Person-Item-Karte erstellt (siehe Abbildung 3). Hier kann beobachtet werden, dass die Schwellenparameter innerhalb der Vignetten bezüglich der oberen Punktkategorien teilweise vertauscht sind. In nachfolgenden Analysen könnten daher die Punktkategorien 3 und 4 zusammengefasst werden. Eine ergänzende Darstellung der Verteilungen der Personenfähigkeiten und der Itemschwierigkeiten findet sich im elektronischen Supplement 5; der Graph der Testinformationsfunktion ist im elektronischen Supplement 6 dargestellt. Die geschätzte Varianz des latenten Faktors beträgt 0.33. Die WLE-Reliabilität (IRT-basiertes Reliabilitätsmaß, siehe auch Warm, 1989) des Testverfahrens beträgt .59. Die Schätzung der Retest-Reliabilität in einem Retest-Intervall von vier Wochen (N = 87) beträgt r = .6 (p ≤ .001). Diagnostica (2018), 64 (1), 2–13
Diskussion Das Ziel dieser Studie war es, einen Vignettentest mit geschlossenem Antwortformat zur Erfassung des fachdidaktischen Wissens im Leseunterricht für Lehramtsstudierende zu erstellen und dessen psychometrische Güte zu überprüfen. Die inhaltliche Eignung der Testaufgaben wurde durch eine mehrstufige Befragung von Expertinnen und Experten sichergestellt. Alle Vignetten wurden als fachdidaktisch relevant, eindeutig und nahe am Unterrichtsalltag eingeschätzt, sodass von einer ausreichenden inhaltlichen Eignung der Unterrichtssituationen ausgegangen werden kann. Dieses Vorgehen hat sich bereits in Vorgängerstudien bewährt (König, Blömeke & Schwippert, 2013; Krauss et al., 2011; Tepner & Dollny, 2014). Im Auswahlprozess von geeigneten Vignetten und Items wurde darauf geachtet, dass diese möglichst verschiedene Situationen aus dem Leseunterricht beschreiben, um das Konstrukt lesedidaktisches Wissen möglichst breit abzubilden. Die erwartete Testletstruktur des Vignettentests wurde empirisch bestätigt, sodass die Bildung von Vignettensummenscores als gerechtfertigt angesehen werden kann (Eckes, 2015). Da die Daten durch ein PCM angepasst werden können, gelten für den Vignettentest die gleichen vorteilhaften Eigenschaften wie für das Rasch-Modell, zum Beispiel suffiziente Statistiken für alle Parameter (Embretson & Reise, 2000). Die Analysen zur Datenstruktur zeigen, dass das theoretisch angenommene zweidimensionale Modell die Daten nicht besser beschreiben kann als ein alternatives eindimensionales Modell. Dieses Ergebnis deutet auf die enge Verknüpfung der beiden Wissensbereiche Förderwissen / Intervention und © 2017 Hogrefe Verlag
J. Rutsch und T. Dörfler, Vignettentest für den Bereich der Lesedidaktik
9
Abbildung 3. Person-Item Karte zur Darstellung der Verteilungen der Itemkategorieschwellen und der Personenfähigkeiten. Der schwarze Punkt markiert die mittlere Itemschwierigkeit. * kennzeichnet Vignetten, in denen die Itemkategorieschwellen vertauscht sind.
Diagnose/ Inhaltswissen hin und ist anschlussfähig an Autorinnen und Autoren, die argumentieren, dass Teilkomponenten des fachdidaktischen Wissens von Lehrkräften sehr eng miteinander verbunden sind (Cochran, King & DeRuiter, 1991; Fernández-Balboa & Stiehl, 1995). Eine andere mögliche Erklärung für diesen Befund wäre, dass die Vignetten nicht ausreichend trennscharf konstruiert wurden. Um diese Vermutung zu untersuchen, könnte man Expertinnen und Experten bitten, die Vignetten den beiden anvisierten inhaltlichen Facetten zuzuordnen. So könnten Annahmen über die (inhaltliche) Trennschärfe der Vignetten abgeleitet werden. Bezüglich der Variable Geschlecht und weiterer Merkmale weisen die Vignetten kein DIF auf. Daneben können sehr gute Item-Fit-Indizes beobachtet werden. Die Person-Item-Karte zeigt, dass die Schwellenparameter des PCM in den oberen Kategorien innerhalb mancher Vignetten vertauscht sind. Einige Autoren halten vertauschte Schwellen im PCM hinsichtlich der Modellinterpretation für problematisch (Bühner, 2011; Muraki, 1993). Es wird zum einen argumentiert, dass bei vertauschten Itemschwellen nicht von ordinalen Daten ausgegangen werden könne; zum anderen, dass die Anzahl an Kategorieabstufungen unnötig groß sei, da nicht jede Itemkategorie eindeutig abgebildet werden kann. Andere Autoren argumentieren hingegen, dass vertauschte Itemschwellen nicht zwangsläufig ein Problem für die Modellinterpretation darstellen, da auch empirische Gründe zu © 2017 Hogrefe Verlag
vertauschten Schwellen führen können, beispielsweise selten besetzte Itemkategorien (Adams, Wu & Wilson, 2012; Masters & Wright, 1997). Dies tritt in der vorliegenden Studie teilweise auf (siehe elektronisches Supplement 4). Adams et al. (2012) weisen darauf hin, dass bei vertauschten Itemschwellen gründlich analysiert werden sollte, auf welche Ursache diese zurückzuführen sein könnten. In diesem Zusammenhang ist zu überlegen, ob fünf Kategorien pro Vignette (also maximal vier zu erreichende Punkte) möglicherweise eine immer noch zu feingliedrige Abstufung darstellen. Es könnte sein, dass die Stufen eindeutiger voneinander trennbar wären, wenn man die mittleren Kategorien zusammenfassen und beispielsweise nur maximal zwei Punkte pro Vignette vergeben würde (vgl. Strobel, 2012). Neben der empirischen Ursache könnte es außerdem sein, dass die Lehramtsstudierenden die Unterrichtsvignetten qualitativ anders betrachten und bewerten als die Expertinnen und Experten, die zur Normgewinnung befragt wurden. Daraus könnten ebenfalls vertauschte Itemkategorieschwellen resultieren. In der Forschung zum Expertenwissen aus unterschiedlichen beruflichen Domänen liegen entsprechende Evidenzen vor, dass sich das Wissen von Expertinnen und Experten sowie Novizinnen und Novizen qualitativ voneinander unterscheidet (Krauss & Bruckmeier, 2014; Palmer, Stough, Burdenski Jr. & Gonzales, 2005). Die Ursache der teilweise vertauschten Itemkategorieschwellen kann hier nicht abschließend geklärt werden, sondern Diagnostica (2018), 64 (1), 2–13
10
J. Rutsch und T. Dörfler, Vignettentest für den Bereich der Lesedidaktik
muss anhand nachfolgender empirischer Studien weiter untersucht werden. In der Person-Item-Karte kann darüber hinaus abgelesen werden, dass sich die mittleren Itemschwierigkeiten für die Vignetten alle in einem ähnlichen, leicht überdurchschnittlichen Bereich befinden. Ergänzend dazu zeigt das elektronische Supplement 5 die Verteilung der geschätzten Schwierigkeiten für die einzelnen Itemkategorien. Hier wird deutlich, dass im Bereich um 1 und – in etwas geringerem Ausmaß – im Bereich um -1 die meisten geschätzten Itemparameter liegen. Im mittleren Bereich um 0 wurden kaum Itemparameter geschätzt. Dies ist problematisch, da es offensichtlich kaum Itemkategorien gibt, die im mittleren Fähigkeitsbereich maximal differenzieren (Strobel, 2012). So wird auch in der Testinformationsfunktion im elektronischen Supplement 6 erkennbar, dass der Vignettentest am besten im leicht überdurchschnittlichen Leistungsbereich differenziert. Dieses Ergebnis könnte unter anderem mit der Bildung der Punktkategorien in Zusammenhang stehen und sollte weiterführend untersucht werden, beispielsweise indem eine alternative Punktvergabe durchgeführt wird. Zudem liegt eine eingeschränkte Varianz des latenten Faktors vor. Dies ist möglicherweise dadurch bedingt, dass der Test ursprünglich auf zwei inhaltliche Facetten ausgelegt war und daher mit dem latenten Faktor lesedidaktisches Wissen ein sehr heterogenes Konstrukt erfasst wird. Daneben könnte es weitere Faktoren wie beispielsweise das Fachwissen geben, die bei der Bearbeitung der Testaufgaben eine Rolle spielen, hier jedoch nicht erfasst wurden. Ferner könnte die eingeschränkte Varianz auch dadurch mitverursacht sein, dass kaum Itemparameter im mittleren Schwierigkeitsbereich geschätzt wurden und der Test daher im mittleren Fähigkeitsbereich nur eingeschränkt differenzieren kann. Es erscheint daher lohnenswert, den Test bei berufserfahrenen Lehrkräften einzusetzen und die geschätzte Varianz des latenten Faktors sowie die Differenzierungsfähigkeit der Vignetten in einer solchen Stichprobe zu untersuchen. So könnte es möglicherweise sein, dass die Deutschlehramtsstudierenden über ein (zu) geringes Ausmaß an lesedidaktischem Wissen verfügen und aufgrund dessen eine eingeschränkte Varianz des latenten Faktors sowie eine eingeschränkte Differenzierungsfähigkeit der Testaufgaben im mittleren Fähigkeitsbereich vorliegt. Durch die Verwendung eines offenen Antwortformats könnte bei Deutschlehramtsstudierenden weiterführend untersucht werden, über welches Ausmaß an lesedidaktischem Wissen diese (überhaupt schon) verfügen. Über ein geschlossenes Antwortformat ist dies kaum möglich, da dieses die Handlungsalternativen der Lehrkraft in der Unterrichtssituation vorgibt und somit im Grunde voraussetzt, dass die Studierenden diese eigenständig generieren können. Diagnostica (2018), 64 (1), 2–13
Die WLE-Reliabilität ist mit .59 als eingeschränkt zu bezeichnen, jedoch für Vignettentests zur Erfassung eines eher heterogenen Konstrukts so zu erwarten. Die Schätzung der Retest-Reliabilität in einem Zeitraum von vier Wochen liefert mit einem Wert von .6 einen vergleichbaren Wert, sodass von einer verlässlichen Schätzung der Reliabilität ausgegangen werden kann. Auch andere Autorinnen und Autoren berichten für Skalen zur Erfassung professioneller Wissensinhalte von (angehenden) Deutschlehrkräften vergleichbare Reliabilitätsmaße: Pissarek und Schilcher (2015) berichten für die Aufgabengruppe Fachdidaktik ein Cronbachs α von .68, Bremerich-Vos und Dämmer (2013) finden für die Skala zur Literaturdidaktik eine EAP-Reliabilität von .62.
Fazit und Ausblick Anhand der vorliegenden Ergebnisse kann festgestellt werden, dass das hier vorgestellte vignettenbasierte Testverfahren für den Bereich der Lesedidaktik zufriedenstellende psychometrische Gütekriterien aufweist. Daher kann davon ausgegangen werden, dass dieser fachdidaktisches Wissen im Leseunterricht bei Lehramtsstudierenden akzeptabel erfassen kann. Die Validität der Testwerte soll in anschließenden Untersuchungs- und Analyseschritten überprüft werden: So sollen unter anderem erwartete Zusammenhänge zwischen der Testleistung und der Semesteranzahl, der Anzahl relevanter fachdidaktischer Lerngelegenheiten und der Unterrichtserfahrung untersucht werden. Ferner sollen durch den Einsatz des Testverfahrens in (teilweise) längsschnittlichen Studiendesigns weiterführende empirische Ergebnisse generiert werden, um die ersten Erkenntnisse zu Reliabilität und Validität der Testwerte zu ergänzen und zu präzisieren.
Elektronische Supplemente (ESM) Die elektronischen Supplemente sind mit der OnlineVersion dieses Artikels verfügbar unter https://doi.org/ 10.1026/0012-1924/a000188 ESM 1. Beipielvignette zur Facette „Förderwissen / Intervention“ ESM 2. Beipielvignette zur Facette „Diagnose / Inhaltswissen“ ESM 3. Einschätzung der Vignetten in der quantitativen Expertenbefragung ESM 4. Deskriptive Statistiken der Besetzung der Punktekategorien für die einzelnen Vignetten © 2017 Hogrefe Verlag
J. Rutsch und T. Dörfler, Vignettentest für den Bereich der Lesedidaktik
ESM 5. Darstellung der Verteilung der geschätzten Itemschwierigkeiten für die einzelnen Itemkategorien sowie der Verteilung der geschätzten Personenfähigkeiten ESM 6. Darstellung der Testinformationsfunktion für den Vignettentest
Literatur Adams, R. J., Wu, M. L. & Wilson, M. (2012). The Rasch rating model and the disordered threshold controversy. Educational and Psychological Measurement, 72, 547 – 573. doi:10.1177/ 0013164411432166 American Educational Research Association (2014). Standards for educational and psychological testing. Washington, DC: American Educational Research Association. Ames, A. J. & Penfield, R. D. (2015). An NCME instructional module on item-fit statistics for item response theory models. Educational Measurement: Issues and Practice, 34 (3), 39 – 48. doi:10.1111/emip.12067 Andersen, E. B. (1973). A goodness of fit test for the Rasch model. Psychometrika, 38, 123 – 140. doi: 10.1007/BF02291180 Artelt, C. & Dörfler, T. (2010). Förderung von Lesekompetenz als Aufgabe aller Fächer. Forschungsergebnisse und Anregungen für die Praxis. In H. Ruch (Hrsg.), ProLesen – auf dem Weg zur Leseschule. Leseförderung in den gesellschaftswissenschaftlichen Fächern, Aufsätze und Materialien aus dem KMK-Projekt „ProLesen“ (S. 13 – 36). Donauwörth: Auer. Artelt, C. & Gräsel, C. (2009). Diagnostische Kompetenz von Lehrkräften. Zeitschrift für Pädagogische Psychologie, 23, 157 – 160. doi:10.1024/1010-0652.23.34.157 Artelt, C., Stanat, P., Schneider, W., Schiefele, U. & Lehmann, R. (2004). Die PISA-Studie zur Lesekompetenz: Überblick und weiterführende Analysen. In U. Schiefele, C. Artelt, W. Schneider & P. Stanat (Hrsg.), Struktur, Entwicklung und Förderung von Lesekompetenz. Vertiefende Analysen im Rahmen von PISA 2000 (S. 139 – 168). Wiesbaden: VS Verlag für Sozialwissenschaften. Baer, M., Dörr, G., Fraefel, U., Kocher, M., Küster, O., Larcher, S., Müller, P., Sempert, W. & Wyss, C. (2007). Werden angehende Lehrpersonen durch das Studium kompetenter? Kompetenzaufbau und Standarderreichung in der berufswissenschaftlichen Ausbildung an drei Pädagogischen Hochschulen in der Schweiz und in Deutschland. Unterrichtswissenschaft, 35, 15 – 47. Baumert, J. & Kunter, M. (2006). Stichwort: Professionelle Kompetenz von Lehrkräften. Zeitschrift für Erziehungswissenschaft, 4, 469 – 520. Baumert, J. & Kunter, M. (2011). Das Kompetenzmodell von COACTIV. In M. Kunter, J. Baumert, W. Blum, U. Klusmann, S. Krauss & M. Neubrand (Hrsg.), Professionelle Kompetenz von Lehrkräften. Ergebnisse des Forschungsprogramms COACTIV (S. 29 – 53). Münster: Waxmann. Baumert, J. & Kunter, M. (2013). Professionelle Kompetenz von Lehrkräften. In I. Gogolin, H. Kuper, H.-H. Krüger & J. Baumert (Hrsg.), Stichwort: Zeitschrift für Erziehungswissenschaft (S. 277 – 337). Wiesbaden: Springer Fachmedien. doi:10.1007/ 978-3-658-00908-3_13 Baumert, J., Kunter, M., Blum, W., Brunner, M., Voss, T., Jordan, A., Klusmann, U., Krauss, S., Neubrand, M. & Tsai, Y.-M. (2010). Teachers’ mathematical knowledge, cognitive activation in the classroom, and student progress. American Educational Research Journal, 47, 133 – 180. doi:10.3102/0002831209345157 © 2017 Hogrefe Verlag
11
Bertschi-Kaufmann, A. & Graber, T. (2007). Lesekompetenz – Leseleistung – Leseförderung. Grundlagen, Modelle und Materialien. Seelze-Velber: Klett, Kallmeyer. Blömeke, S., Kaiser, G. & Lehmann, R. (2010). TEDS-M 2008. Professionelle Kompetenz und Lerngelegenheiten angehender Mathematiklehrkräfte für die Sekundarstufe I im internationalen Vergleich. Münster: Waxmann. Borowski, A. & Riese, J. (2010). Physikalisch-fachdidaktisches Wissen: Was kommt in der Praxis an? Praxis der Naturwissenschaften – Physik in der Schule, 5 (95), 5 – 8. Bos, W., Tarelli, I., Bremerich-Vos, A. & Schwippert, K. (2012). IGLU 2011: Lesekompetenzen von Grundschulkindern in Deutschland im internationalen Vergleich. Münster: Waxmann. doi:10.5159/ IQB_IGLU_2011_v1 Bremerich-Vos, A. & Dämmer, J. (2013). Professionelles Wissen im Studienverlauf: Lehramt Deutsch. In S. Blömeke, A. BremerichVos, G. Kaiser, G. Nold, H. Haudeck, J.-U. Keßler et al. (Hrsg.), Professionelle Kompetenzen im Studienverlauf Weitere Ergebnisse zur Deutsch-, Englisch- und Mathematiklehrerausbildung aus TEDS-LT (S. 47 – 72). Münster: Waxmann. Brovelli, D., Bölsterli, K., Rehm, M. & Wilhelm, M. (2013). Erfassen professioneller Kompetenzen für den naturwissenschaftlichen Unterricht – Ein Vignettentest mit authentisch komplexen Unterrichtssituationen und offenem Antwortformat. Unterrichtswissenschaft, 41, 306 – 329. Bühner, M. (2011). Einführung in die Test- und Fragebogenkonstruktion (Psychologie, 3., aktual. und erw. Aufl.). München: Pearson Studium. Carretti, B., Caldarola, N., Tencati, C. & Cornoldi, C. (2014). Improving reading comprehension in reading and listening settings: The effect of two training programmes focusing on metacognition and working memory. The British Journal of Educational Psychology, 84, 194 – 210. doi:10.1111/bjep.12022 Chalmers, P. (2015). Package “mirt”. Zugriff am 21. 01. 2016. Verfügbar unter https://cran.r-project.org/web/packages/mirt/ mirt.pdf. Chen, W.-H. & Thissen, D. (1997). Local dependence indexes for item pairs using item response theory. Journal of Educational and Behavioral Statistics, 22, 265 – 289. Cochran, K. F., King, R. A. & DeRuiter, J. A. (1991). Pedagogical content knowledge: A tentative model for teacher preparation. Zugriff am 04. 04. 2016. Verfügbar unter http://files.eric.ed.gov/ fulltext/ED340683.pdf. Cook, K. F., Dodd, B. G. & Fitzpatrick, S. J. (1999). A comparison of three polytomous item response theory models in the context of testlet scoring. Journal of Outcome Measurement, 3, 1 – 20. Deci, E. L. & Ryan, R. M. (1985). Intrinsic motivation and selfdetermination in human behavior. New York: Plenum. Depaepe, F., Verschaffel, L. & Kelchtermans, G. (2013). Pedagogical content knowledge: A systematic review of the way in which the concept has pervaded mathematics educational research. Teaching and Teacher Education, 34, 12 – 25. doi:10.1016/j.tate.2013.03.001 Dijk, E. M. van & Kattmann, U. (2010). Evolution im Unterricht: Eine Studie über fachdidaktisches Wissen von Lehrerinnen und Lehrern. Zeitschrift für Didaktik der Naturwissenschaften, 16, 7 – 21. Eckes, T. (2015). Lokale Abhängigkeit von Items im TestDaF-Leseverstehen. Diagnostica, 61, 93 – 106. doi:10.1026/0012-1924/ a000134 Embretson, S. E. & Reise, S. P. (2000). Item response theory for psychologists. Mahwah, NJ: Lawrence Elbaum Associates. Fernández-Balboa, J.-M. & Stiehl, J. (1995). The generic nature of pedagogical content knowledge among college professors. Teaching and Teacher Education, 11 (3), 293 – 306. doi:10.1016/ 0742-051X(94)00030-A Diagnostica (2018), 64 (1), 2–13
12
J. Rutsch und T. Dörfler, Vignettentest für den Bereich der Lesedidaktik
Fuchs, L. S., Fuchs, D., Hosp, M. K. & Jenkings, J. R. (2001). Oral reading fluency as an indicator of reading competence: A theoretical, empirical, and historical analysis. Scientific Studies of Reading, 5, doi: 239 – 256. doi:10.1207/S1532799XSSR0503_3 Harnischfeger, A. & Wiley, D. E. (1977). Kernkonzepte des Schullernens. Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 9, 207 – 228. Heinzer, S. & Oser, F. (2013). Das Advokatorische Messverfahren: Die stellvertretende Art Kompetenzen zu messen. In F. Oser, T. Bauder, P. Salzmann & S. Heinzer (Hrsg.), Ohne Kompetenz keine Qualität. Entwickeln und Einschätzen von Kompetenzprofilen bei Lehrpersonen und Berufsbildungsverantwortlichen (S. 139 – 168). Bad Heilbrunn: Klinkhardt-Verlag. Helmke, A. (2015). Unterrichtsqualität und Lehrerprofessionalität (6. Auflage). Seelze-Velber: Klett / Kallmeyer. Herzmann, P. & König, J. (2016). Lehrerberuf und Lehrerbildung. Bad Heilbrunn: Klinkhardt. Hohn, K., Schiepe-Tiska, A., Sälzer, C. & Artelt, C. (2013). Lesekompetenz in PISA 2012: Veränderungen und Perspektiven. In M. Prenzel, C. Sälzer, E. Klieme & O. Köller (Hrsg.), Pisa 2012: Fortschritte und Herausforderungen in Deutschland (S. 217 – 244). Münster: Waxmann. Kind, V. (2009). Pedagogical content knowledge in science education: Perspectives and potential for progress. Studies in Science Education, 45, 169 – 204. doi:10.1080/03057260903142285 König, J. (2015). Kontextualisierte Erfassung von Lehrerkompetenzen. Zeitschrift für Pädagogik, 61, 305 – 309. König, J., Blömeke, S. & Schwippert, K. (2013). Pädagogisches Professionswissen im Studienverlauf. In S. Blömeke, A. Bremerich-Vos, G. Kaiser, G. Nold, H. Haudeck, J.-U. Keßler et al. (Hrsg.), Professionelle Kompetenzen im Studienverlauf. Weitere Ergebnisse zur Deutsch-, Englisch- und Mathematiklehrerausbildung aus TEDS-LT (S. 145 – 166). Münster: Waxmann. König, J., Blömeke, S., Suhl, U., Döhrmann, M. & Hoth, J. (2015). Wie situationsbezogen ist die Kompetenz von Lehrkräften? Zeitschrift für Pädagogik, 61 (3), 310 – 327. doi:10.3262/ZP1503310 Krauss, S., Blum, W., Neubrand, M., Baumert, J., Kunter, M., Besser, M. et al. (2011). Konzeptualisierung und Testkonstruktion zum fachbezogenen Professionswissen von Mathematiklehrkräften. In M. Kunter, J. Baumert, W. Blum, U. Klusmann, S. Krauss & M. Neubrand (Hrsg.), Professionelle Kompetenz von Lehrkräften. Ergebnisse des Forschungsprogramms COACTIV (S. 135 – 161). Münster: Waxmann. Krauss, S. & Bruckmeier, G. (2014). Das Experten-Paradigma in der Forschung zum Lehrerberuf. In E. Terhart (Hrsg.), Handbuch der Forschung zum Lehrerberuf (2., überarb. und erw. Aufl., S. 241 – 261). Münster: Waxmann. Krauss, S., Neubrand, M., Blum, W., Baumert, J., Brunner, M., Kunter, M.& Jordan, A. (2008). Die Untersuchung des professionellen Wissens deutscher Mathematik-Lehrerinnen und -Lehrer im Rahmen der COACTIV-Studie. Journal für Mathematikdidaktik, 29, 233 – 258. doi:10.1007/BF03339063 Kunter, M., Baumert, J., Blum, W., Klusmann, U., Krauss, S. & Neubrand, M. (2011). Professionelle Kompetenz von Lehrkräften. Ergebnisse des Forschungsprogramms COACTIV. Münster: Waxmann. Kunter, M., Baumert, J., Blum, W., Klusmann, U., Krauss, S. & Neubrand, M. (2013). Cognitive Activation in the Mathematics Classroom and Professional Competence of Teachers. Results from the COACTIV Project. Boston, MA: Springer. Kunze, I. (2004). Konzepte von Deutschunterricht. Eine Studie zu individuellen didaktischen Theorien von Lehrerinnen und Lehrern. Wiesbaden: VS Verlag für Sozialwissenschaften. Lenhard, W., Baier, H., Endlich, D., Schneider, W. & Hoffmann, J. (2013). Rethinking strategy instruction: Direct reading strategy instruction versus computer-based guided practice. Journal of Diagnostica (2018), 64 (1), 2–13
Research in Reading, 36, 223 – 240. doi:10.1111/j.14679817.2011.01505.x Masters, G. N. (1982). A Rasch model for partial credit scoring. Psychometrika, 47, 149 – 174. doi:10.1007/BF02296272 Masters, G. N. & Wright, B. D. (1997). The partial credit model. In W. J. van der Linden & R. K. Hambleton (Eds.), Handbook of modern item response theory (pp. 101 – 121). New York: Springer. McElvany, N. & Artelt, C. (2009). Systematic reading training in the family: Development, implementation, and initial evaluation of the Berlin Parent-Child Reading Program. Learning and Instruction, 19, 79 – 95. doi:0.1016/j.learninstruc.2008.02.002 McElvany, N. & Ohle, A. (2015). Lese- und Sprachförderung – Theoretische und empirische Implikationen für die Unterrichtsentwicklung. In H.-G. Rolff (Hrsg.), Handbuch der Unterrichtsentwicklung (S. 44 – 61). Weinheim, Basel: Beltz Juventa. McElvany, N. & Schneider, C. (2009). Förderung von Lesekompetenz. In W. Lenhard & W. Schneider (Hrsg.), Diagnostik und Förderung des Leseverständnisses (S. 148 – 151). Göttingen: Hogrefe. Messick, S. (1989). Validity. In R. L. Linn (Hrsg.), Educational measurement (3. Aufl., S. 13 – 103). New York: American Council on Education; Macmillan Pub. Co.; Collier Macmillan Publishers. Ministerium für Kultus, Jugend und Sport Baden-Württemberg (2004). Bildungsplan 2004. Realschule. Zugriff am 18. 10. 2013. Verfügbar unter http://www.bildung-staerkt-menschen.de/ser vice/downloads/Bildungsplaene/Realschule/Realschule_Bil dungsplan_Gesamt.pdf Ministerium für Kultus, Jugend und Sport Baden-Württemberg (2012). Bildungsplan 2012. Werkrealschule. Zugriff am 18. 10. 2013. Verfügbar unter http://www.bildung-staerkt-menschen. de/service/downloads/Bildungsplaene/Werkrealschule/Bil dungsplan2012_WRS_Internet.pdf Mucherah, W. & Ambrose-Stahl, D. (2014). Relation of reading motivation to reading achievement in seventh-grade students from Kenya and the United States. International Perspectives in Psychology: Research, Practice, Consultation, 3, 154 – 166. doi:10.1037/ipp0000012 Muraki, E. (1992). A generalized partial credit model: Application of an EM algorithm. Applied Psychological Measurement, 16, 159 – 176. doi:10.1177/014662169201600206 Muraki, E. (1993). Information functions of the generalized partial credit model. Applied Psychological Measurement, 17, 351 – 363. National Reading Panel. (2000). National Reading Panel: Reports of the subgroups. Washington, D.C.: National Institute of Child Health and Human Development. Neuweg, G. H. (2015). Kontextualisierte Kompetenzmessung. Eine Bilanz zu aktuellen Konzeptionen und forschungsmethodischen Zugängen. Zeitschrift für Pädagogik, 61, 377 – 383. doi: 10.3262/ZP1503377 Oser, F., Curcio, G.-P. & Düggeli, A. (2007). Kompetenzmessung in der Lehrerbildung als Notwendigkeit: Fragen und Zugänge. Beiträge zur Lehrerinnen- und Lehrerbildung, 25, 14 – 25. Oser, F. & Forster-Heinzer, S. (2015). Wer setzt das Maß? Eine kritische Auseinandersetzung mit dem Advokatorischen Ansatz. Zeitschrift für Pädagogik, 61 (3), 361 – 377. doi:10.3262/ ZP1503361 Özden, M. (2008). The effect of content knowledge on pedagogical content knowledge: The case of teaching phases of matters. Educational Sciences: Theory & Practice, 8, 633 – 645. Palmer, D. J., Stough, L. M., Burdenski Jr., T. K. & Gonzales, M. (2005). Identifying teacher expertise: An examination of researchers’ decision making. Educational Psychologist, 40, 13 – 25. doi:10.1207/s15326985ep4001_2 © 2017 Hogrefe Verlag
J. Rutsch und T. Dörfler, Vignettentest für den Bereich der Lesedidaktik
Park, S. & Oliver, J. S. (2008). Revisiting the conceptualisation of pedagogical content knowledge (PCK): PCK as a conceptual tool to understand teachers as professionals. Research in Science Education, 38, 261 – 284. doi:10.1007/s11165-007-9049-6 Pissarek, M. & Schilcher, A. (2015). Fachspezifische Lehrerkompetenzen im Fach Deutsch messen? Modellierung und Konstruktvalidierung eines Erhebungsinstruments im Rahmen der Projektgruppe FALKO Regensburg. In C. R. Bräuer (Hrsg.), Lehrende im Blick. Empirische Lehrerforschung in der Deutschdidaktik (S. 321 – 342). Wiesbaden: Springer VS. Prenzel, M., Sälzer, C., Klieme, E. & Köller, O. (2013). PISA 2012: Fortschritte und Herausforderungen in Deutschland. Münster: Waxmann. Rasinski, T. V. (2005). The fluent reader. Oral reading strategies for building word recognition, fluency, and comprehension. New York: Scholastic Professional Books. Rosebrock, C. & Nix, D. (2014). Grundlagen der Lesedidaktik und der systematischen schulischen Leseförderung. Baltmannsweiler: Schneider Hohengehren. Schmelzing, S., Wüsten, S., Sandmann, A. & Neuhaus, B. J. (2008). Evaluation von zentralen Inhalten der Lehrerbildung: Ansätze zur Diagnostik des fachdidaktischen Wissens von Biologielehrkräften. Lehrerbildung auf dem Prüfstand, 1, 641 – 663. Seidel, T., Blomberg, G. & Stürmer, K. (2010). „Observer“ – Validierung eines videobasierten Instruments zur Erfassung der professionellen Wahrnehmung von Unterricht. Zeitschrift für Pädagogik, 56. Beiheft, 296 – 306. Shulman, L. S. (1986). Those who understand: Knowledge growth in teaching. Educational Researcher, 15 (2), 4 – 14. Shulman, L. S. (1987). Knowledge and teaching: Foundations of the new reform. Harvard Educational Review, 57, 1 – 21. Steck, A. (2009). Förderung des Leseverstehens in der Grundschule. Fortbildungsbausteine für Lehrkräfte. Baltmannsweiler: Schneider Hohengehren. Steffensky, M., Gold, B., Holdynski, M. & Möller, K. (2015). Professional vision of classroom management and learning support in science classrooms – Does professional vision differ across general and content-specific classroom interactions? International Journal of Science and Mathematics Education, 13, 351 – 368. doi:10.1007/s10763-014-9607-0 Streblow, L. (2004). Zur Förderung der Lesekompetenz. In U. Schiefele, C. Artelt, W. Schneider & P. Stanat (Hrsg.), Struktur, Entwicklung und Förderung von Lesekompetenz. Vertiefende Analysen im Rahmen von PISA 2000 (S. 275 – 306). Wiesbaden: VS Verlag für Sozialwissenschaften.
© 2017 Hogrefe Verlag
13
Strobel, C. (2012). Das Rasch-Modell. Eine verständliche Einführung für Studium und Praxis (2. Aufl.). München, Mering: Rainer Hampp Verlag. Stürmer, K. & Seidel, T. (2015). Assessing professional vision in teacher candidates. Zeitschrift für Psychologie, 223, 54 – 63. doi:10.1027/2151-2604/a000200 Tepner, O. & Dollny, S. (2014). Entwicklung eines Testverfahrens zur Analyse fachdidaktischen Wissens. In D. Krüger, I. Parchmann & H. Schecker (Hrsg.), Methoden in der naturwissenschaftsdidaktischen Forschung (S. 311 – 323). Berlin, Heidelberg: Springer. doi:10.1007/978-3-642-37827-0_25 Voss, T., Kunina-Habenicht, O., Hoehne, V. & Kunter, M. (2015). Stichwort Pädagogisches Wissen von Lehrkräften. Empirische Zugänge und Befunde. Zeitschrift für Erziehungswissenschaft, 18, 187 – 223. doi:10.1007/s11618-015-0626-6 Voss, T., Kunter, M. & Baumert, J. (2011). Assessing teacher candidates’ general pedagogical / psychological knowledge: Test construction and validation. Journal of Educational Psychology, 103, 952 – 969. doi:10.1037/a0025125 Wainer, H. & Kiely, G. (1987). Item clusters and computized adaptive testing: A case for testlets. Journal of Educational Measurement, 37, 185 – 201. doi:10.1111/j.1745-3984.1987.tb00274.x Warm, T. A. (1989). Weighted likelihood estimation of ability in item response theory. Psychometrika, 54, 427 – 450. doi:10.1007/ BF02294627 Wirtz, M. & Caspar, F. (2002). Beurteilerübereinstimmung und Beurteilerreliabilität. Methoden zur Bestimmung und Verbesserung der Zuverlässigkeit von Einschätzungen mittels Kategoriensystemen und Ratingskalen. Göttingen: Hogrefe. Yen, W. M. (1993). Scaling performance assessments: Strategies for managing local item dependence. Journal of Educational Measurement, 30 (3), 187 – 213. doi: 10.1111/j.1745-3984.1993. tb00423.x Onlineveröffentlichung: 05. 09. 2017
Dr. Juliane Rutsch, M.Sc. Prof. Dr. Tobias Dörfler Pädagogische Hochschule Heidelberg Keplerstraße 87 69120 Heidelberg Institut für Psychologie rutsch@ph-heidelberg.de
Diagnostica (2018), 64 (1), 2–13
Originalarbeit
Entwicklung und Validierung einer Kurzversion des Fragebogeninventars für Freizeitinteressen (FIFI-K) Amelie Nikstat, Angelina Höft, Jessica Lehnhardt, Stephanie Hofmann und Christian Kandler Zusammenfassung: Mit dem Fragebogeninventar für Freizeitinteressen (FIFI; Piepenburg & Kandler, 2016) steht nun erstmals ein deutschsprachiges Messinstrument für das Erwachsenenalter zur Verfügung, welches Freizeittätigkeiten hinsichtlich ihrer intrinsischen Wertigkeit (Freizeitinteresse) und Häufigkeit ihrer Ausübung (Freizeitaktivität) erfasst. Ziel der vorliegenden Arbeit war die Entwicklung einer Kurzversion (FIFI-K), um die Ökonomie der Erfassung bei gleichbleibender Heterogenität der Freizeitbereiche zu erhöhen. Das FIFI-K umfasst 67 Items, an denen die Struktur von Freizeitinteressenbereichen (21 Primärfaktoren und 5 Sekundärfaktoren) des FIFI bei 840 Probandinnen und Probanden mittels konfirmatorischer Faktorenanalysen bestätigt werden konnte. Basierend auf einer Substichprobe von 443 Probandinnen und Probanden fanden sich gute Retest-Reliabilitäten für entsprechende Freizeitbereiche. Zudem konnten konvergente Validität zwischen Freizeitinteresse und Freizeitaktivität und diskriminante Validität zwischen den Freizeitbereichen sowie prädiktive Validität von Freizeitinteressen und -aktivitäten zur Vorhersage psychischen Wohlbefindens bescheinigt werden. Das FIFI-K kann demnach als ökonomisches, reliables und valides Messinstrument für die individuelle Erfassung von Freizeitinteressen und -aktivitäten in Forschung und Praxis angewandt werden. Schlüsselwörter: Freizeitinteressen, Freizeitaktivitäten, FIFI-K, subjektives Wohlbefinden, Fragebogen
Development and Validation of the Short Version of the „Fragebogeninventar für Freizeitinteressen” (FIFI-K) Abstract: The „Fragebogeninventar für Freizeitinteressen (FIFI)” (Piepenburg & Kandler, 2016) is the first comprehensive German questionnaire that allows for the capturing of leisure-time activities regarding their valence (leisure interests) and quantity (leisure engagement). The aim of this study was to develop a short version (FIFI-K) in order to increase the economy of measurement while encompassing the original heterogeneity of leisure-time areas. On the basis of a sample of 840 individuals and a 67-item FIFI short form, it was possible to replicate the original FIFI structure of leisure activities yielded by confirmatory factors analyses: 21 primary and 5 secondary factors. Based on a retested subsample of 443 individuals, the FIFI-K showed good retest reliability. In addition, our analyses yielded good convergent validity between leisure interests and engagement within leisure areas, divergent validity between leisure areas, and predictive validity regarding subjective well-being. Thus, the FIFI-K is a reliable, valid, and economic questionnaire for scientific and practical contexts. Keywords: leisure interests, leisure activities, FIFI-K, subjective well-being, questionnaire
Theoretischer Hintergrund Freizeitbeschäftigungen spielen eine bedeutsame Rolle für das psychische Wohlbefinden (Caunt, Franklin, Brodaty & Brodaty, 2013; Dimidjian et al., 2006) und die physische Gesundheit (Dubbert, 2002; Iwasaki, 2003). In ihrer Metaanalyse berichteten Kuykendall, Tay und Ng (2015), dass die Vielfalt an unterschiedlichen Freizeitbeschäftigungen und die Häufigkeit der Ausübung dieser
positiv mit subjektivem Wohlbefinden (SWB) zusammenhängen. In Anlehnung an die Selbstbestimmungstheorie von Ryan und Deci (2000) führen die Autoren an, dass vor allem solche Freizeitbeschäftigungen zum SWB beitragen sollten, für die nicht nur die Freiheit der Ausübung, sondern auch ein besonderes Interesse besteht. Gerade in Anbetracht demografischer Veränderungen findet die Erfassung der Vielfalt der Freizeitgestaltung, der Quantität der Freizeitaktivität und des persönlichen Interesses an
Amelie Nikstat und Angelina Höft trugen zu gleichen Anteilen zu diesem Manuskript bei und teilen sich die Erstautorenschaft. Diagnostica (2018), 64 (1), 14–25 https://doi.org/10.1026/0012-1924/a000187
© 2017 Hogrefe Verlag
A. Nikstat et al., Entwicklung und Validierung des FIFI-K
bestimmten Freizeitbeschäftigungen große Bedeutung. Insbesondere die Erwartung einer modernen Gesellschaft bezüglich mehr zeitlicher aber auch räumlicher Flexibilität von Arbeitnehmerinnen und Arbeitnehmern geht natürlich mit höheren Anforderungen einher, Freizeitaktivitäten zu planen und zu gestalten. Auch für den Übergang vom Berufsleben in die Rente und schließlich für die Bereicherung des Rentenalters ist die Freizeitgestaltung von besonderer Bedeutung (z. B. Di Mauro et al., 2001). Die bisherige Interessenforschung fokussierte primär auf Berufsinteressen, welche sich strukturell insbesondere mit dem RIASEC-Modell von Holland (1997) abbilden lassen. Dieses umfasst die sechs Interessenstypen mechanisch-handwerklich (Realistic), wissenschaftlich-intellektuell (Investigative), künstlerisch (Artistic), sozial (Social), unternehmerisch-wirtschaftlich (Enterprising) und konventionell (Conventional) (Holland, 1997). Auf Grundlage dieses Modells wurden bereits Tests zur Erfassung von Freizeitinteressen (z. B. Freizeit-Interessen-Test, FIT; Stangl, 1991) entwickelt, welche allerdings die wichtigen Aspekte der Erholung und Entspannung durch Freizeitinteressen und -aktivitäten unberücksichtigt ließen. Gerade letztgenannte Aspekte scheinen aber einen wesentlichen Unterschied zwischen Berufs- und Freizeitinteressen darzustellen. So zeigten Untersuchungen einen klaren positiven Zusammenhang von Freizeitinteressen und -aktivitäten mit physischer Gesundheit (z. B. Dubbert, 2002) und psychischem Wohlbefinden (z. B. Caunt et al., 2013), während keinerlei Zusammenhänge mit den RIASEC-Interessen aufgezeigt werden konnten (Cotter & Fouad, 2011). Diese Befunde verdeutlichen die Notwendigkeit konzeptuell zwischen Berufs- und Freizeitinteressen zu differenzieren.
Erfassung und Bedeutung von Freizeitinteressen Freizeitinteresse im weiten Sinne umfasst sowohl die intrinsische Motivation zu einer Freizeitbeschäftigung (passives Interesse) als auch die Quantität der Ausübung dieser (aktives Interesse) (Piepenburg & Kandler, 2016), wobei beide Aspekte eine Rolle für die physische Gesundheit (Dubbert, 2002; Iwasaki, 2003) und das psychische Wohlbefinden (Caunt et al., 2013; Dimidjian et al., 2006) spielen können. Die Metaanalyse von Kuykendall und Kollegen (2015) zeigte, dass nicht nur die Vielfalt und Häufigkeit von Freizeitbeschäftigungen in Bezug auf das SWB eine Rolle spielen, sondern auch die Zufriedenheit mit der Freizeitbeschäftigung. Dieser Aspekt wurde in den meisten Studien zu Freizeitinteressen vernachlässigt, da diese lediglich das aktive Freizeitinteresse erfassten, z. B. durch die Abfrage der Häufigkeiten und / oder Dauer © 2017 Hogrefe Verlag
15
der jeweiligen Freizeitaktivität (vgl. Piepenburg & Kandler, 2016: z. B. Albert, Hurrelmann & Quenzel, 2010; Goldberg, 2010; Haarmann, Scholz, Wasmer, Blohm & Harkness, 2006; Statistisches Bundesamt, 2003; Stiftung für Zukunftsfragen, 2013). Es ist allerdings möglich, dass ein Interesse für eine Tätigkeit vorliegt, diese aber nicht regelmäßig ausgeführt wird oder werden kann. Hierzu untersuchten Hansen und Scullard (2002) Zusammenhänge zwischen Präferenzen für Freizeitaktivitäten (d. h. passives Interesse), gemessen mit dem Leisure Interest Questionnaire (LIQ; Hansen 1998) und vergangenem Freizeitverhalten (d. h. aktives Interesse), gemessen mit dem Leisure Activities Blank (LAB; McKechnie, 1975). Ihre Ergebnisse verdeutlichen, dass sich das aktive von dem passiven Interesse erheblich unterscheiden kann (vgl. hierzu Piepenburg & Kandler, 2016). Die Unterschiede werden besonders markant, wenn Interessen erfasst werden, welche aufgrund von finanziellen, zeitlichen oder demografischen Faktoren selten durchführbar sind (z. B. Urlaub) oder wenn bestimmte Aktivitäten zwar regelmäßig ausgeführt werden, aber eher eine notwendige Pflicht darstellen (z. B. Haushalt). Ein weiteres Argument dafür, dass Instrumente zur Freizeiterfassung sowohl aktives, als auch passives Interesse abbilden sollten, ist die Bedeutung des Freizeitverhaltens für das SWB und die physische Gesundheit. Es gibt nur wenige Befunde dazu, welche Freizeitaktivitäten und welche Freizeitinteressen mit Wohlbefinden im Zusammenhang stehen. Zudem ist auch die Struktur von Freizeitinteressen relativ wenig erforscht. Dies liegt nicht zuletzt daran, dass insbesondere im deutschsprachigen Raum wenige Instrumente zur Abbildung des Freizeitinteresses vorlagen, die zum einen sowohl das Interesse an als auch die Häufigkeit der Ausübung verschiedener Freizeitbeschäftigungen erfassten und zum anderen ökonomisch einen möglichst großen Interessenbereich für verschiedene Altersgruppen abdeckten. Das jüngst konzipierte Fragebogeninventar für Freizeitinteressen (FIFI; Piepenburg & Kandler, 2016) schließt diese Lücke.
Struktur und Anwendungsbereiche des FIFI Das FIFI ermöglicht die Messung von Freizeitinteressen und -aktivitäten, indem für jede der 135 vorgegebenen Freizeitbeschäftigungen zwei fünfstufige Antwortskalen vorgegeben werden, welche die Freizeitaktivität (FA-Skala, d. h. wie häufig die Probandinnen und Probanden eine Tätigkeit in der Freizeit ausüben) und das passive Freizeitinteresse (FI-Skala, d. h. wie gerne die Probandinnen und Probanden diese Freizeitaktivität ausüben / ausüben würden) abbilden sollen. Hierbei wird das FreizeitinterDiagnostica (2018), 64 (1), 14–25
16
esse anhand einer angenommenen Intervallskala (1 = sehr ungerne bis 5 = sehr gerne) und die Freizeitaktivität mittels einer Ordinalskala (1 = noch nie bis 5 = täglich) erfasst. Mit der Operationalisierung des passiven Freizeitinteresses werden die Aspekte der intrinsischen Motivation (Ryan & Deci, 2000) und die subjektive Bedeutung der Freizeitbeschäftigung (Kuykendall et al., 2015) berücksichtigt. Darüber hinaus kann mit der Konvergenz aus aktivem und passivem Interesse abgebildet werden, inwieweit individuelle Freizeitinteressen überhaupt aktiv umgesetzt werden. Letzteres scheint insbesondere für die klinische Anwendung interessant, etwa bei Patientinnen und Patienten mit depressiven Störungen, da die Verhaltensaktivierung in der Freizeit sich bei der Behandlung von Depressionen als durchaus wirksam zeigt (Dimidjian et al., 2006). Wenn eine verbesserte Passung zwischen Freizeitinteresse und -aktivität zu Stressreduktion und zu einer Steigerung des SWB führt, können die Diagnostik und entsprechende Beratungen fester Therapiebestandteil von Antriebsstörungen werden. Das FIFI wurde an einer Gesamtstichprobe von 836 Personen validiert. Explorative Faktorenanalysen ergaben konsistent über verschiedene Substichproben eine Struktur mit 21 Primärfaktoren und fünf übergeordneten Sekundärfaktoren, die sich als Interessenbereiche mit korrelierenden Freizeitbeschäftigungen interpretieren lassen: Der Bereich der Rezeptiv-Erholsamen Interessen „beinhaltet soziale, künstlerische und kulturelle Aspekte der Erholung, wobei hier die sinnliche Aufnahme dieser im Vordergrund steht“ (Piepenburg & Kandler, 2016, S. 133). Im Bereich der Aktiv-Erholsamen Interessen tritt der Erholungseffekt durch die aktive Auseinandersetzung mit der Natur, Dingen, anderen Menschen oder sich selbst zu Tage, während der Bereich der Hegend-Gestaltenden Interessen häusliche und erzieherische Aktivitäten beinhaltet. Hierbei ist allerdings anzunehmen, dass die Tätigkeiten in der Freizeit auszuführen sind, jedoch einen eher geringeren oder zumindest stark interindividuell variablen Erholungsgehalt besitzen. Der Bereich der Intellektuellen Interessen ist gekennzeichnet durch eine Beschäftigung mit neuen, weiterbildenden Themen oder religiösem Hintergrund. Schließlich umfasst der letzte Bereich der Kompetitiven Interessen insbesondere jene Interessen, die instrumentelle und sozial vergleichende Aspekte betreffen (Piepenburg & Kandler, 2016). Mit dem FIFI können erstmals für den deutschen Sprachraum Freizeitinteressen und Freizeitaktivitäten breit und ökonomisch abgebildet werden. Allerdings ist die Bearbeitungszeit mit 20 bis 30 Minuten für viele Anwendungsfälle in der Forschung noch zu lang. Auch in der klinischen Praxis ist insbesondere bei bestimmten Klienten- und Patientengruppen, beispielsweise bei depressiDiagnostica (2018), 64 (1), 14–25
A. Nikstat et al., Entwicklung und Validierung des FIFI-K
ven Patientinnen und Patienten, der Einsatz zeitökonomischer Instrumente ratsam, da diese Konzentrationsund Aufmerksamkeitsdefizite aufweisen können (Dilling, Mombour & Schmidt, 2010). Da sowohl in der Forschung, als auch in der Praxis eine antizipierte zeitintensive Auseinandersetzung mit einem Instrument die Teilnahmebereitschaft verringern kann, bestand das Ziel der vorliegenden Arbeit darin, eine Kurzversion des FIFI zu entwickeln, welche Freizeitinteressen weniger zeitaufwendig erfasst, jedoch die inhaltliche Bandbreite möglichst beibehält. In Anbetracht der hohen Relevanz der Freizeitgestaltung für das SWB sollte darüber hinaus überprüft werden welche Rolle Freizeitaktivität, Freizeitinteressen per se und die Passung zwischen Freizeitinteressen und -aktivität für das Wohlbefinden spielen.
Methode Konstruktion der Kurzversion des Fragebogen-Inventars für Freizeitinteressen (FIFI-K) Grundlage der Konstruktion des FIFI-K bildete die entsprechende Langversion. Der ursprüngliche Itempool von 135 Items sollte um etwa die Hälfte reduziert werden, wobei Freizeitinteressen und -aktivitäten weiterhin so breit wie möglich erfasst werden und die ursprüngliche Faktorenstruktur erhalten bleiben sollte. Um dieses Ziel zu erreichen, wurden zunächst alle 135 Items von vier Beurteilenden unabhängig voneinander hinsichtlich ihrer inhaltlichen Breite und Relevanz bewertet (0 = eher eng / irrelevant, 1 = eher breit / relevant) und auf dieser Basis 11 Items ausgeschlossen, die übereinstimmend mit null beurteilt wurden (z. B. „Tennis spielen“). Im nächsten Schritt wurden diejenigen Items ausgeschlossen, die von nur einem Beurteilenden als relevant eingestuft wurden sowie eine Faktorladung < .50 und eine Trennschärfe < .40 aufwiesen (z. B. „Picknicken“ oder „Tagebuch führen“). Für Faktor 16 (informierend-bildende Interessen) wurde das Trennschärfekriterium aufgrund von durchgängig niedrigen Trennschärfen (.30 bis .49) nicht angewendet. Zudem wurden fünf weitere Items trotz geringer Trennschärfe aufgrund von inhaltlichen Überlegungen und einer Beurteilerübereinstimmung von 100 % beibehalten (z. B. „Video/ Computerspiele spielen“). Items wurden allerdings nur ausgeschlossen, wenn sich die Reliabilität der entsprechenden Skala dadurch verbesserte oder bei inhaltlicher Relevanz (100 % Beurteilerübereinstimmung) zumindest nicht verschlechterte. © 2017 Hogrefe Verlag
A. Nikstat et al., Entwicklung und Validierung des FIFI-K
Im vorletzten Schritt erfolgte der Ausschluss von eher seltenen Interessen (z. B. „in einem Theaterstück / Schauspiel mitwirken“). Abschließend wurden inhaltlich sehr ähnliche Items nach entsprechender statistischer Absicherung (r > .50) zusammengefasst (z. B. „Ausschlafen“ und „Mittagsschlaf halten“ zu „Ausschlafen / Mittagsschlaf halten“). Bei der Itemreduktion wurde zudem darauf geachtet, dass jeweils etwa drei Items pro Primärskala erhalten blieben. Dadurch ergab sich ein endgültiger Itempool von 67 Items (siehe elektronisches Supplement 1). Die intervallskalierte FI-Skala des FIFI wurde in ihrer ursprünglichen Form übernommen. Die frühere FA-Skala mit ordinalskalierten absoluten Häufigkeitsangaben (z. B. „einmal pro Woche“) wurde dagegen in eine relative Häufigkeitsskala überführt (1 = nie, 2 = selten, 3 = manchmal, 4 = häufig, 5 = sehr häufig).1
Datenerhebung und Stichprobe Die Datenerhebung erfolgte über das Online-Umfragetool Unipark innerhalb von 14 Wochen in zwei Wellen. Die Teilnehmenden des ersten Messzeitpunktes wurden fünf Wochen nachdem sie den Fragebogen ausgefüllt hatten via E-Mail erneut kontaktiert und gebeten, an dem zweiten Erhebungszeitpunkt teilzunehmen. Die Probandinnen und Probanden wurden über Internetportale, direkte Ansprachen, E-Mail-Verteiler und Flyer rekrutiert. Als Anreiz zur Teilnahme wurden unter allen Probandinnen und Probanden, die an beiden Erhebungszeitpunkten teilnahmen, 11 BestChoice-Gutscheine im Gesamtwert von 500 Euro verlost. Die Abbruchquote während der Beantwortung des Fragebogens lag bei unter 8 %. Die durchschnittliche Bearbeitungsdauer des FIFI-K betrug etwa 10 Minuten. Fehlende Werte traten während der Erhebung nicht auf, da diese bei der Online-Umfrage nicht zugelassen wurden. Die Stichprobe bestand aus 618 Teilnehmerinnen und 222 Teilnehmern. Die Altersspanne erstreckte sich von 16 bis 80 Jahre (M = 30.92, SD = 12.66). Zum zweiten Messzeitpunkt nahmen 443 Personen (53 %) erneut teil, darunter 119 (27 %) männliche Probanden. Die Spannweite des Alters betrug auch in dieser Teilstichprobe 16 bis 80 Jahre (M = 30.31, SD = 11.93).
1
2
17
Methodisches Vorgehen und weitere Messinstrumente Aufgrund der Komplexität des zu prüfenden hierarchischen Strukturmodells des FIFI wurden zunächst fünf Teilmodelle entsprechend der fünf Sekundärfaktoren mittels konfirmatorischer Faktorenanalysen (confirmatory factor analysis; CFA) auf ihre Passung zu den Stichprobendaten geprüft. Die Modellpassung und die Parameterschätzungen wurden mit der Software AMOS 22.0 (Arbuckle, 2012) auf Basis der Varianz-Kovarianz-Matrix der 67 Items per Maximum-Likelihood-Schätzalgorithmus bestimmt. Die Modellgüte wurde anhand des Root Mean Square Error of Approximation (RMSEA) und des Comparative Fit Index (CFI) beurteilt. RMSEA < .05 und CFI > .95 weisen auf eine gute und RMSEA < .08 und CFI > .90 auf eine akzeptable Modellpassung hin (Browne & Cudeck, 1993; Schermelleh-Engel, Moosbrugger & Müller, 2003). Anschließend wurde auf Mess- und Strukturmodellinvarianz zwischen Männern und Frauen mittels Mehrgruppenmodellanalysen geprüft. Da die Voraussetzungen zur Bestimmung von Cronbach’s α (Cronbach, 1951) nur in seltenen Fällen gegeben sind (v. a. Gleichheit der Fehlervarianzen und Item-Homogenität), wurde in der vorliegenden Arbeit der robustere Omega-Koeffizient (ω; McDonald, 1999; Dunn, Baguley & Brunsden, 2014) zur Ermittlung der internen Konsistenzen herangezogen.2 Die Berechnung erfolgte mit der Statistiksoftware R 3.2.0. Für alle weiteren Berechnungen wurde IBM SPSS Statistics 22 für Windows verwendet. Zur Ermittlung von Retest-Reliabilitäten, konvergenter und divergenter Validität wurden jeweils Pearson-Korrelationen berechnet. Die konvergente bzw. divergente Validität der Freizeitinteressenskalen wurde ermittelt, indem die FI-Skalen zu den entsprechenden FASkalen innerhalb der Freizeitbeschäftigungsbereiche (zur Prüfung der Inhaltskonvergenz) und zwischen diesen (zur Prüfung der Divergenz) auf Primär- und Sekundärfaktorenebene in Beziehung gesetzt wurden. Um den Zusammenhang von subjektivem Wohlbefinden mit dem Freizeitinteresse (FI-Skala), der Freizeitaktivität (FA-Skala) sowie mit der Interesse-Aktivitäts-Passung (individuelle Profilkorrelationen zwischen FI- und FA-Skalen über alle 67 Items) zu bestimmen, wurde die
Damit ist zum einen die Annahme einer Intervallskala möglich, zum anderen werden Items sowohl intra- als auch interpersonell untereinander vergleichbarer (z. B. „drei Mal im Jahr“ eine Urlaubsreise machen im Vergleich zu „drei Mal im Jahr“ im Internet surfen vs. „häufig“ eine Urlaubsreise machen im Vergleich zu „selten“ im Internet surfen). Nach Kuykendall et al. (2015) ist im Vergleich zu absoluten Häufigkeitsangaben eine subjektive Messung von Freizeitaktivitätshäufigkeit zudem diagnostisch relevanter, insbesondere in Bezug auf das SWB. Der hierarchische Omega-Koeffizient (ωh) gibt an, wie viel Varianz durch einen allgemeinen Faktor erklärt wird, wohingegen beim totalen (ωt) nicht von einem eindimensionalen Konstrukt ausgegangen wird, sondern die Varianz durch einen allgemeinen sowie spezifische Faktoren Berücksichtigung findet (vgl. Revelle & Zinbarg, 2009). Darum wurde in der vorliegenden Arbeit für die Primärskalen der hierarchische, für die Sekundärskalen hingegen der totale Omega-Koeffizient verwendet.
© 2017 Hogrefe Verlag
Diagnostica (2018), 64 (1), 14–25
18
Habituelle Subjektive Wohlbefindensskala (HSWBS; Dalbert, 1992) eingesetzt. Hierbei handelt es sich um ein erprobtes Instrument, welches sehr gute Testgütekriterien aufweist und mit lediglich 13 Items ein ökonomischer Fragebogen ist (Dalbert, 1992). In dieser Studie wies die HSWB-Skala eine sehr gute interne Konsistenz (α = .94) und Retest-Reliabilität (rtt = .92) auf.
Ergebnisse Konfirmatorische Faktorenanalysen Zur Überprüfung der Modellpassungen der fünf Teilmodelle entsprechend der fünf Sekundärfaktoren wurden konfirmatorische Faktorenanalysen durchgeführt. Jeder Analyse lag die Gesamtstichprobe (N = 840) zugrunde. Das hierarchische Modell der Rezeptiv-Erholsamen Interessen zeigte eine noch akzeptable Passung an die Daten sowohl für die FI-Skala mit χ² (146) = 794.18, p = .00, RMSEA = .073 und CFI = .786, als auch für die FA-Skala mit χ² (146) = 743.94, p = .00, RMSEA = .070 und CFI = .820. Auch die Passungen der hierarchischen Modelle der Aktiv-Erholsamen Interessen mit χ² (99) = 526.51, p = .00, RMSEA = .072, CFI = .821 für die FI-Skala und χ² (99) = 445.66, p = .00, RMSEA = .065, CFI = .812 für die FA-Skala, sowie der Hegend-Gestaltenden Interessen mit χ² (61) = 231.81, p = .00, RMSEA = .058, CFI = .916 für die FI-Skala und mit χ² (61) = 331.84, p = .00, RMSEA = .073, CFI = .882 für die FA-Skala waren akzeptabel. Für das hierarchische Modell der Intellektuellen Interessen ergab die Strukturgleichungsanalyse eine akzeptable bis gute Passung an die Daten: χ² (41) = 136.72, p = .00, RMSEA = .053, CFI = .944 (FI-Skala); χ² (41) = 139.34, p = .00, RMSEA = .053, CFI = .929 (FA-Skala). Die Modellgüte für das hierarchische Modell der Kompetitiven Interessen konnte als gut bezeichnet werden: χ² (17) = 50.82, p = .00, RMSEA = .049, CFI = .973 für die FI-Skala und χ² (17) = 42.10, p = .00, RMSEA = .042, CFI = .979 für die FA-Skala. Die standardisierten Primär- und Sekundärfaktorenladungen aller fünf Modelle sind in den elektronischen Supplementen 2-6 dargestellt. Da sich Männer und Frauen nicht nur im Ausprägungsgrad bestimmter Interessen unterscheiden können, sondern auch in der Struktur bezüglich der Zusammenhänge bestimmter Freizeitinteressen und -aktivitäten, war Mess- und Strukturmodellinvarianz zwischen Männern und Frauen zu prüfen. Die Ergebnisse sind im elektronischen Supplement 7 zusammengefasst. Für RezeptivErholsame Interessen fanden sich kaum Unterschiede. Lediglich die Messmodelle unterschieden sich für die FISkalenwerte auf Grund höherer Ladungen des Items „Zeit Diagnostica (2018), 64 (1), 14–25
A. Nikstat et al., Entwicklung und Validierung des FIFI-K
mit dem Partner/ wichtigen Menschen verbringen“ auf „sozial unternehmerische Interessen“ für die Frauen (.46 versus .29) und des Items „Fotografieren / Fotos bearbeiten / Fotoalben oder -galerien erstellen“ auf „Urlaub“ sowie des Items „Einen Einkaufsbummel machen / Shoppen“ auf „Kultur“ für die Männer (.55 versus .31 und .46 versus .20). Frauen scheinen demnach Fotografieren und Shoppen differenzierter zu betrachten als Männer. Für Aktiv-Erholsame Interessen zeigten sich deutlichere Unterschiede in der Struktur und der Messmodellebene sowohl für die FI- als auch für die FA-Skalenwerte. Die Ladungen auf dem Sekundärfaktor Aktiv-Erholsame Interessen variierten für die Frauen (.05 / .11 „Spiele und Rätsel“ bis 1.0 / 1.0 „Naturnahe Erholung“) stärker als für die Männer (.30 / .23 „Spiele und Rätsel“ bis .75 / .83 „Naturnahe Erholung“). Ähnliches zeigte sich auf Ebene der Messmodelle. Im Bereich Hegend-Gestaltender Interessen unterschieden sich im Wesentlichen nur die Messmodelle. Für die FI-Skalen fand sich deutlich mehr Varianz im Bereich Haushalt und für die FA-Skalen entsprechend in sozialunterstützender Aktivität bei den Frauen. Während sich für die Intellektuellen Interessen (größere Varianz der Ladungen bei den Männern in Bezug auf informierend-bildende und intellektuell-kreative Interessen) kaum Unterschiede zeigten, waren die Unterschiede bei den Kompetitiven Interessen deutlicher. Hier fand sich grundsätzlich für die Männer eine größere Konsistenz der FI- und FASkalenwerte auf Messmodell- und Strukturmodellebene. Insgesamt können die Unterschiede zwischen Männern und Frauen in der Interessensstruktur als marginal betrachtet werden.
Deskriptive Statistiken der FI- und FA-Primär- und Sekundärskalen Die deskriptiven Statistiken der auf der Basis von den CFALösungen gebildeten FI- und FA-Primär- und Sekundärskalen sind in Tabelle 1 dargestellt. Augenscheinliche Mittelwertvergleiche auf Sekundärskalenebene deuten an, dass insbesondere Rezeptiv-Erholsame Interessen gerne (FI: M = 3.83, SD = .44) und häufig (FA: M = 3.13, SD = .42) umgesetzt werden, während Kompetitiven Interessen im Mittel weniger gern (FI: M = 2.28, SD = .64) und seltener (FA: M = 1.81, SD = .52) nachgegangen wird.
Interne Konsistenz und Retest-Reliabilität Die interne Konsistenz (siehe Tabelle 2) der FI-Primärskalenwerte lag im Mittel bei ωh = .63 und variierte zwischen ωh = .45 (Spiele und Rätsel) und ωh = .84 (Religion © 2017 Hogrefe Verlag
A. Nikstat et al., Entwicklung und Validierung des FIFI-K
19
Tabelle 1. Mittelwerte und Standardabweichungen der FI- und FA-Skalen # Items
FI-Skalen
FA-Skalen
M
SD
M
SD
Primärskalen Sozial-Unternehmerisch
3
4.26
0.62
3.41
0.71
Virtual Life
3
3.66
0.71
3.96
0.76
Heimische Entspannung
3
4.10
0.65
3.41
0.69
Musik
3
3.60
0.82
3.01
0.89
Urlaub
3
3.85
0.73
2.75
0.71
Kultur
4
3.59
0.72
2.48
0.56
Outdoor
4
2.79
0.92
1.53
0.51
Tiere
2
3.91
0.92
2.83
0.99
Naturnahe Erholung
3
3.80
0.79
2.82
0.77
Spiele & Rätsel
3
3.46
0.78
2.55
0.73
Wellness
4
3.45
0.84
2.38
0.70
Haushalt
3
2.50
0.73
3.57
0.77
Gestalterisch-Handwerklich
5
3.09
0.82
2.25
0.68
Sozial-Unterstützend
3
3.80
0.73
3.16
0.78
Kochen & Backen
2
3.79
0.88
3.26
0.88
Informierend-Bildend
4
3.59
0.62
3.34
0.64
Intellektuell-Kreativ
4
3.06
0.81
2.17
0.66
Religion & Spiritualität
3
2.16
1.06
1.69
0.83
Finanzen
2
1.73
0.77
1.61
0.59
Auto & Motorrad
3
2.18
0.91
1.57
0.66
Sport
3
2.74
1.03
2.18
0.91
Rezeptiv-Erholsam
19
3.83
0.44
3.13
0.42
Aktiv-Erholsam
16
3.41
0.52
2.34
0.41
Hegend-Gestaltend
13
3.23
0.55
2.92
0.54
Intellektuell
11
3.01
0.54
2.46
0.47
Kompetitiv
8
2.28
0.64
1.81
0.52
Sekundärskalen
Anmerkungen: N = 840, FI = wie gerne eine Tätigkeit ausgeübt wird, FA = wie häufig eine Tätigkeit ausgeübt wird. Wertebereich der Skalen: 1 – 5.
und Spiritualität). Ähnlich fiel die interne Konsistenz der FA-Primärskalenwerte aus. Diese lag im Mittel bei ωh = .62 und variierte zwischen ωh = .44 (Spiele und Rätsel) und ωh = .81 (Religion und Spiritualität). Die interne Konsistenz der Sekundärskalenwerte lag im Mittel erwartungsgemäß etwas höher (FI-Sekundärskalen: ωt = .73; FA-Sekundärskalen: ωt = .72). Vor dem Hintergrund des gewünschten Kompromisses aus inhaltlicher Breite der Freizeitbereichsskalen und ihrer ökonomischen Messung mittels weniger Items kann die interne Konsistenz als akzeptabel bis gut bezeichnet werden. Für die FI-Primärskalen lag die Retest-Reliabilität (siehe Tabelle 2) zwischen rtt = .65 (Finanzen) und rtt = .87 (Religion und Spiritualität). Die FA-Primärskalen zeigten eine tendenziell höhere Retest-Reliabilität zwischen rtt = .70 (Finanzen) und rtt = .91 (Religion und Spiritualität). Die Retest-Reliabilität der FI-Sekundärskalenwerte © 2017 Hogrefe Verlag
variierte zwischen rtt = .80 (Intellektuelle und Kompetitive Interessen) und rtt = .86 (Hegend-Gestaltende Interessen) sowie zwischen rtt = .82 (Aktiv-Erholsame Interessen und Kompetitive Interessen) und rtt = .88 (Hegend-Gestaltende Interessen) für die FA-Sekundärskalenwerte. Damit ist die Retest-Reliabilität als gut bis sehr gut zu beurteilen.
Konvergente und diskriminante Validität Zur Bestimmung der Konvergenz zwischen Freizeitinteressen (FI) und Freizeitaktivitäten (FA) innerhalb der 21 primären und fünf sekundären Freizeitbereichsskalen sowie zur Beurteilung der Divergenz zwischen den Freizeitbereichsskalen wurden Korrelationen berechnet. Die fünf konvergenten und die 20 divergenten Korrelationen der Diagnostica (2018), 64 (1), 14–25
20
A. Nikstat et al., Entwicklung und Validierung des FIFI-K
Tabelle 2. McDonalds ω und Retest-Reliabilitäten der FI- und FA-Primär- und Sekundärskalen FI-Skalen
FA-Skalen
ωh
rtt
ωh
rtt
Sozial-Unternehmerisch
.68
.77
.72
.82
Virtual Life
.59
.77
.59
.81
Heimische Entspannung
.54
.68
.57
.71
Musik
.76
.82
.77
.83
Urlaub
.56
.74
.59
.76
Kultur
.57
.78
.61
.78
Outdoor
.65
.84
.54
.77
Tiere
.61
.84
.57
.83
Naturnahe Erholung
.66
.79
.68
.78
Spiele & Rätsel
.45
.79
.44
.77
Wellness
.67
.83
.58
.82
Haushalt
.69
.77
.74
.79
Gestalterisch-Handwerklich
.68
.86
.67
.83
Sozial-Unterstützend
.61
.81
.59
.83
Primärskalen
Kochen & Backen
.57
.80
.58
.83
Informierend-Bildend
.59
.73
.57
.78
Intellektuell-Kreativ
.56
.78
.48
.82
Religion & Spiritualität
.84
.87
.81
.91
Finanzen
.54
.65
.49
.70
Auto & Motorrad
.69
.83
.69
.82
Sport
.73
.84
.73
.84
ωt
rtt
ωt
rtt
Rezeptiv-Erholsam
.78
.81
.77
.84
Aktiv-Erholsam
.74
.84
.71
.82
Hegend-Gestaltend
.77
.86
.79
.88
Intellektuell
.67
.80
.65
.83
Kompetitiv
.68
.80
.68
.82
Sekundärskalen
Anmerkungen: FI = wie gerne eine Tätigkeit ausgeübt wird, FA = wie häufig eine Tätigkeit ausgeübt wird, ωh = McDonalds Omega hierarchisch, ωt = McDonalds Omega total (N = 840). Berechnung der Retest-Reliabilität mit einem Intervall von 5 Wochen (N = 443) für die FI- und FA-Skalen mittels PearsonKorrelationskoeffizient (rtt).
fünf Sekundärskalen können Tabelle 3 entnommen werden. Hier zeigte sich eine eindeutige Struktur: Die konvergenten Korrelationen lagen konsistent bei r > .50, die divergenten bei r < .30. Die konvergenten Korrelationen der Primärskalenwerte variierten zwischen r = .36 (Haushalt) und r = .86 (Religion und Spiritualität), wobei alle Primärskalen bis auf Haushalt (r = .36) und Heimische Entspannung (r = .42) Werte von r ≥ .50 aufwiesen. Die divergenten Korrelationen lagen zwischen r = -.18 und r = .32, wobei keiner dieser Koeffizienten die Höhe der mit ihm assoziierten konvergenten Korrelationen übertraf. Die Konvergenz bzw. Divergenz der primären und sekundären Freizeitbereichsskalenwerte konnte somit bestätigt werden. Diagnostica (2018), 64 (1), 14–25
Zusammenhänge von Freizeitinteresse und Freizeitaktivität mit Wohlbefinden Da Freizeitverhalten mit Wohlbefinden im Zusammenhang stehen sollte (Kuykendall et al., 2015), wurden Korrelationen der FI- und FA-Primär- und Sekundärskalen mit dem SWB bestimmt (siehe Tabelle 4). Wenngleich die Freizeitinteressen per se statistisch bedeutsame positive Korrelationen mit dem SWB zeigten, waren überwiegend die FA-Skalenwerte stärker mit SWB assoziiert. Insbesondere die aktive Umsetzung des Interesses an sozialen Unternehmungen zeigte die größte Korrelation mit SWB. FI- und FA-Werte korrelierten jedoch substantiell (für die Gesamtwerte: r = .60), weshalb Freizeitinteressen und © 2017 Hogrefe Verlag
A. Nikstat et al., Entwicklung und Validierung des FIFI-K
21
Tabelle 3. Korrelationen zwischen den beiden Skalentypen der fünf Sekundärskalen FA-Skalen FI-Skalen
Rezeptiv-Erholsam
Aktiv-Erholsam
Hegend-Gestaltend
Intellektuell
Kompetitiv
Rezeptiv-Erholsam
.67**
.14**
.25**
.12**
Aktiv-Erholsam
.16**
.53**
.20**
.12**
Hegend-Gestaltend
.15**
.29**
.66**
.17**
-.03
Intellektuell
.11**
.21**
.20**
.76**
.05
Kompetitiv
.16**
.21**
.06
.09*
.76**
.05 .08*
Anmerkungen: N = 840, FI = wie gerne eine Tätigkeit ausgeübt wird, FA = wie häufig eine Tätigkeit ausgeübt wird. Konvergente Korrelationskoeffizienten sind fett gedruckt. * p < .05, ** p < .01.
entsprechende Aktivitäten möglicherweise äquivalente Varianzanteile an SWB aufklären. So konnte in einem Regressionsmodell mit den individuellen FI- und FA-Gesamtwerten als Prädiktoren, F (2, 837) = 40.52, p < .000; R² = .09, nur der FA-Gesamtwert (β = .25, p < .001) als bedeutsamer Prädiktor von SWB herausgestellt werden. Der Zusammenhang zwischen dem FI-Gesamtwert und SWB wurde nicht mehr signifikant (β = .07, p = .08), während sich der indirekte Effekt als signifikant erwies (Bootstrap-Analyse mit m = 10.000 Ziehungen: β = .08, 95 % KI [0.05, 0.11]). Dies indiziert, dass der Zusammenhang von Freizeitinteressen und subjektivem Wohlbefinden über die tatsächliche Ausführung entsprechender Freizeitaktivitäten vermittelt wird. Zusätzlich zur Freizeitaktivität kann auch die Passung von Freizeitinteressen mit der Möglichkeit, diese ausüben zu können, eine Rolle für das SWB spielen. Die individuellen Interessen-Aktivitäts-Passungen wurden sowohl als normative Profilkorrelationen (rM = .64, rmin = .06, rmax = .97), als auch distinkte Profilkorrelationen (rM = .61, rmin = .07, rmax = .90) berechnet, um die rein individuelle Passung und ihren Zusammenhang zum SWB vom Zusammenhang mit der durchschnittlichen Profilpassung abgrenzen zu können (vgl. Furr, 2008). Sowohl normative als auch distinkte FI-FA-Passungen erwiesen sich als statistisch bedeutsam im Zusammenhang mit dem individuellen SWB (r = .19; p < .01 bzw. r = .16; p < .01) und konnten im Regressionsmodell mit F (2, 837) = 47.12, p < .000; R² = .10 für ein Modell mit der normativen und F (2, 837) = 43.36, p < .000; R² = .09 für eines mit der distinkten Passung zusätzlich zum FA-Gesamtwert (normativ/ distinkt: β = .27, p < .001) Varianz im SWB aufklären (normativ: β = .13, p < .001, distinkt: β = .10, p < .005). Die Ähnlichkeit der Zusammenhänge von normativer und distinkter FI-FA-Passung mit dem SWB zeigt, dass weniger die Normativität der Passung, sondern die individuelle Passung eine Rolle für das SWB spielt. Erwähnenswert ist darüber hinaus, dass die FA-Gesamtwerte und die FI-FA-Passungen signifikant positiv zu r = .21 (normative Passung) bzw. zu r = .24 (distinkte © 2017 Hogrefe Verlag
Passung) korrelierten, während die FI-Gesamtwerte und die FI-FA-Passungen eine signifikant negative Korrelation aufwiesen (normativ: r = -.30, distinkt: r = -.26). Ersteres bedeutet, dass mit mehr Freizeitaktivität auch mehr Freizeitinteressen einhergehen. Letzteres indiziert, dass je mehr Interessen jemand hat, umso weniger die Wahrscheinlichkeit besteht, diese in der Freizeit auch auszuüben.
Diskussion Ziel der vorliegenden Studie war die Entwicklung einer Kurzversion des Fragebogen-Inventars für Freizeitinteressen (FIFI-K), mit welcher eine ökonomischere Erfassung von Freizeitinteressen für einen großen Altersbereich möglich ist. Trotz besonderer Herausforderungen und der oft schwierigen Abwägung von inhaltlichen und statistischen Kriterien bei der Itemreduktion konnte eine Kurzversion mit 67 Items entwickelt werden, mit der die Struktur von 21 Primär- und fünf Sekundärfaktoren des FIFI repliziert werden konnte. Unter Berücksichtigung der Komplexität der hierarchischen Struktur zeigte sich eine gute Passung der Modelle auf die Daten. Auch die psychometrische Qualität des FIFI-K ist als gut zu bezeichnen. Die Retest-Reliabilitäten der Skalen sind vergleichbar mit denen der Langversion bei gleichem Retest-Intervall von fünf Wochen. Die internen Konsistenzen fallen im Mittel geringer aus als die des FIFI, was aber in Anbetracht der Kürze des FIFI-K bei gleicher inhaltlicher Heterogenität (Bandbreiten-Fidelitäts-Dilemma; Krohne & Hock, 2007) nicht als negativ zu bewerten ist. Zudem konnte die Konstruktvalidität der Freizeitbereichsskalen belegt werden. Die überwiegend hohen Korrelationen der sich entsprechenden FI- und FA-Skalen sprechen für konvergente Validität, während die niedrigen Korrelationswerte zwischen den übrigen FI- und FASkalen auf divergente Validität hinweisen. Einzig der Freizeitbereich Haushalt weist eine sehr niedrige Passung Diagnostica (2018), 64 (1), 14–25
22
A. Nikstat et al., Entwicklung und Validierung des FIFI-K
Tabelle 4. Korrelationen der Primär- und Sekundärskalen des FIFI-K mit SWB Korrelation HSWBS mit FI-Skalen
FA-Skalen
Primärskalen Sozial-Unternehmerisch
.23**
Virtual Life
.05
-.01
Heimische Entspannung
.07
-.07*
Musik
.01
.01
Urlaub
.13**
.26**
Kultur
.16**
.21**
Outdoor
.08*
.18**
Tiere Naturnahe Erholung Spiele & Rätsel
-.04 .10** -.01
.37**
.07* .18** .00
Wellness
.15**
.21**
Haushalt
.13**
.10**
Gestalterisch-Handwerklich
.06
.13**
Sozial-Unterstützend
.21**
.19**
Kochen & Backen
.14**
.15**
Informierend-Bildend
.07*
.06
Intellektuell-Kreativ
-.02
.04
Religion & Spiritualität
.13**
.09**
Finanzen
.09**
.14**
Auto & Motorrad
.08*
.12**
Sport
.17**
.21**
Rezeptiv-Erholsam
.17**
.21**
Aktiv-Erholsam
.12**
.22**
Hegend-Gestaltend
.17**
.19**
Intellektuell
.08*
.10**
Kompetitiv
.18**
.22**
Gesamtwert
.22**
.29**
Sekundärskalen
Anmerkungen: N = 840, HSWBS = Habituelle subjektive Wohlbefindensskala, FI = wie gerne eine Tätigkeit ausgeübt wird, FA = wie häufig eine Tätigkeit ausgeübt wird. * p < .05, ** p < .01.
zwischen Interesse und Aktivität auf, was dadurch zu erklären ist, dass das Interesse an der Tätigkeit vermutlich eher gering ist, im Gegensatz dazu aber die Häufigkeit mit der die Tätigkeit ausgeführt wird relativ hoch ist. Zudem können wohl eher wenige Personen bei Haushaltsaktivitäten Spaß empfinden und diesen Erholung abgewinnen. Positiv hervorzuheben sind außerdem die kurze Bearbeitungsdauer und die für Onlineumfragen sehr geringe Abbruchquote während der Bearbeitung des Instruments. So zeichnet sich das FIFI-K zusätzlich zu seiner guten psychometrischen Qualität auch durch eine hohe Anwendungsökonomie und Akzeptanz aus. Durch die Erfassung von passivem und aktivem Interesse an einer Tätigkeit eröffnet das FIFI-K eine neue Möglichkeit zur Abbildung von Freizeitinteressen bzw. Diagnostica (2018), 64 (1), 14–25
Freizeitbeschäftigungen. Zum einen wird der wichtige Aspekt der intrinsischen Motivation für eine Freizeitbeschäftigung berücksichtigt. Zum anderen unterstützt die Erhebung der rein subjektiv empfundenen Häufigkeit, mit der eine Freizeitbeschäftigung ausgeübt wird, das Ziel der möglichst breiten Erfassung der Freizeitaktivität als solche. Da sich einige Items hinsichtlich ihrer Ausführbarkeit erheblich unterscheiden (z. B. „Klettern / Bergsteigen“ und „Kochen“), eignet sich die Erfassung der subjektiv erlebten Häufigkeit besonders dazu, die Vergleichbarkeit der verschiedenen Tätigkeiten zu ermöglichen und den Einfluss der verschiedenen Freizeittätigkeiten auf potentiell abhängige Variablen (z. B. Wohlbefinden) zu untersuchen. Daraus resultiert ein Informationsgewinn, der in bisherigen Studien der Freizeiterfassung nicht gegeben © 2017 Hogrefe Verlag
A. Nikstat et al., Entwicklung und Validierung des FIFI-K
war, da diese oft nur das aktive Interesse in Form von absoluten Häufigkeiten und / oder Dauer der Freizeitaktivität erhoben haben (vgl. Piepenburg & Kandler, 2016: z. B. Stiftung für Zukunftsfragen, 2013; Goldberg, 2010; Albert et al., 2010). Erst die Betrachtung, ob überhaupt Interesse für eine bestimmte Freizeittätigkeit besteht und ob das Interesse auch entsprechend in der Freizeit umgesetzt oder ausgelebt wird, erlaubt ein vollständiges Bild der Bedeutung der Freizeitbeschäftigung für das SWB (Kuykendall et al., 2015). Die differenzierte Betrachtung der Zusammenhänge der Freizeitinteressen, der Freizeitaktivitäten und der Interesse-Aktivitäts-Passung mit dem SWB ergibt zwei interessante Befunde. Zum einen wird der Zusammenhang zwischen Freizeitinteressen und SWB über Freizeitaktivitäten vermittelt. Das bedeutet, dass alleine das Interesse an einer Sache nur wenig zum SWB beiträgt, es muss auch die Möglichkeit bestehen, diesem Interesse aktiv nachzugehen. Zum anderen zeigt sich ein negativer Zusammenhang zwischen dem Freizeitinteresse per se und der individuellen Interesse-Aktivitäts-Passung. So ist es Personen mit vielen hoch ausgeprägten Freizeitinteressen weniger möglich, diese auch so häufig auszuüben, wie sie gerne würden, während die individuelle Passung bei Personen, die weniger stark ausgeprägte Interessen haben, dementsprechend höher ausfällt. Für die klinische Praxis könnte dies bedeuten, dass Interventionen bei der Verhaltensaktivierung auch darauf ausgerichtet sein sollten, auf einzelne leicht umsetzbare Interessen zu fokussieren. Bereits Ryan und Deci (2000) unterstrichen in ihren Arbeiten zur Selbstbestimmungstheorie die Bedeutung des Autonomie- und Kompetenzerlebens sowie der sozialen Eingebundenheit bei der Ausführung von Handlungen. Den Autoren zufolge hat die Befriedigung dieser drei Bedürfnisse positive Auswirkungen auf die psychische Gesundheit. Die Passung zwischen Freizeitinteressen und -aktivitäten kann als Indikator für das wahrgenommene Autonomieerleben bei der Handlungsausführung betrachtet werden, denn selbstbestimmte Handlungen sind unter anderem durch das Interesse an diesen Tätigkeiten gekennzeichnet und die Autonomie zeigt sich darin, dass die Motivation für eine (bzw. das Interesse an einer) Tätigkeit auch in eine Aktivität mündet. Der signifikante Zusammenhang zwischen der Interesse-Aktivitäts-Passung und dem SWB in dieser Studie sowie die relativ hohen Zusammenhänge zwischen dem SWB und sozialen Freizeitaktivitäten (z. B. Sozial-Unternehmerische Freizeitinteressen) lassen sich in Übereinstimmung mit der Selbstbestimmungstheorie damit erklären, dass ein höheres Autonomieerleben sowie eine höhere soziale Eingebundenheit mit größerem Wohlbefinden einhergehen. Der vergleichsweise hohe Zusammenhang zwischen der Freizeitaktivität und dem SWB stützt zudem das gän© 2017 Hogrefe Verlag
23
gige Verfahren der Verhaltensaktivierung in der kognitiven Verhaltenstherapie zur Behandlung depressiver Patientinnen und Patienten. Hierbei erhalten Freizeitaktivitäten mit sozialer Komponente einen besonderen Stellenwert. Prinzip der Verhaltensaktivierung ist, dass die depressive Symptomatik durch mehr Aktivität der Patientinnen und Patienten gemildert werden soll, da so eine höhere Verstärkerbilanz durch positive Rückmeldungen der sozialen Umwelt erreicht werden kann (Lochmann & Hoyer, 2013). Hier wird auch die praktische Relevanz des FIFI-K deutlich. Es kann zu Beginn einer kognitiven Verhaltenstherapie zur Statusdiagnostik eingesetzt werden. In diesem Kontext können Freizeitaktivitäten identifiziert werden, die von Patientinnen und Patienten als angenehm erlebt werden. Das Instrument kann hier als Anregung dienen und Vorschläge hinsichtlich der Freizeitgestaltung machen. Um eine Verhaltensaktivierung zu erreichen, können diese angenehmen Tätigkeiten systematisch in den Alltag integriert werden. Zudem kann das FIFI-K im Verlauf der Therapie zur intraindividuellen Veränderungsdiagnostik genutzt werden, um den therapeutischen Fortschritt hinsichtlich der Verhaltensaktivierung (v. a. eine erhöhte Interesse-Aktivitäts-Passung) zu erfassen. Denkbar ist auch, dass allein durch die Selbstbeobachtung der Patientinnen und Patienten eine Veränderung im Verhalten eintritt (Reaktivität; siehe Hautzinger, 2011), was zusätzlich für den Einsatz strukturierter Instrumente zur Freizeiterfassung im Kontext der Depressionsbehandlung spricht. Auch im Bereich sozialer Beziehungen bietet sich die Verwendung des FIFI-K an: Hier kann es beispielsweise zur Paarberatung oder zur Beantwortung von Fragen zur Übereinstimmung von Freizeitinteressen / -aktivitäten und Beziehungsqualität eingesetzt werden. Ein weiterer Bereich, in dem die Freizeitgestaltung eine zentrale Rolle einnimmt, ist der des gesunden Alterns. Nach der Aktivitätstheorie ist eine hohe Lebenszufriedenheit durch eine aktive Lebensgestaltung eine wichtige Voraussetzung für erfolgreiches Altern (Fischer, 1991). Engeln (2003) identifizierte in seiner Studie die Freizeitgestaltung als wichtige Stellgröße für die Lebensqualität im Alter. Seine Ergebnisse deuten darauf hin, dass ein hohes und befriedigtes Bedürfnis nach Freizeitaktivitäten zu einer deutlichen Erhöhung der Lebensqualität führt. Da das FIFI-K sowohl das Bedürfnis nach Freizeitaktivitäten als auch dessen Befriedigung erfasst und zusätzlich die Berechnung der Passung zwischen diesen Aspekten erlaubt, kann es auch im Kontext des gesunden Alterns zur Status- und Verlaufsdiagnostik genutzt werden. Der mögliche Anregungsgehalt durch das Instrument, eine höhere Passung zwischen Interesse und Aktivität anzustreben, könnte sich vorteilhaft auf den Prozess des funkDiagnostica (2018), 64 (1), 14–25
24
tionalen Alterns auswirken. Letzteres ist sicher auch für das Berufsleben im Sinne der Erreichung einer gesunden Work-Life-Balance relevant. In zukünftigen Studien sollte einerseits die postulierte Struktur des FIFI-K repliziert werden, andererseits sollte die Funktionalität des FIFI-K für die hier genannten potentiellen Anwendungsgebiete wissenschaftlich untermauert werden. Auch die Rolle von Persönlichkeitseigenschaften im Zusammenhang mit Freizeitinteressen und -aktivitäten ist aktuell wenig untersucht. Erste Untersuchungen ergaben, dass Offenheit für Erfahrungen signifikant mit kulturell-ästhetischen Freizeitinteressen („cultural-aesthetics leisure interests“) korreliert, während Extraversion und Neurotizismus einen signifikanten Zusammenhang mit sozialen Interessen („social interests“) aufzeigten (Wilkinson & Hansen, 2006). Zusammenfassend steht mit dem FIFI-K ein ökonomisches, reliables und valides Messinstrument zur Verfügung, welches die breite Erfassung und Modellierung von Freizeitinteressen und -aktivitäten für einen großen Altersbereich ermöglicht und vielfältige Anwendungsmöglichkeiten in Praxis und Forschung bietet.
Elektronische Supplemente (ESM) Die elektronischen Supplemente sind mit der OnlineVersion dieses Artikels verfügbar unter https://doi.org/ 10.1026/0012-1924/a000187 ESM 1. Items des FIFI-K ESM 2. Strukturmodell des Sekundärfaktors Rezeptiv-Erholsame Interessen ESM 3. Strukturmodell des Sekundärfaktors Aktiv-Erholsame Interessen ESM 4. Strukturmodell des Sekundärfaktors Hegend-Gestaltende Interessen ESM 5. Strukturmodell des Sekundärfaktors Intellektuelle Interessen ESM 6. Strukturmodell des Sekundärfaktors Kompetitive Interessen ESM 7. Mess- und Strukturmodellinvarianz zwischen Männern und Frauen
Literatur Albert, M., Hurrelmann, K., & Quenzel, G. (2010). 16. Shell Jugendstudie. Jugend 2010. Frankfurt/Main: Fischer Taschenbuch. Arbuckle, J. L. (2012). AMOS user’s guide 21.0. Chicago, IL: SPSS. Browne, M. W. & Cudeck, R. (1993). Alternative ways of assessing model fit. In K. A. Bollen & J. S. Long (Eds.), Testing structural equation models. (pp. 136 – 162). Newbury Park, CA: Sage. Diagnostica (2018), 64 (1), 14–25
A. Nikstat et al., Entwicklung und Validierung des FIFI-K
Caunt, B. S., Franklin, J., Brodaty, N. E. & Brodaty, H. (2013). Exploring the causes of subjective well-being: A content analysis of peoples’ recipes for long-term happiness. Journal of Happiness Studies, 14, 475 – 99. doi:10.1007/s10902-0129339-1 Cotter, E. W. & Fouad, N. A. (2011). The relationship between subjective well-being and vocational personality type. Journal of Career Assessment, 19, 51 – 60. doi:10.1177/1069072710382614 Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika, 16, 297 – 334. doi:10.1007/BF02310555 Dalbert, C. (1992). HSWBS–Habituelle subjektive Wohlbefindensskala. Trier: ZPID Testarchiv der Universität Trier. Dilling, H., Mombour, W. & Schmidt, M. H. (2010). Internationale Klassifikation psychischer Störungen: Kapitel V (F). Bern: Huber. Di Mauro, S., Scalia, G., Di Mauro, A., Di Fazio, I., Giuffrida, F., Leotta, C. et al. (2001). The leisure time and the third age: the experience of a geriatric day hospital. Archives of Gerontology and Geriatrics, 33, 141 – 150. doi:10.1016/S0167-4943(01) 00111-X Dimidjian, S., Hollon, S. D., Dobson, K. S., Schmaling, K. B., Kohlenberg, R. J., Addis, M. E. et al. (2006). Randomized trial of behavioral activation, cognitive therapy, and antidepressant medication in the acute treatment of adults with major depression. Journal of Consulting and Clinical Psychology, 74, 658 – 670. doi:10.1037/0022-006X.74.4.658 Dubbert, P. M. (2002). Physical activity and exercise: Recent advances and current challenges. Journal of Consulting and Clinical Psychology, 70, 526 – 536. doi:10.1037//0022-006X.70.3.526 Dunn, T. J., Baguley, T. & Brunsden, V. (2014). From alpha to omega: A practical solution to the pervasive problem of internal consistency estimation. British Journal of Psychology, 105, 399 – 412. doi:10.1111/bjop.12046 Engeln, A. (2003). Zur Bedeutung von Aktivität und Mobilität für die Entwicklung im Alter. Zeitschrift für Gerontopsychologie &-psychiatrie, 16, 117 – 129. doi:10.1024/1011-6877.16.3.117 Fischer, I. (1991). Psychologische Alternstheorien. In W. D. Oswald, W. M. Herrmann & S. Kanowski (Hrsg.), Gerontologie: Medizinische, psychologische und sozialwissenschaftliche Grundbegriffe (2. Aufl., S. 425 – 430). Stuttgart: Kohlhammer. Furr, R. M. (2008). A framework for profile similarity: Integrating similarity, normativeness, and distinctiveness. Journal of Personality, 76, 1267 – 1316. doi:10.1111/j.1467-6494.2008.00521.x Goldberg, L. R. (2010). Personality, demographics, and self-reported behavioral acts: The development of avocational interest scales from estimates of the amount of time spent in interestrelated activities. In C. R. Agnew, D. E. Carlston, W. G. Graziano & J. R. Kelly, (Eds.), Then a miracle occurs: Focusing on behavior in social psychological theory and research (pp. 205 – 226). New York, NL: Oxford University Press. Haarmann, A., Scholz, E., Wasmer, M., Blohm, M. & Harkness, J. (2006). Konzeption und Durchführung der „Allgemeinen Bevölkerungsumfrage der Sozialwissenschaften“ (ALLBUS) 2004. Verfügbar unter: http://nbn-resolving.de/urn:nbn:de:0168-ssoar262412 Hansen, J. C. (1998). Leisure Interest Questionnaire. St. Paul, MN: JCH Consulting. Hansen, J. C. & Scullard, M. G. (2002). Psychometric evidence for the Leisure Interest Questionnaire and analyses of the structure of leisure interests. Journal of Counseling Psychology, 49, 331 – 341. doi:10.1037//0022-0167.49.3.331 Hautzinger, M. (2011). Selbstbeobachtung. In M. Linden & M. Hautzinger (Hrsg.), Verhaltenstherapiemanual (S. 257 – 260). Berlin, Heidelberg: Springer-Verlag. Holland, J. L. (1997). Making vocational choices: A theory of vocational personalities and work environments (3. Aufl.). Odessa, FL: Psychological Assessment Resources. © 2017 Hogrefe Verlag
A. Nikstat et al., Entwicklung und Validierung des FIFI-K
Iwasaki, Y. (2003). Roles of leisure in coping with stress among university students: A repeated-assessment field study. Anxiety, Stress & Coping: An International Journal, 16, 31 – 57. doi:10.1080/1061580021000057022 Krohne, H. W. & Hock, M. (2007). Psychologische Diagnostik: Grundlagen und Anwendungsfelder. Stuttgart: Kohlhammer. Kuykendall, L. Tay, L. & Ng, V. (2015). Leisure engagement and subjective well-being: A meta-analysis. Psychological Bulletin. 141, 364 – 403. Verfügbar unter: doi:10.1037/a0038508 Lochmann, E. & Hoyer, J. (2013). Verhaltensaktivierung bei Depression. Psychotherapie im Dialog, 14(03), 57 – 60. doi:10.1055/ s‐0033-1353820 McDonald, R. P. (1999). Test theory: A unified treatment. Mahwah, NJ: Lawrence Erlbaum. McKechnie, G. E. (1975). Manual for the leisure activities blank. Palo Alto, CA: Consulting Psychologists Press. Piepenburg, A. & Kandler, C. (2016). Entwicklung und Validierung des Fragebogen-Inventar für Freizeitinteressen (FIFI). Diagnostica, 62, 126 – 142. doi:10.1026/0012-1924/a000149 Revelle, W. & Zinbarg, R. E. (2009). Coefficients alpha, beta, omega, and the glb: Comments on Sijtsma. Psychometrika, 74, 145 – 154. doi:10.1007/S11336-008-9102-Z Ryan, R. M. & Deci, E. L. (2000). Self-determination theory and the facilitation of intrinsic motivation, social development, and wellbeing. American Psychologist, 55, 68 – 78. doi:10.1037110003066X.55.1.68 Schermelleh-Engel, K., Moosbrugger, H. & Müller, H. (2003). Evaluating the fit of structural equation models: Tests of significance and descriptive goodness-of-fit measures. Methods of Psychological Research, 8, 23 – 74. Verfügbar unter: http://cite seerx.ist.psu.edu/viewdoc/download?doi=10.1.1.509.4258& rep=rep1&type=pdf
25
Stangl, W. (1991). Der Freizeit-Interessen-Test (FIT). Zeitschrift für Differentielle und Diagnostische Psychologie, 4, 231 – 244. Statistisches Bundesamt (2003). Wo bleibt die Zeit? Die Zeitverwendung der Bevölkerung in Deutschland 2001 / 02. Bundesministerium für Familie, Senioren, Frauen und Jugend. Verfügbar unter: https://www.destatis.de/DE/Publikationen/Thematisch/ EinkommenKonsumLebensbedingungen/Zeitbudgeterhebung/ WobleibtdieZeit5639101029004.pdf ?__blob=publicationFile Stiftung für Zukunftsfragen (2013). Freizeit-Monitor 2013. Daten zur Freizeitforschung. Hamburg: Freizeit-Forschungsinstitut. Verfügbar unter: http://www.stiftungfuerzukunftsfragen.de/ fileadmin/user_upload/freizeitmonitor/2013/Stiftung-fuer-Zu kunftsfragen_Freizeit-Monitor-2013.pdf Wilkinson, T. J. & Hansen, J. H. (2006). The relationship among leisure interests, personality traits, affect, and mood. Measurement & Evaluation in Counseling and Development (American Counseling Association), 39, 31 – 41. Onlineveröffentlichung: 05. 09. 2017
Amelie Nikstat Angelina Höft Jessica Lehnhardt Stephanie Hofmann Dr. Christian Kandler Abteilung für Psychologie Universität Bielefeld Postfach 100131 33501 Bielefeld a.nikstat@uni-bielefeld.de
470
Sozial engagiert. Diakonisch geprägt. © 2017 Hogrefe Verlag
www.bethel.de Diagnostica (2018), 64 (1), 14–25
Originalarbeit
Fehlbelastungen im Studium Befunde zur Reliabilität und Validität einer studentischen Irritationsskala Anette Hiemisch, Alexandra Armbrust und Julia Gröger Zusammenfassung: In zwei Studien wurde die aus dem Arbeitskontext stammende Irritationsskala an den universitären Kontext angepasst. Die studentische Irritationsskala erfasst die subjektiv wahrgenommene kognitive und emotionale Belastung im Studium. Im Vergleich zum Original wurden in einer ersten Studie in zwei Befragungen (N = 348, N = 121) für die Subskala emotionale Irritation zwei Items entfernt und eines neu formuliert. In der zweiten Studie (N = 903) wurde die zweifaktorielle Struktur der Skala mittels konfirmatorischer Faktorenanalyse bestätigt. Die internen Konsistenzen sind sehr gut (kognitive Irritation: α = .85, emotionale Irritation: α = .91). Die Zusammenhänge mit anderen Konstrukten fielen weitgehend erwartungsgemäß aus. Studiumsspezifische Belastungsfaktoren wie die wahrgenommene Prüfungsbelastung korrelierten signifikant mit mindestens einer der beiden Subskalen. Es steht somit ein ökonomisches und valides Verfahren zur Erkennung belastungsbezogener Beanspruchungsfolgen im Studium zur Verfügung. Schlüsselwörter: Irritation, Fehlbelastungen, Gesundheit von Studierenden
Strains at University: Reliability and Validity of a Student Irritation Scale Abstract: In two studies, the irritation scale measuring psychological strain at work was adapted to the situation of university students. The student irritation scale measures self-reported cognitive and emotional strain at university. In the first study of two surveys (N = 348, N = 121), two items of the original emotional irritation scale were removed and one was reformulated. In the second study (N = 903), the twofactor structure of the new scale was substantiated via confirmatory factor analysis. The internal consistencies of the scales were excellent (cognitive irritation: α = .85, emotional irritation: α = .91). Relations with other constructs were mostly as expected and stressors specific for university students such as strain caused by examinations correlated significantly with at least one of the two subscales. Thus, the student irritation scale provides a valid and economic measure of stress effects in the context of university studies. Keywords: irritation, psychological strain, student’s health
Psychische Probleme Studierender an deutschen Hochschulen reichen von Arbeits- und Konzentrationsstörungen, mangelndem Selbstwertgefühl (Schleider & Güntert, 2009) über Depressionen und Angststörungen (Bailer, Schwarz, Witthöft, Stübinger & Rist 2008; Sehliger & Brähler, 2007) bis hin zum Burnout (Gusy, Lohmann & Marcus, 2012). Zwar sind einige Befunde auf spezielle Fächer, Abschlüsse oder Universitäten beschränkt, in ihrer Summe machen sie jedoch deutlich, wie wichtig es ist, Fehlbelastungen im Studium zu erkennen, bevor sie nachhaltige psychische oder physische Gesundheitsfolgen bedingen. Im Berufskontext wird die Irritationsskala (Mohr, Rigotti & Müller, 2005; 2007) zur frühzeitigen Erkennung psychischer Beanspruchung eingesetzt. Irritation beschreibt einen Erschöpfungszustand, der nicht mehr durch alltägliche Ruhepausen abgebaut werden kann und wird als „valider Indikator für vorliegende Belastungen (Stressoren)“ (Mohr et al., 2007, S. 19) angesehen. Ziel der vorliegenden Studien ist die Entwicklung und Validierung einer studentischen Irritationsskala. Im FolDiagnostica (2018), 64 (1), 26–36 https://doi.org/10.1026/0012-1924/a000190
genden stellen wir das Konstrukt Irritation sowie die Originalskala vor und diskutieren Anforderungen der Messung von Irritation bei jungen Erwachsenen. In Studie 1 werden dem studentischen Sprachgebrauch angepasste Itemformulierungen getestet und eine studentische Irritationsskala entwickelt. In Studie 2 folgt die Überprüfung der psychometrischen Eigenschaften der Skala, der faktoriellen Struktur des Instruments sowie der Validität der Subskalen.
Kognitive und emotionale Irritation Irritation ist weniger als eine psychische Erkrankung aber mehr als bloße Ermüdung und kann bei anhaltenden Fehlbelastungen in schwerwiegendere Beeinträchtigungen wie Depressionen münden (Dormann & Zapf, 2002; Mohr, 1991). Es werden zwei Facetten der Irritation unterschieden: Verhaltensweisen des „nicht abschalten können“ von der Arbeit (kognitive Irritation) sowie „erregte Ge© 2017 Hogrefe Verlag
A. Hiemisch et al., Die studentische Irritationsskala
reiztheitsreaktionen“ (emotionale Irritation) (Müller, Mohr & Rigotti, 2004; Mohr et al., 2007). Die beiden Facetten werden verschiedenen Phasen eines Zielanreiz-Zielablösezyklus (Müller et al., 2004) zugeordnet. Der Zyklus wird ausgelöst, wenn Stressoren wie Zeitmangel oder Konkurrenzdruck die Erreichung wichtiger persönlicher Ziele behindern (Klinger, 1975). In der ersten Phase (invigoration) wird auf Probleme bei der Zielerreichung mit erhöhten Realisierungsbemühungen reagiert. Sind diese nicht erfolgreich, resultiert eine Phase der Aggression. Die Person ist zwar noch an das Ziel gebunden, seine Anreize verlieren aber an Bedeutung. Hält dieser Zustand an, mündet er schließlich in die Phase der Depression, in der die endgültige Zielablösung erfolgt. Am Ende des Zyklus steht eine Phase der Erholung (recovery) von den mit der Zielablösung verbundenen Belastungen. Die Bezeichnungen Aggression oder Depression sind allgemeine Kennzeichnungen der, in den jeweiligen Phasen vorherrschenden, Befindlichkeiten und nicht im Sinne einer Persönlichkeitseigenschaft oder einer klinischen Diagnose zu verstehen. Kognitive Irritation als anhaltende gedankliche Auseinandersetzung mit zielrelevanten Problemen (z. B. „Ich muss auch zu Hause an Probleme bei der Arbeit denken“) wird als Indikator verstärkter Realisierungsbemühungen verstanden und somit der Phase invigoration zugeordnet. Emotionale Irritation (z. B. „Ich reagiere gereizt, obwohl ich es gar nicht will“) als „milde Form verbal-aggressiven Verhaltens“ (Müller et al., 2004, S. 214) ist demgegenüber in der Phase Aggression angesiedelt. Da Aggression bereits ein problematisches Fortschreiten des Zyklus indiziert, wird emotionale Irritation als die schwerwiegendere Symptomatik angesehen (Mohr, Müller, Rigotti, Aycan & Tschan, 2006). Befunde für Schülerinnen und Schüler (Jacobshagen, Rigotti, Semmer & Mohr, 2009) sowie für Arbeitnehmende (Dormann & Zapf, 2002) zeigen, dass die Wirkung von Stressoren auf die Entstehung von Depressionen durch Irritation mediiert wird. Im Längsschnitt (Dormann & Zapf, 2002) konnte die Bedeutung anhaltender Irritation gezeigt werden. Der Mediationseffekt fand sich ab einem Zeitraum von mindestens zwei Jahren zwischen dem Auftreten der Stressoren und der depressiven Symptomatik. Mittelfristig begünstigt Irritation psychosomatische Beschwerden, eine Verminderung des Selbstwertgefühls sowie Angstsymptome (Mohr, 1991).
Die Irritationsskala Die Irritationsskala (Mohr et al., 2007) erfasst kognitive (drei Items) und emotionale Irritation (fünf Items) über © 2017 Hogrefe Verlag
27
den Selbstbericht. Die Probanden bewerten dabei auf einer siebenstufigen Skala das Zutreffen der jeweiligen Items. Die theoretische Verortung der Irritationsfacetten im Zielanreiz-Zielablösezyklus wird durch Korrelationen der kognitiven und der emotionalen Subskalen mit Konstrukten berufsbezogener Persönlichkeitseigenschaften sowie des psychischen Befindens gestützt (Müller et al., 2004). So sind Leistungsmotivation, Arbeitszufriedenheit und Selbstwirksamkeit negativ assoziiert mit der emotionalen Irritation, korrelieren jedoch positiv (Leistungsmotivation) oder nicht mit der kognitiven Irritation. Darüber hinaus zeigt sich im Vergleich zur kognitiven Irritation ein deutlich höherer Zusammenhang zwischen emotionaler Irritation und subklinischer depressiver Symptomatik. Emotionale Irritation geht also mit dem Nachlassen positiver Zielanreize, Motivation und Selbstwirksamkeitserwartungen einher und indiziert einen höheren Schweregrad der Belastungen.
Übertragung der Irritationsskala auf das Studium Studium und Beruf weisen eine Reihe struktureller Gemeinsamkeiten auf. Wie Berufstätige sind Studierende in geordnete und teilweise zwingend vorgegebene Aktivitäten eingebunden, die der Erreichung eines bestimmten Ziels dienen (vgl. Salanova, Schaufeli, Martínez & Bresó, 2010). Die Ablösung von diesem Ziel oder seine Modifikation sind zudem mit erheblichen persönlichen Konsequenzen verbunden. Aufgrund der Ähnlichkeiten wurden bereits eine Reihe von Konstrukten und Modellen (z. B. Burnout, Salanova et al., 2010; job-demand-control-model, Schmidt, Sieverding, Scheiter & Obergfell, 2015) aus der Arbeitswelt gewinnbringend auf das Studium übertragen. Allerdings wurde die Irritationsskala auf Grundlage von Interviews mit Fabrikarbeitern (Mohr, 1986) entwickelt, bei denen es eine relativ klare Trennung zwischen Beruf und Privatem gibt. Demgegenüber ist es für das Studium typisch, einen großen Teil der Arbeiten zu Hause zu leisten. Dieser Aspekt erscheint besonders für die Validität der Items der kognitiven Irritationsskala relevant (z. B. „Ich muss auch zu Hause an Schwierigkeiten bei der Arbeit / beim Studium denken“). In den entsprechenden Items wird jedoch immer nach Problemen oder Schwierigkeiten gefragt. Es geht also nicht um eine mangelnde Trennung zwischen Arbeit / Studium und Privatleben, sondern um ein Nichtabschalten können von Problemen, das auch bei Studierenden ein Indikator für Fehlbelastungen sein sollte. Darüber hinaus wird die Originalskala nicht nur Diagnostica (2018), 64 (1), 26–36
28
A. Hiemisch et al., Die studentische Irritationsskala
Tabelle 1. Stichprobenbeschreibung Studie 1 Erhebung
Semester
N
Geschlecht
Alter
1
Anfang 3.
348
w = 222
18 bis 33, M = 22.16, SD = 2.47
2
Ende 1.
121
w = 85
17 bis 30, M = 20.58, SD = 2.56
Anmerkung: Semester verweist auf das Fachsemester der Studierenden bei der Befragung.
für Fabrikarbeiter, sondern für unterschiedlichste Berufsgruppen erfolgreich eingesetzt (Dormann & Zapf, 2002; Stück, Rigotti & Mohr, 2004). Im edukationalen Bereich hat sich bereits eine Irritationsskala für Schülerinnen und Schüler als bedeutsamer Prädiktor von Depressivität und psychosomatischen Beschwerden erwiesen (Jacobshagen et al., 2009). Zur Erfassung des Belastungsgeschehens in der Schule setzten Jacobshagen et al. (2009) die Irritationsskala in zwei Stichproben (N = 1 310, N = 301) von Schülerinnen und Schülern im Alter von 16 bis 21 Jahren ein. Dabei wurde in den Items jeweils das Wort Arbeit durch das Wort Schule ersetzt (z. B. „Ich muss auch zu Hause an Schwierigkeiten in der Schule denken“). Die Befunde zur faktoriellen Validität wichen von denen der Originalskala ab, da in einer Hauptkomponentenanalyse mit anschließender Promax-Rotation die zweifaktorielle Struktur der Skala nicht bestätigt wurde. Es waren aber nicht Items der Skala kognitive Irritation, sondern solche der emotionalen Irritation („Manchmal fühle ich mich wie jemand, den man als Nervenbündel bezeichnet“ und „Wenn ich von der Schule nach Hause komme, bin ich ziemlich nervös“), die substantielle Ladungen auf beiden Irritationsfaktoren aufwiesen. Möglicherweise entsprechen einige der von Mohr in den 1980er Jahren ausgesuchten Formulierungen fast 30 Jahre später nicht mehr dem Sprachgebrauch. Gerade Jugendliche wählen wahrscheinlich andere Worte als Nervenbündel, um ihre Befindlichkeit zu beschreiben. Insgesamt erscheint somit die Anwendung der Irritationsskala auf die Tätigkeit des Studierens vielversprechend. Allerdings sollte bei der Skalenentwicklung auf eine Anpassung der Itemformulierungen an den studentischen Sprachgebrauch geachtet werden.
Studie 1: Entwicklung der studentischen Irritationsskala Die Entwicklung der studentischen Irritationsskala umfasste drei Schritte. Im ersten Schritt wurde in den acht Diagnostica (2018), 64 (1), 26–36
Items der Originalskala das Wort Arbeit durch die Worte Uni („Wenn ich von der Uni nach Hause komme, bin ich ziemlich nervös“) oder Studium („Ich muss auch zu Hause an Schwierigkeiten beim Studium denken“) ersetzt und die Itemkennwerte sowie die faktorielle Struktur der Skala ermittelt (Befragung 1). Der zweite Schritt zielte auf eine bessere Anpassung der Items an den studentischen Sprachgebrauch. Nach Diskussion der Itemformulierungen mit Studierenden wurden daher drei Items verändert. Aufgrund einer weiteren explorativen Faktorenanalyse (Befragung 2) erfolgte abschließend die Auswahl der Items für die studentische Irritationsskala.
Stichprobe und Datenerhebung Die Datenerhebung fand zu zwei Zeitpunkten (Befragung 1 und 2) an einer Volluniversität in Norddeutschland statt. Befragung 1 war Teil der institutionalisierten Qualitätssicherung. 2012 wurden alle Studierenden (N = 1 848) zu Beginn des dritten Fachsemesters per E-Mail eingeladen, an einer Online-Befragung teilzunehmen. Die Rücklaufquote betrug 18 %. In die Auswertung flossen die Daten von 348 Studierenden aus 43 Fächern (erstes Studienfach) ein, die sich wie folgt auf die Fakultäten verteilen: 131 Philosophische, 120 Mathematisch-Naturwissenschaftliche, 57 aus Recht- und Staat, 36 Medizinische und 1 aus Theologie. Befragung 2 richtete sich im Januar 2013 an Studierende am Ende des erstens Semesters. Bevorzugt in Vorlesungen, die von Studierenden unterschiedlicher Fächer besucht werden, wurde der Link zu einem webbasierten Fragebogen verteilt. Es nahmen 121 Studierende aus 22 Fächern teil (38 Phil., 58 Math.-Nat., 19 Recht- und Staat, 6 Medizin). Tabelle 1 kann die Beschreibung der Stichproben entnommen werden.
Ergebnisse und Diskussion Wie bei der Originalskala sollten auch bei der studentischen Irritationsskala die Subskalen kognitive und emotionale Irritation miteinander korrelieren, deshalb wurde © 2017 Hogrefe Verlag
A. Hiemisch et al., Die studentische Irritationsskala
29
Tabelle 2. Faktorladungen und Trennschärfen Item
Skala
Ladungen Befragung 1 F1
Ladungen Befragung 2
F2
F1
Trennschärfe
F2
1. Es fällt mir schwer vom Studium abzuschalten.
KI
.69
-.02
.54
.09
.74
2. Ich muss auch zu Hause an Schwierigkeiten beim Studium denken.
KI
.93
-.11
.92
-.10
.83
3. Wenn andere mich ansprechen, kommt es vor, dass ich mürrisch reagiere.
EI
.21
.57
3a. Wenn andere mich ansprechen, kommt es vor, dass ich missgelaunt reagiere.
EI
.02
.76
.84
4. Selbst im Urlaub muss ich manchmal an Probleme mit dem Studium denken.
KI
.75
.05
.75
-.05
.74
5. Ich fühle mich ab und zu wie jemand, den man als Nervenbündel bezeichnet.
EI
.43
.44
5a. Ich fühle mich manchmal, als wäre ich kurz vorm Überlaufen.
EI
.46
.28
6. Ich bin schnell verärgert.
EI
-.11
.96
-.04
.88
.84
7. Ich reagiere gereizt, obwohl ich es gar nicht will.
EI
-.08
.96
.04
.86
.86
8. Wenn ich von der Uni nach Hause komme, bin ich ziemlich nervös.
EI
.40
.35
8a. Wenn ich von der Uni nach Hause komme, bin ich innerlich ziemlich angespannt.
EI
.63
.13
Anmerkungen: EI = emotionale Irritation, KI = Kognitive Irritation, a indiziert eine Neuformulierung des Items, die Trennschärfen sind nur für die Items angegeben, die in der endgültigen Skala enthalten sind.
für Befragung 1 eine Hauptachsenanalyse mit anschließender Promax-Rotation durchgeführt. Sie erbrachte eine zweifaktorielle Lösung, durch die 71 % der Varianz aufgeklärt wurde. In der unrotierten Lösung verteilt sich die Varianzaufklärung wie folgt auf die ersten vier Faktoren: F1 = 57 % und F2 = 14 %, F3 = 7 %, F4 = 7 %. Die Faktorladungen können der Tabelle 2 entnommen werden. Wie bereits in der schulischen Stichprobe wiesen die Items „Ich fühle mich ab und zu wie jemand, den man als Nervenbündel bezeichnet“ und „Wenn ich von der Uni nach Hause komme, bin ich ziemlich nervös“ substantielle Ladungen auf beiden Faktoren auf. Bei der darauffolgenden Diskussion der Items mit Studierenden wurden vor allem die Formulierungen „mürrisch“ und „Nervenbündel“ kritisiert. Mürrisch scheint ein Adjektiv zu sein, das älteren Menschen zugeschrieben wird, mit dem sich Studierende aber selbst nicht beschreiben, deshalb wurde „mürrisch“ in „missgelaunt“ geändert. Die Formulierung „Nervenbündel“ wurde als unpräzise empfunden. Einige der von Studierenden alternativ vorgeschlagenen Wendungen z. B. „am Rad drehen“, waren jedoch gleichzeitig stark mit „Verrücktsein“ assoziiert. Eine solche Konnotation der Skala sollte vermieden werden. Schließlich wurde „Nervenbündel“ durch „kurz vorm Überlaufen“ und „nervös“ durch „innerlich angespannt“ ersetzt, um besser den für emotionale Irritation kennzeichnenden Zustand der angespannten Gereiztheit abzubilden. Mit der überarbeiteten Skala wurde erneut eine Hauptachsenanalyse mit anschließender Promax-Rotation durchgeführt (Befragung 2), die ebenfalls eine zweifaktorielle Lösung erbrachte. In der unrotierten Lösung ergaben sich für die ersten vier Faktoren folgende Vari© 2017 Hogrefe Verlag
anzaufklärungen: F1 = 54 %, F2 = 14 %, F3 = 9 %, F4 = 8 %. Allerdings waren die Items „Ich fühle mich ab und zu als wäre ich kurz vorm Überlaufen“ und „Wenn ich von der Uni nach Hause komme, bin ich innerlich ziemlich angespannt“ nach wie vor nicht zur Messung der latenten Variable emotionale Irritation geeignet und wurden deshalb aus der Skala entfernt. Die studentische Irritationsskala umfasst demnach wie die Originalskala zwei Faktoren. Im Unterschied zum Original werden jedoch sowohl die kognitive als auch die emotionale Irritation mit jeweils drei Items erfragt. Dabei wurde für die Skala kognitive Irritation in den Items das Wort Arbeit durch Uni oder Studium ersetzt, während zwei Items der Skala emotionale Irritation entfernt und eines neu formuliert wurde. Im nächsten Schritt wurden die Gütekriterien der studentischen Irritationsskala untersucht.
Studie 2: Validität der studentischen Irritationsskala Für die Validierung der studentischen Irritationsskala wurde eine Replikation von Befunden für die im beruflichen Kontext entwickelte Originalskala angestrebt: Beide Skalen sollten die gleiche faktorielle Struktur aufweisen und für motivationale Aspekte des Studierens sowie für Konsequenzen der Irritation sollten sich vergleichbare Zusammenhänge mit der kognitiven und der emotionalen Irritation ergeben. Zusätzlich wurden Zusammenhänge zwischen den Subskalen der Irritation und studiumsspeDiagnostica (2018), 64 (1), 26–36
30
zifischen Stressoren in unterschiedlichen Studienphasen analysiert. Faktorielle Struktur. Wie für die Originalskala sollte auch für die studentische Irritationsskala ein zweifaktorielles Messmodell eine bessere Modellanpassung aufweisen als ein Modell mit einem globalen Irritationsfaktor (H1). Divergente Validität. Für die Originalskala konnte gezeigt werden, dass emotionale Irritation – im Gegensatz zur kognitiven Irritation – mit einem Nachlassen von beruflicher Motivation und Anreizverlust sowie mit erhöhter subklinischer depressiver Symptomatik einhergeht (Müller et al., 2004). Für die studentische Irritationsskala wurden daher folgende Hypothesen formuliert: H2a: Emotionale Irritation korreliert negativ mit dem studentischen Engagement, der Studienzufriedenheit und der Selbstwirksamkeit. Die kognitive Irritation korreliert dagegen nicht oder positiv mit diesen Variablen. H2b: Die emotionale Irritation korreliert höher mit Depressivität als die kognitive Irritation. Fehlbelastungen im Verlauf des Studiums. Die Aufnahme eines Studiums markiert eine potenzielle Krisensituation (Hornung & Fabian, 2001; Fromme, Corbin & Kruse, 2008). Die zu bewältigenden Entwicklungsaufgaben sind breit gefächert, gehen über das eigentliche Studieren hinaus und betreffen auch Bereiche wie Partnerschaft, Autonomie oder Affiliation. In der Studie wurden jedoch nur solche Belastungen betrachtet, die unmittelbar mit dem Studium zusammenhängen. Sie werden im Folgenden getrennt nach Studienabschnitten skizziert. Zu Beginn des Studiums sehen sich Studierende mit der Anforderung konfrontiert, den universitären Alltag selbst zu strukturieren und die neuen Aufgaben in ihren – teilweise ebenfalls ungewohnten – Alltag zu integrieren. Gelingt das nicht, ergeben sich bereits zu Beginn des Studiums Probleme, die eine erfolgreiche Bewältigung der Studieneingangsphase behindern und im gesamten Studienverlauf negativ nachwirken können. Diesen Aspekt bezeichnen wir als Organisation. Darüber hinaus sind es vor allem Leistungsanforderungen für Prüfungen, Examensarbeiten oder Testate, die als überfordernd erlebt werden (Bargel, Ramm & Multrus, 2012). Es werden daher die Prüfungsanforderungen sowie der allgemeine Arbeitsaufwand als potenzielle Stressoren untersucht. Der Studienabschluss konfrontiert Studierende mit einem erneuten Transitionsprozess. In Abhängigkeit von bisherigen Noten oder der Arbeitsmarktsituation sind die Aussichten, im gewünschten Beruf Fuß zu fassen, unterschiedlich gut. Vor dem Berufseinstieg steht jedoch der erfolgreiche Studienabschluss, bei dem sich die Examensarbeit als ein Hindernis erweisen kann. Schreibblockaden oder vermeidendes Aufschieben der Abschlussarbeit können den erfolgreichen Studienabschluss ernsthaft gefährden. Schließlich ist es in früheren Phasen des Studiums Diagnostica (2018), 64 (1), 26–36
A. Hiemisch et al., Die studentische Irritationsskala
noch möglich, Probleme – wie nicht bestandene Prüfungen oder erhebliche Lücken in einem bestimmten Fach – zeitweise auszublenden. Für den Studienabschluss müssen solche Probleme jedoch abschließend bewältigt werden (Stock, 2013). Je mehr aufgeschobene Probleme sich angesammelt haben, desto problematischer wird der Studienabschluss. Als spezifische Belastungen in der Studienausgangsphase werden daher berufliche Zukunftsängste, die Vorbereitung auf die Abschlussarbeit sowie die Problemkumulation am Ende des Studiums erhoben. H3a: In der Studieneingangsphase erweisen sich Organisation, Prüfungsanforderungen und Arbeitsaufwand als Prädiktoren der Irritation. In der Studienausgangsphase kommen berufliche Zukunftsängste, Problemkumulation sowie die Vorbereitung auf die Abschlussarbeit als phasenspezifische Prädiktoren hinzu. H3b: In der Studienausgangsphase sagen die phasenspezifischen Prädiktoren die Irritation besser vorher als die allgemeineren Faktoren Prüfungs- und Arbeitsaufwand. Konsequenzen von Irritation im Studium. Andauernde Zieldiskrepanzen während des Studiums sollten eine gedankliche Auseinandersetzung mit dem Studienabbruch begünstigen. Die Tendenz zum Studienabbruch sollte dabei umso stärker ausgeprägt sein, je länger die Probleme anhalten und je weiter Studierende im Zielanreiz-Zielablösezyklus fortgeschritten sind. Infolgedessen wird für die emotionale Irritation ein höherer Zusammenhang mit der Tendenz zum Studienabbruch erwartet als für die kognitive Irritation. H3c: Die Tendenz zum Studienabbruch korreliert höher mit der emotionalen als mit der kognitiven Irritation.
Stichprobe und Datenerhebung Insgesamt flossen die Daten von N = 907 Studierenden aus drei Stichproben (Befragungen 2 bis 4) in die Auswertung ein. Die Daten aus Befragung 2 wurden bereits in Studie 1 verwendet, die Daten aus den Befragungen 3 und 4 im Rahmen von Evaluationen der institutionalisierten Qualitätssicherung neu erhoben. Für Befragung 3 wurden 2013 alle Studierenden am Ende des ersten Studienjahrs per E-Mail aufgefordert an einer Evaluation teilzunehmen (N = 1 833). Die Rücklaufquote betrug 20 %, sodass die Daten von 358 Studierenden aus 40 Fächern (1. Studienfach) verwendet wurden. Sie verteilen sich wie folgt auf die Fakultäten: Phil. 91, Math.-Nat. 175, Recht- und Staat 36, Medizin 50 und Theologie 3. Demgegenüber wurden für Befragung 4 examensnahe Studierende angesprochen (N = 3 817). Dabei galt als examensnah, wer sich in den letzten beiden Semestern vor dem Studienende nach Regelstudienzeit befand. Die Rücklaufquote betrug 12 %. Es flossen die Daten von 428 Studierenden aus © 2017 Hogrefe Verlag
A. Hiemisch et al., Die studentische Irritationsskala
31
Tabelle 3. Neue Stichproben Studie 2 Erhebung
Semester
N
Geschlecht
Alter
3
Anfang 3.
358
w = 231
17 bis 40, M = 22.67 SD = 3.20
4
≥ 5.
428
w = 303
19 bis 55, M = 25.14, SD = 3.74
Anmerkung: Semester verweist auf das Fachsemester der Studierenden bei der Befragung.
38 Fächern (erstes Studienfach) ein: Phil. 170, Math.Nat. 139, Recht- und Staat 36, Medizin 71 und Theologie 5. Der Tabelle 3 kann die Beschreibung der Stichproben 3 und 4 entnommen werden.
Messinstrumente Bei der Validierung kamen mehrere Skalen zum Einsatz, die im Rahmen der Qualitätssicherung zur Evaluation der Studierbarkeit entwickelt wurden. Diese Skalen haben ein fünfstufiges Antwortformat von 0 (Ich stimme gar nicht zu) bis 100 (Ich stimme voll zu), mit Abstufungen in 25er Schritten. Für die Auswertung wurden die Items im Sinne der Skalenbezeichnungen gepolt. Hohe Werte auf der Skala Organisation bedeuten also, dass die Studierenden ihren universitären Alltag gut organisieren können, während hohe Werte auf der Skala Arbeitsaufwand, einen hohen wahrgenommen Aufwand im Studium indizieren. Organisation. Die Skala umfasst zwei Items (z. B. „Ich musste erst einmal lernen, meine Aufgaben an der Uni zu organisieren“, r = .78). Prüfungsanforderungen. Die wahrgenommenen Prüfungsanforderungen wurden mit zwei Items (z. B. „In den letzten beiden Semestern gab es zu viele Einzelprüfungen“, r = .73) erfasst. Arbeitsaufwand. Die Skala besteht aus drei Items (z. B. „Im Studienfach ist der Arbeitsaufwand zu hoch“, α = .87). Vorbereitung auf die Abschlussarbeit. Es wurden sieben Items formuliert (z. B. „Ich weiß gar nicht, wie ich an die Abschlussarbeit überhaupt herangehen soll“, α = .83). Problemkumulation. Die Skala erfasst den Eindruck, dass sich zum Ende des Studiums die Probleme auftürmen, mit drei Items (z. B. „Ich habe den Eindruck, dass mich am Ende des Studiums alle ungelösten Probleme einholen“, α = .85). Berufliche Zukunftsängste. Die Angst vor dem Übergang in den Beruf wurde mit fünf Items (z. B. „Ich habe Angst, dass ich in einem Job lande, der mir nicht gefällt“, α = .77) erfasst. Engagement. Die drei Items der Skala wurden in Anlehnung an Salanova et al. (2010) formuliert. (z. B. „Wenn ich für mein Studium arbeite, bin ich voller Energie“, α = .74). © 2017 Hogrefe Verlag
Tendenz zum Studienabbruch. Dieser Aspekt wird mit drei Items erfasst (z. B. „Ich denke daran, das Studium abzubrechen“, α = .82) Studienzufriedenheit. Hier wird bei der Evaluation auf eine bereits bestehende Skala mit drei Items zur Erfassung der Zufriedenheit mit den Studieninhalten (Westermann, Heise, Spieß & Trautwein, 1996) zurückgegriffen (aktuelle Studie: α = .82, fünfstufige Skala von 0 bis 100). Die Befragungen der Qualitätssicherung wurden für die Hypothesentestung um folgende Skalen ergänzt. Allgemeine Selbstwirksamkeitserwartung. Die Skala zur Erfassung der allgemeinen Selbstwirksamkeit (Schwarzer & Jerusalem, 1999) umfasst 10 Items, auch hier kam die fünfstufige Skala von 0 (Ich stimme voll zu) bis 100 (Ich stimme gar nicht zu) zum Einsatz (aktuelle Studie: α = .84). Depressivität. Die Skala Depressivität des Brief Symptom Inventory (BSI, Franke, 2000) erfasst mit sechs Items Symptome der „Traurigkeit bis hin zur klinisch manifesten Depression“ (Franke, 2000, S. 12). Die Studierenden mussten auf einer vierstufigen Skala („überhaupt nicht“ bis „stark“) angeben, wie sehr sie in den letzten 7 Tagen an den vorgegebenen Symptomen gelitten haben (aktuelle Studie: α = .83). Ängstlichkeit. Wurde mittels der gleichnamigen Skala des BSI (Franke, 2000) erfasst. Sie erfragt die Häufigkeit von Angstsymptomen in den vergangenen 7 Tagen mit sechs Items (aktuelle Studie: α = .82).
Ergebnisse Faktorielle Struktur und Messinvarianz über die Studienabschnitte Die Analysen wurden mit dem R-Paket lavaan (0.5 – 18) (Rosseel, 2012) durchgeführt und die Modelle mittels der Full Information Maximum Likelihood Methode (FIML) geschätzt. Da sich die Bedeutung der latenten Variablen über den Verlauf des Studiums ändern könnte, wurde die Messinvarianz über die Studienabschnitte geprüft. Dazu wurden für Studierende im ersten Studienjahr und examensnahe Studierende die Faktorenmodelle simultan geschätzt (Mehrgruppenmodell) und dann schrittweise Restriktionen über die Gruppen hinweg eingeführt. Diagnostica (2018), 64 (1), 26–36
32
Zunächst wurden jeweils die Parameter des einfaktoriellen und des zweifaktoriellen Modells simultan für beide Gruppen geschätzt (konfigurale Invarianz). Für das einfaktorielle Modell ergab sich eine schlechte Modellanpassung: χ2 (18, N = 907) = 906.22, p < .001, CFI = .738, RSMEA = .331, während die Anpassungsgüte des zweifaktoriellen Modells einen guten Fit aufwies: χ2 (16, N = 907) = 27.60, p = .04, CFI = .997, RSMEA = .04. Gemäß den Empfehlungen von Hu und Bentler (1999) wurden ein CFI ≥ .95 sowie ein RSMEA ≤ .06 als Cut-offWerte für die Modellanpassung angenommen. Das Ergebnis spricht für das zweifaktorielle Modell (H1). Im Folgenden wurden für das zweifaktorielle Modell weitere Tests auf Messinvarianz durchgeführt. Das Modell mit schwacher Messinvarianz (Gleichheit der Ladungen) musste nicht verworfen werden: χ2 (20, N = 907) = 35.88, p = .016, CFI = .995, RMSEA = .042. Der Modellfit verschlechterte sich im Vergleich zum ersten Modell nicht signifikant: Δχ2 (4, N = 907) = 68.51, p = .082. Die zusätzliche Gleichsetzung der Intercepts führte jedoch zu einer Modellverschlechterung: χ2 (26, N = 907) = 68.51, p < .001, CFI = .987, RMSEA = .059, die im Vergleich zum Modell mit schwacher Invarianz signifikant wurde: Δχ2 (6, N = 907) = 32.81, p < .001. Da sich vor allem für das Item „Selbst im Urlaub muss ich manchmal an Probleme mit dem Studium denken“ Unterschiede in den Intercepts ergaben, wurde ein wieteres Modell geprüft, in dem die Gleichheitsrestriktion für dieses Item aufgehoben war. Der Unterschied dieses Modells zu dem mit schwacher Messinvarianz wurde nicht signifikant Δχ2 (5, N = 907) = 7.99, p = .16. Es kann somit von einer partiellen metrischen Invarianz ausgegangen werden. In Abbildung 1 ist das zweifaktorielle Modell dargestellt, in dem die Ladungen für die gesamte Stichprobe geschätzt wurden. Die internen Konsistenzen beider Subskalen lagen im sehr guten Bereich: Kognitive Irritation α = .88, emotionale Irritation α = .92. Für die Originalskala wird die relative hohe Korrelation der beiden Irritationsfaktoren von r = .61 als Hinweis auf einen übergeordneten gemeinsamen Irritationsfaktor interpretiert, ohne dass die Faktoren jedoch als redundant angesehen werden (Müller et al., 2004). Für die studentische Irritationsskala ergibt sich mit einer Korrelation von r = .54 ein vergleichbares Ergebnis. Konvergente und divergente Validität. In Tabelle 4 sind die Korrelationen der Irritationsskalen mit motivationalen Variablen des Studierens, den emotionalen Konsequenzen der Irritation sowie den studiumsspezifischen Belastungsfaktoren dargestellt. Es werden auch die Korrelationen mit der studentischen Gesamtskala berichtet, um einen Vergleich mit den Befunden aus der Arbeitswelt zu ermöglichen. Bei der Interpretation der Signifikanzen Diagnostica (2018), 64 (1), 26–36
A. Hiemisch et al., Die studentische Irritationsskala
Anmerkungen: Die Ladungen sind standardisiert. KI1 = „Es fällt mir schwer vom Studium abzuschalten“, KI2 = „Ich muss auch zu Hause an Schwierigkeiten beim Studium denken“, KI3 = „Selbst im Urlaub muss ich manchmal an Probleme mit dem Studium denken“, EI1 = „Wenn andere mich ansprechen, kommt es vor, dass ich missgelaunt reagiere“, EI2 = „Ich bin schnell verärgert“, EI3 = „Ich reagiere gereizt, obwohl ich es gar nicht will“.
Abbildung 1. Messmodell der Irritation.
sind die unterschiedlichen Stichprobengrößen zu berücksichtigen. Wie im Arbeitskontext korrelierte auch die studentische emotionale Irritation signifikant negativ mit den motivationalen Indikatoren (Zufriedenheit und Engagement), während die Zusammenhänge mit der studentischen kognitiven Irritation bis auf eine Ausnahme insignifikant blieben. Im Gegensatz zu den Befunden von Müller et al. (2004) korrelierte jedoch nicht nur die emotionale, sondern auch die kognitive Irritation signifikant negativ mit der Selbstwirksamkeit. Allerdings waren die Zusammenhänge zwischen Selbstwirksamkeit und kognitiver Irritation in beiden Stichproben jeweils signifikant kleiner als die Zusammenhänge mit der emotionalen Irritation (Studienanfänger: z = 1.68, p = .02, examensnahe Studierende: z = 2.16, p = .01, einseitige Testung). Die Ergebnisse sprechen somit für die Differenzierung der Irritationsskalen, wobei die emotionale Irritation erwartungsgemäß mit dem Nachlassen der Motivation für und den Anreizen des Studiums einhergeht (H2a). Depressivität korrelierte in Übereinstimmung mit H2b in beiden Stichproben höher mit der emotionalen als mit der kognitiven Irritation. Dabei entsprachen die Zusammenhänge in ihrer Größenordnung denen, die für die Originalskala berichtet wurden. Beide Irritationsskalen korrelierten zudem signifikant mit der Ängstlichkeit. Prädiktoren der Irritation in verschiedenen Studienphasen. Wie in H3a erwartet, ergaben sich Zusammenhänge zwischen studiumsspezifischen Belastungsfaktoren und © 2017 Hogrefe Verlag
33
Anmerkungen: Unterschiedliche N bei den Studienanfängern basieren darauf, dass für einige Auswertungen die Stichproben der Befragungen 2 und 3 zusammengefasst werden konnten. * p < .05, ** p < .01. PK = Problemkumulation, VAB = Vorbereitung auf die Abschlussarbeit, BZA = berufliche Zukunftsängste, KI = Kognitive Irritation, EI = Emotionale Irritation, GI = Gesamtirritation.
.21** .14** .36** -.15** .22** -.18** GI
-.11**
-.49**
.54**
.53**
.39**
.19**
.16** .09
.14** .29**
.32** -.21**
-.06 .33**
.32**
.13**
.23**
.48**
.43**
.32**
.52** -.38**
-.29** -.02
-.17**
-.08
-.22**
KI
N = 428 N = 428
EI
Aufwand
N = 428 N = 428
Prüfung BZA
N = 428 N = 428
VAB PK
N = 428
N = 428
Abbruchtendenz Angst Zufriedenheit
Studienausgangsphase
N = 428
Depression
.31** .55**
Engagement
Selbstwirksamkeit
.29** .39**
.38** -.27 -.11* -.17** GI
-.12** -.20** EI
-.08 -.10* KI
-.30**
.43**
.26** .45** .24**
N = 349
-.16
N = 428
-.39**
-.27**
-.32**
N = 472
Organisation Abbruchtendenz Angst
N = 121
Depression
N = 121 N = 121 N = 472 N = 472
Selbstwirksamkeit Zufriedenheit Engagement
Studieneingangsphase
Tabelle 4. Korrelationen zwischen den Irritationsskalen und den betrachteten Modellvariablen
© 2017 Hogrefe Verlag
N = 428
.27**
.40** .35**
.21**
N = 472
.41** .40**
Prüfung
N = 472
Aufwand
A. Hiemisch et al., Die studentische Irritationsskala
Facetten der Irritation. Alle Prädiktoren wiesen signifikante und substantielle Korrelationen mit mindestens einer der Irritationsskalen auf. Für die examensnahen Studierenden ergaben sich in zwei hierarchischen multiplen Regressionen, bei denen im ersten Schritt Prüfungsanforderungen und Arbeitsaufwand sowie im zweiten Schritt die spezifischen Belastungsfaktoren (Vorbereitung auf die Abschlussarbeit, berufliche Zukunftsängste und allgemeine Problemkumulation) eingeführt wurden, für beide Irritationsskalen signifikante zusätzliche Varianzaufklärungen durch die phasenspezifischen Prädiktoren. Für die kognitive Irritation entfielen auf den ersten Block R2 = 4 %, F(2, 401) = 9.04, p < .001 und auf den zweiten Block ΔR2 = 13 %, F(3, 398) = 21.24, p < .001; für die emotionale Irritation R2 = 3 %, F(2, 403) = 5.56, p = .004 auf den ersten sowie ΔR2 = 13 %, F(3, 400) = 21.16, p < .001 auf den zweiten Block. Beide Subskalen der studentischen Irritation sind somit geeignet für verschiedene Phasen des Studiums spezifische Belastungen von Studierenden zu erfassen (H3b). In der Stichprobe der examensnahen Studierenden korrelierte die Abbruchtendenz in Übereinstimmung mit H3c signifikant höher mit der emotionalen als mit der kognitiven Irritation (z = 2.51, p < .001, einseitige Testung), während sich jedoch die Korrelationen in der Stichprobe der Studierenden nach dem ersten Studienjahr nicht signifikant unterschieden (z = .063, p = .13, einseitige Testung).
Diskussion Die Entwicklung der studentischen Irritationsskala erfolgte in mehreren Schritten. Zunächst wurde in den Items der aus dem Berufskontext stammenden Originalskala das Wort Arbeit durch die Worte Studium oder Uni ersetzt. Dann wurden einige Items neu formuliert, um sie an den studentischen Sprachgebrauch anzupassen. Die Auswahl der Items erfolgte auf der Grundlage einer explorativen Faktorenanalyse. Mittels konfirmatorischer Faktorenanalyse konnte abschließend die Zweidimensionalität der studentischen Irritationsskala gestützt werden. Die für den Modelltest ermittelten Indizes sind als sehr gut zu bewerten. Sowohl die Subskala der emotionalen als auch die der kognitiven Irritation umfasst jeweils drei Items. Veränderungen im Vergleich zum Original ergaben sich für die Skala emotionale Irritation. Die Befunde zur konvergenten und divergenten Validität der beiden Subskalen stützen ihre Verortung im Zielanreiz-Zielablösezyklus, da die emotionale Irritation, die einer späteren Phase des Zyklus zugeordnet wird, mit einer geringeren Ausprägung von Motivation und Freude am Studium einhergeht als die kognitive Irritation. Diagnostica (2018), 64 (1), 26–36
34
Entgegen den Erwartungen wies die kognitive Irritation jedoch einen negativen Zusammenhang mit der Selbstwirksamkeit auf, der in der Stichprobe examensnaher Studierender signifikant wird (r = -.29). Ein Grund für diesen Befund könnte darin liegen, dass kurz vor dem Examen studiumsrelevante Belastungen in der Regel länger bestehen als im ersten Studienjahr. Es wurden daher bereits mehr negative Erfahrungen gemacht, die wiederum eine verringerte Selbstwirksamkeitserwartung begünstigen können. Infolgedessen korreliert bei examensnahen Studierenden nicht nur die emotionale Irritation, sondern auch das Nachdenken über Probleme im Studium, wie es durch die Skala kognitive Irritation erfasst wird, negativ mit der Selbstwirksamkeit. Die Korrelationen mit den Konsequenzen der Irritation sprechen ebenfalls für die Validität der studentischen Irritationsskala. Die emotionale Irritation wies wie auch die Originalskala einen hohen Zusammenhang mit der Depressivität auf, während sich für die Ängstlichkeit jeweils leicht höhere Korrelationen mit der kognitiven Irritation ergaben. Für alle studiumsspezifischen Belastungsfaktoren fanden sich signifikante Korrelationen mit mindestens einer der Subskalen der Irritation. Darüber hinaus klärten in der Stichprobe examensnaher Studierender die für diese Phase des Studiums spezifischen Belastungen (z. B. Vorbereitung auf die Abschlussarbeit), im Vergleich zu den phasenunspezifischen Belastungsfaktoren (z. B. Arbeitsaufwand) den weitaus größeren Anteil an Varianz in beiden Irritationsfacetten auf. Die studentische Irritationsskala erscheint demnach als valider Indikator vorliegender Belastungen in den verschiedenen Studienabschnitten. Die angenommene höhere Korrelation zwischen emotionaler Irritation und der Tendenz zum Studienabbruch findet sich allerdings nur in der Stichprobe examensnaher Studierender. Examensnahe Studierende haben mehr Zeit, Aufwand und finanzielle Ressourcen in das Studium investiert als Studierende im ersten Studienjahr. Nur bei anhaltenden Problemen und hoher Belastung wird daher wahrscheinlich kurz vor dem Examen ein Studienabbruch erwogen. Demgegenüber denken Studierende zu Beginn des Studiums vielleicht schon bei geringeren Problemen darüber nach, das Studium abzubrechen oder zumindest das Fach zu wechseln. Das Nachdenken über den Studienabbruch könnte demnach in den unterschiedlichen Studienphasen mit unterschiedlichen Graden von Belastung einhergehen. In der Originalskala werden Gütekriterien und Normen für beide Subskalen sowie für eine Gesamtskala berichtet. Dieses Vorgehen wird durch die relativ hohe Korrelation zwischen den Subskalen nahegelegt und kann daher auch für die studentische Irritationsskala überlegt werden. Allerdings sprechen sowohl das Ergebnis der Diagnostica (2018), 64 (1), 26–36
A. Hiemisch et al., Die studentische Irritationsskala
konfirmatorischen Faktorenanalyse als auch die differentiellen Korrelationsmuster zwischen den Subskalen und den, in der Studie betrachteten, Konstrukten gegen die Zusammenfassung zu einer Gesamtskala. Eine getrennte Betrachtung der Subskalen vermittelt ein genaueres Bild des Belastungsgeschehens. Für eine abschließende Empfehlung sollte jedoch zunächst in weiteren Studien geklärt werden, ob es durch die Zusammenfassung zur Gesamtskala zu einem Informationsverlust kommt. Das wäre dann der Fall, wenn bestimmte Ausprägungsmuster der Subskalen sich als Indikatoren für spezifische Belastungssituationen von Studierenden erweisen. Die Betrachtung von Studierenden in unterschiedlichen Studienphasen kann erste Hinweise auf einen möglichen Verlauf der Irritation über das Studium geben. Bei der Interpretation gilt es jedoch zu berücksichtigen, dass es sich um Querschnittsdaten handelt. Auffallend ist, dass im ersten Studienjahr die Belastungsfaktoren Organisation, Prüfungsanforderungen und Arbeitsaufwand höher mit der kognitiven Irritation korrelierten, während sich für die examensnahen Belastungsfaktoren stärkere Bezüge zur emotionalen Irritation zeigten. So korrelierte z. B. die Vorbereitung auf die Abschlussarbeit ausschließlich mit der emotionalen Irritation. Emotionale Irritation könnte zu Beginn des Studiums stärker auf Faktoren zurückzuführen sein, die nicht das unmittelbare Studieren betreffen (z. B. familiäre Belastungen oder der Beginn eines neuen Lebensabschnitts und damit einhergehender Verunsicherung). Es muss erst einmal eine gewisse Zeit studiert werden, damit studiumsspezifische Stressoren Irritation auslösen. Treten dann Probleme auf, führen diese zunächst zu einer vermehrten gedanklichen Auseinandersetzung. Die betrachteten Belastungen korrelieren daher in der Studieneingangsphase höher mit der kognitiven Irritation. Halten die Probleme jedoch an und / oder kommen spezifische Belastungen im Examen hinzu, intensiviert sich das Belastungsgeschehen, sodass die Belastungen in dieser Phase stärker mit der emotionalen Irritation korrelieren. Darüber hinaus sind Probleme gegen Ende des Studiums vielleicht insofern schwerwiegender, als sie eine Bedrohung des Studienabschlusses darstellen können. Einschränkungen. Die Daten zur Validierung des Fragebogens wurden lediglich an Studierenden einer Universität gewonnen und der Vergleich der verschiedenen Studienphasen erfolgte bisher nur im Querschnitt. Darüber hinaus könnte die Datenerhebung im Rahmen der integrierten Qualitätssicherung dazu geführt haben, dass es eine positive Selbstselektion gab. Studierende mit schwerwiegenden Problemen, die sich bereits vom Studium abgewendet haben, nehmen an solchen Befragungen vielleicht gar nicht teil. Eine Validierung und auch Normierung an einer repräsentativen Stichprobe von Studierenden ist daher anzustreben. Darüber hinaus sollte auch die Mess© 2017 Hogrefe Verlag
A. Hiemisch et al., Die studentische Irritationsskala
invarianz des Modells in verschiedenen Studienphasen einer genaueren Betrachtung unterzogen werden, um die Ursachen der lediglich partiellen Invarianz zu ergründen. In weiteren Untersuchungen sollten zudem die betrachteten Belastungsfaktoren in der Studieneingangsphase erweitert werden, um den Einfluss solcher Faktoren zu ermitteln, die zwar nicht unmittelbar auf das Studium zurückgehen, die aber trotzdem Fehlbelastungen zu Studienbeginn bedingen können. Darüber hinaus sind Längsschnittdaten wünschenswert. Sie würden es nicht nur erlauben, den Verlauf des Belastungsgeschehens, sondern auch Zusammenhänge zwischen Irritation und dem Studienabbruch genauer zu untersuchen. Trotz der genannten Einschränkungen weisen die Ergebnisse zusammengenommen die studentische Irritationsskala als reliables, valides sowie auch sehr ökonomisches Messinstrument aus. Die studentische Irritationsskala ist geeignet, die subjektiv wahrgenommene kognitive und emotionale Belastung von Studierenden zu diagnostizieren und so Fehlbelastungen von Studierenden aufgrund studiumsspezifischer Stressoren zu erkennen, bevor sie nachhaltigere Gesundheitsfolgen nach sich ziehen.
Literatur Bailer, J., Schwarz, D., Witthöft, M., Stübinger, C. & Rist, F. (2008). Prävalenz psychischer Syndrome bei Studierenden einer deutschen Universität. PPmP-Psychotherapie, Psychosomatik, Medizinische Psychologie, 58, 423 – 429. Bargel, T., Ramm, M. & Multrus, F. (2012). Schwierigkeiten und Belastungen im Bachelorstudium – wie berechtigt sind die studentischen Klagen? Beiträge zur Hochschulforschung, 34(1), 26 – 41. Verfügbar unter: www.ihf.zfb.mwn.de/uploads/media/ 1-2012-Bargel-Ramm-Multrus.pdf Dormann, C. & Zapf, D. (2002). Social stressors at work, irritation, and depressive symptoms: Accounting for unmeasured third variables in a multi-wave study. Journal of Occupational and Organizational Psychology, 75, 33 – 58. Franke, G. H. (2000). Brief symptom inventory (BSI) von L. R. Derogatis: (Kurzform der SCL-90-R). Göttingen: Beltz Test GmbH. Fromme, K., Corbin, W. R. & Kruse, M. I. (2008). Behavioral risks during the transition from high school to college. Developmental Psychology, 44, 1497 – 1504. Gusy, B., Lohmann, K. & Marcus, K. (2012). Sind Bachelor- / Masterstudierende stärker ausgebrannt? Prävention und Gesundheitsförderung, 7, 237 – 245. Hornung, R. & Fabian, C. (2001). Belastungen und Ressourcen im Studium. In R.M. Holm-Hadulla (Hrsg.), Psychische Schwierigkeiten von Studierenden (S. 133 – 157). Göttingen: Vandenhoeck & Ruprecht. Hu, L. & Bentler, P. M. (1999). Cutoff criteria for fit indexes in covari ance structure analysis: Conventional criteria versus new alter natives. Structural Equation Modelling: A Multidisciplinary Jour nal, 6, 1 – 55. Jacobshagen, N., Rigotti, T., Semmer, N. K. & Mohr, G. (2009). Irritation at school: Reasons to initiate strain management earlier. International Journal of Stress Management, 16, 195 – 214. © 2017 Hogrefe Verlag
35
Klinger, E. (1975). Consequences of commitment to and disengagement from incentives. Psychological Review, 82, 1 – 25. Mohr, G. (1986). Die Erfassung psychischer Befindensbeeinträchtigungen bei Industriearbeitern. Frankfurt / M.: Peter Lang-Internationaler Verlag der Wissenschaften. Mohr, G. (1991). Fünf Subkonstrukte psychischer Befindensbeeinträchtigungen bei Industriearbeitern: Auswahl und Entwicklung. In S. Greif, E. Bamberg & N. Semmer (Hrsg.), Psychischer Stress am Arbeitsplatz (S. 91 – 119). Göttingen: Hogrefe. Mohr, G., Müller, A., Rigotti, T., Aycan, Z. & Tschan, F. (2006). The assessment of psychological strain in work contexts. Concerning the structural equivalency of nine language adaptions of the Irritation scale. European Journal of Psychological assessment, 22, 198 – 206. Mohr, G., Rigotti, T. & Müller, A. (2005). Irritation – ein Instrument zur Erfassung psychischer Beanspruchung im Arbeitskontext. Skalen- und Itemparameter aus 15 Studien. Zeitschrift für Arbeits- und Organisationspsychologie A&O, 49, 44 – 48. Mohr, G., Rigotti, T. & Müller, A. (2007). Irritations-Skala zur Erfassung arbeitsbezogener Beanspruchungsfolgen. Göttingen: Hogrefe. Müller, A., Mohr, G. & Rigotti, T. (2004). Differenzielle Aspekte psychischer Beanspruchung aus Sicht der Zielorientierung. Zeitschrift für Differentielle und Diagnostische Psychologie, 25, 213 – 225. Rosseel, Y. (2012). lavaan: An R package for structural equation modeling. Journal of Statistical Software, 48. Salanova, M., Schaufeli, W. B., Martínez, I. & Bresó, E. (2010). How obstacles and facilitators predict academic performance: The mediating role of study burnout and engagement. Anxiety, Stress, & Coping, 23, 53 – 70. Schleider, K. & Güntert, M. (2009). Merkmale und Bedingungen studienbezogener Lern- und Arbeitsstörungen – eine Bestandsaufnahme. Beiträge zur Hochschulforschung, 31(2), 8 – 27. Schmidt, L. I., Sieverding, M., Scheiter, F. & Obergfell, J. (2015). Predicting and explaining students’ stress with the demandcontrol model: Does neuroticism also matter? Educational Psychology, 35, 449 – 465. Schwarzer, R. & Jerusalem, M. (Hrsg.). (1999). Skalen zur Erfassung von Lehrer- und Schülermerkmalen. Dokumentation der psychometrischen Verfahren im Rahmen der wissenschaftlichen Begleitung des Modellversuchs Selbstwirksame Schulen. Berlin: Freie Universität Berlin. Sehliger, K. & Brähler, E. (2007). Psychische Gesundheit von Studierenden der Medizin. Psychotherapeut, 52, 280 – 286. Stock, R. (2013). Entwicklung eines Fragebogens zu Anforderungen des Studienabschlusses. Unveröffentlichte Diplomarbeit. ErnstMoritz-Arndt-Universität Greifswald. Stück, M., Rigotti, T. & Mohr, G. (2004). Untersuchung der Wirksamkeit eines Belastungsbewältigungstrainings für den Lehrerberuf. Psychologie in Erziehung und Unterricht, 51, 234 – 242. Westermann, R., Heise, E., Spies, K. & Trautwein, U. (1996). Identifikation und Erfassung von Komponenten der Studienzufriedenheit. Psychologie in Erziehung und Unterricht, 43, 1 – 22. Onlineveröffentlichung: 05. 09. 2017 PD Dr. Anette Hiemisch Universität Greifswald Lehrstuhl für Allgemeine Psychologie Schwerpunkt Kognitionspsychologie Institut für Psychologie Franz-Mehringstraße 47 17489 Greifswald hiemisch@uni-greifswald.de Diagnostica (2018), 64 (1), 26–36
36
A. Hiemisch et al., Die studentische Irritationsskala
Dipl.-Psych. Alexandra Armbrust Staatliches Schulamt Greifswald Zentraler Fachbereich für Diagnostik und Schulpsychologie Martin-Andersen-Nexö-Platz 1 17489 Greifswald
Dipl.-Psych. Julia Gröger Schultz-Hencke-Heime Lernpsychotherapeutische Einrichtungen Treskowstraße 67 13156 Berlin
Hogrefe Tagungsplaner
Alle Tagungen im Überblick
Der Hogrefe Tagungsplaner bietet Ihnen ein umfassendes Verzeichnis von Tagungen, Kongressen und Symposien im Bereich der Psychologie und Psychiatrie.
Sie können sich nach verschiedenen Suchkriterien die passende Tagung oder den passenden Kongress anzeigen lassen. • Tagungsübersicht • Tagung beantragen und bearbeiten • Veranstaltungen eintragen
www.hogrefe.de/veranstaltungen/tagungen-und-kongresse
Elfmeterschießen sind keine Lotterie – und nach dem Lesen dieses Buches weiß man, warum. Daniel Memmert / Benjamin Noël
Elfmeter Die Psychologie des Strafstoßes 2017, 134 Seiten, € 19,95 / CHF 26.90 ISBN 978-3-8017-2780-2
Daniel Memmert Benjamin Noël
Elfmeter Die Psychologie des Strafstoßes
Das populärwissenschaftliche Buch für alle Fußball-Fans, Athleten, Trainer, Vereinsmitglieder, Manager und Medienvertreter in Deutschland basiert einerseits auf wissenschaftlich fundiertem sportpsychologischen und bewegungswissenschaftlichen Wissen.
Andererseits enthält es aber auch viele Anekdoten von großen und wichtigen Elfmetern aus der Geschichte des Fußballs. Somit werden in diesem Buch wissenschaftliche Befunde mit tatsächlichen Begebenheiten vom ominösen Punkt verbunden und mit vielen Abbildungen aufbereitet, die üblicherweise der Öffentlichkeit nicht ohne Weiteres zugänglich sind. Damit dies gelingen kann, integrieren die Autoren sportwissenschaftliche Erkenntnisse aus der ganzen Welt und bereiten diese leserfreundlich auf.
www.hogrefe.com
Diagnostica (2018), 64 (1), 26–36
© 2017 Hogrefe Verlag
ERT JE Holzer / Lenart / Schaupp
Eggenberger Rechentest für Jugendliche und Erwachsene
ERT JE
Manual
Eggenberger Rechentest für Jugendliche und Erwachsene
Diagnostikum für Dyskalkulie für Beginn der 7. Schulstufe bis Ende der 8. Schulstufe und nach Schulabschluss Norbert Holzer / Friederike Lenart / Hubert Schaupp Unter Mitarbeit von Ursula Grasser und Rosina Haider
ERT JE
Einsatzbereich Jugendliche in den letzten Pflichtschuljahren und Erwachsene; Gruppen- und Einzeltestung.
Norbert Holzer Friederike Lenart Hubert Schaupp
Diagnostikum für Dyskalkulie für Beginn der 7. Schulstufe bis Ende der 8. Schulstufe und nach Schulabschluss
unter Mitarbeit von Ursula Grasser Rosina Haider
Zusätzlich erhältlich ERT 0+ Best.-Nr. 03 190 01 € 115,00 / CHF 142.00 ERT 1+ Best.-Nr. 03 136 01 € 91,00 / CHF 113.00 ERT 2+ Best.-Nr. 03 141 01 € 93,00 / CHF 114.00 ERT 3+ Best.-Nr. 03 142 01 € 107,00 / CHF 131.00 ERT 4+ Best.-Nr. 03 143 01 € 107,00 / CHF 131.00
www.hogrefe.com
Verfahren Der ERT JE erfasst die Rechenkompetenz mit einer Feindifferenzierung im unteren Leistungsbereich (Rechenschwäche / Dyskalkulie). Anhand der Bearbeitungszeit wird zusätzlich das Ausmaß an Automatisierung oder ineffizienten Lösungsstrategien erfasst. Der Test besteht aus zwei Teilen, um bei der Durchführung eine Pause zu ermöglichen. Mittels 16 Skalen werden Fähigkeiten und Fertigkeiten in wesentlichen Dimensionen der Mathematik überprüft. Diese lassen sich zu den vier Faktoren Mathematische Ordnungsstrukturen, Arithmetische Fertigkeiten, Größenbeziehungen und Angewandte Mathematik zusammenfassen, die Aufschluss geben über individuelle Stärken und Schwächen sowie über den Stand der Entwicklung mathematischer Kompetenzen. Aufgrund der erreichten Werte können direkt Förderschwerpunkte abgeleitet werden. Die Summe der vier Faktoren ergibt den Gesamtwert Mathematische Leistung. Prozessdiagnostisch können anhand des ERT JE Veränderungen durch gezielte Förderung überprüft und nachgewiesen werden. Normen Ca. 2 400 Schülerinnen und Schüler der entsprechenden Altersgruppe. Bearbeitungsdauer Gruppentest: z. B. zwei Einheiten à 50 Minuten oder zwei Schulstunden. Einzeldurchführung: 20 bis 80 Minuten. Auswertung: ca. 5 bis 7 Minuten. Test komplett Bestehend aus: Manual, je 10 Testheften Teil A und B, je 10 Auswertungsbogen 7. und 8. Schulstufe, je 5 Klassenprofilen 7. und 8. Schulstufe, Auswertungsvorlage und Box. Best.-Nr. 03 472 01, € 115,00 / CHF 132.00
DiLe-D
MBK 0
Differenzierter Lesetest – Dekodieren
Test mathematischer Basiskompetenzen im Kindergartenalter
L. Paleczek / S. Seifert / T. Obendrauf / S. Schwab / B. Gasteiger-Klicpera
K. Krajewski
Reihe: Hogrefe Schultests Hrsg. von M. Hasselhorn / W. Schneider / U. Trautwein Einsatzbereich: Der DiLe-D richtet sich an Kinder der 1. bis 3. Grundschulklasse. Das Verfahren kann zum Schuljahresende der 1. Schulstufe (letzte 6 Wochen) sowie jeweils zu Schuljahresbeginn und -ende der 2. und 3. Schulstufe (jeweils in den ersten und den letzten 6 Wochen) eingesetzt werden. Es können sowohl Kinder mit Deutsch als Erstsprache (L1 Deutsch) als auch Kinder mit Deutsch als Zweitsprache (L2 Deutsch) im Einzelsetting untersucht werden. Das Verfahren: Der DiLe-D dient der differenzierten Diagnostik der Lesefähigkeiten. Mit dem Verfahren wird die Dekodierfähigkeit auf lexikalischer sowie auf nicht lexikalischer Ebene erfasst. Somit können Defizite sowohl im lautierenden Lesen als auch in der direkten Worterkennung identifiziert werden. Das Verfahren umfasst zwei Subtests. Der Subtest Wort besteht aus einer Liste mit 157 Wörtern und erfasst die Dekodierfähigkeit auf lexikalischer Ebene. Der Subtest Pseudowort besteht aus einer Liste mit 157 Pseudowörtern und erfasst die Dekodierfähigkeit auf nicht lexikalischer Ebene. Die Kinder werden instruiert, je eine Minute lang aus der Wort- bzw. Pseudowortliste zeilenweise laut vorzulesen. Bei der Auswertung werden Normwerte für die beiden Subtests sowie für einen Gesamtwert für die Dekodierfähigkeit ermittelt. Bearbeitungsdauer: Mit Instruktion insgesamt maximal 5 Minuten. 01 537 01 Test komplett
www.hogrefe.com
88,00 €
Reihe: Hogrefe Vorschultests Hrsg. von G. Esser / M. Hasselhorn / W. Schneider Einsatzbereich: Kinder im Alter von 3;6 bis 7 Jahren. Einzeltest. Das Verfahren: Dem MBK 0 liegt das entwicklungspsychologische Modell des Erwerbs der Zahl-GrößenVerknüpfung, die sich üblicherweise im Kindergartenalter herausbildet, zugrunde. Das Verfahren eignet sich zur kurz- und langfristigen Überprüfung des Entwicklungsstandes numerischer Kompetenzen von Kindergartenkindern. Es ermöglicht, zu einem frühen Zeitpunkt Kinder mit Defiziten in ihrer numerischen Entwicklung zu identifizieren und gegebenenfalls daran anschließende Präventions- und Fördermaßnahmen im Elementarbereich zu evaluieren. Die numerischen Kompetenzen der Kinder werden auf drei verschiedenen Entwicklungsebenen erfasst, welche ein zunehmend tieferes Zahlverständnis widerspiegeln (1. Zahlwörter und Ziffern ohne Größenbezug, 2. Zahl-Größen-Verknüpfung, 3. Zahlrelationen). Das Verfahren basiert auf den Ergebnissen verschiedener Langzeitstudien zur Entwicklung mathematischer Kompetenzen vom Kindergarten- bis ins Grundschulalter. Hierbei konnte mehrfach der prognostische Wert des MBK 0 für die Früherkennung von Rechenschwierigkeiten im Grundschulalter bestätigt werden. Mithilfe des Normwerteprogramms können die Normwerte zeitsparend und taggenau ermittelt werden. Bearbeitungsdauer: Einzeltest. Langversion: 25 Minuten, Kurzversion: 15 Minuten. 01 354 01 Test komplett
www.hogrefe.com
388,00 €
Originalarbeit
Das Eltern-Belastungs-Inventar (EBI) Einsatz und Nutzen in der Kinder- und Jugendpsychiatrie und -psychotherapie Viktoria Irlbauer-Müller, Anna Eichler, Johanna A. Donhauser, Nina E. Poehlmann, Mark Stemmler, Gunther H. Moll und Oliver Kratz Zusammenfassung: Eltern-Kind-Interaktionen erfolgen natürlicherweise bidirektional. In der Folge sollte kinder- und jugendpsychiatrische / -psychotherapeutische (KJP‐) Behandlung individuums- und kontextzentrierte Interventionen berücksichtigen. Dafür wurde eine dimensionale Erhebung elterlicher Belastung, wie sie mittels des Eltern-Belastungs-Inventars (EBI; Tröster, 2011) möglich ist, untersucht. Für N = 166 zu einem KJP-Erstkontakt vorstellige Kinder und Jugendliche (11 – 18 Jahre) wurden KJP-relevante Merkmale (inkl. kritischer Lebensereignisse), die elterliche Belastung (EBI) und drei Messungen der kindseitigen Symptomatik betrachtet (1. Elternurteil, 2. Selbsturteil, 3. klinisches Urteil). Zusätzlich wurde die Elternsicht auf die KJP-Behandlung als Be- oder Entlastung analysiert. Die Ergebnisse zeigen eine auffällig hohe elterliche Belastung. Diese Belastung korrelierte signifikant mit kritischen Lebensereignissen sowie mit dem Elternurteil. Verglichen mit dem Selbst- und dem klinischen Urteil erwies sich nur das Elternurteil als hoch signifikanter Prädiktor elterlicher Belastung, die für verschiedene KJP-Merkmale variierte. Die Inanspruchnahme der KJP-Behandlung wurde seitens der Eltern zumeist als Entlastung erlebt. Das EBI erlaubt folglich die Beschreibung eltern- bzw. familienbezogener Belastungen aus dimensionaler Perspektive, die eine fundierte kontextzentrierte Behandlungsplanung unterstützt. Schlüsselwörter: Elterliche Belastung, psychisch / verhaltensauffällige Kinder / Jugendliche, KJP, Diagnostik, Behandlung
The Eltern-Belastungs-Inventar (EBI): Use and Benefit in Mental Health Treatments for Children and Adolescents Abstract: Parent-child interactions are bidirectional in nature. As a consequence, mental health treatments for children and adolescents must focus on both individual- and context-specific interventions. Therefore, a dimensional measurement of parenting stress, was investigated using the Eltern-Belastungs-Inventar (EBI; Tröster, 2011). For all children and adolescents (N = 166; 11 – 18 years of age) who entered into mental health treatments for the first time, we assesed the demographic information, medical / personal history (including stressful life events), parenting stress (EBI), and three measures of child / adolescent symptoms (parental ratings, self ratings, and clinician ratings). Additionally, we analyzed the parents’ point of view of the mental health treatments as a burden versus relief. Results demonstrate a high level of parenting stress. This stress correlated significantly with stressful life-events and with the parental ratings. Compared with the self ratings and the clinician ratings, only the parental ratings were a significant predictor of parenting stress, which differed based on the demographic information and medical / personal history of the child / adolescent. Participation in mental health treatments was mostly experienced as a relief. Consequently, the EBI allows for the dimensional description of parental- / family-related stressors in a way that can support well-founded context-specific interventions. Keywords: parenting stress, children / adolescents with symptoms of psychiatric / behavioral disorders, mental health treatment, diagnostic, interventions
Bidirektionalität der Eltern-Kind-Interaktion Die dynamische bidirektionale Interaktion zwischen Eltern und ihrem Kind (Patterson & Fisher, 2002) vollzieht sich beidseits als fortlaufender Entwicklungsprozess, der positiv, beispielsweise im Sinne gelungener Passung, oder negativ, beispielsweise im Sinne ein- oder wechselseitiger Überforderung, ausfallen kann. So gehen psychische und Verhaltensauffälligkeiten bei Kindern und Jugend© 2017 Hogrefe Verlag
lichen gehäuft mit höheren Stresswerten oder eigener psychischer Symptomatik der Eltern einher (Eichler, Glaubitz, Hartmann & Spangler, 2014; Kötter, Stemmler, Bühler & Lösel, 2010; Stone, Mares, Otten, Engels & Janssens, 2015; Tervo, 2012). Kinder- und jugendpsychiatrische bzw. -psychotherapeutische (KJP‐) Behandlung muss demnach neben evidenzbasierten individuums- ebenso kontextzentrierte Interventionen bereitstellen, um diesen „Teufelskreis“ zu unterbrechen (Kliem, Foran & Hahlweg, 2014; Kötter et al., 2010; Schwenck & Reichert, Diagnostica (2018), 64 (1), 37–48 https://doi.org/10.1026/0012-1924/a000191
38
V. Irlbauer-Müller et al., Das Eltern-Belastungs-Inventar (EBI) in der KJP
2012; Stadelmann, Perren, Kölch, Groeben & Schmid, 2010). Dieses Vorgehen wird durch die Psychotherapieforschung mit überzeugenden Effektgrößen untermauert (Dretzke, Davenport, Frew, Barlow, Steart-Brown, Bayliss et al., 2009; Lundahl, Risser & Lovejoy, 2006).
KJP-Diagnostik eltern- und familienbezogener Belastungen Grundlage valider KJP-Interventionen ist nach Döpfner und Petermann (2008) die multimodale Diagnostik mit dimensionaler Beschreibung und multiaxialer Klassifikation (Multiaxiales Klassifikationsschema für psychische Störungen des Kindes- und Jugendalters nach ICD-10 der WHO (MAS; Remschmidt, Schmidt & Poustka, 2006). Die Achse V des MAS (Assoziierte aktuelle abnorme psychosoziale Umstände) gibt dabei Aufschluss über Faktoren des zurückliegenden Halbjahres, „die für die Verursachung der psychischen Störung oder für die Therapieplanung relevant sein können“ (Remschmidt et al., 2006, S. 14). Der Fokus liegt hier auf dem familiär-häuslichen Rahmen, da eltern- bzw. familienbezogene Belastungen besonderen Einfluss auf die psychischen und Verhaltensmerkmale eines Kindes oder Jugendlichen haben (Remschmidt et al., 2006). Familien- und Interaktionsdiagnostik, die auf die Exploration der Eltern, Verhaltensbeobachtungen und Fragebögen zurückgreift, kann dabei eine Grundlage zur Einordnung bieten (Döpfner & Petermann, 2008). Äquivalent zur dimensionalen Beschreibung kindseitiger Psychopathologie, die regelhaft als Ergänzung zur Achse I-Diagnosekategorie gefordert wird (Döpfner & Petermann, 2008), könnte eine quantitative Kodierung der Gesamtbelastung auf Eltern- bzw. Familienseite die kategoriale Darstellung auf Achse V bedeutsam bereichern.
Das Eltern-Belastungs-Inventar (EBI; Tröster, 2011) Ein Verfahren, das sich zu einer solch dimensionalen Betrachtung elterlicher Belastung (parenting stress) eignet, liegt seit 2011 als deutschsprachige Adaption des Parenting Stress Index (PSI; Abidin, 1995) in Form des ElternBelastungs-Inventars (EBI; Tröster, 2011) vor. Dabei ist die inhaltliche Gestaltung des Fragebogens mit seinen Items und Skalen am Parenting Stress Modell (Abidin, 1995) orientiert (Tröster, 2011). Elterliche Belastung wird hier als Stress der Eltern definiert, wenn ein subjektives Missverhältnis aus benötigten und vorhandenen Ressourcen bei der Kindererziehung vorliegt (Deater-Deckard, 1998, 2004). Wie in den geltenden transaktionalen Stressmodellen (Lazarus & Folkman, 1984), steht das subjektive Diagnostica (2018), 64 (1), 37–48
Erleben im Vordergrund. Der Wert des EBI (Tröster, 2011) liegt, im Sinne der Bidirektionalität der Eltern-KindInteraktion, in der Berücksichtigung kind- (EBI-Kindbereich) und elternbezogener Belastungsquellen (EBI-Elternbereich). Diese Differenzierung besitzt für die Indikationsstellung und Planung individuums- sowie kontextzentrierter Interventionen eine hohe klinische Relevanz. Nachfolgend findet sich das EBI anhand des Manuals von Tröster (2011) skiziiert: Das EBI erfragt zunächst soziodemografische Angaben zum Elternteil und dem am stärksten zur Belastung beitragenden Kind. Im Anschluss finden sich 48 Items mit Likert-Skala (trifft gar nicht zu = 1 bis trifft genau zu = 5). Tabelle 1 stellt die 2 Ober- (Sekundärskalen) und 12 Subskalen (Primärskalen) des EBI mit den Kennzahlen zur internen Konsistenz (Cronbachs α) dar. Die Primärskalenwerte (Addition der Itemwerte) können zu einem EBI-Kindbereich-Wert (fünf Primärskalen) und einem EBI-Elternbereich-Wert (sieben Primärskalen) sowie zum EBI-Gesamtwert (α = .95) verrechnet werden. Für die Sekundärskalen und den EBI-Gesamtwert liegen T-Wert-Normen (M = 50, SD = 10), getrennt nach fester Partnerschaft (mit / ohne), vor. Normierungsgrundlage sind die Daten von N = 538 Müttern von Klein- und Vorschulkindern (s. Erhobene Daten und Erhebungsinstrumente). Die zu einer Sekundärskala gehörigen Primärskalen korrelieren mit dieser jeweils höher (r = .64 bis r = .85) als die nicht-zugehörigen Primärskalen (r = .34 bis r = .55), was die inhaltliche Unterscheidung zweier Belastungsquellen stützt. Moderate Interkorrelationen der Primärskalen sowie die geringe Zahl von vier Items je Skala und die Maße zur internen Konsistenz schränken die Aussagekraft auf Primärskalenebene jedoch ein. Durchführungs-, Auswertungs- und Interpretationsobjektivität des EBI sind durch standardisierte Instruktionen, eindeutige Items sowie Auswertungs- und Interpretationsvorgaben gegeben. Die Retestreliabilitäten nach einem Jahr erweisen sich mit rtt = .87 (EBI-Elternbereich), rtt = .85 (EBIKindbereich) und rtt = .87 (EBI-Gesamtskala) als gut. Hinsichtlich der Validität des EBI sind hohe Zusammenhänge zwischen dem EBI-Gesamtwert und Belastungsindikatoren wie der selbstberichteten Belastung durch Alltagsanforderungen (r = .52 bis r = .70) festzuhalten (Inhaltsvalidität) (Blitz, 1998; Tröster, 1999). Auch zeigten Studien wie von Gosch (2001) konsistente Zusammenhangsmuster der EBI-Sekundärskalen mit Stressoren hinsichtlich der Zuordnung der Stressoren auf Seiten des Kindes bzw. der Eltern, welche die Unterteilung in EBI-Kindbereich bzw. EBI-Elternbereich stützt (kriterienbezogene Validität). Für Konstrukte, die mit der elterlichen Belastung verwandt sind, wie die Funktionsfähigkeit der Familie (Tröster & Aktas, 2003) oder die Selbstwirksamkeitsüberzeugungen in der Erziehung (Linderkamp, 2002), konnten des Weiteren moderate bis hohe Korrelationen mit dem © 2017 Hogrefe Verlag
V. Irlbauer-Müller et al., Das Eltern-Belastungs-Inventar (EBI) in der KJP
39
Tabelle 1. Übersicht über die Primär- und Sekundärskalen des Eltern-Belastungs-Inventars (EBI; Tröster, 2011) EBI-Skalen
Cronbachs α
Beispielitem (Primärskalen)
EBI-Kindbereich
.91
Hyperaktivität / Ablenkbarkeit
.75
Stimmung
.70
Mein Kind ist oft launisch und leicht erregbar.
Akzeptierbarkeit
.70
Mein Kind macht einige Dinge, die mich stören.
Anforderung
.68
Mein Kind tut einige Dinge, die mich stark fordern. Mein Kind gerät schon bei Kleinigkeiten aus der Fassung.
Mein Kind ist oft unkonzentriert und leicht ablenkbar.
Anpassungsfähigkeit
.77
EBI-Elternbereich
.93
Bindung
.61
Es fällt mir manchmal schwer, mich in mein Kind einzufühlen.
Soziale Isolation
.63
Ich fühle mich oft auf mich allein gestellt.
Elterliche Kompetenz
.83
Mutter/Vater zu sein ist schwieriger als ich dachte.
Depression
.75
Es bedrückt mich, wenn ich merke, dass ich gereizt auf mein Kind reagiere.
Gesundheit
.75
Seit ich mein Kind habe, bin ich öfter krank.
Persönliche Einschränkung
.82
Ich fühle mich durch die Verantwortung als Mutter/Vater eingeengt.
Partnerbeziehung
.80
Durch das Kind sind einige Probleme in meiner Partnerschaft entstanden.
EBI-Gesamtwert (r = .35 bis r = .56) gefunden werden (Konstruktvalidität). Diese und weitere Validierungsstudien untermauern, dass „eine große Bandbreite von Anforderungsbereichen für Mütter von Kindern und Jugendlichen [abgedeckt wurde], die den Einsatzbereich des EBI repräsentieren“ (Tröster, 2011, S. 33). So untersuchte beispielsweise Blitz (1998) die elterliche Belastung von Müttern mit Kindern und Jugendlichen (6 Monate bis 15 Jahre), die unter Schlafproblemen litten, Gosch (2001) die elterliche Belastung bei Kindern und Jugendlichen mit geistigen Behinderungen (10 bis 16 Jahre). May (1999) betrachtete in einer KJP-Inanspruchnahmepopulation von 6- bis 13-jährigen Kindern die elterliche Belastung unterschieden nach Geschlecht der befragten Elternteile, Mütter und Väter mit je n = 27. In Gegenüberstellung zu den zitierten Untersuchungen soll vorliegende Arbeit aufzeigen, wie sich das EBI (Tröster, 2011) im KJP-Kontext zur dimensionalen Erhebung elterlicher Belastung einsetzen lässt und so die Durchführung multiaxialer Diagnostik im Multi-Informant-Ansatz, als Grundlage weiterer, diagnostischer und behandlungsbezogener Entscheidungen, unterstützt. Sowohl die Deskription elterlicher Belastung bei einer klinischen Inanspruchnahmepopulation als auch die Differenzierung elterlicher Belastung anhand KJP-relevanter Merkmale, wie der Diagnosen, werden, mit praktischen Implikationen ausführlich dargestellt.
© 2017 Hogrefe Verlag
Methode Stichprobe Insgesamt wurden die Daten von N = 166 Kindern und Jugendlichen im Alter von M = 14.27 Jahren (SD = 1.84, Range = 11.00 – 17.75), mit je einem leiblichen, mit ihnen zusammenlebenden Elternteil, analysiert. Eingeschlossen wurden Kinder und Jugendliche, die sich von 10 / 2013 bis 04 / 2014 (Daten-Zeitraum 1) oder von 10 / 2015 bis 03 / 2016 (Daten-Zeitraum 2), in der KJP-Ambulanz zu einem Erstkontakt vorstellten. Das Alter ab 11 Jahre ermöglichte, parallelisiert zu den angewandten Fremdbeurteilungsverfahren, das Einholen einer Selbstbeurteilung. Die n = 83 Mädchen (50 %) wiesen ein Durchschnittsalter von M = 14.72 (SD = 1.75, Range = 11.00 – 17.75), die n = 83 Jungen (50 %) von M = 13.81 Jahren (SD = 1.83, Range = 11.08 – 17.75) auf; dieser Altersunterschied zwischen den Geschlechtern war signifikant: t(164) = 3.26, p ≤ .001, d = .51. Die N = 161 Eltern (für n = 5 Eltern fehlten deren Angaben), darunter n = 155 Mütter (93 %), waren im Mittel M = 44.81 Jahre alt (SD = 5.52, Range = 31 – 55). Von n = 163 Eltern, von denen Angaben zur Nationalität vorlagen, waren 147 (90 %) deutscher, 16 Eltern (10 %) anderer Nationalität. Die Mehrheit der Eltern (n = 129, 78 %) hatte eine feste Partnerschaft. Für n = 70 der in die Untersuchung einbezogenen Kinder und Jugendlichen, darunter n = 42 (60 %) Mädchen und n = 28 (40 %) Jungen, bzw. für deren n = 70 Eltern, darunter n = 65 (93 %) Mütter und n = 5 (7 %) Väter, konnten zudem die Daten elterlicher Belastung zu einem zweiten Messzeitpunkt analysiert werden. Diese Substichprobe unterschied sich hinsichtlich des Alters der Diagnostica (2018), 64 (1), 37–48
40
V. Irlbauer-Müller et al., Das Eltern-Belastungs-Inventar (EBI) in der KJP
Kinder und Jugendlichen, t (164) = -0.86, p = .391, bzw. der Eltern, t (159) = 0.09, p = .933, nicht bedeutsam von der Substichprobe, für die keine Messwiederholung der elterlichen Belastung vorlag.
Vorgehen der Datenerhebung Die Datenerhebung erfolgte im Rahmen der Standarddiagnostik der KJP-Ambulanz: Familien mit Erstkontakttermin erhielten postalisch Fragebögen (je einen zur Erfassung der elterlichen Belastung, dem Eltern- und dem Selbsturteil je zur kindseitigen Symptomatik) und gaben diese beim ersten, spätestens zweiten Termin zentral in der KJP-Ambulanz zurück. Die zuständigen Diagnostikerinnen und Diagnostiker (KJP-erfahrene Ärztinnen, Ärzte,Psychologinnen und Psychologen) konnten so, ohne Kenntnis der Beurteilungen in den Fragebögen, nach dem dritten Termin (Erstkontakt mit Kind / Jugendlichem und mindestens einem Elternteil plus zwei weitere diagnostische Kontakte mit Kind / Jugendlichem allein) die Ausprägung kindseitiger Symptomatik einschätzen und dabei auf die bis dato vorliegenden diagnostischen Informationen (Exploration, Anamnese, Verhaltensbeobachtung, Problemanalyse, spezifische Selbstbeurteilungsbögen) zurückgreifen. In Einzelfällen, wie bei einem Erstkontakt ohne Folgekontakte, nahmen die Diagnostikerinnen und Diagnostiker diese Einschätzung bereits nach dem Erstkontakt vor (n = 20). Des Weiteren wurde im Daten-Zeitraum 2, in Abhängigkeit des Behandlungssettings (ambulant, teilstationär, stationär), nach fünf ambulanten DiagnostikTerminen (Diagnostikabschluss) bzw. im Elterngespräch zwei bis drei Wochen nach (teil‐) stationärer Aufnahme eine Messwiederholung elterlicher Belastung vorgenommen sowie hinzugekommene kritische Lebensereignisse exploriert. Zeitlich parallel zum zweiten EBI erfolgten zur Qualitätssicherung kurze Telefoninterviews der Eltern.
Erhobene Daten und Erhebungsinstrumente Mittels KJP-Standarddiagnostik erfolgte die strukturierte Erfassung deskriptiver Merkmale des Kindes bzw. des Jugendlichen und seines Elternteils. Das EBI, zur Erfassung elterlicher Belastung, wurde bereits dargestellt. Im DatenZeitraum 2 wurde die Nutzung des EBI-Fragebogens durch die Liste kritischer Lebensereignisse aus dem EBIManual, mit Beurteilungszeitraum des zurückliegenden Jahres (trifft zu oder trifft nicht zu), erweitert. Gemäß den im Manual angegebenen Validierungsstudien eignet sich das EBI auch zur Erhebung elterlicher Belastung bei älteren Kindern und Jugendlichen (Tröster, 2011), wenngleich die Verwendung der T-Wert-Normen hier unter Vorbehalt Diagnostica (2018), 64 (1), 37–48
erfolgen muss. Entsprechend wird in vorliegender Arbeit die Betrachtung der EBI-Ergebnisse auf Basis der SkalenRohwerte vorgenommen, die T-Werte für die Sekundärskalen lediglich für eine vereinfachte Interpretation angegeben. Der Betrachtung der Sekundärskalen wird gegenüber den Primärskalen aufgrund ihrer moderaten Interkorrelationen, ihrer geringen Zahl von vier Items je Skala und den teilweise niedrigen Werten interner Konsistenz, der Vorzug gegeben. Die deutsche Bearbeitung der Child Behavior Checklist (CBCL / 4 – 18; Döpfner, Plück, Bölte, Lenz, Melchers & Heim, 1998a) erfasste das Elternurteil zur kindseitigen Symptomatik entlang der Sekundärskalen Internalisierende Auffälligkeiten, Externalisierende Auffälligkeiten (abgeleitet aus den CBCL-Primärskalen) und des Gesamtproblemwertes. Das Selbsturteil zur kindseitigen Symptomatik wurde parallelisiert mit der deutschen Bearbeitung des Youth Self-Report der Child Behavior Checklist (YSR; Döpfner, Plück, Bölte, Lenz, Melchers & Heim, 1998b) erhoben. Für das klinische Urteil erfolgte, zur maximalen Vergleichbarkeit mit dem Eltern- und dem Selbsturteil, eine Adaptation der 120 Syndrom-Items der CBCL. Die Diagnostikerinnen und Diagnostiker beurteilten analog zu Eltern, Kindern und Jugendlichen, ob das ProblemItem 0 = nicht zutrifft, 1 = etwas oder manchmal zutrifft oder 2 = genau so oder häufig zutrifft. Nachfolgende Berechnungen zu den drei Beurteilungsperspektiven (Eltern, Kind / Jugendlicher, Diagnostikerin / Diagnostiker) erfolgten je mit den Rohwerten der Sekundärskalen und des Gesamtproblemwertes. Die für den Daten-Zeitraum 2 standardisierten Telefoninterviews (Dauer: 5 – 10 Minuten) umfassten die Vorstellung der Anruferinnen, die Begründung des Anrufes (Qualitätssicherung), den Verweis auf anonymisierte Auswertung aller Angaben und drei Fragen: 1. „Ihr Kind ist mittlerweile X Wochen in KJP-Behandlung und wir interessieren uns dafür, wie Sie mit der Belastung, die mit der Symptomatik, aber auch mit der Diagnostik bzw. Behandlung selbst verbunden ist, umgehen. Können Sie zwei Beispiele nennen, was Ihnen am meisten im Umgang mit dieser Belastung hilft?“, 2. „Fühlen Sie sich durch die Behandlung Ihres Kindes in der KJP entlastet? [sofern nicht bereits als Antwort auf Frage 1 genannt] Was ist aus Ihrer Sicht die Ursache, dass dies so ist / dass dies nicht so ist?“, 3. „Erfüllt die KJP-Behandlung Ihre Erwartungen?“.
Datenauswertung Bei fehlenden Angaben in den Fragebögen wurden deren Auswertungsrichtlinien beachtet und die Daten soweit möglich in die statistischen Analysen (SPSS für Windows Version 21) einbezogen. Pearsons-Korrelationskoeffizi© 2017 Hogrefe Verlag
V. Irlbauer-Müller et al., Das Eltern-Belastungs-Inventar (EBI) in der KJP
41
Tabelle 2. Häufigkeiten kritischer Lebensereignisse bei Behandlungsbeginn und im Behandlungsverlauf Kritische Lebensereignisse
Bei Beginn (n = 95)
Im Verlauf (n = 68)
Längere Krankheit / Unfall eines Familienmitglieds
29 (30.5 %)
5 (7 %)
Tod eines Familienangehörigen, nahen Verwandten oder eines Freundes / einer Freundin
19 (20 %)
4 (6 %)
Streit mit Verwandten / Nachbarn
11 (12 %)
2 (3 %)
Scheidung oder Trennung vom / von Lebenspartner / -in
16 (17 %)
2 (3 %)
Finanzieller Verlust / Schaden
8 (8 %)
2 (3 %)
Auseinandersetzung mit Arbeitskollegen / Vorgesetzten
7 (7 %)
Arbeitsplatzwechsel / (Wieder‐) Aufnahme einer Arbeit
15 (16 %)
Verlust des Arbeitsplatzes Umzug in eine andere Stadt / innerhalb der gleichen Stadt
5 (5 %)
0 (0 %) 1 (1.5 %) 0 (0 %)
16 (17 %)
1 (1.5 %)
Kündigung der Wohnung
2 (2 %)
1 (1.5 %)
Schwangerschaft / Geburt
2 (2 %)
Schulische Probleme eines Kindes (Gefährdung, Wiederholung der Klasse)
38 (40 %)
1 (1.5 %) 5 (7 %)
Heirat / Beginn einer neuen Partnerschaft
5 (5 %)
Auszug eines Kindes
6 (6 %)
1 (1.5 %)
25 (26 %)
1 (1.5 %)
Schulwechsel des Kindes Gerichtliche Auseinandersetzungen Andere
ent (r) diente zur Bestimmung von Zusammenhangsmaßen. Bei Regressionsanalysen wurde der adjustierte Determinationskoeffizient R2 als Schätzer des Varianzanteils in der abhängigen Variable angegeben, der durch die unabhängigen Variablen vorhergesagt werden kann. Zum Ausschluss der Kollinearität der in die Regression eingehenden unabhängigen Variablen mussten die Bedingungen Toleranz > .20 und variance inflation factor (VIF) < 5 erfüllt sein. Um Mittelwertunterschiede bei intervallskalierten Merkmalen zu prüfen, wurden t-Tests (zum Teil für gepaarte Stichproben) berechnet. Ab tendenziell statistisch bedeutsamen Unterschieden (p ≤ .10) wurde Cohens d als Effektstärke bestimmt. Bei Mittelwertvergleichen von mehr als zwei Gruppen wurden Varianzanalysen mit Post-hoc-Tests nach Scheffé berechnet und das partielle Eta Quadrat (ηp2) als Effektstärke-Maß herangezogen. Für sämtliche Prüfstatistiken galt eine α-Fehlerwahrscheinlichkeit von 5 %, wobei auch Ergebnisse mit Tendenz zur statistischen Signifikanz (α ≤ .10) berücksichtigt wurden. Signifikanztests erfolgten je zweiseitig.
Ergebnisse Deskription elterlicher Belastung Zu KJP-Behandlungsbeginn fand sich ein durchschnittlicher EBI-Gesamtwert von M = 126.19 (SD = 37.31), der ge© 2017 Hogrefe Verlag
8 (8 %) 11 (12 %)
1 (1.5 %)
2 (3 %) 3 (4.5 %)
mäß der T-Wert-Normen für Eltern mit fester Partnerschaft T = 60 entspricht. Für den EBI-Kindbereich fand sich ein M = 55.48 (SD = 17.78, T = 63), für den EBI-Elternbereich ein M = 71.04 (SD = 22.77, T = 55); die positive Korrelation beider Sekundärskalen fiel hoch aus: r = .68, p < .001. Die zu Behandlungsbeginn benannten kritischen Lebenereignisse zeigt Tabelle 2: Ihre Anzahl, im Mittel M = 2.34 (SD = 2.01, Range = 0 – 8), korrelierte mit dem EBI-Gesamtwert, r = .26, p < .05, sowie mit dem EBIKindbereich, r = .28, p < .01, annähernd moderat, während der Zusammenhang mit dem EBI-Elternbereich nur gering ausfiel, r = .20, p < .10. Korrelative Berechnungen (s. Tabelle 3) verdeutlichen die Zusammenhänge mittlerer Größe zwischen der Anzahl kritischer Lebensereignisse und der Elternbeurteilung kindseitiger Symptomatik. Vergleichbares zeigte sich weder für die Selbst- noch die klinische Beurteilung. Zwischen den EBI-Belastungswerten und der kindseitigen Symptomatik im Elternurteil hinsichtlich Internalisierenden und Externalisierenden Auffälligkeiten sowie hinsichtlich des Gesamtproblemwertes zeigten sich überwiegend (knapp) moderate, vereinzelt auch starke Zusammenhänge. Für Selbst- und klinisches Urteil fanden sich für Externalisierende Auffälligkeiten als auch für den Gesamtproblemwert niedrige bis moderate Zusammenhänge mit den EBI-Belastungswerten. Die Selbst- und die klinische Beurteilung Internalisierender Auffälligkeiten stand, im Unterschied dazu, nicht mit den EBI-Belastungswerten in Zusammenhang. Diagnostica (2018), 64 (1), 37–48
42
V. Irlbauer-Müller et al., Das Eltern-Belastungs-Inventar (EBI) in der KJP
Tabelle 3. Korrelationen (r) zwischen der Zahl kritischer Lebensereignisse bzw. der elterlichen Belastungswerte und der kindseitigen Symptomatik aus Eltern-, Selbst- und Diagnostikerinnen- / Diagnostikersicht CBCL- / YSR-Skala
Lebensereignisse
EBI-Gesamtwert
EBI-Kindbereich
EBI-Elternbereich
Elternurteil Internalisierend
.33***
.27***
.27***
.23**
Externalisierend
.31**
.62***
.73***
.44***
Gesamt
.41***
.27***
.64***
.41***
Selbsturteil Internalisierend
.09
.05
Externalisierend
.01
.31***
-.02 .34***
.08 .26***
Gesamt
.10
.21**
.18*
.20*
Klinisches Urteil Internalisierend
.11
-.12
-.20*
-.05
Externalisierend
.11
.40***
.44***
.32***
Gesamt
.15
.23**
.20*
.21**
Anmerkungen: CBCL- / YSR-Skala = CBCL- / YSR-Sekundärskala, die je mit den kritischen Lebensereignissen bzw. den EBI-Belastungswerten korreliert wurde. CBCL = deutsche Bearbeitung der Child Behavior Checklist, YSR = deutschen Bearbeitung des Youth Self-Report der Child Behavior Checklist je mit den drei Sekundärskalen Internalisierende Auffälligkeiten, Externalisierende Auffälligkeiten und Gesamtproblemwert. EBI = Eltern-Belastungs-Inventar mit den drei Sekundärskalen EBI-Gesamtwert, EBI-Kindbereich, EBI-Elternbereich. * p ≤ .05, ** p ≤ .01, *** p ≤ .001, je zweiseitig.
Hinsichtlich der Frage, welche Beurteilungsperspektive zur kindseitigen Symptomatik die EBI-Belastungswerte am besten vorhersagen kann (s. Tabelle 4), leistete die Selbsteinschätzung des Kindes bzw. Jugendlichen für alle der drei EBI-Belastungswerte einen mindestens signifikanten Vorhersagewert (Modell 1). Wurde zusätzlich das klinische Urteil, das selbst je mindestens tendenziell signifikante Vorhersagekraft besaß, einbezogen (Modell 2), so verringerte sich allerdings der Vorhersagewert des Selbsturteils auf ebenfalls nur noch tendenziell signifikantes Niveau. Dem steht gegenüber, dass bei Einbezug des Elternurteils (Modell 3) sowohl das Selbst- als auch das klinische Urteil ihre Vorhersagekraft verloren und das Elternurteil als hoch bedeutsamer Prädiktor der EBI-Belastungswerte ausgewiesen wurde. Der Multi-InformantAnsatz zur Vorhersage der EBI-Belastungswerte durch den Mittelwert der drei z-transformierten Beurteilungsperspektiven (Modell 4) wurde ebenso hoch bedeutsam, wobei sich gegenüber Modell 3 keine höheren adjustierten Determinationskoeffizienten R2 ergaben. Für die Substichprobe (n = 70), für welche eine Messwiederholung des EBI analysiert werden konnte, fanden sich hinsichtlich der Gesamtwerte der verwendeten Messinstrumente, EBI-Gesamtwert mit t (159) = -0.61, p = .543, CBCL-Gesamtproblemwert mit t (161) = -0.91, p = .364, YSRGesamtproblemwert mit t (160) = -1.87, p = .064 und Klinisches Urteil-Gesamtproblemwert mit t (159) = 1.82, p = .070, keine signifikanten Unterschiede zu der Substichprobe, für welche keine Messwiederholung vorlag. In der Messwiederholung (n = 70) fand sich ein durchschnittlicher EBI‐Gesamtwert von M = 124.59 (SD = 38.53), der T = 59 entspricht. Für den EBI-Kindbereich fand sich ein M = 55.21 Diagnostica (2018), 64 (1), 37–48
(SD = 17.87, T = 63), für den EBI-Elternbereich ein M = 69.37 (SD = 23.87, T = 54); die positive Korrelation beider Sekundärskalen fiel erneut hoch aus: r = .70, p < .001. Weder für die EBI-Sekundärskalen, EBI-Kindbereich mit t (69) = 0.54, p = .593 und EBI-Elternbereich mit t (69) = 1.79, p = .078, noch für den EBI-Gesamtwert, t (69) = 1.40, p = .167, konnten signifikante Veränderungen im Behandlungsverlauf nachgewiesen werden; einzig für den EBI-Elternbereich fand sich ein Trend (p < .10) zur Verringerung. Die im Verlauf neu aufgetretenen kritischen Lebenereignisse, M = 0.47, SD = 0.83, Range = 0 – 3, sind Tabelle 2 zu entnehmen. In den, im Durchschnitt nach M = 4.56 Wochen (SD = 1.90, Range = 2 – 12) durchgeführten n = 55 Telefoninterviews nannten 44 % der Eltern die KJP-Behandlung bereits auf die offene Frage als Entlastungsfaktor. Als spezifischer Entlastungsfaktor wurde sie von 69 % der Eltern bejaht. In mehr als drei viertel der Fälle (77 %) erfüllte die begonnene KJP-Behandlung die Erwartung der Eltern.
Differenzierung elterlicher Belastung anhand KJP-Merkmale Die mittleren EBI-Belastungswerte und damit verbundenen Gruppenvergleiche für verschiedene KJP-relevante Merkmale (Geschlecht, Alter, Störungsdimension, Vorhandensein komorbider Störungen, Zahl der KJP-Vorbehandlungen, Behandlungssetting, psychiatrische / psychotherapeutische Behandlung der Eltern selbst) finden sich, mit den Prüfgrößen zur statistischen Absicherung von Mittelwertunterschieden, in Tabelle 5. © 2017 Hogrefe Verlag
V. Irlbauer-Müller et al., Das Eltern-Belastungs-Inventar (EBI) in der KJP
43
Tabelle 4. Regressionsmodelle zur Vorhersage der elterlichen Belastungswerte durch die Beurteilungsperspektiven zur kindseitigen Symptomatik Modell EBI-Gesamtwert Mgl. Prädiktoren Adjustiertes R2 F
1a
2b
3c
4d
SU**
SU+ KU*
SU KU EU***
MI***
.042
.062
.308
.183
7.63**
5.99**
23.41***
34.75***
Änderung in R2
.048
.026
.247
.188
Änderung in F
7.63**
4.19*
53.97***
34.75***
EBI-Kindbereich Mgl. Prädiktoren
SU*
SU KU+
SU KU EU***
MI ***
Adjustiertes R2
.030
.043
.418
.188
5.61*
4.37*
37.11***
36.00***
.036
.019
.374
.194
5.61*
3.05+
96.98***
36.00***
SU**
SU+ KU+
SU KU EU***
MI ***
F Änderung in R2 Änderung in F EBI-Elternbereich Mgl. Prädiktoren Adjustiertes R2 F
.038
.053
.155
.121
6.86**
5.22**
10.18***
21.70***
Änderung in R2
.044
Änderung in F
6.86**
.022 3.47+
.106
.127
18.84***
21.70***
Anmerkungen: SU = Selbsturteil via YSR-Gesamtproblemwert, KU = Klinisches Urteil via Gesamtproblemwert der adaptierten CBCL, EU = Elternurteil via CBCL-Gesamtproblemwert, MI = Multi-Informant via Mittelwert der drei z-transformierten Beurteilungsperspektiven SU, KU und EU. CBCL = deutsche Bearbeitung der Child Behavior Checklist, YSR = deutschen Bearbeitung des Youth Self-Report der Child Behavior Checklist je mit den drei Sekundärskalen Internalisierende Auffälligkeiten, Externalisierende Auffälligkeiten und Gesamtproblemwert. EBI = Eltern-Belastungs-Inventar mit den drei Sekundärskalen EBI-Gesamtwert, EBI-Kindbereich, EBI-Elternbereich. a Standardisierte Regressionsgleichungen: EBI-Gesamtwert = .22** SU (YSR); EBI-Kindbereich = .19* SU (YSR); EBI-Elternbereich = .21** SU (YSR). b Standardisierte Regressionsgleichungen: EBI-Gesamtwert = .15+ SU (YSR) + .18* KU (CBCL); EBI-Kindbereich = .13 SU (YSR) + .15+ KU (CBCL); EBI-Elternbereich = .15+ SU (YSR) + .16+ KU (CBCL). c Standardisierte Regressionsgleichungen: EBI-Gesamtwert = -.04 SU (YSR) – .01 KU (CBCL) + .59*** EU (CBCL); EBI-Kindbereich = -.10 SU (YSR) – .07 KU (CBCL) + .72*** EU (CBCL); EBI-Elternbereich = .02 SU (YSR) + .05 KU (CBCL) + .38*** EU (CBCL). d Standardisierte Regressionsgleichungen: EBI-Gesamtwert = .43*** Multi-Informant; EBI-Kindbereich = .44*** Multi-Informant; EBI-Elternbereich = .36*** Multi-Informant. + p ≤ .10, * p ≤ .05, ** p ≤ .01, *** p ≤ .001, je zweiseitig.
Zur Betrachtung der EBI-Belastungswerte für spezifische Diagnosegruppen des ICD-10, das heißt von komorbiden Störungen unbeeinflusst, fanden sich in der Gesamtstichprobe n = 54 (33 %) Kinder und Jugendliche mit einer einzelnen ICD-10-Diagnose auf Achse I des MAS (Remschmidt et al., 2006): Abbildung 1 zeigt die mittleren EBI-Belastungswerte für die entsprechenden Diagnosegruppen. Die einfaktorielle Varianzanalyse wies für keinen der EBI-Belastungswerte signifikante Mittelwertunterschiede aus: EBI-Gesamtwert mit F (3, 46) = 0.74, p = .536, EBI-Kindbereich mit F (3, 46) = 1.60, p = .202 und EBI-Elternbereich mit F (3, 45) = 0.50, p = .684.
Diskussion Deskription elterlicher Belastung Die Interpretation der T-Wert-Normen kann aufgrund der Normierungsstichprobe von Müttern kleinerer Kinder für © 2017 Hogrefe Verlag
die vorliegende Arbeit nur mit Vorbehalt erfolgen. Vorsichtig interpretiert lässt sich allerdings annehmen, dass die mittleren kindbezogenen Werte bzw. Gesamtwerte im EBI (Tröster, 2011) zu Behandlungsbeginn, wie auch die Befunde bei Eichler und Kollegen (2014) zeigen, auf das Vorliegen klinisch relevanter elterlicher Belastung bei psychisch und verhaltensauffälligen Kindern und Jugendlichen verweisen. Vor dem Hintergrund der Bidirektionalitätsannahme für die Interaktion zwischen Eltern und Kind (Patterson & Fisher, 2002) ist der hohe Zusammenhang zwischen kind- und elternbezogener elterlicher Belastung schlüssig: Eltern mit elternbezogener elterlicher Belastung erleben auch verstärkt kindbezogene elterliche Belastung, wobei die Ergebnisse des Multi-Informant-Ansatzes aufzeigen, dass die Kinder belasteter Eltern auch höhere Symptomratings erhielten. Kritische Lebensereignisse scheinen zudem, wie es auch Tröster (2011) anführt, mit verstärkter elterlicher Belastung einherzugehen. Ein plausibler Befund, da mit dem Ausmaß benötigter Ressourcen für kritische Lebensereignisse das Ausmaß vorhandener Ressourcen für den Umgang Diagnostica (2018), 64 (1), 37–48
44
V. Irlbauer-Müller et al., Das Eltern-Belastungs-Inventar (EBI) in der KJP
Tabelle 5. Mittlere elterliche Belastungswerte und Gruppenvergleiche für verschiedene kinder- und jugendpsychiatrische / -psychotherapeutische Merkmale (Gruppenvariablen) Gruppenvariable
EBI-Gesamtwert M (SD)
EBI-Kindbereich M (SD)
EBI-Elternbereicha M (SD)
Mädchen (n = 82)
119.78 (40.80)
51.40 (19.01)
68.86 (24.06)
Jungen (n = 79)
132.85 (32.23)
59.71 (15.41)
73.28 (21.28)
2.26* / .36
3.05** / .48
1.23
< 14.17 Jahre (n = 80)
130.83 (36.45)
59.14 (17.83)
71.84 (22.57)
≥ 14.17 Jahre (n = 81)
121.62 (37.81)
51.86 (17.07)
70.25 (23.08)
1.57
2.64** / .42
0.44
Internalisierend
121.04 (36.44)
52.87 (17.75)
68.48 (21.41)
Externalisierend
147.83 (36.41)
67.54 (13.64)
80.29 (26.85)
Gemischt
152.60 (28.97)
69.80 (9.04)
84.80 (27.72)
6.88*** / .08
9.28*** / .11
3.77* / .05
Ja (n = 109)
130.15 (36.63)
57.92 (17.34)
72.33 (22.44)
Nein (n = 52)
117.90 (37.72)
50.37 (17.76)
68.29 (23.45)
-1.96
-2.56** / .43
-1.05
Geschlecht
t (159) / d Alter (Md = 14.17)
t (159) / d Störungsdimension
F (2, 155)b / ηp2 Komorbidität
t (159) / d Vorbehandlung Ja, ≥ 1 (n = 95)
136.29 (35.89)
61.20 (16.93)
75.23 (22.45)
Nein (n = 66)
111.65 (34.64)
47.24 (15.70)
64.92 (21.98)
t (159) / d
-4.35*** / .70
-5.30*** / .85
-2.88** / .46
Ambulant (n = 124)
126.29 (36.15)
55.29 (17.35)
71.41 (22.34)
Teil-/Stationär (n = 37)
125.86 (41.50)
56.11 (19.37)
69.84 (24.42)
0.06
-0.25
0.37
Ja (n = 37)
138.32 (39.19)
58.92 (17.75)
79.43 (23.85)
Nein (n = 121)
122.30 (36.22)
54.52 (17.86)
68.18 (21.76)
2.31* / .43
1.31
2.69** / .51
Behandlungssetting
t (159) Eltern-Behandlung
t (157) / d
Anmerkungen: EBI = Eltern-Belastungs-Inventar mit den drei Sekundärskalen EBI-Gesamtwert, EBI-Kindbereich, EBI-Elternbereich. d bzw. ηp2 wurden ausschließlich für signifikante Mittelwertunterschiede berechnet. a Für EBI-Elternbereich wichen df je um -1 ab. b Scheffé-Test: Zwischen Internalisierend und Externalisierend (Gruppierung anhand des klinischen Urteils) hoch signifikante Unterschiede (p ≤ .01) für EBI-Gesamtwert und EBI-Kindbereich, tendenziell signifikante Unterschiede für EBI-Elternbereich (p < .10). * p ≤ .05, ** p ≤ .01, *** p ≤ .001, je zweiseitig.
mit persönlicher, im Sinne elterlicher Belastung sinkt, die sich – entsprechend ihrer Definition (Deater-Deckard, 1998, 2004) – wiederum erhöht. Umgekehrt muss man fragen, ob nicht das Auftreten kritischer Lebensereignisse (zumindest mit) dafür verantwortlich ist, dass die elterliche Belastung durch die kindseitige Symptomatik auf ein klinisch relevantes Ausmaß steigt, während Eltern ohne solche Ereignisse noch über ausreichend Bewältigungskompetenzen, eventuell auch ohne KJP-Bedarf, verfügen: Hierfür sprechen die Zusammenhänge zwischen der Anzahl kritischer Lebensereignisse und dem Elternurteil (die sich weder für das Selbst- noch für das klinische Urteil nachweisen ließen). Kritische Lebensereignisse scheinen Eltern für die kindseitige Symptomatik demnach zu senDiagnostica (2018), 64 (1), 37–48
sibilisieren, wenngleich dies nicht bedeuten muss, dass Eltern die kindseitige Symptomatik realistisch bzw. zuverlässig einschätzen, sondern diese beispielsweise aufgrund eigener Hilflosigkeit eventuell überhöht berichten (Irlbauer-Müller, Eichler, Stemmler, Moll & Kratz, 2016). Im Einklang mit den bei Irlbauer-Müller und Kollegen (2016) für eine kleinere Stichprobe bereits publizierten Befunden zu Eltern- und klinischem Urteil sowie äquivalent zu den Befunden von Eichler und Kollegen (2014), gingen hohe Elternurteile zur kindseitigen Symptomatik durchwegs mit hoher elterlicher Belastung einher, ohne dass die Erhebung elterlicher Belastung rein symptombezogen für das KJP-vorstellige Kind erfolgte, sondern sowohl kind- als auch elternbezogene Belastungsquellen © 2017 Hogrefe Verlag
V. Irlbauer-Müller et al., Das Eltern-Belastungs-Inventar (EBI) in der KJP
45
Abbildung 1. Mittlere elterliche Belastungswerte für spezifische ICD-10-Diagnosegruppen. EBI = Eltern-Belastungs-Inventar.
berücksichtigte. Bleibt zu beachten, dass Eltern ohne kritische Lebensereignisse zwar geringere elterliche Belastung erleben, dies aber nicht bedeuten muss, dass sie im Hinblick auf psychische und Verhaltensauffälligkeiten ihres Kindes funktionales Elternverhalten zeigen. Damit wäre es angesichts der häufig bestehenden Chronifizierungsgefahr kindseitiger Symptome kritisch, wenn diese Eltern keine oder zeitlich verzögert, fachspezifische Hilfe in Anspruch nähmen (Ihle, Frenzel & Esser, 2006). Dabei gelten die dargelegten und diskutierten Ergebnisse mit größerer Bestimmtheit für die zumeist leicht beobachtbaren externalisierenden Auffälligkeiten, für die sich jeweils die stärksten Zusammenhänge mit der elterlichen Belastung fanden und die aufgrund ihrer Beobachtbarkeit von verschiedenen Beurteilern auch besser übereinstimmend eingeschätzt werden können. Hinsichtlich der Frage, in welchem Verhältnis die Erfassung der kindseitigen Symptomatik im EBI-Kindbereich des EBI (Tröster, 2011) und die Elternbeurteilung der kindseitigen Symptomatik mittels CBCL / 4 – 18 (Döpfner et al., 1998a) stehen, ist Folgendes anzuführen: Das EBI (Tröster, 2011) erhebt die kindseitige Symptomatik, mit insgesamt geringer Itemzahl je Primäskala, unter dem Blickwinkel der empfundenen elterlichen Belastung, während die CBCL / 4 – 18 (Döpfner et al., 1998a) Eltern nach dem Rating vielfältiger kindseitiger Symptome in Form eines Breitbandverfahrens fragt, ohne dass das elterliche Belastungserleben durch ebendiese Symptome thematisiert bzw. kontrolliert wird. Beide Verfahren können sind entsprechend wertvoll ergänzen. Die Ergebnisse der Regressionsanalysen stehen mit den bis hier diskutierten Befunden im Einklang: Das El© 2017 Hogrefe Verlag
ternurteil zur kindseitigen Symptomatik besaß, verglichen mit dem Selbsturteil und dem möglichst objektiven, klinischen Urteil hoch bedeutsame Vorhersagekraft für die elterliche Belastung, unabhängig davon, ob die kind-, die elternbezogene oder die gesamte elterliche Belastung betrachtet wurde. Des Weiteren war der Vorhersagewert des Elternurteils dem Vorhersagewert eines Multi-Informant-Ansatzes, wie er in der KJP-Diagnostik obligat ist (Döpfner & Petermann, 2008), für die elterliche Belastung überlegen. Dieser Befund unterstreicht, dass das elternseitige Erleben psychischer und Verhaltensauffälligkeiten des eigenen Kindes in ein Belastungserleben durch ebendiese Symptomatik mündet, sowie, dass das subjektive Belastungserleben von Eltern von deren subjektiver Einschätzung der kindseitigen Symptomatik, die häufig eben nur moderat mit dem Urteil anderer übereinstimmt (Lösel, Stemmler, Beelmann & Jaursch, 2005), abhängig ist. – Dies deckt sich mit den Annahmen zum subjektiven Erleben aus transaktionalen Stressmodellen (Lazarus & Folkman, 1984). Für den KJP-Behandlungsverlauf konnte keine bedeutsame Reduktion elterlicher Belastung festgestellt werden. Allerdings ist zu bedenken, dass die Messwiederholung bereits zu Diagnostikabschluss bzw. kurz nach (teil‐) stationärer Aufnahme erfolgte. Effekte der KJP-Behandlung auf die elterliche Belastung wurden hier vielleicht zu früh erwartet, zumal kontextzentrierte, eltern- und familienzentrierte Interventionen zu diesem Zeitpunkt häufig erst geplant und noch nicht umgesetzt sind. Dabei ist jedoch interessant, dass es für die elternbezogene elterliche Belastung bereits zu einer tendenziellen Verringerung kam: Möglicherweise fühlen sich Eltern durch die KJPDiagnostica (2018), 64 (1), 37–48
46
V. Irlbauer-Müller et al., Das Eltern-Belastungs-Inventar (EBI) in der KJP
Behandlung unterstützt und weniger hilflos, wie es die Befunde zur Wirksamkeit elternzentrierter KJP-Interventionen nahelegen (Dretzke et al., 2009; Lundahl et al., 2006). Dabei ist sicher hilfreich, dass im Behandlungsverlauf nur in Einzelfällen neue kritische Lebensereignisse auftraten. Durch die KJP-Behandlung können so neue Ressourcen entstehen, die Eltern für sich nutzen können. Hiermit im Einklag beschreibt die Mehrheit der Eltern die KJP-Behandlung als Entlastung. Zu beachten ist allerdings, dass die KJP-Behandlung nicht nur zu neuen Ressourcen verhilft bzw. langfristig verhelfen soll, sondern auch kurzfristig Ressourcen der Eltern bindet, wie um die therapeutische Bezugspersonenanleitung im Familienalltag umzusetzen oder ein Fortbestehen der Symptomatik mit eventuell nur kleinschrittigen Behandlungserfolgen zu akzeptieren. Ungeachtet dessen zeigten sich die Eltern mehrheitlich mit der KJP-Behandlung zufrieden. Kritisch ist allerdings zu bedenken, dass Eltern sozial erwünscht geantwortet haben könnten, oder um mit ihren Antworten ihre kognitive Dissonanz aufgrund der KJPInanspruchnahme bei geringer Zufriedenheit zu reduzieren. Dem wurde durch die anonymisierte Befragung und Datenauswertung mit Offenlegung der Implikationen für die Qualitätssicherung der KJP-Behandlung versucht entgegenzuwirken.
Differenzierung elterlicher Belastung anhand KJP-Merkmale Die Gruppenvergleiche hinsichtlich des Ausmaßes elterlicher Belastung bei Behandlungsbeginn zeigten, dass für einzelne KJP-relevante Merkmale bedeutsame Belastungsunterschiede bestehen: In erwarteter Richtung erwiesen sich, wie bei Irlbauer-Müller (2016), Eltern von Jungen versus Mädchen, von unter 14-Jährigen versus von über 14-Jährigen, von Kindern und Jugendlichen mit externalisierenden versus mit internalisierenden Störungen, von Kindern und Jugendlichen mit versus ohne komorbiden Störungen, von Kindern und Jugendlichen mit mindestens einem KJP-Vorbehandler versus ohne KJPVorbehandler und Eltern mit einer eigenen fachspezifischen Behandlung versus ohne als belasteter. Dabei gilt, dass Jungen im jüngeren Alter häufiger externalisierende, Mädchen im Jugendalter häufiger internalisierende Auffälligkeiten zeigen bzw. Kinder und Jugendliche mit externalisierenden Auffälligkeiten zu einem früheren Alterszeitpunkt fachspezifisch vorstellig werden als Kinder und Jugendliche mit internalisierenden Auffälligkeiten (Fite, Stoppelbein & Greening, 2008), sodass die Merkmale Geschlecht, Alter und Störungsdimension nicht unabhängig voneinander zu sehen sind. Abgesehen von der eigenen fachspezifischen Behandlung eines Elternteils laDiagnostica (2018), 64 (1), 37–48
gen die Belastungsschwerpunkte, wie bei Irlbauer-Müller (2016), auf der kindbezogenen elterlichen Belastung. Für die Betrachtung verschiedener Diagnosegruppen der ICD-10 konnten keine bedeutsamen Unterschiede in der elterlichen Belastung nachgewiesen werden. Ein Befund, der sich damit erklärt, dass elterliche Belastung, wie erläutert, ein subjektives Empfinden widerspiegelt: Demnach ist entscheidend, wie Eltern das Vorliegen spezifischer Diagnosen bei ihren Kindern erleben. Dabei scheint jedoch nicht die spezifische Diagnose ausschlaggebend, sondern, ob beim eigenen Kind überhaupt Symptome vorliegen.
Methodische Einschränkungen Während in der vorangegangenen Diskussion gefundene Zusammenhänge, wie beispielsweise zwischen kind- und elternbezogener elterlicher Belastung oder zwischen der elterlichen Belastung und dem Elternurteil inhaltlich interpretiert und reflektiert wurden, ist aus methodischer Sicht festzuhalten, dass die Einschätzungen einer Informantin oder eines Informanten (auch in verschiedenen Erhebungsinstrumenten) in der Regel stärker zusammenhängen als die Einschätzungen verschiedener Informanten. Dies könnte einen Beitrag zu den gefundenen, teils hohen Korrelationen geleistet haben, die sonst unter Umständen schwächer ausgefallen wären. Methodische Limitationen betreffen außerdem die vergleichsweise geringe Stichprobengröße sowie das Fehlen einer nichtklinischen Kontrollstichprobe, die die Aussagekraft dargelegter Ergebnisse und deren Interpretation, auch aufgrund der fraglichen Repräsentativität der erhobenen Konvenienz-Stichprobe einschränken und Anlass für weiterführende Forschung bieten. Dem gegenüber steht die Datenerhebung im Multi-Informant-Design an einer klinischen Stichprobe, welches dem Vorgehen der gängigen KJP-Diagnostik entspricht und so ein Teil des klinischen Alltags repräsentiert, für welchen diese Untersuchung praktische Implikationen bieten möchte.
Praktische Implikationen und Ausblick Es lässt sich zusammenfassen, dass KJP-vorstellige Kinder und Jugendliche zumeist von deutlich belasteten Eltern begleitet werden, deren Belastungen, entsprechend dem Risiko-Schutzfaktorenmodell (Petermann, Niebank, Scheithauer, 2004), neben kind- auch aus eltern- und umweltbezogenen Faktoren gespeist werden. Damit geht eine erhöhte Sensibilität für die kindseitige Symptomatik einher, die gleichsam einen Belastungsfaktor darstellt, sodass die Interpretation der Elterneinschätzung, für eine © 2017 Hogrefe Verlag
V. Irlbauer-Müller et al., Das Eltern-Belastungs-Inventar (EBI) in der KJP
hinreichend valide Diagnostik, differenziert, auch unter Berücksichtigung der elterlichen Belastung vorgenommen werden sollte (Irlbauer-Müller et al., 2016), wenngleich dies mit größerer Bestimmtheit für eine kindseitige externalisierende Symptomatik als für eine internalisierende Symptomatik gilt. Elterliche Belastung als auch die Elternsicht auf die kindseitige Symptomatik müssen als Ergebnis individueller Stressverarbeitung des betreffenden Elternteils reflektiert werden. Eine Voraussetzung für daran anschließende, fundierte kontext-, speziell elternund familienbezogene Interventionen, die, durch Beachtung einzelner KJP-relevanter Merkmale, möglichst passgenau auf Eltern, Familien, Kinder und Jugendliche abgestimmt werden sollten: So benötigen Eltern mit hauptsächlich kindbezogener elterlicher Belastung, wie durch den EBI-Kindbereich repräsentiert, vorrangig entwicklungspsychologische/ -psychotherapeutische/ -psychiatrische Beratung zur Erhöhung ihrer Erziehungskompetenzen, während Eltern mit hoher elternbezogener elterlicher Belastung, wie durch den EBI-Elternbereich repräsentiert, möglicherweise eher vom Aufbau sozialer Unterstützungsnetzwerke profitieren oder beim Auftreten kritischer Lebensereignisse auch eine eigene fachspezifische Behandlung eines Elternteils nötig sein kann. Das EBI (Tröster, 2011) kann für diese praktischen Implikationen einen überzeugenden Beitrag leisten: Es verhilft zu einer, nach kind- und elternbezogenen Belastungsquellen differenzierten Erfassung der seitens der Eltern wahrgenommenen Belastung, die nach Meinung der Autoren zum Standard der multimodalen KJP-Diagnostik gehören sollte. So dient das EBI (Tröster, 2011) der Beschreibung eltern- bzw. familienbezogener Belastungen aus dimensionaler Perspektive zur Erweiterung des kategorialen Ansatzes der Achse V des MAS (Remschmidt et al., 2006). Ein wesentlicher Schritt für eine fundierte und valide Behandlungsplanung; einschließlich Verlaufsdiagnostik, für welche wiederholte Messungen mittels des EBI (Tröster, 2011) möglich sind. Wenngleich die Aussagekraft der Primärskalen, wie bereits an früherer Stelle erörtert, eher als gering einzuschätzen ist, können die EBI-Sekundärskalen, insbesondere der EBI-Gesamtwert, als quantitative Repräsentanten eltern- bzw. familienbezogener Belastungen bei psychisch und verhaltensauffälligen Kindern und Jugendlichen auf Achse V angesehen werden. Für weiterführende Forschungsarbeiten wäre, wie bereits angeführt, ein Kontrollgruppenvergleich mit psychisch und verhaltensunauffälligen Kindern und Jugendlichen sinnvoll, ebenso wie die längsschnittliche Analyse elterlicher Belastung über mehrere Messzeitpunkte (wie zusätzlich zum Ende der KJP-Behandlung und / oder katamnestisch), auch unter Einsatz verschiedener, hinsichtlich ihrer Wirksamkeit zu vergleichender, auf die Belastungsschwerpunkte (kind- oder eltern- oder umweltbezo© 2017 Hogrefe Verlag
47
gen) von Eltern abgestimmter, kontextzentrierter Interventionen.
Literatur Abidin, R. R. (1995). Parenting Stress Index. Professional manual (3. Aufl.). Odessa, FL: Psychological Assessment Ressources. Blitz, E. (1998). Der Zusammenhang zwischen kindlichen Schlafstörungen und elterlichem Streß. Unveröffentlichte Diplomarbeit, Universität Bielefeld. Deater-Deckard, K. (1998). Parenting stress and child adjustment: Some old hypotheses and new questions. Clinical Psychology: Science and Practice, 5, 314 – 332. doi:10.1111/j.14682850.1998.tb00152.x Deater-Deckard, K. (2004). Parenting stress. New Haven, CT: Yale University Press. Döpfner, M. & Petermann, F. (2008). Diagnostik psychischer Störungen im Kindes- und Jugendalter (2., überarb. Auflage). Göttingen: Hogrefe. Döpfner M., Plück, J., Bölte, S., Lenz, K., Melchers, P. & Heim, K. (1998a). Elternfragebogen über das Verhalten von Kindern und Jugendlichen. Deutsche Bearbeitung der Child Behavior Checklist (CBCL / 4 – 18). Einführung und Anleitung zur Handauswertung (2. Auflage mit deutschen Normen). Köln: KJFD, Arbeitsgruppe Kinder-, Jugend- und Familiendiagnostik. Döpfner M., Plück, J., Bölte, S., Lenz, K., Melchers, P. & Heim, K. (1998b). Fragebogen für Jugendliche. Deutsche Bearbeitung des Youth Self-Report (YSR) der Child Behavior Checklist. Einführung und Anleitung zur Handauswertung (2. Auflage mit deutschen Normen). Köln: KJFD, Arbeitsgruppe Kinder-, Jugend- und Familiendiagnostik. Dretzke, J., Davenport, C., Frew, E., Barlow, J., Steart-Brown, S., Bayliss, S. et al. (2009). The clinical effectiveness of different parenting programmes for children with conduct problems: a systematic review of randomized controlled trials. Child and Adolescent Psychiatry and Mental Health, 3. doi:10.1186/17532000-3-7 Eichler, A. K., Glaubitz, K. A., Hartmann, L. C. & Spangler, G. (2014). Die Erfassung elterlicher Belastung mit dem Eltern-Belastungs-Screening zur Kindeswohlgefährdung (EBSK): Zusammenhänge zu Erlebens- und Verhaltensauffälligkeiten beim Kind. Zeitschrift für Kinder- und Jugendpsychiatrie und Psychotherapie, 42, 213 – 222. doi:10.1024/1422-4917/a000294 Fite, P. J., Stoppelbein, L. & Greening, L. (2008). Parenting stress as a predictor of age upon admission to a child psychiatric inpatient facility. Child Psychiatry and Human Development, 39, 171 – 183. doi:10.1007/s10578-007-0080-7 Gosch, A. (2001). Mütterliche Belastung bei Kindern mit WilliamsBeuren-Syndrom, Down-Syndrom, geistiger Behinderung nichtsyndromaler Ätiologie im Vergleich zu der nichtbehinderter Kinder. Zeitschrift für Kinder- und Jugendpsychiatrie und Psychotherapie, 29, 285 – 295. doi:10.1024//1422-4917.29.4.285 Ihle, W., Frenzel, T. & Esser, G. (2006). Epidemiologie und Verlauf psychischer Störungen im Kindes- und Jugendalter. In F. Mattejat (Hrsg.), Lehrbuch der Psychotherapie Bd. 4: Verhaltenstherapie mit Kindern, Jugendlichen und ihren Familien (S. 85 – 96). München: CIP-Medien. Irlbauer-Müller, V. (2016). Elterliche Belastung und die Zuverlässigkeit von Elternangaben in der Diagnostik psychisch und verhaltensauffälliger Kinder und Jugendlicher. Dissertation, Friedrich-Alexander-Universität Erlangen-Nürnberg. Diagnostica (2018), 64 (1), 37–48
48
V. Irlbauer-Müller et al., Das Eltern-Belastungs-Inventar (EBI) in der KJP
Irlbauer-Müller, V., Eichler, A., Stemmler, M., Moll, G. H. & Kratz, O. (2016). Elterliche Belastung und die Zuverlässigkeit von Elternangaben in der Diagnostik psychisch und verhaltensauffälliger Kinder und Jugendlicher. Zeitschrift für Kinder- und Jugendpsychiatrie und Psychotherapie. doi:10.1024/1422-4917/ a000467 Kliem, S., Foran, H. & Hahlweg, K. (2014). Familienstatus, mütterliche Belastung, dysfunktionales Erziehungsverhalten und kindliche Auffälligkeit. Ergebnisse einer multiplen Mediationsanalyse. Kindheit und Entwicklung, 23, 113 – 123. doi:0.1026/ 0942-5403/a000130 Kötter, C., Stemmler, M., Bühler, A. & Lösel, F. (2010). Mütterliche Depressivität, Erziehung und kindliche Erlebens- und Verhaltensprobleme. Kindheit und Entwicklung, 19, 109 – 118. doi:10.1026/0942-5403/a000006 Lazarus, R. S. & Folkman, S. (1984). Stress, appraisal and coping. Berlin: Springer-Verlag. Linderkamp, F. (2002). Katamnestische Untersuchung zu einem Selbstinstruktionstraining mit aufmerksamkeitsgestörten Kindern. Verhaltenstherapie und Verhaltensmedizin, 23, 53 – 73. Lösel, F., Stemmler, M., Beelmann, A. & Jaursch, S. (2005). Aggressives Verhalten im Vorschulalter. Eine Untersuchung zum Problem verschiedener Informanten. In I. Seiffge-Krenke (Hrsg.), Aggressionsentwicklung zwischen Normalität und Pathologie (S. 141 – 167). Göttingen: Vandenhoeck & Ruprecht. Lundahl, B., Risser, H. J., & Lovejoy, M. C. (2006). A meta-analysis of parent training: Moderators and follow-up effects. Clinical Psychology Review, 26, 86 – 104. doi:10.1016/j.cpr.2005.07.004 May, R. (1999). Mütterliche und väterliche Belastung und die Beziehungen in Familien mit verhaltensauffälligen Kindern. Unveröffentlichte Diplomarbeit, Universität Bielefeld. Patterson, G. R. & Fisher, P. A. (2002). Recent developments in our understanding of parenting: Bidirectional effects, causal models, and the research for parsimony. In M. H. Bornstein (Hrsg.), Handbook of Parenting (Bd. 5, 2. Aufl., S. 59 – 88). Mahwah, NJ: Erlbaum. Petermann, F., Niebank, K. & Scheithauer, H. (Hrsg.). (2004), Entwicklungswissenschaft: Entwicklungspsychologie – Genetik – Neuropsychologie. Berlin: Springer. Remschmidt, H., Schmidt, M. H. & Poustka, F. (Hrsg.). (2006), Multiaxiales Klassifikationsschema für psychische Störungen des Kindes- und Jugendalters nach ICD-10 der WHO (5. Auflage). Bern: Huber. Schwenck, C. & Reichert, A. (2012). Plan E – Eltern stark machen! Modulares Training für Eltern von psychisch kranken Kindern und Jugendlichen. Basel: Beltz Verlag.
Diagnostica (2018), 64 (1), 37–48
Stadelmann, S., Perren, S., Kölch, M., Groeben, M. & Schmid, M. (2010). Psychisch kranke und unbelastete Eltern. Elterliche Stressbelastung und psychische Symptomatik der Kinder. Kindheit und Entwicklung, 19, 72 – 81. doi:10.1026/0942-5403/ a000011 Stone, L. L., Mares, S. H. W., Otten, R., Engels, R. C. M. E. & Janssens, J. M. A. M. (2015). The co-development of parenting stress and childhood internalizing and externalizing problems. Journal of Psychopathology and Behavioral Assessment, 38, 76 – 86. doi:10.1007/s10862-015-9500-3 Tervo, R. C. (2012). Developmental and behavior problems predict parenting stress in young children with global delay. Journal of Child Neurology, 27, 291 – 296. doi:10.1177/0883073811418230 Tröster, H. (1999). Anforderungen und Belastungen von Müttern mit blinden und sehbehinderten Kindern im Vorschulalter. Heilpädagogische Forschung, 15, 159 – 173. Tröster, H. (2011). Eltern-Belastungs-Inventar (EBI), Deutsche Version des Parenting Stress Index (PSI) von R. R. Abidin. Göttingen: Hogrefe. Tröster, H. & Aktas, M. (2003). Die Bedeutung individueller und familiärer Ressourcen für die Krankheitsbewältigung von Familien mit neurodermitiskranken Kindern. Zeitschrift für Klinische Psychologie, 32, 286 – 294. doi:10.1026/0084-5345.32.4.286 Onlineveröffentlichung: 05. 09. 2017 Dr. rer. biol. hum. Viktoria Irlbauer-Müller Dr. phil. Anna Eichler Johanna A. Donhauser Nina E. Poehlmann Prof. Dr. med. Gunther H. Moll PD Dr. med. Oliver Kratz Kinder- und Jugendabteilung für Psychische Gesundheit Universitatsklinikum Erlangen (FAU) Schwabachanlage 6 und 10 91054 Erlangen viktoria.irlbauer-mueller@uk-erlangen.de Prof. Dr. phil. Mark Stemmler Institut für Psychologie Lehrstuhl für Psychologische Diagnostik, Methodenlehre und Rechtspsychologie Friedrich-Alexander-Universität Erlangen-Nürnberg, Nägelsbachstraße 49c 91052 Erlangen
© 2017 Hogrefe Verlag
Softwareinformationen
Diagnostische Tests mit R und knitr Erstellung, Auswertung und Vorbereitung der Rückmeldung Christian Spoden und Florian Buchwald Zusammenfassung: In dieser Software-Information werden Möglichkeiten zur Erstellung und Auswertung diagnostischer Tests mit vorwiegend geschlossenen Antwortformaten sowie die Vorbereitung der Ergebnisrückmeldung mit Hilfe des R-Pakets knitr (Xie, 2015, 2016) zur Erstellung dynamischer Dokumente erläutert. Das konkrete Vorgehen wird in vier Arbeitsschritten am Beispiel der Erstellung einer universitären Klausur mit Multiple-Choice-Antwortformat im Fach Methodenlehre exemplarisch illustriert. Schlüsselwörter: R-Software, knitr, diagnostische Tests, Klausuren
Applying R and knitr for Test Design, Test Analysis, and Score Reporting Abstract: New options for designing and analyzing diagnostic tests with mostly closed answer formats as well as the preparation of score reporting are proposed by applying the knitr package, an R-Software package for dynamic documents. The approach is illustrated by using knitr for the test design, test analysis, and score reporting of a multiple-choice university exam on social science research methods. Keywords: R-Software, knitr, diagnostic tests, exams
In dieser Software-Information machen wir auf die Möglichkeiten zur Erstellung und Auswertung diagnostischer Tests sowie auf die Vorbereitung der Ergebnisrückmeldung mit Hilfe des R-Pakets knitr (Xie, 2014, 2015, 2016) aufmerksam, das ursprünglich zur Erstellung dynamischer Dokumente geschrieben wurde. Die Erstellung diagnostischer Tests per Hand ist selbst dann arbeitsaufwendig, wenn bereits ein umfangreicher Item-Pool vorhanden ist, da die Zusammenstellung der Test-Items in einem Textverarbeitungsprogramm, die Ergebnisauswertung mit Hilfe von Statistik-Software und schließlich die Rückmeldung der Ergebnisse üblicherweise nicht automatisch erfolgen, sondern von der Diagnostikerin oder dem Diagnostiker manuell gesteuert werden müssen. Die Nutzung verschiedener Computer-Software für unterschiedliche Schritte (Erstellung der Aufgaben in einem Texteditor, Einpflegen der kodierten Aufgabenlösungen in eine Datenmatrix, Datenanalyse in einem Statistikprogramm, Erstellung von Ergebnis-Rückmeldebögen in einem Texteditor), welche oftmals nach dem Copy & PastePrinzip abläuft, erhöht zudem die Fehleranfälligkeit. Die Verwendung der freien und plattformunabhängigen Sta-
tistik- und Programmiersoftware R (R Development Core Team, 2016) und des R-Pakets knitr kann diesen Prozess fast komplett in einer Software automatisieren, was den Arbeits- und Zeitaufwand sowie die Fehleranfälligkeit deutlich reduziert. Dies setzt einen gewissen Kenntnisstand hinsichtlich der Nutzung der Software R voraus, welcher anhand der nachfolgend aufgeführten Syntaxbeispiele abgeschätzt werden kann. Allgemein lassen sich mit Hilfe des R-Pakets knitr dynamische Berichte innerhalb der Software R erzeugen (vgl. für eine weitergehende Beschreibung das elektronische Supplement ESM 1). Die Grundidee dynamischer Berichte (Zeitschriftenaufsätze, Bücher etc.) besteht darin, den Bericht und den R-Programmcode in einem Quelldokument zu pflegen und fehleranfälliges Copy & Paste zwischen verschiedenen Programmen zu vermeiden (vgl. die Idee des literate programming, z. B. bei Knuth, 1984). Dadurch wird zugleich auch eine Reproduzierbarkeit der Analysen sichergestellt (Peng, 2011). Dynamisch werden Berichte, wenn der Code bei jedem Export in das gewünschte Zielformat erneut ausgeführt wird, um die Aktualität des Zieldokuments zu gewährleisten. Hierzu verwendet knitr
Die Veröffentlichung wurde durch eine Zuwendung des Bundesministeriums für Bildung und Forschung (BMBF) im Rahmen des Forschungsfelds „Digitale Hochschulbildung“ ermöglicht (Förderkennzeichen 16DHL1005). © 2017 Hogrefe Verlag
Diagnostica (2018), 64 (1), 49–57 https://doi.org/10.1026/0012-1924/a000189
50
C. Spoden und F. Buchwald, Diagnostische Tests mit R und knitr
den Dateikonverter pandoc (MacFarlane, 2006 – 2016), der unter anderem die Ausgabe in die Formate .doc, .odt, .html und .pdf unterstützt (Xie, 2015, 2016). Eine Aktualisierung der Ergebnisse ist etwa nach Fehlerkorrektur, nachträglicher Transformation der Daten (Standardisierung, Logarithmierung), oder auch einer Modifikation der Analysen (z. B. Auswahl bestimmter Subgruppen) erforderlich. Als Sprache des Quelldokuments kann neben LaTeX oder HTML auch RMarkdown verwendet werden, welches die R-Funktionalität mit Markdown1 verknüpft, einer einfachen Syntax zur Generierung von HTML-Code aus Textdokumenten. Für die Erstellung und Auswertung diagnostischer Tests sowie für die Vorbereitung der Ergebnisrückmeldung ist das R-Paket knitr nützlich, da sich auch die Erzeugung der in diesem Prozess relevanten Dokumente dynamisch anlegen lässt. Vor dem Hintergrund des Bedarfs an effizienten Prüfungsmöglichkeiten im universitären Lehrbetrieb schlagen wir ein entsprechendes Vorgehen vor und veranschaulichen es kurz exemplarisch anhand einer fiktiven Klausur im Prüfungsfach Sozialwissenschaftliche Methodenlehre, welches ein mögliches Anwendungsfach darstellt (ein lauffähiges Beispiel ist zudem im elektronischen Supplement ESM 2 verfügbar). Abschließend wird dies durch einen kurzen Ausblick auf technologie- und computerbasierte Testungen ergänzt.
Methode und Illustration am Beispiel einer Klausur für das Fach Methodenlehre Um diagnostische Tests mit Hilfe von knitr automatisch erstellen, auswerten und die Ergebnisse rückmelden zu können, werden vordefinierte Fließtextblöcke direkt in einem Texteditor – im Folgenden RStudio (Verzani, 2011) – geschrieben. R-Funktionen, sogenannte R Code Chunks, werden ebenfalls direkt in RStudio geschrieben, müssen dabei aber mit der Zeile ‘‘‘{r} beginnen und mit der Zeile ‘‘‘ enden. Dadurch werden sie als R-Code gekennzeichnet. Solche R Code Chunks, deren syntaktische Verwendung auf der R Markdown-Homepage (R Markdown. Dynamic Documents for R, 2016) genauer erläutert ist, werden bei der Erstellung der Testbögen beispielsweise für die zufällige Auswahl von Test-Items (im Falle von Multiple-Choice-
1
Items gegebenenfalls auch die zufällige Reihenfolge der Item-Optionen), bei der Testdatenauswertung für die psychometrischen Analysen und bei der Ergebnisrückmeldung für die Zusammenstellung der zuvor bestimmten Ergebnisse genutzt. Mit Hilfe dieser Kombination von Fließtext und R-Code werden in vier Arbeitsschritten (vgl. die im Folgenden erläuterte Übersicht in Abbildung 1) große Teile des diagnostischen Prozesses einer Klausur automatisiert: 1. Itemauswahl und Erstellung des Testbogens: Der erste Arbeitsschritt beinhaltet die Itemauswahl und die Erstellung des Testbogens, wobei nicht ausschließlich an die eigentlichen Klausurbögen zu denken ist. Es ist auch vorstellbar, dass Lernaufgaben oder Beispiel-Items zur Vorbereitung auf die Klausur im Internet bereitgestellt werden. Voraussetzung ist dabei, dass ein hinreichend umfangreicher Item-Pool besteht. Dieser sollte systematisch als Item-Datenbank mit allen Item-Attributen angelegt sein und muss regelmäßig aktualisiert werden, wenn Items zum Beispiel aufgrund von Veränderungen des Inhaltsbereiches, unzureichender Trennschärfe oder mangelnder Qualität von Distraktoren entfernt, überarbeitet oder ergänzt werden. Um die Testbögen zu erstellen, formuliert der Nutzer in RStudio kurze R Code Chunks, welche die Auswahl von Items aus der Item-Datenbank steuern. Eine zufällig variierende Zusammensetzung der Klausur-Items und ihrer Antwortoptionen kann mit Hilfe der in Tabelle 1 kommentierten R-Funktion realisiert werden (die zugrundeliegenden Datensätze sind im elektronischen Supplement ESM 2 verfügbar). Die Funktion verdeutlicht, dass beide Arbeitsschritte mit verhältnismäßig wenigen Zeilen R-Code umsetzbar sind, wobei allerdings Programmierkenntnisse in R vorausgesetzt werden, die über die reine Anwendung statistischer Funktionen hinausgehen. Um die Zusammensetzung von Items und Antwortoptionen von Semester zu Semester zu variieren, ist lediglich die Wahl eines neuen Startwerts des Zufallszahlengenerators, der Seed, notwendig. Abbildung 2 zeigt ein Beispiel einer so erstellten Klausur. Eine noch elaboriertere Form der Testzusammenstellung ist mit Hilfe von Methoden der automatischen Testzusammenstellung (z. B. Stocking, Swanson & Pearlman, 1993) möglich. Neben der Berücksichtigung klassischer Auswahlkriterien wie hinreichender Trennschärfe und Varianz der Itemschwierigkeiten ist beispielsweise bei einer Methodenklausur oft auch die Abdeckung verschiedener Inhaltsbereiche (z. B. qualitative Methoden, quantitative Methoden, Statistik etc.) sicherzustellen, ohne dass dies mit einer übermäßigen Nutzung immer gleicher Items in aufeinanderfolgenden Klausurdurchläufen einhergehen sollte. Dies kann innerhalb der Methoden der automati-
Markdown ist auf der Website https://daringfireball.net/projects/markdown/ dokumentiert.
Diagnostica (2018), 64 (1), 49–57
© 2017 Hogrefe Verlag
C. Spoden und F. Buchwald, Diagnostische Tests mit R und knitr
51
Abbildung 1. Übersicht über zentrale Arbeitsschritte, ablaufende Prozesse und resultierende Produkte bei der Erstellung, Auswertung und Vorbereitung der Rückmeldung diagnostischer Tests mit R und knitr.
schen Testzusammenstellung mit verschiedenen Algorithmen des Constraint Management (z. B. Born & Frey, 2016; Cheng & Chang, 2009; Stocking & Swanson, 1993) sichergestellt werden. Derzeit sind aber nur einzelne, nach unserer Einschätzung recht knapp dokumentierte Varianten des Constraint Management in R-Paketen implementiert (vgl. aber z. B. Diao & van der Linden, 2011), sodass ihre Anwendung momentan nur versierten R-Nutzern empfohlen werden kann. Bei der späteren Auswertung der Tests liegt eine besondere Herausforderung darin, ausgelassene Items von fehlenden Antworten bei bearbeiteten Items aufgrund von Verschmutzungen oder anderen Schwierigkeiten beim Einscannen zu unterscheiden. Um zu verhindern, dass eine hohe Anzahl von Testbögen noch einmal hinsichtlich ausgelassener Items durchgesehen werden muss, ist daher entweder eine Empfehlung zum Raten der richtigen © 2017 Hogrefe Verlag
Lösung bei geschlossenen Antwortformaten oder alternativ die Angabe einer Ausweichkategorie Item ausgelassen (oder ähnlich) inklusive eines Hinweises in der Testinstruktion zur Verwendung dieser Kategorie bei beabsichtigter Nichtbeantwortung des Items zu bedenken. Da die Prüflinge sich üblicherweise zur Klausur anmelden müssen, ihre personenbezogenen Daten wie Name und Matrikelnummer also bekannt sind, und bei dem späteren Einlesen der handschriftlichen Namensangabe auf dem Klausurbogen Scan-Fehler nicht ausgeschlossen werden können, bietet sich als zusätzliche Erweiterung der Funktionalität eine individualisierte Erstellung der Testbögen an. Diese ist in R zum Beispiel mit Hilfe einer Schleife umzusetzen, bei der bei jedem Durchlauf jeweils Name oder Matrikelnummer des Prüflings aus einer entsprechenden Datenbank eingelesen und dem Dokument an entsprechender Stelle hinzugefügt wird. Diagnostica (2018), 64 (1), 49–57
52
C. Spoden und F. Buchwald, Diagnostische Tests mit R und knitr
Tabelle 1. Syntax zur Erstellung und Ausgabe eines diagnostischen Tests mit R und knitr Funktion zur Item-Auswahl: Beginn R Code Chunk →
‘‘‘{r, echo=FALSE} # ohne R-Code im Dokument (echo=FALSE)
Einlesen von Informationen aus dem Itempool →
item.matrix <- read.csv2(”…/Methodenlehre_Klausur.csv”)
Kommentare →
## item.matrix – the items documented by (c1) Item-ID, (c2) content, ## (c3) Stimulus, (c4 – 7) Options1 – 4, (c8) correct scoring ## itemnum – the number of items to be selected ## ranIord – random ITEM ordering? ## ranOord – random OPTIONS ordering?
R-Funktion innerhalb des Chunks →
item.selection <- function(item.matrix, seed, itemnum, ranIord=TRUE, ranOord=TRUE) {
zufällige Auswahl der Items →
set.seed(seed) item.matrix.new <- item.matrix[ sort( sample(1:nrow(item.matrix),itemnum) ), ]
zufällige Reihenfolge der Items →
if(ranIord) item.matrix.new <- item.matrix.new[rank(runif(nrow(item.matrix.new),0,1)),]
zufällige Reihenfolge der Optionen →
if (ranOord) { opt <- item.matrix.new[,4:(ncol(item.matrix.new)-1)] opt <- data.frame(t(apply(opt,1, function(x){x <- x[rank(runif(dim(opt)[2], 0,1))]}))) colnames(opt) <- colnames(item.matrix.new[,4:(ncol(item.matrix.new)-1)]) item.matrix.new[,4:(ncol(item.matrix.new)-1)] <- opt } return(item.matrix.new)
Ende R Code Chunk →
} ‘‘‘
Funktion zur Zusammenstellung der Multiple-Choice-Items: Beginn R Code Chunk →
‘‘‘{r, echo=FALSE}
R-Funktion innerhalb des Chunks →
item.present <- function(item.matrix) { for (i in 1:nrow(item.matrix)) {
Präsentation des Stimulus →
question <- paste(”Frage”,i, ”: ”, item.matrix[i,3]) cat(question); cat(”\n”) for (j in 4:(ncol(item.matrix)-1)) {
Präsentation von Antwortkasten und Antwortoption →
option <- paste(”[ ]”, item.matrix[i,j]) cat(option); cat(”\n”) } cat(” ”); cat(”\n”) }
Ende R Code Chunk →
} ‘‘‘
Funktionsaufruf zur Auswahl von Items: Festlegung einer Seeda) →
‘‘‘{r, echo=FALSE, comment=NA} seed <- 1111
Festlegung Itemanzahl →
itemnum <- 4
Aufruf Itemauswahl →
Items <- item.selection(item.matrix, seed=seed, itemnum=itemnum, ranIord=TRUE, ranOord=TRUE) ‘‘‘
Funktionsaufruf zur Ausgabe von Items: Überschrift →
### Klausur Methodenlehre
Fließtextstellen →
Bitte geben Sie hier Ihre Matrikelnummer an: Bitte geben Sie hier Ihren Nachnamen an: Bitte geben Sie hier Ihren Vornamen an: ‘‘‘{r, echo=FALSE, tidy=FALSE, comment=NA, }
Aufruf Präsentation des Items →
. . .
item.present(item.matrix=Items) ‘‘‘
Anmerkung: a) Seed (dt. Saat) meint den Startwert, der an den (Pseudo‐)Zufallsgenerator übergeben wird. Eine Festlegung der Seed ist zur Reproduzierbarkeit der Ergebnisse nötig.
2. Datenkonvertierung und -auswertung: Die von den Prüflingen bearbeiteten Klausurbögen werden im zweiten Arbeitsschritt mit Hilfe von Optical-Character-RecogDiagnostica (2018), 64 (1), 49–57
nition-Software (OCR Software) gescannt, in ein geeignetes Datenformat überführt, in R eingelesen und dort psychometrisch analysiert. Mit der webbasierten Open © 2017 Hogrefe Verlag
C. Spoden und F. Buchwald, Diagnostische Tests mit R und knitr
53
Abbildung 2. Beispielklausur zum Inhaltsbereich „Sozialwissenschaftliche Methodenlehre“.
Source Software queXF (Australian Consortium for Social and Political Research Incorporated, 2016) liegt neben kommerziellen Produkten eine leistungsstarke nicht-kommerzielle OCR-Software für das Einlesen der Klausurbögen vor. In der OCR-Software sind dann zunächst verschiedene Spezifikationen vorzunehmen, die von dem Nutzer bzw. der Nutzerin eine gewisse Zeit der Einarbeitung in den Umgang mit der Software erfordern. Die wichtigsten Spezifikationen in der OCR-Software beinhalten die Lokation der einzulesenden Felder, die Definition des konkreten Inhalts (z. B. vorgedruckter Name, Freitextfeld, Markierungskästchen etc.) und die Festlegung von Schwellenwerten zur Unterscheidung eindeutiger Markierungen, Korrekturen und kleinerer Verschmutzungen. Eine solche Spezifikation kann zunächst recht aufwendig sein. Ein Zeitvorteil ergibt sich allerdings, wenn Spezifikationen aus dem Vorjahr mit wenigen Änderungen hinsichtlich der Reihenfolge bestimmter Antwortmodi und gegebenenfalls der Anzahl der Testitems in einen neuen Klausurdurchgang übernommen werden können. Im Anschluss können zumindest die Antworten bei geschlossenen Antwortformaten mit Hilfe leistungsstarker OCR-Software verhältnismäßig sicher korrekt erfasst werden. Bei umfangreichen Klausuren mit längeren Stimuli sowie Abbildungen oder Tabellen ist zu empfehlen, Test© 2017 Hogrefe Verlag
heft und Antwortbogen getrennt zu erstellen und nur den (dann oftmals einseitigen) Antwortbogen zu scannen. Dies erleichtert die in der OCR-Software vorzunehmende Definition der relevanten Scan-Felder und reduziert die Zeit des Einlesens. Die Auswertung der Testdaten auf Basis eines automatischen Scorings erfolgt in R unter Anwendung der klassischen Testtheorie oder alternativ der probabilistischen Testtheorie, welche auch die Verlinkung zu vorausgegangenen Prüfungszeiträumen ermöglicht. Sowohl das Scoring von Rohdaten als auch die Berechnung psychometrischer Kennwerte wie der Itemschwierigkeit und -varianz oder der Trennschärfe ist mit Hilfe von Standardfunktionen in R durchführbar. 3. Dokumentation des Erhebungsinstrumentes: Im dritten Arbeitsschritt wird eine systematische Dokumentation des Erhebungsinstrumentes erstellt, welche Informationen wie etwa die Zuordnung der Items zu spezifischen Inhaltsbereichen (z. B. qualitative Methoden, quantitative Methoden, Statistik etc.) und die oben genannten psychometrischen Kennwerte der Items und Skalen aufführt. Im konkreten Anwendungsbeispiel ist die regelmäßige Aktualisierung dieser Kennwerte etwa relevant, wenn in nachfolgenden Klausurdurchläufen einzelne Aufgaben erneut eingesetzt werden und sich die Datenbasis Diagnostica (2018), 64 (1), 49–57
54
C. Spoden und F. Buchwald, Diagnostische Tests mit R und knitr
Tabelle 2. Syntax zur Erstellung einer Dokumentation des Erhebungsinstrumentes Zusammenfassung von Item- und Skalenstatistiken: Beginn R Code Chunk →
‘‘‘{r, echo=FALSE}
Einlesen von Informationen aus dem Itempool → und der Studierenden →
Items <- read.csv2(”…/Methodenlehre_Klausur.csv”) Stud <- read.csv2(”…/Daten_Studierende.csv”) IR <- Stud[,c(4:ncol(Stud))] Score <- rowSums(IR) Item.ID <- colnames(IR)
Berechnung von Itemstatistiken →
Item.Mean <- apply(IR, 2, mean) Item.SD <- apply(IR, 2, sd) Item.Form <- ifelse(max(IR)<2, ”dichotom”, ”Ratingskala”) pb <- apply(IR, 2, cor, Score)
Zusammenfassung der Itemstatistiken →
item.res <- data.frame(cbind(Item.ID, round(Item.Mean, 2), round(Item.SD, 2), round(pb, 2)))
Berechnung von Skalenstatistiken →
colnames(item.res) <- c(”Item”, ”MW”, ”SD”, ”Trennschärfe”) score.mean <- mean(Score) score.sd <- sd(Score) mean.pb <- mean(pb) N <- length(Score)
Zusammenfassung der Skalenstatistiken →
score.res <- data.frame(N, round(score.mean, 2), round(score.sd, 2), round(mean.pb, 2)) colnames(score.res) <- c(”N”, ”MW”, ”SD”, ”mittl. Trennschärfe”)
Ende R Code Chunk →
‘‘‘
Ausgabe: Titel des Dokumentes (Überschrift) →
###Dokumentation des Erhebungsinstruments Test: Modulabschlussklausur Methodenlehre
(Inline) R Code zum Einbinden von R Code in den Fließtext (Antwortformat und Itemanzahl) →
Antwortformat: ‘r Item.Form‘ Itemanzahl: ‘r nrow(item.res)‘
R Code Chunk zur Ausgabe der Stimuli →
Items (Text): ‘‘‘{r, echo=FALSE, comment=NA} print(as.character(Items$Stimulus), row.names=F)
Fließtext →
‘‘‘ Die nachfolgende Tabelle fasst die klassischen Item-Kennwerte zusammen.
R Code Chunk zur Ausgabe der Itemstatistiken →
‘‘‘{r, echo=FALSE, comment=NA} print(item.res, row.names=F) ‘‘‘
Fließtext →
Die nachfolgende Tabelle fasst die klassischen Skalen-Kennwerte zusammen.
R Code Chunk zur Ausgabe der Skalenstatistiken →
‘‘‘{r, echo=FALSE, comment=NA} print(score.res, row.names=F) ‘‘‘
somit erhöht. Statt die Berechnung der Kennwerte und die Überführung in Datentabellen von Hand vorzunehmen, können diese mit knitr in einem Syntaxdurchlauf automatisch erzeugt und gegebenenfalls im Fließtext beschrieben werden. Tabelle 2 zeigt eine Syntax, in dem die R Code Chunks und Fließtextabschnitte einer solchen Dokumentation gekennzeichnet sind. Abbildung 3 zeigt das bei Ausführung der Syntax resultierende Dokument. 4. Erstellung eines Ergebnisbogens: Der abschließende Arbeitsschritt beinhaltet die automatisierte Veröffentlichung individueller Ergebnisse in einem Übersichtsblatt (z. B. Aushang von Klausurergebnissen). Diese setzt im einfachsten Fall in der Syntax lediglich die Zusammenführung eines anonymisierten Identifikationskürzels (etDiagnostica (2018), 64 (1), 49–57
wa die Matrikelnummer) und der in Notenstufen transformierten Rohsummenwerte in einer Tabelle sowie die Überführung in das Ausgabedokument mit Hilfe von R Code Chunks voraus. In Tabelle 3 ist die entsprechende Syntax und in Abbildung 4 das mit Hilfe dieser Syntax erzeugte Dokument ersichtlich. Die notwendigen personenbezogenen Daten können wiederum mit Hilfe von OCR-Software in vordefinierten Antwortfeldern auf dem Testbogen erfasst und gemeinsam mit den ItemUrsprungsdaten in R importiert werden. Da das Einlesen der handschriftlichen Angaben fehleranfällig sein kann, wäre allerdings die oben angedeutete Ausgabe individualisierter Test- oder Antwortbögen zu bevorzugen, bei der personenbezogene Daten an vorab definierten Stellen aufgedruckt sind. © 2017 Hogrefe Verlag
C. Spoden und F. Buchwald, Diagnostische Tests mit R und knitr
55
Abbildung 3. Dokumentation der Ergebnisse einer fiktiven Klausur „Sozialwissenschaftliche Methodenlehre“.
Abbildung 4. Ergebnisbogen einer fiktiven Klausur im Prüfungsfach „Sozialwissenschaftliche Methodenlehre“.
Zusammenfassung und Ausblick Die Anwendung des R-Paketes knitr für die Erstellung und Auswertung diagnostischer Tests sowie für die Vorbereitung der Rückmeldung stellt ein Beispiel für die fruchtbare, in der psychologischen Diagnostik aber kaum beachtete Verknüpfung von Texteditor und Statistik-Software im Zusammenhang mit dynamischen Dokumenten dar. Das Vorgehen ist am Beispiel der Erstellung einer universitären Klausur für das Fach Methodenlehre illustriert worden. Allerdings ging die Zielsetzung des Beitra© 2017 Hogrefe Verlag
ges über dieses konkrete Beispiel hinaus. Zum einen ist das Verfahren zwar an Multiple-Choice-Items dargestellt worden. Es wäre jedoch auch auf andere, geschlossene Antwortformate (Wahr- / Falsch-Aufgaben, Zuordnungsaufgaben) übertragbar. Prinzipiell lassen sich auch Ergänzungsaufgaben durch das Hinterlegen einer Reihe üblicher Synonyme und Schreibweisen mit Hilfe logischer Funktionen in R auswerten. Es sollte jedoch aufgrund unterschiedlicher Handschriften eine zusätzliche Prüfung der OCR-Erkennung ins Auge gefasst werden. Darüber hinaus ist auch das Einfügen von Tabellen oder Abbildungen als Teil des Stimulus möglich. Zum anderen ist neben der Erstellung und R-basierten psychometrischen Auswertung diagnostischer Tests auch die Dokumentation des Instrumentes und die Vorbereitung der Ergebnisrückmeldung kurz skizziert worden. Große Teile des diagnostischen Prozesses sind somit in R mit dem R-Paket knitr umsetzbar, wobei – abhängig von der konkreten Anwendung – zugegebenermaßen ein mehr oder weniger hohes Maß an Programmierkenntnissen in R zur Umsetzung notwendig ist. Da derzeit die Mehrzahl aller diagnostischen Tests im Paper-Pencil-Format vorgegeben wird, stellt die Verfügbarkeit leistungsstarker Scanner und entsprechender OCR-Software bisher den Flaschenhals bei der Automatisierung dar. Mit der in der Zukunft zu erwartenden Verbreitung technologie- und computerbasierter Testungen Diagnostica (2018), 64 (1), 49–57
56
C. Spoden und F. Buchwald, Diagnostische Tests mit R und knitr
Tabelle 3. Syntax zur Erstellung eines Ergebnisbogens Zusammenfassung von Studierendeninformationen und Noten: Beginn R Code Chunk →
‘‘‘{r, echo=FALSE}
Festlegungen (Dozent, Semester) →
Dozent1 <- ”Max Mustermann” Semester <- ”SoSe2016”
Einlesen von Studierendeninformationen →
Stud <- read.csv2(”…/Daten_Studierende.csv”)
Berechnung von Rohsummenwerten →
Mat_Nr <- Stud[,1] Name <- Stud[,2] Vorname <- Stud[,3] IR <- Stud[,c(4:ncol(Stud))] Score <- rowSums(IR)
Rekodierung in Notenstufen →
Note <- 5 Note <- ifelse((Score/ncol(IR) >= .90), 1, Note)
Zusammenfassung relevanter Informationen →
Note <- ifelse(((Score/ncol(IR) >= .80) & (Score/ncol(IR) < .90)), 2, Note) Note <- ifelse(((Score/ncol(IR) >= .65) & (Score/ncol(IR) < .80)), 3, Note) Note <- ifelse(((Score/ncol(IR) >= .50) & (Score/ncol(IR) < .65)), 4, Note) results <- data.frame(Mat_Nr, Name, Vorname, Note)
Ende R Code Chunk →
‘‘‘
Ausgabe: Titel des Dokumentes (Überschrift) →
### Ergebnisse der Klausur ”Methodenlehre” Dozent: **‘r Dozent1‘**. Ergebnisse der Modulabschlussklausur des Semesters **‘r Semester‘**: ‘‘‘{r, echo=FALSE, comment=NA}
(Inline) R Code zum Einbinden von R Code in den Fließtext (Dozent, Semester) →
print(results, right=FALSE, row.names = FALSE)
R Code Chunk zur Ausgabe des Ergebnisbogens →
‘‘‘
würde dieser Flaschenhals allerdings entfallen (wobei im Hochschulbereich rechtliche Aspekte zu klären sind). Durch den Einsatz computerbasierter Testungen, die ebenfalls in R umsetzbar sind und sich somit in den oben skizzierten Prozess integrieren lassen, werden einige der aufgeführten Arbeitsschritte (Klausurerstellung, Einlesen der Antwortbögen) ersetzt. Andere Arbeitsschritte wie die Auswertung, Dokumentation und Rückmeldung bedürfen hingegen weiterhin einer effizienten Lösung im Sinne des beschriebenen Vorgehens. Im Idealfall führt das hier skizzierte Vorgehen in Verbindung mit dem Einsatz technologie- und computerbasierter Testungen dazu, dass Ergebnisse unmittelbar ausgewertet, dokumentiert und zurückgemeldet werden können.
Elektronische Supplemente (ESM) Die elektronischen Supplemente sind mit der OnlineVersion dieses Artikels verfügbar unter https://doi.org/ 10.1026/0012-1924/a000189 ESM 1. Ein kurzer Überblick zum R-Paket knitr (Überblick_knitr.pdf). Diese Datei enthält einen schriftlichen Überblick zum knitr-Paket. Diagnostica (2018), 64 (1), 49–57
ESM 2. Lauffähiges_Beispiel (Lauffähiges_Beispiel.zip). Diese Datei enthält lauffähige Syntax zur Erstellung und Auswertung einer Klausur im Prüfungsfach Sozialwissenschaftliche Methodenlehre mit Hilfe der Software R und des R-Pakets knitr sowie zur Vorbereitung der Ergebnisrückmeldung. Zudem sind Datensätze zu fiktiven Items einer entsprechenden Klausur und fiktive Informationen zu Studierenden inklusive kodierter Itemantworten enthalten.
Literatur Australian Consortium for Social and Political Research Incorporated (ACSPRI) (2016). queXF 1.18.1. An open source, web based paper form verification and data entry system [Computer Software]. Zugriff am 07. 10. 2016. Verfügbar unter https://quexf. acspri.org.au/ Born, S. & Frey, A. (2016). Heuristic constraint management methods in multidimensional adaptive testing. Educational and Psychological Measurement. Advance online publication. doi:10.1177/0013164416643744. Cheng, Y. & Chang, H.-H. (2009). The maximum priority index method for severely constrained item selection in computerized adaptive testing. British Journal of Mathematical and Statistical Psychology, 62, 369 – 383. © 2017 Hogrefe Verlag
C. Spoden und F. Buchwald, Diagnostische Tests mit R und knitr
Diao, Q. & van der Linden, W. J. (2011). Automated test assembly using lp_Solve version 5.5 in R. Applied Psychological Measurement, 35, 398 – 409. Knuth, D. E. (1984). Literate programming. The Computer Journal, 27 (2), 97 – 111. MacFarlane, J. (2006 – 2016). Pandoc: a universal document converter [Computer Software]. Zugriff am 07. 10. 2016. Verfügbar unter http://johnmacfarlane.net/pandoc/ Peng, R. D. (2011). Reproducible research in computational science. Science, 334, 1226 – 1227. R Development Core Team (2016). R: A language and environment for statistical computing [Computer Software]. Wien, Österreich: R Foundation for Statistical Computing. Zugriff am 07. 10. 2016. Verfügbar unter: http://www.R-project.org. R Markdown. Dynamic Documents for R. (2016, October 7). Verfügbar unter http://rmarkdown.rstudio.com/index.html Stocking, M. L. & Swanson, L. (1993). A method for severely constrained item selection in adaptive testing. Applied Psychological Measurement, 17, 277 – 292. Stocking, M. L., Swanson, L. & Pearlman, M. (1993). Application of an automated item selection method to real data. Applied Psychological Measurement, 17, 167 – 176. Verzani, J. (2011). Getting started with RStudio. Sebastopol, CA: O’Reilly. Xie, Y. (2014). knitr: A comprehensive tool for reproducible research in R. In V. Stodden, F. Leisch & R. D. Peng (Eds.), Imple-
57
menting reproducible research (pp. 3 – 32). Boca Raton, FL: CRC Press. Xie, Y. (2015). Dynamic documents with R and knitr (The R series, 2nd ed.). Boca Raton, FL: Chapman & Hall/CRC. Xie, Y. (2016). knitr: A general-purpose package for dynamic report generation in R (R package version 1.13) [Computer Software]. Zugriff am 07. 10. 2016. Verfügbar unter http://cran.r-project. org/package=knitr Onlineveröffentlichung: 05. 09. 2017
Dr. Christian Spoden Friedrich-Schiller-Universität Jena Professur Empirische Methoden der erziehungswissenschaftlichen Forschung 07737 Jena christian.spoden@uni-jena.de Dr. Florian Buchwald Universität Duisburg-Essen Universitätsstraße 2 45141 Essen www.fbuchwald.de
Das Lehrbuch des renommierten Neuropsychologen Lutz Jäncke
Lehrbuch Kognitive Neurowissenschaften 2., überarb. Aufl. 2017. 728 S., 407 Abb., 47 Tab., Gb € 79,95 / CHF 99.00 ISBN 978-3-456-85811-1 Auch als eBook erhältlich Die Kognitiven Neurowissenschaften – das Forschungsfeld, in dem sich Psychologie, Humanbiologie und Neurologie verbinden. Das Lehrbuch des renommierten Neuropsychologen bietet einen umfassenden Überblick über Methoden und Forschungsgegenstände des Fachs.
Die zweite, überarbeitete Auflage wurde unter anderem mit neuen Informationen aus dem Bereich der EEG-Technologie und einem neuen Kapitel zur Bedeutung des „Ruhezustandes“ des Gehirns ergänzt.
www.hogrefe.com
© 2017 Hogrefe Verlag
Diagnostica (2018), 64 (1), 49–57
Danksagung Die unten aufgeführten Kolleginnen und Kollegen sind im Jahr 2017 als Gutachterinnen und Gutachter für die Diagnostica tätig gewesen. Ihnen sei ganz herzlich gedankt (Stand: 28. 09. 2017). Uwe Altmann, Jena Eva Bamberg, Hamburg Harald Baumeister, Ulm Constanze Beierlein, Hamm Jürgen Bengel, Freiburg Mona Bornschlegl, Bremen Elmar Brähler, Leipzig Dorothee Brovelli, Luzern (CH) Romuald Brunner, Heidelberg Gerhard Büttner, Frankfurt am Main Daniel Danner, Mannheim Monika Daseking, Bremen Theresa Dicke, Sydney (AU) Heribert H. Freudenthaler, Graz (AT) Alexander Freund, Lüneburg Siegfried Gauggel, Aachen Erin Gerlach, Potsdam Tanja Gerlach, Göttingen Frank Goldhammer, Frankfurt am Main Mario Gollwitzer, Marburg Joachim Grabowski, Hannover Ina Grau, Bonn Carola Grunschel, Bielefeld Burkhard Gusy, Berlin Nicole Haag, Berlin Carolin Hahnel, Frankfurt am Main Claudia Harsch, Bremen Freda-Marie Hartung, Kamp-Lintfort Marcus Hasselhorn, Frankfurt am Main Nina Heinrichs, Braunschweig Stefan Höft, Mannheim Oliver Höner, Tübingen Roland Imhoff, Köln Tina In-Albon, Landau Christoph J.Kemper, Mainz Thomas Klauer, Stralsund Annette Klein, Leipzig Katrin Klingsieck, Paderborn Carl-Walter Kohlmann, Schwäbisch Gmünd Ingrid Koller, Klagenfurt (AT) Sascha Krause, Leipzig Ulf Kröhne, Frankfurt am Main Olga Kunina-Habenicht, Frankfurt am Main Clemens Lechner, Mannheim Marius Leckelt, Münster, Diagnostica (2018), 64 (1), 58
Bernhard Leipold, Neubiberg Annette Lohbeck, Oldenburg Oliver Lüdtke, Kiel Thomas Martens, Frankfurt am Main Franziska Meichsner, Jena Thorsten Meyer, Hannover Jochen Musch, Düsseldorf Dennis Nitkowski, Bremen Tuulia Ortner, Berlin Nantje Otterpohl, Gießen Ines Pfeffer, Hamburg Olga Pollatos, Ulm Raphaela Porsch, Münster Franzis Preckel, Trier Wolfgang Rauch, Heidelberg Gerolf Renner, Reutlingen Gitta Reuner, Heidelberg Margund Rohr, Leipzig Nicolas Sander, Nürnberg Karin Schermelleh-Engel, Frankfurt am Main Stefan Schipolowski, Berlin Marc Schipper, Bremen Marc Schmid, Basel (CH) Silvia Schneider, Bochum Michela Schröder-Abé, Chemnitz Elisabeth Schubach, Jena Heinz Schuler, Stuttgart Karl Schweizer, Frankfurt am Main Birgit Spinath, Heidelberg Gerhard Stemmler, Marburg Joachim Stiensmeier-Pelster, Gießen Joachim Stoeber, Canterbury (GB) Gorden Sudeck, Tübingen Maria von Salisch, Lüneburg Petra Warschburger, Potsdam Sabine Weinert, Bamberg Susanne Weis, Landau Eva-Verena Wendt, München Esther Winther, Essen Markus Antonius Wirtz, Freiburg Wolfgang Woerner, Frankfurt am Main Safir Yousfi, Nürnberg Dieter Zapf, Frankfurt am Main https://doi.org/10.1026/0012-1924/a000198 © 2018 Hogrefe Verlag
Hinweise für Autorinnen und Autoren „Diagnostica“ ist die deutschsprachige Zeitschrift für Psychologische Diagnostik und Differentielle Psychologie. Thematischer Schwerpunkt ist die wissenschaftliche Auseinandersetzung mit psychodiagnostischen Verfahren und Instrumenten sowie mit Methoden ihrer Entwicklung und Evaluation. Als Organ für diagnostische Fragen in allen Bereichen der Psychologie und als Informationsorgan über psychologische Tests und Untersuchungsmethoden dient die Diagnostica unmittelbar der praktischen psychologischen Arbeit und trägt durch Diskussion und Erfahrungsberichte über einzelne Instrumente und Methoden zur Entwicklung auf dem gesamten Gebiet der Psychologischen Diagnostik bei. Veröffentlicht werden in der Diagnostica die Rubriken: Originalarbeiten, Kommentare, Software-Informationen, Methodeninformationen, Testinformationen, Rezensionen und Berichte aus der Arbeit des Testkuratoriums. Einsendung von Manuskripten. Alle Manuskripte sind in elektronischer Form im Editorial Manager unter http://www.editorial manager.com/dia einzureichen. Detaillierte Hinweise für Autoren finden Sie unter http://www. hogrefe.com/j/dia Urheber- und Nutzungsrechte. Der Autor bestätigt und garantiert, dass er uneingeschränkt über sämtliche Urheberrechte an seinem Beitrag einschließlich eventueller Bildvorlagen, Zeichnungen, Pläne, Karten, Skizzen und Tabellen verfügt, und dass der Beitrag keine Rechte Dritter verletzt. Der Autor räumt – und zwar auch zur Verwertung seines Beitrages außerhalb der ihn enthaltenen Zeitschrift und unabhängig von deren Veröffentlichung – dem Verlag räumlich und mengenmäßig unbeschränkt für die Dauer des gesetzlichen Urheberrechts das ausschließliche Recht der Vervielfältigung und Verbreitung bzw. der unkörperlichen Wiedergabe des Beitrags ein. Der Autor räumt dem Verlag ferner die folgenden ausschließlichen Nutzungsrechte am Beitrag ein:
Jahrgang 63 / Heft 1 / 2017
g
Diagnostica
Herausgeber Olaf Köller Johannes Hartig Oliver Lüdtke Franz J. Neyer Franz Petermann Florian Schmiedek Oliver Wilhelm
Zeitschrift für Psychologische Diagnostik und Differentielle Psychologie
a) Das Recht zum ganzen oder teilweisen Vorabdruck oder Nachdruck – auch in Form eines Sonderdrucks, zur Übersetzung in andere Sprachen, zu sonstiger Bearbeitung und zur Erstellung von Zusammenfassungen (Abstracts); b) das Recht zur Veröffentlichung einer Mikrokopie-, Mikroficheund Mikroformausgabe, zur Nutzung im Weg von Bildschirmtext, Videotext und ähnlichen Verfahren, zur Aufzeichnung auf Bildund/ oder Tonträger und zu deren öffentlicher Wiedergabe – auch multimedial – sowie zur öffentlichen Wiedergabe durch Radio- und Fernsehsendungen; c) das Recht zur maschinenlesbaren Erfassung und elektronischen Speicherung auf einem Datenträger (z. B. Diskette, CDRom, Magnetband) und in einer eigenen oder fremden OnlineDatenbank, zum Download in einem eigenen oder fremden Rechner, zur Wiedergabe am Bildschirm – sei es unmittelbar oder im Wege der Datenfernübertragung – sowie zur Bereithaltung in einer eigenen oder fremden Online-Datenbank zur Nutzung durch Dritte; d) das Recht zu sonstiger Vervielfältigung, insbesondere durch fotomechanische und ähnliche Verfahren (z. B. Fotokopie, Fernkopie) und zur Nutzung im Rahmen eines sogenannten Kopienversands auf Bestellung; e) das Recht zur Vergabe der vorgenannten Nutzungsrechte an Dritte in In- und Ausland sowie die von der Verwertungsgesellschaft WORT wahrgenommenen Rechte einschließlich der entsprechenden Vergütungsansprüche. Nutzungsrichtlinien für Hogrefe Zeitschriftenartikel. Hinweise für Autoren zur Online-Archivierung einer elektronischen Version Ihres Manuskriptes finden Sie auf unserer Homepage unter http://hgf.io/nutzungsrichtlinien. September 2016
Diagnostica Zeitschrift für Psychologische Diagnostik und Differentielle Psychologie Wir freuen uns über die Einreichung von Beiträgen für unsere Zeitschrift. Weitere Informationen zur Zeitschrift sowie alle notwendigen Hinweise für die Einreichung von Manuskripten (Autorenhinweise) finden Sie auf unserer Homepage.
www.hogrefe.com/produkte/zeitschriften
© 2018 Hogrefe Verlag
Diagnostica (2018), 64 (1), 59
Lautarium
DRT 4
Ein computerbasiertes Trainingsprogramm für Grundschulkinder mit Lese-Rechtschreibschwierigkeiten
Diagnostischer Rechtschreibtest für 4. Klassen
M. Klatte / C. Steinbrink / K. Bergström / T. Lachmann
M. Grund / R. Leonhart / C. L. Naumann Reihe: Hogrefe Schultests Hrsg. von M. Hasselhorn / W. Schneider / U. Trautwein
Reihe: Hogrefe Förderprogramme Das Verfahren: Lautarium ist ein computerbasiertes Trainingsprogramm zur Förderung von Grundschulkindern mit Lese-Rechtschreibschwierigkeiten. Das Programm umfasst insgesamt 58 aufeinander aufbauende Übungen zur Phonemwahrnehmung (Diskrimination und Identifikation von Konsonanten und Vokallängen), phonologischen Bewusstheit (Laute in Wörtern erkennen, Laute zu Wörtern verbinden, Wörter in Laute zerlegen), Graphem-Phonem-Zuordnung sowie zum lautgetreuen Lesen und Schreiben und zur schnellen Worterkennung („Blitzlesen“). Interaktive Instruktionen und eine adaptive Aufgabenabfolge erleichtern die selbstständige Durchführung. Zur Motivation werden richtige Antworten mit virtuellen Talern belohnt, sodass Objekte für ein animiertes Aquarium „eingekauft“ werden können. Trainingsstand und -verlauf des Kindes können anhand übersichtlich aufbereiteter Ergebnisstatistiken eingesehen werden. Die Wirksamkeit des Lautarium-Trainings wurde in mehreren empirischen Studien bestätigt. Drittklässler mit Lese-Rechtschreibstörung sowie Erst- und Zweitklässler mit und ohne Lese-Rechtschreibschwierigkeiten zeigten nach dem Training im Vergleich zu Kontrollgruppen signifikant stärkere Verbesserungen phonologischer und schriftsprachlicher Leistungen (inkl. USBStick).
50 857 01 Test komplett
3., aktualisierte und neu normierte Auflage
89,00 €
Einsatzbereich: Der DRT 4 ist für die Monate Oktober bis Januar der 4. Klasse normiert. Das Verfahren kann als Gruppentest in der Schule und als Einzeltest in der therapeutischen Beratung eingesetzt werden. Das Verfahren: Der DRT 4 hat eine doppelte Zielsetzung: 1. Er misst objektiv die Rechtschreibleistung eines Schülers. Aufgrund der guten Differenzierung im unteren Leistungsbereich ist der Test insbesondere für die Diagnose von Rechtschreibschwierigkeiten geeignet. 2. Der DRT 4 ermittelt spezifische Fehlerschwerpunkte in folgenden Bereichen: Lautunterscheidung und Lautfolge, Buchstabenverbindungen (st/sp, pf, qu), Dopplung/Dehnung, Morphemkonstanz in verschiedenen Wortformen, Ableitung des ä von a und des Endbuchstabens durch Verlängern, das Präfix ver-, Groß- und Kleinschreibung. Auf diesen Grundlagen kann über die Notwendigkeit und die Art einer Förderung entschieden und ihr Erfolg kontrolliert werden. Der DRT 4 liegt in zwei Parallelformen mit je 42 Wörtern vor, die nach Diktat in Lückensätze eingetragen werden. Für die 3., aktualisierte und neu normierte Auflage wurde das Verfahren an einer Stichprobe von 2.055 Schülern aus 12 Bundesländern neu normiert. Bearbeitungsdauer: Die Durchführungsdauer beträgt 35 bis 45 Minuten (inklusive Instruktion). 04 156 01 Test komplett
www.hogrefe.com
www.hogrefe.com
88,00 €
Aktuelle Sachbücher und Ratgeber Julia Weber
Ich fühle, was ich will Wie Sie Ihre Gefühle besser wahrnehmen und selbstbestimmt steuern 2017. 216 S., 3 farbige Tab., 45 Abb., Gb € 24,95 / CHF 32.50 ISBN 978-3-456-85557-8 Auch als eBook erhältlich Laut einer aktuellen Studie sind ca. 10 % der Bevölkerung Deutschlands von „Gefühlsblindheit“, der sogenannten Alexithymie, betroffen. Julia Weber geht den Gefühlen mittels des Zürcher Ressourcen Modells (ZRM®) auf den Grund und erklärt leicht verständlich und fundiert das Konzept der Alexithymie und ihrer Entstehung. Hans Rudolf Olpe / Cora Olpe
Hirnwellness Alzheimer, Hirnschlag und Depressionen – von den Risiken zu präventiven Möglichkeiten 2017. 184 S., 3 Abb., Kt € 19,95 / CHF 26.90 ISBN 978-3-456-85605-6 Auch als eBook erhältlich
nwellness.indd 2
12.06.17 11:16
Bei der Entstehung der schweren Hirnerkrankungen Alzheimer, Hirnschlag und Depressionen sind biologische, psychische und soziale Faktoren maßgeblich beteiligt. Diese Faktoren sind eng mit unserem Lebensstil verbunden und wir können sie daher selbst verändern. Ziel dieses Buch ist es, auf das große Potenzial präventiver Maßnahmen gegen die drei Krankheiten hinzuweisen.
www.hogrefe.com
Maja Storch et al.
Embodiment Die Wechselwirkung von Körper und Psyche verstehen und nutzen 3., unveränd. Aufl. 2017. 184 S., 34 Abb., Gb € 29,95 / CHF 39.90 ISBN 978-3-456-85816-6 Auch als eBook erhältlich
Warum fällt es vielen Menschen so schwer, achtsam mit dem eigenen Körper umzugehen? Die vier Autoren gehen in „Embodiment“ dieser und anderen Fragen nach und kommen einmütig zum Schluss: Es ist höchste Zeit, das wichtigste Erfahrungsinstrument des Menschen zurückzuerobern: den Körper. Georg H. Eifert et al.
Mit Ärger und Wut umgehen Der achtsame Weg in ein friedliches Leben mit der Akzeptanz- und Commitment-Therapie (ACT) Übersetzt von Matthias Wengenroth. Mit einem Vorwort von Steven C. Hayes. 3., unveränd. Aufl. 2017. 248 S., 2 Abb., Gb € 24,95 / CHF 32.50 ISBN 978-3-456-85833-3 Wutanfälle sind überflüssig und peinlich. Auf Basis der Akzeptanz- und Commitment-Therapie (ACT) zeigen die Autoren, dass es sinnlos ist, emotionale Reaktionen wie Wut und Ärger zu unterdrücken, sondern dass man lernen kann, sich diesen Gefühlen mit Verständnis und akzeptierender Achtsamkeit zuzuwenden.
DRT 5
PCL-R
Diagnostischer Rechtschreibtest für 5. Klassen
Hare Psychopathy Checklist – Revised
3., aktualisierte und neu normierte Auflage
Deutsche Version der Hare Psychopathy Checklist – Revised (PCL-R) von R. D. Hare
M. Grund / R. Leonhart / C. L. Naumann Reihe: Hogrefe Schultests Hrsg. von M. Hasselhorn / W. Schneider / U. Trautwein Einsatzbereich: Der DRT 5 ist für die Monate Oktober bis Januar der 5. Klasse normiert. Das Verfahren kann als Gruppentest in der Schule und als Einzeltest in der therapeutischen Beratung eingesetzt werden. Das Verfahren: Der DRT 5 hat eine doppelte Zielsetzung: 1. Er misst objektiv die Rechtschreibleistung eines Schülers. Aufgrund der guten Differenzierung im unteren Leistungsbereich ist der Test insbesondere für die Diagnose von Rechtschreibschwierigkeiten geeignet. 2. Der DRT 5 ermittelt spezifische Fehlerschwerpunkte in folgenden Bereichen: Lautunterscheidung und Lautfolge, Buchstabenverbindungen (st/sp, pf, qu), Dopplung/Dehnung, Morphemkonstanz in verschiedenen Wortformen, Ableitung des ä von a und des Endbuchstabens durch Verlängern, das Präfix ver-/vor-, Groß- und Kleinschreibung. Auf diesen Grundlagen kann über die Notwendigkeit und die Art einer Förderung entschieden und ihr Erfolg kontrolliert werden. Der DRT 5 liegt in zwei Parallelformen mit je 51 Wörtern vor, die nach Diktat in Lückensätze eingetragen werden. Für die 3., aktualisierte und neu normierte Auflage wurde das Verfahren an einer Stichprobe von 3.492 Schülern aus 10 Bundesländern neu normiert. Bearbeitungsdauer: Die Durchführungsdauer beträgt 35 bis 45 Minuten (inklusive Instruktion). 04 209 01 Test komplett
www.hogrefe.com
88,00 €
A. Mokros / P. Hollerbach / J. Nitschke / E. Habermeyer Einsatzbereich: Forensisch-psychologische und -psychiatrische Diagnostik, Therapieplanung und Kriminalprognostik bei erwachsenen Straftätern oder Beschuldigten, Schuldfähigkeits- und Prognosegutachten. Das Verfahren: Die PCL-R umfasst 20 Items, die auf einer dreistufigen Beurteilungsskala mit 0 (Nein), 1 (Vielleicht/in mancher Hinsicht) oder 2 (Ja) bewertet und anschließend aufsummiert werden. Je höher der Summenwert in der PCL-R ist, desto mehr erfüllt der Proband die prototypischen Eigenschaften eines Psychopathen im Sinne des Konzeptes von Hare. Das Standardprozedere bei der Anwendung der PCL-R umfasst die Durchführung eines halbstrukturierten Interviews und die Auswertung verfügbarer Akteninformationen. Steht ein Proband für das Interview nicht zur Verfügung, kann die Beurteilung aber auch allein nach Aktenlage erfolgen. Bei der Auswertung werden neben einem Gesamtwert zwei Faktoren (Psychopathische Kernpersönlichkeitsmerkmale, Soziale Abweichung) und vier Facetten (Interpersonell, Affektiv, Lebenswandel, Antisozial) des PsychopathieKonstrukts ermittelt. Bearbeitungsdauer: Für die Durchführung des halbstrukturierten Interviews sind ca. 90 Minuten zu veranschlagen. Hinzu kommt die Zeit für die Auswertung der relevanten Akten. Für die Kodierung der Items sind etwa 20 bis 30 Minuten einzuplanen.
01 511 01 Test komplett
www.hogrefe.com
125,00 €
Die bewährte Einführung in die Statistik
Rainer Leonhart
Lehrbuch Statistik Einstieg und Vertiefung 4., überarb. und erw. Aufl. 2017. 864 S., 148 Abb., 209 Tab., Gb € 52,95 / CHF 69.00 ISBN 978-3-456-85797-8 Auch als eBook erhältlich
Die vierte, überarbeitete und erweiterte Auflage stellt in klarer Form die relevanten Themen der Statistik vor. Nach einem einleitenden Kapitel zu häufig auftretenden Problemen der statistischen Auswertung werden nach der Definition von Messung die Deskriptive Statistik und die grafische Darstellung von Daten vorgestellt. Die Schließende Statistik wird mit einfachen parametrischen und nicht-parametrischen Verfahren eingeführt. Anschließend werden nach der Erläuterung verschiedener Korrelationskoeffizienten die einfache und multiple Regression sowie Mediator- und Moderatoranalysen besprochen. Die Varian-
www.hogrefe.com
zanalyse als eines der wichtigsten statistischen Verfahren in der psychologischen Forschung wird ausführlich dargestellt, und die Faktorenanalyse, die Clusteranalyse, die Analyse von Strukturgleichungsmodellen und andere multivariate Verfahren werden intensiv behandelt. Das Buch wird mit Kapiteln über Effektgrößen, die Auswertung am PC und zur Durchführung und Darstellung von Studien abgerundet. Rainer Leonhart lehrt seit 2008 als Akademischer Rat an der Universität Freiburg, Abteilung für Sozialpsychologie und Methodenlehre.
Klaus Moser / Roman Souček / Nathalie Galais / Colin Roth
Heinz Schuler
Das Einstellungsinterview
Heinz Schuler
Das Einstellungsinterview
2., überarbeitete Auflage 2018, 370 Seiten, geb., € 39,95 / CHF 48.50 ISBN 978-3-8017-2871-7 Auch als eBook erhältlich
Onboarding – Neue Mitarbeiter integrieren Klaus Moser Roman Souček Nathalie Galais Colin Roth
Onboarding – Neue Mitarbeiter integrieren
2., überarbeitete Auflage
Praxis der Personalpsychologie
In diesem Band werden die wichtigsten Arten von Fragen und Typen strukturierter Einstellungsinterviews so geschildert, dass die Leser in die Lage versetzt werden, selbst qualifizierte Auswahlgespräche durchzuführen und andere Auswählende zu trainieren. Besondere Beachtung findet darüber hinaus die Reaktion von Bewerbern auf Einstellungsinterviews sowie ihr angemessenes Verhalten in der Interviewsituation. Das Buch ist für HR-Spezialisten und Führungskräfte, für Trainer wie für Stellenbewerber ein wertvoller Ratgeber.
Die erfolgreiche Einführung und Integration neuer Mitarbeiter, auch als „Onboarding“ bezeichnet, ist für jedes Unternehmen von zentraler Bedeutung und eine Kernaufgabe der Personalarbeit. Gelingt sie, dann werden nicht nur Fehler, Unfälle und Stress vermieden, sondern auch Lernprozesse initiiert sowie die Entwicklung von Commitment und Teamgeist der Mitarbeiterinnen und Mitarbeiter gefördert. Die vorgestellten Maßnahmen reichen von Paten- und Mentoringsystemen über Einführungs- und Traineeprogramme bis zum Einsatz von Social Media.
Erika Regnet
Frauen ins Management Chancen, Stolpersteine und Erfolgsfaktoren
Erika Regnet
Frauen ins Management Chancen, Stolpersteine und Erfolgsfaktoren
Praxis der Personalpsychologie
(Reihe: „Praxis der Personalpsychologie“, Band 36) 2017, VI/165 Seiten, € 24,95 / CHF 32.50 (Im Reihenabonnement € 19,95 / CHF 26.90) ISBN 978-3-8017-2725-3 Auch als eBook erhältlich
Frauen im Management sind noch lange kein Selbstläufer. Verschiedene Gründe werden diskutiert: Sie reichen von der falschen Berufswahl der Frauen, über ihre mangelnde Karriereorientierung, die schwierige Vereinbarkeit von Beruf und Familie bis hin zur Diskriminierung. Das Buch zeigt anschaulich und gut verständlich den aktuellen Forschungsstand auf, benennt konkrete Ansatzpunkte für die betriebliche Praxis, gibt Hinweise für Führungskräfte und ausgewählte Empfehlungen für karriereambitionierte Frauen.
www.hogrefe.com
(Reihe: „Praxis der Personalpsychologie“, Band 37) 2018, VI/159 Seiten, € 24,95 / CHF 32.50 (Im Reihenabonnement € 19,95 / CHF 26.90) ISBN 978-3-8017-2849-6 Auch als eBook erhältlich
Arbeitswelt und psychische Störungen
Katharina Bode Friederike Maurer Christoph Kröger
Fortschritte der Psychotherapie
Katharina Bode / Friederike Maurer / Christoph Kröger
Arbeitswelt und psychische Störungen (Reihe: „Fortschritte der Psychotherapie, Band 66) 2017, 100 Seiten, € 19,95 / CHF 26.90 (Im Reihenabonnement € 15,95 / CHF 21.50) ISBN 978-3-8017-2758-1 Auch als eBook erhältlich
Der Band liefert Informationen zur psychotherapeutischen Behandlung von erwerbstätigen Patienten mit psychischen Störungen. Geeignete diagnostische Instrumente und rechtliche Rahmenbedingungen werden beschrieben. Es werden arbeitsplatzorientierte Interventionen und Therapiebausteine für die stufenweise Wiedereingliederung von arbeitsunfähigen Patienten an den Arbeitsplatz vorgestellt.