Diagnostica

Page 1

Jahrgang 65 / Heft 1 / 2019

Diagnostica

Herausgeber Olaf Köller Monika Daseking Johannes Hartig Oliver Lüdtke Franz J. Neyer Franz Petermann Franzis Preckel Oliver Wilhelm Markus A. Wirtz

Zeitschrift für Psychologische Diagnostik und Differentielle Psychologie


EMO-KJ

Ein Diagnostik- und Therapieverfahren zum Zugang von Emotionen bei Kindern und Jugendlichen

Katharina Kupper Sonja Rohrmann

Test komplett bestehend aus: • Manual • je 5 Gefühle-Testhefte für Mädchen und Jungen • je 5 Protokollbogen Einzeltestung und Gruppentestung • 5 Selbstbeurteilungsfragebogen • 10 Auswertungsbogen • Gefühle-Memo-Spiel • je 1 Therapiematerialien-Set Mädchen und Jungen • Box Best.-Nr. 03 210 01 € 253,00 / CHF 310.00

www.hogrefe.com

Emotionen therapeutisch und diagnostisch zugänglich machen

Für d er un Kind liche d Jugen

Das von Katharina Kupper und Sonja Rohrmann entwickelte Diagnostik- und Therapieverfahren erfasst die Fähigkeit von Kindern und Jugendlichen zur Benennung, Differenzierung und Analyse der Intensität einer Bandbreite an verschiedenen grundlegenden Emotionen. Einsatzbereich und Besonderheiten • Für die Altersgruppe von 5 bis 16 Jahren geeignet • Für den Einsatz in der Schulpsychologie, der Kinder- und Jugendpsychotherapie sowie in der klinischen, pädagogischen und psychologischen Forschung geeignet • Kann im Einzel- oder Gruppensetting angewendet werden • Spielerischer Zugang mittels Gefühle-Memo-Spiel • Enthält vielfältiges Therapiematerial, das auf verschiedene Sitzungen verteilt werden kann • Schnelle Auswertung in nur 5 Minuten


Diagnostica Zeitschrift fĂźr Psychologische Diagnostik und Differentielle Psychologie

Jahrgang 65 / Heft 1 / 2019 Informationsorgan Ăźber psychologische Tests und Untersuchungsmethoden


Herausgeberinnen und Herausgeber

Prof. Dr. Olaf Köller, Leibniz-Institut für die Pädagogik der Naturwissenschaften und Mathematik (IPN), Olshausenstraße 62, 24098 Kiel Prof. Dr. Monika Daseking, Helmut-Schmidt-Universität, Universität der Bundeswehr, Holstenhofweg 85, 22043 Hamburg Prof. Dr. Johannes Hartig, Deutsches Institut für Internationale Forschung, Schloßstraße 29, 60486 Frankfurt am Main Prof. Dr. Oliver Lüdtke, Leibniz-Institut für die Pädagogik der Naturwissenschaften und Mathematik (IPN), Olshausenstraße 62, 24098 Kiel Prof. Dr. Franz J. Neyer, Universität Jena, Fakultät für Sozial- und Verhaltenswissenschaften, Humboldtstraße 11, 07743 Jena Prof. Dr. Franz Petermann, Universität Bremen, Klinische Psychologie, Grazer Straße 2, 28359 Bremen Prof. Dr. Franzis Preckel, Universität Trier, FB I – Psychologie, 54286 Trier Prof. Dr. Oliver Wilhelm, Institut für Psychologie und Pädagogik, Universität Ulm, 89069 Ulm Prof. Dr. Markus A. Wirtz, Pädagogische Hochschule Freiburg, Fakultät 1, Institut für Psychologie, Kunzenweg 21, 79117 Freiburg

Geschäftsführung

Prof. Dr. Olaf Köller, Kiel (Redaktionsassistenz: Dipl.-Psych. Jana Kähler, Dipl.-Psych. Jennifer Meyer, Melike Ömeroǧ ullan, M. Sc. und Dr. Daniel Schmerse, diagnostica@ipn.uni-kiel.de)

Beirat

Prof. Dr. André Beauducel, Bonn Prof. Dr. Peter Borkenau, Halle-Wittenberg Prof. Dr. Boris Egloff, Mainz Prof. Dr. Michael Eid, Berlin Prof. Dr. Gabriele Helga Franke, Magdeburg-Stendal Prof. Dr. Frank Goldhammer, Frankfurt am Main Prof. Dr. Kurt Hahlweg, Braunschweig Prof. Dr. Bettina Hannover, Berlin Prof. Dr. Martin Hautzinger, Tübingen Prof. Dr. Guido Hertel, Münster Prof. Dr. Jürgen Hoyer, Dresden Prof. Dr. Karl Christoph Klauer, Freiburg Prof. Dr. Carl-Walter Kohlmann, Schwäbisch Gmünd Prof. Dr. Roselind Lieb, Basel

Hinweise für Autorinnen und Autoren

Die Richtlinien zur Manuskriptgestaltung und Hinweise für Autorinnen und Autoren können unter https://www.hogrefe.com/j/dia mit dem Acrobat Reader heruntergeladen werden.

Verlag

Hogrefe Verlag GmbH & Co. KG, Merkelstraße 3, 37085 Göttingen, Postfach 3751, 37027 Göttingen, Tel. 0551 99950 0, Fax 0551 99950 111, verlag@hogrefe.de Redaktion: journals@hogrefe.de, www.hogrefe.de Verleger: Dr. G.-Jürgen Hogrefe

Herstellung

Silke Ludewig, Hogrefe Verlag GmbH & Co. KG, Merkelstraße 3, 37085 Göttingen, Tel. 0551 99950 441, Fax 0551 99950 445

Satz

3w+p GmbH, Ketteler Straße 5 – 11, 97222 Rimpar

Druck

jetoprint GmbH, Rudolf-Diesel-Straße 1, 78048 VS-Villingen

ISSN

ISSN-L 0012-1924, ISSN-Print 0012-1924, ISSN-Online 2190-622X

Prof. Dr. Jürgen Margraf, Bochum Prof. Dr. Thorsten Meiser, Mannheim Prof. Dr. Aljoscha Neubauer, Graz Prof. Dr. Christoph Perleth, Rostock Prof. Dr. Franzis Preckel, Trier Prof. Dr. Thomas Rammsayer, Bern Prof. Dr. Beatrice Rammstedt, Mannheim Prof. Dr. Rainer Riemann, Bielefeld Prof. Dr. Manfred Schmitt, Landau Prof. Dr. Christiane Spiel, Wien Prof. Dr. Thomas Staufenbiel, Osnabrück Prof. Dr. Elsbeth Stern, Zürich Prof. Dr. Rolf Steyer, Jena Prof. Dr. Hans-Ulrich Wittchen, Dresden

Die Zeitschrift und alle in ihr enthaltenen einzelnen Beiträge und Abbildungen sind urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Alle Rechte, auch das der Übersetzung, vorbehalten. Erscheinungsweise

vierteljährlich

Bezugsbedingungen

Jahresabonnement Institute € 196,00 / CHF 252,00 (Print only; Informationen zu den Online-Abonnements finden Sie im Zeitschriftenprospekt unter hgf.io/zftkatalog); Jahresabonnement Privat € 91,00 / CHF 121,00 (Print & online); Einzelheft € 53,00 / CHF 69,10 (Print only) zzgl. Porto- und Versandgebühren (unverbindliche Preisempfehlung). Die Preise verstehen sich in Deutschland inkl. MwSt. und für Lieferungen von Deutschland ins Ausland exkl. MwSt. Das Abonnement verpflichtet zum Bezug eines ganzen Jahrgangs. Das Abonnement verlängert sich, wenn nicht bis 8 Wochen vor Jahresende abbestellt wird. Bei Ausfall der Lieferung durch höhere Gewalt, Streik oder dergleichen ergeben sich hieraus keine Ansprüche auf Lieferung oder Rückzahlung des Bezugsgeldes durch den Verlag. Lieferung erfolgt auf Gefahr des Empfängers. Die Abonnentin bzw. der Abonnent ist damit einverstanden, dass der Transportdienstleister ggf. den Verlag während der Laufzeit des Abonnements über eine Anschriftenänderung informiert. Ist sie bzw. er nicht damit einverstanden, hat sie bzw. er dies spätestens zwei Wochen nach Erhalt des ersten Heftes schriftlich dem Verlag mitzuteilen.

Zahlungen

an Hogrefe Verlag GmbH & Co. KG, Merkelstraße 3, 37085 Göttingen Bankverbindung: Deutsche Bank AG, IBAN DE32 2607 0072 0041 1116 00, BIC DEUTDE2H260

Gelistet in

Social Science Citation Index (SSCI), Research Alert, Current Contents/Social & Behavioral Sciences, Social Sci Search, PsycINFO, PsycLit, PsyJOURNALS, PSYNDEX, Scopus, IBZ, IBR und Europ. Reference List for the Humanities (ERIH), 2017 Impact Factor 0,811, 5-year Impact Factor 1,182, Journal Citation Reports (Clarivate Analytics, 2018)

Elektronische Volltexte

https://econtent.hogrefe.com/

Diagnostica (2019), 65 (1)

© 2019 Hogrefe Verlag


Inhalt Editorial

65 Jahre Diagnostica. Ein Forum für deutschsprachige Spitzenarbeiten aus der psychologischen Diagnostik und Differenziellen Psychologie

1

Olaf Köller Originalarbeiten

Kurzer Entscheidungs-Test Online (KETO) zur Erfassung des Entscheidungsverhaltens unter Unsicherheit und der Höhe der angestrebten Urteilssicherheit (HAUS)

2

Short Decision-Making Online Test for Assessing Decision-Making Behavior Under Uncertainty and the Desired Level of Confidence (DLC) Daniel Hausmann und Julia Stoll 14

Testgüte einer deutschen Version des Mehrdimensionalen Perfektionismus Kognitions- Inventars (MPCI-G) Reliability and Validity of the German Multidimensional Perfectionism Cognitions Inventory (MPCI-G) Elisabeth Prestele und Christine Altstötter-Gleich Erfassung des Lesevolumens in Large-Scale Studien. Ein Vergleich von Globalurteil und textspezifischem Urteil

26

Measuring Reading Volume in Large-Scale Assessments: A Comparison of an Overall Evaluation and a Differentiated Evaluation Relating Different Text Types Franziska M. Locher und Maximilian Pfost WOR-TE: Ein Ja / Nein- Wortschatztest für Kinder verschiedener Altersgruppen. Entwicklung und Validierung basierend auf dem Rasch-Modell

37

A Yes / No Vocabulary Test for Children of Different Age Groups: Development and Validation Based on the Rasch Model Jutta Trautwein und Sascha Schroeder Erfassung der Emotionsregulation bei Jugendlichen anhand des „Affective Style Questionnaire – Youth (ASQ-Y)“

49

Assessment of Emotion Regulation in Adolescents With the „Affective Style Questionnaire – Youth“ ASQ-Y Johannes Graser, Christiane Heimlich, Augustin Kelava, Stefan G. Hofmann, Ulrich Stangier und Franziska Schreiber Nachrichten Hinweise für Autorinnen und Autoren

© 2019 Hogrefe Verlag

Danksagung

60 61

Diagnostica (2019), 65 (1)


FLM 3–6 R

SRSI

Fragebogen zur Leistungsmotivation für Schülerinnen und Schüler der 3. bis 6. Klasse – Revision

Self-Report Symptom Inventory – deutsche Version

A. Lohbeck / F. Petermann

T. Merten / P. Giger / H. Merckelbach / A. Stevens Manual

SRSI

Manual

Self-Report Symptom Inventory – deutsche Version

FLM 3–6 R

Fragebogen zur Leistungsmotivation für Schülerinnen und Schüler der 3. bis 6. Klasse – Revision

Thomas Merten Peter Giger Harald Merckelbach Andreas Stevens

Annette Lohbeck Franz Petermann

Einsatzbereich: Der FLM 3–6 R kann im Schulkontext, in der schulpsychologischen Beratung, in der pädagogischpsychologischen Forschung sowie zur Evaluation schulischer Präventionsprogramme verwendet werden.

Einsatzbereich: Das SRSI dient der Feststellung negativer Antwortverzerrungen in einer Untersuchung, namentlich einer überhöhten und/oder ausgeweiteten Beschwerdenschilderung, die, wenn sie vorliegt, die subjektiven Angaben des Probanden als unzuverlässig ausweist.

Das Verfahren: Der FLM 3–6 R ist ein Selbsteinschätzungsfragebogen für Schülerinnen und Schüler. Der Fragebogen erfasst motivationale, volitionale und emotionale Merkmale der Leistungsmotivation mit den Skalen: Leistungsstreben (LB), Ausdauer (AUS), Anstrengungsvermeidung (AV), Angst vor Erfolg (AE) und Prüfungsangst (PA).

Das Verfahren: Fünf Bereiche potenziell genuiner psychischer Beschwerden (kognitive, depressive, Schmerz-, unspezifische somatische und Angstbeschwerden) werden fünf Bereiche von Pseudobeschwerden (kognitive, motorische, sensorische, Schmerz- und psychische Pseudobeschwerden) an die Seite gestellt. Mit einer Zusatzskala wird eine unkritische Bestätigungstendenz bei der Antwortabgabe geprüft.

Normen: Der FLM 3–6 R wurde an einer Stichprobe aus Schülerinnen und Schülern in verschiedenen Schulformen (Gymnasium, Oberschule, Gesamtschule, Grundschule) in Norddeutschland normiert (N = 1016). Es liegen alters- und geschlechtsspezifische Normwerte (Prozentränge, T-Werte) vor.

Normen: Die Bewertung erfolgt grenzwertbasiert. Je nach Verwendungszweck liegen vier verschiedene Cutoffs für die Zahl der geltend gemachten Pseudobeschwerden vor (liberaler,Screening-,Standard- und sehr strenger (rigoroser) Grenzwert.

Bearbeitungsdauer: Der FLM 3–6 R ist einfach und ökonomisch im Einzeloder Gruppensetting durchführbar. Die Bearbeitungsdauer beträgt ca. 5 bis 10 Minuten je nach Alter.

01 552 01

Test komplett

www.hogrefe.com

87,00 €

Bearbeitungsdauer: Die Bearbeitungszeit ist nicht begrenzt und liegt in der Regel bei nicht mehr als 10 bis 15 Minuten.

01 528 01

Test komplett

www.hogrefe.com

124,00 €


Editorial 65 Jahre Diagnostica Ein Forum für deutschsprachige Spitzenarbeiten aus der psychologischen Diagnostik und Differenziellen Psychologie Olaf Köller Im Namen der gesamten Herausgebergruppe wünsche ich den Leserinnen und Lesern von Diagnostica mit dem Erscheinen des Heftes 1/2019 alles Gute für das neue Jahr und drücke die Daumen, dass Ihnen das Jahr 2019 die erhofften Forschungserträge bringen wird. Diagnostica feiert den 65. Geburtstag und gilt nach wie vor als deutschsprachige Zeitschrift, in der die Kolleginnen und Kollegen ihre Spitzenarbeiten aus der Diagnostik und Differenziellen Psychologie publizieren. Obwohl die Standardsprache der Psychologie Englisch geworden ist, hat die Diagnostica von ihrer Attraktivität für Autorinnen und Autoren sowie Leserinnen und Leser nichts eingebüßt. Wir haben im vergangenen Jahr weiter die Zahl der Einreichungen gesteigert und angesichts des begrenzten Volumens der Hefte ist das Begutachtungssystem noch strenger geworden. Im Jahr 2018 war die Zahl der Einreichungen so hoch, dass wir noch mehr gute Manuskripte ablehnen mussten. Die Zahl der Manuskripte, die in der ersten Begutachtungsrunde akzeptiert werden, ist sehr gering (deutlich unter 20 %) und signalisiert die hohen Qualitätsstandards, die wir an Beiträge anlegen. Diagnostica verzichtet schon seit langem darauf, das Editorial zu Jahresanfang zur artifiziellen Erhöhung des eigenen Impact-Factors zu nutzen. Als Folge bekommen wir ein realistisches Bild über die Zitationsquoten der bei uns publizierten Arbeiten. Der Journal Citation Report in seiner aktuellen Version (2017) berichtet einen Faktor von 0.811, was nach wie vor sehr zufriedenstellend ist (2010: 0.732; 2011: 0.721; 2012: 0.860; 2013: 0.771; 2014: 1.057; 2015: 1.265; 2016: 1.095). Der 5-Jahres-Impact Factor liegt bei 1.182. Damit ist sichergestellt, dass die qualita-

© 2019 Hogrefe Verlag

tiv hochwertigen Arbeiten in unserer Zeitschrift nicht nur viel gelesen, sondern auch regelmäßig und steigend zitiert werden, und dies obwohl infolge der zunehmenden englischsprachigen Publikationspraxis die Impact-Faktoren deutschsprachiger Zeitschriften sinken. Dies mag weiterhin Ansporn für die Autorinnen und Autoren sein, ihre besten deutschsprachigen Arbeiten im Bereich der Diagnostischen und Differenziellen Psychologie bei Diagnostica einzureichen. Für das neue Jahr möchte ich noch eine Veränderung in der Herausgeberschaft verkünden. Herr Prof. Dr. Schmiedek (Goethe-Universität Frankfurt) verlässt nach mehreren Jahren erfolgreicher Mitarbeit das Herausgeberteam. Mit der Betreuung der Arbeiten aus der Pädagogischen Psychologie mit dem Schwerpunkt Kognitive Entwicklung und Bildung hat er maßgeblich zur Qualitätssteigerung dieser Manuskripte beigetragen, wofür ich ihm herzlich danke. Mit Markus Wirtz ist es uns gelungen, einen ausgewiesenen Kollegen im Bereich der Methodenforschung zu gewinnen. Mit dem jetzigen Herausgeberteam ist es möglich, kompetent Manuskripte zu betreuen, die die gesamte Breite der Diagnostik und Differenziellen Psychologie abdecken. Abschließend gilt mein großer Dank dem Redaktionsteam in Kiel, das die Einreichungen mit großer Akribie begleitet und dafür sorgt, dass die ganz große Mehrzahl der Einreichungen zügig betreut und zu einer Entscheidung über Annahme/ Ablehnung gebracht wird. Olaf Köller Geschäftsführender Herausgeber

Diagnostica (2019), 65 (1), 1 https://doi.org/10.1026/0012-1924/a000223


Originalarbeit

Kurzer Entscheidungs-Test Online (KETO) zur Erfassung des Entscheidungsverhaltens unter Unsicherheit und der Höhe der angestrebten Urteilssicherheit (HAUS) Daniel Hausmann und Julia Stoll Zusammenfassung: Viele Menschen treffen ihre Entscheidungen, wenn sie sich subjektiv sicher genug sind. Der Kurze Entscheidungs-Test Online (KETO) wurde als attraktives, komplexes und für die Teilnehmenden nicht einfach zu durchschauendes Verhaltensspiel im Sinne eines objektiven Persönlichkeitstests entwickelt, um die individuelle Höhe der angestrebten Urteilssicherheit (HAUS) prozentgenau zu erfassen. In 22 vergleichbaren Durchgängen soll eine von vier zur Auswahl stehenden Optionen gewählt werden. Dabei können auf einem Information Board 0 bis maximal 5 probabilistische Cue-Informationen aufgedeckt werden. Die individuelle HAUS wird aufgrund der probabilistischen Erstinformation und dem weiteren Suchverhalten experimentell eingegrenzt und anhand des vollständigen Informationssuchmusters post-hoc nachberechnet. Mehrere Validierungschritte wurden mit 1 008 Versuchspersonen durchgeführt und umfassten die konvergente und divergente Validität, eine Extremgruppen- und Kriteriumsvalidierung, sowie Retest-Reliabilität und Stabilität. Die HAUS korrelierte positiv mit der Risikoeinstellung und negativ mit dem Risikoverhalten (kleine Effektstärke). Die HAUS ist unter anderem unabhängig von der Teilnahmemotivation, von der Maximierungstendenz und den 5 Faktoren des NEO-FFI. Schlüsselwörter: Entscheidungsverhalten unter Unsicherheit, Anspruch an Urteilssicherheit, Informationssuche, interindividuelle Unterschiede, objektiver Persönlichkeitstest

Short Decision-Making Online Test for Assessing Decision-Making Behavior Under Uncertainty and the Desired Level of Confidence (DLC) Abstract: Many people make a decision at the time they have reached enough certainty. A short decision-making online test (SDMOT) was created to accurately detect the desired level of confidence (DLC) on an individual level. SDMOT is an attractive and complex virtual game in the sense of an objective personality test – not easy to decode for participants. SDMOT includes 22 comparable decision-making trials, in which one of four options has to be chosen with the help of zero to maximal five probabilistic cues on an information board. For every individual, the DLC is experimentally detected according to a constraining procedure and is calculated ex post on the basis of the complete behavioral pattern of searched information. Several steps of validation were processed with 1,008 participants including divergent and convergent validity, between-group comparison, criterion validity, as well as retest reliability, and stability. The DLC is positively correlated with risk attitude and negatively correlated with risk behavior, showing small effect sizes overall. The DLC is independent of motivation of participation, maximization, and the Big Five. Keywords: decision-making behavior under uncertainty, desired level of confidence, information search, interindividual differences, objective personality test

Die Entscheidungen, welche wir tagtäglich treffen, sind oft mit Unsicherheit verbunden (Pfister, Jungermann & Fischer, 2017). Häufigkeiten und Wahrscheinlichkeitsangaben sind dabei die mathematischen Ausdrucksformen des Grades an Unsicherheit (Kostopoulou, 2010). Im realen Leben wird eine Entscheidung selten mit hundertproDiagnostica (2019), 65 (1), 2–13 https://doi.org/10.1026/0012-1924/a000209

zentiger Urteilssicherheit getroffen (vgl. Payne, Bettman & Luce, 1998). Sofern kein Zeitdruck vorhanden ist und eine Person den Zeitpunkt einer Entscheidung selbst bestimmen kann, wird sie so lange nach relevanten probabilistischen Informationen suchen und mit einer Entscheidung warten, bis sie sich subjektiv sicher genug ist. © 2018 Hogrefe Verlag


D. Hausmann und J. Stoll, Kurzer Entscheidungs-Test Online zur Erfassung des Entscheidungsverhaltens unter Unsicherheit

Es stellt sich demnach die Frage, wie viel Urteilssicherheit eine Person für eine Entscheidung anstrebt beziehungsweise wie viel Unsicherheit sie individuell zulassen kann (Hausmann, 2004). Einer der Ersten, welcher eine konkrete Abbruch- beziehungsweise Stoppregel für den Informationssuchprozess formuliert hat, war Simon (1955). Das Prinzip der Satisfizierung hat er allerdings für das sequentielle Testen von Optionen beschrieben, wie es zum Beispiel bei der Wohnungssuche oder Partnerwahl der Fall ist. Eine Option wird dann gewählt, wenn sie gut genug ist, andernfalls wird nach der nächsten Option gesucht. Hausmann und Läge (2008) konnten nachweisen, dass ein Satisfizierungs-Prinzip (SAT) in Form einer individuellen Urteilssicherheitsschwelle auch für die aktive und sequentielle Suche von probabilistischen Hinweisinformationen (Cues) besteht. Dabei stellt die Schwelle die Höhe der Urteilssicherheit dar, die eine Person anstrebt, wenn sie eine Entscheidung unter Unsicherheit fällt. Sobald diese Person genügend Evidenz beziehungsweise eine genügend hohe subjektive Wahrscheinlichkeit für eine Option generiert oder akkumuliert hat, beendet sie die Informationssuche und entscheidet sie sich für die Option (vgl. Busemeyer & Townsend, 1993). Im Idealfall genügt schon eine vertrauenswürdige Informationsquelle, die eine genügend hohe subjektive Urteilssicherheit vermittelt (also über der individuellen Schwelle liegt), um eine Zweitoder Drittmeinung überflüssig zu machen (vgl. das Konzept des desired level of confidence in Hausmann & Läge, 2008). „Welche situativen und persönlichkeitsrelevanten Aspekte […] mit zur Bildung bzw. zur Anpassung der individuellen Sicherheitsschwelle beitragen, ist allerdings noch eine weitgehend offene Forschungsfrage“ (Hausmann, 2004, S. 105). Eine erste experimentelle Untersuchung von Hausmann und Läge (2008) konnte individuelle Unterschiede im Setzen von Urteilssicherheitsschwellen (confidence thresholds) bestätigen. Die Höhe der subjektiv gesetzten Urteilssicherheitsschwelle in einer Entscheidungssituation unter Unsicherheit kann – in Relation zu anderen Personen – als generelle Motiv- oder Interessensdisposition gesehen werden. In dieser Arbeit soll zum ersten Mal mit einem eigens dafür kreierten komplexen Verhaltensspiel überprüft werden, inwiefern die Höhe der angestrebten Urteilssicherheit (HAUS) in einer standardisierten Entscheidungssituation als latente Persönlichkeitsdisposition (Trait) betrachtet werden kann.

Verfahren zur Messung von individuellen Urteilssicherheitsschwellen Bislang existiert kein Verfahren, welches das Anspruchsniveau an Urteilssicherheit individuell, prozentgenau und © 2018 Hogrefe Verlag

3

zuverlässig zu messen vermag. Aufbauend auf den Experimenten von Hausmann und Läge (2008) und den Überlegungen von Newell (2005) haben wir deshalb ein verhaltensbasiertes und eingrenzendes Verfahren entwickelt, um die Höhe von individuellen Urteilssicherheitsschwellen in einer standardisierten Entscheidungssituation unter Unsicherheit (Basisversion) bestimmen zu können. Denn ein individuelles Anspruchsniveau an Urteilssicherheit lässt sich indirekt aufgrund der Art beziehungsweise des Umfangs des Informationssuchverhaltens einer Person in Abhängigkeit der ersten vorliegenden Cue-Information bestimmen (vgl. Hausmann & Läge, 2008): Liegt einer Person ein erster Cue vor, der eine genügend hohe Urteilssicherheit vermittelt, wird diese Person auf die weitere Informationssuche verzichten und demzufolge ein Verhalten im Sinne eines One-Reason Decision Making (ORDM; Gigerenzer & Goldstein, 1999) verfolgen. Liegt derselben Person allerdings ein erster probabilistischer Cue vor, der im Wert ihrem Anspruchsniveau an Urteilssicherheit nicht genügt, wird dieselbe Person konsequenterweise nach weiteren Informationen suchen, um ihre subjektive Urteilssicherheit in dieser Entscheidungssituation zu erhöhen. Ein solches Informationssuchverhalten entspricht dem eines More-Reason Decision Making (MRDM; Hausmann, 2004), also der Tatsache, dass mindestens zwei Informationen gesucht und zu einer Entscheidung integriert werden müssen. Indem nun systematisch die Höhe des jeweils ersten probabilistischen Cues über mehrere vergleichbare Durchgänge manipuliert wird, kann die individuelle Urteilssicherheitsschwelle einer Person eingegrenzt werden. Die Anzahl der allfällig manifestierten Verstöße im Informationssuchverhalten gegen dieses Satisfizierungs-Prinzip (bei genügend hohem Cue weitergesucht oder bei nicht genügend hohem Cue vorzeitig gestoppt) ist dabei als ein Hinweis auf die Konsistenz in der Anwendung einer Urteilssicherheitsschwelle und somit als ein zusätzliches Gütemaß im Hinblick auf die Reliabilität zu betrachten.

Ziel der Arbeit und vorgenommene Validierungsschritte Das Ziel der vorliegenden Arbeit war es, einen Kurzen Entscheidungs-Test Online (KETO) zu entwickeln, welcher verhaltensbasiert die Höhe der angestrebten Urteilssicherheit (HAUS) individuell und prozentgenau in einer standardisierten Entscheidungssituation unter Unsicherheit ermitteln kann. Die individuelle Urteilssicherheitsschwelle in Form der gemessenen HAUS wurde als zentrale Variable im Sinne einer Persönlichkeitsdimension einem ersten Validierungsverfahren unterzogen. Dabei untersuchten wir die konvergente und divergente ValiDiagnostica (2019), 65 (1), 2–13


4

D. Hausmann und J. Stoll, Kurzer Entscheidungs-Test Online zur Erfassung des Entscheidungsverhaltens unter Unsicherheit

dität und prüften auf Geschlechtsunterschiede bezüglich der HAUS. Ein Extremgruppenvergleich, eine diagnostische Kriteriumsvalidierung, sowie die Retest-Reliabilität und Stabilität wurden anhand von drei zusätzlichen Stichproben durchgeführt beziehungsweise berechnet. Als Extremgruppen haben wir Wertpapierhändler und Mediziner gewählt. Studien zeigen, dass Personen, welche aktiv mit Finanzinstrumenten wie Aktien, Währungen oder Rohstoffen handeln, in der Regel eine risikofreudigere Persönlichkeitsdisposition mitbringen (u. a. Pak & Mahmood, 2015; Delling, 2010; Thiele, 2009), wobei private Anleger noch risikosuchender sind als institutionelle Händler (Chuang & Susmel, 2011). Ärzte hingegen streben danach, gute klinische Entscheidungen zu fällen und entsprechend akkurate Diagnosen zu stellen (Sade, Stroud, Levine & Fleming, 1985). Sie streben gemäß einer Feldstudie auf der Notfallstation eines Universitätsspitals explizit nach höherer Urteilssicherheit (Hausmann, Zulian, Battegay & Zimmerli, 2016) und sollten daher auch eine entsprechende Disposition hin zu mehr Risikovermeidung mitbringen. Entsprechend dem engen Zusammenhang zwischen Unsicherheit und Risiko (siehe unten) nahmen wir an, dass Mediziner eine höhere und Wertpapierhändler eine tiefere HAUS im Vergleich zu einer Normstichprobe verfolgen. Bei der diagnostischen Kriteriumsvalidierung verglichen wir die HAUS mit dem tatsächlich getätigten Aufwand in einer diagnostischen Aufgabe (Huber, 2015). Da Personen mit einer höheren HAUS in der Regel auch bereit sind, mehr Informationen zu suchen, um ihre hohe Urteilssicherheit zu bedienen, müssten sie in einer Vergleichsaufgabe entsprechend mehr Informationssuch- und Zeitaufwand betreiben. Wenn eine Versuchsperson den KETO im Sinne eines Retests zweimal hintereinander löst, sollte ihre individuelle HAUS aufrechterhalten bleiben, unabhängig davon, ob sie den Verhaltenstest unmittelbar danach oder einige Monate später nochmals spielt.

Validierungshypothesen zur konvergenten und divergenten Validität Riskoeinstellung und Risikoverhalten als konvergente Validität. Die Konzepte Unsicherheit und Risiko sind beide nicht einheitlich definiert und werden oftmals synonym verwendet (vgl. Pfister et al., 2017; Hung & Tangpong, 2010; Weber, Blais & Betz, 2002). Innerhalb der Entscheidungsforschung repräsentieren Unsicherheit und Risiko oftmals zwei Seiten derselben Medaille. Bei der Unsicherheit wird die Wahrscheinlichkeit betont, dass eine potentielle Entscheidungsoption richtig bzw. erfolgreich sein kann, während beim Risiko die Wahrscheinlichkeit beziehungsweise Gegenwahrscheinlichkeit bezeichnet wird, Diagnostica (2019), 65 (1), 2–13

dass ebendiese Option nicht eintritt beziehungsweise dass man mit der gewählten Option falsch liegt oder einen Verlust einfährt (Aven & Renn, 2009). Entsprechend der Höhe der Wahrscheinlichkeit und der Höhe des potentiellen Schadens kann die Wahl einer riskanten Option eher gemieden (Risikovermeidung) oder explizit gesucht werden (Risikosuche). Unsicherheit und Risiko sind dabei als subjektive Konstrukte zu betrachten, unabhängig davon, ob Risiko nur wahrgenommen oder ob auch entsprechend risikoreich gehandelt wird. Es existieren verschiedene Inventare und Verhaltenstests, welche riskante Einstellungen oder Verhaltensweisen als latente Persönlichkeitsdispositionen zu erfassen versuchen (u. a. Weber et al., 2002; für einen Überblick über weitere Instrumente siehe www. sjdm.org/dmidi/Risk_Attitude.html). Wir vermuteten deshalb, dass die erfasste HAUS als Persönlichkeitsvariable korrelativ eng mit Risikoeinstellung und Risikoverhalten verknüpft ist. Strebt eine Person eine hohe Urteilssicherheitsschwelle an, wird sie Entscheidungen aufgrund einer höheren Evidenzlage treffen wollen und dabei entweder eine Information mit einem hohen probabilistischen Wert bevorzugen oder generell zusätzliche Informationen suchen. Sie wird demzufolge weniger Risiko eingehen, einen Misserfolg im Sinne des Ausbleibens eines Gewinnes (kein Gewinnzuwachs) oder gar eines Verlustes zu landen. Mit einer tieferen Urteilssicherheitsschwelle nimmt sie hingegen mehr Risiko für einen möglichen Verlustdurchgang in Kauf. In der vorliegenden Studie wurde die konvergente Validität mit der Risk Perception Scale (RASA) und der Risk Behavior Scale (RASV) überprüft (beide von Weber et al., 2002). Deren Subskalen (Dimensionen) erfassen sechs Lebensbereiche, von denen Investment und Gambling dem Spielverhalten im KETO wohl am nächsten stehen. Risikoeinstellung (RASA) wurde bei Weber et al. (2002) über 40 verschiedene Fragen erhoben. Es wurde dabei gefragt, wie riskant eine Person eine spezifische Aktivität oder Verhaltensweise betrachtet (von überhaupt nicht risikoreich bis extrem risikoreich). Das Risikoverhalten (RASV) hingegen wurde erhoben für dieselben 40 Aussagen als die Wahrscheinlichkeit, dass eine Person eine spezifische Aktivität oder Verhaltensweise auch selbst ausführt (von sehr unwahrscheinlich bis sehr wahrscheinlich). Für alle Dimensionen der RASA erwarteten wir einen signifikant positiven Zusammenhang mit der HAUS, das heißt je höher die Risikoeinstellung einer Person ausfällt, desto höher müsste ihre Urteilssicherheitsschwelle im KETO sein. Und umgekehrt erwarteten wir für die Dimensionen der RASV einen signifikant negativen Zusammenhang mit der HAUS, das heißt je höher das Risikoverhalten einer Person ausfällt, desto geringer müsste ihre Urteilssicherheitsschwelle sein. Geschlechtsunterschiede. Gut belegt sind Geschlechtsunterschiede in Bezug auf die Risikoeinstellung und das Ri© 2018 Hogrefe Verlag


D. Hausmann und J. Stoll, Kurzer Entscheidungs-Test Online zur Erfassung des Entscheidungsverhaltens unter Unsicherheit

sikoverhalten (Killgore, Grugle, Killgore & Balkin, 2010; Byrnes, Miller & Schafer, 1999; Weber et al., 2002). Da Frauen in der Literatur durchgehend als risikoaversiver beschrieben werden, erwarteten wir konsequenterweise für unsere weibliche Substichprobe eine tendenziell höhere Urteilssicherheitsschwelle. Entscheidungsinventare. Das Center for Research on Environmental Decisions bietet online (www.sjdm.org/dmidi) eine Auflistung von über 170 Persönlichkeitsinventaren, welche bislang in der Entscheidungsforschung eingesetzt wurden und unter anderem die Bereiche Entscheidungsstil, Risikoeinstellung, kognitive Fähigkeiten, Motivation oder Persönlichkeit umfassen (vgl. Übersicht und Empfehlungen von Appelt, Milch, Handgraaf & Weber, 2011). In dieser Auflistung und in Literaturdatenbanken existiert allerdings kein Test, welcher explizit Unsicherheit oder Urteilssicherheit in Bezug auf Entscheidungsprozesse misst. Wir wählten schließlich die Konstrukte Intuition versus Deliberation und Maximierung für einen korrelativen Vergleich mit der Persönlichkeitsvariable HAUS, da diese in der Entscheidungsforschung eine nicht unwesentliche Rolle spielen (vgl. Pfister et al., 2017). Präferenz für Intuition und Deliberation (PID). Ein von Betsch (2004) entwickeltes Verfahren erfasst auf zwei unabhängigen Skalen mit je neun Items, ob Personen bevorzugt aufgrund von Gefühlen oder aufgrund von planvollen Analysen entscheiden. Da eine Urteilssicherheitsschwelle im KETO möglicherweise sowohl bewusst als auch unbewusst angewendet werden kann, erwarteten wir im Sinne der divergenten Validität keinen ausgeprägten korrelativen Zusammenhang zwischen den PID-Skalen und der Variable HAUS. Skala zur Erfassung interindividueller Unterschiede in der Maximierungstendenz (MAX). Greifeneder und Betsch (2006) entwickelten die MAX-Skala und identifizierten damit Maximierende und Satisfizierende. Maximierende sind Personen, die optimale Entscheidungen treffen wollen, indem sie sämtliche Alternativen miteinander vergleichen. Mit der MAX-Skala werden zum einen Entscheidungen unter Sicherheit erfasst, und nicht – wie beim KETO – Entscheidungen unter Unsicherheit. Zum anderen steht für Maximierende die Menge der Optionen im Vordergrund. Eine Person mit einer Satisfizierungs-Strategie könnte also theoretisch eine ebenso hohe (maximale) HAUS aufweisen wie jemand, der konsequent maximiert, letzterer würde aber zudem jeweils alle verfügbaren Informationen aufdecken müssen, um die Alternativen miteinander vergleichen zu können. Aus diesen Gründen erwarteten wir, ebenfalls im Sinne der divergenten Validität, auch bei dieser Skala keinen hohen korrelativen Zusammenhang mit der Variable HAUS. Persönlichkeitsinventar (NEO-FFI). Die Big Five wurden mit dem deutschsprachigen NEO-FFI von Borkenau und © 2018 Hogrefe Verlag

5

Ostendorf (1993) erhoben. Es existieren mehrere Befunde zum Zusammenhang zwischen dem sozialen Kontext im Entscheidungsverhalten (economic games) und den Big Five: Brocklebank, Lewis und Bates (2011) beispielsweise fanden, dass prosoziale Orientierung in einem Diktatorspiel positiv mit der selbstberichteten Offenheit und negativ mit Neurotizismus und Extraversion korreliert war. Wang et al. (2017) hingegen kamen zum Schluss, dass chinesische Studenten in Bezug auf ihre Persönlichkeit dazu tendieren, sich unterschiedlich zu verhalten, je nachdem, ob sie individuelle oder gemeinsame Entscheidungen treffen. Da im KETO das individuelle Entscheidungsverhalten unter Unsicherheit untersucht werden soll, ist fraglich, inwiefern die Befunde zum sozialen Kontext direkt auf das Konstrukt HAUS übertragen werden können. Zum Zusammenhang zwischen individuellem Entscheidungsverhalten unter Unsicherheit und den Faktoren des NEO-FFI selber existieren bislang wenig Befunde. Wang et al. (2017) bestätigten jüngst positive Korrelationen zwischen individueller Risikopräferenz und Extraversion sowie Offenheit, sowie negative mit Verträglichkeit und Gewissenhaftigkeit. Inwiefern diese gefundenen Zusammenhänge auch für individuelles Entscheidungsverhalten unter Unsicherheit, für breitere Schichten der Bevölkerung sowie für den europäischen Kulturraum gelten, ist allerdings noch offen. Insofern hat ein Vergleich zwischen dem Persönlichkeitskonstrukt HAUS und den Faktoren des NEO-FFI in dieser Studie einen eher explorativen Charakter und wir gingen davon aus, dass kein oder nur ein geringer korrelativer Zusammenhang zur HAUS besteht. Zudem erfassten wir verschiedene Kontrollvariablen und -fragen, um Einflüsse der sozialen Erwünschtheit (erfasst mit dem Inventar zur Erfassung der beiden Faktoren Selbst- und Fremdtäuschung der sozialen Erwünschtheit von Musch, Brockhaus & Bröder, 2002), dem Verständnis und der Teilnahmemotivation im KETO ausschließen zu können.

Methoden Gesamtstichprobe 1 008 Personen (59 % weiblich) mit einem durchschnittlichen Alter von 39.3 Jahren (SD = 11.6) lösten die Basisversion des KETO vollständig und seriös. Neun Personen wurden nicht in die Untersuchung eingeschlossen, da sie in einem Kontrollitem am Schluss verneint hatten, den Test „seriös“ gelöst zu haben. Die Personen wurden im Rahmen mehrerer Lehrveranstaltungen persönlich angeschrieben (meist per E-Mail) und umfassten sowohl StuDiagnostica (2019), 65 (1), 2–13


6

D. Hausmann und J. Stoll, Kurzer Entscheidungs-Test Online zur Erfassung des Entscheidungsverhaltens unter Unsicherheit

dierende (hauptsächlich der Universität Zürich) als auch Nicht-Studierende im Alter von 18 bis 65 Jahren. Ein Teil der Personen (n = 347) löste im Anschluss an den KETO weitere Persönlichkeitstests (Online-Fragebogen).

Zusätzliche Stichprobenzusammensetzungen 1. Für den Extremgruppenvergleich wurden insgesamt 93 männliche Versuchspersonen im Alter zwischen 31 und 38 Jahren rekrutiert: 18 Assistenzärzte, welche in einem Schweizer Universitätsspital auf der Station für Innere Medizin arbeiteten, 26 Wertpapierhändler, welche über zwei Börsenplattformen (www.trader-forum. ch und www.cash.ch) angeworben wurden, sowie zum Vergleich alle 49 Männer aus der Gesamtstichprobe im entsprechenden Altersrange. 2. Weitere 24 Personen (63 % weiblich; MAlter = 29.1 Jahre; SD = 9.0) bearbeiteten zuerst den KETO und nahmen anschließend an einem medizin-diagnostischen Spiel teil (Dr. Tweak; Huber, 2015). In diesem Spiel wurde die Versuchsperson in die Rolle einer Ärztin beziehungsweise eines Arztes versetzt mit der Aufgabe, 10 fiktive Patientinnen anhand von 10 möglichen Symptomen und fünf potentiellen Erkrankungen zu diagnostizieren, eine von vier Therapieformen zu verabreichen und die Patientin zum Schluss aktiv zu entlassen. Die Versuchsperson war dabei völlig frei, wie sie ihr Ziel – eine akkurate Diagnose zu stellen – erreichen wollte. Aufgrund lediglich eines ersten vorgegebenen Symptoms konnte sie so viele weitere Symptome abfragen und Bestätigungen einholen, wie sie wollte. Die Versuchsleiterin lieferte auf Anfrage die entsprechende Symptomausprägung analog der Methode der aktiven Informationssuche (vgl. Huber, Wider & Huber, 1997). Mit der Abfrage eines jeden weiteren Symptoms wurde das zugrundeliegende Krankheitsbild klarer und wahrscheinlicher, aber der Suchaufwand (gemessen in Bearbeitungszeiteinheiten) entsprechend größer. 3. Insgesamt 56 Personen aus der Gesamtstichprobe lösten den KETO zweimal in einem Zeitintervall von 96 bis 113 Tagen (N = 20) oder unmittelbar hintereinander (N = 36). Die Zuteilung erfolgte randomisiert.

KETO-Szenario Die Versuchspersonen wurden in der Online-Instruktion kurz in die Handelsschifffahrt des 17./18. Jahrhunderts eingeführt. Die Aufgabe der Versuchsperson bestand im Wesentlichen darin, eine Ladung mit Gewürzkisten sicher, das heißt trocken, von Ostindien zum niederländischen Diagnostica (2019), 65 (1), 2–13

Heimathafen zu bringen. Für die Überfahrt konnte eines von vier bereitstehenden Handelsschiffen gewählt werden. Die Erfolgswahrscheinlichkeit der Kapitäne konnte anhand von Wahrscheinlichkeitsangaben (basierend auf natürlichen Häufigkeiten) exploriert werden (sequentielle Informationssuche). Dabei galt es, den Gewinn über die insgesamt 22 Fahrten zu maximieren. Die vollständigen Instruktionstexte finden sich unter www.keto.dah-media.ch.

Aufgabe und Information Board Eine Versuchsperson löste neben zwei Probedurchgängen 22 Entscheidungsaufgaben (Hauptdurchgänge), jede davon wurde auf einem übersichtlichen Information Board präsentiert (siehe Abbildung 1). Zur Wahl standen jeweils vier neue Schiffe (Optionen). Wurde eines der Schiffe ohne jegliche Information gewählt (Risikosuche oder Raten), betrug die Erfolgs- beziehungsweise Basiswahrscheinlichkeit .25. Mit dem (sequentiellen) Aufdecken von Händlerinformationen (Cues) konnte die Wahrscheinlichkeit für eine sichere Überfahrt (trockene Ladung) potentiell erhöht werden. Jede aufgedeckte Händlerinformation beinhaltete jeweils einen Wahrscheinlichkeitswert (Erfolgswahrscheinlichkeit) zwischen .25 und 1.00 für genau eines der vier Schiffe. Der Versuchsperson stand es dabei frei, wie viele Händler sie befragen wollte (zwischen null und maximal fünf pro Durchgang). Bei jedem Durchgang wählte die Versuchsperson schlussendlich eines der vier Schiffe, oder die Zusatzoption Verkauf vor Ort, welche für die Möglichkeit stand, eine Entscheidung zu umgehen (Risikovermeidung). Nach jedem Durchgang erhielt die Versuchsperson eine kurze Rückmeldung, ob die Überfahrt erfolgreich war oder nicht und wie viele Gulden sie zusätzlich eingenommen hatte. Im elektronischen Supplement 3 werden die Verteilung der Wahrscheinlichkeitswerte (Informationslage) für das Spiel, die Erwartung-mal-Wert-Berechnungen für die einzelnen Strategien sowie die Berechnung einer normativen Strategie im Detail erläutert.

Grundidee des HAUS-Eingrenzungsverfahren Indem nun der Erstwert (Wahrscheinlichkeit der ersten aufgedeckten Händlerinformation) experimentell und systematisch manipuliert wird (unabhängige Variable; UV), kann anhand des tatsächlichen Informationssuchverhaltens (abhängige Variable; AV) der Person eingegrenzt werden, in welchem Bereich (Range) sich deren potentiell angewendete Urteilssicherheitsschwelle befinden könnte. Eine bestimmte HAUS wird dann konsistent angewen© 2018 Hogrefe Verlag


D. Hausmann und J. Stoll, Kurzer Entscheidungs-Test Online zur Erfassung des Entscheidungsverhaltens unter Unsicherheit

7

Abbildung 1. Online Information Board für einen einzelnen Durchgang mit sequentieller Informationsmöglichkeit. Die Versuchsperson hat eine erste Händlerinformation (Cue) aufgedeckt und deren Wahrscheinlichkeit (Erstwert von .84) abgelehnt. Da die Versuchsperson für eine Entscheidung stattdessen zwei weitere Händlerinformationen befragt hat, entspricht ihr Verhalten dem eines More-Reason Decision Making.

det, wenn alle genügend hohen Erstwerte über der individuellen Urteilssicherheitsschwelle akzeptiert (d. h. keine weiteren Cues mehr gesucht) und tiefere Erstwerte ignoriert werden (d. h. noch mindestens ein weiterer Cue gesucht wird). Ersteres entspricht einem One-Reason Decision Making und letzteres einem More-Reason Decision Making. Der implementierte Eingrenzungsalgorithmus ist so gebaut, dass er eine gewisse Zahl von Abweichungen (Verstöße oder Fehler) von diesem Prinzip (d. h. höhere Erstwerte ablehnen und tiefere Erstwerte akzeptieren) abfangen kann (für Details siehe elektronisches Supplement 3).

Nachberechnete HAUS als zentrale Variable Der dynamischen Eingrenzung der HAUS während des Online-Tests wird standardmäßig eine Nachberechnung anhand des vollständigen Datenmusters gegenübergestellt. Diese nachberechnete HAUS stellt die eigentliche Persönlichkeitsvariable dar, welche in dieser Arbeit zur Validierung herangezogen wurde. Die technischen Spezifika© 2018 Hogrefe Verlag

tionen zur Bestimmung der HAUS (Verfahren zur Eingrenzung und Nachberechnung), der Aufbau der Wahrscheinlichkeitsstruktur und Erwartungswerte, sowie weitere Gütemaße des KETO (Konsistenz und Simulationen) sind im elektronischen Supplement 3 ausführlich beschrieben. Sofern eine Person im Spiel tatsächlich nach probabilistischen Cues sucht (Händler befragt), kann anhand des Datenmusters aller 22 Hauptdurchgänge eine HAUS nachberechnet werden. Zudem können die Anzahl Verstöße (Fehler) gegen die nachberechnete HAUS bestimmt und als Konsistenzmaß interpretiert werden. Der KETO wurde als komplexes Entscheidungsspiel konzipiert und deshalb ist es grundsätzlich möglich, eine von zwei Extremstrategien zu verfolgen: a) Risikosuche (Raten mit einer Erfolgswahrscheinlichkeit von .25) und b) Risikovermeidung (22 mal vor Ort verkaufen mit einer Erfolgswahrscheinlichkeit von je 1.00). Beide Extremstrategien verzichten vollständig auf Informationssuche im Spiel und stellen Extrempositionen in Bezug auf das Risikoverhalten dar.

Diagnostica (2019), 65 (1), 2–13


8

D. Hausmann und J. Stoll, Kurzer Entscheidungs-Test Online zur Erfassung des Entscheidungsverhaltens unter Unsicherheit

Demographische Daten und Kontrollfragen im KETO Die Versuchspersonen wurden mit einem separaten Rekrutierungstext auf die Einstiegsseite von KETO verlinkt (www.keto.dah-media.ch). Die Angaben zum Geschlecht und das Alter in Jahren wurden vor der Instruktion, die Kontrollfragen standardmäßig im Anschluss an die Hauptdurchgänge erhoben. Die fünf Kontrollfragen beinhalteten Fragen zur Teilnahmemotivation („Verglichen mit anderen Lebenssituationen, wie wichtig war es für Sie, an diesem Webexperiment teilzunehmen?“), zur Wichtigkeit des Spielgewinns („Wie wichtig war es für Sie, im Spiel möglichst viel Geld zu verdienen?“), zur Verlustvermeidung („Wie wichtig war es für Sie, zu vermeiden, das falsche Schiff [ohne Gewinn] zu wählen?“), zur finanziellen Sicherheit („Wie wichtig ist es Ihnen im Allgemeinen, dass Sie eine sichere finanzielle Einnahmequelle haben?“) und zum Vertrauen in die Händler („Wie sehr haben Sie den Wahrscheinlichkeitsangaben der Händler vertraut?“), jeweils gemessen auf einer Likert-Skala von überhaupt nicht wichtig (1) bis sehr wichtig (5), respektive von überhaupt nicht bis sehr. Es folgte die Einschlussfrage zur Seriosität („Haben Sie diesen Test seriös bearbeitet?“), welche mit ja oder nein beantwortet werden konnte, sowie ein allgemeines Kommentarfeld mit der Option der freien Texteingabe.

höher das Risikoverhalten einer Person ausfiel, desto tiefer war ihre HAUS im KETO. Die Bereiche Investment, Gambling und Ethical offenbarten signifikante Ausprägungen in beiden Skalen, die Bereiche Health / Safety und Recreational nur signifikante Korrelationen im RASA. Der Bereich Social Risk ist eine Ausnahme und zeigte mit dem Vorzeichen tendenziell jeweils in die entgegengesetzte Richtung. Die Kontrollfrage bezüglich der Verlustvermeidung („Wie wichtig war es für Sie, zu vermeiden, das falsche Schiff [ohne Gewinn] zu wählen?“) korrelierte ebenfalls signifikant positiv mit der HAUS (vgl. elektronisches Supplement 1), das heißt je stärker eine Verlustvermeidung ausgeprägt war (Risikoaversion), desto höher war auch der Anspruch an Urteilssicherheit.

Divergente Validität Wie erwartet, zeigten sowohl die kognitiven Entscheidungsmaße PID und MAX als auch der Persönlichkeitstest NEO-FFI einen geringen Zusammenhang zur HAUS (siehe elektronisches Supplement 1). Geringe positive Korrelationen konnten für die Subskalen Neurotizismus und Offenheit (NEO-FFI) gefunden werden. Tabelle 1. Korrelationstabelle der Höhe der angestrebten Urteilssicherheit (HAUS) mit Maßen von Risikotests HAUS

Ergebnisse Anteil an Personen mit einer nachberechneten HAUS Insgesamt 19 Personen (2 % der Gesamtstichprobe) verzichteten im KETO komplett auf Informationssuche und verfolgten eine der beiden Extremstrategien (vgl. Methodenteil): 12 Personen als ausschließliche Risikosuchende (Raten), fünf Personen als reine Risikovermeidende (vor Ort verkaufen) und zwei Personen mit einem Mix aus Risikosuche und Risikovermeidung (je zu 50 %). Es verblieben 989 Personen in der Gesamtstichprobe, für die je eine individuelle HAUS (Höhe der angestrebten Urteilssicherheit) nachberechnet werden konnte.

Konvergente Validität

n

rs

Investment

342

.12*

Gambling

342

.11*

Health / Safety

341

.17**

Recreational

342

.16**

Ethical

339

Social

342

-.06

Investment

342

-.11*

Gambling

342

-.12*

Health / Safety

338

-.04

Recreational

341

-.08

Ethical

341

-.10*

Social

341

.08

Risikoeinstellung (RASA)

.16**

Risikoverhalten (RASV)

Anmerkungen: RASA = Risk Perception Scale, RASV = Risk Behavior Scale (Weber, Blais & Betz, 2002). Die beiden Skalen Investment und Gambling gehören gemäß Weber et al. (2002) zur Subskala Financial. rs = Korrelation nach Spearman. Einseitige Signifikanztestung. * p < .05, ** p < .01.

Wie erwartet, stand die HAUS in einem grundsätzlich positiven Zusammenhang mit der Einstellung zum Risiko (RASA) und einem mehrheitlich negativen Zusammenhang mit dem Risikoverhalten (RASV; vgl. Tabelle 1). Je Diagnostica (2019), 65 (1), 2–13

© 2018 Hogrefe Verlag


D. Hausmann und J. Stoll, Kurzer Entscheidungs-Test Online zur Erfassung des Entscheidungsverhaltens unter Unsicherheit

Kontrollitems Neben der Verlustvermeidung korrelierten die finanzielle Sicherheit und das Vertrauen in die Händler signifikant positiv mit der HAUS (mit kleinen Effekten nach Cohen, 1988; vgl. elektronisches Supplement 1). Das heißt, je wichtiger es für eine Versuchsperson ist, im Allgemeinen eine sichere finanzielle Einnahmequelle zu haben und je höher das Vertrauen der Händler im Spiel eingeschätzt wurde, desto höher fiel die HAUS aus. Hingegen war die HAUS unabhängig von der Teilnahmemotivation und der Wichtigkeit, im Spiel möglichst viel Geld zu verdienen, ebenso unabhängig wie von der sozialen Erwünschtheit.

Verteilung der HAUS in der Gesamtstichprobe und Geschlechtsunterschiede Die nachberechnete HAUS in der Gesamtstichprobe lag durchschnittlich bei .79 (vgl. elektronisches Supplement 2). Über alle Personen hinweg wurde also eine erste probabilistische Information (Cue) als alleinige Entscheidungsgrundlage akzeptiert, wenn der Cue eine Erfolgswahrscheinlichkeit von 80 % oder höher vermittelte (ORDM). Bei Wahrscheinlichkeitsangaben unter 79 % wurden weitere Cues abgefragt (MRDM), um die subjektive Urteilssicherheit in die Wahl eines Schiffes zu erhöhen. Frauen zeigten mit einer HAUS von .81 wie erwartet eine höhere Urteilssicherheitsschwelle als Männer (.76). Dieser Unterschied von fünf Prozentpunkten ist signifikant mit einer kleinen Effektstärke. Hinsichtlich der Kontrollfragen zeigten sich keine Geschlechtsunterschiede (vgl. elektronisches Supplement 2). In Bezug auf das Alter (getrennt nach Geschlecht) war kein linearer Zusammenhang zur präferierten Entscheidungsstrategie oder der HAUS zu erkennen.

Extremgruppenvergleich Die nachberechnete HAUS war bei den Medizinern erwartungsgemäß am höchsten (M = .86; SD = .12; N = 18), gefolgt von der Normstichprobe (M = .77; SD = .14; N = 49), und am niedrigsten bei den Wertpapierhändlern (M = .73; SD = .10; N = 26). Dieser Unterscheid zwischen den drei Gruppen erwies sich als signifikant, F2,90 = 5.96, p = .004, und entspricht einem großen Effekt (Cohens d = 1.33).

Diagnostische Kriteriumsvalidität Die HAUS hing wie erwartet positiv mit den insgesamt aufgewendeten Bearbeitungszeiteinheiten bei der dia© 2018 Hogrefe Verlag

9

gnostischen Zusatzaufgabe (Dr. Tweak; Huber, 2015) zusammen (r = .40, peinseitig = .027, N = 24). Je höher der Anspruch an Urteilssicherheit war, desto mehr Symptome wurden abgefragt und desto länger dauerte es bis zur Entlassung der (fiktiven) Patientin.

Retest-Reliabilität Die Retest-Reliabilität für die nachberechnete HAUS über die beiden Testzeitpunkte war gut für die unmittelbare Testwiederholung (rtt = .83) und akzeptabel für die DreiMonats-Stabilität (rtt = .73). Die Objektivität der Durchführung sowie der Auswertung der Daten war durch das Online-Verfahren gewährleistet (schriftliche Instruktion, Information Board, automatisch generierte Logfiles). Es wurden nur Personen in die Stichproben aufgenommen, die explizit zu einer Teilnahme aufgefordert wurden, die den KETO vollständig und am Stück gelöst hatten und zudem in einem Kontrollitem explizit angegeben hatten, den Test seriös gelöst zu haben.

Diskussion Der Kurze Entscheidungs-Test Online (KETO) ist das erste Verfahren, um die Höhe der angestrebten Urteilssicherheit (HAUS) individuell und prozentgenau zu ermitteln. Die nachberechnete HAUS wurde dabei als Persönlichkeitsvariable aufgefasst, und nicht – wie bis anhin – lediglich als individuelle Präferenz in einer Entscheidungssituation unter Unsicherheit betrachtet (vgl. Pfister et al., 2017). Die HAUS drückt denjenigen Wahrscheinlichkeitswert aus, den eine Person minimal benötigt, um eine Entscheidung für eine Option aufgrund eines einzelnen probabilistischen Hinweiscues zu fällen. Entspricht die Informationslage auf Anhieb nicht der gewünschten Urteilssicherheit, wird dieselbe Person nach zusätzlichen Informationen suchen mit dem Ziel, ihre subjektive Urteilssicherheit in diese oder eine alternative Entscheidungsoption zu erhöhen. Der Abbruchzeitpunkt beziehungsweise der Verzicht auf eine weitere Informationssuche erfolgt somit mit dem Erreichen eines Schwellenwertes (confidence threshold) beziehungsweise Urteilssicherheitsniveaus (vgl. Busemeyer & Townsend, 1993; Hausmann & Läge, 2008). Die mehrfach in der Literatur konstatierte intraindividuelle Inkonsistenz in der Wahl und Anwendung einer präferierten Entscheidungsstrategie (Newell, Weston & Shanks, 2003; Newell, 2005; Hausmann & Läge, 2008; Appelt et al., 2011) kann mit einem individuellen Schwellenwert an Urteilssicherheit relativ plausiDiagnostica (2019), 65 (1), 2–13


10

D. Hausmann und J. Stoll, Kurzer Entscheidungs-Test Online zur Erfassung des Entscheidungsverhaltens unter Unsicherheit

bel erklärt werden, denn ein One- oder More-Reason Decision Making stellt lediglich eine Verhaltensreaktion auf unterschiedlich hoch vorliegende Wahrscheinlichkeitswerte in einer konkreten Entscheidungssituation dar, das heißt ob der Wahrscheinlichkeitswert einer Information einer Person subjektiv als genügend hoch erscheint oder nicht. In der KETO-Basisversion liegen Median und Mittelwert der HAUS bei knapp 80 % (.79) und damit deutlich über dem zugrunde gelegten Erwartungswert (vgl. elektronisches Supplement 3; zur Abweichung von normativen Entscheidungsmodellen siehe auch Stanovich & West, 1998). Daraus lässt sich ebenfalls schließen, dass es für einen Großteil der Personen wichtiger erscheint, eine subjektiv höhere Urteilssicherheitsschwelle anzustreben, anstatt ein rein normatives Verhalten nach Erwartungsnutzenwerten zu befolgen. Somit wird deutlich, dass der subjektive Anspruch an Urteilssicherheit im Sinne einer individuellen Persönlichkeitsvariable (Trait) das tatsächlich gezeigte Verhalten in der KETO-Basisversion dominiert. Die HAUS variieren von .23 bis 1.01, was bedeutet, dass die Schwellenwerte mitunter in beiden Randbereichen voll ausgeschöpft werden (Basiswahrscheinlichkeit versus völlige Sicherheit). Schließt man diejenigen Personen mit ein, welche gänzlich auf Informationssuche verzichten (2 % Risikosuchende oder Risikovermeidende), kann der KETO den gesamten Bereich abdecken, den Newell (2005) mit seinem „evidence accrual threshold“ vorschlägt: Der „adjustable spanner“ deckt sich also mit den tatsächlich gezeigten Entscheidungsstrategien im KETO, hier allerdings im Sinne einer Persönlichkeitsvariablen. Mit einer geeigneten Klassifizierung der Verhaltensdaten könnte man sogar eruieren, welches Tool eine Person aus der „Adaptiven Toolbox“ von Gigerenzer, Todd und der ABC Research Group (1999) in der Basisversion von KETO präferiert (vgl. Newell, 2005). Interindividuell betrachtet haben Personen mit einem hoch ausgeprägten Anspruchsniveau an Urteilssicherheit ein höheres Sicherheitsbedürfnis beziehungsweise lassen weniger Unsicherheit zu. Diese Personen streben eine höhere Evidenzlage für ihre Entscheidungen an, und sie sind bereit, dafür grundsätzlich mehr und länger nach Informationen zu suchen, mehr Suchkosten zu bezahlen beziehungsweise weniger Gewinn in Kauf zu nehmen (vgl. Hausmann & Läge, 2008; Jekel, 2012). Dies zeigt sich einerseits im Vergleich mit der diagnostischen Aufgabe (Huber, 2015), bei der Personen mit einer höheren HAUS für dieselbe Patientin mehr medizinrelevante Informationen berücksichtigten und mehr Bearbeitungszeit beanspruchten, als auch bei den Extremgruppenunterschieden, wo Wertpapierhändler in der Regel eher raschere Entscheidungen treffen müssen. Wie die Resultate zur konvergenten Validität weiter aufgezeigt haben, hängt eine hohe UrteilssicherheitsDiagnostica (2019), 65 (1), 2–13

schwelle mit einem ausgeprägteren Risikovermeidungsverhalten zusammen (Weber et al., 2002; vgl. auch Hung & Tangpong, 2010). Allerdings weisen die gefundenen Zusammenhänge mit Korrelationen zwischen -.12 und .17 nur kleine Effektgrößen auf. Dass Frauen grundsätzlich eine höhere HAUS anstreben als Männer, könnte darauf zurückzuführen sein, dass sie in der Regel eine risikoaversivere Strategie verfolgen als Männer. Mit einer solchen Strategie erzielten Frauen im Schnitt weniger Verlustdurchgänge und damit eine etwas bessere Performanz als Männer (vgl. elektronisches Supplement 2). Lediglich das Vertrauen in die Händlerinformation scheint – unabhängig vom Geschlecht – eine zentrale Voraussetzung für das Entscheidungsspiel beziehungsweise den Verhaltenstest KETO zu sein. Da die HAUS nicht signifikant mit den Faktoren des NEO-FFI zusammenhängt, wohl aber mit dem Umgang mit Unsicherheit und Risiko, kann die HAUS als eine eigenständige Persönlichkeitsvariable betrachtet werden (vgl. Andresen, 1995). Somit gewinnen Persönlichkeitsaspekte nicht nur bei Glücksspielen oder in Risikosituationen, sondern gerade auch im Kontext von Entscheidungen unter Unsicherheit an Bedeutung (vgl. Pfister et al., 2017). Dass dabei die Skala zur Erfassung interindividueller Unterschiede in der Maximierungstendenz (MAX) von Greifeneder und Betsch (2006) nur eine geringe Korrelation mit der HAUS zeigt, erstaunt insofern nicht, da im KETO Satisfizierung und Maximierung zu einer Variable HAUS zusammenfallen und Entscheidungen unter Unsicherheit gefällt werden (vgl. Pfister et al., 2017).

Limitationen und Forschungsausblick Im vorliegenden Verhaltenstest beruht die Messung der HAUS auf der Unterscheidung, ob in einem Durchgang ein probabilistischer Erstwert akzeptiert (keine weitere Informationssuche) oder abgelehnt wird (weitere Informationssuche). Mit dem vorliegenden Messverfahren kann keine Aussage oder Interpretation über den gesamten Umfang der Informationssuche gemacht werden, da für die Bestimmung einer HAUS in Bezug auf ein MRDMVerhalten kein Unterschied darin besteht, ob lediglich zwei Informationen aufgedeckt werden oder entsprechend mehr (bis maximal fünf). Ebenfalls kann keine Aussage über die Art der Informationsverarbeitung beziehungsweise Integration bei mehreren vorliegenden probabilistischen Informationen gemacht werden. Dies ist in zusätzlichen Studien zu klären. Zudem wäre es wünschenswert, mehr über die prognostische Validität von KETO zu wissen und Zusammenhänge mit anderen objektiven Verhaltenstests aufzuzeigen (vgl. Appelt et al., 2011; Ortner & van de Vijver, 2015). © 2018 Hogrefe Verlag


D. Hausmann und J. Stoll, Kurzer Entscheidungs-Test Online zur Erfassung des Entscheidungsverhaltens unter Unsicherheit

Wie bereits Payne, Bettman und Johnson (1993) konstatiert haben, bleibt das Entscheidungsverhalten in der Regel adaptiv, das heißt die präferierte Entscheidungsstrategie wie auch die individuelle HAUS sind grundsätzlich abhängig von den Rahmenbedingungen der Entscheidungssituation (z. B. der Suchkosten-Gewinn-Struktur). Beispielsweise wird sich eine unterdurchschnittlich ausgeprägte, individuelle HAUS in einer anderen hoch relevanten Entscheidungssituation erhöhen, aber in Bezug zur Norm und zu der HAUS anderer Personen vergleichsweise tief bleiben. Das manifestierte Verhalten im KETO muss daher immer als Interaktion zwischen situativen Faktoren (Adaptivität) und Persönlichkeitsmerkmalen (Trait) betrachtet werden (vgl. Appelt et al., 2011; Hung & Tangpong, 2010). Gerade diese Interaktion eröffnet interessante Weiterentwicklungen für den KETO: Ein verändertes Szenario kombiniert mit der vorliegenden Basismessung könnte beispielsweise etwas über die Anpassungsfähigkeit einer Person aussagen, sich auf neue Situationen einzulassen (vgl. Bröder, 2003). Zudem lässt KETO zahlreiche Anwendungen für die Forschung und Praxis offen. In Assessments könnte neben einem Vergleich mit dem Normwert je nach Bedarf und Anforderung eine Übereinstimmung mit einem bestimmten Profil (Passung) gefragt sein oder der explizite Ein- oder Ausschluss von erwünschten oder nicht erwünschten Verhaltenweisen angestrebt werden (z. B. in Bezug auf die Neigung zu einem Risikoextremverhalten, große Inkonsistenz, zu tiefe oder zu hohe HAUS etc.).

KETO als objektiver Persönlichkeitstest (sensu R.B. Cattell) KETO ist ein attraktives, komplexes und für die Teilnehmenden nicht einfach zu durchschauendes Online-Verhaltensspiel. Individuelles Entscheidungsverhalten unter Unsicherheit, welches eine aktive und sequentielle Informationssuche umfasst, wurde in der Entscheidungsforschung traditionell auf einem Information Board dargestellt (vgl. Payne et al., 1998). Im KETO implementiert wurde zudem ein experimentalpsychologischer Ansatz, wobei jeweils die Erstwerte (probabilistische Cues) einer Aufgabe manipuliert wurden, um eine individuelle HAUS mit wenigen Aufgaben eingrenzen zu können (vgl. elektronisches Supplement 3). Die Verhaltensdaten können im Sinne eines Process Tracings (vgl. Schulte-Mecklenbeck, Kühberger & Ranyard, 2011) online erfasst werden und sind auf verschiedenen Dimensionen auswertbar. Mit all diesen Charakteristiken entspricht der KETO einem objektiven Persönlichkeitstest (sensu R. B. Cattell), welcher über reine Fragebogenitems hinausgeht und der gemäß Ortner und Proyer (2015) am besten in die Kate© 2018 Hogrefe Verlag

11

gorie der Real-Life-Simulations einzuordnen ist. Gerade im Kontext der spieltheoretisch ausgerichteten economic games (z. B. Baumert, Schlösser & Schmitt, 2014) oder in den sogenannten risky tasks und gambles (z. B. Lejuez et al., 2002) können Verhaltenstests mit einem quasirealistischen Hintergrund eine zusätzliche Bereicherung in der Persönlichkeitsdiagnostik darstellen, da sie das tatsächliche Verhalten einer Person meist besser abbilden als klassische Fragebögen. Das sogenannte behavior-based assessment gewinnt auch in der Persönlichkeitspsychologie immer mehr an Bedeutung (Ortner & van de Vijver, 2015) und generiert neue objektive Tests (z. B. Jasper & Ortner, 2014). Gerade Verhaltensdaten, die über mehrere vergleichbare Durchgänge generiert worden sind, erlauben interessante Zusatzinformationen, wie beispielsweise über die Konsistenz des Verhaltens. Auf der anderen Seite ist die Auswertung der individuell generierten Prozessdaten aufwändiger und bedarf zusätzlicher Schritte und Überlegungen. Die Konstruktvalidierung von Verhaltenstests stellt eine spezielle Herausforderung dar und die Reliabilität von Verhaltenstests muss kritisch hinterfragt werden (Ortner & van de Vijver, 2015). Auch sind die Verhaltenstests in Bezug auf ihre Generalisierbarkeit vielfach noch zu wenig abgesichert, da sie meist neue und mehrere Konstrukte umfassen. Deshalb muss auch der KETO mit seinem neuen Persönlichkeitskonstrukt Höhe der angestrebten Urteilssicherheit (HAUS) weiteren Validierungsstudien unterworfen werden.

Verfügbarkeit des KETO für die Forschung Der Kurze Entscheidungs-Test Online (KETO) kann unter www.keto.dah-media.ch online gelöst werden. Für die kostenlose Nutzung der Daten zu Forschungszwecken wurde unter www.dah-media.ch/KETO/register eine Registrierungsseite eingerichtet.

Elektronische Supplemente (ESM) Die elektronischen Supplemente sind mit der OnlineVersion dieses Artikels verfügbar unter https://doi.org/ 10.1026/0012-1924/a000209 ESM 1. Korrelationstabelle der Höhe der angestrebten Urteilssicheheit (HAUS) mit Maßen von Entscheidungstests, Persönlichkeitstests und Kontrollfragen ESM 2. Übersicht über die im KETO erfassten objektiven Verhaltensvariablen für sämtliche Personen mit einer nachberechneten HAUS (N = 989) und aufgeteilt für Männer (n = 403) und Frauen (n = 586), sowie die subjektiv erfassten Kontrollfragen im Anschluss an KETO Diagnostica (2019), 65 (1), 2–13


12

D. Hausmann und J. Stoll, Kurzer Entscheidungs-Test Online zur Erfassung des Entscheidungsverhaltens unter Unsicherheit

ESM 3. Technische Spezifikationen zur Bestimmung der Höhe der angestrebten Urteilssicherheit (HAUS)

Literatur Andresen, B. (1995). Risikobereitschaft (R) – der sechste Basisfaktor der Persönlichkeit: Konvergenz multivariater Studien und Konstruktexplikation. Zeitschrift für Differentielle und Diagnostische Psychologie, 16, 210 – 236. Appelt, K. C., Milch, K. F., Handgraaf, M. J. J. & Weber, E. U. (2011). The decision making individual differences inventory and guidelines for the study of individual differences in judgment and decision-making research. Judgment and Decision Making, 6, 252 – 262. Aven, T. & Renn, O. (2009). On risk defined as an event where the outcome is uncertain. Journal of Risk Research, 12, 1 – 11. Baumert, A., Schlösser, T. & Schmitt, M. (2014). Economic games: A performance-based assessment of fairness and altruism. European Journal of Psychological Assessment, 30, 178 – 192. Betsch, C. (2004). Präferenz für Intuition und Deliberation (PID). Zeitschrift für Differenzielle und Diagnostische Psychologie, 25, 179 – 197. Borkenau, P. & Ostendorf, F. (1993). NEO-Fünf-Faktoren Inventar (NEO-FFI) nach Costa und McCrae (Handanweisung). Göttingen: Hogrefe. Brocklebank, S., Lewis, G. J. & Bates, T. C. (2011). Personality accounts for stable preferences and expectations across a range of simple games. Personality and Individual Differences, 51, 881 – 886. Bröder, A. (2003). Decision making with the “adaptive toolbox”: Influence of environmental structure, intelligence, and working memory load. Journal of Experimental Psychology: Learning, Memory, and Cognition, 29, 611 – 625. Busemeyer, J. R. & Townsend, J. T. (1993). Decision field theory: A dynamic-cognitive approach to decision making in an uncertain environment. Psychological Review, 100, 432 – 459. Byrnes, J. P., Miller, D. C. & Schafer, W. D. (1999). Gender differences in risk-taking: A metaanalysis. Psychological Bulletin, 125, 367 – 383. Chuang, W.-I. & Susmel, R. (2011). Who is the more overconfident trader? Individual versus institutional investors. Journal of Banking & Finance, 35, 1626 – 1644. Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Hillsdale, NJ: Erlbaum. Delling, P. (2010). Risikoverhalten von Aktienfondsmanagern: Eine spieltheoretische und empirische Analyse. Wiesbaden: Gabler. Gigerenzer, G. & Goldstein, D. G. (1999). Betting on one good reason: The take the best heuristic. In G. Gigerenzer, P. M. Todd & the ABC Research Group (Eds.), Simple heuristics that make us smart (pp. 75 – 95). New York, NY: Oxford University Press. Gigerenzer, G., Todd, P. M. & the ABC Research Group (1999). Simple heuristics that make us smart. New York, NY: Oxford University Press. Greifeneder, R. & Betsch, C. (2006). Lieber die Taube auf dem Dach! Eine Skala zur Erfassung interindividueller Unterschiede in der Maximierungstendenz. Zeitschrift für Sozialpsychologie, 37, 233 – 243. Hausmann, D. (2004). Informationssuche im Entscheidungsprozess: Die Nützlichkeit von Hinweis-Cues und der Anspruch an Urteilssicherheit. Unveröffentlichte Dissertation, Universität Zürich. Diagnostica (2019), 65 (1), 2–13

Hausmann, D. & Läge, D. (2008). Sequential evidence accumulation in decision making: The individual desired level of confidence can explain the extent of information acquisition. Judgment and Decision Making, 3, 229 – 243. Hausmann, D., Zulian, C., Battegay, E. & Zimmerli, L. (2016). Tracing the decision-making process of physicians with a decision process matrix. BMC Medical Informatics and Decision Making, 16, 133. Huber, C. (2015). Diagnostisches Entscheiden im medizinischen Setting – Modelltestung anhand des Entscheidungsspiels „Dr. Tweak“. Unveröffentlichte Masterarbeit, Universität Zürich. Huber, O., Wider, R. & Huber, O. W. (1997). Active information search and complete information presentation in naturalistic risky decision tasks. Acta Psychologica, 95, 15 – 29. Hung, K.-T. & Tangpong, C. (2010). General risk propensity in multifaceted business decisions: Scale development. Journal of Managerial Issues, XXII, 88 – 106. Jasper, F. & Ortner, T. M. (2014). The tendency to fall for distracting information while making judgments development and validation of the objective heuristic thinking test. European Journal of Psychological Assessment, 30, 193 – 207. Jekel, M. (2012). Validierung des Desired Level of Confidence. Unveröffentlichte Dissertation, Rheinische Friedrich-WilhelmsUniversität Bonn. Killgore, W. D. S., Grugle, N. L., Killgore, D. B. & Balkin, T. J. (2010). Sex differences in self-reported risk-taking propensity on the evaluation of risks scale. Psychological Reports, 106 (3), 1 – 12. Kostopoulou, O. (2010). Uncertainty in medical decisions. In M. W. Kattan (Ed.), Encyclopedia of Medical Decision Making (pp. 1157 – 1160). Los Angeles, LA: SAGE. Lejuez, C. W., Read, J. P., Kahler, C. W., Richards, J. B., Ramsey, S. E., Stuart, G. L. et al. (2002). Evaluation of a behavioural measure of risk taking: The Balloon Analogue Risk Task (BART). Journal of Experimental Psychology, 8(2), 75 – 84. Musch, J., Brockhaus, R. & Bröder, A. (2002). Ein Inventar zur Erfassung von zwei Faktoren sozialer Erwünschtheit. Diagnostica, 48, 121 – 129. Newell, B. R. (2005). Re-visions of rationality? Trends in Cognitive Sciences, 9, 11 – 15. Newell, B. R., Weston, N. J. & Shanks, D. R. (2003). Empirical tests of a fast-and frugal heuristic: Not everyone “takes-the-best”. Organizational Behavior and Human Decision Processes, 91, 82 – 96. Ortner, T. M. & Proyer, R. T. (2015). Objective Personality Tests. In T. M. Ortner & F. J. R. van de Vijver (Eds.), Behavior-Based Assessment in Psychology. Going beyond self-report in the personality, affective, motivation, and social domains (pp. 133 – 149). Boston: Hogrefe Publishing. Ortner, T. M. & van de Vijver, F. J. R. (2015). Assessment beyond self-reports. In T. M. Ortner & F. J. R. van de Vijver (Eds.), Behavior-Based Assessment in Psychology. Going beyond self-report in the personality, affective, motivation, and social domains (pp. 3 – 11). Boston: Hogrefe Publishing. Pak, O. & Mahmood, M. (2015). Impact of personality on risk tolerance and investment decisions. A study on potential investors of Kazakhstan. International Journal of Commerce and Management, 25, 370 – 384. Payne, J. W., Bettman, J. R. & Johnson, E. J. (1993). The adaptive decision maker. Cambridge, MA: Cambridge University Press. Payne, J. W., Bettman, J. R. & Luce, M. F. (1998). Behavioral decision research: An overview. In M.H. Birnbaum (Eds.), Measurement, judgment, and decision making (pp. 303 – 359). San Diego, CA: Academic Press. Pfister, H.-R., Jungermann, H. & Fischer, K. (2017). Die Psychologie der Entscheidung. Eine Einführung (4. Aufl.). Berlin: Springer. © 2018 Hogrefe Verlag


D. Hausmann und J. Stoll, Kurzer Entscheidungs-Test Online zur Erfassung des Entscheidungsverhaltens unter Unsicherheit

Sade, R. M., Stroud, M. R., Levine, J. H. & Fleming, G. A. (1985). Criteria for selection of future physicians. Annals of Surgery, 201, 225 – 230. Schulte-Mecklenbeck, M., Kühberger, A. & Ranyard, R. (2011). A handbook of process tracing methods for decision research. A critical review and user’s guide. New York, NY: Psychology Press. Simon, H. A. (1955). A behavioral model of rational choice. Quarterly Journal of Economics, 69, 99 – 118. Stanovich, K. E. & West, R. F. (1998). Individual differences in rational thought. Journal of Experimental Psychology: General, 127, 161 – 188. Thiele, T. (2009). Risikoverhalten von Investmentfondsmanagern. Wiesbaden: Gabler. Wang, X., Pan, Y., Zhang, K., Sui, Y., Lv, T., Xu, S. et al. (2017). Emotional experience and personality traits influence individual and joint risk-based decision making. Social Behavior and Personality, 45, 881 – 892.

13

Weber, E. U., Blais, A.-R. & Betz, N. E. (2002). A domain-specific risk-attitude scale: Measuring risk perceptions and risk behaviors. Journal of Behavioral Decision Making, 15, 263 – 290. Onlineveröffentlichung: 25. 09. 2018 Dr. phil. Daniel Hausmann Julia Stoll, MSc Angewandte Sozial- und Gesundheitspsychologie Psychologisches Institut Binzmühlestrasse 14 Box 14 8050 Zürich Schweiz d.hausmann@psychologie.uzh.ch

Die systematische Übersicht für Praxis und Forschung Débora B. Maehler / Alexandra Shajek / Heinz Ulrich Brinkmann (Hrsg.)

Diagnostik bei Migrantinnen und Migranten

Débora B. Maehler Alexandra Shajek Heinz Ulrich Brinkmann (Hrsg.)

Ein Handbuch

Diagnostik bei Migrantinnen und Migranten Ein Handbuch

2018, 404 Seiten, € 39,95 / CHF 48.50 ISBN 978-3-8017-2786-4 Auch als eBook erhältlich

Das Handbuch gibt einen Überblick über die Testverfahren, die derzeit für Personen mit Migrationshintergrund in Deutschland vorliegen. Dabei finden neben Instrumenten aus dem Bereich der Pädagogischen und Klinischen Psychologie auch Verfahren Berücksichtigung, die für die Platzierung von Migrantinnen und Migranten auf dem Arbeitsmarkt von Bedeutung sind. Darüber hinaus beinhaltet das Werk Einführungen in testdiagnostische Grundlagen und in die Übersetzung und Adaptation von Messinstrumenten.

www.hogrefe.com

© 2018 Hogrefe Verlag

Diagnostica (2019), 65 (1), 2–13


Originalarbeit

Testgüte einer deutschen Version des Mehrdimensionalen Perfektionismus KognitionsInventars (MPCI-G) Elisabeth Prestele und Christine Altstötter-Gleich Zusammenfassung: Gegenstand der vorliegenden Arbeit ist die Entwicklung einer deutschsprachigen Version des Mehrdimensionalen Perfektionismus Kognitions-Inventars (MPCI-G [G = German]). In einer ersten Studie wurde die faktorielle Validität des MPCI-G überprüft. Auf Basis der Ergebnisse aus Studie 1 wurde der MPCI-G revidiert (MPCI-G-R). In Studie 2 wurden die Reliabilität, faktorielle und Konstruktvalidität des MPCI-G-R untersucht. Die Ergebnisse aus konfirmatorischen Faktorenanalysen, Korrelations- und multiplen Regressionsanalysen sprechen für die Reliabilität, faktorielle und Konstruktvalidität der 3 (korrelierten) Dimensionen perfektionistischer Kognitionen: Personal Standards (PSK), Concern over Mistakes (CMK) und Pursuit of Perfection Kognitionen (PPK). Unter anderem fanden sich differentielle Zusammenhänge der 3 Dimensionen mit dispositionellem Perfektionismus (Perfectionistic Strivings und Concerns), Affekt (schlechte Stimmung und Unruhe), Depressivität und der Zielsetzung für eine bevorstehende Prüfungsphase. Die reliable und valide multidimensionale Erfassung perfektionistischer Kognitionen, die zwischen eher positiven (PSK) und negativen Dimensionen (CMK und PPK) differenziert, stellt eine wertvolle Ergänzung zur Erforschung des dispositionellen Perfektionismus dar, welche das Verständnis dafür fördern kann, wie Dimensionen des dispositionellen Perfektionismus mit psychischem und physischem Wohlbefinden zusammenhängen. Schlüsselwörter: Perfektionismus, Perfektionistische Kognitionen, Affekt, Depressivität, Zielsetzung

Reliability and Validity of the German Multidimensional Perfectionism Cognitions Inventory (MPCI-G) Abstract: The present article describes the development of the German version of the Multidimensional Perfectionism Cognitions Inventory (MPCI-G). In an initial study we investigated the factorial validity of the MPCI-G. Based on the results of Study 1, the MPCI-G was revised (MPCI-G-R). In Study 2 we investigated the reliability, factorial validity, and construct validity of the MPCI-G-R. Results of confirmatory factor analyses as well as correlational and multiple regression analyses supported the 3-factorial structure of the 3 intercorrelated dimensions of perfectionistic cognitions assessed by the MPCI-G-R: personal standards (PSK), concern over mistakes (CMK), and pursuit of perfection cognitions (PPK). Thereby, the three dimensions showed differential associations with dispositional perfectionism (strivings and concerns), affect (unpleasant mood and tense arousal), depression, and goal setting for an imminent examination period. The reliable and valid multidimensional assessment of perfectionistic cognitions, differentiating between positive (PSK) and negative dimensions (CMK and PPK), is a useful supplement to the assessment of dispositional perfectionism in that it can promote the understanding of how dimensions of dispositional perfectionism are associated with psychological and physiological well-being. Keywords: perfectionism, perfectionistic cognitions, affect, depression, goal-setting

Seit Beginn der Erfassung als mehrdimensionales Konstrukt (Frost, Marten, Lahart & Rosenblate, 1990; Hewitt & Flett, 1990, 1991) wurde Perfektionismus meist als Persönlichkeitsdisposition mit zwei Basisdimensionen verstanden: Dem Setzen von und Streben nach extrem hohen Standards (Dispositional Perfectionistic Strivings, DPS) und der kritischen Bewertung des eigenen Verhaltens sowie Sorgen über Konsequenzen des Nicht-Erreichens

dieser Standards (Dispositional Perfectionistic Concerns, DPC; Stoeber & Otto, 2006). Während konsistent negative Effekte der DPC auf Indikatoren psychischer Anpassung berichtet werden, ist die empirische Evidenz zu den Effekten der DPS gemischt (z. B. Altstötter-Gleich & Bergemann, 2006; Bieling, Israeli, Smith & Antony, 2003; Mandel, Dunkley & Moroz, 2015). Befunde zu negativen Effekten der DPS basieren allerdings meist auf bivaria-

Wir bedanken uns bei Dr. Dorota Reis und Dr. Charlotte Ottenstein für wertvolle Kommentare zu früheren Versionen dieses Artikels. Wir bedanken uns bei Julia Auer für ihre Unterstützung bei der Datenerhebung. Diagnostica (2019), 65 (1), 14–25 https://doi.org/10.1026/0012-1924/a000211

© 2018 Hogrefe Verlag


E. Prestele und C. Altstötter-Gleich, Mehrdimensionales Perfektionismus Kognitions-Inventar

ten Zusammenhängen. Werden DPC statistisch kontrolliert, zeigen die DPS vorwiegend nicht-signifikante oder sogar positive Effekte (Hill, Huelsman & Araujo, 2010; Stoeber & Gaudreau, 2017). Vor einigen Jahren wurde die dispositionelle Betrachtungsweise durch einen kognitiven Ansatz ergänzt, der es ermöglicht auch situationsspezifische Prozesse zu berücksichtigen. Aus einem aktivierten perfektionistischen Selbst-Schema ergeben sich demnach perfektionistische Kognitionen über das Bedürfnis hohe Standards zu erreichen und Konsequenzen des Scheiterns (Flett, Hewitt, Blankstein & Gray, 1998). In verschiedenen Studien zeigten sich positive Zusammenhänge zwischen der Häufigkeit perfektionistischer Kognitionen und Indikatoren psychischer Belastung, wie etwa negativem Affekt und Depressivität, die über die dispositionellen Dimensionen hinaus Varianz erklärten (Besser, Flett, Hewitt & Guez, 2008; Flett et al., 2012, 1998; Flett, Newby, Hewitt & Persaud, 2011). In diesen Studien kam das eindimensionale Perfectionism Cognitions Inventory (PCI; Flett et al., 1998) zum Einsatz. Da dispositioneller Perfektionismus als mehrdimensionales Konstrukt konzipiert ist, liegt es jedoch nahe, auch bei perfektionistischen Kognitionen verschiedene Dimensionen zu differenzieren. Kobori und Tanno (2004, zitiert nach Stoeber, Kobori & Tanno, 2010) legten mit dem Multidimensional Perfectionism Cognitions Inventory (MPCI) ein Messinstrument in japanischer Sprache vor, welches die Häufigkeit perfektionistischer Kognitionen auf drei korrelierten Dimensionen erfasst: Personal Standards (PSK), Concern over Mistakes (CMK) und Pursuit of Perfection Kognitionen (PPK). Die PSK-Items beziehen sich auf Gedanken darüber, sich selbst hohe Standards zu setzen, die CMK-Items auf Gedanken über Fehler und damit verbundene negative Konsequenzen und die PPKItems auf solche über das Bedürfnis perfekt zu sein. Die dreifaktorielle Struktur wurde durch konfirmatorische Faktorenanalysen für die japanische und die englische Version des MPCI bestätigt (Stoeber et al., 2010). Alle drei Skalen zeigten gute interne Konsistenzen. Bezogen auf ihre Validität zeigten sich erwartungskonforme Zusammenhänge mit dispositionellem Perfektionismus, negativem Affekt und Depressivität (Kobori & Tanno, 2005; Stoeber, Kobori & Brown, 2014; Stoeber et al., 2010). Während die CMK höher mit den DPC korrelierten als mit den DPS, fand sich das umgekehrte Muster für die PSK. Die PPK korrelierten in vergleichbarer Höhe mit beiden Dimensionen. Darüber hinaus fanden sich moderate bis hohe positive Korrelationen der CMK mit negativem Affekt, geringe bis moderate negative Korrelationen mit positivem Affekt und hohe positive Korrelationen mit Depressivität. Diese Effekte erwiesen sich über dispositionellen Perfektionismus hinaus als inkrementell valide. Im Gegensatz zu den CMK fanden sich für die PSK weni© 2018 Hogrefe Verlag

15

ger negative, zum Teil auch positive Effekte. So wurden moderat positive Korrelationen zwischen den PSK und positivem Affekt, schwache (oder nicht signifikante) positive Korrelationen mit negativem Affekt und nicht signifikante Korrelationen mit Depressivität berichtet. Vergleichbar mit Befunden zu den DPS (Hill et al., 2010; Stoeber & Otto, 2006) zeigten sich bei statistischer Kontrolle der CMK und der PPK negative Effekte der PSK auf negativen Affekt und Depressivität (Kobori & Tanno, 2005; Stoeber et al., 2014). Diese Effekte erwiesen sich über dispositionellen Perfektionismus hinaus als inkrementell valide. Verglichen mit den CMK und den PSK wiesen die PPK eher ambivalente Zusammenhangsmuster auf. Die PPK korrelierten schwach positiv mit negativem und positivem Affekt und moderat positiv mit Depressivität. Im Gegensatz zu den PSK und den CMK erwiesen sich diese Effekte allerdings nicht als inkrementell valide (Stoeber, Kobori & Brown, 2014; Stoeber, Kobori & Tanno, 2010). Insgesamt spricht die empirische Evidenz zur japanischen und englischen Version des MPCI für dessen faktorielle, konvergente, differentielle und inkrementelle Validität sowie Reliabilität und seine Dimensionen erwiesen sich als wertvolle Ergänzung zum dispositionellen Perfektionismus bei der Vorhersage von Affekt und Depressivität.

Fragestellungen und Überblick über die Validierung Gegenstand dieses Beitrags ist die Entwicklung einer deutschsprachigen Version des MPCI (MPCI-G [= German]). Die Items der englischen Version des MPCI (MPCI‐E; Stoeber et al., 2010) wurden von den Autoren ins Deutsche übersetzt. Eine zweisprachige Kollegin übersetzte die Items unabhängig zurück ins Englische. Eine Diskussion über Unstimmigkeiten führte zu einer Version, die in Studie 1 bezüglich ihrer faktoriellen Struktur geprüft wurde. Dazu wurde das MPCI-G in einer Stichprobe aus der Allgemeinbevölkerung erfasst. Basierend auf den Ergebnissen dieser Studie wurde das MPCI-G adaptiert (MPCI‐G‐R) und in Studie 2 an einer Studierendenstichprobe in Bezug auf seine Reliabilität, faktorielle und Konstruktvalidität hin überprüft. Neben den klassischen Kriteriumsvariablen dispositioneller Perfektionismus, Affekt und Depressivität wurde hier auch die Zielsetzung für bevorstehende Prüfungen erfasst. Personen, mit einer Tendenz sich selbst extrem hohe Standards zu setzen (DPS) und Personen, die sich in einem konkreten Zeitraum häufiger Gedanken über ihre eigenen hohen Standards machen (PSK), sollten sich auch für konkrete releDiagnostica (2019), 65 (1), 14–25


16

E. Prestele und C. Altstötter-Gleich, Mehrdimensionales Perfektionismus Kognitions-Inventar

vante Leistungssituationen höhere Ziele setzen als Personen mit geringeren Ausprägungen in DPS und PSK (Bieling et al., 2003; Brown et al., 1999). Bezüglich aller Kriteriumsvariablen wurde darüber hinaus die inkrementelle Validität gegenüber dispositionellem Perfektionismus untersucht. Auswertungsstrategie. Die Daten der beiden Studien wurden online erhoben und zunächst anhand von vier Kriterien auf careless respondents untersucht1 (Meade & Craig, 2012; Niessen, Meijer & Tendeiro, 2016; Tabachnick & Fidell, 2007): Zu kurze Bearbeitungszeiten, Mahalanobis Distanz, Even Odd Consistency Index und Nullvarianz über Items. Die faktorielle Validität des MPCI-G(‐R) wurde mittels konfirmatorischer Faktorenanalysen überprüft. Im R-Paket lavaan (0.5 – 23.1097; Rosseel, 2012) wurde dazu ein robustes Maximum-Likelihood-Schätzverfahren verwendet (MLR; Yuan & Bentler, 1998). Die Bewertung des Modellfits erfolgte anhand folgender Fit-Indizes: χ2/df, SRMR, CFI und RMSEA (Hu & Bentler, 1998; Schermelleh-Engel, Moosbrugger & Müller, 2003). Modellvergleiche wurden über Chi-Quadrat-Differenz-Tests vorgenommen (Satorra & Bentler, 2001). Zur Bestimmung der Reliabilität wurde das tau-kongenerische mit dem restriktiveren essentiell tau-äquivalenten Modell verglichen. Abhängig vom Ergebnis wurde McDonalds ω oder Cronbachs α als Reliabilitätskoeffizient berechnet (Dunn, Baguley & Brunsden, 2014). Die Überprüfung der Konstrukt- und inkrementellen Validität der drei Skalenmittelwerte des MPCI-G-R erfolgte anhand bivariater Korrelationen und multipler Regressionsanalysen. Zur statistischen Absicherung der Differenz abhängiger Korrelationskoeffizienten wurden modifiziert asymptotische 95 % Konfidenzintervalle berechnet (Zou, 2007). Die Daten und Skripte sind auf osf.io verfügbar (osf.io/ d9cdm.). Alle Berechnungen wurden mithilfe von R 3.4.1 durchgeführt.

Studie 1: Zur faktoriellen Validität des MPCI-G Stichprobe und Durchführung Psychologie-Studierende eines Einführungskurses wurden gebeten, den Online-Fragebogen selbst auszufüllen und zusätzlich Freunde und Verwandte zu rekrutieren. Im

1

2

Gegenzug erhielten sie Versuchspersonenstunden. 1 091 Fragebögen wurden komplett ausgefüllt. Nach dem Ausschluss von careless respondents verblieben 941 Personen (63 % weiblich; Alter: Range [13, 84], M = 27.17, SD = 12.43; höchster Bildungsabschluss: 2 % Hauptschule, 15 % Realschule, 71 % Hoch- bzw. Fachhochschulreife, 10 % noch in schulischer Ausbildung, 0.2 % kein Schulabschluss).

MPCI-G Perfektionistische Kognitionen wurden mit dem oben beschriebenen MPCI-G erhoben. Je fünf Items erfassen PSK (z. B. „Es ist wichtig, dass ich mir hohe Standards setze“), CMK (z. B. „Wenn ich versage, würde ich mich wertlos fühlen“) und PPK (z. B. „Ich muss um jeden Preis perfekt sein“). Auf einer vierstufigen Skala (1 = nie, 2 = manchmal, 3 = oft, 4 = immer) sollte die Auftretenshäufigkeit der Gedanken in der zurückliegenden Woche angegeben werden. Items und Instruktion finden sich in Tabelle 1.2

Ergebnisse und Diskussion Konfirmatorische Faktorenanalyse. Zur Prüfung der faktoriellen Validität des MPCI-G wurde die ursprüngliche Stichprobe unter Ausbalancierung des Geschlechts randomisiert in zwei Teilstichproben unterteilt. In der ersten Teilstichprobe (Kalibrierungsstichprobe, N = 471) wurde das angenommene dreifaktorielle Modell überprüft und notwendige Modifikationen exploriert. Das in der Kalibrierungsstichprobe abgeleitete Messmodell wurde dann an der zweiten Teilstichprobe (Validierungsstichprobe, N = 470) validiert. Die Prüfung des dreifaktoriellen Modells an der Kalibrierungstichprobe ergab einen akzeptablen bis marginalen Modellfit, χ2(87) = 370.56, p < .001; CFI = .91; RMSEA = .08, 90 % CI [.08, .09]; SRMR = .06. Die beiden höchsten Modifikationsindizes (MI) gaben Hinweise auf Nebenladungen des PSK-Items 8 („Ich strebe danach, die höchsten Standards zu erreichen.“) auf den Faktoren PPK (MI = 73.13) und CMK (MI = 53.87). Es wurde vermutet, dass die Nebenladung auf den PPK-Faktor an der Formulierung „die höchsten Standards“ liegt, die sehr nahe an der Formulierung „perfekt“ ist, die in den Items des PPK-Faktors überwiegt. Daher wurde in einem modifizierten Modell die Nebenladung des PSK-Items auf den PPK-Faktor zu-

Beschreibung der vier Kriterien und Anzahl ausgeschlossener Teilnehmerinnen und Teilnehmer pro Studie sind im elektronischen Supplement nachzulesen (ESM 1). Neben dem MPCI-G wurden auch dispositioneller Perfektionismus, Affekt und Depressivität erfasst (vgl. Studie 2).

Diagnostica (2019), 65 (1), 14–25

© 2018 Hogrefe Verlag


E. Prestele und C. Altstötter-Gleich, Mehrdimensionales Perfektionismus Kognitions-Inventar

17

Tabelle 1. Items und standardisierte Faktorladungen des modifizierten dreifaktoriellen Modells des MPCI-G (Studie 1) und des MPCI-G-R basierend auf dem dreifaktoriellen Latent-State-Modell mit schwacher Messinvarianz (Studie 2) Studie 1 Subskala und Item

Nr.

Personal Standards Kognitionen (PSK)

Studie 2

Kalibrierung

Validierung

Semester 1

Semester 2 PSK CMK PPK

PSK CMK PPK

PSK CMK PPK

PSK CMK PPK

Je höher mein Ziel, desto besser.

3

.77

.79

.84

.90

Mir hohe Standards zu setzen, ist zu meinem eigenen Wohl.

5

.80

.80

.82

.81

Ich strebe danach, die höchsten Standards zu erreichen.

8

.48

.40

.52

.29

.77

.76

Ich strebe danach, sehr hohe Standards zu erreichen. [adaptiert] Je höher das Ziel, umso herausfordernder.

10

.69

.70

.68

.66

Es ist wichtig, dass ich mir hohe Standards setze.

14

.84

.86

.90

.86

Concern over Mistakes Kognitionen (CMK) Es ist schade, einen Fehler zu machen.

4

.56

.61

.47

.49

Wenn ich einen Fehler mache, fühle ich mich elend.

6

.78

.83

.81

.81

9

.62

.69

.67

.62

Wenn ich das nicht gut machen kann, bedeutet das, dass ich unterdurchschnittlich bin.

Ich gebe mir die Schuld, wenn ich einen Fehler mache.

12

.66

.71

.70

.74

Wenn ich versage, würde ich mich wertlos fühlen.

15

.73

.80

.76

.80

Ich kann nicht zufrieden sein, wenn ich es nicht perfekt mache.

1

.79

.84

.90

.85

Ich muss um jeden Preis perfekt sein.

2

.76

.74

.83

.81

Wenn Dinge nicht perfekt gemacht sind, kann ich nicht zufrieden sein.

7

.80

.81

.88

.82

„Etwas perfekt machen“, macht Sinn.

11

.68

.70

.69

.65

Dinge sollten nicht unvollkommen sein.

13

.58

.59

.65

.62

Pursuit of Perfection Kognitionen (PPK)

Anmerkungen: NKalibrierung = 471; NValidierung = 470; NSemester1 = 104; NSemester2 = 135; MPCI-G = deutschsprachige Version des Mehrdimensionalen Perfektionismus Kognitions-Inventars: MPCI-G-R = revidierte Version des MPCI-G; Nr. = Item-Nummer und Position im Fragebogen. Die dargestellten standardisierten Ladungen basieren auf dem robusten Maximum-Likelihood-Schätzverfahren. Bei der Modellmodifikation (Studie 1) wurde eine Nebenladung des Items Nummer 8 (PSK) auf den PPK-Faktor zugelassen. Die Instruktion lautete folgendermaßen: „Im Folgenden sind eine Reihe von unterschiedlichen Gedanken aufgelistet, die einem hin und wieder durch den Kopf gehen können. Bitte lesen Sie die Gedanken nacheinander sorgfältig durch und geben Sie an, wie oft Ihnen der jeweilige Gedanke in der zurückliegenden Woche gekommen ist.“

gelassen. Dadurch ergab sich ein signifikant verbesserter Modell-Fit, Δχ2(1) = 68.10, p < .001; χ2(86) = 304.83, p < .001; CFI = .93; RMSEA = .07, 90 % CI [.07, .08]; SRMR = .05. Das Verhältnis χ2/df überstieg den als akzeptabel zu bewertenden Wert von 3. Die χ2 Statistik sollte allerdings nicht unabhängig von den anderen Fit-Indizes interpretiert werden (z. B. Cheung & Rensvold, 2002). Eine Exploration möglicher alternativer Modifikationen, um mit den in den MI der Kalibrierungsstichprobe angezeigten Ursachen für den Misfit umzugehen (Item 8 entfernen; Fehlerkovarianzen freisetzen), erbrachte keine vergleichbaren Verbesserungen im Modellfit. Innerhalb der

3

Fehlerkovarianzen, die als mögliche Ursachen für den Misfit angezeigt wurden, ließ sich zudem keine theoretisch sinnvolle Systematik erkennen. So wurde das modifizierte Modell mit einer Doppelladung des Items Nummer 8 auf den Faktoren PSK und PPK beibehalten. Bei der Überprüfung des modifizierten Modells an der Validierungsstichprobe ergab sich ebenfalls ein akzeptabler Modellfit, χ2(86) = 318.89, p < .001; CFI = .93; RMSEA = .08, 90 % CI [.07, .08]; SRMR = .053. An den standardisierten Ladungen (Tabelle 1) kann man erkennen, dass das Item Nummer 8 sowohl auf dem PSK-Faktor als auch auf dem PPK-Faktor substantielle

Eine zusätzliche Exploration der MI der Validierungsstichprobe führte schrittweise zu weiteren Überlappungen zwischen den PSK- und PPKFaktoren. Alternative Modelle, die die Differenzierung komplett aufheben (Faktor 1. Ordnung aller PSK- und PPK-Items oder Faktor 2. Ordnung über PSK- und PPK-Faktoren 1. Ordnung), konnten die empirische Kovarianzstruktur nicht hinreichend abbilden (siehe zusätzliche Analysen unter osf.io/d9cdm).

© 2018 Hogrefe Verlag

Diagnostica (2019), 65 (1), 14–25


18

E. Prestele und C. Altstötter-Gleich, Mehrdimensionales Perfektionismus Kognitions-Inventar

Ladungen aufwies4. Für die anderen Items fanden sich substantielle standardisierte Ladungen auf ihren Faktoren (λPSK = .69 – .86, λCMK = .56 – .83, λPPK = .58 – .84; siehe Tabelle 1) in vergleichbarer Höhe zu denen, die von Stoeber und Kollegen (2010) für den MPCI-E berichtet wurden (λPSK = .66 – .79, λCMK = .55 – .75, λPPK = .67 – .74). Es fanden sich hohe Korrelationen des PPK-Faktors mit den Faktoren PSK (.60/.65, p < .01) und CMK (.79/.78, p < .01) und moderate Korrelationen zwischen den Faktoren PSK und CMK (.38/.44, p < .01; vgl. Stoeber et al., 2010). Die Ergebnisse zeigten, dass eine dreifaktorielle Einfachstruktur des MPCI-G nicht angenommen werden konnte. Ein alternatives Messmodell mit Doppelladung des Items Nummer 8 auf den Faktoren PSK und PPK ergab zwar einen akzeptablen Fit, impliziert allerdings eine Überschneidung zwischen den Subskalen, die messtheoretisch als problematisch einzustufen ist. Eine einfache Skalenbildung (z. B. Skalenmittelwert) wäre in einem solchen Fall nicht gerechtfertigt. Das Ziel der zweiten Studie war die Überarbeitung des MPCI-G, um die angenommene dreifaktorielle Einfachstruktur herauszuarbeiten und die Konstruktvalidität der revidierten Skala zu überprüfen.

Studie 2: Befunde zur revidierten Version des MPCI-G Basierend auf den Ergebnissen aus Studie 1 wurde der MPCI-G revidiert (MPCI-G-R): Zum einen wurde die Formulierung des PSK-Items 8 („Ich strebe danach, die höchsten Standards zu erreichen“) verändert. Mit „Ich strebe danach, sehr hohe Standards zu erreichen“ wurde eine moderatere Formulierung gewählt. Zum anderen wurde die ursprünglich vierstufige Häufigkeitsskala durch eine sechsstufige ersetzt (1 = nie, 2 = selten, 3 = manchmal, 4 = häufiger, 5 = oft, 6 = sehr oft). Diese Änderung sollte eine differenziertere Einschätzung der Häufigkeit perfektionistischer Kognitionen im Alltag ermöglichen (vgl. fünfstufiges Antwortformat des PCI; Flett et al., 1998) und eine uneindeutige mittlere Antwortkategorie vermeiden (Kulas & Stachowski, 2013). Die faktorielle Validität des MPCI-G-R wurde an einer studentischen Stichprobe geprüft. An einer Teilstichprobe wurde darüber hinaus die Konstruktvalidität der drei Subskalen in Zusammenhang mit dispositionellem Perfektionismus, Affekt und Depressivität untersucht. Zusätzlich zu diesen klassischen

4

Kriteriumsvariablen, wurde die Zielsetzung für eine anstehende Prüfungsphase erfasst. Diese sollte positiv mit DPS bzw. PSK korrelieren (Bieling et al., 2003; Brown et al., 1999).

Stichproben und Durchführung Die Teilnehmenden der Studie wurden in einem Psychologie-Einführungskurs rekrutiert. Die Daten der ersten Teilstichprobe (N = 105) wurden online gegen Ende des ersten Semesters erfasst, die der zweiten Teilstichprobe (N = 143) am Ende des zweiten Semesters. Durch ihre Teilnahme erwarben die Studierenden Versuchspersonenstunden. Nach dem Ausschluss von careless respondents bestand die erste Teilstichprobe aus 104 Studierenden (80 % weiblich; Alter: Range [18, 47], M = 21.7, SD = 5.0) und die zweite Teilstichprobe aus 135 Teilnehmern (81 % weiblich; Alter: Range [18, 47], M = 21.92, SD = 5.27). Etwa 60 % der Studierenden nahmen an beiden Befragungen teil.

Instrumente Dispositioneller Perfektionismus. Die DPS wurden mit sechs Items der Skala Hohe Standards der Almost Perfect Scale Revised (APS-R; Slaney, Rice, Mobley, Trippi, & Ashby, 2001; z. B. „Ich habe ein starkes Bedürfnis danach, ausgezeichnete Leistungen zu erbringen“) erfasst, die DPC mit sechs Items der Skala Fehlersensibilität der Mehrdimensionalen Perfektionismusskala (MPS-F; Frost et al., 1990; deutsche Version: Altstötter-Gleich & Bergemann, 2006; z. B. „Wenn ich bei der Arbeit bzw. in der Schule versage, bin ich als Mensch ein Versager“). Das Antwortformat war sechsstufig (1 = trifft überhaupt nicht zu; 6 = trifft voll und ganz zu). Die Skalen gelten als reliable und valide Indikatoren für DPS und DPC (z. B. Frost, Heimberg, Holt, Mattia & Neubauer, 1993; Slaney et al., 2001). Affekt. Affekt wurde mit den Skalen Gute-Schlechte Stimmung und Ruhe-Unruhe des Mehrdimensionalen Befindlichkeitsfragebogens erfasst (MDBF; Steyer, Schwenkmezger, Notz & Eid, 1997). Die Probandinnen und Probanden sollten angeben, wie sie sich „während der zurückliegenden Woche“ gefühlt haben. Die jeweils acht Adjektive wurden für diese Studie so umkodiert, dass hohe Skalenwerte für schlechte Stimmung (z. B. „schlecht“) bzw. Unruhe (z. B. „nervös“) stehen.

Ein Modellvergleich ergab, dass das Item 8 in der Validierungsstichprobe eine signifikant höhere Ladung auf den PSK- als auf den PPK-Faktor aufwies, während dieser Unterschied in der Kalibrierungsstichprobe nicht signifikant war, Δχ2(1) = 6.56/0.90, p = .01/.34.

Diagnostica (2019), 65 (1), 14–25

© 2018 Hogrefe Verlag


E. Prestele und C. Altstötter-Gleich, Mehrdimensionales Perfektionismus Kognitions-Inventar

Depressivität. Depressivität wurde mit dem vereinfachten Beck-Depressions-Inventar gemessen (BDI-V; Schmitt & Maes, 2000). Auf einer sechsstufigen Skala (1 = nie; 6 = fast immer) gaben die Teilnehmenden an, wie häufig sie jedes von den 20 Symptomen erleben (z. B. „Ich bin müde und lustlos“). Zielsetzung. Als Maß für die Ziele, die sich die Studierenden für die anstehende Prüfungsphase setzten, wurden im zweiten Semester die geplanten Prüfungen erfragt und jeweils erhoben, welche Note die Studierenden bestenfalls erwarteten und welche Note sie für sich gerade noch akzeptabel fänden (nach Bieling et al., 2003). Für die obere Grenze der Zielsetzung wurde über die mit bestenfalls angegebenen Noten gemittelt, für die untere Grenze die akzeptablen Noten. Die Notenskala wurde so umkodiert, dass höhere Skalenwerte für eine bessere Note stehen (Note 6.0 = 1; Note 1.0 = 16).

Ergebnisse und Diskussion Konfirmatorische Faktorenanalyse. Aufgrund der überlappenden Teilstichproben ergab sich die Möglichkeit, die faktorielle Validität des MPCI-G-R nicht nur zu einem Messzeitpunkt zu überprüfen, sondern die einfache CFA zu einer Latent-State-Analyse zu erweitern (Steyer, Majcen, Schwenkmezger & Buchner, 1989). Dabei wurde für die zwei Messzeitpunkte jeweils ein dreifaktorielles Messmodell spezifiziert. Zusätzlich wurden Autokorrelationen zwischen den Residuen der gleichen Items über die Zeit zugelassen (Little, 2013). Um mit fehlenden Daten umzugehen, wurde die Full-Information-Maximum-LikelihoodMethode verwendet. Die Fit-Indizes des dreifaktoriellen Modells sprachen für einen guten bis akzeptablen Fit des tau-kongenerischen Modells, χ2(375) = 577.35, p < .001; CFI = .91; RMSEA = .06, 90 % CI [.05, .07]; SRMR = .08, vergleichbar mit dem Fit des dreifaktoriellen Modells des MPCI-E (Stoeber et al., 2010). In einem zweiten Schritt wurde geprüft, ob schwache Messinvarianz über die Zeit angenommen werden kann, damit Korrelationen zwischen den States als Stabilität interpretiert werden können (Meredith, 1993). Nach einem Modellvergleich konnte das Modell mit gleichen Ladungen beibehalten werden, Δχ2(12) = 5.36; p = .945. Die Items des MPCI-G-R zeigten zu beiden Messzeitpunkten substantielle standardisierte Ladungen auf ihren Faktoren (λPSK = .66 – .90, λCMK = .47 – .81, λPPK = .62–.90; siehe Tabelle 1). Ein Vergleich mit dem essentiell tau-äquivalenten Messmodell sprach für das tau-kongenerische Modell, Δχ2(24) = 101.51, p < .001. Zu beiden Messzeitpunkten fanden sich hohe Korrelationen des PPK-Faktors mit den Faktoren PSK (rt1 = .59, p < .001; rt2 = .57, p < .001) und CMK (rt1 = .57, p < .001; rt2 = .68, p < .001), wohingegen die Korrelationen zwi© 2018 Hogrefe Verlag

19

schen den Faktoren PSK und CMK geringer und zum ersten Messzeitpunkt nicht signifikant waren (rt1 = .11, n. s.; rt2 = .31, p = .013). Diese Korrelationen waren vergleichbar mit den latenten Korrelationen, die für die Faktoren des MPCI-E berichtet wurden (Stoeber et al., 2010). Darüber hinaus fanden sich hohe Test-Retest Korrelationen der drei Faktoren des MPCI-G-R über den Zeitraum von einem halben Jahr (rPSK = .76, p < .001; rCMK = .75; p = .003; rPPK = .77, p < .001). Sie implizieren eine hohe Stabilität perfektionistischer Kognitionen, die auf Basis manifester Test-Retest Korrelationen über einen Zeitraum von drei Wochen auch für die japanischen MPCIOriginalversion gefunden wurde (Kobori, 2006 zitiert nach Stoeber et al., 2010). Konstruktvalidität. Die bivariaten Korrelationen, deskriptiven Statistiken und Reliabilitätskoeffizienten der Skalen, die zur Konstruktvalidierung herangezogen wurden (zweite Teilstichprobe), sind in Tabelle 2 zusammengefasst. Der Range zeigt, dass die neue sechsstufige Antwortskala ausgenutzt wurde. Zusätzlich fand sich eine annähernd symmetrische Verteilung über hohe und niedrige Skalenwerte der PSK und der CMK (Schiefe: -0.18 bzw. 0.29, beide n. s.). Nur die PPK-Skala zeigte eine positive Schiefe (0.39, p = .032). Differentielle Zusammenhänge mit dispositionellem Perfektionismus, Affekt, Depressivität und Zielsetzung sprechen für die Konstruktvalidität der Skalenmittelwerte. Vergleichbar zu den Ergebnissen zum MPCI-E (Stoeber et al., 2010) korrelierten die PSK stärker mit den DPS als mit den DPC. Die Differenz der Korrelationen war signifikant von 0 verschieden (95 % CI [0.29, 0.60]). Umgekehrt korrelierten die CMK höher mit den DPC als mit den DPS (95 % CI [‐0.56, -0.26]). Die PPK korrelierten in vergleichbarer Höhe mit den DPS und den DPC (95 % CI [‐0.16, 0.13]). Die CMK und die PPK korrelierten moderat bis hoch positiv mit schlechter Stimmung, Unruhe und Depressivität (rCMK = .50/.43/.54, p < .001; rPPK = .33/.31/.40, p < .001), wohingegen sich keine signifikanten Korrelationen zwischen den PSK und diesen Kriteriumsvariablen fanden. Im direkten Vergleich zeigte sich, dass die Korrelationen, die für den MPCI (Kobori & Tanno, 2004, 2005) und den MPCI-E (Stoeber, Kobori & Brown, 2014; Stoeber, Kobori & Tanno, 2010) in studentischen Stichproben berichtet wurden, in den Konfidenzintervallen der in dieser Studie gefundenen Korrelationen liegen. Darüber hinaus zeigten die PSK und die DPS positive Zusammenhänge mit der unteren Grenze der Zielsetzung: Je höher die DPS und je häufiger PSK erlebt wurden, umso höher lagen die Noten, die die Studierenden gerade noch akzeptabel fanden. Für die obere Grenze der Zielsetzung fand sich dieser Zusammenhang nur für DPS. Die Ergebnisse der multiplen Regressionsanalysen zur Überprüfung der spezifischen Effekte der drei Subskalen Diagnostica (2019), 65 (1), 14–25


1

Diagnostica (2019), 65 (1), 14–25

.51** [.38, .63]

(3) Pursuit of Perfection

.26** [.09, .41]

(5) Perfectionistic Concerns

.10 [‐.07, .26]

.03 [‐.14, .19]

(7) Unruhe

(8) Depressivität

3.72

1.12

M

SD .91

.82

1.11

3.05

5.80

1.00

.08 [‐.09, .25]

.02 [‐.15, .19]

.54** [.41, .65]

.43** [.29, .56]

.50** [.36, .62]

.72** [.63, .79]

.32** [.16, .46]

.56** [.43, .67]

2

.84

1.14

2.67

5.40

1.00

.14 [‐.03, .31]

.16 [‐.01, .32]

.40** [.25, .53]

.31** [.15, .45]

.33** [.17, .47]

.57** [.45, 68]

.56** [.43, .67]

3

.85

α

0.80

4.49

6.00

2.50

.37** [.21, .51]

.34** [.18, .48]

.07 [‐.10, .23]

.21* [.05, .37]

.08 [‐.09, .24]

.41** [.26, .55]

4

.85

0.94

2.58

5.67

1.00

.14 [‐.03, .30]

.11 [‐.06, .27]

.53** [.39, .64]

.28** [.12, .43]

.35** [.19, .49]

5

.94

0.87

2.56

4.62

1.00

-.04 [‐.16, .18]

-.09 [‐.26, .08]

.57** [.44, .67]

.75** [.67, .82]

6

.93

0.90

3.17

5.00

1.00

.01 [‐.16, .18]

-.04 [‐.21, .13]

.41** [.26, .55]

7

.92

0.78

2.29

4.45

1.05

.01 [‐.16, .18]

-.01 [‐.18, .16]

8

0.95

13.72

15.00

9.00

.62** [.50, .72]

9

1.61

10.15

14.00

4.00

10

Anmerkungen: N = 135. α = Cronbachs Alpha; ω = McDonalds Omega. MPCI-G-R = revidierte deutschsprachige Version des Mehrdimensionalen Perfektionismus Kognitions-Inventars. ** p < .01; * p < .05.

ω/α

6.00

Maximum

ω

1.20

.28** [.11, .43]

(10) untere Grenze

Minimum

.17 [.00, .33]

(9) obere Grenze

Zielsetzung

.00 [‐.17, .17]

(6) Schlechte Stimmung

Affekt und Depressivität

.70** [.60, .78]

(4) Perfectionistic Strivings

Dispositioneller Perfektionismus

.26** [.10, .42]

(2) Concern over Mistakes

(1) Personal Standards

Perfektionistische Kognitionen (MPCI-G-R)

Skala

Tabelle 2. Bivariate Korrelationen, Konfidenzintervalle, Range, Mittelwerte, Standardabweichungen und Reliabilitätskoeffizienten der Skalenwerte aus Studie 2 (Semester 2)

20 E. Prestele und C. Altstötter-Gleich, Mehrdimensionales Perfektionismus Kognitions-Inventar

© 2018 Hogrefe Verlag


© 2018 Hogrefe Verlag .18

.49** .21

0.39 .09 0.16 .08

Concern over Mistakes

.46**

.25

.15

R2

SE

.20

β

.18

.23*

.12

.13

.38**

.35**

.12

.46**

0.31 .08

0.07 .08

.38**

.09

-0.06 .08 -.08

0.28 .08

0.10 .09

0.38 .10

-0.14 .09 -.17

-0.15 .12 -.15

0.20 .13

.22

0.23 .09

0.13 .10

.09

0.10 .08

0.31 .08

-0.05 .07 -.07

B

Unruhe

.19

.10

R2

SE

.34

β

.26**

.45**

.60**

.30**

.52**

.24*

.28**

0.32 .06

0.10 .06

.46**

.14

-0.17 .06 -.24**

0.36 .06

0.16 .07

0.20 .07

-0.07 .07 -.10

0.25 .09

-0.20 .10 -.21*

.39

0.50 .07

-0.18 .08 -.18*

.31

0.18 .07

0.32 .06

-0.16 .06 -.23**

B

Depressivität

.30

.20

R2

SE

.02

.28**

.08

β

.37**

.08

.06

.37**

0.01 .15

0.20 .15

0.40 .14

.00

.14

.28**

-0.00 .14 -.00

-0.19 .17 -.13

-0.03 .18 -.02

0.12 .17

0.11 .22

0.76 .25

.15

-0.02 .15 -.01

0.77 .18

.14

-0.01 .16 -.01

0.03 .15

0.40 .14

B

Zielsetzung (untere Grenze)

.02

.08

R2

SE

.12

.04

β

.36**

.15

.43** .04

.21*

.12

.10

.01

-0.09 .09 -.10

0.18 .09

0.10 .09

0.08 .08

0.01 .10

-0.11 .11 -.12

-0.10 .10 -.12

0.04 .13

0.53 .15

.13

-0.03 .09 -.03

0.43 .11

.12

0.12 .10

-0.08 .09 -.09

0.10 .09

B

Zielsetzung (obere Grenze)

.03

.04

R2

Anmerkungen: N = 135. MPCI-G-R = revidierte deutschsprachige Version des Mehrdimensionalen Perfektionismus Kognitions-Inventars. Signifikanzniveaus für die unstandardisierten Koeffizienten B entsprechen denen der standardisierten Koeffizienten β. ** p < .01; * p < .05.

0.05 .07 0.36 .07

Pursuit of Perfection

Concern over Mistakes

.07

-0.18 .07 -.23*

Personal Standards

Modell E2

0.34 .07

Pursuit of Perfection

Modell E1

Explorative Modelle zu spezifischen Effekten der Pursuit of Perfection Kognitionen .45**

-0.15 .08 -.19

Personal Standards

Pursuit of Perfection

-0.06 .11 -.06

Perfectionistic Concerns

.29 -0.04 .12 -.04

Perfectionistic Strivings

Modell 2: Dispositioneller Perfektionismus & MPCI-G-R

0.35 .08

Perfectionistic Concerns

.38**

-0.09 .10 -.08

Perfectionistic Strivings

.12

0.14 .08

Modell 1b: Dispositioneller Perfektionismus

Pursuit of Perfection

.45**

0.36 .07

.29

β

Concern over Mistakes

SE

-0.17 .07 -.21*

B

Personal Standards

Modell 1a: MPCI-G-R

Hypothesenprüfende Modelle

Modell, Variable

Schlechte Stimmung

Tabelle 3. Multiple Regression schlechter Stimmung, Unruhe, Depressivität und Zielsetzung auf dispositionellen Perfektionismus und perfektionistische Kognitionen in Studie 2 (Semester 2)

E. Prestele und C. Altstötter-Gleich, Mehrdimensionales Perfektionismus Kognitions-Inventar 21

Diagnostica (2019), 65 (1), 14–25


22

E. Prestele und C. Altstötter-Gleich, Mehrdimensionales Perfektionismus Kognitions-Inventar

des MPCI-G-R (Modell 1a) und zu deren inkrementellen Validität gegenüber dem dispositionellen Perfektionismus (Modell 2 und Vergleichsmodell 1b) finden sich im oberen Teil der Tabelle 3. In Modell 1a zeigten sich konsistent moderate bis stark positive spezifische Effekte der CMK auf schlechte Stimmung, Unruhe und Depressivität (vgl. Stoeber, Kobori & Brown, 2014; Stoeber, Kobori & Tanno, 2010). Je häufiger die Teilnehmenden in der vergangenen Woche CMK erlebten, desto schlechter war ihre Stimmung, desto stärker ihre Unruhe und desto häufiger wurden depressive Symptome erlebt. Diese Effekte waren auch dann signifikant, wenn dispositioneller Perfektionismus kontrolliert wurde. Im Gegensatz dazu fanden sich kleine spezifische negative Effekte der PSK in Zusammenhang mit schlechter Stimmung und Depressivität (vgl. Stoeber, Kobori & Brown, 2014; Stoeber, Kobori & Tanno, 2010). Teilnehmende mit häufigeren PSK berichteten bei konstanter Häufigkeit von PPK und CMK eine bessere Stimmung und eine geringere Häufigkeit depressiver Symptome als Teilnehmende mit weniger häufigen PSK. Diese Effekte waren über DPS und DPC hinaus allerdings nicht inkrementell valide. Auch der Effekt der PSK auf die untere Grenze der Zielsetzung war nicht mehr signifikant, wenn DPS und DPC kontrolliert wurden. Die Effekte der PPK sollten theoretisch zwischen denen der PSK und der CMK liegen (Stoeber et al., 2010). Wie in anderen Studien zum MPCI(‐E) zeigen auch unsere Ergebnisse, dass die PPK nur noch vereinzelt spezifische Effekte aufweisen (Depressivität), wenn die CMK und die PSK in multiplen Regressionsanalysen kontrolliert wurden (vgl. Stoeber, Kobori & Brown, 2014; Stoeber, Kobori & Tanno, 2010). Um besser einschätzen zu können worin die Überschneidungen der PPK mit den CMK und den PSK liegen, wurden zusätzlich zu den hypothesenprüfenden Regressionsmodellen zwei explorative Modelle geprüft, bei denen die PPK jeweils nur für eine der beiden anderen Subskalen PSK bzw. CMK kontrolliert wurden (Tabelle 3). Im Vergleich zu den bivariaten Korrelationen zeigte Modell E1, dass die Effekte der PPK stärker zutage treten, wenn für die PSK kontrolliert wurde. Zugleich binden die PPK nachteilige Varianz in den PSK, sodass diese negative spezifische Zusammenhänge mit schlechter Stimmung und Depressivität aufweisen. Im Gegensatz dazu zeigt Modell E2, dass die Effekte der PPK deutlich geringer ausfielen, wenn für die CMK kontrolliert wurde. Eine Ausnahme stellt die obere Grenze der Zielsetzung dar. Bei konstanten CMK setzten sich Personen mit häufigeren PPK höhere Ziele. Die standardisierten Partialregressionskoeffizienten der CMK fielen etwas geringer aus als die Korrelationen mit den affektiven Kriterien. Die PPK haben also auch einen Teil der nachteiligen Varianz der CMK gebunden. Diagnostica (2019), 65 (1), 14–25

Gesamtdiskussion Das MPCI erfasst die Häufigkeit perfektionistischer Kognitionen auf drei Dimensionen: Gedanken darüber, sich selbst sehr hohe Standards zu setzen (PSK), Gedanken über Fehler und damit verbundene negative Konsequenzen (CMK) und Gedanken über das Bedürfnis perfekt zu sein (PPK; Stoeber et al., 2010). Die multidimensionale Erfassung perfektionistischer Kognitionen soll es ermöglichen situationsspezifische Effekte, die mit dem dispositionellen Perfektionismus verbunden sind, differenzierter zu untersuchen als das mit bisher vorliegenden eindimensionalen Messinstrumenten möglich ist. Die empirisch belegte dreifaktorielle Einfachstruktur des MPCI(‐E) wurde in Studie 1 zunächst an einer Kalibrierungsstichprobe exploriert und anschließend an einer Validierungsstichprobe validiert. Dabei zeigte sich, dass ein akzeptabler Modell-Fit nur erreicht werden konnte, indem eine Doppelladung eines PSK-Items auf den PPK-Faktor zugelassen wurde. Aufgrund dieses messtheoretisch problematischen Befunds wurde für Studie 2 der Wortlaut des Items geändert. Dabei wurde davon ausgegangen, dass eine moderatere Formulierung des PSK-Items von „den höchsten“ zu „sehr hohe[n]“ Standards dazu beiträgt, das eher positive Streben nach hohen Standards vom eher negativen unbedingten Streben nach Perfektion abzugrenzen (vgl. Blasberg, Hewitt, Flett, Sherry & Chen, 2016). Zusätzlich wurde das ursprünglich vierstufige Antwortformat auf ein sechsstufiges erweitert. An einer studentischen Stichprobe konnte die dreifaktorielle Einfachstruktur des so revidierten MPCI-G-R mit einem guten bis akzeptablen Modellfit bestätigt werden (vgl. Stoeber et al., 2010). Die drei Subskalen wiesen zufriedenstellende Reliabilitäten auf. In Studie 2 wurde darüber hinaus die Konstruktvalidität des MPCI-G-R in Zusammenhang mit dispositionellem Perfektionismus, Affekt, Depressivität und Zielsetzung für eine anstehende Prüfungsphase überprüft. Um die Spezifität der einzelnen Subskalen näher zu untersuchen, wurden neben bivariaten auch multivariate Zusammenhänge betrachtet. Konzeptuell stellen die CMK mit ihrem Fokus auf Fehler und deren Konsequenzen einen zentralen Indikator der DPC auf kognitiver Ebene dar (Kobori & Tanno, 2005; Stoeber, Kobori & Brown, 2014; Stoeber, Kobori & Tanno, 2010). In Studie 2 konnte dies bestätigt werden. Neben konsistent stärkeren Zusammenhängen der CMK mit den DPC als mit den DPS fanden sich auch hohe bivariate Zusammenhänge mit schlechter Stimmung, Unruhe und Depressivität. Diese traten in multiplen Regressionsanalysen noch deutlicher zutage und waren über den dispositionellen Perfektionismus hinaus inkrementell valide. Der Fokus der PSK auf das Streben nach sehr hohen Standards und damit verbundenen positiven Konsequen© 2018 Hogrefe Verlag


E. Prestele und C. Altstötter-Gleich, Mehrdimensionales Perfektionismus Kognitions-Inventar

zen verweist auf die konzeptuelle Nähe zu den DPS (Kobori & Tanno, 2005; Stoeber, Kobori & Brown, 2014; Stoeber, Kobori & Tanno, 2010). Auch dies konnte empirisch bestätigt werden: Die PSK zeigten stärkere Zusammenhänge mit den DPS als mit den DPC und die am wenigsten nachteiligen Zusammenhänge mit Affekt und Depressivität. Die Ergebnisse multipler Regressionsanalysen legten darüber hinaus nahe, dass die beiden anderen Dimensionen des MPCI-G-R nachteilige Varianz der PSK binden und positive Effekte zutage treten, wenn die PPK und die CMK statistisch kontrolliert werden. Damit wurde auf Ebene perfektionistischer Kognitionen ein Effekt bestätigt, der wiederholt auf der Ebene des dispositionellen Perfektionismus berichtet wurde (Hill et al., 2010; Stoeber & Gaudreau, 2017; Stoeber & Otto, 2006) und sich auch auf der Ebene perfektionistischer Kognitionen abzeichnete (Kobori & Tanno, 2005; Stoeber, Kobori & Brown, 2014; Stoeber, Kobori & Tanno, 2010). Diese Effekte waren allerdings über den dispositionellen Perfektionismus hinaus nicht inkrementell valide. Die PPK erfassen das Bedürfnis nach Perfektion, das im eindimensionalen PCI zentral war (Flett & Hewitt, 2014; Flett et al., 1998). Auf Ebene des dispositionellen Perfektionismus konnten Blasberg und Kollegen (2016) zeigen, dass das Streben nach Perfektion deutlich negativere Effekte hat als das Streben nach hohen Standards (vgl. PSK), das mit Items der High Standards Subskala des APS-R erfasst wird (Slaney et al., 2001). So sollten auch die Zusammenhänge der PPK mit den untersuchten Kriteriumsvariablen in ihrer Stärke zwischen den PSK und den CMK liegen (Stoeber, Kobori & Brown, 2014; Stoeber, Kobori & Tanno, 2010). Mit diesen Erwartungen konform, fanden sich neben moderaten positiven Korrelationen mit den DPS und den DPC, nachteiligere Effekte als für die PSK, aber weniger nachteilige Effekte als für die CMK. Dass die PSK und die PPK unterschiedliche Aspekte perfektionistischer Kognitionen erfassen, zeigten auch die explorativen Regressionsanalysen: Wurden die PSK und die PPK gemeinsam als Prädiktoren berücksichtigt, traten die nachteiligen Effekte der PPK noch stärker zu Tage und erreichten in etwa die Stärke der CMK. Gleichzeitig wurden adaptive Effekte der PSK sichtbar. Um die Frage nach der spezifischen prädiktiven Validität der PPK zu klären, sollte in künftigen Studien untersucht werden unter welchen Umständen und für welche Kriteriumsvariablen die PPK einen inkrementellen Erklärungsbeitrag über die CMK leisten können. So wird zum Beispiel im Rahmen des Modells zum klinisch relevanten Perfektionismus (Shafran, Cooper & Fairburn, 2002) angenommen, dass die Tendenz, an Ansprüchen auch dann festzuhalten, wenn negative Konsequenzen für das eigene Wohlbefinden erlebt werden, als besonders problematisch einzustufen ist. Diese Annahme wird durch unsere © 2018 Hogrefe Verlag

23

Analysen gestützt, wonach die PPK nach der statistischen Kontrolle der CMK mit einer höheren Zielsetzung (obere Grenze) einherging. Vor dem Hintergrund der berichteten Befunde lässt sich die Aussage, die Stoeber und Gaudreau (2017) auf der Ebene des dispositionellen Perfektionismus getroffen haben, auf die Ebene perfektionistischer Kognitionen erweitern: Um das Verständnis für die komplexen Effekte des dispositionellen Perfektionismus und perfektionistischer Kognitionen auf Indikatoren psychischer Anpassung voranzubringen, ist es wichtig sowohl bivariate als auch multivariate Zusammenhänge zu berücksichtigen und differenziert zu interpretieren. Der Vorteil der multidimensionalen Erfassung perfektionistischer Kognitionen liegt darin, auch spezifische Effekte der verschiedenen Dimensionen unter diversen Rahmenbedingungen (Stichproben von Personen und Situationen) untersuchen zu können. Insgesamt sprechen die Ergebnisse der zweiten Studie für die Reliabilität, faktorielle und Konstruktvalidität des MPCI-G-R. Insbesondere die Ergebnisse zur inkrementellen Validität machen deutlich, dass die multidimensionale Erfassung perfektionistischer Kognitionen mit dem MPCI-G-R, eine wertvolle Ergänzung zur Erforschung des dispositionellen Perfektionismus darstellt (Stoeber, Kobori & Brown, 2014; Stoeber, Kobori & Tanno, 2010). Die Erforschung der kognitiven Manifestation des dispositionellen Perfektionismus kann das Verständnis dafür erweitern, wie die Dimensionen des dispositionellen Perfektionismus mit psychischem und physischem Wohlbefinden und konkreten Zielsetzungen in Zusammenhang stehen und bietet dabei mögliche Ansatzpunkte für kognitiv orientierte Interventionsstrategien, die in der kognitiven Verhaltenstherapie erfolgreich umgesetzt werden (Besser et al., 2008; Flett et al., 2011). Eine Einschränkung bei der Interpretation der Befunde ergibt sich aus der Stichprobe der Studie 2. Während das MPCI-G in Studie 1 an einer großen Stichprobe aus der Allgemeinbevölkerung untersucht wurde, stammen die Daten zum MPCI-G-R aus kleineren Studierendenstichproben mit einem hohen Anteil Teilnehmerinnen. Künftige Studien sollten die Ergebnisse an anderen und repräsentativeren Stichproben replizieren. Neben Stichproben von Personen sollten künftige Studien zudem ein Augenmerk darauf legen, welche unterschiedlichen Situationen erfasst werden. Perfektionistische Kognitionen sollen im Gegensatz zu dispositionellem Perfektionismus ein Stateähnliches Konstrukt darstellen: Wird ein perfektionistisches Selbst-Schema in einer Situation aktiviert, entstehen perfektionistische Kognitionen (Kobori & Tanno, 2005; vgl. situation-specific trait; Keith, Hodapp, SchermellehEngel & Moosbrugger, 2003). Unsere Analysen ergaben Hinweise auf eine hohe Stabilität der Subskalen des MPCI-G-R wie sie zuvor auch für den MPCI berichtet Diagnostica (2019), 65 (1), 14–25


24

E. Prestele und C. Altstötter-Gleich, Mehrdimensionales Perfektionismus Kognitions-Inventar

wurde (Kobori, 2006 zitiert nach Stoeber et al., 2010). Ohne Berücksichtigung der Situationen, in denen die Erfassung stattfand, lässt sich allerdings nicht abschließend klären, ob die Stabilität tatsächlich dadurch zustande kommt, dass man ein intrapersonell stabiles Merkmal erfasst (Trait) oder dadurch, dass man Personen wiederholt in gleichen oder ähnlichen Situationen und damit in gleichen Zuständen (States) erfasst (Steyer et al., 1989).

Elektronische Supplemente (ESM) Die elektronischen Supplemente sind mit der OnlineVersion dieses Artikels verfügbar unter https://doi.org/ 10.1026/0012-1924/a000211 ESM 1. Bestimmung von careless respondents. Beschreibung der vier Kriterien und Anzahl ausgeschlossener Teilnehmer pro Studie

Literatur Altstötter-Gleich, C. & Bergemann, N. (2006). Testgüte einer deutschsprachigen Version der Mehrdimensionalen Perfektionismus Skala von Frost, Marten, Lahart und Rosenblate (MPSF). Diagnostica, 52, 105 – 118. https://doi.org/10.1026/00121924.52.3.105 Besser, A., Flett, G. L., Hewitt, P. L. & Guez, J. (2008). Perfectionism, and cognitions, affect, self-esteem, and physiological reactions in a performance situation. Journal of Rational-Emotive and Cognitive-Behavior Therapy, 26, 206 – 228. https://doi. org/10.1007/s10942-007-0067-0 Bieling, P. J., Israeli, A., Smith, J. & Antony, M. M. (2003). Making the grade: The behavioural consequences of perfectionism in the classroom. Personality and Individual Differences, 35, 163 – 178. https://doi.org/10.1016/S0191-8869(02)00173-3 Blasberg, J. S., Hewitt, P. L., Flett, G. L., Sherry, S. B. & Chen, C. (2016). The importance of item wording: The distinction between measuring high standards versus measuring perfectionism and why it matters. Journal of Psychoeducational Assessment, 34, 702 – 717. https://doi.org/10.1177/0734282916653701 Brown, E. J., Heimberg, R. G., Frost, R. O., Makris, G. S., Juster, H. R. & Leung, A. W. (1999). Relationship of perfectionism to affect, expectations, attributions and performance in the classroom. Journal of Social and Clinical Psychology, 18, 98 – 120. https://doi.org/10.1521/jscp.1999.18.1.98 Cheung, G. W. & Rensvold, R. B. (2002). Evaluating goodness-of-fit indexes for testing measurement invariance. Structural Equation Modeling, 9, 233 – 255. https://doi.org/10.1207/S15328007 SEM0902_5 Dunn, T. J., Baguley, T. & Brunsden, V. (2014). From alpha to omega: A practical solution to the pervasive problem of internal consistency estimation. British Journal of Psychology, 105, 399 – 412. https://doi.org/doi:10.1111/bjop.12046 Flett, G. L. & Hewitt, P. L. (2014). The multidimensional assessment of perfectionistic automatic thoughts: A commentary on „Examining mutual suppression effects in the assessment of perfectionism cognitions: Evidence supporting multidimenDiagnostica (2019), 65 (1), 14–25

sional assessment“. Assessment, 21, 661 – 665. https://doi.org/ 10.1177/1073191114553015 Flett, G. L., Hewitt, P. L., Blankstein, K. R. & Gray, L. (1998). Psychological distress and the frequency of perfectionistic thinking. Journal of Personality and Social Psychology, 75, 1363 – 1381. https://doi.org/10.1037/0022-3514.75.5.1363 Flett, G. L., Hewitt, P. L., Demerjian, A., Sturman, E. D., Sherry, S. B. & Cheng, W. (2012). Perfectionistic automatic thoughts and psychological distress in adolescents: An analysis of the perfectionism cognitions inventory. Journal of Rational-Emotive and Cognitive-Behavior Therapy, 30, 91 – 104. https://doi.org/ 10.1007/s10942-011-0131-7 Flett, G. L., Newby, J., Hewitt, P. L. & Persaud, C. (2011). Perfectionistic automatic thoughts, trait perfectionism, and bulimic automatic thoughts in young women. Journal of Rational-Emotive & Cognitive-Behavior Therapy, 29, 192 – 206. https://doi. org/10.1007/s10942-011-0135-3 Frost, R. O., Heimberg, R. G., Holt, C. S., Mattia, J. I. & Neubauer, A. L. (1993). A comparison of two measures of perfectionism. Personality and Individual Differences, 14, 119 – 126. https:// doi.org/10.1016/0191-8869(93)90181-2 Frost, R.O., Marten, P., Lahart, C. & Rosenblate, R. (1990). The dimensions of perfectionism. Cognitive Therapy and Research, 14, 449 – 468. https://doi.org/10.1007/BF01172967 Hewitt, P. L. & Flett, G. L. (1990). Perfectionism and depression: A multidimensional analysis. Journal of Social Behavior and Personality, 5, 423 – 438. Hewitt, P. L. & Flett, G. L. (1991). Perfectionism in the self and social contexts: Conceptualization, assessment, and association with psychopathology. Journal of Personality and Social Psychology, 60, 456 – 470. https://doi.org/10.1037/0022-3514. 60.3.456 Hill, R. W., Huelsman, T. J. & Araujo, G. (2010). Perfectionistic concerns suppress associations between perfectionistic strivings and positive life outcomes. Personality and Individual Differences, 48, 584 – 589. https://doi.org/10.1016/j.paid.2009.12.011 Hu, L. & Bentler, P. M. (1998). Fit indices in covariance structure modeling: Sensitivity to underparameterized model misspecification. Psychological Methods, 3, 424 – 453. https://doi. org/10.1037/1082-989X.3.4.424 Keith, N., Hodapp, V., Schermelleh-Engel, K. & Moosbrugger, H. (2003). Cross-sectional and longitudinal confirmatory factor models for the german test anxiety inventory: A construct validation. Anxiety, Stress & Coping, 16, 251 – 270. https://doi.org/ 10.1080/1061580031000095416 Kobori, O. & Tanno, Y. (2004). Development of Multidimensional Perfectionism Cognition Inventory. The Japanese Journal of Personality, 13, 34 – 43. https://doi.org/10.2132/personality.13.34 Kobori, O. & Tanno, Y. (2005). Self-oriented perfectionism and its relationship to positive and negative affect: The mediation of positive and negative perfectionism cognitions. Cognitive Therapy and Research, 29, 555 – 567. https://doi.org/.1007/ s10608-005-2835-4 Kulas, J. T. & Stachowski, A. A. (2013). Respondent rationale for neither agreeing nor disagreeing: Person and item contributors to middle category endorsement intent on Likert personality indicators. Journal of Research in Personality, 47, 254 – 262. https://doi.org/10.1016/j.jrp.2013.01.014 Little, T. D. (2013). Longitudinal structural equation modeling. New York: Guilford Press. Mandel, T., Dunkley, D. M. & Moroz, M. (2015). Self-critical perfectionism and depressive and anxious symptoms over 4 years: The mediating role of daily stress reactivity. Journal of Counseling Psychology, 62, 703 – 717. https://doi.org/10.1037/cou0000101

© 2018 Hogrefe Verlag


E. Prestele und C. Altstötter-Gleich, Mehrdimensionales Perfektionismus Kognitions-Inventar

Meade, A. W. & Craig, S. B. (2012). Identifying careless responses in survey data. Psychological Methods, 17, 437 – 455. https:// doi.org/10.1037/a0028085 Meredith, W. (1993). Measurement invariance, factor analysis and factorial invariance. Psychometrika, 58, 525 – 543. https://doi. org/10.1007/BF02294825 Niessen, A. S. M., Meijer, R. R. & Tendeiro, J. N. (2016). Detecting careless respondents in web-based questionnaires: Which method to use? Journal of Research in Personality, 63, 1 – 11. https://doi.org/10.1016/j.jrp.2016.04.010 Rosseel, Y. (2012). Lavaan: An R package for structural equation modeling. Journal of Statistical Software, 48 (2), 1 – 36. Satorra, A. & Bentler, P. M. (2001). A scaled difference chi-square test statistic for moment structure analysis. Psychometrika, 66, 507 – 514. https://doi.org/10.1007/BF02296192 Schermelleh-Engel, K., Moosbrugger, H. & Müller, H. (2003). Evaluating the fit of structural equation models: Tests of significance and descriptive goodness-of-fit measures. Methods of Psychological Research Online, 8 (3), 23 – 74. Schmitt, M. & Maes, J. (2000). Vorschlag zur Vereinfachung des Beck-Depressions-Inventars (BDI). Diagnostica, 46, 38 – 46. https://doi.org/10.1026//0012-1924.46.1.38 Shafran, R., Cooper, Z. & Fairburn, C. G. (2002). Clinical perfectionism: A cognitive-behavioural analysis. Behaviour Research and Therapy, 40, 773 – 791. https://doi.org/10.1016/S00057967(01)00059-6 Slaney, R. B., Rice, K. G., Mobley, M., Trippi, J. & Ashby, J. S. (2001). The revised almost perfect scale. Measurement and Evaluation in Counseling and Development, 34, 130 – 145. Washington. Steyer, R., Majcen, A.-M., Schwenkmezger, P. & Buchner, A. (1989). A latent state-trait anxiety model and its application to determine consistency and specificity coefficients. Anxiety Research, 1, 281 – 299. https://doi.org/10.1080/08917778908 248726 Steyer, R., Schwenkmezger, P., Notz, P. & Eid, M. (1997). Der Mehrdimensionale Befindlichkeitsfragebogen (MDBF, Handanweisung). Göttingen: Hogrefe.

Stoeber, J. & Gaudreau, P. (2017). The advantages of partialling perfectionistic strivings and perfectionistic concerns: Critical issues and recommendations. Personality and Individual Differences, 104, 379 – 386. https://doi.org/10.1016/j.paid.2016.08. 039 Stoeber, J., Kobori, O. & Brown, A. (2014). Examining mutual suppression effects in the assessment of perfectionism cognitions: Evidence supporting multidimensional assessment. Assessment, 21, 647 – 660. https://doi.org/10.1177/1073191114 534884 Stoeber, J., Kobori, O. & Tanno, Y. (2010). The Multidimensional Perfectionism Cognitions Inventory-English (MPCI-E): Reliability, validity, and relationships with positive and negative affect. Journal of personality assessment, 92, 16 – 25. https://doi.org/ 10.1080/00223890903379159 Stoeber, J. & Otto, K. (2006). Positive conceptions of perfectionism: Approaches, evidence, challenges. Personality and Social Psychology Review, 10, 295 – 319. https://doi.org/10.1207/ s15327957pspr1004_2 Tabachnick, B. G. & Fidell, L. S. (2007). Using multivariate statistics (5th Ed.). Needham Heights, MA: Allyn & Bacon Inc. Yuan, K. H. & Bentler, P. M. (1998). Normal theory based test statistics in structural equation modelling. British Journal of Mathematical and Statistical Psychology, 51, 289 – 309. Zou, G.Y. (2007). Toward using confidence intervals to compare correlations. Psychological Methods, 12, 399 – 413. https://doi. org/10.1037/1082 – 989x.12.4.399 Onlineveröffentlichung: 25. 09. 2018 Dr. Elisabeth Prestele Dr. Christine Altstötter-Gleich Universität Koblenz-Landau Psychologie Fortstraße 7 76829 Landau prestele@uni-landau.de

Franz Petermann / Ulrike Petermann

Lernen

Grundlagen und Anwendungen

Franz Petermann Ulrike Petermann

Lernen Grundlagen und Anwendungen 2., überarbeitete Auflage

25

2., überarbeitete Auflage 2018, 218 Seiten, € 26,95 / CHF 35.90 ISBN 978-3-8017-2910-3 Auch als eBook erhältlich

tägliche Lernvorgänge. Das Buch liefert einen Überblick über die neurowissenschaftlichen Grundlagen von Lernen und Gedächtnis sowie motivationale und emotionale Grundlagen des Lernens. Unter anderem werden klassisches und operantes Konditionieren, kognitives, sozial-kognitives und implizites Lernen vorgestellt und durch Alltagsbeispiele illustriert.

Lernen ist ein allgegenwärtiges Phänomen. Nicht nur das Lernen in der Schule oder im Beruf beeinflussen unser Leben, sondern auch beiläufige, allwww.hogrefe.com

© 2018 Hogrefe Verlag

Diagnostica (2019), 65 (1), 14–25


Originalarbeit

Erfassung des Lesevolumens in Large-Scale Studien Ein Vergleich von Globalurteil und textspezifischem Urteil Franziska M. Locher und Maximilian Pfost Zusammenfassung: In diesem Beitrag werden 2 Möglichkeiten der Erfassung des Lesevolumens, wie sie in Large-Scale-Studien meist verwendet werden, verglichen – zum einen ein differenziertes textsortenspezifisches Urteil und zum anderen ein häufig angewendetes Globalurteil zur Einschätzung des Lesevolumens. Zum Vergleich der beiden Urteile liegen Daten des Nationalen Bildungspanels (NEPS) mit einer Stichprobe von N = 5 475 Schülerinnen und Schülern der 5. Klassenstufe und N = 16 425 Schülerinnen und Schülern der 9. Klassenstufe sowie eine Stichprobe aus PISA 2009 von N = 4 979 Schülerinnen und Schülern im Alter von 15 Jahren vor. Insgesamt zeigt sich, dass im NEPS (insbesondere in Klassenstufe 5) das Globalurteil das verlässlichere Instrument darstellt. Für die textsortenspezifischen Urteile zeigen sich u. a. deutliche Bodeneffekte und nur geringe Zusammenhänge mit den Kriteriumsmaßen Lesefreude und Lesekompetenz. Im Vergleich der beiden textsortenspezifischen Urteile in NEPS und PISA zeigt sich ein Vorteil für die in PISA verwendeten Items. Es werden Empfehlungen für den Umgang mit den NEPS-Daten aus den entsprechenden Scientific-Use-Files abgeleitet. Schlüsselwörter: Lesevolumen, Textsorten, Large-Scale-Panel, NEPS, PISA 2009

Measuring Reading Volume in Large-Scale Assessments: A Comparison of an Overall Evaluation and a Differentiated Evaluation Relating Different Text Types Abstract: In this article, we compared 2 measures of reading volume that are common in large-scale panels: a type of text-specific evaluation of students’ reading volume as well as an overall evaluation of reading volume. Therefore, we examined a sample of fifth (N = 5,475) and ninth grade (N = 16,425) secondary students from the National Educational Panel Study (NEPS) and a sample of N = 4,979 15year-old students from the 2009 PISA study. Regarding the NEPS data, results show that the overall evaluation of students’ reading volume appears to be the more reliable measure. In text-type-specific measures of reading, floor effects and weak correlations with the criteria variables – reading enjoyment and reading competence – were present. Such weaknesses were less pronounced in items of the PISA study. We discuss the findings and provide recommendations for working with the NEPS scientific use files. Keywords: reading volume, text types, large-scale panel, NEPS, PISA 2009

Für das verstehende Lesen von Texten sind eine Reihe komplexer Teilfähigkeiten notwendig, weshalb es für die Entwicklung der Lesekompetenz wichtig ist, regelmäßig zu lesen. Verschiedene Studien konnten hierzu bereits mehrfach zeigen, dass das Lesevolumen positiv mit der Entwicklung der Lesekompetenz zusammenhängt (Anderson, Wilson & Fielding, 1988; Guthrie, Wigfield, Metsala & Cox, 1999; Mol & Bus, 2011; Pfost, Dörfler & Artelt, 2010, 2013). Über verschiedene Messinstrumente hinweg zeigen sich dabei in der Regel Zusammenhänge zwischen dem Lesevolumen und der Lesekompetenz in

einer Höhe von r = .3 – .4. Die Entscheidung für oder gegen ein Messinstrument hängt häufig vom Studiendesign oder den Analysezielen ab. In empirischen Studien mit thematischem Fokus auf dem Leseverhalten ist es nötig, dieses umfangreich zu erfassen (z. B. Guthrie et al., 1999; Spear-Swerling, Brucker & Alfano, 2010). Im Rahmen von Large-Scale-Studien mit multiplen Analysezielen soll hingegen häufig das Lesevolumen als eine Information in einer Reihe von vielen Fragen miterfasst werden. Dabei ist es dann in der Regel unerlässlich, dass die verwendeten Instrumente möglichst zeit- und platzsparend sind. Solche

Diese Veröffentlichung wurde unterstützt durch eine Sachbeihilfe der Deutschen Forschungsgemeinschaft (Kennzeichen PF 840/2 – 1). Diese Arbeit nutzt Daten des Nationalen Bildungspanels (NEPS): Startkohorte Klasse fünf (https://doi.org/10.5157/NEPS:SC3:5.0.0) und Startkohorte Klasse neun (https://doi.org/10.5157/NEPS:SC4:6.0.0). Die Daten des NEPS wurden von 2008 bis 2013 als Teil des Rahmenprogramms zur Förderung der empirischen Bildungsforschung erhoben, welches vom Bundesministerium für Bildung und Forschung (BMBF) finanziert wurde. Seit 2014 wird NEPS vom Leibniz-Institut für Bildungsverläufe e.V. (LIfBi) an der Otto-Friedrich-Universität Bamberg in Kooperation mit einem deutschlandweiten Netzwerk weitergeführt. Diagnostica (2019), 65 (1), 26–36 https://doi.org/10.1026/0012-1924/a000203

© 2018 Hogrefe Verlag


F. M. Locher und M. Pfost, Erfassung des Lesevolumens in Large-Scale Studien

häufig nur oberflächlichen Einschätzungen zum Lesevolumen bieten im Anschluss jedoch oftmals Anlass für, nicht immer empirisch vollständig gerechtfertigte, Kritik. Der vorliegende Beitrag beschäftigt sich daher mit zwei eher ökonomischen Arten von Fragebogenskalen zur Erfassung des Lesevolumens, wie sie oftmals in LargeScale-Studien zum Einsatz kommen. Zum einen geht es um das häufig verwendete Verfahren des Globalurteils, also einer allgemeinen Einschätzung darüber, wie lange pro Tag durchschnittlich gelesen wird. Zum anderen geht es um ein differenzierteres textsortenspezifisches Urteil, bei dem die Personen Einschätzungen darüber abgeben, wie häufig sie bestimmte Textsorten lesen. Anhand dieser zwei Instrumente soll untersucht werden, ob und wie gut es auch in Studien mit entsprechenden zeitlichen Restriktionen möglich ist, das Lesevolumen differenziert zu erfassen. Beide Urteile sind allerdings nicht voneinander unabhängig. Das Globalurteil ist vielmehr eine implizite Zusammenfassung der gesamten investierten Lesezeit, die für unterschiedliche Textsorten aufgebracht wurde. Mit der internationalen Schulleistungsstudie PISA (Programme for International Student Assessment) und Deutschlands größter Panelstudie zur Erforschung von Bildungsprozessen NEPS (Nationales Bildungspanel) wurden zwei der bekanntesten und für Re-Analysezwecke populärsten Large-Scale-Studien zum Vergleich herangezogen. Analysen, welche etwaige Probleme vorhandener Instrumente und Datensätze darstellen sind grundlegend, um mögliche Fehlinterpretationen in Forschungsarbeiten vorzubeugen. Besonders hinsichtlich der NEPS-Daten, für die über eintausend offizielle nationale und internationale Datennutzerinnen und Datennutzer verzeichnet werden können1, ist dies wichtig. Darüber hinaus sollen die dargelegten Befunde Forscherinnen und Forscher bei der Gestaltung ihrer Untersuchungsinstrumente unterstützen und somit zukünftig zu einer effektiveren Nutzung zeitlicher und monetärer Ressourcen in Large-Scale-Forschungen beitragen.

27

2010). Durch dieses Vorgehen können Einschränkungen wie sozial erwünschtes Antwortverhalten umgangen werden. Allerdings handelt es sich dabei um eine zeit- und damit kostenintensive Erfassungsmethode. Ferner sind ARTs und TRTs indirekte Messmethoden. Die Tatsache, dass Personen eine Autorin beziehungsweise einen Autor oder Titel kennen, bedeutet also nicht gleichermaßen, dass das Buch auch tatsächlich gelesen wurde (Schroeder, Segbers & Schröter, 2016). Dieser Punkt schränkt die Aussagekraft dieses Instruments erheblich ein. Ebenfalls nicht einfach, wenn auch häufig als Optimalmethode betrachtet, ist die Erfassung des Lesevolumens durch Lesetagebücher (z. B. Anderson et al., 1988). Diese Art des Protokollierens der Leseaktivitäten führt zu einer vermeintlich genauen Schätzung des Lesevolumens. Aufgrund des hohen Aufwandes kann dieses Verfahren aber nur selten und insbesondere meist nur über einen kurzen Zeitraum eingesetzt werden. Dieses Vorgehen bringt somit erhebliche Einschränkungen bezüglich der Generalisierung der Ergebnisse mit sich (Schroeder et al., 2016). Häufig werden Fragebogenitems, wie sie auch im Rahmen dieses Artikels im Vordergrund stehen, zu einer globalen Einschätzung des Lesevolumens (z. B. Pfost et al., 2010) und zu einer textsortenspezifischen Einschätzung des Lesevolumens (z. B. Pfost et al., 2013) verwendet. Besonders Globalurteile sind in der Erfassung wenig zeitaufwändig und folglich ökonomisch. Sie finden daher oft im Rahmen großer und längsschnittlicher Datenerhebungen Platz. Häufig werden diese Einschätzungen allerdings dafür kritisiert, nur relative Unterschiede der Personen zu erfassen und aufgrund sozial erwünschten Antwortverhaltens Verzerrungen zu unterliegen (Schroeder et al., 2016). Darüber hinaus kann in diesem Globalurteil nicht in unterschiedliche Textsorten unterschieden werden. Textsortenspezifische Urteile haben im Vergleich zum reinen Globalurteil den Vorteil, dass darin abgestuft werden kann, welche Art der Lektüre wie oft gelesen wird. Dies erlaubt es in späteren Analysen Unterschiede in der Lektürequalität zu berücksichtigen, die bei Globalurteilen verloren gehen würden.

Erfassung des Lesevolumens Bei der Messung des Lesevolumens wurde und wird bislang auf unterschiedliche Instrumente zur Erfassung zurückgegriffen. Bei Verfahren wie dem Titel- oder Autorinnen- und Autoren-Rekognitionstest (TRT & ART) werden die Teilnehmenden nach dem Erkennen von Autorinnen beziehungsweise Autoren oder Buchtiteln gefragt (z. B. Cipielewski & Stanovich, 1992; Spear-Swerling et al.,

1

Die Rolle unterschiedlicher Textsorten Bei der Wahl der Lektüre gibt es eine Vielzahl an Möglichkeiten: von traditionellen Büchern, Zeitungen bis hin zum Internet unterscheiden sich die Medien nicht nur

Vgl. NEPS Neuigkeiten Archiv, 27.10.15, URL: https://www.neps-data.de/de-de/neuigkeiten/2015.aspx

© 2018 Hogrefe Verlag

Diagnostica (2019), 65 (1), 26–36


28

F. M. Locher und M. Pfost, Erfassung des Lesevolumens in Large-Scale Studien

hinsichtlich des Lesezwecks, sondern auch in ihrem Anspruchsniveau (Gehrer & Artelt, 2013; Hayes & Ahrens, 1988). Es liegt daher nahe, dass sich Zusammenhänge der Lesekompetenz und der Lesemotivation mit der Quantität des Lesens unterschiedlich gestalten, je nachdem, auf welcher Textsorte der Fokus liegt. Ergebnisse von Pfost et al. (2013) weisen darauf hin, dass vor allem das Lesen traditioneller Bücher (z. B. Romane) einen positiven Effekt auf die Entwicklung des Leseverstehens und den Wortschatz hat. Einen eher geringen Zusammenhang konnten die Autorinnen und Autoren für das Lesen von Zeitungen nachweisen. Lese- und Schreibaktivitäten im Internet hingen zu Teilen sogar negativ mit der Lesekompetenz der Schülerinnen und Schüler zusammen. Bei textsortenspezifischen Betrachtungen konnten McGeown, Osborne, Warhurst, Norgate und Duncan (2016) zeigen, dass auch unter Kontrolle von Geschlecht, Alter, Sozioökonomischem Status und Lesekompetenz die intrinsische Lesemotivation beziehungsweise die lesebezogenen Einstellungen besonders das Lesevolumen von fiktionalen Büchern (r = .26), Sachbüchern (r = .25) und Comics (r = .12) positiv vorhersagen. Signifikante Zusammenhänge lesebezogener Einstellungen mit dem Lesen von Zeitschriften konnten nicht gefunden werden.

Fragestellung und Ziel Für den Fall, dass die Möglichkeit der Erfassung des Lesevolumens Restriktionen (Kosten, Zeit, usw.) unterliegt, stellen bislang Fragebogenskalen zum Lesevolumen eine akzeptable Lösung dar. Es stellt sich nun die Frage, wie gut es gelingt, das Lesevolumen global zu erfassen oder ob es günstiger ist, zwischen verschiedenen Textsorten zu differenzieren. Ferner stellt sich auf explorativer Ebene die Frage, ob dies für alle Altersgruppen gleich gut gelingt. Das Alter ist ein potenzieller Einflussfaktor, der in diesem Kontext bislang nicht systematisch untersucht wurde, aufgrund der gegebenen Datengrundlage hier jedoch mitbetrachtet werden kann. In der folgenden Studie werden daher zwei Ausführungen textsortenspezifischer Urteile zum Lesevolumen (aus NEPS und PISA) und das Globalurteil sowie deren Ergebnisse genauer untersucht und verglichen.

Auswahl der Außenkriterien und Testwertinterpretation Es soll festgestellt werden, ob die Ergebnisse der Messinstrumente hinsichtlich einer Interpretation im Sinne der Erfassung individueller Unterschiede im Lesevolumen Diagnostica (2019), 65 (1), 26–36

valide sind. Hierzu werden Zusammenhänge der Fragebogenergebnisse mit entsprechenden Außenkriterien beziehungsweise theoretisch relevanten Konstrukten empirisch untersucht (American Educational Research Association, American Psychological Association & National Council on Measurment in Education, 2014). Dazu wird zum einen die Lesekompetenz als Außenkriterium herangezogen, da die Beziehung zum Lesevolumen hinreichend belegt wurde und die bekannten Befunde somit als Referenz verwendet werden können (Anderson et al., 1988; Guthrie et al., 1999; Mol & Bus, 2011; Pfost et al., 2010). Zum anderen wird mit der Lesefreude eine Facette der lesebezogenen Einstellungen und damit der intrinsischen Lesemotivation als Kriteriumsvariable gewählt. Diese kann als primäre Determinante für das Lesevolumen angesehen werden (Guthrie et al., 1999; Schaffner, 2009) und stellt somit ein praktisch unmittelbar relevantes Kriterium dar. Das Ziel der vorliegenden Untersuchung besteht daher nicht primär in einer inhaltlichen Analyse und Interpretation von Zusammenhängen zwischen Lesevolumen und Außenkriterien. Ziel ist vielmehr die Untersuchung einer empirisch gestützten und theoriebasierten Testwertinterpretation anhand vorher definierter Ergebnisse und Annahmen. Das heißt, es soll geprüft werden, ob die Zusammenhänge zwischen Indikatoren des Lesevolumens und Außenkriterien in theoretisch sowie empirisch erwartbarer Höhe ausfallen und damit auf ein funktionierendes Instrument hindeuten. Für Korrelationen, welche nicht den theoretischen Erwartungen entsprechen (z. B. zu geringe oder unplausible Zusammenhänge), nehmen wir implizit an, dass diese Ergebnisse nicht auf das angenommene Konstrukt (hier: das Lesevolumen), sondern auf Unzulänglichkeiten in der Messung zurückzuführen sind (Hartig, Frey & Jude, 2012). Beispielsweise wählen Schroeder et al. (2016) zur Überprüfung der Validität ihres Kinder-Titelrekognitionstests (K-TRT) ein vergleichbares Vorgehen und interpretieren Außenkorrelationen zwischen den Kriteriumsvariablen Wortschatz und Lesegeschwindigkeit und dem K-TRT. Aufgrund der Annahme, dass das Lesevolumen sowohl mit der Lesekompetenz als auch mit der Lesefreude zusammenhängt, und aufgrund bereits genannter Evidenzquellen (z. B. Greaney & Hegarty, 1987; Guthrie et al., 1999; McGeown et al., 2016; Pfost et al., 2010; Pfost et al., 2013; Walberg & Tsai, 1984) erwarten wir zusammenfassend sowohl in PISA als auch in NEPS Folgendes: Bezogen auf das Globalurteil erwarten wir Korrelationen mit der Lesekompetenz in der Höhe von bisher gefundenen Effekten (r ~ .3 – .4) sowie noch stärkere Korrelationen (r ≥ .4) mit den lesebezogenen Einstellungen. Im Hinblick auf die textsortenspezifischen Items erwarten wir verhältnismäßig hohe Korrelationen für Bücher (r ~ .3 – .4) © 2018 Hogrefe Verlag


F. M. Locher und M. Pfost, Erfassung des Lesevolumens in Large-Scale Studien

und geringe Korrelationen für Comics und Zeitschriften (r ~ .1) mit der Lesekompetenz. Für die lesebezogenen Einstellungen beziehungsweise die Lesefreude erwarten wir hohe Korrelationen mit dem Lesen von fiktionalen Büchern (r ~ .5), geringe bis mittlere Korrelationen mit dem Lesen von Periodika (r ~ .2) und noch geringere Zusammenhänge mit dem Lesen von Comics.

Methode Studiendesign und Stichprobe NEPS In der vorliegenden Arbeit werden Daten von Schülerinnen und Schülern der fünften (Startkohorte 3, Welle 1) und neunten Klassenstufe (Startkohorte 4, Welle 1 und 2) aus NEPS verwendet. Schülerinnen und Schüler der Förderschulen werden für die vorliegenden Betrachtungen ausgeschlossen. Insgesamt liegt damit für Startkohorte drei (Klassenstufe fünf) eine Stichprobe von N = 5 475 Schülerinnen und Schülern (48 % weiblich; durchschnittliches Alter: 10.53 Jahre) vor. Für Startkohorte vier (Klassenstufe neun) liegt eine Stichprobe von N = 16 425 Schülerinnen und Schülern (49 % weiblich; durchschnittliches Alter: 14.75 Jahre) vor. PISA 2009 Der Schwerpunkt der PISA-Studie 2009 liegt auf der Lesekompetenz, weshalb sich diese Daten besonders gut für die Fragestellung der vorliegenden Arbeit eignen. Im Rahmen unserer Untersuchungen wird die Stichprobe deutscher Schülerinnen und Schüler herangezogen. Daher liegt für die Analysen eine Stichprobe von N = 4 979 (49 % weiblich; durchschnittliches Alter: 15.83 Jahre) vor (Organisation for Economic Cooperation and Development, 2012).

Analysen und Instrumente Für die Überprüfung der Fragestellung wurden Itemverteilungen und Mittelwerte betrachtet sowie Korrelationsund Faktorenanalysen durchgeführt. Aufgrund des Skalenniveaus der Lesevolumenvariablen und der nicht normalverteilten Daten in NEPS wurden Rangkorrelationskoeffizienten nach Kendalls Tau berechnet. Für die Itemverteilungen und Korrelationsanalysen der PISA-Daten wurden die entsprechenden zur Verfügung gestellten Gewichte verwendet. Die Analysen wurden mit Mplus 7 (Muthén & Muthén, 1998 – 2007) durchgeführt. Im Anschluss an die Korrelationsanalysen wurde eine explora© 2018 Hogrefe Verlag

29

tive Faktorenanalyse für ordinale Daten durchgeführt und die Fit-Werte der Modelle verglichen. Dabei wurde mit der Oblimin-Methode eine schiefwinklige Rotationsmethode gewählt. Es wurden folgende Variablen für die Analysen herangezogen:

Globalurteil Lesevolumen NEPS. Das Lesevolumen in NEPS wurde unter Verwendung zweier Items erfasst. Dabei wurde ein globales Urteil abgefragt („Wieviel Zeit verbringst du normalerweise damit, außerhalb der Schule zu lesen?“), um das durchschnittliche Lesevolumen an einem Schultag und an einem schulfreien Tag zu erheben. Auch das Lesen von E‐Mails und Zeitschriften sollte dabei berücksichtigt werden. Dies wurde anhand einer fünfstufigen Likert-Skala (1 = gar nicht außerhalb der Schule, 2 = bis zu einer halben Stunde, 3 = zwischen einer halben Stunde und einer Stunde., 4 = 1 bis 2 Stunden., 5 = mehr als 2 Stunden.) beantwortet. Cronbachs α in Klassenstufe fünf betrug α = .79 und α = .88 in Klassenstufe neun. PISA 2009. Ähnlich wie auch bei NEPS wurde in PISA das Globalurteil (1 Item: „Wieviel Zeit verbringst du normalerweise damit, zu deinem Vergnügen zu lesen? “) anhand einer fünfstufigen Likert-Skala (1 = Ich lese nicht zum Vergnügen; 2 = Bis zu 30 Minuten täglich; 3 = Zwischen einer halben und 1 Stunde täglich; 4 = 1 bis 2 Stunden täglich; 5 = Mehr als 2 Stunden täglich) erfasst (Hertel, Hochweber, Mildner, Steinert & Jude, 2014).

Differenziertes textsortenspezifisches Urteil NEPS. In NEPS wurde neben dem Globalurteil das Lesevolumen spezifisch nach Genre und Inhalt (insgesamt 9 Items) erfragt: „Wie oft liest du in deiner Freizeit normalerweise… Krimis? Thriller? Horror- oder Fantasybücher? Sachbücher? klassische Literatur? Comics?“ und „Liest du folgende Zeitungen oder Zeitschriften? Lokale Tageszeitung; Boulevardzeitung (wie BILD, BZ); Jugendseiten in anderen Zeitschriften (wie SZ, FAZ); Magazine (wie SPIEGEL, FOCUS Schule); andere Jugendzeitschriften“. Die Einschätzungen wurden anhand einer fünfstufigen Likert-Skala (1 = nie oder selten, 2 = mehrmals im Monat, 3 = einmal in der Woche, 4 = mehrmals in der Woche., 5 = täglich.) für jede Kategorie separat erfasst. PISA 2009. Auch in PISA wurde das Lesevolumen textsortenspezifisch erfragt („Wie oft liest du zu deinem Vergnügen…“). Für folgende Textsorten fand eine Einschätzung statt: Zeitschriften und Magazine; Comic-Hefte und Comics; Romane, Erzählungen, Geschichten; SachDiagnostica (2019), 65 (1), 26–36


30

F. M. Locher und M. Pfost, Erfassung des Lesevolumens in Large-Scale Studien

bücher (z. B. Geschichte, Biografie, Wissenschaft, Technik) und Tageszeitungen (insgesamt 5 Items). Das spezifische Urteil wurde ebenfalls anhand einer fünfstufigen Likert-Skala (1 = Nie oder fast nie; 2 = Ein paarmal im Jahr; 3 = Etwa einmal im Monat; 4 = Mehrmals im Monat; 5 = Mehrmals in der Woche) erfasst (Hertel et al., 2014).

Lesekompetenz NEPS. In den Lesekompetenztests fanden sich 31 beziehungsweise 32 Items (5 – 7 pro Textsorte) im MultipleChoice-Format als Entscheidungsaufgaben oder als Zuordnungsaufgaben zu den folgenden fünf alltagsnahen Textsorten: (a) Sachtexte, (b) Werbung, Anzeigen und Aufrufe, (c) Anleitungen und Anweisungen, (d) kommentierende Texte, (e) literarische Texte (Gehrer & Artelt, 2013). Jede Textsorte wurde durch einen Text repräsentiert. Dabei gilt es zu beachten, dass der Lesekompetenztest trotz der Textsortenvielfalt konzipiert wurde, um ein eindimensionales Lesekonstrukt zu erfassen. Diese Eindimensionalität wurde geprüft: Alle Dimensionen korrelieren hoch bis sehr hoch miteinander (Haberkorn, Pohl, Hardt & Wiegand, 2012; Pohl, Haberkorn, Hardt & Wiegand, 2012). Die individuelle Personenfähigkeit wird als WLE-Schätzer (Weighted Likelihood Estimation) angegeben. Die Reliabilität des Tests in Klassenstufe fünf (WLE-Reliabilität = .767) ebenso wie in Klassenstufe neun (WLE-Reliabilität = .749) war zufriedenstellend (Haberkorn et al., 2012; Pohl et al., 2012). PISA 2009. In PISA orientiert sich das Konstrukt der Lesekompetenz am Literacy-Konzept. Es werden daher keine schulspezifischen Fähigkeiten, sondern sogenannte Life Skills gemessen. Die PISA-Aufgaben beinhalten dafür unterschiedliche Textformate (kontinuierlich wie z. B. Sachtexte oder Prosa und nichtkontinuierlich wie z. B. Listen oder Tabellen), die außerdem unterschiedliche Zwecke erfüllen (z. B. Anleitung, Beschreibung, etc.) und unterschiedliche Leseanlässe (z. B. beruflich, privat, etc.) beinhalten (Naumann, Artelt, Schneider & Stanat, 2010). Für die Analysen mit der Lesekompetenz der Schülerinnen und Schüler wurden Plausible Values verwendet. Die Reliabilität der Plausible Values in der Domäne Lesen betrug .86 (Organisation for Economic Cooperation and Development, 2012).

Lesebezogene Einstellungen NEPS. Zusätzlich wurden die Lust und das Interesse am Lesen erhoben (z. B. „Es macht mir Spaß Bücher zu lesen.“). Die insgesamt fünf positiv formulierten Items wurden anhand einer vierstufigen Likert-Skala (1 = stimme Diagnostica (2019), 65 (1), 26–36

gar nicht zu bis 4 = stimme völlig zu) erfasst. Cronbachs α in Klassenstufe fünf betrug α = .88 und α = .81 in Klassenstufe neun. PISA 2009. Die lesebezogenen Einstellungen in PISA wurden anhand von fünf invers (z. B. „Ich lese nur, wenn ich muss.“) und sechs positiv formulierten Items (z. B. „Lesen ist eines meiner liebsten Hobbys.“) erfasst und anhand einer vierstufigen Likert-Skala (1 = Stimmt überhaupt nicht bis 4 = Stimmt ganz genau) eingeschätzt (Hertel et al., 2014). Cronbachs α betrug α = .92.

Ergebnisse Ein Überblick über die deskriptiven Kennwerte der textsortenspezifischen Urteile sowie des Globalurteils und deren Interkorrelationen mit den Kriteriumsvariablen Lesekompetenz und lesebezogene Einstellungen ist in Tabelle 1 (Klassenstufe fünf) und in Tabelle 2 (Klassenstufe neun) für NEPS und in Tabelle 3 für PISA 2009 zu sehen.

Kennwertverteilungen und Korrelationsanalysen NEPS Bei Betrachtung der Häufigkeitsverteilung zeigt sich eine stark ungleiche Zellenbesetzung bei den textsortenspezifischen Urteilen. Der überwiegend größte Anteil (33 – 87 %) an Schülerinnen und Schülern gab an, die jeweilig abgefragte Textsorte niemals zu lesen. Ein nur sehr geringer Anteil (1 – 22 %) gab an, täglich oder über zwei Stunden täglich die entsprechende Textsorte zu lesen. Im Vergleich dazu ist beim Globalurteil eine gleichmäßigere Verteilung auf alle Antwortmöglichkeiten festzustellen. Dies zeigt sich auch im Mittelwert, der beim Globalurteil etwa in der Mitte des Skalenrange zu finden ist, wohingegen die Mittelwerte der textsortenspezifischen Urteile sehr niedrig ausgeprägt sind und deutlich auf Bodeneffekte hinwiesen. Für die Schülerinnen und Schüler der Klassenstufe fünf kann auch entnommen werden, dass die spezifischen Einschätzungen des Lesevolumens für unterschiedliche Texte nur sehr gering und überwiegend negativ mit der Lesekompetenz der Schülerinnen und Schüler der fünften Klassenstufen korrelieren. Dies entspricht nicht den Korrelationen vorheriger Untersuchungen. Insbesondere für klassische Literatur (r = .01, n. s.) oder Krimis, Thriller, Horror- oder Fantasybücher (r = .04) zeigen sich geringe bis gar keine Zusammenhänge. Auch die Korrelationen der Textsortenurteile mit den lesebezogenen Einstellungen sind vielfach nur schwach ausgeprägt. Das Globalur© 2018 Hogrefe Verlag


F. M. Locher und M. Pfost, Erfassung des Lesevolumens in Large-Scale Studien

31

Tabelle 1. Deskriptive Kennwerte und Kendall-Tau-Korrelationen der Textsortenvariablen (Klassenstufe fünf) Variablen

N

M

SD

niedrigstea

höchsteb

LK

LE

Lokale Tageszeitung

4 697

1.85

1.32

64 %

Boulevardzeitung

4 592

1.53

1.07

75 %

8%

.04*

.14*

4%

-.08*

Jugendseiten in anderen überregionalen Zeitungen

4 694

1.79

1.23

.06*

64 %

6%

-.08*

Magazine

4 692

1.96

.13*

1.27

54 %

7%

.01

andere Jugendzeitschriften

4 748

.19*

2.77

1.56

33 %

22 %

-.08*

.10*

Krimis, Thriller, Horror- oder Fantasybücher klassische Literatur

4 789

2.66

1.60

40 %

19 %

.04*

.24*

4 582

2.20

1.40

48 %

10 %

.01

Sachbücher

.24*

4 480

2.18

1.32

45 %

8%

-.02

.26*

Comics

4 592

2.76

1.54

33 %

20 %

-.03*

.11*

Globalurteil: freizeitl. Lesevolumen c

4 888

2.97

1.19

8%

10 %

.20*

.44*

Schultag

4 760

2.95

1.22

12 %

13 %

.16*

.38*

schulfreier Tag

4 600

3.02

1.37

15 %

20 %

.22*

.45*

Anmerkungen: Korrelationen basieren auf manifesten Mittelwerten der Kriteriumsvariablen; LK = Lesekompetenz (WLE-Schätzer = Weighted Likelihood Estimation); LE = Lesebezogene Einstellungen. * p < .05. a Prozent der Kategorien nie oder selten bzw. Globalurteil: gar nicht außerhalb der Schule. b Prozent der Kategorien täglich bzw. Globalurteil: mehr als 2 Stunden. c Mittelwert aus den Items Lesevolumen an Schultagen und schulfreien Tagen.

Tabelle 2. Deskriptive Kennwerte und Kendall-Tau-Korrelationen (Klassenstufe neun) Variablen

N

M

SD

niedrigstea

höchsteb

LK

LE

Lokale Tageszeitung

14 113

2.45

1.50

42 %

Boulevardzeitung

14 029

1.75

1.17

63 %

15 %

.11*

.13*

5%

-.04*

Jugendseiten in anderen überregionalen Zeitungen

14 039

1.39

.89

.01

79 %

2%

.02*

.12*

Magazine

14 093

1.62

andere Jugendzeitschriften

14 142

2.19

.98

63 %

2%

.04*

.15*

1.25

40 %

6%

-.12*

Krimis, Thriller, Horror- oder Fantasybücher

14 102

2.26

.06*

1.47

48 %

12 %

.22*

klassische Literatur

13 890

.44*

1.23

.68

87 %

1%

.08*

Sachbücher

.23*

13 849

1.44

.85

72 %

1%

.07*

.23*

Comics

13 960

1.62

1.05

66 %

3%

-.02*

.07*

Globalurteil: freizeitl. Lesevolumenc

14 263

2.98

1.35

23 %

24 %

.24*

.44*

Schultag

14 190

2.91

1.36

20 %

16 %

.21*

.40*

Schulfreier Tag

14 142

3.05

1.49

22 %

25 %

.26*

.46*

Anmerkungen: Korrelationen basieren auf manifesten Mittelwerten der Kriteriumsvariablen; LK = Lesekompetenz (WLE-Schätzer = Weighted Likelihood Estimation); LE = Lesebezogene Einstellungen. * p < .05. a Prozent der Kategorie nie oder selten bzw. Globalurteil: gar nicht außerhalb der Schule. b Prozent der Kategorie täglich bzw. Globalurteil: mehr als 2 Stunden. c Mittelwert aus den Items Lesevolumen an Schultagen und schulfreien Tagen.

teil korreliert, den Erwartungen eher entsprechend, höher mit den lesebezogenen Einstellungen (r = .44) und der Lesekompetenz (r = .20). Die in Tabelle 2 abgetragenen Korrelationen der Textsortenurteile und der Lesekompetenz in Klassenstufe neun sind ebenfalls nur von geringer Stärke und replizieren gut die Befundlage aus der fünften Klassenstufe. Lediglich der Zusammenhang des textsortenspezifischen Urteils zum Lesevolumen von Krimi, Thriller, Horror oder Fantasybüchern hebt sich positiv mit einer Korrelation von .22 ab und reicht fast an die erwartete Effektgröße heran. Dieses Genre korreliert auch am stärksten mit den lesebezogenen Einstellungen (r = .44). Ansonsten zei© 2018 Hogrefe Verlag

gen sich aber auch hier nur mäßige Zusammenhänge mit den Kriteriumsvariablen. Das Globalurteil korreliert dagegen wieder deutlich höher mit den Kriteriumsvariablen lesebezogene Einstellungen (r = .44) und Lesekompetenz (r = .24.). PISA 2009 Die in Tabelle 3 abgetragenen Itemverteilungen zeigen eine breite Variation bezüglich der Häufigkeit des Lesens der unterschiedlichen Textsorten. Im Gegensatz zu den Items aus der NEPS-Studie sind hier, mit Ausnahme der Kategorie Comics, kaum oder nur geringe Bodeneffekte, das heißt starke Tendenzen in Richtung einer bestimmten Diagnostica (2019), 65 (1), 26–36


32

F. M. Locher und M. Pfost, Erfassung des Lesevolumens in Large-Scale Studien

Tabelle 3. Deskriptive Kennwerte und Korrelationen der Textsortenvariablen aus PISA 2009 Variablen

N

M

SD

niedrigstea

höchsteb

LK

LE

Zeitschriften / Magazine

4 458

3.46

Comic-Hefte / Comics

4 433

1.76

1.19

7%

1.15

60 %

21 %

.03*

.09*

5%

-.03*

Romane, Erzählungen und Geschichten

4 415

2.70

1.45

.06*

29 %

16 %

.44*

Sachbücher

4 419

2.21

.68*

1.21

38 %

5%

.10*

Tageszeitungen

4 441

.20*

3.57

1.45

16 %

37 %

.10*

.09*

Globalurteil zum Lesevolumen

4 552

2.15

1.24

42 %

6%

.36*

.69*

Anmerkungen: Korrelationen basieren auf manifesten Mittelwerten der Kriteriumsvariablen. LK = Lesekompetenz (Plausible Values). LE = leistungsbezogene Einstellungen. * p < .05. a Prozent der Kategorie nie oder selten bzw. Globalurteil: gar nicht außerhalb der Schule. b Prozent der Kategorie täglich bzw. Globalurteil: mehr als 2 Stunden.

Tabelle 4. Vergleich der Modellfit-Werte der Explorative Faktorenanalyse Klasse 5

Klasse 9

χ²

df

RMSEA

CFI

χ²

df

RMSEA

CFI

1-Faktor

756.96*

27

.08

.88

2318.72*

2-Faktoren

385.38*

19

.07

.94

998.49*

27

.08

.83

19

.06

3-Faktoren

211.15*

12

.07

.97

379.74*

12

.93

.05

4-Faktoren

26.71*

6

.03

1.00

a

.97

Anmerkungen: a = 4-Faktorenlösung konvergiert nicht. Rotationsmethode: Oblimin.

Antwortkategorie zu erkennen. Dies spiegelt sich auch in den Mittelwerten wider. Wie erwartet zeigt sich eine mittelstarke Korrelation zwischen Lesekompetenz und dem Lesen von Romanen, Erzählungen und Geschichten (r = .44), nicht aber mit dem Lesen von Comicbüchern (r = -.03) oder Zeitschriften und Magazinen (r = .03). Für das Lesen von Tageszeitungen und Sachbüchern zeigen sich gering positive Zusammenhänge zur Lesekompetenz (r = .10). Auch das Globalurteil hängt in der erwarteten Stärke mit der Lesekompetenz (r = .36) zusammen. Bei der Überprüfung der Korrelationen mit den lesebezogenen Einstellungen zeigen sich beim differenzierten Urteil bezüglich des Lesens von Romanen, Erzählungen und Geschichten und beim Globalurteil ähnlich starke Zusammenhänge (r = .68–.69). In der Zusammenschau der Ergebnisse von NEPS und PISA können damit folgende zwei Punkte festgehalten werden: Erstens, im Hinblick auf die textspezifischen Urteile zeigen sich vor allem in der PISA-Studie die erwarteten Zusammenhänge zur Lesekompetenz. Zweitens, in beiden Studien fallen die Zusammenhänge zur Lesekompetenz und zu den lesebezogenen Einstellungen für das Globalurteil größer und eher in erwartbarer Höhe aus als für die textspezifischen Urteile.

Diagnostica (2019), 65 (1), 26–36

Faktorenanalytische Betrachtungen der NEPS-Daten Aufgrund der erwartungswidrigen Befunde und um zu überprüfen, ob sich die vergleichsweise hohe Anzahl textspezifischer Urteile der NEPS-Studie sinnvoll reduzieren beziehungsweise zusammenfassen lässt und ob sich basierend auf diesen Ergebnissen Zusammenhänge zu den Kriteriumsvariablen zeigen, wurde eine explorative Faktorenanalyse für ordinale Daten durchgeführt. Tabelle 4 gibt einen Überblick über die Modell-Fit-Werte der explorativen Faktorenmodelle. Keines der Modelle zeigt eine absolut zufriedenstellende Modellpassung, wobei sich für das 2- und das 3-Faktorenmodell eine leichte Verbesserung der Fit-Werte verzeichnen lässt. Eine Betrachtung des Eigenwertverlaufs (vgl. Elektronisches Supplement 1) basierend auf der Stichproben-Korrelationsmatrix zeigt, dass die ersten zwei beziehungsweise drei Faktoren den Großteil der Gesamtstreuung in den Daten erklären. Hier zeigt sich also auch eine leichte Tendenz zum 2-Faktorenmodell. In Tabelle 5 sind daher die Faktorladungen sowie die Interkorrelationen der latenten Faktoren für die 2-Faktorenlösung abgetragen. Die interne Konsistenz des ersten Faktors in Klassenstufe fünf, bestehend aus allen Zeitschriften und Zeitungen, beträgt α = .68. Die interne Konsistenz des ersten Faktors in Klassenstufe neun, bestehend aus dem Lesen von Tageszeitungen und Boule© 2018 Hogrefe Verlag


F. M. Locher und M. Pfost, Erfassung des Lesevolumens in Large-Scale Studien

33

Tabelle 5. Matrix des Zwei-Faktoren-Modell in Klassenstufe fünf und neun Item

Stufe 5 Faktor 1

Stufe 9 Faktor 2

Faktor 1

Faktor 2

Lokale Tageszeitung

.670*

.398*

.313*

Boulevardzeitung

.819*

Jugendseiten in anderen Zeitungen

.430*

.373*

.510*

Magazine

.404*

.380*

.522*

andere Jugendzeitschriften

.417*

.880*

Krimis, Thriller, Horror- oder Fantasybücher

.492*

klassische Literatur

.691*

.658*

Sachbücher

.657*

.684*

Comics Cronbachs α

.366* .68

.55

.50

.53

Korrelation latenter Faktoren: Faktor 1

.54*

31*

Anmerkungen: Rotationsmethode: Oblimin. Kleine Koeffizienten unter .30 wurden in der Tabelle nicht dargestellt. * p < .05.

vardzeitungen, beträgt α = .50. Faktor zwei in Klassenstufe 5, bestehend aus dem Lesen klassischer Bücher und Sachbücher, zeigt eine interne Konsistenz von α = .55. Die interne Konsistenz des Faktors 2 in Klassenstufe neun beträgt α = .53 und beinhaltet alle Lektürearten, außer der Tageszeitung, Boulevardzeitung und Jugendseiten. Das elektronische Supplement 2 zeigt die Ergebnisse der 3Faktorenlösung, wobei sich im Sinne der Einfachinterpretation der Faktorladungen keine deutliche Verbesserung zeigt. Um zu analysieren, ob die mittels der explorativen Faktorenanalyse gebildeten Faktoren mit den Kriteriumsvariablen sowie dem Globalurteil zumindest stärker korrelieren als die individuellen Einzelitems wurden weitere Korrelationsanalysen durchgeführt. Hierzu wurde die 2-Faktorenlösung basierend auf der explorativen Faktorenanalyse verwendet (siehe Elektronisches Supplement 3). In beiden Klassenstufen korrelieren die zwei Faktoren sehr gering (Klasse 9: r = .06 und .08) und in Klasse fünf teilweise sogar negativ (Klasse 5: r = .00 und -.05) mit der Lesekompetenz. Positive, im Verhältnis zum Globalurteil jedoch geringere Korrelationen zeigen sich mit den lesebezogenen Einstellungen (r = .10 bis .35).

Diskussion Insgesamt zeigt sich in den NEPS-Daten, dass die Kriteriumsvariablen durchweg stärker, und damit in dem Ausmaß von bisher gefundenen Ergebnissen mit dem Globalurteil als mit den textsortenspezifischen Urteilen oder den zwei Faktoren zusammenhängen. Jedoch ist anzu© 2018 Hogrefe Verlag

merken, dass die Korrelationen der Lesekompetenz mit dem Globalurteil insgesamt auch schwächer ausfielen als erwartet. Die Werte liegen allerdings nur leicht unter den eingangs definierten Annahmen bezüglich der Testwertinterpretation. Die Zusammenhänge mit der zweiten Kriteriumsvariable, den lesebezogenen Einstellungen, entsprechen den Annahmen. So kann insgesamt gesehen davon ausgegangen werden, dass eine valide Messung beziehungsweise eine valide Testwertinterpretation im Sinne der Erfassung individueller Unterschiede im Lesevolumen für das Globalurteil möglich ist. Im Vergleich zum Globalurteil zeigen sich bei den textsortenspezifischen Urteilen erwartungswidrige Zusammenhänge. Über alle Textsorten hinweg zeigen sich zumeist negative bis marginale positive Zusammenhänge des Lesevolumens mit der Lesekompetenz. Einzige Ausnahme bildet hier in Klasse neun das Lesen der Textsorten Krimis, Thriller, Horror- oder Fantasybücher und lokale Tageszeitungen, welche relativ deutlich positiv mit der Lesekompetenz korrelieren. Auch die Zusammenhänge des textsortenspezifischen Urteils mit den lesebezogenen Einstellungen fallen, besonders in Klasse fünf, nicht wie erwartet aus. Die deutlichen Bodeneffekte weisen ebenfalls darauf hin, dass die Antworten der in der NEPS-Studie verwendeten textsortenspezifischen Skala nicht unkritisch zu betrachten und daher nur bedingt aussagekräftig sind. Auch diese Ergebnisse bestärken eher den Einsatz des Globalurteils. Ferner konnte die von NEPS intendierte Unterteilung der Textsorten in Buchlesen und Zeitschriften beziehungsweise Zeitungen in einer faktoranalytischen Betrachtung (2-Faktoren-Modell) nicht bestätigt werden. Auch andere Faktorenmodelle zeigten in einer explorativen Faktorenanalyse unzureichende Ergebnisse auf. Stattdessen zeigte Diagnostica (2019), 65 (1), 26–36


34

F. M. Locher und M. Pfost, Erfassung des Lesevolumens in Large-Scale Studien

sich eine Heterogenität der Items, die z. B. in Form einer geringen Reliabilität der gebildeten Faktoren beziehungsweise Skalen für weitere Analysen problematisch sein kann. Dies soll allerdings nicht bedeuten, dass eine differenziertere Abfrage nicht grundsätzlich sinnvoll sein kann. Es stellt sich jedoch die Frage, ab welchem Alter, wie differenziert und vor allem welche Textsorten abgefragt werden sollten, um optimal verwertbare Informationen zu erhalten. Die Ergebnisse aus NEPS lassen vermuten, dass es bei Fragebogenskalen zum Lesevolumen, bei welchen stark zwischen den einzelnen Textsorten unterschieden wird, herausfordernd ist für die Befragten diese Kategorien zu differenzieren und damit präzise zu antworten. Im Vergleich der Klassenstufen fünf und neun der NEPSDaten zeigt sich ein deskriptiver Trend dahingehend, dass mit zunehmendem Alter differenziertere Urteile abgegeben werden können. Im Vergleich der beiden Stichproben 15-Jähriger aus NEPS und PISA zeigt sich jedoch trotzdem, dass die in PISA verwendete und weniger stark ausdifferenzierte Fragebogenskala, eher den theoretischen und empirischen Erwartungen und vorab bestimmten Prämissen zur Testwertinterpretation entspricht. Für die Beantwortung der Fragebogenskalen stehen die Schülerinnen und Schüler vor der kognitiven Herausforderung, zum einen retrospektiv einzuschätzen, wieviel sie durchschnittlich am Tag lesen. Zum anderen müssen sie aber auch ihre Tätigkeiten genau aufschlüsseln, welcher Textsorte ihr Buch zuzuordnen ist. Bei breiteren Kategorien wie etwa in der PISA-Studie ist eine solche Einschätzung möglicherweise einfacher abzugeben als bei feineren Dimensionen. Im vorliegenden Daten-Beispiel aus NEPS wurden besonders Periodika sehr genau unterschieden, wie beispielsweise Jugendzeitschriften oder Jugendseiten in anderen Zeitschriften. Es dürfte jedoch (insbesondere für jüngere Schülerinnen und Schüler) nicht eindeutig erkennbar sein, wo hier die Grenze liegt. Dies könnte mitunter eine Ursache für die in den NEPS-Stichproben gefundenen Ergebnisse (deutliche Bodeneffekte, geringe Korrelationen mit den Kriteriumsmaßen und eine praktisch kaum psychometrisch sinnvolle Zusammenfassung der einzelnen textspezifischen Items zu Skalen) sein. Es empfiehlt sich daher bei der Erfassung des Lesevolumens eine Reduktion der Dimensionen für eine klarere Differenzierung. Ferner ist zu diskutieren, ob Fünftklässlerinnen und Fünftklässler überhaupt Boulevardzeitungen oder auch lokale Tageszeitungen lesen. In der PISA Studie 2009 wurde, wie in diesem Beitrag gezeigt werden konnte, das Lesevolumen vergleichsweise erfolgreich für spezifische Textsorten erfasst. Eine gelungene Umsetzung des differenzierten Urteils findet sich auch in Studien von Spear-Swerling et al. (2010) oder Pfost et al. (2013). Dabei wurden im Vergleich zu NEPS Diagnostica (2019), 65 (1), 26–36

deutlich weniger und altersangemessenere Facetten unterschieden. Dies bestärkt weiterhin die Vermutung, dass eine differenzierte Erfassung des Lesevolumens dann sinnvoll und valide sein kann, wenn für die Adressaten eine logische Abgrenzung der Textsorten möglich ist und die entsprechenden Antwortskalen im Sinne der Vermeidung von Bodeneffekten dies auch zulassen. Urteile mit hoher Spezifität, insbesondere bei Kindern und Jugendlichen, erscheinen dagegen kritisch in der Anwendung.

Limitationen und Ausblick Einschränkend für die vorliegende Untersuchung muss angemerkt werden, dass wir keine Möglichkeit hatten, die differenzierten Urteile und das Globalurteil mit dem realen Lesevolumen abzugleichen. Für zukünftige Forschung könnten hier als Ergänzung zusätzliche Lesetagebücher dienen. Darüber hinaus wäre es von Vorteil Methoden heranzuziehen, die nicht exklusiv auf einer Selbsteinschätzung beruhen. Aspekte wie soziale Erwünschtheit bei den Kindern und Jugendlichen oder Erinnerungseffekte z. B. dadurch, dass ein Buch einer bestimmten Kategorie seit längerer Zeit gelesen wird und daher eher präsent ist als andere Bücher, könnten dadurch berücksichtigt werden. Ferner wäre es wünschenswert, Zusammenhänge zwischen Subdimensionen der Lesekompetenz und dem Lesen unterschiedlicher Textsorten zu betrachten. Die Erfassung des Lesevolumens ist eine Herausforderung, die je nach Möglichkeiten des Studiendesigns qualitativ unterschiedlich gemeistert werden kann. Schlussendlich muss abgewogen werden, welches Instrument hinsichtlich Kosten, Zeitaufwand und Analysezielen geeignet ist. Trotzdem kann die Verwendung von Globalurteilen zum Lesevolumen besonders in zeit- und platzbegrenzten Large-Scale-Studien auf Grundlage der hier durchgeführten Studie gestärkt werden. In der direkten Gegenüberstellung von Globalurteil und textsortenspezifischem Urteil scheint im vorliegenden Fall das in NEPS eingesetzte Globalurteil das geeignetere Messinstrument zur Erfassung individueller Unterschiede im Lesevolumen zu sein. Zumindest im Hinblick auf die jüngere Startkohorte würden wir daher anderen Datennutzerinnen und -nutzern des NEPS-Scientific-Use-Files von einer Nutzung der spezifischen Einschätzungen des Lesevolumens in ihren Analysen abraten. Jenseits dieser unmittelbaren Handlungsempfehlungen für Nutzerinnen und Nutzern des NEPS-Scientific-UseFile ergeben sich zwei allgemeine Schlussfolgerungen aus den vorgestellten Analysen im Hinblick auf die Erfassung des Lesevolumens. Zum einen sollten die Stufen der Antwortskalen überprüft werden. Für manche Urteile sind © 2018 Hogrefe Verlag


F. M. Locher und M. Pfost, Erfassung des Lesevolumens in Large-Scale Studien

gewisse Antwortmöglichkeiten weniger plausibel als für andere. Im konkreten Beispiel von PISA und NEPS verwenden zwar beide Studien eine fünfstufige Skala, jedoch ist jene aus PISA niedrigschwelliger als jene aus NEPS (z. B. PISA: Kategorie 5 = Mehrmals in der Woche; NEPS: Kategorie 5 = täglich). Sich wirklich täglich mit einer spezifischen Textsorte wie einem Sachbuch oder einer Jugendzeitschrift zu beschäftigen, scheint aber (und darauf weisen auch die Itemverteilungen hin) unrealistisch zu sein. Diese ungleichen Kategorienbeschriftungen könnten mitunter ein Grund für die teilweise deutlichen Unterschiede in den Ergebnissen von PISA und NEPS sein. Obgleich die erste Kategorie (nie oder selten bzw. fast nie) bei beiden Studien gleich ist, geben in NEPS in Klassenstufe neun ungefähr doppelt so viele Jugendliche an, nie Sachbücher zu lesen. Betrachtet man aber die zweite Kategorie (PISA: Ein paarmal im Jahr; NEPS: Mehrmals im Monat) können die Bodeneffekte in NEPS auch daraus resultieren, dass der Schritt von Kategorie eins zu zwei zu groß ist und für die Jugendlichen die Antwortkategorie eins zutreffender erscheint. Zum zweiten sollte, wie bereits erwähnt, die Feingliedrigkeit der abgefragten Textsorten diskutiert werden. Eine zu große Differenzierung scheint kontraproduktiv. Was für die weitere Anwendung von Lesevolumenskalen zusammenfassend festgehalten werden kann, ist, dass das Globalurteil zur Erfassung des Lesevolumens, bei Limitationen bezüglich Zeit und Umfang, prinzipiell ein akzeptables Instrument darstellt. Ein differenziertes textsortenspezifisches Urteil sollte im Optimalfall jedoch zur Erfassung des Lesevolumens hinzugezogen werden; allerdings nur, wenn diese (a) plausible sowie adäquat bewertbare, das heißt tatsächlich die vorhandene Merkmalsvariation abbildende, Antwortkategorien umfassen und (b) sinnvoll abgrenzbare und altersangemessene Textsorten enthalten. Aufgrund der Betrachtung modellbasierter Itemtrennschärfen in den Faktorenanalysen, der Häufigkeitsverteilungen und im Sinne einer auch für jüngere Personen einfach unterscheidbaren Textsortenauswahl, würden wir beispielsweise eine Unterteilung in Unterhaltungsliteratur (z. B. Romane, Thriller, Krimis, etc.), Sach- und Fachbücher sowie Zeitungen und Zeitschriften empfehlen.

Elektronische Supplemente (ESM) Die elektronischen Supplemente sind mit der OnlineVersion dieses Artikels verfügbar unter https://doi.org/ 10.1026/0012-1924/a000203 ESM 1. Die Abbildung zeigt den Eigenwertsverlauf der exploratorischen Faktorenanalyse © 2018 Hogrefe Verlag

35

ESM 2. Die Tabelle zeigt die Ergebnisse der 3-Faktorenlösung. ESM 3. Die Tabelle zeigt die Korrelationen mit den gebildeten Lesevolumenfaktoren.

Literatur American Educational Research Association, American Psychological Association & National Council on Measurment in Education. (2014). Standards for educational and psychological testing. American Educational Research Association. Anderson, R. C., Wilson, P. T. & Fielding, L. G. (1988). Growth in reading and how children spend their time outside of school. Reading Research Quarterly, 23, 285 – 303. Cipielewski, J. & Stanovich, K. E. (1992). Predicting growth in reading ability from children’s exposure to print. Journal of Experimental Child Psychology, 54, 74 – 89. https://doi.org/10.1016/ 0022-0965(92)90018-2 Gehrer, K. & Artelt, C. (2013). Literalität und Bildungslaufbahn: Das Bildungspanel NEPS. In C. Rosebrock & A. Bertschi-Kaufmann (Hrsg.), Literalität erfassen: bildungspolitisch, kulturell, individuell (S. 168 – 187). Weinheim: Beltz Juventa. Greaney, V. & Hegarty, M. (1987). Correlates of leisure-time reading. Journal of Research in Reading, 10, 3 – 20. https://doi.org/ 10.1111/j.1467-9817.1987.tb00278.x Guthrie, J. T., Wigfield, A., Metsala, J. L. & Cox, K. E. (1999). Motivational and cognitive predictors of text comprehension and reading amount. Scientific Studies of Reading, 3, 231 – 256. https://doi.org/10.1207/s1532799xssr0303_3 Haberkorn, K., Pohl, S., Hardt, K. & Wiegand, E. (2012). NEPS Technical Report for Reading – Scaling Results of Starting Cohort 4 in Ninth Grade (NEPS Working Paper No. 16). Bamberg: Otto-Friedrich-Universität, Nationales Bildungspanel. Hartig, J., Frey, A. & Jude, N. (2012). Validität. In H. Moosbrugger & K. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion (S. 135 – 163). Berlin Heidelberg: Springer. Hayes, D. P. & Ahrens, M. G. (1988). Vocabulary simplification for children: A special case of ‘motherese’?. Journal of Child Language, 15, 395 – 410. https://doi.org/10.1017/S03050009000 12411. Hertel, S., Hochweber, J., Mildner, D., Steinert, B. & Jude, N. (2014). PISA 2009 Skalenhandbuch. Münster; New York: Waxmann. McGeown, S. P., Osborne, C., Warhurst, A., Norgate, R. & Duncan, L. G. (2016). Understanding children’s reading activities: Reading motivation, skill and child characteristics as predictors. Journal of Research in Reading, 39, 109 – 125. https://doi.org/ 10.1111/1467-9817.12060. Mol, S. E. & Bus, A. G. (2011). To read or not to read: A metaanalysis of print exposure from infancy to early adulthood. Psychological Bulletin, 137, 267 – 296. https://doi.org/10.1037/ a0021890. Muthén, L. K. & Muthén, B. O. (1998 – 2007). Mplus user’s guide (5. Aufl.). Los Angeles: Muthén & Muthén. Naumann, J., Artelt, C., Schneider, W. & Stanat, P. (2010). Lesekompetenz von PISA 2000 bis PISA 2009. In E. Klieme, C. Artelt, J. Hartig, N. Jude, O. Köller & M. Prenzel et al.(Hrsg.), PISA 2009. Bilanz nach einem Jahrzehnt (S. 23 – 71). Münster/New York/ München/Berlin: Waxmann. Organisation for Economic Cooperation and Development. (2012). PISA 2009 Technical Report. PISA, OECD Publishing. Diagnostica (2019), 65 (1), 26–36


36

F. M. Locher und M. Pfost, Erfassung des Lesevolumens in Large-Scale Studien

Pfost, M., Dörfler, T. & Artelt, C. (2010). Der Zusammenhang zwischen außerschulischem Lesen und Lesekompetenz. Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 42, 167 – 176. https://doi.org/10.1026/0049-8637/a000017. Pfost, M., Dörfler, T. & Artelt, C. (2013). Students’ extracurricular reading behavior and the development of vocabulary and reading comprehension. Learning and Individual Differences, 26, 89 – 102. https://doi.org/10.1016/j.lindif.2013.04.008. Pohl, S., Haberkorn, K., Hardt, K. & Wiegand, E. (2012). NEPS Technical Report for Reading – Scaling Results of Starting Cohort 3 in Fifth Grade (NEPS Working Paper No. 15). Bamberg: Otto-Friedrich-Universität, Nationales Bildungspanel. Schaffner, E. (2009). Determinanten des Leseverstehens. In W. L. W. Schneider (Hrsg.), Diagnostik und Förderung des Leseverständnisses (S. 19 – 44). Göttingen: Hogrefe. Schroeder, S., Segbers, J. & Schröter, P. (2016). Der Kinder-Titelrekognitionstest (K-TRT). Diagnostica, 62, 16 – 30. https://doi. org/10.1026/0012-1924/a000131.

Spear-Swerling, L., Brucker, P. O. & Alfano, M. P. (2010). Relationships between sixth-graders’ reading comprehension and two different measures of print exposure. Reading and Writing, 23, 73 – 96. https://doi.org/10.1007/s11145-008-9152-8. Walberg, H. J. & Tsai, S.-l. (1984). Reading achievement and diminishing returns to time. Journal of Educational Psychology, 76, 442 – 451. https://doi.org/10.1037/0022-0663.76.3.442. Onlineveröffentlichung: 25. 06. 2018 M.Sc. Franziska M. Locher Prof. Dr. Maximilian Pfost Humanwissenschaftliche Fakultät Otto-Friedrich-Universität Bamberg Lehrstuhl für Empirische Bildungsforschung Markusstraße 8a 96045 Bamberg franziska.locher@uni-bamberg.de

Lesefertigkeiten bei Grundschulkindern PC-gestützt fördern Manual

Lesespiele mit Elfe und Mathis

Alexandra Lenhard Wolfgang Lenhard Petra Küspert

Computerbasierte Leseförderung für die erste bis vierte Klasse 2., überarbeitete Auflage

Alexandra Lenhard / Wolfgang Lenhard / Petra Küspert

Lesespiele mit Elfe und Mathis Computerbasierte Leseförderung für die erste bis vierte Klasse

(Reihe: „Hogrefe Förderprogramme“) 2., überarb. Auflage 2018, 62 Seiten, € 89,00 / CHF 109.00 ISBN 978-3-8017-2948-6 Auch als eBook erhältlich

Die Lesespiele mit Elfe und Mathis sind ein computerbasiertes Förderund Übungsprogramm zur Verbesserung der Lesefertigkeiten. Das Training umfasst die Bereiche Laute und Silben, Wörter, Sätze sowie Texte und Strategien. Es kann als Ergänzung zum regulären Schriftspracherwerb eingesetzt werden und zur außerschulische Förderung und Therapie. Für die 2., überarbeitete Auflage wurde das Programm technisch komplett überarbeitet und es wurden neue Einstellungsmöglichkeiten hinzugefügt. (Inkl. USB-Stick).

USB

Hogrefe Förderprogramme

www.hogrefe.com

Diagnostica (2019), 65 (1), 26–36

© 2018 Hogrefe Verlag


BoDyS

PITVA

Bogenhausener Dysarthrieskalen

Potsdamer Intelligenztest für das Vorschulalter

W. Ziegler / T. Schölderle / A. Staiger / M. Vogel

A. Wyschkon / G. Esser

Tests für die Neuropsychologie Hrsg. von M. Eid / M. Niedeggen / K. Wilmes-von Hinckeldey / W. Ziegler Einsatzbereich: Die Bogenhausener Dysarthrieskalen (BoDyS) sind ein Instrument für die Untersuchung von motorischen Sprechstörungen bei erwachsenen Patienten mit neurologischen Erkrankungen. Das Verfahren: Bei den BoDyS werden in drei parallel aufgebauten Testdurchgängen Sprechproben anhand von vier Aufgabentypen (Spontansprache, Nachsprechen von Sätzen, Textlesen, Nacherzählen von Bildergeschichten) erhoben. Die Aufnahmen dieser Sprechproben werden in einem zweischrittigen Verfahren auditiv analysiert. Dabei erfolgt die Bewertung entlang einer physiologisch-neurophonetischen Systematik. Die Testung ermöglicht eine auf Standardnormen beruhende Einschätzung des Gesamtschweregrads und gibt durch die Erstellung eines Störungsprofils einen umfassenden Überblick über Störungsschwerpunkte. Die Ergebnisse erlauben eine zufallskritische Einzelfalldiagnostik und können Grundlage für therapeutische Zielsetzung und Verlaufskontrolle sein. Für die Untersuchung wenig belastbarer Patienten und von Patienten mit eingeschränkter Lesefähigkeit liegen verkürzte Testversionen vor (8 bzw. 9 statt 12 Sprechproben), die ebenfalls standardnormiert sind. Normen: Die BoDyS wurden anhand einer Eichstichprobe, in die 220 erwachsene Patienten mit unterschiedlichen neurologischen Grunderkrankungen aufgenommen wurden, T-Wert-normiert. Bearbeitungsdauer: Die Durchführung der Untersuchung nimmt in der Vollversion 20 bis 30 Minuten in Anspruch, die Auswertung etwa 30 Minuten. Bei Verwendung der verkürzten Testvarianten reduzieren sich Durchführungs- und Auswertungszeiten entsprechend.

Einsatzbereich: Individualtest zur Erfassung der Grundintelligenz von Kindergartenkindern im Alter von 4;0 bis 6;5 Jahren. Das Verfahren: Der PITVA ermöglicht die weitgehend sprach- und kulturfreie Erfassung der Grundintelligenz von Kindergartenkindern anhand von drei Untertests. Im Untertest Bilderreihen besteht die Aufgabe des Kindes darin, zwischen mehreren Bildern dasjenige auszusuchen, das nicht zu den übrigen passt. Im Untertest Seriation müssen Muster nach bestimmten Regeln vom Kind nachgebaut werden. Im Matrizentest des PITVA wählt das Kind schließlich u. a. unter Beachtung von semantischen Kategorien die fehlende Abbildung für eine Matrize. Die Anforderungen des Tests an das Sprachverständnis des Kindes sind gering, aktive Sprachleistungen sind zur Aufgabenlösung nicht erforderlich. Eine sprachfreie Erfassung der Grundintelligenz spielt insbesondere als Referenz bei Sprachstörungen eine Rolle, die häufig in der hier betrachteten Altersgruppe diagnostiziert werden. Zudem ist die Grundintelligenz ein wichtiger Prädiktor für die spätere schulische Entwicklung von Kindern. Aufgrund der höheren Anzahl von Aufgaben mit altersangemessenen Schwierigkeiten erfasst der PITVA die nonverbale Intelligenz differenzierter als Tests mit einem breiteren Altersbereich. Die separate Normierung der einzelnen Untertests macht den PITVA zu einem gleichzeitig ökonomischen und differenzierten Instrument zur Erfassung der nonverbalen Intelligenz bei Kindergartenkindern. Normen: Die Normierung des PITVA erfolgte an einer Stichprobe von N = 987 Kindergartenkindern im Alter von 4;0 bis 6;5 Jahren. Normwerte liegen für die drei Untertests sowie für den Gesamtwert der nonverbalen Intelligenz vor (für den Altersbereich der 4;0- bis 5;11-Jährigen im Vierteljahresabstand, die 6;0- bis 6;5-Jährigen bilden eine weitere Normgruppe). Bearbeitungsdauer: Die Durchführungsdauer des PITVA beträgt durchschnittlich ca. 15 bis 20 Minuten. Die Auswertung nimmt ca. 5 Minuten in Anspruch.

01 538 01

Test komplett

www.hogrefe.com

118,00 €

01 439 01

Test komplett

www.hogrefe.com

498,00 €


Unsere Buchtipps Uwe P. Kanning Diagnostik für Führungspositionen

Diagnostik für Führungspositionen

Allgemeiner Interessen-StrukturTest mit Umwelt-Struktur-Test (UST-3) – Version 3 C. Bergmann / F. Eder Einsatzbereich: Jugendliche ab dem 14. Lebensjahr und Erwachsene. Berufsorientierung, Berufsentscheidung, innerbetriebliche Laufbahn- und Personalentscheidungen.

Uwe Peter Kanning

Kompendien Psychologische Diagnostik

(Reihe: „Kompendien Psychologische Diagnostik“, Band 17). 2018, 186 Seiten, € 24,95 / CHF 32.50 ISBN 978-3-8017-2946-2 Auch als eBook erhältlich Dieses Buch leitet Prinzipien guter Führungskräftediagnostik aus der Forschung ab und erläutert diese anhand von zahlreichen Praxisbeispielen – von der Durchführung von Anforderungsanalysen bis zur professionellen Gestaltung von Leistungsbeurteilungssystemen. Uwe P. Kanning

Standards der Personaldiagnostik

Personalauswahl professionell gestalten Uwe Peter Kanning

AIST-3

Standards der Personaldiagnostik Personalauswahl professionell gestalten 2., überarbeitete und erweiterte Auflage

2., überarb. und erw. Auflage 2019, 796 Seiten, geb., € 79,95 / CHF 99.00 ISBN 978-3-8017-2740-6 Auch als eBook erhältlich

Das Verfahren: Der AIST-3 ist eine grundlegende Neubearbeitung des AIST-R (2005) und dient der Erfassung schulisch-beruflicher Interessen auf der Basis des Modells von J. L. Holland. Er besteht aus 60 Items, mit denen sechs Interessendimensionen gemessen werden: R: Praktisch-technische Interessen (Realistic), I: Intellektuell-forschende Interessen (Investigative), A: Künstlerisch-sprachliche Interessen (Artistic), S: Soziale Interessen (Social), E: Unternehmerische Interessen (Enterprising), C: Konventionelle Interessen (Conventional). Der Umwelt-Struktur-Test (UST3) ist ein mit dem AIST-3 korrespondierendes Verfahren, das die Beschreibung schulisch-beruflicher Umwelten nach denselben Dimensionen erlaubt. Zusätzlich enthält das Manual ein umfangreiches und aktuelles Register mit Holland-Codes für Berufe und Ausbildungen. Jedes individuelle Interessenprofil ist somit mit entsprechenden Berufsempfehlungen verknüpfbar. Für die Neubearbeitung wurden überholte bzw. technisch problematische Items ausgetauscht. Darüber hinaus wurde die Normierung erweitert; es liegen nun auch altersspezifische Normen vor. Zudem wurde das Berufsregister erheblich ergänzt, die Fallbeispiele überarbeitet und die Literatur aktualisiert. Für beide Fragebögen (AIST-3 und UST-3) liegt nun ein gemeinsames Auswertungsblatt vor. Bearbeitungsdauer: Die Durchführungsdauer beträgt je Fragebogen ca. 10 bis 15 Minuten.

In diesem Buch wird der gesamte Prozess der Personalauswahl von der Anforderungsanalyse über das Personalmarketing, die Sichtung von Bewerbungsunterlagen, Testdiagnostik und Einstellungsinterviews bis zum Assessment Center mit konkreten Empfehlungen für die Praxis dargestellt. 01 214 01

www.hogrefe.com

Test komplett

www.hogrefe.com

168,00 €


Originalarbeit

WOR-TE: Ein Ja / NeinWortschatztest für Kinder verschiedener Altersgruppen Entwicklung und Validierung basierend auf dem Rasch-Modell Jutta Trautwein und Sascha Schroeder Zusammenfassung: In dem vorliegenden Artikel wird der Wortschatztest WOR-TE für deutsche Grundschulkinder vorgestellt. Der Test basiert auf der Ja / Nein-Methode, bei der die Teilnehmerinnen und Teilnehmer aus einer Liste von Wörtern und Pseudowörtern diejenigen ankreuzen sollen, die sie kennen. Er wurde für verschiedene Altersgruppen (1./2. Klasse, 3./4. Klasse, 5./6. Klasse) konzipiert und ItemResponse-Theory-basiert mit dem Rasch-Modell validiert. Anhand des Validitätskonzepts nach Messick (1995) wurden verschiedene Aspekte von Konstruktvalidität untersucht: Inhaltliche Aspekte, Relevanz, Repräsentativität, Technische Qualität, substantielle Aspekte, Generalisierbarkeit und externe Aspekte. Die Ergebnisse zeigen, dass der Test ein valides Instrument zur Erfassung des orthographischen Wortschatzes im Grundschulalter darstellt und durch kleine Veränderungen, insbesondere in Bezug auf die Item-Auswahl, profitieren würde. Möglichkeiten des Einsatzes sowie Einschränkungen des Verfahrens werden diskutiert, ebenso wie die Verwendung des Validitätskonzeptes mit IRT für Ja / Nein-Test im Allgemeinen. Schlüsselwörter: Wortschatztest, Ja / Nein-Methode, Item Response Theory, Rasch Modell, Validierung

A Yes / No Vocabulary Test for Children of Different Age Groups: Development and Validation Based on the Rasch Model Abstract: In this article we present a vocabulary test for German primary school children. The test is based on the yes / no method where participants identify words they know out of a list of words and pseudowords. The test was developed for different age groups (Grade 1/2, Grade 3/4, Grade 5/6) and validated via item response theory (IRT), namely, the Rasch model. Following the concept suggested by Messick (1995), we analyzed several aspects of construct validity: content aspects, relevance, representativity, technical quality, substantial aspects, generalizability, and external aspects. Results show that the test is a valid instrument for measuring the orthographic vocabulary of German primary school children but could also benefit from some minor changes concerning, for example, item selection. Possible applications and limitations of the instrument are discussed as well as the use of the validity concept and the validation via IRT for yes / no vocabulary tests in general. Keywords: vocabulary test, yes / no method, item response theory, Rasch model, validation

Der Wortschatz stellt eine essenzielle Komponente der Sprachkompetenz dar und hängt eng mit der Lesefähigkeit und dem Schulerfolg zusammen (Biemiller, 2003, 2006). Er gilt daher in vielen frühen Screeningverfahren als Indikator für eine Sprachentwicklungsstörung (z. B. Elternfragebögen für die Früherkennung von Risikokindern – ELFRA; Grimm & Doil, 2006). Im späteren Spracherwerb wird der Wortschatz als Prädiktor für Lese- und Schreibfertigkeiten angesehen. So konnten Muter, Hulme, Snowling und Stevenson (2004) zeigen, dass die Wortschatzgröße zu Beginn der Grundschule das spätere Leseverständnis vorhersagte. Auch in querschnittlichen Untersuchungen wurde ein Zusammenhang zwischen Wortschatz © 2018 Hogrefe Verlag

und Leseverständnis nachgewiesen (Ricketts, Nation & Bishop, 2007; Ouellette & Beers, 2010). Zudem wird die Lesegeschwindigkeit als Teil der Lesefähigkeit vom Wortschatz beeinflusst (z. B. Anderson, Wilson & Fielding, 1988). Perfetti und Stafura (2013) nehmen an, dass ein besserer Wortschatz den lexikalischen Zugriff erleichtert, was wiederum das Leseverständnis begünstigt. Da die Lesefähigkeit zentral für den Schul- und daran anschließenden beruflichen Erfolg sowie die Teilhabe an der Gesellschaft ist, ist es entscheidend, Defizite und ihre Gründe früh aufzudecken, um effektive Trainingsmethoden einzuleiten (Biemiller, 2005).

Diagnostica (2019), 65 (1), 37–48 https://doi.org/10.1026/0012-1924/a000212


38

J. Trautwein und S. Schroeder, WOR-TE: Ein Ja / Nein- Wortschatztest für Kinder verschiedener Altersgruppen

Das Konstrukt Wortschatz ist nicht leicht zu definieren. Perfetti und Hart (2002) gehen in ihrer Hypothese der lexikalischen Qualität davon aus, dass der Wortschatz eine phonologische, eine orthographische und eine semantische Komponente umfasst. Die phonologische Komponente beinhaltet Wissen über die Aussprache, die orthographische über die Schreibung und die semantische über die Bedeutung eines Wortes. Die verschiedenen Wissensebenen können für ein Wort unterschiedlich stark ausgeprägt sein. Beim Lesen muss demnach zunächst die orthographische Form des Wortes abgerufen werden, für das Leseverständnis zudem das semantische Wissen und zum lauten Lesen die phonologische Komponente. So wird es auch häufig in Modellen zur visuellen Worterkennung angenommen (z. B. das Dual Route Model; Coltheart, Rastle, Perry, Lagdon & Ziegler, 2001). Demnach ist insbesondere der orthographische Wortschatz für die Lesefähigkeit entscheidend. Eine Möglichkeit zur Messung des orthographischen Wortschatzes ist die Ja / Nein-Methode von Anderson und Freebody (1983). Teilnehmende identifizieren alle ihnen bekannten Wörter innerhalb einer Wortliste. Um Raten zu vermeiden, enthält die Liste auch Pseudowörter. Anderson und Freebody (1983) fanden bei Fünftklässlerinnen und Fünftklässlern hohe Korrelationen mit mündlichen Definitionsaufgaben und Multiple-Choice-Wortschatztests und den Ergebnissen aus dem Ja / Nein-Test (r = .84 für Multiple Choice, r > .85 für Definitionsaufgaben). Die Autoren haben demnach ein valides Instrument zur Erfassung des orthographischen Wortschatzes entwickelt und zudem Zusammenhänge zu semantischem Wissen über Wörter gefunden. Ähnliche Ergebnisse erzielten auch andere Studien (z. B. Mochida & Harrington, 2006: r = .85 für Multiple Choice; Pellicer-Sánchez & Schmitt, 2012: r = .89 für mündliche Definitionen). Obwohl Anderson und Freebody (1983) den Wert von Ja / Nein-Tests auch für Kinder demonstriert haben, wird er bislang vornehmlich für die Messung des Wortschatzes von Erwachsenen in einer Zweitsprache verwendet (z. B. Eyckmans, 2004; Huibregtse, Admiraal & Merea, 2002; Merea & Buxton, 1987; Mochida & Harrington, 2006; Lemhöfer & Broersma, 2012). Das Testformat unterscheidet sich von anderen bereits bestehenden Verfahren für Kinder im Deutschen, welche vielmals primär auf die semantische Ebene des Wortschatzes abzielen (z. B. Peabody Picture Vocabulary Test – PPVT-4; Lenhard, Lenhard, Segerer & Suggate, 2015; Patholinguistische Diagnostik bei Sprachentwicklungsstörungen – PDSS, Kauschke & Siegmüller, 2009). Hierbei wird häufig mit dem Benennen oder Zeigen von Bildern nach mündlicher Vorgabe gearbeitet. Zudem sind existierende Verfahren meist nur in Einzelerhebungen durchführbar und zielen oftmals auf die Diagnose semantischer Defizite ab (z. B. WortschatzDiagnostica (2019), 65 (1), 37–48

und Wortfindungstest – WWT; Glück, 2011). Die meisten dieser bereits existierenden Instrumente sind außerdem für Vorschulkinder konzipiert worden. Ein weiteres Testformat für Schulkinder und Erwachsene ist die Auswahl von Synonymen nach schriftlicher Vorgabe (z. B. Grundintelligenztest – CFT-20; Weiß, 2006). Allerdings ist die Aufgabe sehr stark von den Distraktor-Items abhängig. Das Wissen über die Bedeutung der Distraktor-Items kann demnach die Lösung der Aufgabe beeinflussen (Anderson & Freebody, 1983). Mit steigendem Alter wird dies aber schwieriger, da der Wortschatz substanziell wächst, insbesondere im Schulalter (Segbers & Schroeder, 2017; Anglin, Miller & Wakefield, 1993). Geeignete Verfahren für Schulkinder, die für verschiedene Altersgruppen geeignet sind, gibt es im Deutschen aktuell nicht. Da die Ergebnisse zum Ja / Nein-Testformat von Anderson und Freebody (1983) ermutigend sind und die Notwendigkeit besteht, den orthographischen Wortschatz im Grundschulalter zu messen, ist es vielversprechend, den Tests für das Grundschulalter zu adaptieren. Tatsächlich birgt das Verfahren Vorteile für die praktische Anwendung: Wegen des geringen kognitiven Aufwands kann eine große Anzahl an Items in kurzer Zeit dargeboten werden. Zudem kann der Test in Gruppentestungen durchgeführt werden. Bisher wurden die Verfahren lediglich über die Korrelationen zu Definitionsaufgaben oder Multiple-Choice-Verfahren validiert (z. B. Anderson & Freebody, 1983; Mochida & Harrington, 2006; Pellicer-Sánchez & Schmitt, 2012). Messick (1995) zufolge bezieht sich diese Art von Validierung auf die konvergente Validität, welche durch die Korrelation des Testscores mit externen Variablen, die dasselbe oder assoziierte Konstrukte messen, definiert ist. Er nennt allerdings noch weitere Aspekte, die zur Validierung eines Tests herangezogen werden sollten. Messick (1995) beschreibt inhaltliche Aspekte, die die Relevanz, die Repräsentativität und die technische Qualität des Testinhalts umfassen. Sie zielen damit darauf ab, zu überprüfen, inwiefern die Inhalte eines Tests zur Messung der entsprechenden Fähigkeit angemessen sind. Er beschreibt auch substanzielle Aspekte, die sich auf die Einbettung der Testergebnisse in ein nomologisches Netzwerk beziehen. Damit ist die Passung der Testergebnisse zu vorherigen Annahmen in Bezug auf die gemessene Fähigkeit gemeint. Des Weiteren nennt er strukturelle Aspekte, die sich auf Annahmen zur Struktur des zu messenden Konstrukts beziehen, Generalisierbarkeit, die die Adaption des Testformats für andere Items oder andere Teilnehmende meint, und externe Aspekte, die die Korrelation mit konvergenten und divergenten Variablen beinhaltet. Ein Ansatz zur Anwendung dieses Konzepts der Validierung für Wortschatztests wurde von Beglar (2010) sowie McLean, Kramer und Beglar (2015) vorgestellt. Sie untersuchten die verschiedenen Aspekte von Validität © 2018 Hogrefe Verlag


J. Trautwein und S. Schroeder, WOR-TE: Ein Ja / Nein- Wortschatztest für Kinder verschiedener Altersgruppen

39

Tabelle 1. Verteilung der Frequenz und Itemschwierigkeit auf die drei Testversionen Log Lemma Frequenz

Itemschwierigkeit

Testversion

M (SD)

Bereich

M (SD)

Klasse 1/2

1.5 (0.4)

2.7 – 1.0

-0.62 (0.88)

Klasse 3/4

0.6 (0.1)

0.9 – 0.4

1.05 (1.38)

Klasse 5/6

0.0 (0.1)

0.4 – 0.2

2.56 (1.46)

unter der Verwendung der Item Response Theory (IRT) anhand des Rasch-Modells. Shillaw (1996) zeigte zudem bereits, dass das Rasch-Modell für die Auswertung von Ja / Nein-Wortschatztests geeignet ist. In der vorliegenden Studie wird ein Ja / Nein-Wortschatztest WOR-TE für deutsche Grundschulkinder verschiedener Altersgruppen vorgestellt. Beruhend auf dem Konzept der Validität von Messick (1995) sowie dem IRTbasierten Ansatz von Beglar (2010) und McLean et al. (2015) soll dabei gezeigt werden, dass es sich bei dem Test um ein valides Instrument zur Erfassung des orthographischen Wortschatzes von Grundschulkindern handelt. Dazu werden die Testergebnisse mithilfe des RaschModells skaliert und auf die verschiedenen Aspekte der Validität nach Messick (1995) untersucht.

Testentwicklung Um eine breite Altersspanne von Grundschulkindern abzudecken, wurden drei Testversionen des WOR-TE (Wortschatz-Test) für verschiedene Altersgruppen (1./2. Klasse, 3./4. Klasse, 5./6. Klasse) entwickelt. Da die Wortfrequenz die Itemschwierigkeit in Wortschatztests hauptsächlich bestimmt (z. B. Beglar, 2010), wurde die mittlere Lemmafrequenz1 der Items (childLex Kinderkorpus; Schroeder, Würzner, Heister, Geyken & Kliegl, 2015) in den verschiedenen Testversionen systematisch manipuliert (Tabelle 1). Die Auswahl passender Frequenzen für jede Altersgruppe basierte auf Ergebnissen von vorherigen Studien (u. a. Developmental Lexicon Study; Schröter & Schroeder, 2017). Die Materialien beinhalteten Nomen, Verben und Adjektive. Jede Testversion umfasste 100 Wörter. Um einen Vergleich der drei Testversionen zu ermöglichen, waren 20 Wörter in allen Testversionen identisch. Diese 20 Anker-Items wurden aus dem Frequenzbereich von allen drei Testversionen ausgewählt. Zusätzlich teilten sich aufeinanderfolgende Testversionen jeweils zehn Items. Das bedeutet, die Testversion für die 1. und 2. Klasse

1

umfasste 70 unique Items, 20 Anker-Items, die in allen Testversionen enthalten waren, und 10 Anker-Items, die ebenfalls in der Version für die 3. und 4. Klasse enthalten waren. Die Testversion für die 3. und 4. Klasse enthielt 60 unique Items, die 20 allgemeinen Anker-Items, 10 geteilte Anker-Items mit der 1. und 2. Klasse und 10 geteilte Anker-Items mit der Version für die 5. und 6. Klasse. Die Testversion für die 5. und 6. Klasse enthielt 70 unique Items, die 20 allgemeinen Anker-Items sowie die 10 geteilten Items aus der Version für die 3. und 4. Klasse. Der Test umfasst damit insgesamt 240 Items. Um das Raten zu minimieren, wurden zu jeder Testversion 24 Pseudowörter hinzugefügt. Diese wurden durch das Austauschen von mindestens einem Buchstaben in einem realen Wort bzw. die Aneinanderreihung von Morphemen konstruiert und waren in jeder Testversion gleich. Für jede Altersgruppe wurden zwei Pseudoparallel-Versionen A und B mit randomisierter Item-Reihenfolge erstellt. Die wortwörtliche Instruktion für die teilnehmenden Kinder lautete: „Im Folgenden seht ihr eine Liste von Wörtern. Ihr sollt die Wörter markieren, die ihr kennt. Dabei dürft ihr nicht raten, denn die Liste enthält auch Wörter, die es gar nicht gibt. Wenn ihr ratet, merken wir das sofort. Kreuzt nur die Wörter an, die ihr wirklich kennt.“ Drei Beispielitems (2 Wörter und 1 Pseudowort) wurden zur Veranschaulichung der Aufgabe besprochen. Abhängig von der Altersgruppe dauerte die Testdurchführung 5 bis 15 Minuten.

Methode Stichprobe Insgesamt nahmen N = 422 Kinder (Klassen 1 – 6) von fünf Berliner Grundschulen an der Studie teil. Vierundzwanzig Kinder (6 %) füllten den Wortschatztest unvollständig aus und wurden daher aus den weiteren Analysen ausgeschlossen, sodass die Daten von N = 398 Kindern (198

Als Lemma wird die zitierfähige Grundform eines Wortes bezeichnet.

© 2018 Hogrefe Verlag

Diagnostica (2019), 65 (1), 37–48


40

J. Trautwein und S. Schroeder, WOR-TE: Ein Ja / Nein- Wortschatztest für Kinder verschiedener Altersgruppen

Tabelle 2. Stichprobenbeschreibung und mittlere Hit- und False-Alarm-Raten pro Altersgruppe Geschlecht Klasse

N

M Alter (SD)

männl.

weibl.

Muttersprache NA

D

ND

NA

M Hit Rate (SD)

M False Alarm Rate (SD)

1

37

6.6 (0.5)

13

23

1

18

16

3

.56 (.17)

.16 (.10)

2

49

7.3 (0.7)

24

25

0

33

14

2

.53 (.20)

.11 (.11)

3

75

8.0 (0.6)

38

35

2

49

23

3

.38 (.18)

.05 (.07)

4

107

9.0 (0.6)

65

42

0

67

37

3

.52 (.17)

.05 (.07)

5

62

10.0 (0.6)

22

40

0

35

26

1

.30 (.14)

.05 (.05)

6

68

11.2 (0.6)

35

33

0

31

34

3

.44 (.16)

.05 (.07)

398

8.9 (1.6)

197

198

3

233

150

15

.45 (.19)

.06 (.08)

total

Anmerkungen: NA = Keine Angabe, D = Deutsch als einzige Muttersprache, ND = weitere Muttersprachen neben Deutsch.

weiblich, 197 männlich, 3 ohne Geschlechterangabe) verwendet werden konnten. Ein Großteil der Kinder (233, 59 %) gab Deutsch als ihre einzige Muttersprache an, während 150 Kinder (38 %) angaben, mindestens eine weitere Muttersprache gelernt zu haben. Eigenschaften der Stichprobe sind in Tabelle 2 enthalten.

Instrumente Der Wortschatz wurde mit dem Subtest Sprachverständnis (Kognitiver Fähigkeitstest – KFT1 – 3, Heller & Geisler, 1983) bzw. Wortschatz (Kognitiver Fähigkeitstest – KFT 4 – 12+ R, Heller & Perleth, 2000) untersucht. In der Version für die 1. bis 3. Klassenstufe wählen die Kinder nach auditiver Vorgabe ein passendes Bild aus fünf Bildern aus. Für die 4. bis 12. Klasse handelt es sich um ein MultipleChoice-Verfahren, wobei zu einem fettgedruckten Wort das passende Synonym gesucht werden muss. Die Rohwerte wurden in jahrgangsspezifische T-Werte überführt. Die Reliabilität wurde mit Cronbachs α von .57 (1. – 3. Klasse) bzw. .71 (4. – 6. Klasse) bestimmt. Für die früheren Klassen ist sie damit zu gering, in den höheren Altersstufen akzeptabel. Die Lesegeschwindigkeit wurde mit dem Salzburger Lese-Screening für die Klassenstufe 1 – 4 – SLS 1 – 4 (Mayringer & Wimmer, 2003) bzw. 5 – 8 (Auer, Gruber, Mayringer & Wimmer, 2005) erfasst. Dabei sollen die Kinder innerhalb von drei Minuten für möglichst viele Sätze angeben, ob sie wahr oder falsch sind. Der Testscore ergibt sich aus den korrekt markierten Sätzen. Es werden alterskorrigierte Normwerte verwendet. Cronbachs α zur Überprüfung der Reliabilität lag bei .96 und ist somit sehr gut. Orthographische Fähigkeiten wurden mit der Hamburger Schreibprobe 1 – 9 (May, 2002) ermittelt. Dabei werden Wörter und Sätze diktiert und anschließend die richtigen Grapheme gezählt. Die Ergebnisse werden als alterskorrigierte T-Werte berichtet. Zur Berechnung der ReliabiliDiagnostica (2019), 65 (1), 37–48

tät wurde die Anzahl richtiger Grapheme pro Wort verwendet. Da verschiedene Wörter pro Altersgruppe eingesetzt werden, wurde Crohnbachs α separat berechnet. Der Mittelwert war mit M = .81 sehr zufriedenstellend. Da die orthographischen Fähigkeiten in der 1. Klasse noch sehr stark schwanken, fand hier keine Erfassung statt. Die nonverbale Intelligenz der Teilnehmenden wurde mit dem Matrizen-Subtest des CFT 1 (Cattell, Weiß & Osterland, 1997) bzw. CFT 20-R (Weiß, 2006) erhoben. Die Aufgaben bestehen jeweils aus einem Muster, welches mithilfe einer Auswahl von fünf Möglichkeiten vervollständigt werden muss. Testteilnehmerinnen und Testteilnehmer haben dafür sechs (CFT 1 für die Erstklässler) bzw. drei Minuten (CFT 20-R, ab Klasse 2) Zeit. Da lediglich ein Subtest durchgeführt wurde, können nur die Rohwerte (Anzahl richtiger Antworten) für die Analyse verwendet werden. Für die Überprüfung der Reliabilität wurde ein zufriedenstellender Wert von Cronbachs α mit .81 (1. Klasse) bzw. .68 (Klasse 2 – 6) berechnet.

Prozedur Das schriftliche Einverständnis der Eltern war notwendig für die Studienteilnahme. Alle Aufgaben wurden während der Schulzeit innerhalb von zwei Schulstunden (à 45 Minuten) im Klassenverband durchgeführt. Zusätzlich wurden demographische Daten (Alter, Geschlecht und Muttersprache) mit einem Fragebogen ermittelt. Mithilfe von Identifikationsnummern wurden die Daten anonymisiert. Für die Teilnahme erhielten die Kinder ein kleines Dankeschön.

Analysen Zur Analyse wurde eine Item-Response-Analyse unter Einsatz des Rasch-Modells (Embretson & Reise, 2000) © 2018 Hogrefe Verlag


J. Trautwein und S. Schroeder, WOR-TE: Ein Ja / Nein- Wortschatztest für Kinder verschiedener Altersgruppen

durchgeführt. Um Unterschiede zwischen den Altersgruppen zu berücksichtigen, wurden ein Multiple-GroupModell gewählt, bei dem die verschiedenen Altersgruppen als separate Gruppen behandelt wurden (Bock & Zimowski, 1997). Die 20 Ankeritems ermöglichten dabei eine Schätzung der Itemparameter von allen Testversionen auf einer gemeinsamen Skala (Embretson & Reise, 2000). Die Modelle wurden mit dem TAM Paket für R (Kiefer, Robitzsch & Wu, 2016) geschätzt, welches Margninal Maximum Likelihood (MML) für die Parameterschätzung verwendet (Mislevy & Stocking, 1989). Für die Modellschätzung wurde vertical linking und concurrent calibration genutzt (für einen Überblick über Skalierungsmethoden siehe Kolen & Brennan, 2004). Die Modelle wurden identifiziert, indem der erste Itemparameter auf 0 fixiert wurde. Personenparameter, die das latente Personenmerkmal des Wortschatzes repräsentieren, wurden ebenfalls mit MML geschätzt. Aufgrund fehlender korrekter Antworten musste ein Item (äsen, Version 5./6. Klasse) zuvor ausgeschlossen werden. Auf die Prüfung der Modellpassung wird im Ergebnisteil eingegangen.

Ergebnisse Die Raten der Hits und False Alarms sind in Tabelle 2 dargestellt. Im Folgenden werden in Bezug auf den Ja / Nein-Wortschatztest fünf verschiedene Aspekte von Konstruktvalidität nach Messick (1995) in Betracht gezogen. Im Anschluss werden die Passung des Rasch-Modells und die Validität des Tests bewertet und die Nützlichkeit der IRT-basierten Validierung diskutiert.

Inhaltliche Aspekte Zunächst wurde überprüft, inwieweit der Inhalt des Ja / Nein-Wortschatztests angemessen ist, um den Wortschatz der Testteilnehmenden zu messen. Inhaltliche Relevanz. Messick (1995) definiert die inhaltliche Relevanz als eine Auswahl von Aufgaben, die relevant für die Messung des Konstruktes sind. Für den vorliegenden Ja / Nein-Wortschatztest ist dies dadurch gegeben, dass die Wörter aus einem spezifischen Korpus für Kindersprache ausgewählt wurden. Diese Wörter werden daher mit hoher Wahrscheinlichkeit von den Kindern im Alltag rezipiert. Zur Anpassung an die jeweiligen Altersgruppen wurde zudem die Frequenz der Wörter für die verschiedenen Testversionen systematisch manipuliert (Tabelle 1). Zusätzlich dienten vorherige Studien (u. a. DeveL; Schröter & Schroeder, 2017) dazu, Wörter auszuwählen, die eine ausreichende Variabilität in den Erken© 2018 Hogrefe Verlag

41

nensraten bei der Zielgruppe hatten. Die inhaltliche Relevanz ist somit durch die Testkonstruktion gegeben. Repräsentativität. Messick (1995) betont, dass ein Test alle wichtigen Teile des Konstrukts enthalten muss, um repräsentativ zu sein. Dies beinhaltet eine ausreichende Anzahl von Items, eine adäquate Streuung der Itemschwierigkeit und das Fehlen von Lücken in der ItemHierarchie (Beglar, 2010). Abbildung 1 zeigt eine ItemPersonen-Zuordnung für die Itemschwierigkeit und den Personenparameter aus den Testergebnissen. Links ist die Verteilung der Itemschwierigkeit dargestellt. Die rechte Seite repräsentiert die Verteilung der Personenparameter. Bezüglich der Anzahl von Items empfiehlt Beglar (2010) zehn Items pro Schwierigkeitsstufe. In Abbildung 1 ist zu sehen, dass dieses Kriterium für die meisten Schwierigkeitsstufen erfüllt wurde, lediglich an den Rändern der Verteilung ist die Anzahl etwas geringer. Der Test würde also profitieren, wenn man besonders einfache und besonders schwere Items hinzufügt. Die Streuung der Itemschwierigkeit erscheint ausreichend. Sie rangiert zwischen -2.95 und 5.37, wobei 97 % der Personenparameter zwischen -2.5 und 5 lag. Es können keine Lücken in der Itemhierarchie beobachtet werden. Allerdings können vier Items aus der Version für die 5./6. Klasse als zu schwer angesehen werden (brüsk: 5.37; süffisant: 5.05; Häme: 4.59; schartig: 4.59). In einer neuen Testversion sollten diese Items ausgelassen bzw. ersetzt werden. Die Verteilung der Personenparameter zeigt keinen Bodenoder Deckeneffekt und der mittlere Standardfehler SE = .03 (SD = .005) lässt auf eine präzise Messung der Personenfähigkeit schließen. Um zusätzlich zu überprüfen, ob die Items repräsentativ für den gesamten Korpus sind, wurden die drei Maße Lemmafrequenz, Anzahl der orthographischen Nachbarn und Wortlänge der Items mit denjenigen der Wörter aus dem gesamten Korpus verglichen. Dafür wurden diejenigen Wörter aus dem gesamten Korpus herausgenommen, die nur einmal vorkamen unter der Annahme, dass sie nicht ausreichend repräsentativ für den Wortschatz eines Sprechers der Sprache sind. Der Vergleich der Maße ergab keinen Unterschied in der mittleren Frequenz der Items und der Wörter aus dem Gesamtkorpus, t (239) = -0.10, p = .92. Die Wortlänge unterschied sich dahingehend, dass im Gesamtkorpus insgesamt mehr längere Wörter enthalten waren, t (239) = -19.80, p < .001. Dies lässt sich dadurch erklären, dass im Gesamtkorpus auch Komposita enthalten sind, die für die Auswahl der Items nicht beachtet wurden. Bedingt durch die Wortlänge, die mit der Anzahl der orthographischen Nachbarn zusammenhängt, ergab sich auch bezüglich dieses Merkmals ein signifikanter Unterschied, t (239) = 3.71, p < .001. Schränkt man allerdings die Länge der Wörter im Gesamtkorpus entsprechend der Länge der Items ein, verschwindet dieDiagnostica (2019), 65 (1), 37–48


42

J. Trautwein und S. Schroeder, WOR-TE: Ein Ja / Nein- Wortschatztest für Kinder verschiedener Altersgruppen

Abbildung 1. Verteilung von Personen- und Itemparametern für den WOR-TE.

se Differenz, t (239) = 1.10, p = 0.27. Insgesamt kann man davon ausgehen, dass die ausgewählten Items repräsentativ für den Korpus und damit für die verwendete Sprache in deutscher Kinderliteratur sind. Technische Qualität. Technische Qualität meint die Passung der Items zum verwendeten Modell (Beglar, 2010). Um diese zu messen, wurde der Itemfit zum Rasch-Modell mit dem Maß der Rasch infit mean-square statistic (MNSQ)2 bestimmt. Angelehnt an McNamara (1996) wurde ein Kriterium von €2 Standardabweichungen vom Mittelwert der Infit Statistik (= 1) gewählt, um eine fehlende Passung zu identifizieren. Da die Standardabweichung 0.12 betrug, wird ein Infit-Wert zwischen 0.76 und 1.24 als akzeptabel für die Item-Passung behandelt. Kein Infit-Wert kleiner als 0.76 kann beobachtet werden, jedoch wird für zehn Items (4 %) ein zu hoher Wert gemessen (1./2. Klasse: Planet, Infit MNSQ = 1.38; Backe, Infit MNSQ = 1.31; Statue, Infit MNSQ = 1.31; starren, Infit MNSQ = 1.27; passieren, Infit MNSQ = 1.25; 5./6. Klasse: sengen, Infit MNSQ = 1.46; Spind, Infit MNSQ = 1.30; Ankeritems: Tresse, Infit MNSQ = 1.53; wähnen, Infit MNSQ = 1.34; konstatieren, Infit MNSQ = 1.30). Nach Ausschluss der unpassenden Items wurde ein neues Modell geschätzt und analog erneut der Itemfit überprüft. Dieser Prozess wurde so häufig wiederholt, bis keine unpassenden Items mehr vorhanden waren. Dabei wurden weitere 16 Items ausgeschlossen (1./2. Klasse: Schüssel, Museum, knirschen, Strahl, ignorieren, reagieren, Stapel, Gegend, grell; 3./4. Klasse: artig; 5./6. Klasse: Galosche, Fanfare, schwelen, graziös, imitieren; Ankeritems: Reuse). Zusammenfassend lässt sich bezüglich der inhaltlichen Aspekte festhalten, dass die Items relevant und repräsentativ für das zu messende Konstrukt des orthographischen

2

Wortschatzes sind, bis auf vier zu schwere Items. Durch die Analyse der technischen Qualität wurden zehn nicht passende Items identifiziert. Kleine Veränderungen an der Zusammensetzung der Items könnten zur Verbesserung des Tests beitragen. In einem nächsten Schritt wurden die unpassenden Items entfernt und ein neues Modell mit den 209 verbleibenden Items wurde geschätzt. Die neu geschätzten Parameter korrelierten hoch mit denen aus dem vorherigen Modell (Items: r = .99; Personen: r = .99). Die generellen Ergebnisse wurden durch die neue Modellschätzung also nicht verändert. Für die folgenden Analyseschritte wurde das Modell mit der reduzierten Itemanzahl verwendet. Um die Passung des Modells zusätzlich zu überprüfen, wurde zudem mithilfe der Q3-Statistik (Yen, 1984) evaluiert, ob die Antworten auf die Items unabhängig voneinander sind. Dazu wird die Residualkorrelation für alle Itempaare berechnet. Sie sollte bei lokaler Unabhängigkeit ungefähr 0 betragen. Im vorliegenden Modell ist dies der Fall, der Mittelwert der Q3-Statistik lag bei M = -0.01, SD = 0.09. Lediglich 3 % der gesamten Residualkorrelationen weichen mehr als zwei Standardabweichungen vom Mittelwert ab und können damit als Ausreißer angesehen werden. Die lokale Unabhängigkeit der Antworten ist damit gegeben, was zusätzliche Evidenz für die Passung des Rasch-Modells auf die Daten darstellt.

Substanzielle Aspekte Der substanzielle Aspekt von Validität betrifft die Passung der Testergebnisse zu vorherigen Theorien in Bezug auf Prozesse, die die Testleistung beeinflussen (Messick,

Mean Squares geben die χ² Statistik geteilt durch deren Freiheitsgerade an und zeigen inwiefern die tatsächlichen Antworten mit denen des Modells übereinstimmen.

Diagnostica (2019), 65 (1), 37–48

© 2018 Hogrefe Verlag


J. Trautwein und S. Schroeder, WOR-TE: Ein Ja / Nein- Wortschatztest für Kinder verschiedener Altersgruppen

1995). Es ist bereits bekannt, dass Wortfrequenz die Leistung in Aufgaben bei Wortschatztest beeinflusst. Um dies für die vorliegenden Daten zu überprüfen, wurde die Itemschwierigkeit mit der logarithmierten Lemmafrequenz der Items (childLex, Schroeder et al., 2015) korreliert. Mit r = -.74 kann die Korrelation als sehr hoch bezeichnet werden, was zeigt, dass hochfrequente Wörter einfacher zu erkennen sind. In Bezug auf die Testergebnisse der Kinder wurden Altersgruppe, Geschlecht und Muttersprache als relevante Faktoren, die die Testleistung beeinflussen können, betrachtet. Um den Effekt dieser drei Variablen zu messen, wurde jeweils eine einfaktorielle ANOVA mit dem Personenparameter als abhängige Variable und Altersgruppe, Geschlecht, Muttersprache als unabhängige Variablen gerechnet. Dazu wurden die Personen, die keine Angaben zu Geschlecht oder Muttersprache gemacht haben, ausgeschlossen (N = 11). Die Modelle zu Muttersprache und Geschlecht enthielten zusätzlich das Alter (zentriert an der jeweiligen Altersgruppe) als Kontrollvariable. Die Ergebnisse zeigen einen signifikanten Effekt der Altersgruppe, F(2,378) = 57.77, p < .001, ŋ² = .27. Post-hoc Analysen zeigen einen signifikanten Unterschied zwischen allen Altersgruppen, alle p < .001. Dies entspricht vorherigen Studien, da der Wortschatz mit dem Alter ansteigt (Segbers & Schroeder, 2017). Es gibt keinen Effekt des Geschlechts auf den orthographischen Wortschatz, F(1, 378) = 2.3, p = .103. Dies passt zu Ergebnissen aus vorherigen Studien, die keinen Unterschied im Wortschatz zwischen Jungen und Mädchen im Grundschulalter beobachtet haben (z. B. Anglin, Miller & Wakefield, 1993). Der Effekt der Muttersprache ist signifikant, F(1, 378) = 6.15, p = .013, ŋ² = .02, und zeigt, dass monolinguale Kinder ein signifikant höheres Testergebnis hatten als bi- und multilinguale Kinder. Dies steht im Einklang mit früheren Ergebnissen zu besserer Wortschatzfähigkeit von monolingualen im Gegensatz zu bilingualen Personen (z. B. Bialystok, Luk, Peets & Yang, 2010). Als ein weiterer Indikator für substanzielle Validität wurde das Rateverhalten betrachtet. Das Ja / Nein-Testformat beinhaltet Pseudowörter, um Rateverhalten zu minimieren. Für jedes Kind wurde der Anteil falsch ausgewählter Pseudowörter berechnet, um den Zusammenhang zwischen dem Rateverhalten und dem Testwert zu ermitteln. Der durchschnittliche Anteil angekreuzter Pseudwörter lag bei M = .07 (SD = .09). Für die einzelnen Klassenstufen ist sie in Tabelle 2 dargestellt. Sie ist damit in allen Klassen sehr niedrig, lediglich in der 1. und 2. Klasse war sie ein wenig erhöht. Allgemein raten Kinder bei der Durchführung nicht, was die allgemeine Konstruktvalidität des Instruments unterstützt. Zudem korreliert die False-Alarm-Rate nur mit r = -.15, t = -3.1, p = .002, mit dem Personenparameter aus dem Modell. © 2018 Hogrefe Verlag

43

Die Testleistung ist also weitgehend unabhängig von dem Antwortverhalten bei den Pseudowörtern. Der Einbezug eines Rateparameters in das Modell erscheint damit nicht indiziert. Im Diskussionsteil wird dieser Punkt noch einmal aufgegriffen. Zusammenfassend ist festzuhalten, dass die Testergebnisse zu substanziellen Theorien auf der Item-Ebene bezüglich Korrelationen mit Wortfrequenz und auf der Personen-Ebene bezüglich des Einflusses von Alter, Geschlecht und Muttersprache passen. Zudem wird das Rateverhalten durch den Einbezug von Pseudowörtern erfolgreich minimiert.

Strukturelle Aspekte Laut Messick (1995) ist es für die Testvalidität entscheidend, dass der Inhalt des Tests ein zugrundeliegendes Konzept misst. Im Fall des Ja / Nein-Tests handelt es sich hierbei um den orthographischen Wortschatz, der ein Konstrukt bzw. eine Dimension darstellt. Um zu überprüfen, ob der Test tatsächlich nur diese eine Dimension misst, wurde das Modell auf Eindimensionalität getestet. Dazu wurden zwei Modelle mit verschiedenen Dimensionen geschätzt und jeweils mit dem eindimensionalen anhand des Log Likelihoods verglichen. Im ersten Vergleichsmodell wurden die Dimensionen durch die drei Testversionen für verschiedene Altersgruppen definiert, sodass spezifische Items einer Testversion auf eine Dimension abgebildet wurden. Die Analyse ergab keinen signifikanten Unterschied zwischen den beiden Modellen, p = 1. In einem zweiten Vergleichsmodell wurden die Dimensionen nach Wortarten (Nomen, Verben, Adjektive) definiert, sodass jede Wortart eine Dimension darstellte. Auch hier zeigte sich kein signifikanter Unterschied zwischen den Modellen, p = 1. Daraus lässt sich schlussfolgern, dass die Hinzunahme weiterer Dimensionen das Modell nicht verbessert, was die Annahme von Eindimensionalität stützt. Somit stehen die Ergebnisse in Einklang mit der Annahme über die Struktur des zugrundeliegenden Konstrukts und erfüllen damit dieses Kriterium für Validität nach Messick (1995).

Generalisierbarkeit Die Generalisierbarkeit eines Tests lässt sich sowohl auf Item-Ebene als auch auf Personen-Ebene bestimmen und stellt ebenfalls einen Aspekt von Konstruktvalidität nach Messick (1995) dar. Auf der Item-Ebene wird betrachtet, inwiefern die Testergebnisse auf andere Items, die das gleiche Konstrukt messen, generalisiert werden können. Auf der Personen-Ebene wird betrachtet, inwieDiagnostica (2019), 65 (1), 37–48


44

J. Trautwein und S. Schroeder, WOR-TE: Ein Ja / Nein- Wortschatztest für Kinder verschiedener Altersgruppen

Tabelle 3. Interkorrelationen (Pearsons r) der Personenvariablen für konvergente und divergente Validität Interkorrelationen 1

2

3

4

5

[.90]

.51 (.14)

.40 (.17)

.37 (.21)

.21 (.12)

2 Multiple Choice-Wortschatz (KFT)

.64 (.14)

[.64]

.28

.43

.22

3 Leseflüssigkeit (SLS)

.41 (.17)

.36

[.96]

.49

.04

4 Schreibfähigkeit (HSP)

.38 (.21)

.54

.50

[.99]

.19

5 Nonverbale Intelligenz (CFT)

.26 (.14)

.34

.05

.23

[.67]

1 WOR-TE

Anmerkungen: Die obere Dreiecksmatrix enthält die manifesten, die untere die minderungskorrigierten Korrelationen. Die Reliabilität ist in der Diagonale in eckigen Klammern angegeben. Da die standardisierten Instrumente altersspezifische Werte ergeben, wurden die Korrelationen mit dem WOR-TE für jede Klassenstufe separat berechnet und anschließend gemittelt. Standardabweichungen sind in runden Klammern angegeben.

fern die Testergebnisse auf andere Populationen generalisiert werden können. Eine Möglichkeit, Generalisierbarkeit zu messen, ist die Kreuzvalidierung von Ergebnissen mithilfe verschiedener Teilungskriterien. Auf der ItemEbene wurden die 204 Items in zwei Gruppen geteilt und je ein neues Modell pro Gruppe geschätzt, wie bereits zur Prüfung der Modellpassung angegeben. Anschließend wurden die Personenparameter beider Modelle verglichen. Mit einer Korrelation von r = .94 zeigt sich ein starker Zusammenhang, was darauf hinweist, dass die Personenparameter auch mit verschiedenen Item-Gruppen hergestellt werden können. Auf der Personen-Ebene wurden die teilnehmenden Kinder in zwei Gruppen geteilt und jeweils ein neues Modell für jede Gruppe berechnet. Anschließend wurde die Korrelation der Itemparameter beider Modelle berechnet. Mit r = .97 kann diese als sehr hoch bewertet werden. Mit verschiedenen Stichproben werden demnach sehr ähnliche Itemparameter gemessen. Die Testergebnisse sind demnach durchaus generalisierbar, sowohl auf der Item- als auch auf der PersonenEbene, was wiederum die Validität des Tests laut Messicks Definition (1995) unterstreicht.

Externe Aspekte Der Zusammenhang zwischen Testergebnissen und anderen externen Variablen ist ein weiterer Aspekt von Validität. Messick (1995) schlägt vor, dabei sowohl konvergente Variablen, die eng mit dem zu messenden Konstrukt zusammenhängen, als auch divergente Konstrukte, die nur schwach oder gar nicht mit den Testergebnissen in Verbindung stehen, in Betracht zu ziehen. In vorherigen Studien ist der starke Zusammenhang zwischen mündlichen Definitionen und den Ergebnissen aus Ja / Nein-Wortschatztests häufig gezeigt worden (z. B. Anderson & Freebody, 1983; Mochida & Harrington, 2006). Für die vorliegende Untersuchung wurden in einer Pilotstudie Daten zur mündlichen Definition von KinDiagnostica (2019), 65 (1), 37–48

dern erhoben. Die teilnehmenden Kinder (N = 27, Alter M = 10.3, SD = 0.57) wurden nach Durchführung des Wortschatztests WOR-TE aufgefordert, mündliche Definitionen, sowohl zu einem Teil der angekreuzten als auch zu einem Teil der nicht angekreuzten Wörter, zu geben. Die Definitionen wurden auf Grundlage ihres semantischen Gehalts auf einer Skala von 0 bis 3 Punkten in Anlehnung an Gutierrez-Cleflen und DeCurtis (1999) bewertet. Die Ergebnisse zeigten zum einen, dass angekreuzte Wörter besser definiert werden konnten (M = 1.07, SD = 0.93) als nicht angekreuzte (M = 0.30, SD = 0.68). Zudem erwies sich ein hoher Zusammenhang zwischen dem summierten Definitionsergebnis und dem Personenparameter im WOR-TE, r = .69. Dies ist vergleichbar mit vorherigen Studien und weist darauf hin, dass der mit dem WOR-TE gemessene orthographische Wortschatz auch eng mit semantischen Kenntnissen über Wörter verbunden ist. Zusätzlich enthielt die vorliegende Studie zur Messung der konvergenten Validität mehrere (standardisierte) Instrumente, die Variablen, die eng mit dem orthographischen Wortschatz verknüpft sind, erheben. Dazu wurden der Wortschatz mit einem Multiple-Choice-Verfahren (KFT) gemessen, die Leseflüssigkeit (SLS) und die Schreibfähigkeit (HSP) erhoben. Tabelle 3 zeigt die Interkorrelationen der Personenvariablen (manifeste im oberen, minderungskorrigierte im unteren Dreieck). Es konnten wie erwartet moderate bis hohe Korrelationen des Personenparameters aus dem Ja / Nein-Wortschatztest mit den anderen Konstrukten gemessen werden. Ein größerer orthographischer Wortschatz hängt somit eng mit dem Wortschatz, der Leseflüssigkeit und der Schreibfähigkeit zusammen. Dies steht in Einklang mit vorherigen Studien zum Zusammenhang des Wortschatzes zu anderen Variablen (Anderson, Wilson, & Fielding, 1988; Aarnoutse, van Leeuwe, Voeten, & Oud, 2001) und zeigt, dass der WOR-TE tatsächlich den Wortschatz erfasst.

© 2018 Hogrefe Verlag


J. Trautwein und S. Schroeder, WOR-TE: Ein Ja / Nein- Wortschatztest für Kinder verschiedener Altersgruppen

Zur Messung der divergenten Validität wurde die nonverbale Intelligenz mithilfe eines CFT-Subtests (Matrizen) erhoben. Die Korrelation mit dem WOR-TE ist ebenfalls in Tabelle 3 dargestellt. Wie erwartet fällt sie relativ gering aus, r = .26. Ähnliche Ergebnisse wurden in anderen deutschen Wortschatztests gefunden (z. B. WWT, Glück, 2011). Bezüglich der externen Aspekte der konvergenten Validität konnten plausible Korrelationen für den WOR-TE mit anderen, dem orthographischen Wortschatz nahen Konstrukten gefunden werden. Zudem zeigen Daten aus einer Pilotstudie mit mündlichen Definitionen ähnliche Ergebnisse wie frühere Studien zu Ja / Nein-Wortschatztests. Für die divergente Validität wurde ein geringer Zusammenhang zwischen Wortschatz und nonverbaler Intelligenz gezeigt. Die Ergebnisse zur externen Validität sind damit zufriedenstellend.

Gültigkeit des Rasch-Modells Ein wesentlicher Aspekt bei der Verwendung des RaschModells für eine Testanalyse ist die Prüfung der Gültigkeit des Modells. Zwar liegt dafür kein allgemeingültiges Verfahren vor, dennoch können verschiedene Analysen, die die Annahmen des Modells bestätigen, zur Prüfung der Passung herangezogen werden (Rost, 1999). Viele dieser Analysen sind bereits im vorgestellten Validitätskonzept enthalten. Zum einen betrifft dies Analysen, die sich auf die Passung des Modells auf den Datensatz beziehen. In der vorliegenden Analyse sind dazu die Split-Half-Korrelationen heranzuziehen. Sowohl eine Aufteilung der Items in zwei Gruppen als auch eine Aufteilung der Personen in zwei Gruppen ergab eine hohe Korrelation der jeweiligen korrespondierenden Parameter. Die Modellannahme der Stichprobenunabhängigkeit ist damit bestätigt und spricht für die Modellpassung. Die Modellannahme der lokalen stochastischen Unabhängigkeit konnte zudem mit der Q3Statistik unterstrichen werden. Zum anderen können zur Prüfung des Modells Vergleiche mit anderen Modellen, die aus theoretischer Sicht sinnvoll sind und ebenfalls auf die Daten passen könnten, in Betracht gezogen werden (Rost, 1999). Hierzu wurde das vorliegende Modell mit Modellen mit mehreren Dimensionen verglichen, zum einen auf Ebene der Testversionen, zum anderen auf Ebene der Wortarten. Aus theoretischer Sicht liegt darin die Annahme, dass in den verschiedenen Altersgruppen (Testversionen) unterschiedliche Fähigkeiten zur Lösung des Tests benötigt werden bzw. für die verschiedenen Wortarten jeweils andere Kompetenzen gefragt sind. Beide Modelle zeigten keinen signifikanten Unterschied zum ursprünglichen Modell, was dessen Passung ebenfalls un© 2018 Hogrefe Verlag

45

terstreicht. Zusätzlich wurde zur Überprüfung der ModellPassung der Likelihood-Ratio-Test nach Andersen (Glas & Verhelst, 1995) einzeln für ein Modell pro Klassenstufe geschätzt. Lediglich für die 2. Klasse ergab sich ein leicht signifikantes Ergebnis (p = .04), in allen anderen Klassenstufen war der Test nicht signifikant (alle p > .1). Zusammenfassend kann davon ausgegangen werden, dass das Modell ausreichend auf die Daten passt.

Diskussion In diesem Artikel wurde der Ja / Nein-Wortschatztest WOR-TE für Grundschulkinder vorgestellt und anhand des Rasch-Modells validiert. Der Test enthält drei Versionen für verschiedene Altersgruppen und kann im Gruppensetting innerhalb von kurzer Zeit angewendet werden. Gegenüber anderen Verfahren (z. B. PPVT-4; Lenhard, Lenhard, Segerer & Suggate, 2015; PDSS, Kauschke & Siegmüller, 2009) hat er damit den klaren Vorteil, dass er in einer Gruppensituation mit mehreren Kindern angewendet werden kann. Zudem ist er für eine Altersgruppe konzipiert, für deren Messung im Bereich Wortschatz bisher wenige Verfahren vorlagen. Bereits existierende Verfahren (z. B. WWT; Glück, 2011) zielen eher auf die Diagnostik semantisch-lexikalischer Defizite ab. Der WOR-TE hingegen ist eher ressourcenorientiert und zur Messung des orthographischen Wortschatzes von Kindern geeignet. Gegenüber anderen Verfahren, die beispielsweise das Finden von Synonymen beinhalten (z. B. CFT-20-R; Weiß, 2006) hat der WOR-TE den Vorteil, dass die Abhängigkeit von den Distraktor-Items, in diesem Fall die Pseudowörter, relativ gering ist, was sich in den geringen Korrelationen mit dem Testverhalten gezeigt hat. Allen anderen Testverfahren hat der WOR-TE zudem die hohe Anzahl an Test-Items, die durch das einfache Testformat begründet sind, voraus. In der vorliegenden Studie wurde versucht, anhand des Validitätskonzepts nach Messick (1995) Evidenz für die Validität des WOR-TE zu finden. Diese Aspekte umfassen inhaltliche, substanzielle, strukturelle und externe Aspekte sowie Generalisierbarkeit. Die Gültigkeit des RaschModells wurde anhand verschiedener Aspekte als ausreichend betrachtet. Zusammengefasst liegen starke Hinweise für die Validität des Verfahrens zur Messung des kindlichen orthographischen Wortschatzes vor. Es wurden zufriedenstellende Ergebnisse für alle von Messick (1995) vorgeschlagenen Aspekte der Validität erzielt. Die Analysen gaben zudem Hinweise auf Möglichkeiten zur weiteren Verbesserung des Verfahrens, insbesondere bezüglich der Anzahl der Items und der Itemauswahl. Alles in allem beDiagnostica (2019), 65 (1), 37–48


46

J. Trautwein und S. Schroeder, WOR-TE: Ein Ja / Nein- Wortschatztest für Kinder verschiedener Altersgruppen

steht eine starke Evidenz dafür, dass es sich bei dem WORTE um ein valides Instrument zur Erfassung des orthographischen Wortschatzes bei Grundschulkindern im Deutschen handelt. Insbesondere in forschungsbezogenen Kontexten stellt er damit eine gute Option zur Erfassung des kindlichen Wortschatzes dar. Da keine Normwerte vorliegen, ist eine Individualdiagnose derzeit mit dem Instrument jedoch nicht möglich. Während die Auswertung von Ja / Nein-Wortschatztests in vorherigen Studien häufig anhand der Hits und False-Alarm-Raten erfolgte (z. B. Eyckmans, 2004; Huibregtse, Admiraal, & Merea, 2002), wurde in der vorliegenden Studie lediglich auf die Hits zurückgegriffen, um die Auswertung mit dem Rasch-Modell zu ermöglichen. Mochida und Harrington (2006) konnten bereits zeigen, dass die alleinige Auswertung der Hits am besten mit anderen Wortschatzmaßen korrelierte. Auch unsere Ergebnisse sprechen dafür, dass die Korrektur mithilfe der False-Alarm-Rate nicht notwendig ist. Es bestand nur eine schwache Beziehung zwischen Rateverhalten und Personenparameter, die sogar tendenziell darauf hinwies, dass Kinder mit höherer Ratetendenz einen geringeren Personenscore hatten und damit weniger Wörter angekreuzt haben. Korrigiert man anhand der False-Alarm-Rate, geht man davon aus, dass Personen, die mehr raten, auch generell zu viele Wörter angekreuzt haben (Mochida & Harrington, 2006), was in den vorliegenden Daten nicht der Fall ist. Dies rechtfertigt zunächst die alleinige Verwendung der Hit-Raten. Dennoch werden weiterhin verschiedene Methoden der Auswertung und Korrektur von Ergebnissen von Ja / Nein-Wortschatztests diskutiert (vgl. Huibregtse, Admiraal, & Merea, 2002; Pellicer-Sánchez & Schmitt, 2012). Eine weitere Analyse der vorliegenden Daten könnte hier weitergehende Erkenntnisse liefern. Einschränkend lässt sich zudem festhalten, dass der Einsatz des Tests bei Leseanfängerinnen und Leseanfängern kritisch zu sehen ist. Dies zeigt sich durch die erhöhten Ratetendenzen in der 1. und 2. Klasse. Die Lesefähigkeit ist in diesen Klassenstufen wohlmöglich noch zu gering, sodass eine Erhebung des orthographischen Wortschatzes erst später möglich ist. Limitierend ist für diese junge Altersgruppe auch die Reliabilität im standardisierten Wortschatztest aus dem KFT zu nennen. Möglicherweise ist der Wortschatz in diesem Alter von Kind zu Kind sehr unterschiedlich (siehe auch Segbers & Schroeder, 2017), was eine reliable Messung mithilfe einer kleinen Item-Anzahl erschwert. Ein Vergleich der Testdaten mit auditiv vorgegebenen Wörtern in höherer Anzahl als Ja / Nein-Verfahren könnte hier eine sinnvolle Ergänzung sein. Die Analyse des Effekts von Mehrsprachigkeit auf das Testergebnis zeigte, dass es Unterschiede zwischen einund mehrsprachigen Kindern im Testverhalten gibt. Eine Diagnostica (2019), 65 (1), 37–48

detailliertere Analyse dieser Unterschiede könnte Aufschluss darüber geben, inwiefern der Einsatz des Tests bei mehrsprachigen Kindern sinnvoll ist bzw. die Ergebnisse mit denen der einsprachigen Kinder vergleichbar sind. Weiterhin lässt sich anmerken, dass das Verfahren nicht zur Erfassung von detailliertem Wortschatzwissen, insbesondere auf der semantischen Ebene, geeignet ist. Zwar sind die Ergebnisse aus der Pilotstudie mit den mündlichen Definitionsaufgaben vielversprechend, dennoch können mit dem WOR-TE keine detaillierten Aussagen über das semantische Wissen gemacht werden. Um dieses zu erfassen und eine differenzierte Individualdiagnose zu erstellen, sind aufwendigere Testverfahren von Nöten. Bei dem vorgestellten Instrument handelt es sich also um eine Möglichkeit zur Erfassung des orthographischen Wortschatzes, der substanziell mit dem semantischen Wortschatz zusammenhängt. Zusätzlich konnte gezeigt werden, dass die Verwendung des Validitätskonzepts nach Messick (1995) die Möglichkeiten zur Validierung eines Ja / Nein-Wortschatztests über die üblichen Korrelationen mit mündlichen Definitionen oder Multiple-Choice-Fragen hinaus erweitert. Die vorliegenden Analysen beinhalteten relevante Schritte zur Sicherung von Evidenz für die Validität eines Verfahrens und zur Absicherung und Verbesserung der Qualität eines Instruments. Das vorgestellte Vorgehen zur Validierung kann damit als wichtiger Beitrag für die Entwicklung von Ja / Nein-Wortschatztests angesehen werden und sollte für die zukünftige Konstruktion ähnlicher Instrumente in Betracht gezogen werden.

Elektronische Supplemente (ESM) Die elektronischen Supplemente sind mit der OnlineVersion dieses Artikels verfügbar unter https://doi.org/ 10.1026/0012-1924/a000212 ESM 1. Items

Literatur Aarnoutse, C., van Leeuwe, J., Voeten, M. & Oud, H. (2001). Development of decoding, reading comprehension, vocabulary and spelling during the elementary school years. Reading and Writing: An Interdisiplinary Journal, 14, 61 – 89. https://doi.org/10. 1023/A:1008128417862 Anderson, R. C. & Freebody, P. (1983). Reading comprehension and the assessment and acquisition of word knowledge. Advances in Reading/Language Research, 2, 231 – 256. Anderson, R. C., Wilson, P. T. & Fielding, L. G. (1988). Growth in reading and how children spend their time outside of school. Reading Research Quarterly, 23, 285 – 303. © 2018 Hogrefe Verlag


J. Trautwein und S. Schroeder, WOR-TE: Ein Ja / Nein- Wortschatztest für Kinder verschiedener Altersgruppen

Anglin, J. M., Miller, G. A. & Wakefield, P. C. (1993). Vocabulary development: A morphological analysis. Monographs of the Society for Research in Child Development, 58, 1 – 186. https://doi. org/10.2307/1166112 Auer, M., Gruber, G., Mayringer, H. & Wimmer, H. (2005). Salzburger Lese-Screening für die Klassenstufe 5 – 8. Bern: Hans Huber. Beglar, D. (2010). A Rasch-based validation of the Vocabulary Size Test. Language Testing, 27, 101 – 118. https://doi.org/10.1177/ 0265532209340194 Bialystok, E., Luk, G., Peets, K. F. & Yang, S. (2010). Receptive vocabulary differences in monolingual and bilingual children. Bilingualism: Language and Cognition, 13, 525 – 531. https://doi. org/10.1017/S1366728909990423 Biemiller, A. (2003). Vocabulary: Needed if more children are to read well. Reading Psychology, 24, 232 – 335. https://doi.org/10. 1080/02702710390227297 Biemiller, A. (2005). Size and sequence in vocabulary development: Implications for choosing words for primary grade vocabulary instruction. In A. Hiebert & M. Kamil (Eds.), Teaching and learning vocabulary: Bringing research to practice (pp. 223 – 242). Mahwah, NJ: Erlbaum. Biemiller, A. (2006). Vocabulary development and instruction: A prerequisite for school learning. In D. K. Dickinson & S. B. Neuman (Eds.), Handbook of Early Literacy Research (Vol. 2, pp. 41 – 51). New York: Guilford Press. Bock, R. D. & Zimowski, M. F. (1997). Multiple group IRT. In W. J. van der Linden, & R. K. Hambleton (Eds.), Handbook of Modern Item Response Theory (pp. 433 – 448). New York: Springer. Cattell, R. B., Weiß, R. H. & Osterland, J. (1997). Grundintelligenztest Skala 1. Göttingen: Hogrefe. Coltheart, M., Rastle, K., Perry, C., Langdon, R. & Ziegler, J. (2001). DRC: A dual route cascaded model of visual word recognition and reading aloud. Psychological Review, 108, 204 – 256. Embretson, S. E. & Reise, S. P. (2000). Item Response Theory for Psychologists. New Jersey: Lawrence Erlbaum. Eyckmans, J. (2004). Measuring receptive vocabulary size: Reliability and validity of the Yes/No Vocabulary Test for french-speaking learners of dutch. Utrecht: LOT. Fuchs, L. S., Fuchs, D., Compton, D. L., Powell, S. R., Seethaler, P. M., Capizzi, A. M., et al. (2006). The cognitive correlates of third grade skill in arithmetic, algorithmic computation, and arithmetic word problems. Journal of Educational Psychology, 98, 29 – 43. https://doi.org/0.1037/0022-0663.98.1.29 – Verweis fehlt im Text – bitte prüfen Glas, C. A. W. & Verhelst, N. D. (1995). Testing the Rasch model. In G. H. Fischer & I. W. Molenaar (Eds.), Rasch models (pp. 69 – 95). New York: Springer. Glück, C. W. (2011). Wortschatz- und Wortfindungstest für 6- bis 10-Jährige. Amsterdam: Elsevier. Grimm, H. & Doil, H. (2006). Elternfragebögen für die Früherkennung von Risikokindern (ELFRA) (2. Aufl.). Göttingen: Hogrefe. Gutierrez-Cleflen, V. F. & DeCurtis, L. (1999). Word definition skills in Spanish-speaking children with language impairment. Communication Disorders Quarterly, 21, 23 – 31. https://doi.org/10. 1177/152574019902100104 Heller, K. & Geisler, H. J. (1983). Kognitiver Fähigkeitstest für 1. bis 3. Klassen. Weinheim: Beltz. Heller, K. A. & Perleth, C. (2000). Kognitiver Fähigkeitstest für 4. bis 12. Klassen (Revision). Göttingen: Beltz Test. Huibregtse, I., Admiraal, W. & Merea, P. (2002). Scores on a yesno vocabulary test: Correction for guessing and response style. Language Testing, 19, 227 – 245. https://doi.org/10.1191/ 0265532202lt229oa Kauschke, C. & Siegmüller, J. (2009). Patholinguistische Diagnostik bei Sprachentwicklungsstörungen (2. Aufl.). Amsterdam: Elsevier. © 2018 Hogrefe Verlag

47

Kiefer, T., Robitzsch, A. & Wu, M. (2016). TAM: Test Analysis Modules [Computer Software]. Kolen, M. J. & Brennan, R. L. (2004). Test Equating, Scaling and Linking. Methods and Practices. New York: Springer. Lemhöfer, K. & Broersma, M. (2012). Introducing LexTALE: A quick and valid lexical test for advanced learners of English. Behavior Research Methods, 44, 325 – 343. https://doi.org/10.3758/ s13428-011-0146-0 Lenhard, A., Lenhard, W., Segerer, R. & Suggate, S. (2015). Peabody Picture Vocabulary Test (4. Ausgabe: Deutsche Fassung). Frankfurt am Main: Pearson Assessment. May, P. (2002). Hamburger Schreibprobe 1 – 10. Stuttgart: Ernst Klett Verlag. Mayringer, H. & Wimmer, H. (2003). Salzburger Lese-Screening für die Klassenstufe 1 – 4. Bern: Hans Huber. McLean, S., Kramer, B. & Beglar, D. (2015). The creation and validation of a listening vocabulary levels test. Language Teaching Research, 19, 741 – 760. https://doi.org/10.1177/ 1362168814567889 McNamara, T. (1996). Measuring second language performance. Harlow: Addison Wesley Longman. Merea, P. & Buxton, B. (1987). An alternative to multiple choice vocabulary tests. Language Testing, 4, 142 – 154. Messick, S. (1995). Validity of psychological assessment: Validation of inferences from persons’ responses and performances as scientific inquiry into score meaning. American Psychologist, 50, 741 – 749. Mislevy, R. J. & Stocking, M. L. (1989). A consumer’s guide to LOGIST and BILOG. Applied Psychological Measurement, 13, 57 – 75. Mochida, K. & Harrington, M. (2006). The yes/no test as a measure of receptive vocabulary knowledge. Language Testing, 23, 73 – 98. https://doi.org/10.1191/0265532206lt321oa Muter, V., Hulme, C., Snowling, M. J. & Stevenson, J. (2004). Phonemes, rimes, vocabulary, and grammatical skills as foundations of early reading development: Evidence from a longitudinal study. Developmental Psychology, 40, 665 – 681. https://doi. org/10.1037/0012-1649.40.5.665 Ouellette, G. & Beers, A. (2010). A not-so-simple view of reading: How oral vocabulary and visual-word recognition complicate the story. Reading and Writing, 23, 189 – 208. https://doi.org/10. 1007/s11145-008-9159-1 Pearson, P. D., Hiebert, E. H. & Kamil, M. L. (2007). Vocabulary assessment: What we know and what we need to learn. Reading Research Quarterly, 42, 282 – 298. https://doi.org/10.1598/ RRQ.42.2.4 Pellicer-Sánchez, A. & Schmitt, N. (2012). Scoring yes-no vocabulary tests: Reaction time vs. nonword approaches. Language Testing, 29, 489 – 509. https://doi.org/10.1177/0265532212438053 Perfetti, C. A. & Hart, L. (2002). The lexical quality hypothesis. Precursors of Functional Literacy, 11, 67 – 86. Perfetti, C. & Stafura, J. (2013). Word knowledge in a theory of reading comprehension. Scientific Studies of Reading, 18, 22 – 37. https://doi.org/10.1080/10888438.2013.827687 Purpura, D. J., Hume, L. E., Sims, D. M. & Lonigan, C. J. (2011). Early literacy and early numeracy: The value of including early literacy skills in the prediction of numeracy development. Journal of Experimental Child Psychology, 110, 641 – 658. https://doi.org/10.1016/j.jecp.2011.07.004 Ricketts, J., Nation, K. & Bishop, D. V. M. (2007). Vocabulary is important for some, but not all reading skills. Scientific Studies of Reading, 11, 235 – 257. https://doi.org/10.1080/108884307013 44306 Rost, J. (1999). Was ist aus dem Rasch-Modell geworden? Psychologische Rundschau, 50, 140 – 156. https://doi.org/10. 1026//0033 – 3042.50.3.140

Diagnostica (2019), 65 (1), 37–48


48

J. Trautwein und S. Schroeder, WOR-TE: Ein Ja / Nein- Wortschatztest für Kinder verschiedener Altersgruppen

Schroeder, S., Würzner, K.-M., Heister, J., Geyken, A. & Kliegl, R. (2015). childLex: A lexical database of German read by children. Behavior Research Methods, 47, 1085 – 1094. https://doi.org/ 10.3758/s13428-014-0528-1 Schröter, P. & Schroeder, S. (2017). The developmental lexicon project: A behavioral database to investigate visual word recognition across the lifespan. Behavior Research Methods, 47, 2183 – 2203. https://doi.org/10.3758/s13428-016-0851-9 Segbers, J. & Schroeder, S. (2017). How many words do children know? A corpus-based estimation of children’s total vocabulary size. Language Testing, 34, 297 – 320. https://doi.org/10.1177/ 0265532216641152 Shillaw, J. (1996). The application of Rasch modelling to yes/no vocabulary tests. Vocabulary Acquisition Research Group, University of Wales: Swansea. Weiß, R. H. (2006). Grundintelligenztest Skala 2 – Revision mit Wortschatztest und Zahlenfolgentest (Revision). Göttingen: Hogrefe.

Welsh, J. A., Nix, R. L., Blair, C., Bierman, K. L. & Nelson, K. E. (2010). The development of cognitive skills and gains in academic school readiness for children from low-income families. Journal of Educational Psychology, 102, 43 – 53. https://doi.org/ 10.1037/a0016738 Yen, W. M. (1984). Effect of local item dependence on fit and equating performance of the Three-Parameter Logistic Model. Applied Psychological Measurement, 8, 125 – 145. Onlineveröffentlichung: 25. 09. 2018 Dr. Sascha Schroeder Jutta Trautwein Max-Planck-Institut für Bildungsforschung MPFG Reading Education and Development (REaD) Lentzeallee 94 14185 Berlin sascha.schroeder@mpib-berlin.mpg.de

Ethisches Handeln in der psychologischen Forschung – Ein Leitfaden für Forschende und Ethikkommissionen Deutsche Gesellschaft für Psychologie (DGPs)

Ethisches Handeln in der psychologischen Forschung

Deutsche Gesellschaft für Psychologie (DGPs) (Hrsg.)

Empfehlungen der Deutschen Gesellschaft für Psychologie für Forschende und Ethikkommissionen

Ethisches Handeln in der psychologischen Forschung Empfehlungen der Deutschen Gesellschaft für Psychologie für Forschende und Ethikkommissionen 2018, 171 Seiten, € 19,95 / CHF 26.90 ISBN 978-3-8017-2802-1 Auch als eBook erhältlich

In jedem Forschungsprojekt sind ethische Entscheidungen zu treffen, die in der Verantwortung jedes einzelnen Forschenden liegen. Die vorliegende Publikation möchte für diesen Entscheidungsprozess eine Hilfestellung geben. Dazu werden die Kriterien der Beurteilung durch eine Ethikkommission erläutert und Hinweise geliefert, wie ein Ethikantrag zu stellen ist. Vorlagen für die Antragsstellung, Muster für Einwilligungserklärungen und Teilnehmerinformationen u.v.m. runden den Band ab.

www.hogrefe.com

Diagnostica (2019), 65 (1), 37–48

© 2018 Hogrefe Verlag


Originalarbeit

Erfassung der Emotionsregulation bei Jugendlichen anhand des „Affective Style Questionnaire – Youth (ASQ-Y)“ Johannes Graser, Christiane Heimlich, Augustin Kelava, Stefan G. Hofmann, Ulrich Stangier und Franziska Schreiber Zusammenfassung: Zur Erfassung der 3 Emotionsregulationsstrategien Unterdrücken, Anpassen / Neubewerten und Akzeptieren wurde der Affective Style Questionnaire für Jugendliche (ASQ-Y) adaptiert und an einer entsprechenden Stichprobe (N = 1 092) validiert. Die Dimensionalität des englischen Originalfragebogens und der deutschen Version für Erwachsene konnte auch für Jugendliche bestätigt werden. Während der Analyse kam das ESEM-Verfahren (Exploratory Structural Equation Modeling) zum Einsatz, die Kennwerte bewegten sich im akzeptablen bis sehr guten Bereich. Der Comparative Fit Index (CFI) erreichte einen akzeptablen Wert von .938, ebenso der Tucker–Lewis Index (TLI) mit einem Wert von .911. Der Root Mean Square Error of Approximation (RMSEA) lag bei einem sehr guten Wert von .050, das Standardized Root Mean Square Residual (SRMR) erreichte einen guten Wert von .030. Die internen Konsistenzen der 3 Skalen (Unterdrücken: α = .77; Anpassen / Neubewerten: α = .76; Akzeptieren: α = .76) erreichten (vergleichbar mit dem englischen Original und der deutschen Erwachsenenstichprobe) zufriedenstellende Werte. Die Subskalen zeigten hypothesenkonforme diskriminante und konvergente Zusammenhänge mit etablierten Verfahren des Forschungsbereichs Emotionsregulation, was für die Konstruktvalidität spricht. Insgesamt ist der ASQ-Y als Messinstrument zur Erfassung von verschiedenen Emotionsregulationsstrategien bei Jugendlichen geeignet und ökonomisch in seiner Anwendung. Der ASQ-Y kann in der Allgemeinbevölkerung und in der Prävention eingesetzt werden. Nach entsprechender Validierung ist der Einsatz auch im klinischen Setting möglich. Schlüsselwörter: Affective Style Questionnaire, Youth, ASQ-Y, Jugendliche, deutsche Adaptation, Emotionsregulation

Assessment of Emotion Regulation in Adolescents With the „Affective Style Questionnaire – Youth“ ASQ-Y Abstract: The Affective Style Questionnaire assesses the 3 emotion regulation strategies suppression, adjusting / reappraisal, and acceptance and was adapted for adolescents (ASQ-Y) and validated using an adolescent sample (N = 1,092). The results confirmed the expected dimensionality of the English and German versions for adults. An exploratory structural equation modeling procedure (ESEM) yielded model-fit indicators that ranged from acceptable to very good values. The comparative fit index reached an acceptable value of .938, the Tucker–Lewis index yielded an acceptable value of .911. The root mean square error of approximation reached a very good value of .050, and the standardized root mean square residual resulted in a good value of .030. The internal consistencies of the 3 scales reached satisfactory values and were comparable to the English and German versions for adults (suppression: α = .77; adjusting / reappraisal: α = .76; acceptance: α = .76). The 3 subscales showed expected correlations with established instruments in the field of emotion regulation, providing evidence for construct validity. In sum, the ASQ-Y is a suitable and economic instrument for assessing three distinct strategies of emotion regulation in adolescents. The ASQ-Y may be applicable not only in the healthy general population and for prevention purposes but also in clinical settings after appropriate validation studies. Keywords: Affective Style Questionnaire, Youth, ASQ-Y, adolescents, German version, emotion regulation

Die Fähigkeit, eigene Emotionen effektiv zu regulieren, stellt eine im Leben ständig zu leistende Aufgabe dar und hat in den vergangenen Jahrzehnten auch in der psychologischen Forschung zunehmend an Bedeutung gewonnen (Gross, 2002, 2013). Emotionsregulation beinhaltet nach Gross (1998) die Beeinflussung der Qualität von Emotionen, ihr zeitliches Auftreten sowie die Wahrnehmung und den Ausdruck emotionaler Prozesse. Emo© 2018 Hogrefe Verlag

tionsregulationsstrategien werden nach gängigen Vorstellungen bereits in den ersten Lebensjahren erlernt, sie verändern sich aber im Laufe des Lebens und entwickeln sich weiter (Gross, 2015; John & Gross, 2004; NolenHoeksema & Aldao, 2011). In mehreren Studien konnte gezeigt werden, dass ein Zusammenhang zu externalisierenden und internalisierenden Verhaltensauffälligkeiten besteht, wenn bereits früh Schwierigkeiten bei der ReDiagnostica (2019), 65 (1), 49–59 https://doi.org/10.1026/0012-1924/a000210


50

J. Graser et al., Erfassung der Emotionsregulation bei Jugendlichen anhand des „Affective Style Questionnaire – Youth (ASQ-Y)“

gulation verschiedener Emotionen auftreten (Eisenberg et al., 2001; Kim & Cicchetti, 2010). Weitere Studien zum Kindes- und Jugendalter konnten ebenfalls einen Zusammenhang zwischen dysfunktionaler Emotionsregulation und psychischen Störungen wie Bulimie (Sim & Zeman, 2004, 2005), Aufmerksamkeits-Defizit-Hyperaktivitäts-Störung (ADHS; Walcott & Landau, 2004), Depression (Ladouceur et al., 2005; Larsen et al., 2013), bipolaren Störungen (Rucklidge, 2006) und Angststörungen (Esbjørn, Bender, Reinholdt-Dunne, Munck & Ollendick, 2012; Southam-Gerow & Kendall, 2000; Suveg & Zeman, 2004) belegen. Zusätzlich konnte gezeigt werden, dass mangelnde Fähigkeiten, Emotionen zu regulieren, bei Jugendlichen verstärkt mit Aggressivität einhergehen (Herts, McLaughlin & Hatzenbuehler, 2012). Bezüglich geschlechtsspezifischer Einflüsse gibt es Hinweise, dass insbesondere 16 – 18-jährige Mädchen stärker zu dysfunktionalen Emotionsregulationsstrategien neigen als gleichaltrige Jungen (Lange & Tröster, 2015). Darüber hinaus konnte gezeigt werden, dass nicht nur die Art der angewandten Emotionsregulationsstrategien, sondern auch die Anzahl verfügbarer Bewältigungsmechanismen einen Indikator für psychische Gesundheit darstellen kann (Lougheed & Hollenstein, 2012). Drei für die psychische Gesundheit relevante Emotionsregulationsstrategien, die in der Literatur beschrieben werden, sind das Unterdrücken, das Anpassen / Neubewerten und das Akzeptieren von Emotionen (Aldao, Nolen-Hoeksema & Schweizer, 2010; Hofmann & Kashdan, 2010; Schäfer, Naumann, Holmes, Tuschen-Caffier & Samson, 2017). Ein Fragebogen, der aus insgesamt 20 Items besteht und diese drei Strategien erfasst, ist der Affective Style Questionnaire (ASQ). Er wurde bereits anhand zweier englischsprachiger studentischer Stichproben (Hofmann & Kashdan, 2010) und daraufhin an einer deutschsprachigen studentischen Stichprobe (Graser et al., 2012) validiert. Für Erwachsene stehen in deutscher Sprache auch weitere Verfahren zur Verfügung: Der Emotion Regulation Questionnaire (ERQ; Abler & Kessler, 2009) erfasst mit 10 Items die Strategien Unterdrückung und Neubewertung. Der Fragebogen zur emotionsspezifischen Selbsteinschätzung emotionaler Kompetenzen (SEK-ES; Ebert, Christ & Berking, 2013) erfasst mit 72 Items die Verfügbarkeit emotionaler Kompetenzen wie Verstehen (von Emotionen) oder Selbstunterstützung für verschiedene Emotionen wie Angst, Ärger und Traurigkeit (für eine ausführliche Übersicht über die verfügbaren Verfahren zur Erfassung von Emotionsregulationsstrategien siehe auch Dorn, Spindler, Kullik, Petermann & Barnow, 2013). Für Kinder und Jugendliche gibt es in deutscher Sprache bisher kaum validierte Messinstrumente zur Erfassung verschiedener Emotionsregulationsstrategien. Der FrageDiagnostica (2019), 65 (1), 49–59

bogen zur Erhebung der Emotionsregulation bei Kindern und Jugendlichen (FEEL-KJ; Grob & Smolenski, 2005) erfasst verschiedene Emotionsregulationsstrategien für die Gefühle Angst, Traurigkeit und Ärger. Die Testgütekriterien sind zwar als zufriedenstellend einzuschätzen, der Fragebogen umfasst allerdings 90 Items und nimmt in der Bearbeitung 20 – 30 Minuten in Anspruch (Goldschmidt & Berth, 2006). Der FEEL-KJ erfasst eine Vielzahl von Emotionsregulationsstrategien, diese werden jedoch nur mit jeweils zwei Items erfasst. Der Fragebogen zur Erfassung von Ärgerregulation bei Kindern (KÄRST; Salisch & Pfeiffer, 1998) erfasst anhand von neun Items die Ärgerregulation bei Kindern innerhalb von gleichgeschlechtlichen Freundschaften.

Die drei Emotionsregulationsstrategien des Affective Style Questionnaire – Youth (ASQ-Y) Die Emotionsregulationsstrategie Unterdrücken umfasst einen verbergenden und vermeidenden Umgang mit Emotionen (Hofmann & Kashdan, 2010). In einer kürzlich veröffentlichten Meta-Analyse, die die bisherigen Befunde an jugendlichen Stichproben zusammenfasst, konnte gezeigt werden, dass eine Neigung zum Unterdrücken von Emotionen positiv und im Rahmen eines kleinen bis mittelhohen Zusammenhangs mit Psychopathologie assoziiert ist (Schäfer et al., 2017). Die Zusammenhänge mit depressiven Symptomen und Angstsymptomen sind ebenfalls positiv und als klein bis mittelhoch einzuordnen. In einer Studie mit einer Stichprobe von N = 625 Jugendlichen zeigte sich, dass eine Neigung zum Unterdrücken von Emotionen bei Erleben schwieriger Lebensereignisse die Wahrscheinlichkeit des Auftretens von Suizidgedanken und eine höhere Wahrscheinlichkeit von Suizidversuchen mediiert (Kaplow, Gipson, Horwitz, Burch & King, 2014). Die Neigung zum Unterdrücken von Emotionen geht auch mit höheren Werten in Neurotizismus und niedrigeren Werten in den weiteren Persönlichkeitsmerkmalen der Big Five (Extraversion, Offenheit, Gewissenhaftigkeit und Verträglichkeit) einher (Gresham & Gullone, 2012). Das Unterdrücken von Emotionen kann daher insgesamt wie bei Erwachsenen (vgl. Aldao et al., 2010) auch für Jugendliche als eher maladaptive Emotionsregulationsstrategie betrachtet werden. Anpassen / Neubewerten als Emotionsregulationsstrategie umfasst die Beeinflussung der eigenen Emotionen mittels verschiedener individueller (als wirksam erlebter) Strategien (beispielsweise das Hören eines Lieblingsliedes, Sport, Skills) sowie das Neubewerten der Situation. Diese Strategien können schon vor oder auch während einer emotionsinduzierenden Situation eingesetzt wer© 2018 Hogrefe Verlag


J. Graser et al., Erfassung der Emotionsregulation bei Jugendlichen anhand des „Affective Style Questionnaire – Youth (ASQ-Y)“

den. Die Strategie des Neubewertens erreicht in der MetaAnalyse von Schäfer und Kollegen (2017) mittelhohe negative Zusammenhänge mit Depressivität, Angstsymptomen und Psychopathologie allgemein. Die regelmäßige Nutzung der Strategie Anpassen / Neubewerten geht auch mit höheren Werten in Extraversion und Offenheit gegenüber neuen Erfahrungen einher (Gresham & Gullone, 2012). In einer Studie mit N = 582 Jugendlichen konnte gezeigt werden, dass Schüler und Schülerinnen, die gemobbt wurden, eher Angst- und Depressionssymptome entwickelten. Diejenigen, die in der Folge eher zur Strategie des Neubewertens neigten, hatten geringere Angstund Depressionssymptome als Jugendliche, die sich beispielsweise für das Mobbing selbst die Schuld gaben oder über das Mobbing grübelten (Garnefski & Kraaij, 2014). Ein akzeptierender Umgang mit Emotionen beinhaltet eine Offenheit gegenüber auftretenden Emotionen und die Bereitschaft, sie nicht vermeiden zu wollen, auch wenn dies unangenehm ist (Campbell-Sills, Barlow, Brown & Hofmann, 2006). Diese Strategie weist in der Meta-Analyse von Schäfer und Kollegen (2017) mittelhohe bis hohe negative Zusammenhänge mit Depressivität, Angstsymptomen und Psychopathologie allgemein auf. Die Acceptance and Commitment Therapy (ACT; Hayes, Strosahl & Wilson, 1999; Hayes, Luoma, Bond, Masuda & Lillis, 2006) legt ihren Schwerpunkt ebenfalls auf einen akzeptierenden Umgang mit unterschiedlichen und als schwierig erlebten Emotionen und Symptomen und konnte bei Jugendlichen bereits erfolgreich bei der Reduktion depressiver Symptomatik und von Stresssymptomen eingesetzt werden (Livheim et al., 2015). Auch bei chronischen Schmerzen scheint dieser Behandlungsansatz hilfreich für Jugendliche zu sein (Wicksell, Kanstrup, Kemani, Holmström & Olsson, 2015). Anpassen / Neubewerten und Akzeptanz können daher wie auch bei Erwachsenen (vgl. Aldao et al., 2010) als adaptive Emotionsregulationsstrategien angesehen werden. Es existiert bisher kein Fragebogen in deutscher Sprache, der die Neigung zu den Strategien Unterdrücken, Anpassen / Neubewerten und Akzeptieren auf ökonomische Weise erfasst und für Jugendliche anwendbar ist. Ein solches Messinstrument ist für die Forschung und die klinische Praxis von hohem Nutzen: Durch ein frühzeitiges Erkennen von dysfunktionaler Emotionsregulation wird ein frühes therapeutisches Eingreifen beziehungsweise die Anwendung von Präventionsstrategien vor der Entstehung einer psychischen Störung ermöglicht. Ziel der vorliegenden Studie war die psychometrische Evaluation des Affective Style Questionnaire – Youth (ASQY) anhand einer jugendlichen Stichprobe. Dabei sollten die Ergebnisse der deutschen und der englischen Vorlage für Erwachsene (ASQ; Graser et al., 2012; Hofmann & Kashdan, 2010) repliziert werden, sodass die Dimensio© 2018 Hogrefe Verlag

51

nalität bestätigt werden kann, die Skalen des ASQ-Y zufriedenstellende interne Konsistenzen aufweisen sowie Belege für die Konstruktvalidität gefunden werden. Darüber hinaus wurde ein positiver Zusammenhang zwischen der Neigung zur Emotionsregulationsstrategie Unterdrücken und depressiven Symptomen erwartet. Bei häufigerer Anwendung der Strategien Anpassen / Neubewerten und Akzeptanz wurden negative Zusammenhänge mit depressiven Symptomen erwartet.

Methode Stichprobe Mithilfe eines Onlinefragebogens wurden in der vorliegenden Studie insgesamt N = 1 238 Jugendliche im Alter von 13 bis 19 Jahren rekrutiert. Der Link zur Umfrage wurde in verschiedenen sozialen Netzwerken bekanntgemacht. Als Teilnahmeanreiz wurden drei Einkaufsgutscheine à 20 € verlost. Es wurde erfragt, ob sich die Teilnehmenden aktuell in psychotherapeutischer / psychiatrischer Behandlung befanden. Dies konnte mit „Ja“, „Nein“ oder „Keine Angabe“ beantwortet werden. Nur diejenigen Teilnehmenden, die eine „Nein“-Antwort gaben, wurden im weiteren Verlauf der Studie berücksichtigt. Daher bestand die Gesamtstichprobe aus N = 1 092 Jugendlichen. Davon waren insgesamt 758 Teilnehmende weiblich (69 %) und 334 Teilnehmende männlich (31 %). Das Durchschnittsalter lag bei M = 15.36 (SD = 1.95) Jahren. Weibliche Teilnehmende waren im Durchschnitt M = 15.16 (SD = 1.88), männliche Teilnehmende waren im Durchschnitt M = 15.82 (SD = 2.02) Jahre alt. Dieser Unterschied ist signifikant (p < .001, t1 090 = 5.47, d = 0.34), hinsichtlich seiner Effektstärke aber eher klein. Bezüglich des Bildungsstandes gaben 61 Teilnehmende an, die Hauptschule zu besuchen oder besucht zu haben (6 %), 305 Teilnehmende besuchten die Realschule (28 %) und die Mehrzahl von 726 Teilnehmenden besuchte das Gymnasium (67 %). Für die Konstruktvalidierung stand eine Teilstichprobe von n = 399 Teilnehmenden zur Verfügung. Diese Teilnehmenden hatten neben dem ASQ-Y, allen demografischen Variablen sowie der Frage, ob sie sich in psychotherapeutischer Behandlung befanden (und mit „Nein“ antworteten), auch alle anderen Instrumente komplett bearbeitet. Die Teilstichprobe bestand aus 267 (67 %) weiblichen und 132 (33 %) männlichen Teilnehmenden. Das Durchschnittsalter lag hier bei M = 16.68 (SD = 1.44) Jahren. Weibliche Teilnehmende waren durchschnittlich M = 16.54 (SD = 1.40), männliche Teilnehmende M = 16.96 (SD = 1.50) Jahre alt. Dieser Unterschied ist signifikant (p = .006, t397 = 2.78, d = 0.29), die Diagnostica (2019), 65 (1), 49–59


52

J. Graser et al., Erfassung der Emotionsregulation bei Jugendlichen anhand des „Affective Style Questionnaire – Youth (ASQ-Y)“

Effektstärke jedoch eher klein. Hinsichtlich des Bildungsstands gaben 23 Teilnehmende (6 %) an, die Hauptschule zu besuchen oder besucht zu haben, 117 Teilnehmende (29 %) besuchten die Realschule und 259 Teilnehmende (65 %) das Gymnasium. Weitere demografische Merkmale wie Wohnsituation und aktuelle Tätigkeit (beruflicher Status) der beiden Stichproben sind im elektronischen Supplement 1 dargestellt.

Messinstrumente Affective Style Questionnaire – Youth (ASQ-Y). In der englischen Originalstudie zur Entwicklung des ASQ wurde die Validierung des Fragebogens anhand zweier studentischer Stichproben vorgenommen (Hofmann & Kashdan, 2010). Mit insgesamt 20 Items werden auf drei Skalen die Emotionsregulationsstrategien Unterdrücken (bestehend aus acht Items), Anpassen / Neubewerten (bestehend aus sieben Items) und Akzeptieren (bestehend aus fünf Items) erfasst und auf einer fünfstufigen Likert-Skala bewertet. Die Skala reicht von „Trifft auf mich überhaupt nicht zu“ bis „Trifft auf mich sehr stark zu“, wobei kein Item invertiert ist. Mit der Technik der Rückübersetzung (back-translation; vgl. Brislin, 1970) wurde eine deutsche Version des ASQ erstellt, die ebenfalls anhand einer studentischen Stichprobe (N = 640) validiert wurde (Graser et al., 2012). Dabei konnten wie in der englischen Vorlage drei Faktoren gefunden werden. Der Fragebogen wies zufriedenstellende interne Konsistenzen auf (Cronbachs α; Unterdrücken-Skala: α = .84; AnpassenSkala: α = .75; Akzeptieren-Skala: α = .72), die ebenfalls vergleichbar mit den Werten der Originalstudie sind. Insgesamt zeigten 18 der 20 Items die gleichen Ladungsmuster wie in der englischen Vorlage. Zwei Items („Ich habe meine Emotionen gut unter Kontrolle“ und „Es ist mir möglich, meinen Gefühlen freien Lauf zu lassen“) wurden jedoch in der deutschen Version statt der Anpassen-Skala der Unterdrücken- beziehungsweise der Akzeptieren-Skala zugeordnet. Für die aktuelle Studie wurden folgende Items angepasst, so dass sie für Jugendliche leichter verständlich sind: Item 2 („Ich habe meine Gefühle gut unter Kontrolle“ statt „Ich habe meine Emotionen gut unter Kontrolle“), Item 3 („Ich kann starke Gefühle zulassen“ statt „Ich kann starke Emotionen tolerieren“), Item 5 („Ich unterdrücke starke Gefühle häufig“ statt „Ich unterdrücke häufig meine emotionalen Reaktionen Dingen gegenüber“), Item 11 („Es ist OK, ab und zu negative Gefühle zu spüren“ statt „Es ist OK, ab und zu negative Emotionen zu fühlen“), Item 14 („Ich kann es zulassen, traurig zu sein“ statt „Ich kann es tolerieren, traurig zu sein“), Item 17 („Es ist nicht schlimm, starke Gefühle zu haben“ statt „Es ist nichts Falsches daran, Diagnostica (2019), 65 (1), 49–59

sich sehr emotional zu fühlen“) und Item 18 („Ich kann Gefühle leicht vortäuschen“ statt „Ich kann Emotionen leicht vortäuschen“). Die übrigen Items wurden nicht verändert und gemäß der deutschen ASQ-Version für Erwachsene beibehalten. Die aktuelle Version des ASQ-Y ist als elektronisches Supplement 2 abrufbar. Emotion Regulation Questionnaire (ERQ). Der ERQ (Abler & Kessler, 2009) erfasst auf einer siebenstufigen Likert-Skala die beiden Emotionsregulationsstrategien Unterdrückung und Neubewertung und besteht aus insgesamt 10 Items. Die psychometrischen Eigenschaften zeigen zufriedenstellende interne Konsistenzen (Cronbachs α zwischen α = .68 und α = .82). Die zweifaktorielle Struktur des Fragebogens konnte sowohl exploratorisch als auch konfirmatorisch bestätigt werden (Abler & Kessler, 2009). Fragebogen zur Erhebung der Emotionsregulation bei Kindern und Jugendlichen (FEEL-KJ). Der FEEL-KJ (Grob & Smolenski, 2005) erfasst 15 verschiedene Emotionsregulationsstrategien bei Kindern und Jugendlichen mit je zwei Items. Die dadurch entstehenden 30 Items werden dann jeweils für die Emotionen Angst, Trauer und Wut erfragt, so dass der Fragebogen aus insgesamt 90 Items besteht. Der FEEL-KJ zeigt für die unterschiedlichen Emotionsregulationsstrategien zufriedenstellende bis hohe interne Konsistenzen (Cronbachs α zwischen α = .69 und α = .91). Die Test-Retest-Reliabilität liegt für Jugendliche über alle Strategien hinweg zwischen rtt = .62 und rtt = .81. Berkeley Expressivity Questionnaire (BEQ). Anhand von 16 Items werden mit einer siebenstufigen Likert Skala interindividuelle Unterschiede auf drei Dimensionen der emotionalen Expressivität (Negative Expressivität, Positive Expressivität und Impulsintensität) erhoben (Mohiyeddini, John & Gross, 2008). Die Gütekriterien des BEQ wurden in Stichproben aus der Allgemeinbevölkerung überprüft, der Fragebogen wies dabei gute interne Konsistenzen auf (Cronbachs α zwischen α = .81 und α = .86). Die dreifaktorielle Struktur konnte dem englischen Original entsprechend bestätigt werden. Beck Depressions-Inventar-II (BDI-II). Der BDI-II (Hautzinger, Keller & Kühner, 2006) erfasst anhand von 21 Items die Ausprägung einer depressiven Symptomatik und kann ab dem Alter von 13 Jahren angewendet werden (Herzberg, Goldschmidt & Heinrichs, 2008). Die internen Konsistenzen des BDI-II sind hoch (Cronbachs α zwischen α = .89 und α = .93). Bei einer gesunden Stichprobe lag die Test-Retest-Reliabilität sowohl für einen Zeitraum von drei Wochen als auch über fünf Monate bei r = .78.

Datenerfassung und Analyse Zur Datenerhebung wurde die Onlineplattform Unipark verwendet. Die Datenauswertung wurde mit SPSS 22.0 © 2018 Hogrefe Verlag


J. Graser et al., Erfassung der Emotionsregulation bei Jugendlichen anhand des „Affective Style Questionnaire – Youth (ASQ-Y)“

53

Tabelle 1. Faktorladungen des deutschsprachigen Affective Style Questionnaire – Youth (ASQ-Y); ESEM (Exploratory Structural Equation Modeling) mit schiefwinkliger Geomin-Rotation; geordnet nach Skalen und Höhe der Ladungen; N = 1 092 (Gesamtstichprobe) ASQ-Y-Items

Unterdrücken

Anpassen

Akzeptieren

Item 9 U: „Ich kann meine Gefühle gut verbergen.“

.68

.04

-.11

Item 15 U: „Ich kann mich so verhalten, dass andere Menschen nicht bemerken, wenn ich aufgebracht bin.“

.64

.10

.06

Item 13 U: „Andere Leute können normalerweise nicht erkennen, wenn ich traurig bin.“

.55

-.05

-.18

Item 1 U: „Andere Leute können normalerweise nicht einschätzen, wie ich mich gerade fühle.“

.51

-.22

-.08

Item 10 U: „Andere Leute können normalerweise nicht erkennen, wenn ich aufgebracht bin.“

.51

.07

-.22

Item 20 U: „Ich kann meinen Ärger gut verbergen, wenn ich das tun muss.“

.44

.26

.06

Item 5 U: „Ich unterdrücke starke Gefühle häufig.“

.40

-.10

-.37

Item 18 U: „Ich kann Gefühle leicht vortäuschen.“

.35

-.04

.02

Item 19 AN: „Ich kann ziemlich schnell in eine bessere Stimmung kommen.“

-.05

.82

.02

Item 12 AN: „Ich komme sehr schnell aus einer schlechten Stimmung raus.“

-.07

.70

.04

Item 16 AN: „Ich weiß genau, was ich tun muss, um in eine bessere Stimmung zu kommen.“

-.01

.61

.10

Item 7 AN: „Ich kann mich sehr schnell beruhigen.“

.16

.54

-.03

Item 4 AN: „Ich kann es vermeiden, mich aufzuregen, indem ich die Dinge aus einer anderen Perspektive betrachte.“

.24

.43

.09

Item 2 AN: „Ich habe meine Gefühle gut unter Kontrolle.“

.25

.35

-.06

Item 14 AK: „Ich kann es zulassen, traurig zu sein.“

.01

-.03

.67

Item 17 AK: „Es ist nicht schlimm, starke Gefühle zu haben.“

.06

.09

.67

Item 8 AK: „Es ist mir möglich, meinen Gefühlen freien Lauf zu lassen.“

-.12

.10

.67

Item 3 AK: „Ich kann starke Gefühle zulassen.“

-.08

.03

.65

.21

-.04

.39

-.25

.07

.38

Item 11 AK: „Es ist OK, ab und zu negative Gefühle zu spüren.“ Item 6 AK: „Es ist OK, wenn andere sehen, dass ich aufgebracht bin.“

Anmerkungen: U = Unterdrücken; AN = Anpassen; AK = Akzeptieren. Jeweilige Höchstladungen sind fett markiert.

durchgeführt. Zur Untersuchung der Faktorenstruktur wurde Mplus 6.12 verwendet. Die Faktorenstruktur und die Modellgüte wurden mit Hilfe des ESEM-Verfahrens berechnet (Exploratory Structural Equation Modeling, vgl. Asparouhov & Muthén, 2009; Marsh et al., 2009). Für die Auswertung wurden alle Datensätze verwendet, bei denen die demografischen Angaben ausgefüllt und die Frage nach aktueller psychotherapeutischer / psychiatrischer Behandlung mit „Nein“ beantwortet wurden. Für die Auswertung des ASQ-Y wurden jeweils Skalenmittelwerte durch Addition der Itemwerte und Division durch die Itemanzahl berechnet.

Ergebnisse Faktorenstruktur Die Ergebnisse des ESEM-Verfahrens (vgl. Asparouhov & Muthén, 2009; Marsh et al., 2009) konnten die dreifaktorielle Struktur der englischen Originalversion und der deutschen Version für Erwachsene bestätigen (Graser et al., 2012; Hofmann & Kashdan, 2010). Der erste Fak© 2018 Hogrefe Verlag

tor Akzeptieren erreichte dabei einen Eigenwert von 4.32. Der zweite Faktor Unterdrücken wies einen Eigenwert von 3.32 auf, der dritte Faktor Anpassen / Neubewerten erreichte einen Eigenwert von 1.70. Der Faktor Unterdrücken korreliert mit dem Faktor Akzeptieren mit r = ‐.26, der Faktor Unterdrücken und der Faktor Anpassen / Neubewerten korrelieren mit r = .09. Der Faktor Akzeptieren und der Faktor Anpassen / Neubewerten korrelieren mit r = .18. Die Faktorladungen lassen sich Tabelle 1 entnehmen. Wider Erwarten erzielte das Item Nummer 2 („Ich habe meine Gefühle gut unter Kontrolle“) abweichend von der deutschen Erwachsenen-Adaptation aber übereinstimmend mit der englischen Originalversion des ASQ die höchste Ladung auf dem Faktor Anpassen / Neubewerten. Daher wurde das Item dieser Skala zugeordnet.

Modellgüte und Reliabilitäten Die Modellgüte wurde anhand des χ² / df-Verhältnisses sowie der Fit-Indices Comparative Fit Index (CFI), Tucker Lewis Index (TLI), Root Mean Square Error of Approximation (RMSEA) und standardisiertes Root Mean Square Residual Diagnostica (2019), 65 (1), 49–59


54

J. Graser et al., Erfassung der Emotionsregulation bei Jugendlichen anhand des „Affective Style Questionnaire – Youth (ASQ-Y)“

(SRMR) bestimmt. Der χ²-Wert beträgt 492.65 (df = 133), das χ²/df-Verhältnis beträgt daher 3.70. Dieses Verhältnis sollte einen Wert zwischen zwei und fünf annehmen (Bollen & Long, 1993). Für die hier berichtete sehr große Stichprobe von N = 1 092 Teilnehmenden war ein großer χ²-Wert zu erwarten. Der CFI beträgt .938, was nach Marsh et al. (2009) einen akzeptablen Fit darstellt. Der TLI erreichte einen Wert von .911, was nach Marsh et al. (2009) ebenfalls einen akzeptablen Fit darstellt. Der RMSEA liegt bei .050, was einen sehr guten Wert darstellt (vgl. Schermelleh-Engel, Moosbrugger & Müller, 2003). Der Wert des SRMR ist mit .030 als gut zu bezeichnen (vgl. Schermelleh-Engel et al., 2003). Die internen Konsistenzen können mit Werten von α = .77 für die UnterdrückenSkala, α = .76 für die Anpassen-Skala und α = .76 für die Akzeptieren-Skala als zufriedenstellend bezeichnet werden.

Itemanalyse und deskriptive Statistiken Die komplette Itemanalyse des ASQ-Y für die Gesamtstichprobe (N = 1 092) mit Itemmittelwerten, Standardabweichungen, Itemschwierigkeiten, und Trennschärfen ist im elektronischen Supplement 3 dargestellt. Bei Betrachtung der Itemtrennschärfen fiel auf, dass nach der Neuzuordnung des Items Nummer 2 nur das Item Nummer 11 („Es ist ok, ab und zu negative Gefühle zu spüren.“) mit einem Wert von ri(t-i) = .28 die in der Literatur genannte Untergrenze von .30 (Moosbrugger & Kelava, 2011) unterschritt. Kein Item unter- oder überschritt die Itemschwierigkeitswerte Pi = .20 sowie Pi = .80. Männliche und weibliche Teilnehmende unterschieden sich hinsichtlich ihrer Ausprägungen auf den verschiedenen ASQ-Y-Skalen. Die Messmodellinvarianz (measurement invariance) wurde überprüft und konnte als hinreichend angesehen werden. Um der Alpha-Fehler-Inflation entgegenzuwirken, wurden die Mittelwertvergleiche mit der Bonferroni-Holm-Korrektur (vgl. Holm, 1979) durchgeführt. Auf der Skala Unterdrücken erreichten männliche Teilnehmende mit M = 3.30 (SD = 0.66) einen höheren Mittelwert als weibliche Teilnehmende (M = 3.14; SD = 0.71). Dieser Unterschied ist signifikant (p < .001, t1 090 = 3.46, d = 0.23). Auf der Skala Anpassen / Neubewerten zeigte sich bei den männlichen Teilnehmenden ein Mittelwert von M = 3.49 (SD = 0.73), weibliche Teilnehmende erreichten einen Mittelwert von M = 3.11 (SD = 0.72). Dieser Unterschied ist ebenfalls signifikant (p < .001, t1 090 = 7.77, d = 0.52). Auf der Skala Akzeptieren erreichten die männlichen Teilnehmenden einen Mittelwert von M = 3.37 (SD = 0.73), weibliche Teilnehmende erreichten einen signifikant höheren Mittelwert von M = 3.53 (SD = 0.75; p < .001, t1 090 = 3.19, d = 0.22). Diagnostica (2019), 65 (1), 49–59

Konstruktvalidität Für die Konstruktvalidierung stand eine Teilstichprobe von n = 399 Teilnehmenden zur Verfügung. Die Zusammenhänge zwischen den ASQ-Y Skalen und den anderen eingesetzten Messinstrumenten sind in Tabelle 2 dargestellt. Zusammenhänge des ASQ für Erwachsene mit Verfahren, die ebenfalls in der Validierung des ASQ-Y Anwendung fanden, sind in Klammern dargestellt. Die ASQ-Y-Unterdrücken-Skala korreliert hoch mit der ERQ-Unterdrückung-Skala und der Skala Emotionskontrolle des FEEL-KJ. Hohe negative Zusammenhänge bestehen mit der FEEL-KJ-Skala Ausdruck von Emotionen und der Skala Negative Expressivität des BEQ. Ein mittelhoher negativer Zusammenhang besteht mit der Skala Positive Expressivität des BEQ, ein mittelhoher positiver Zusammenhang besteht mit Depressivität, gemessen mit dem BDI-II. Die Anpassen / Neubewerten-Skala des ASQ-Y korreliert hoch mit der Skala Neubewertung des ERQ und den Skalen Problemorientiertes Handeln und Stimmung anheben des FEEL-KJ. Ein mittelhoher Zusammenhang besteht mit der Umbewerten-Skala des FEEL-KJ. Niedrige Zusammenhänge bestehen mit den Skalen Negative Expressivität und Positive Expressivität des BEQ. Ein hoher negativer Zusammenhang besteht mit dem BDI-II. Die ASQ-Y-Akzeptieren-Skala weist hohe negative Zusammenhänge mit der ERQ-Unterdrückung-Skala und der FEEL-KJ-Skala Emotionskontrolle auf. Hohe positive Zusammenhänge bestehen mit der FEEL-KJ-Skala Ausdruck (von Emotionen) und der Skala Positive Expressivität des BEQ. Mittelhohe positive Zusammenhänge bestehen mit den BEQ-Skalen Negative Expressivität und Impulsintensität. Ein negativer kleiner bis mittelhoher Zusammenhang besteht mit dem BDI-II.

Diskussion Ziel der vorliegenden Studie war die Validierung des ASQ‐Y zur Erfassung der drei Emotionsregulationsstrategien Unterdrücken, Anpassen / Neubewerten und Akzeptieren anhand einer jugendlichen Stichprobe. Insgesamt weist der ASQ-Y gute psychometrische Eigenschaften auf. In den Ergebnissen zeigt sich dieselbe Dimensionalität, wie sie in der deutschen und englischen Validierungsstudie für Erwachsene gefunden wurde (vgl. Graser et al., 2012; Hofmann & Kashdan, 2010). Hinsichtlich geschlechtsspezifischer Einflüsse auf Emotionsregulationsstrategien zeigen die Ergebnisse der Studie, dass männliche Teilnehmende signifikant höhere Werte auf den Skalen Anpassen / Neubewerten und Unter© 2018 Hogrefe Verlag


J. Graser et al., Erfassung der Emotionsregulation bei Jugendlichen anhand des „Affective Style Questionnaire – Youth (ASQ-Y)“

55

Tabelle 2. Produkt-Moment-Korrelationen zwischen den Skalen des deutschsprachigen ASQ-Y und den Verfahren ERQ, FEEL-KJ, BEQ und BDI-II; n = 399 Eingesetzte Verfahren und deren Subskalen

Unterdrücken

Anpassen

Akzeptieren

ERQ Neubewertung

.08 (.08*)

.53** (.46**)

.02 (.10*)

Unterdrückung

.64** (.69**)

.01 (.06)

-.56** (‐.46**)

Problemorientiertes Handeln

-.05

.55**

.19**

Soziale Unterstützung

-.48**

.11

.46**

Stimmung anheben

-.14**

.48**

.13*

Zerstreuung

-.13**

.53**

FEEL-KJ

.61**

Rückzug

.25**

-.40**

-.23**

Selbstabwertung

.34**

-.10*

-.24**

Aufgeben

.12*

-.50**

-.19**

Perseveration

.05

-.24**

-.01

-.08

.37**

.20**

.08

.36**

-.14**

Aggressives Verhalten

-.10

-.34**

.03

Ausdruck

-.53**

-.13*

.55**

Akzeptieren

-.02

.53**

.05

.38**

Kognitives Problemlösen Umbewerten

Vergessen

.02

.12*

Emotionskontrolle

-.53**

.15** -.02

BEQ Negative Expressivität

-.69** (‐.77**)

Positive Expressivität

-.39** (‐.42**)

Impulsintensität

-.17** (‐.37**)

BDI-II

.26**

-.16** (‐.16**) .04 (.07)

.41** (.37**) .50** (.43**)

-.31** (‐.24**)

.33** (.34**)

-.51**

-.22**

Anmerkungen: n = Teilstichprobe für Konstruktvalidierung; ASQ-Y = Affective Style Questionnaire–Youth; ERQ = Emotion Regulation Questionnaire; FEEL‐KJ = Fragebogen zur Erhebung der Emotionsregulation bei Kindern und Jugendlichen; BEQ = Berkeley Expressivity Questionnaire; BDI-II = Beck Depressions-Inventar II; die in der deutschsprachigen Validierung des ASQ für Erwachsene gefundenen Korrelationen sind in Klammern dargestellt. * p < .05, ** p < .01.

drücken erzielten, während weibliche Teilnehmende signifikant höhere Werte im Bereich Akzeptieren von Emotionen erreichten. Auch bei der Validierung des ASQ für Erwachsene wurde dieses Muster der Geschlechterunterschiede gefunden (Graser et al., 2012). In weiteren Studien mit Jugendlichen wurde der gefundene Geschlechterunterschied im Unterdrücken bereits berichtet (Gresham & Gullone, 2012; Zimmermann & Iwanski, 2014). Für die Strategie des Neubewertens gibt es jedoch auch Befunde, die keine Geschlechterunterschiede zeigen (Gresham & Gullone; 2012). Dies könnte dadurch begründet sein, dass die Strategie des Anpassens, die weitere individuelle Strategien als das Neubewerten enthält, stärker von männlichen Jugendlichen angewendet wird als das Neubewerten. Dass Frauen stärker zur Akzeptanz von Emotionen neigen, konnte bisher lediglich in Stu© 2018 Hogrefe Verlag

dien für Erwachsene bestätigt werden (Nolen-Hoeksema, 2012). Bei der Konstruktvalidierung weist die ASQ-Y-Unterdrücken-Skala erwartungsgemäß einen hohen Zusammenhang mit der ERQ-Unterdrückung-Skala auf. Die Höhe der Korrelation liegt auch nahe am in der Validierungsstudie des deutschsprachigen ASQ für Erwachsene gefundenen Wert. Die hohe Korrelation mit der Skala Emotionskontrolle des FEEL-KJ spricht aufgrund der Emotionen kontrollierenden Komponente des Unterdrückens ebenfalls für die Konstruktvalidität der ASQ-Y-Unterdrücken-Skala. Auch der hohe negative Zusammenhang mit der FEEL-KJ-Skala Ausdruck von Emotionen spricht für die Konstruktvalidität. Der Ausdruck von Emotionen wird ebenfalls mit dem BEQ erfasst. Erwartungsgemäß wurden signifikante negative Zusammenhänge mit den Skalen Negative ExpressiDiagnostica (2019), 65 (1), 49–59


56

J. Graser et al., Erfassung der Emotionsregulation bei Jugendlichen anhand des „Affective Style Questionnaire – Youth (ASQ-Y)“

vität, Positive Expressivität und Impulsintensität gefunden. Die Richtungen und Größen der Zusammenhänge bewegen sich auch in einem ähnlichen Rahmen wie bei der Erwachsenversion des ASQ. Mit dem BDI-II wurde ein ähnlich großer positiver Zusammenhang gefunden wie er auch in der Meta-Analyse von Schäfer und Kollegen (2017) berichtet wurde. Die Anpassen / Neubewerten-Skala des ASQ-Y korreliert erwartungsgemäß hoch mit der Skala Neubewertung des ERQ. Auch hier ist der Zusammenhang ähnlich hoch wie in der Validierungsstudie des deutschsprachigen ASQ für Erwachsene. Den höchsten Zusammenhang mit den Skalen des FEEL-KJ weist die Anpassen-Skala des ASQ-Y mit der Skala Problemorientiertes Handeln auf. Der Aspekt des problemorientierten Handelns kann als wesentlicher Bestandteil des Konstrukts des Anpassens verstanden werden, weshalb der hohe Zusammenhang als Beleg für die Konstruktvalidität der Skala angesehen werden kann. Auch der hohe Zusammenhang mit der FEEL-KJ Skala Stimmung anheben spricht für die Konstruktvalidität, da die Strategie des Anpassens individuelle Strategien zur Verbesserung der Stimmung beinhaltet. Darüber hinaus besteht ein mittelhoher Zusammenhang mit der Umbewerten-Skala des FEEL-KJ, was ebenfalls für die Konstruktvalidität spricht. Mit den Skalen Negative Expressivität und Positive Expressivität des BEQ weist die Anpassen-Skala erwartungsgemäß niedrige Zusammenhänge auf, was nahe an den Werten der deutschsprachigen Validierung für Erwachsene liegt. Erstaunlich ist die hohe negative Korrelation der Anpassen / Neubewerten-Skala mit dem BDI-II, die auch höher ist als der Zusammenhang von Neubewerten und Depressivität in der von Schäfer und Kollegen (2017) durchgeführten Meta-Analyse. Dies könnte dadurch begründet sein, dass die individuellen Strategien neben dem Neubewerten, die in der Skala erfasst werden, zusätzliche Varianzanteile beinhalten, die den höheren negativen Zusammenhang mit Depressivität bedingen. Hieraus lässt sich ableiten, dass neben dem Neubewerten gerade die individuell wirksamen Strategien des Anpassens von Emotionen wie Sport, Skills oder das Hören von präferierter Musik für Jugendliche hilfreich sein könnten. Die ASQ-Y-Akzeptieren-Skala weist wie schon die ASQVersion für Erwachsene einen hohen negativen Zusammenhang mit der ERQ-Unterdrückung-Skala auf. Damit übereinstimmend besteht auch ein hoher negativer Zusammenhang mit der FEEL-KJ-Skala Emotionskontrolle. Ein weiterer hoher Zusammenhang besteht mit der FEELKJ-Skala Ausdruck (von Emotionen), ein Aspekt, der ebenfalls im Konstrukt der Akzeptanz beinhaltet ist. Erstaunlicherweise wurde nur ein kleinerer (wenn auch signifikanter) Zusammenhang zur FEEL-KJ-Skala Akzeptieren gefunden. Bei Betrachtung der Items fällt auf, dass im FEEL-KJ ein stärkerer Fokus auf die Akzeptanz der emoDiagnostica (2019), 65 (1), 49–59

tionsinduzierenden Ursache gelegt wird, während im ASQ-Y eher die Akzeptanz der entstehenden Emotion erfasst wird, was eine mögliche Erklärung für diesen Befund sein könnte. Mit den BEQ-Skalen Negative Expressivität, Positive Expressivität und Impulsintensität wurden erwartungsgemäß positive Zusammenhänge gefunden. Diese sind in der Höhe vergleichbar mit den Zusammenhängen, die bereits in der Validierungsstudie des ASQ für Erwachsene gefunden wurden. Hypothesenkonform wurde auch ein negativer signifikanter Zusammenhang zwischen der ASQ-Y-Akzeptieren-Skala und dem BDI-II gefunden, der allerdings geringer ausfällt als der große Effekt, der in Meta-Analyse von Schäfer und Kollegen (2017) berichtet wird. Der dort berichtete hohe Zusammenhang wurde jedoch aus lediglich zwei Studien aggregiert, weshalb dieser Befund noch nicht als robust angesehen werden kann. Die Stärken der Studie liegen in der umfangreichen Stichprobengröße und der dadurch möglichen konfirmatorischen Überprüfung der Faktorenstruktur. Auch die Belege für die Konstruktvalidierung, die sehr nahe an denen der deutschen und englischen Vorlagen für Erwachsene liegen, können als Stärke angesehen werden. Dass es aktuell erst sehr wenige deutschsprachige, ökonomische Verfahren zur Messung von Emotionsregulation bei Jugendlichen gibt, stellt eine weitere Stärke der Studie dar. Eine Einschränkung der Studie ist, dass die Stichprobe online rekrutiert wurde, wodurch die Repräsentativität eingeschränkt sein kann, da man nicht davon ausgehen kann, dass alle Jugendlichen einen Zugang zu einem Internetanschluss haben (vgl. Evans & Mathur, 2005). Des Weiteren zeigten sich signifikante, wenn auch moderate Altersunterschiede bei den männlichen und weiblichen Teilnehmenden, was die Repräsentativität zusätzlich einschränkt. Verglichen mit aktuellen Daten des statistischen Bundesamtes (2017) liegt die Verteilung der Schulzugehörigkeiten der Studienteilnehmenden recht nahe an den Werten des Schuljahres 2016 / 2017. Darin sind 64 % der Schüler und Schülerinnen an weiterbildenden Schulen auf dem Gymnasium, 24 % auf der Realschule und 12 % besuchen die Hauptschule. Die Quote der Hauptschülerinnen und Hauptschüler ist in der vorliegenden Studie geringer als in den Daten des statistischen Bundesamtes (2017), während es einen leicht erhöhten Prozentsatz an Gymnasiastinnen und Gymnasiasten sowie an Realschülerinnen und Realschülern in der erhobenen Stichprobe gab. Insgesamt sind die Abweichungen jedoch als eher gering einzuschätzen, was den Schluss zulässt, dass die Repräsentativität in der vorliegenden Studie nicht grob eingeschränkt ist. Der ASQ-Y erweist sich insgesamt als ökonomisches, reliables und valides Selbstbeurteilungsinstrument für die Emotionsregulationsstrategien Unterdrücken, Anpassen / Neubewerten und Akzeptieren bei Jugendlichen. © 2018 Hogrefe Verlag


J. Graser et al., Erfassung der Emotionsregulation bei Jugendlichen anhand des „Affective Style Questionnaire – Youth (ASQ-Y)“

Diese Emotionsregulationsstrategien können wie bereits bei Erwachsenen (Aldao et al., 2010) auch bei Jugendlichen (Schäfer et al., 2017) als relevant für die psychische Gesundheit angesehen werden. Die vorliegende Neuentwicklung des ASQ-Y kann bei nicht-klinischen jugendlichen Populationen für Präventionszwecke eingesetzt werden. Eine hohe Ausprägung in der Strategie des Unterdrückens kann als ungünstig angesehen werden und bei erlebten widrigen Lebensereignissen Suizidgedanken und suizidale Handlungen begünstigen (Kaplow et al., 2014). Dass mit dem ASQ-Y ein Risikofaktor für Suizidalität erfasst werden kann, unterstreicht daher die Einsatzmöglichkeiten des Instruments in der Prävention. Die Strategien Anpassen / Neubewerten und Akzeptanz können hingegen als adaptiv und hilfreich für Jugendliche angesehen werden. So konnte der Einsatz der Strategie des Neubewertens die negativen Auswirkungen von Mobbing reduzieren (Garnefski & Kraaij, 2014). Auf Basis dieser Befunde könnten daher Präventionsprogramme für Jugendliche zur Verhinderung psychischer Erkrankungen entstehen. Auch der erfolgreiche Einsatz der ACT (Hayes et al., 1999, 2006) bei Jugendlichen (Livheim et al., 2015; Wicksell et al., 2015) bestätigt die günstigen Auswirkungen eines akzeptierenden Umgangs mit negativen Emotionen und psychopathologischen Symptomen. Da auch die Anzahl verfügbarer adaptiver Emotionsregulationsstrategien einen Einfluss auf die psychische Gesundheit bei Jugendlichen zu haben scheint (Lougheed & Hollenstein, 2012), kann in Präventionsstudien auch untersucht werden, ob die Teilnehmenden auf verschiedene adaptive Strategien wie Anpassen / Neubewerten und Akzeptanz von Emotionen zurückgreifen. Unklar ist hingegen noch, ob es differentielle Unterschiede für die Erlernbarkeit günstiger Emotionsregulationsstrategien gibt. Bisher konnte querschnittlich gezeigt werden, dass Unterdrücken eher mit Neurotizismus einhergeht und Neubewerten eher mit Extraversion und Offenheit für neue Erfahrungen (Gresham & Gullone, 2012) korreliert. In prospektiven Präventionsstudien sollte jedoch noch untersucht werden, ob diese Persönlichkeitszüge einen Einfluss auf die Erlernbarkeit adaptiver Strategien wie Anpassen / Neubewerten und Akzeptanz haben. Nach einer weiteren Validierung an einer jugendlichen klinischen Stichprobe könnte der ASQ-Y auch als Outcome-Maß für ACT-Therapien eingesetzt werden. Bei kognitiv-verhaltenstherapeutischen Therapien könnte auch überprüft werden, ob nach der Behandlung eine stärkere Neigung zur Strategie des Anpassens / Neubewertens besteht. Darüber hinaus sollte sowohl für eine gesunde als auch für eine klinische jugendliche Stichprobe die zeitliche Stabilität des ASQ-Y überprüft werden.

© 2018 Hogrefe Verlag

57

Elektronische Supplemente (ESM) Die elektronischen Supplemente sind mit der OnlineVersion dieses Artikels verfügbar unter https://doi.org/ 10.1026/0012-1924/a000210 ESM 1. Demografische Merkmale der Gesamtstichprobe und der Teilstichprobe für die Konstruktvalidierung ESM 2. Affective Style Questionnaire–Youth (ASQ-Y) ESM 3. Itemanalyse der deutschsprachigen Affective Style Questionnaire–Youth (ASQ-Y) – Items für die Gesamtstichprobe

Literatur Abler, B. & Kessler, H. (2009). Emotion Regulation Questionnaire – Eine deutsche Version des ERQ von Gross und John. Diagnostica, 55, 144 – 152. https://doi.org/10.1026/0012-1924.55.3.144 Aldao, A., Nolen-Hoeksema, S. & Schweizer, S. (2010). Emotionregulation strategies across psychopathology: A meta-analytic review. Clinical Psychology Review, 30, 217 – 237. https://doi. org/10.1016/j.cpr.2009.11.004 Asparouhov, T. & Muthén, B. (2009). Exploratory structural equation modeling. Structural Equation Modeling, 16, 397 – 438. https://doi.org/10.1080/10705510903008204 Bollen, K. A. & Long, J. S. (1993). Testing structural equation models. Newbury Park: Sage Publications. Brislin, R. W. (1970). Back-translation for cross-cultural research. Journal of Cross-Cultural Psychology, 1, 185 – 216. https://doi. org/10.1177/135910457000100301 Campbell-Sills, L., Barlow, D. H., Brown, T. A. & Hofmann, S. G. (2006). Effects of suppression and acceptance on emotional responses of individuals with anxiety and mood disorders. Behaviour Research and Therapy, 44, 1251 – 1263. https://doi.org/ 10.1016/j.brat.2005.10.001 Dorn, C., Spindler, G., Kullik, A., Petermann, F. & Barnow, S. (2013). Erfassung von Emotionsregulationsstrategien – eine Übersicht. Psychologische Rundschau, 64, 217 – 227. https://doi.org/10. 1026/0033-3042/a000176 Ebert, D. D., Christ, O. & Berking, M. (2013). Entwicklung und Validierung eines Fragebogens zur emotionsspezifischen Selbsteinschätzung emotionaler Kompetenzen (SEK-ES). Diagnostica, 59, 17 – 32. https://doi.org/10.1026/0012-1924/a000079 Eisenberg, N., Cumberland, A., Spinrad, T. L., Fabes, R. A., Shepard, S. A., Reiser, M. et al. (2001). The relations of regulation and emotionality to children’s externalizing and internalizing problem behavior. Child Development, 72, 1112 – 1134. https://doi.org/10. 1111/1467-8624.00337 Esbjørn, B. H., Bender, P. K., Reinholdt-Dunne, M. L., Munck, L. A. & Ollendick, T. H. (2012). The development of anxiety disorders: Considering the contributions of attachment and emotion regulation. Clinical Child and Family Psychology Review, 15, 129 – 143. https://doi.org/10.1007/s10567-011-0105-4 Evans, J. R. & Mathur, A. (2005). The value of online surveys. Internet Research, 15, 195 – 219. https://doi.org/10.1108/1066 2240510590360 Garnefski, N. & Kraaij, V. (2014). Bully victimization and emotional problems in adolescents: Moderation by specific cognitive coping strategies? Journal of Adolescence, 37, 1153 – 1160. https://doi.org/10.1016/j.adolescence.2014.07.005 Diagnostica (2019), 65 (1), 49–59


58

J. Graser et al., Erfassung der Emotionsregulation bei Jugendlichen anhand des „Affective Style Questionnaire – Youth (ASQ-Y)“

Goldschmidt, S. & Berth, H. (2006). Testinformation zum Fragebogen FEEL-KJ. Diagnostica, 52, 208 – 212. https://doi.org/10. 1026/0012-1924.52.4.208 Graser, J., Bohn, C., Kelava, A., Schreiber, F., Hofmann, S. G. & Stangier, U. (2012). Der „Affective Style Questionnaire (ASQ)“: Deutsche Adaption und Validitäten. Diagnostica, 58, 100 – 111. https://doi.org/10.1026/0012-1924/a000056 Gresham, D. & Gullone, E. (2012). Emotion regulation strategy use in children and adolescents: The explanatory roles of personality and attachment. Personality and Individual Differences, 52, 616 – 621. https://doi.org/10.1016/j.paid.2011.12.016 Grob, A. & Smolenski, C. (2005). Fragebogen zur Erhebung der Emotionsregulation bei Kindern und Jugendlichen (FEEL-KJ). Bern: Hans Huber. Gross, J. J. (1998). The emerging field of emotion regulation: An integrative review. Review of General Psychology, 2, 271 – 299. https://doi.org/10.1037/1089-2680.2.3.271 Gross, J. J. (2002). Emotion regulation: Affective, cognitive, and social consequences. Psychophysiology, 39, 281 – 291. https:// doi.org/10.1017/S0048577201393198 Gross, J. J. (2013). Emotion regulation: Taking stock and moving forward. Emotion, 13, 359 – 365. https://doi.org/10.1037/ a0032135 Gross, J. J. (2015). Emotion regulation: Current status and future prospects. Psychological Inquiry, 26, 1 – 26. https://doi.org/10. 1080/1047840X.2014.940781 Hautzinger, M., Keller, F. & Kühner, C. (2006). Beck DepressionsInventar (BDI-II). Frankfurt am Main: Harcourt Test Services. Hayes, S. C., Luoma, J. B., Bond, F. W., Masuda, A. & Lillis, J. (2006). Acceptance and commitment therapy: Model, processes and outcomes. Behaviour Research and Therapy, 44, 1 – 25. https://doi.org/10.1016/j.brat.2005.06.006 Hayes, S. C., Strosahl, K. D. & Wilson, K. G. (1999). Acceptance and commitment Therapy: An experiential approach to behavior change. New York: Guilford. Herts, K. L., McLaughlin, K. A. & Hatzenbuehler, M. L. (2012). Emotion dysregulation as a mechanism linking stress exposure to adolescent aggressive behavior. Journal of Abnormal Child Psychology, 40, 1111 – 1122. https://doi.org/10.1007/s10802012-9629-4 Herzberg, P. Y., Goldschmidt, S. & Heinrichs, N. (2008). Beck Depressions-Inventar (BDI-II). Revision. Report Psychologie, 33, 301 – 302. Hofmann, S. G. & Kashdan, T. B. (2010). The Affective Style Questionnaire: Development and psychometric properties. Journal of Psychopathology and Behavioral Assessment, 32, 255 – 263. https://doi.org/10.1007%2Fs10862-009-9142-4 Holm, S. (1979). A simple sequentially rejective multiple test procedure. Scandinavian Journal of Statistics, 6, 65 – 70. John, O. P. & Gross, J. J. (2004). Healthy and unhealthy emotion regulation: Personality processes, individual differences, and life span development. Journal of Personality, 72, 1301 – 1334. https://doi.org/10.1111/j.1467-6494.2004.00298.x Kaplow, J. B., Gipson, P. Y., Horwitz, A. G., Burch, B. N. & King, C. A. (2014). Emotional suppression mediates the relation between adverse life events and adolescent suicide: Implications for prevention. Prevention Science, 15, 177 – 185. https://doi.org/ 10.1007/s11121-013-0367-9 Kim, J. & Cicchetti, D. (2010). Longitudinal pathways linking child maltreatment, emotion regulation, peer relations, and psychopathology. Journal of Child Psychology and Psychiatry, and Allied Disciplines, 51, 706 – 716. https://doi.org/10.1111/j.14697610.2009.02202.x Ladouceur, C., Dahl, R., Williamson, D., Birmaher, B., Ryan, N., Casey, B. et al. (2005). Altered emotional processing in pediatric anxiety, depression, and comorbid anxiety-depression. Journal Diagnostica (2019), 65 (1), 49–59

of Abnormal Child Psychology, 33, 165 – 177. https://doi.org/10. 1007/s10802-005-1825-z Lange, S. & Tröster, H. (2015). Adaptive und maladaptive Emotionsregulationsstrategien im Jugendalter. Zeitschrift für Gesundheitspsychologie, 23, 101 – 111. https://doi.org/10.1026/ 0943-8149/a000141 Larsen, J. K., Vermulst, A. A., Geenen, R., Van Middendorp, H., English, T., Gross, J. J. et al. (2013). Emotion regulation in adolescence: A prospective study of expressive suppression and depressive symptoms. The Journal of Early Adolescence, 33, 184 – 200. https://doi.org/10.1177/0272431611432712 Livheim, F., Hayes, L., Ghaderi, A., Magnusdottir, T., Högfeldt, A., Rowse, J. et al. (2015). The effectiveness of acceptance and commitment therapy for adolescent mental health: Swedish and Australian pilot outcomes. Journal of Child and Family Studies, 24, 1016 – 1030. https://doi.org/10.1007/s10826-0149912-9 Lougheed, J. P. & Hollenstein, T. (2012). A limited repertoire of emotion regulation strategies is associated with internalizing problems in adolescence. Social Development, 21, 704 – 721. https://doi.org/10.1111/j.1467-9507.2012.00663.x Marsh, H. W., Muthén, B., Asparouhov, T., Lüdtke, O., Robitzsch, A., Morin, J. S. A. et al. (2009). Exploratory Structural Equation Modeling, Integrating CFA and EFA: Application to students’ evaluations of university teaching. Structural Equation Modeling, 16, 439 – 476. https://doi.org/10.1080/10705510903008220 Mohiyeddini, C., John, O. & Gross, J. J. (2008). Der „Berkeley Expressivity Questionnaire”. Diagnostica, 54, 117 – 128. https:// doi.org/10.1026/0012-1924.54.3.117 Moosbrugger, H. & Kelava, A. (2011). Testtheorie und Fragebogenkonstruktion. (2., akt. und überarb. Aufl.). Heidelberg: Springer. https://doi.org/10.1007/978-3-642-20072-4 Nolen-Hoeksema, S. (2012). Emotion regulation and psychopathology: The role of gender. Annual Review of Clinical Psychology, 8, 161 – 187. https://doi.org/10.1146/annurev-clinpsy032511-143109 Nolen-Hoeksema, S. & Aldao, A. (2011). Gender and age differences in emotion regulation strategies and their relationship to depressive symptoms. Personality and Individual Differences, 51, 704 – 708. https://doi.org/10.1016/j.paid.2011.06.012 Rucklidge, J. (2006). Psychosocial functioning of adolescents with and without paediatric bipolar disorder. Journal of Affective Disorders, 91, 181 – 188. https://doi.org/10.1016/j.jad.2006.01.001 Schäfer, J. Ö., Naumann, E., Holmes, E. A., Tuschen-Caffier, B. & Samson, A. C. (2017). Emotion regulation strategies in depressive and anxiety symptoms in youth: A meta-analytic review. Journal of Youth and Adolescence, 46, 261 – 276. https://doi. org/10.1007/s10964-016-0585-0 Schermelleh-Engel, K., Moosbrugger, H. & Müller, H. (2003). Evaluating the fit of structural equation models: Tests of significance and descriptive goodness-of-fit measures. Methods of Psychological Research Online, 8(2), 23 – 74. Sim, L. & Zeman, J. (2004). Emotion awareness and identification skills in adolescent girls with bulimia nervosa. Journal of Clinical Child and Adolescent Psychology, 33, 760 – 771. https://doi. org/10.1207/s15374424jccp3304_11 Sim, L. & Zeman, J. (2005). Emotion regulation factors as mediators between body dissatisfaction and bulimic symptoms in early adolescent girls. Journal of Early Adolescence, 25, 478 – 496. https://doi.org/10.1177/0272431605279838 Southam-Gerow, M. A. & Kendall, P. C. (2000). A preliminary study of the emotion understanding of youth referred for treatment of anxiety disorders. Journal of Clinical Child Psychology, 29, 319 – 327. https://doi.org/10.1207/S15374424JCCP2903_3 Statistisches Bundesamt (2017). Schnellmeldungsergebnisse zu Schülerinnen und Schülern der allgemeinbildenden und berufli© 2018 Hogrefe Verlag


J. Graser et al., Erfassung der Emotionsregulation bei Jugendlichen anhand des „Affective Style Questionnaire – Youth (ASQ-Y)“

chen Schulen, vorläufige Ergebnisse, Schuljahr 2016/17. Zugriff am 28. 08. 2017 unter https://www.destatis.de/DE/Publikatio nen/Thematisch/BildungForschungKultur/Schulen/Schnellmel dungSchueler5211003178004.pdf ?__blob=publicationFile Suveg, C. & Zeman, J. (2004). Emotion regulation in children with anxiety disorders. Journal of Clinical Child and Adolescent Psychology, 33, 750 – 759. https://doi.org/10.1207/s15374424jccp 3304_10 Salisch, M. V. von & Pfeiffer, I. (1998). Ärgerregulierung in den Freundschaften von Schulkindern – Entwicklung eines Fragebogens. Diagnostica, 44, 41 – 53. Walcott, C. & Landau, S. (2004). The relation between disinhibition and emotion regulation in boys with attention deficit hyperactivity disorder. Journal of Clinical Child and Adolescent Psychology, 33, 772 – 782. https://doi.org/10.1207/s15374424jccp3304_12 Wicksell, R. K., Kanstrup, M., Kemani, M. K., Holmström, L. & Olsson, G. L. (2015). Acceptance and commitment therapy for children and adolescents with physical health concerns. Current Opinion in Psychology, 2, 1 – 5. https://doi.org/10.1016/j.co psyc.2014.12.029 Zimmermann, P. & Iwanski, A. (2014). Emotion regulation from early adolescence to emerging adulthood and middle adulthood: Age differences, gender differences, and emotion-specific developmental variations. International Journal of Behavioral Development, 38, 182 – 194. https://doi.org/10.1177/0165 025413515405 Onlineveröffentlichung: 25. 09. 2018

59

Dipl.-Psych. Johannes Graser Universität Witten/Herdecke Department Gesundheit Abteilung für Klinische Psychologie und Psychotherapie II Alfred-Herrhausen-Straße 44 58455 Witten johannes.graser@uni-wh.de Dr. Christiane Heimlich Prof. Dr. Ulrich Stangier Dr. Franziska Schreiber Dipl.-Psych. Johannes Graser Goethe Universität Frankfurt am Main Institut für Psychologie Abteilung für Klinische Psychologie und Psychotherapie Varrentrappstr. 40 – 42 60486 Frankfurt am Main graser@psych.uni-frankfurt.de Prof. Dr. Augustin Kelava Eberhard Karls Universität Tübingen Hector-Institut für Empirische Bildungsforschung Europastraße 6 72072 Tübingen Prof. Dr. Stefan G. Hofmann Boston University Department of Psychology 648 Beacon Street, 6th Floor Boston, MA 02215 – 2002 USA

PsychJOB der Online-Stellenmarkt für PsychologInnen Veröffentlichen Sie branchenspezifische Stellenanzeigen und präsentieren Sie gleichzeitig Ihr Unternehmen als attraktiven Arbeitgeber, um schnell und zielsicher geeignete Mitarbeiter aus allen Bereichen der Psychologie zu finden. www.psychjob.eu

© 2018 Hogrefe Verlag

Diagnostica (2019), 65 (1), 49–59


Danksagung Die unten aufgeführten Kolleginnen und Kollegen sind im Jahr 2018 als Gutachterinnen und Gutachter für die Diagnostica tätig gewesen. Ihnen sei ganz herzlich gedankt (Stand: 09. 08. 2018). Rainer Alexandrowicz, Klagenfurt (AT) Christine Altstötter-Gleich, Landau Matthias Baer, Zürich (CH) Andre Beauducel, Bonn Jürgen Bengel, Freiburg Hans-Werner Bierhoff, Bochum Thomas Bliesener, Hannover Katrin Böhme, Potsdam Peter Borkenau, Halle Mona Bornschlegl, Göttingen Martin Brunner, Potsdam Romuald Brunner, Heidelberg Janine Buchholz, Frankfurt am Main Janina Buehler, Basel (CH) Monika Bullinger-Naber, Hamburg Gabriele Buruck, Dresden Jennifer Deventer, Kiel Oliver Dickhäuser, Mannheim Katharina Diel, Köln Ralf Dohrenbusch, Bonn Boris Egloff, Mainz Gabriele Helga Franke, Magdeburg Alexander L. Gerlach, Köln Katarzyna Gogol, Konstanz Frank Goldhammer, Frankfurt am Main Joachim Grabowski, Hannover Alexander Grob, Basel (CH) Marion Händel, Nürnberg Marcus Hasselhorn, Frankfurt am Main Philipp Yorck Herzberg, Hamburg Uwe Peter Kanning, Osnabrück Ulrich Keller, Esch-sur-Alzette (LU) Uta Klusmann, Kiel Carl-Walter Kohlmann, Schwäbisch Gmünd Sebastian Kohlmann, Hamburg Ingrid Koller, Klagenfurt (AT) Sascha Krause, Leipzig Stefan Krauss, Regensburg Olga Kunina-Habenicht, Karlsruhe Jonas Lang, Gent (BE)

Diagnostica (2019), 65 (1), 60

Fani Lauermann, Bonn Gerd Lehmkuhl, Berlin Wolfgang Lenhard, Würzburg Johannes Mander, Heidelberg Franziska Meichsner, Jena Matthias Michal, Mainz Hannes Münchow, Würzburg Gabriel Nagy, Kiel Tuulia Ortner, Salzburg (AT) Christiane Otto, Hamburg Jennifer Paetsch, Bamberg Wolfgang Rauch, Ludwigsburg Gerolf Renner, Ludwigsburg Katrin Rentzsch, Bamberg Tobias Richter, Würzburg Alexander Robitzsch, Kiel Margund Rohr, Leipzig Niclas Schaper, Paderborn Stefan Schipolowski, Berlin Laura Schmidt, Heidelberg Florian Schmitz, Ulm Ulrich Schroeders, Kassel Vera Schumacher, Zürich (CH) Johannes Siegrist, Düsseldorf Jörn Sparfeldt, Saarbrücken Nadine Spörer, Potsdam Thomas Staufenbiel, Osnabrück Rolf-Dieter Stieglitz, Basel (CH) Joachim Stiensmeier-Pelster, Gießen Bernhard Strauss, Jena Anja Strobel, Chemnitz Wolfgang Wagner, Tübingen Hans-Christian Waldmann, Bremen Klaus-Peter Wild, Regensburg Markus Antonius Wirtz, Freiburg Wolfgang Woerner, Frankfurt am Main Christian Zwingmann, Bochum

https://doi.org/10.1026/0012-1924/a000224

© 2019 Hogrefe Verlag


Hinweise für Autorinnen und Autoren „Diagnostica“ ist die deutschsprachige Zeitschrift für Psychologische Diagnostik und Differentielle Psychologie. Thematischer Schwerpunkt ist die wissenschaftliche Auseinandersetzung mit psychodiagnostischen Verfahren und Instrumenten sowie mit Methoden ihrer Entwicklung und Evaluation. Als Organ für diagnostische Fragen in allen Bereichen der Psychologie und als Informationsorgan über psychologische Tests und Untersuchungsmethoden dient die Diagnostica unmittelbar der praktischen psychologischen Arbeit und trägt durch Diskussion und Erfahrungsberichte über einzelne Instrumente und Methoden zur Entwicklung auf dem gesamten Gebiet der Psychologischen Diagnostik bei. Veröffentlicht werden in der Diagnostica die Rubriken: Originalarbeiten, Kommentare, Software-Informationen, Methodeninformationen, Testinformationen, Rezensionen und Berichte aus der Arbeit des Testkuratoriums. Einsendung von Manuskripten. Alle Manuskripte sind in elektronischer Form im Editorial Manager unter http://www.editorial manager.com/dia einzureichen. Detaillierte Hinweise für Autorinnen und Autoren finden Sie unter https://www.hogrefe.com/j/dia Urheber- und Nutzungsrechte. Der Autor bestätigt und garantiert, dass er uneingeschränkt über sämtliche Urheberrechte an seinem Beitrag einschließlich eventueller Bildvorlagen, Zeichnungen, Pläne, Karten, Skizzen und Tabellen verfügt, und dass der Beitrag keine Rechte Dritter verletzt. Der Autor räumt – und zwar auch zur Verwertung seines Beitrages außerhalb der ihn enthaltenen Zeitschrift und unabhängig von deren Veröffentlichung – dem Verlag räumlich und mengenmäßig unbeschränkt für die Dauer des gesetzlichen Urheberrechts das ausschließliche Recht der Vervielfältigung und Verbreitung bzw. der unkörperlichen Wiedergabe des Beitrags ein. Der Autor räumt dem Verlag ferner die folgenden ausschließlichen Nutzungsrechte am Beitrag ein:

Jahrgang 63 / Heft 1 / 2017

g

Diagnostica

Herausgeber Olaf Köller Johannes Hartig Oliver Lüdtke Franz J. Neyer Franz Petermann Florian Schmiedek Oliver Wilhelm

Zeitschrift für Psychologische Diagnostik und Differentielle Psychologie

a) Das Recht zum ganzen oder teilweisen Vorabdruck oder Nachdruck – auch in Form eines Sonderdrucks, zur Übersetzung in andere Sprachen, zu sonstiger Bearbeitung und zur Erstellung von Zusammenfassungen (Abstracts); b) das Recht zur Veröffentlichung einer Mikrokopie-, Mikroficheund Mikroformausgabe, zur Nutzung im Weg von Bildschirmtext, Videotext und ähnlichen Verfahren, zur Aufzeichnung auf Bildund/ oder Tonträger und zu deren öffentlicher Wiedergabe – auch multimedial – sowie zur öffentlichen Wiedergabe durch Radio- und Fernsehsendungen; c) das Recht zur maschinenlesbaren Erfassung und elektronischen Speicherung auf einem Datenträger (z. B. Diskette, CDRom, Magnetband) und in einer eigenen oder fremden OnlineDatenbank, zum Download in einem eigenen oder fremden Rechner, zur Wiedergabe am Bildschirm – sei es unmittelbar oder im Wege der Datenfernübertragung – sowie zur Bereithaltung in einer eigenen oder fremden Online-Datenbank zur Nutzung durch Dritte; d) das Recht zu sonstiger Vervielfältigung, insbesondere durch fotomechanische und ähnliche Verfahren (z. B. Fotokopie, Fernkopie) und zur Nutzung im Rahmen eines sogenannten Kopienversands auf Bestellung; e) das Recht zur Vergabe der vorgenannten Nutzungsrechte an Dritte in In- und Ausland sowie die von der Verwertungsgesellschaft WORT wahrgenommenen Rechte einschließlich der entsprechenden Vergütungsansprüche. Nutzungsrichtlinien für Hogrefe Zeitschriftenartikel. Hinweise für Autorinnen und Autoren zur Online-Archivierung einer elektronischen Version Ihres Manuskriptes finden Sie auf unserer Homepage unter http://hgf.io/nutzungsrichtlinien. September 2016

Diagnostica Zeitschrift für Psychologische Diagnostik und Differentielle Psychologie Wir freuen uns über die Einreichung von Beiträgen für unsere Zeitschrift. Weitere Informationen zur Zeitschrift sowie alle notwendigen Hinweise für die Einreichung von Manuskripten (Autorenhinweise) finden Sie auf unserer Homepage.

www.hogrefe.com/produkte/zeitschriften

© 2019 Hogrefe Verlag

Diagnostica (2019), 65 (1), 61


Aktuelle Sachbücher und Ratgeber Julia Weber

Ich fühle, was ich will Wie Sie Ihre Gefühle besser wahrnehmen und selbstbestimmt steuern 2017. 216 S., 3 farbige Tab., 45 Abb., Gb € 24,95 / CHF 32.50 ISBN 978-3-456-85557-8 Auch als eBook erhältlich

Laut einer aktuellen Studie sind ca. 10 % der Bevölkerung Deutschlands von „Gefühlsblindheit“, der sogenannten Alexithymie, betroffen. Julia Weber geht den Gefühlen mittels des Zürcher Ressourcen Modells (ZRM®) auf den Grund und erklärt leicht verständlich und fundiert das Konzept der Alexithymie und ihrer Entstehung.

Maja Storch /Julius Kuhl

Die Kraft aus dem Selbst Sieben PsychoGyms für das Unbewusste

3., unveränd. Aufl. 2017. 304 S., Gb € 24,95 / CHF 32.50 ISBN 978-3-456-85775-6 Auch als eBook erhältlich

Manchmal träumt man die Lösung für ein schwieriges Problem über Nacht. Oder man hat bei einer Entscheidung ein Bauchgefühl, das in eine ganz bestimmte Richtung weist. Überraschend oft sind diese Problemlösungen genau das Richtige, denn hier schöpfen Sie Ihre Kraft aus dem Selbst. Maja Storch und Julius Kuhl erläutern fundiert und unterhaltsam, wie das Selbst funktioniert.

www.hogrefe.com

Maja Storch et al.

Embodiment Die Wechselwirkung von Körper und Psyche verstehen und nutzen 3., unveränd. Aufl. 2017. 184 S., 34 Abb., Gb € 29,95 / CHF 39.90 ISBN 978-3-45685816-6 Auch als eBook erhältlich Warum fällt es vielen Menschen so schwer, achtsam mit dem eigenen Körper umzugehen? Die vier Autoren gehen in „Embodiment“ dieser und anderen Fragen nach und kommen einmütig zum Schluss: Es ist höchste Zeit, das wichtigste Erfahrungsinstrument des Menschen zurückzuerobern: den Körper.

Caroline TheissWolfsberger / Maja Storch

Bewegen Sie sich besser! Mit Bewegungsperlen und der richtigen Motivation durch jeden Tag 2., erw. Aufl. 2018. 296 S., Gb € 29,95 / CHF 39.90 ISBN 978-3-456-85859-3 Auch als eBook erhältlich Hier treffen sich zwei Welten, die bestens zusammenpassen: Mit den einfachen, aber genialen Übungen von Caroline Theiss, den „Bewegungsperlen“, und der ebenso genialen Motivationshilfe nach Maja Storchs ZRM gelingt es Ihnen endlich, mit gezielten Übungen zu einer ebenso gesunden wie schönen Körperhaltung zu gelangen und schmerzhafte Verspannungen loszuwerden.


ProDiBez Projektives Diagnostikum zum Beziehungserleben von Kindern

Elisabeth Sticker Jochen Willerscheidt Insa Fooken

Projektives Diagnostikum zum Beziehungserleben von Kindern Das ProDiBez zielt darauf ab, mittels der Vorlage mehrdeutiger Bilder Aufschluss über Formen des Erlebens und Verhaltens bei Kindern zu erhalten, die mit möglichen Lern-, Verhaltens- und emotionalen Problemen und deren Psychodynamik in Zusammenhang stehen. Aus den Antworten der Kinder lassen sich zentrale Ansatzpunkte für Beratung und Therapie ableiten. Einsatzbereich und Alter • Kann in der Schulpsychologie und pädagogischen Diagnostik sowie zur Befunderhebung in der Kinderpsychotherapie eingesetzt werden • Ist für Kinder von 6 bis 12 Jahren geeignet

Test komplett bestehend aus: • Manual • 16 Bildtafeln für Mädchen • 16 Bildtafeln für Jungen • 10 Auswertungsbogen • 10 Interpretationsbogen • Instruktion • Kodiersystem • Box Best.-Nr. 03 226 01 € 167,00 / CHF 209.00

www.hogrefe.com

Besonderheiten • Schnelle Durchführung in nur 15 Minuten • Ermöglicht einen Zugang zum inneren Erleben des Kindes mithilfe eines multimodalen Diagnostikprozesses • Erfasst das Erleben und Verhalten eines Kindes in seinen wichtigsten Lebensbereichen (gemäß Operationalisierter Psychodynamischer Diagnostik im Kindes- und Jugendalter [OPD-KJ-2]) anhand von Erzählungen zu ansprechend gestalteten Bildtafeln • Auswertung der Erzählungen erfolgt anhand eines übersichtlichen Kodiersystems, welches die Bereiche Bedürfnisse, Resonanz / Verhalten der Umwelt und persönliches Verhalten / Erleben des Kindes enthält


SON-R 2-8

Jetzt ! r a b r e f lie

Non-verbaler Intelligenztest Sprachfreie Intelligenzmessung für Kinder von 2 bis 8 Jahren SON-R 2-8 Snijders-Oomen Non-verbaler Intelligenztest

P.J. Tellegen J.A. Laros F. Petermann

I. Technisches Manual

Peter Tellegen / Jacob A. Laros / Franz Petermann

www.hogrefe.com

Der SON-R 2-8 ist die neue Version des Snijders-Oomen Non-verbalen Intelligenztests für Kinder von zwei bis acht Jahren. Mit dem Test kann die allgemeine Intelligenz junger Kinder beurteilt werden, ohne dabei von Sprache abhängig zu sein. Es können getrennte Werte für eine Handlungsskala und eine Denkskala berechnet werden. Die Durchführung erfolgt im Einzelsetting.

Die Vorteile des SON-R 2-8 • Gute Handhabung • Ansprechende Materialien • Leichte Auswertung • Sehr kinderfreundlich • Breites Spektrum an gemessenen Fertigkeiten • Unabhängig von Sprache • Aktuelle Normen • Zuverlässige Intelligenzmessung in 50 Minuten

Neugierig geworden? Weitere Informationen zu den Testmaterialien, ein Produkt-Video sowie Seminarhinweise zum neuen SON-R 2-8 finden Sie hier: hgf.io/sonr-a1


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.