Folkeskolen nr. 19, 2019

DEBAT Hvornår er godt godt nok, og bør de nationale test stoppes nu? Sæt de nationale test i bero, mens deres afløser udvikles – det synes at være et helt igennem rimeligt krav fra elever, forældre, lærere og ikke mindst en række beslutningstagere. Samtidig er det kronikørens klare konklusion. KRONIK CHRISTIAN CHRISTRUP KJELDSEN, DR.PHIL., VICEINSTITUTLEDER, DPU, AARHUS UNIVERSITET, STANDING COMMITTEE MEMBER, INTERNATIONAL ASSOCIATION FOR THE EVALUATION OF EDUCATIONAL ACHIEVEMENT (IEA)

For den udenforstående kan det trods mange års kritik og undersøgelser af de nationale test virke, som om forskere er uenige om, hvorvidt de nationale test har måleusikkerhed eller ej. Det er forskerne helt enige om, at de har. Spørgsmålet, der deler vandene, handler om, hvornår målesikkerheden er god nok – eller sagt anderledes: Hvornår er godt godt nok? Længe før professor Jeppe Bundsgaard og kollega Svend Kreiner i foråret konkluderede, at der var målefejl ved de nationale test i 8. klasse dansk, vidste alle forskere således, at de nationale test målte usikkert. Antagelsen var dog, at der var tale om tilfældig usikkerhed. På konferencen »De nationale test – tænkt forfra« afholdt af formandskabet for Rådet for Børns Læring leverede professor Simon Calmar Andersen i høj grad en reprise af den kronik, »Drop kritikken af de nationale test«, som han og en gruppe forskere skrev efter Bundsgaard og Kreiners rapport. De 32 forskere fremhævede i kronikken, at »Det er en ofte fremført kritik af de nationale test, at en elev kan tage den samme test to gange uden at få det samme 26 /

FOLKESKOLEN / 19 / 2019

resultat. Dette gælder imidlertid enhver pædagogisk test«. Hvem er uenig i det? Ingen! Det er ikke det substantielle i kritikken af testens måleegenskaber. Vi kender det alle sammen. Måleusikkerhed har badevægten også, og jeg skal da ikke sige mig for god; jeg har også stillet mig op på vægten flere gange, indtil jeg var nogenlunde tilfreds med resultatet. Men hvis min badevægt fra gang til gang svingede mellem 60 og 130 kilo, ville jeg – trods muligheden for at stille mig på den hver morgen – sende den til reparation. I argumentet for at de nationale test måler sikkert nok, fremhævede Simon Calmar Andersen med henvisning til en normalfordeling, at resultatet på de nationale test er det mest sandsynlige resultat, og at det kun er få tilfælde, der ville falde langt fra det resultat. Hvis jeg stillede mig på vægten mange gange i løbet af en dag, og måleusikkerheden vel at mærke var tilfældig, så ville gennemsnittet og resultaterne sandt nok fordele sig omkring min reelle vægt – men sagen er, at vi – heldigvis – ikke tester den enkelte elev så mange gange for at få et gennemsnit, der er nogenlunde. Lærerne, eleverne og forældrene får alene det ene testresultat og kan derfor ikke på baggrund af den ene måling slutte, at resultatet afspejler elevens mest sandsynlige »sande færdighed«. Hvis usikkerheden derimod er skævt fordelt, således at jeg fik flere lave resultater end høje af testen eller badevægten, ville det ligeledes ikke være tilfældet, og gennemsnittet

ville ikke være det bedste bud på min faktiske vægt. Eleven, læreren og forældrene kan ikke på baggrund af det enkelte testresultat være sikre og blot antage, at »jo længere væk fra testresultatet man kommer, jo mindre sandsynligt er det, at elevens faktiske niveau befinder sig der«, sådan som det blev gentaget på konferencen.

En måling på badevægten Det resultat, den enkelte elev, lærer eller forælder får i hånden, er »modellens« »mest sandsynlige« bud, men alene byggende på det faktiske testforløb og den grundlæggende model. Den enkelte elev, forældrene og læreren har alene et testresultat at forholde sig til (de stiller sig ikke et utal gange på badevægten og finder et gennemsnit) og har derfor ingen empirisk mulighed for at vurdere, om netop denne elev hører til de elever, der er over- eller underestimeret – så at det i gennemsnit for alle de testede passer nogenlunde, er en ringe trøst for den enkelte. Perspektivet er derfor vigtigt. Er målesikkerheden god nok i beregningen af et gennemsnit for en stor gruppe elever, eller skal det også være godt nok for den enkelte elev, læreren, skolelederen og ikke mindst forældrene? Andelen af elever, der måles forkert, afhænger af størrelsen på målesikkerheden, så lad os se på, hvor stor en andel det drejer sig om. Den australske ekspert i teststatistik Margaret Wu har blandt andet medvirket til udvikling af de værktøjer, vi bruger i dag til

Turn static files into dynamic content formats.

Create a flipbook