Past drama in een hokje klarenbeek & v d meulen prak by AHK Master Kunsteducatie

Past drama in een hokje? Een praktijkonderzoek naar de validiteit en toepasbaarheid van het beoordelingsinstrument van Lok (2013), ontwikkeld bij het lectoraat Kunst- en cultuureducatie van de AHK, voor dramalessen in het voortgezet onderwijs.

Debbie Klarenbeek Borius van der Meulen Praktijkonderzoek Master Kunsteducatie Amsterdamse Hogeschool voor de Kunsten Amsterdam, juni 2014

ÂŠ Copyright. Alle rechten voorbehouden: niets uit deze uitgave mag worden verveelvoudigd, opgeslagen in een geautomatiseerd gegevensbestand, of openbaar gemaakt in enige vorm of op enige wijze, hetzij elektronisch, mechanisch, door fotokopieĂŤn, opnamen of enige manier, zonder voorafgaande schriftelijke toestemming van Debbie Klarenbeek en Borius van der Meulen.

INHOUDSOPGAVE Inhoudsopgave

Samenvatting

1. Inleiding

2. Vraagstelling

3. Methode

4. Resultaten

4.1

De (digitale) toepasbaarheid van het beoordelingsmodel in de lespraktijk

4.2 4.2a 4.2b

Inhoudsvaliditeit Inhoud Operationalisering

16 16 21

4.3

Rapportcijfer voor de acht Rubrics door docenten en leerlingen

5. Conclusie, aanbevelingen, discussie

6. Literatuur

Bijlagen Bijlage 1 Bijlage 2.1 Bijlage 2.2

Bijlage 3.1 Bijlage 3.2 Bijlage 3.3 Bijlage 3.4 Bijlage 3.5 Bijlage 3.6 Bijlage 3.7

Codeboom De acht onderzochte Rubrics uit het beoordelingsmodel met de basis nummering van de top-down codering Het totale beoordelingsmodel met de zevenendertig Rubrics met de basis nummering van de top-down codering De acht Rubrics verbeterd naar aanleiding van interview met docent 1 De acht Rubrics verbeterd naar aanleiding van interview met docent 2 De acht Rubrics verbeterd naar aanleiding van interview met docent 3 De acht Rubrics verbeterd naar aanleiding van interview met leerlingen van docent 1 De acht Rubrics verbeterd naar aanleiding van interview met leerlingen van docent 2 De acht Rubrics verbeterd naar aanleiding van interview met leerlingen klas 1 van docent 3 De acht Rubrics verbeterd naar aanleiding van interview met leerlingen klas 2 van docent 3

31 31 32 33

36 37 38 39 40 41 42

Bijlage 4

Rapportcijfer voor de acht Rubrics door docenten en leerlingen

Bijlage 5.1 Bijlage 5.2

Topiclist interview docenten Topiclist interview leerlingen

44 45

Bijlage 6

Brief aan ouders/ verzorgers over video en geluidsopnamen

Samenvatting Het onderzoek â&#x20AC;&#x2DC;Past drama in een hokje?â&#x20AC;&#x2122; is een toetsend onderzoek naar het beoordelingsinstrument voor dramalessen in het voortgezet onderwijs van Lok (2013). Dit digitale beoordelingsinstrument is gebaseerd op een Master Rubric, bestaande uit zes hoofdcriteria (te weten basisvaardigheden, spelvaardigheden, maken, schrijven, reflecteren en theorie), onderverdeeld in zevenendertig subcriteria en ieder met vier niveauomschrijvingen. Het instrument werkt met het programma Google Docs waarbij beoordelingen en informatie gedeeld kunnen worden met leerlingen en docenten/ beoordelaars. Dit onderzoek heeft een antwoord willen vinden op de vraag: In hoeverre is het beoordelingsinstrument voor dramalessen in het voortgezet onderwijs van Lok (2013) toepasbaar en inhoudsvalide volgens docent en leerling? Deze vraag resulteerde in deelvragen waarbij er ingegaan is op: de toepasbaarheid van het beoordelingsmodel binnen een lessituatie/ een school, de inhoudsvaliditeit van de acht onderzochte criteria en van de niveauverschillen, en wat dit zegt over de overige Rubrics binnen het beoordelingsmodel. Het onderzoek richt zich specifiek op de inhoudsvaliditeit, waarbij er een splitsing is gemaakt in inhoud van het instrument (Meet het instrument precies wat het wil meten), operationalisering (de manier waarop verschillende criteria worden gemeten) en (digitale) toepasbaarheid. Er zijn acht specifieke Rubrics uit het totale instrument onder de loep genomen. De overige negenentwintig Rubrics zijn globaal met de docenten besproken. Dit is gedaan door middel van interviews met docenten en leerlingen in het voortgezet onderwijs, middels semi gestructureerde interviews, waarbij docenten en leerlingen eerst drie lessen met het instrument hebben gewerkt om er een visie over te vormen. De resultaten worden beschreven aan de hand van themaâ&#x20AC;&#x2122;s zoals de (digitale) toepasbaarheid van het beoordelingsmodel van Lok en inhoudsvaliditeit. Binnen het thema (digitale) toepasbaarheid wordt onder andere ingegaan op de inzetbaarheid binnen een lespraktijk. Binnen inhoudsvaliditeit wordt onder andere ingegaan op volledigheid, normering, meetbaarheid, woordkeuze, niveauomschrijvingen, indeling en dekkendheid van de Rubrics. Omdat uit alle zeven interviews andere verbeterpunten voor het instrument naar voren kwamen is er per interview een verbeterde Rubric versie gemaakt welke terug te vinden zijn in de bijlagen 3.1 t/m 3.7. Het instrument is een goede, uitvoerige en volledige basis, maar ten aanzien van zowel de toepasbaarheid in het voortgezet onderwijs als ten aanzien van de inhoudsvaliditeit zijn verbeteringen noodzakelijk. De meest opvallende aanpassingen zijn gericht op het consequent gebruik en specificeren van begrippen en kwantitatieve en kwalitatieve aanduidingen. De praktische toepasbaarheid wordt beperkt door de digitale omgeving van Google Docs. Het is voor de scholen van belang dat het instrument toepasbaar is binnen het eigen digitale leerplatform van de school. Hiernaast is de digitale veelzijdigheid van het instrument niet direct een extra voordeel, omdat mogelijkheden zoals het aanmaken van een beoordeling per leerling met een daarbij behorende chatfunctie eerder als een verzwaring van de werkdruk wordt gezien.

1. Inleiding Veel theaterdocenten in het voortgezet onderwijs hebben hun eigen manier van beoordelen ontwikkeld. Dit is vaak gedeeltelijk gestoeld op intuïtie en gedeeltelijk gestoeld op de kerndoelen en eindtermen van het vak drama in het voortgezet onderwijs. Er is echter moeilijk één lijn te vinden binnen de beoordelingscriteria en wijze waarop de beoordeling van de vakleerkracht plaatsvindt. Lok (2013a) omschrijft het beoordelen in het theateronderwijs als een ondergeschoven kindje. ‘Echter mede door de economische crisis en verschuivingen in de gesubsidieerde sector, rukt het onderwijsveld op als de nieuwe grootste werkgever in de toekomst. Een werkveld waar beoordeling aan de orde van de dag is.’ Binnen het Lectoraat Kunst- en cultuureducatie van de AHK, heeft Lok een onderzoek verricht waarbij zij het werkveld in is gegaan en interviews en enquêtes heeft afgenomen. Het doel van haar onderzoek in het werkveld was het inventariseren van de wensen voor een goed beoordelingsinstrument, om dit vervolgens zelf te ontwikkelen. Zaken die naar voren kwamen tijdens het werkveldonderzoek waren: Theaterdocenten geven aan over te weinig handvatten te beschikken om een beoordelingsmethode te kunnen toepassen die tegemoet komt aan de eisen van het huidige onderwijs. Beoordelingsvormen zoals Rubrics zijn nog weinig bekend en er zijn weinig voorbeelden voorhanden van beoordelingsinstrumenten die zichzelf bewezen hebben. Beoordelingsmethodes gegeven door het onderwijs doen vaak geen recht aan de authenticiteit van de individuele leerling en/of aan het kunstvak theater (Lok, 2013a). Het beoordelingsinstrument dat Lok aan de hand van het werkveldonderzoek heeft ontwikkeld, is ontstaan vanuit de volgende probleemstelling en deelvragen: Probleemstelling: Hoe kan een beoordelingsinstrument eruit zien voor de theaterlessen in het voortgezet Onderwijs, dat dynamisch en aanpasbaar is per product op basis van de lessituatie en het instapniveau van de leerlingen? Deelvragen: • Kunnen we de beginsituatie van de leerling een plek geven in het beoordelingsinstrument? • Kunnen we de verschillende rollen die een leerling inneemt tijdens een theatrale didactische situatie transparant maken in een beoordelingsinstrument? • Kunnen we de tool zo vormgeven dat het enerzijds tegemoet komt aan de wens van de school (concrete beoordeling) en dat tegelijkertijd recht doet aan het artistieke proces en het theater als kunstvak? • Kan een [beoordelingsinstrument] bijdragen aan het gevoel van veiligheid binnen een beoordelingsproces? • Kan een docent in een makende rol objectief beoordelen? • Welke rol kunnen leerlingen spelen in de beoordeling van het werk van klasgenoten • Kunnen we een tool ontwikkelen die zich kan aanpassen aan de lessituatie? • Welke vormen van digitale [beoordelingsinstrumenten] bestaan er? (Lok, 2013a). Dit onderzoek heeft geresulteerd in een digitaal beoordelingsinstrument dat is gebaseerd op de zogeheten Master Rubric. ‘De Master [Rubric] bestaat uit [zevenendertig] criteria waar de docent, afhankelijk van de aard van het project/ de lessenreeks uit kan kiezen’ (Lok, 2013a). Deze zevenendertig subcriteria zijn onderverdeeld in zes hoofdcriteria. Een criterium is ‘datgene waarop je je beoordeling baseert’. De hoofdcriteria worden hier benoemd met er achter de omschreven subcriteria die hier onder vallen: • Basisvaardigheden (6): creëren veilige spelomgeving; samenwerken; lef en durf; verbeelding/ fantasie; houding; respect tonen

• • • •

•

Spelvaardigheden (10): verstaanbaarheid; geloofwaardigheid; improviseren; fysiek spel/ transformatie; personageopbouw; ruimtelijk bewustzijn; spelconcentratie; tekstbehandeling; tekstanalyse/ tekstinterpretatie; toepassen van speelstijlen in een scène Maken (6): regisseren van een scène; verbeelden; vormgeven; mise-en-scène toepassen; spanningsopbouw van een scène; anderen (spel) instructies geven Schrijven (3): schrijven van een monoloog; schrijven van een dialoog; schrijven van een scène Reflecteren (8): reflecteren op eigen werk en dat van anderen; bijhouden van een logboek of kunstdossier; schrijven van een kijkwijzerverslag of recensie; opbouwende feedback geven; elkaars presentaties beoordelen; houden van nabesprekingen; theatervoorstellingen kunnen analyseren; vormen van een eigen mening over theater Theorie (4): kennis van speelstijlen; kennis van theatergeschiedenis; kennis van theatertechniek; kennis van theaterbegrippen

Bij elk subcriterium zijn er vier niveaus beschreven waarbij de beoordelaar kan aangeven binnen welk niveau de leerling op dat moment functioneert. In tabel 1 is een voorbeeld te zien ter verduidelijking: Hoofcriterium

Subcriterium

Niveau 4

Basisvaardigheden Creëren veilige Leerling is altijd spelomgeving actief bezig met creëren veilige leeromgeving

Niveau 3

Leerling is meestal actief bezig met creëren veilige leeromgeving Tabel 1. Voorbeeld van één Rubric uit het beoordelingsmodel van Lok

Niveau 2

Niveau 1

Leerling is soms actief bezig met creëren van een veilige leeromgeving

Leerling is te weinig actief in het creëren van een veilige leeromgeving

Het instrument werkt met het programma Google Docs en via dit programma kan het gedeeld worden met de leerlingen en eventueel andere docenten, medeleerlingen of beoordelaars. Degene die toegang heeft tot de specifieke Google Docs map kan altijd de beoordelingen inzien. Daarnaast zit er een chatfunctie op het programma waarmee docenten en leerlingen met elkaar kunnen communiceren over de beoordeling. De uitleg van het instrument is ook online via een youtube filmpje te vinden (Lok, 2013b). Het Google Docs document bevat vijf tabbladen, namelijk: projecten, hoofdcriteria, Master Rubric, Rubric specifiek en scorekaart. Binnen de projecten kan een docent zijn project/ lessenserie een naam geven. Binnen de hoofdcriteria zijn de zes criteria te vinden waar alle subcriteria onder vallen. Binnen de Master Rubric zijn alle zevenendertig subcriteria met niveauomschrijvingen terug te vinden. Binnen Rubric specifiek kan de docent zijn eigen Rubric bouwen op basis van zijn projecten/ lessenseries en de hoofd- en subcriteria die hij bij dit project wil mee laten wegen, toevoegen. Binnen de scorekaart zijn de totale cijfers te zien. Naast dat de docent de subcriteria kan kiezen, kan deze ook bepalen welke waarde er aan welk criterium toegekend kan worden. Zo kan een docent er dus voor kiezen een subcriterium als ‘respect tonen’, welke valt onder basisvaardigheden, voor 30 procent mee te laten tellen in het cijfer en het subthema ‘spelconcentratie’, welke valt onder spelvaardigheden, voor 70 procent mee te laten tellen. Ook is er de mogelijkheid om de beoordeling uit te leggen op twee manieren. Er kan een comment geplaatst worden in de chatfunctie van het programma. Deze worden wel bewaard maar niet uitgeprint op de scorekaart. Er kan een note in de scorekaart toegevoegd worden, deze wordt meegeprint bij de scorekaart (Lok, 2013b). Het beoordelingsmodel dat er nu ligt dient nader onderzocht te worden. De aanleiding voor ons om hiermee aan de slag te gaan is in eerste instantie omdat we het instrument veelomvattend en interessant vinden en omdat het gebruik maakt van de mogelijkheden van deze tijd (online communicatie). Wij zijn beiden dramadocent en hebben in het buitenschoolse segment nog niet veel van doen gehad met de beoordelingsmethoden binnen school. Doordat er al een instrument ligt en wij de kwaliteit ervan kunnen onderzoeken, denken we op de beste manier daadwerkelijk een bijdrage te kunnen leveren aan het drama onderwijs. We hopen dan ook dat de vorm die nu gekozen is deze bijdrage zo optimaal mogelijk maakt. De begrippen drama en theater Lok (2013) heeft het in haar onderzoek over theaterlessen. Als echter de theorie over de begrippen ‘drama’ en ‘theater’ bestudeerd wordt dan is het volgende te zien: De begrippen ‘drama’ en ‘theater’

waren tot ongeveer halverwege de jaren â&#x20AC;&#x2122;80 strikt gescheiden woorden. Drama werd gezien als een middel om tot leren en ontwikkelen te komen. . . . Door middel van spel werd getracht om op verschillende onderwijsterreinen tot prestaties te komen. Men probeerde met behulp van drama veel uiteenlopende doelen te bereiken, zoals persoonlijke en sociale ontwikkelingen (Bos, 2000, p. 4). Drama ging over het leren door middel van theater en theatereducatie ging over het leren van theater (Henry, 2000 volgens Bos, 2000). Na de jaren â&#x20AC;&#x2122;80 is deze tweedeling veranderd. Dramatische vorming en theater kwamen weer dichter bij elkaar waarbij het vakinhoudelijke aspect bij drama educatie weer meer van belang werd geacht (de Vroomen, 1994). Binnen dramalessen wordt het proces centraal gesteld, en niet het (theater)product (Janssens, 1999). Dit is de reden dat in dit onderzoek de term dramalessen aangehouden wordt in plaats van theaterlessen.

2. Vraagstelling Omdat het beoordelingsinstrument veel omvattend is, zijn we genoodzaakt om ons onderzoek te beperken. We willen dat ons onderzoek bij kan dragen aan een sterkere onderbouwing en mogelijke optimalisering van het instrument. In de deelvragen van het onderzoek van Lok (2013) komen veel aspecten voor die in de praktijk nader onderzocht kunnen worden. Zo komen we de volgende onderwerpen in de deelvragen tegen: beginsituatie, transparantie, veiligheid, objectiviteit van beoordeling, rol bij beoordeling en flexibiliteit van het beoordelingsinstrument. Omdat elk van deze onderwerpen terugkomen in een onderdeel van het instrument, willen we ons met dit onderzoek richten op de primaire taak van het instrument: het beoordelen. De zevenendertig geformuleerde criteria met bijbehorende niveauomschrijvingen vormen de basis van deze beoordeling. We richten ons op de validiteit van de criteria en niveauomschrijvingen binnen deze criteria.

Validiteit Er zijn vele definities voor validiteit en vele specificaties. De validiteit van een test wordt door Drenth & Sijtsma (1990, p.173) omschreven als ‘de mate waarin de test aan zijn doel beantwoordt’. In het geval van dit onderzoek gaat het niet om een test maar een instrument. Er zijn verschillende vormen van validiteit. Hieronder wordt kort ingegaan op de belangrijkste vormen en uitleg gegeven welk type validiteit onderzocht wordt binnen dit onderzoek. Predictieve validiteit Bij predictieve validiteit is er sprake van voorspellend gebruik. Hierbij wordt een schatting gemaakt door na te gaan in welke mate voorspellingen worden bevestigd door testen afgenomen op verschillende tijdstippen. Bijvoorbeeld bij een selectie instrument voor onderwijs: Zijn degenen die hoog scoren op zo’n test ook het meest succesvol in de studie? Een vorm van predictieve validiteit is concurrente validiteit. Hierbij wordt nagegaan of testresultaten corresponderen met gelijktijdig beschikbare gegevens. Het verschil met predictieve validiteit is het tijdstip van het verzamelen van de gegevens (Drenth & Sijtsma, 1990). Binnen dit onderzoek kunnen we geen voorspellende gegevens onderzoeken en deze vorm past dus ook niet bij dit onderzoek. Begripsvaliditeit ‘Begripsvaliditeit heeft betrekking op de theorieën waarin het kenmerk-zoals-bedoeld gerelateerd is aan andere kenmerken’(Swanborn 1984, p. 221). Men verzamelt zoveel mogelijk redelijk getoetste uitspraken waarin het kenmerk is gerelateerd aan andere kenmerken. Men meet de correlaties, de manier waarop het ene kenmerk samen hangt met het andere (Swanborn, 1984). Constructvaliditeit Met constructvaliditeit wordt geëvalueerd door te onderzoeken welke kwaliteiten een test meet (Drenth & Sijtsma, 1990). Men kan het onderzoek ‘naar de interne consistentie zodanig opzetten dat nagegaan wordt of de onderdelen van een samengesteld meetinstrument clustertjes vormen die ieder misschien een zelfstandig aspect van het te meten kenmerk meten (cluster – en factoranalyse)’ (Swanborn, 1984, p. 223). Constructvaliditeit is de mate waarin de deelaspecten van een omvangrijk begrip het gehele begrip dekt. Bij constructvaliditeit wordt een begrip ontrafelt in al haar mogelijke aspecten. Vervolgens worden alle aspecten afzonderlijk bemeten. Een somscore – al dan niet in een bepaalde verhouding tot elkaar – vormt dan de score op het begrip (Hulp bij Onderzoek, 2014). Constructvaliditeit wordt evenals predictieve validiteit door middel van empirisch onderzoek met de test onderzocht. Inhoudsvaliditeit Bij inhoudsvaliditeit wordt een schatting verkregen door te beoordelen hoezeer de inhoud van de test een universum van situaties, kennisinhouden of vaardigheden representeert, waarover met betrekking tot het onderzochte conclusies moeten worden getrokken . Dit is vooral van toepassing binnen het onderwijskundig meten (Drenth & Sijtsma, 1990) en correspondeert met dit onderzoek. Inhoudsvaliditeit is méér dan validiteit op het eerste gezicht (de zogenoemde indruksvaliditeit of

facevalidity). Een onderzoeker zal niet alleen zijn eigen oordeel mee willen wegen maar hij zal het instrument ook testen middels enquêtes of steekproeven (Swanborn, 1984). De validiteitsvorm binnen dit onderzoek Binnen dit onderzoek is sprake van inhoudsvaliditeit. Er worden antwoorden gezocht op de vraag: Meet dit instrument precies wat het wil meten? Binnen dit onderzoek gaat het over: Meet het instrument met de geformuleerde criteria en niveauomschrijvingen precies wat het wil meten? Specifieker gaat het binnen dit onderzoek om codes als: meetbaarheid, volledigheid, vakinhoud, en woordkeuze welke allen vallen onder inhoudsvaliditeit. Binnen dit onderzoek wordt inhoudsvaliditeit echter breder geïnterpreteerd dan dat er enkel gekeken wordt naar een representatieve afspiegeling, omdat dit onderzoek ook de operationalisering van deze inhoud onderzoekt. Met operationalisering wordt bedoeld: De manier waarop de verschillende kenmerken worden gemeten. Dit zijn onderwerpen als overlappingen tussen verschillende criteria, de onderlinge verhoudingen tussen de niveauomschrijvingen, de dekkendheid, het loskoppelen of uitsplitsen van criteria en de indeling. Er worden antwoorden gezocht op de vraag: Is het te meten begrip voldoende uitgewerkt in zijn verschillende aspecten die met het begrip samenhangen. Ook dit wordt onderzocht vanuit inhoudelijke argumenten. Inhoudsvaliditeit wordt daardoor in twee subthema’s onderverdeeld, namelijk: inhoud en operationalisering. Naast deze twee subthema’s hebben de respondenten ook hun visie gegeven op het digitale aspect van het beoordelingsmodel via Google Docs, de toepasbaarheid binnen een school/ een lessituatie en de overzichtelijkheid ofwel de vormgeving van het model. Dit is naast de eigen beoordelingsmethode van de docent gelegd.

Onderzoeksvraag De onderzoeksvraag luidt als volgt: In hoeverre is het beoordelingsinstrument voor dramalessen in het voortgezet onderwijs van Lok (2013) toepasbaar en inhoudsvalide volgens docent en leerling? De deelvragen die hieruit voortkomen zijn: • Is het beoordelingsmodel toepasbaar binnen een lessituatie/ een school in het voortgezet onderwijs? • Is de inhoud van de acht onderzochte criteria valide volgens docent en leerling? • Is de inhoud van de niveauomschrijvingen valide en kloppen de onderlinge verhoudingen volgens docent en leerling? • Wat is er vanuit de acht onderzochte criteria te zeggen over het totale beoordelingsmodel van Lok en is de inhoud van de overige negenentwintig criteria en niveauomschrijvingen valide volgens de docent? De acht onderzochte Rubrics uit het beoordelingsinstrument Wegens de korte tijd die we voor het uitvoeren van dit onderzoek hebben, zijn we genoodzaakt om het onderzoek te beperken. Hierdoor kunnen we niet alle zevenendertig criteria onderzoeken en moeten daarom een selectie maken. Omdat Lok het vooronderzoek heeft gedaan, het instrument heeft ontwikkeld en zelf een drama achtergrond heeft, hebben we ervoor gekozen om haar een selectie te laten maken van acht beoordelingscriteria met bijbehorende niveauomschrijvingen. De vraag aan Lok was om een selectie te maken van de criteria, op basis van de volgende voorwaarden: - Algemenere criteria en criteria voor specifieke lessituaties - Criteria waar ze reeds positief over is als het gaat om het representeren van de te beoordelen vaardigheid - Criteria waarbij ze zelf twijfels heeft over de formulering ervan als het gaat om het representeren van de te beoordelen vaardigheid In bijlage 2 is het schema opgenomen van de acht onderzochte Rubrics uit het beoordelingsmodel. Er heeft tijdens het onderzoek één wissel plaatsgevonden: Binnen de acht gekozen Rubrics door Lok is gekozen voor tekstbehandeling én schrijven van een scène. De docent werkt drie lessen met de leerlingen, waar de tijd voor de uitleg van de Rubrics en het beoordelen met de Rubrics nog van af gaat. Dit is kort om alle acht criteria goed aan bod te laten

komen. Om zelf een tekst te schrijven en daarnaast ook aan tekstbehandeling te werken (wat het best gedaan kan worden met teksten geschreven door theaterschrijvers), is teveel gevraagd, was de conclusie van het gesprek met een theaterdocent. Daarom is er voor gekozen om het schrijven van een scène weg te halen. Dit was ook moeilijk in te passen in de lessen. Er is gekozen om de basisvaardigheid ‘het creëren van een veilige omgeving’ daarvoor in de plaats toe te voegen omdat dit de basis is voor elke dramales.

3. Methode Onderzoeksopzet Dit onderzoek naar de inhoudsvaliditeit van het beoordelingsinstrument van Lok is een toetsend onderzoek omdat het onderzoek zich richt op een inventarisering van meningen over en percepties van de criteria en de niveauomschrijvingen. Het betreft een kwalitatieve survey met semi gestructureerde groepsinterviews met leerlingen en semi gestructureerde interviews met betrokken dramadocenten waarbij bij beiden gebruik gemaakt wordt van een topiclist.

Onderzoekseenheden / respondenten Selectiemethode Ten aanzien van de selectieprocedure van de respondenten hadden wij twee keuzen: De scholen benaderen waar Lok haar onderzoek heeft afgenomen of nieuwe scholen benaderen. Het voordeel van de scholen die al met het eerdere onderzoek mee hebben gedaan is dat op deze scholen al in kaart is gebracht hoe de huidige beoordelingspraktijk is bij de scholen, docenten en leerlingen. Als nadeel heeft dit dat de wensen van deze scholen, docenten en leerlingen al in het beoordelingsinstrument zijn opgenomen. Het nadeel van het benaderen van nieuwe scholen is dat de huidige beoordelingspraktijk hier (nog) niet in kaart is gebracht en dat er (nog) geen contacten zijn gelegd en dit wellicht tijd kost. Er is voor gekozen om samen te werken met nieuwe scholen, omdat zij het instrument voor de eerste keer zien en hun wensen er niet in zijn verwerkt. Hierdoor worden de onderzoeksresultaten betrouwbaarder. Deze betrouwbaarheid heeft bij de keuze de doorslag gegeven omdat dit de onderzoeksvraag bekrachtigt. De scholen zijn gekozen op basis van bestaande contacten en geïnteresseerde nieuwe contacten. Het was vooral van belang dat de school drama als eindexamenvak aanbiedt en de docenten tijd en aandacht aan het onderzoek wilden besteden. De leerlingen zijn gekozen door de docent met de vraag of zij leerlingen wilden selecteren die hun mening goed kunnen formuleren. De geselecteerde respondenten voor dit onderzoek bestaan in totaal uit: twee scholen - twee dramadocenten op één school en één dramadocent op de andere school, vier klassen waarvan twee klassen per school. Er is voor dit aantal gekozen uit praktische overwegingen, zoals vanwege de tijd. Daarnaast werd tijdens de interviews duidelijk dat er dubbelingen in antwoorden ontstonden en hadden we aan dit aantal voldoende om de onderzoeksvraag te beantwoorden. Als er meer tijd zou zijn, was het raadzaam om eerst het instrument te herschrijven vóórdat er een nieuwe interviewronde plaats vond. Op school 1 vond een interview plaats met docent 1 die al meer dan tien jaar dramalessen verzorgt op deze middelbare school en een eerstegraads lesbevoegdheid heeft. Op school 1 vond ook een interview plaats met docent 2 die ruim één jaar dramalessen verzorgt op deze middelbare school en op dit moment de eerstegraads lesbevoegdheid aan het behalen is. Op school 1 vond een interview plaats met vier leerlingen uit een VWO 4 klas. Zij krijgen wekelijks drie lesuren drama en om de week nog eens twee lesuren. Zij hebben drama als keuzevak, en waren op het moment dat het interview plaats vond tijdens de lessen bezig met speelstijlen, het oefenen van grotesk spel en hadden net Stanislavski behandeld. De leerlingen volgen vanaf de brugklas drama. Op school 1 vond ook een interview plaats met vier leerlingen uit een tweedejaars sportklas. Zij hebben extra sportlessen en niet gekozen voor drama. Ze hadden pas ongeveer twee lessen drama gehad. Het is een havo/vwo klas. Zij krijgen wekelijks twee lesuren drama. Op school 2 vond een interview plaats met docent 1 die ruim tien jaar dramalessen verzorgt op deze middelbare school en een eerstegraads lesbevoegdheid heeft. Op school 2 vond een interview plaats met vier leerlingen uit een HAVO 5 klas. Deze klas krijgt wekelijks 45 minuten les en het interview vond plaats in de periode dat de groep bezig was met fysiek spel. Op school 2 vond ook een interview plaats met drie leerlingen uit een HAVO/VWO 6 klas. Deze klas heeft 90 minuten per week les en was in de periode van het interview bezig met de laatste voorbereidingen voor een presentatie en een beoordelingsmoment van monologen. De leerlingen uit beide groepen van school 2 volgen net als bij school 1 vanaf de brugklas drama.

Methode van dataverzameling Het onderzoek bestaat uit groepsinterviews voor de leerlingen en interviews met de docenten, na afloop van de drie lessen waarin is gewerkt met het beoordelingsinstrument. Er zijn twee fases in het onderzoek: De kennismaking met het instrument en het onderzoek zelf. Kennismaking: De docenten kregen een degelijke instructie over het beoordelingsinstrument en gingen hier vervolgens met hun leerlingen in de dramalessen mee aan de slag. Dit deden ze door middel van drie dramalessen die gericht waren op de acht geselecteerde Rubrics, waarbij de leerlingen inzage hadden in de Rubrics. In de eerste les legde de docent het beoordelingsinstrument aan de leerlingen uit en werd het instrument klassikaal besproken. In een deel van de eerste, de gehele tweede en een deel van de derde les gaf de docent een dramales die gericht was op een selectie van de beoordelingscriteria. Halverwege of na de derde les vond het interview met de leerlingen plaats en daarna vond het interview met de docent plaats. Dit had als doel dat de leerlingen en de docent voldoende kennis hadden van het beoordelingsinstrument, om vervolgens vragen te kunnen beantwoorden. Onderzoek: Het onderzoek bestaat uit een individueel interview met docenten en groepsinterviews met leerlingen. Deze interviews verliepen semi gestructureerd (Baarda, 2009) met een topiclist voor het interview met docenten (opgenomen in bijlage 5.1) en een topiclist voor het interview met de leerlingen (opgenomen in bijlage 5.2). De topiclist is ontstaan vanuit de deelvragen. Allereerst is er ingegaan op de introductie van de respondenten, waarna er per Rubric vragen gesteld werden over de inhoudsvaliditeit van de specifieke Rubric, waar stilgestaan werd bij het hoofdcriterium, subcriterium en de niveauomschrijvingen. Daarna was er tijd voor de respondenten om per Rubric twee cijfers toe te kennen rondom inhoudsvaliditeit. Vervolgens werd er ingegaan op de eigen beoordelingsmethode van de docent. Bij de docenten werd er daarna ingegaan op de andere negenentwintig Rubrics. Belangrijke aandachtspunten tijdens de interviews met leerlingen en docenten waren: • De leerlingen en docenten krijgen de criteria tijdens het interview ook op papier te zien. • Ieder criterium met niveauomschrijvingen wordt voorgelezen voordat desbetreffend criterium wordt besproken. • De vraag aan de leerlingen en docenten is: Wees zo open mogelijk. • Alle criteria moeten worden belicht vanuit helderheid en begrijpelijkheid van de formulering en de inhoudsvaliditeit (Beoordeel je met het criterium en de niveauomschrijvingen dat wat het wil beoordelen). Specifiek voor de interviews met de leerlingen moest worden gelet op: • Iedereen mag een mening geven per criterium en niveauomschrijvingen. Er mag ook op elkaar gereageerd worden. Als iemand niet iets heeft gezegd na een gesprek over vier criteria dan krijgt deze door de interviewer de beurt. (Het was, in verband met de tijd, niet mogelijk om dit per individueel criterium te doen). • Omdat de concentratieboog van leerlingen kan verzwakken na een aantal criteria, werkten we met twee groepen de criteria van onder naar boven af en met twee groepen van boven naar onder. Na afloop van het interview is de respondenten gevraagd twee cijfers te geven aan alle acht de Rubrics individueel op basis van de twee vragen: - Is de formulering van het criterium en de niveauomschrijvingen helder en begrijpelijk voor docent en leerling? - Zijn het criterium en de niveauomschrijvingen dekkend voor dat wat het wil beoordelen? De antwoorden zijn opgenomen in bijlage 4. De spelfouten zijn uit de Rubrics gehaald, voordat ze aan de respondenten werden uitgedeeld, zodat er geen tijd verloren zou gaan tijdens de interviews door opmerkingen rondom deze spelfouten. Na afloop van het onderzoek ontvingen de docenten een brief gericht aan de ouders/ verzorgers rondom de video en geluidsopnamen van de leerlingen. Deze brief is opgenomen in bijlage 6. Er is geen reactie van ouders/ verzorgers terug ontvangen.

Data-analyse De interviews zijn allen volledig woordelijk getranscribeerd, wat betekent dat de uitgesproken tekst volledig is uitgetypt. Deze transcripties zijn zowel via coding down als via coding up gecodeerd. Er is dus gewerkt met codes specifiek uit de interviews gehaald, die niet van te voren door de onderzoekers zijn bepaald (coding up). De open coding vond plaats via de coding up waarbij er zo veel mogelijk in vivo is gewerkt. Daarnaast is er gewerkt met van te voren bepaalde codes die afgeleid zijn van de onderzoeksvraag (coding down). De coding down vond plaats via een theoretisch begrippenkader, deels gebaseerd op de deelvragen, deels op de theorie rondom validiteit en deels op de topiclist van de interviews. Vervolgens is er via een iteratief proces axiaal en selectief gecodeerd en ontstond de boomstructuur die terug te vinden is in bijlage 1 codeboom. De resultaten van de analyse zijn aan de hand van de kernthema’s en de onderliggende coderingen beschreven. Tijdens de data-analyse zijn per interview de Rubrics herschreven. Deze zijn te vinden in bijlage 3.1 tot en met 3.7. Hier komen alle verbetervoorstellen van de geïnterviewden per interview naar voren. Enige interpretatie vanuit de onderzoekers is hierin niet te voorkomen geweest om een volledige versie van de Rubrics te maken. Zo gaven bijvoorbeeld geïnterviewden soms aan, één Rubric op te willen splitsen naar twee, maar zijn zij er niet aan toe gekomen de niveauomschrijvingen volledig opnieuw in te vullen voor een tweede Rubric. Wel gaven zij aan de niveauomschrijvingen van de eerste Rubric goed te vinden. De onderzoekers hebben deze omschrijving gekopieerd en gewijzigd in de passende formuleringen, waarbij goed is nagedacht geen afbreuk te doen aan de visie van de geïnterviewden.

4. Resultaten De resultaten van het onderzoek zijn opgedeeld in de twee hoofdthema’s: de (digitale) toepasbaarheid van het beoordelingsmodel in de lespraktijk van Lok en inhoudsvaliditeit. Inhoudsvaliditeit is vervolgens onderverdeeld in: inhoud en operationalisering. Aansluitend op de resultaten wordt er ingegaan op de rapportcijfers voor de acht Rubrics, gegeven door docenten en leerlingen. Daarna wordt een opsomming gegeven van alle aanbevelingen die volgen uit de resultaten. Eventuele voorstellen voor aanpassingen en aanbevelingen die binnen de resultaten worden besproken zijn van de respondenten en niet van de onderzoekers. Om de leesbaarheid te bevorderen is dit niet altijd toegevoegd. Vaak vielen resultaten binnen verschillende onderwerpen. Om dubbelingen te voorkomen is er voor gekozen deze resultaten onder het meest logische kopje te plaatsen en ze weg te laten bij anderen. Uit de interviews zijn ook kleine aanpassingen op het instrument naar voren gekomen. Deze zijn allen terug te vinden in de aanbevelingen. Al deze bevindingen en aanpassingen zijn ook verwerkt in de aangepaste Rubrics per interview, die te vinden zijn in bijlage 3.1 tot en met 3.7. De resultaten richten zich op de verbetering van het model. In bijlage 1 is de codeboom terug te vinden die de basis vormde voor het schrijven van de resultaten.

4.1 De (digitale) toepasbaarheid van het beoordelingsmodel in de lespraktijk Deze paragraaf gaat in op: de algemene reactie van de respondenten op het beoordelingsmodel van Lok, het inzetten van het instrument in de eigen lespraktijk van de docenten, het digitale aspect van het instrument en de eigen beoordelingsmethode die de docent normaal gesproken hanteert. Algemene reactie op het beoordelingsmodel De docenten ervaren het allen als waardevol dat er aandacht besteed wordt aan een overkoepelend beoordelingsmodel en dat er een breder draagvlak gevonden wordt voor één beoordelingsmodel. “Ik vind het heel erg nodig dat zo’n instrument wordt ontwikkeld omdat het zou heel mooi zijn als er iets is waar een veel breder draagvlak voor zou zijn, zodat je ook met meerdere collega’s tegelijkertijd eigenlijk een soort gereedschap in handen hebt voor die beoordeling.” Het wordt als “een dappere poging” en “een uitvoerig goed beschrijvend instrument” gezien. Het feit dat je hem zelf kan samenstellen helpt een docent ook om te focussen en creëert een positieve kijk op het instrument. Wel is de vraag of je verschillende subjectieve vaardigheden moet proberen meetbaar te maken en te vangen in hokjes. “Je kunt dat niet concreet maken, maar je leert wel vaardigheden die van essentieel belang zijn om goed te kunnen functioneren in de maatschappij… We moeten helemaal niet meegaan van we moeten de beoordeling objectiever maken. Nee, we moeten beargumenteren waarom, welke kwaliteiten ons vak heeft en wat wij leerlingen leveren en waarom dat zo belangrijk is om maatschappelijk succesvol te zijn, dát moeten we beargumenteren. En tegelijkertijd ook aangeven: maar dat is niet meetbaar.” De leerlingen geven aan dat het prettig is om te weten waar zij op worden beoordeeld en de leerlingen zouden kiezen voor dit model boven de manier van beoordelen die nu op school toegepast wordt, mits ze een goede uitleg hebben gekregen, zodat ze tijdens de lessen weten waar ze op moeten letten. Een goede uitleg is volgens hen wel nodig om het model te begrijpen. Inzetten van het beoordelingsmodel De docenten zouden de Rubrics ieder op andere momenten in willen zetten. De ene docent zou er voor kiezen om het alleen in te zetten voor de eindbeoordeling, omdat het invullen van de Rubrics veel tijd vergt en het voor een les tussendoor te weinig op zal leveren ten opzichte van de tijdsinvestering. Een andere docent geeft aan het een goed instrument te vinden voor gebruik in de lessen, om het gesprek aan te kunnen gaan met leerlingen. Daar is het instrument ook voor gemaakt. Zo kan een docent gemakkelijk over specifieke onderdelen praten met leerlingen waarbij het vooral als reflectie-

instrument of een goed naslagwerk gebruikt wordt. Deze docent hecht wel meer waarde aan een uitgeschreven beoordeling en wil deze beoordeling “niet in hokjes” (de Rubrics) stoppen. “Het zit in zoveel meer en dat kun je eigenlijk niet omvatten in één term. En als je het kadert dan doe je het tekort.” De hokjes worden hierbij als niet breed genoeg ervaren en docenten vinden dat dit het vak drama tekort doet. Ze ervaren de vaardigheden die zij de leerlingen leren als breder dan dat in Rubrics gevat kan worden. De Rubrics moeten in ieder geval niet gezien worden als heilige graal. “Ik heb er een ambivalent gevoel over. Ik vind, het kan heel goed werken, ik vind het ook goed dat er onderzoek naar wordt gedaan. Ik vind tegelijkertijd dat dit niet een meetlat moet worden, want daarvoor vind ik het niet valide genoeg… Ik gebruik het ook als instrument om leerlingen zelfbewust te maken en ze zelf te laten kijken naar het spel, maar ik vind het geen eindbeoordelingsinstrument.” Leerlingen geven aan dat het invullen van de Rubrics tijdens de les wel mogelijk is, maar dat daar wel veel tijd voor gemaakt moet worden. Deze tijd is nodig omdat zij goed na moeten denken over de verschillende punten. “Maar ik vind wel dat je nogmaals heel goed naar de punten eerst moet kijken, echt, wat staat er precies? Want nu we het zo aan het behandelen zijn snap ik het meer dan dat je het de eerste keer gaf. Toen dacht ik van, oké, blablabla” Dit geldt voor het beoordelen van zichzelf áls het beoordelen van de medeleerlingen. Het beoordelen van zichzelf ervaren ze als moeilijk omdat je jezelf niet ziet spelen. Ook vragen leerlingen zich af in hoeverre dit objectief te meten is aangezien je altijd samenwerkt en afhankelijk bent van anderen tijdens het maken of het spelen van een scène. Digitale aspect Docenten ervaren het als positief dat zij zelf de Rubrics samen kunnen stellen. Verder ondersteunen ze het belang van een open instrument, met de mogelijkheid om zelf subcriteria toe te kunnen voegen of de niveauomschrijvingen aan te kunnen passen. In eerste instantie dachten respondenten dat dit niet mogelijk is in het huidige Rubrics model, maar dit is wel mogelijk. “En ik moet zelf wat dingen aan kunnen passen. Dus nu, nu kun je het aanpassen, maar je kunt niet dingen toevoegen of veranderen, snap je? En dat zou ik dan nog wel, dan zou ik nog een opener document willen gebruiken.” Docenten geven aan dat zij het digitale aspect met de chatsessies niet kunnen en/of willen toepassen omdat zij daar teveel leerlingen voor lesgeven. “Ik zie me dat ook niet organiseren om dat dan allemaal te gaan doorsturen naar leerlingen en dan die feedback te verzamelen…” Ze hebben daar de tijd niet voor en geven aan dat de leeropbrengst niet opweegt tegen de tijd die het kost. Ook zorgt het digitale aspect en het feit dat het Rubrics zijn er voor dat het als “te afgebakend” wordt ervaren door docenten. Een persoonlijk gesprek gaat voor hen boven het chatten via Google Docs met de leerlingen. “Uiteindelijk vangt het niet wat je precies wilt zeggen aan een leerling… Je maakt iets digitaal dat subjectief is, dat analoog is, en dat kun je veel beter met woorden en persoonlijk contact aangeven aan een leerling.” “In de praktijk ga ik liever met leerlingen zitten: goh waar sta jij? En persoonlijke gesprekjes in de lessen hebben… Dat gaat eigenlijk veel persoonlijker en sneller dan dat ik dat digitaal zou doen.” Ze zouden dit wel in overweging nemen als het bijvoorbeeld gaat om een specifieke klas omdat de leerlingen dan nog meer inzicht krijgen in hun beoordeling en leerproces. Dit moet naast de gewone gesprekken staan.

“Ik vind dat op zich heel goed en in een klas van 12, 5 VWO, zou ik dat gebruiken. Maar ja, als je… Ik heb vrijdag 9 uur les gegeven in klassen van 30. Ja, ik ga daar, dan ben ik het hele weekend bezig om te chatten met een leerling waar die staat… De tijdsinvestering weegt niet op tegen het resultaat.” Deze Rubrics werken met Google Docs, maar op veel scholen zijn er afspraken gemaakt over met welk digitaal programma er gewerkt wordt (een voorbeeld hiervan is: Magister). Google Docs zou dus omgezet moeten kunnen worden naar een ander digitaal programma, om het binnen de school toe te kunnen passen waarbij het belangrijk is dat het instrument aanpasbaar blijft voor de docent. Docenten zien dit niet zo snel gebeuren. De eigen beoordelingsmethode van de docent De Rubrics worden ervaren als uitvoeriger en uitgebreider dan de eigen beoordelingsmethode en de zaken die in de eigen methode beoordeeld worden zien docenten terug in de Rubrics. Er zijn geen specifieke schoolvoorschriften waar de docenten zich aan moeten houden bij de beoordeling van het vak drama. Wel zijn er natuurlijk de landelijke richtlijnen en de exameneisen. Een docent merkt op dat het grootste verschil tussen de eigen beoordelingsmethode en het beoordelingsmodel te maken heeft met het feit dat deze docent binnen de eigen methode een onderscheid maakt tussen twee “zuilen”. Deze twee zuilen zijn: procesvaardigheden en spelvaardigheden of presentatievaardigheden. Alle Rubriconderdelen vallen dan onder één van deze twee zuilen. Daarnaast is er nog een echt presentatiemoment voor publiek dat soms beoordeeld wordt. Een andere docent beoordeelt op drie onderdelen: inzet/motivatie, spelontwikkeling en het eindresultaat, bijvoorbeeld een scène. Een docent vindt juist dat inzet en motivatie niet beoordeeld moeten worden “Ook bij wiskunde ga je niet toetsen of iemand een goede werkhouding heeft.”. De wijze waarop er beoordeeld wordt is ook verschillend. Soms wordt dit gedaan met eigen Rubrics, soms is dit meer intuïtief, soms beoordelen leerlingen zichzelf en elkaar en vaak krijgen ze persoonlijke feedback én een cijfer. Leerlingen geven ook aan dat ze tips en tops krijgen plus een cijfer. Er is dus te zien dat wát er beoordeeld wordt en de manier waaróp zeer divers is, maar dat proces en product vaak los beoordeeld worden.

4.2 Inhoudsvaliditeit De inhoudsvaliditeit is in twee subthema’s opgesplitst, namelijk inhoud en operationalisering. Binnen inhoud wordt gekeken naar: Meet het instrument precies wat het wil meten? Bijvoorbeeld: Verbindt iedereen dezelfde betekenis aan het begrip ‘geloofwaardigheid’? Onder dit begrip vallen de paragrafen: toepasbaarheid, volledigheid, meetbaarheid, woordkeuze en taak van docent. Binnen operationalisering wordt gekeken naar: De manier waaróp verschillende criteria worden gemeten. Bijvoorbeeld: Valt subcriterium ‘geloofwaardigheid’ onder hoofdcriterium ‘spelvaardigheid’ en kloppen de afstanden tussen de verschillende niveaus. Onder operationalisering vallen de paragrafen: niveauomschrijvingen, indeling en dekkendheid.

4.2.a Inhoud Toepasbaarheid Veel criteria vinden docenten én leerlingen, mits er aanpassingen aan gedaan worden, zijn zeker toe te passen binnen de lessen. Er zijn een aantal criteria waarbij docenten en leerlingen onmiddellijk reageren dat dit een belangrijk punt is. Dit zien we terug bij ‘de veilige spelomgeving’, ‘het reflecteren’ en ‘geloofwaardigheid’. Binnen de overige negenentwintig criteria benoemen docenten het belang van het criterium ‘lef en durf’ en ‘opbouwende feedback geven’. Leerlingen geven bij een aantal criteria heel helder terug wat zij daar onder verstaan. Zo zegt een leerling bij het ‘reflecteren op eigen werk en dat van anderen’: “Ik denk dat je gewoon je mond open trekt na een scène en dan dat je gewoon kan zeggen van wat je er van vond en wat voor tips je kan geven, wat je hebt gezien.” Ook wordt er een aantal keer door een docent verwezen naar de exameneisen die gesteld worden en de overlap met het CKV vak. Hierdoor wordt er ook extra belang gehecht aan bepaalde criteria.

Docenten geven aan dat er wel veel rollen toetsbaar zijn, maar dat specifieke vaardigheden binnen de criteria gemist worden. “Ja, daar ontbreken er echt substantieel veel. En juist op die subcriteria zijn vaak lesdoelen geënt.” Een voorbeeld hiervan is volgens de docenten bij het criterium ‘tekstbehandeling’ te vinden. Daar passen volgens hen onderdelen als verstaanbaarheid, tekstbegrip, timing, intonatie en ritme bij. Als dit er niet bij is gevoegd dan weet men nog niet goed wát van het brede spectrum ‘tekstbehandeling’ beoordeeld wordt. “Hoe concreter het is, hoe minder discutabel het wordt voor leerlingen ook. Want dat is vaak het lastige, want je kunt wel een bepaald gevoel hebben over iets, of een indruk hebben van iets, maar dan gaan ze zeggen van geef eens een voorbeeld ervan en hoe meer het concreet is, hoe meer het ook mogelijk is om dan daar een voorbeeld over te geven.” Als deze vaardigheden wel omschreven zouden zijn, zouden de Rubrics concreter worden en minder discutabel voor leerlingen. De criteria zijn veelal gericht op lesprocessen en lesonderdelen en niet zozeer op een voorstelling spelen. Ook is de vraag in hoeverre er rekening gehouden is met de exameneisen voor het vak drama in het voortgezet onderwijs. Bij verschillende criteria geven docenten aan dat deze pas te gebruiken zijn bij een bepaalde leeftijd of een bepaald niveau van de leerlingen of als leerlingen het vak drama als eindexamenvak hebben gekozen en docenten andere eisen aan hen kunnen stellen. Dit wordt teruggezien in criteria als ‘ruimtelijk bewustzijn’, ‘reflecteren op eigen werk en dat van anderen’ en ‘regievaardigheden’. De vraag is of je bepaalde vaardigheden mag beoordelen op het moment dat iemand puber is. “Ruimtelijk bewustzijn…ja ik zeg dan jullie moeten allemaal naar voren komen en ze gaan uiteindelijk toch weer naar achter want dat is gewoon hun aard. Dat is gewoon, ze zijn puber, weet je wel? Ja, beschikken ze dan niet over ruimtelijk inzicht? Nou, misschien wel, maar ik zou het niet weten want ze zijn puber, snap je?” “Reflecteren op eigen werk en dat van anderen: Ja, dat vind ik ingewikkeld… omdat je je moet afvragen of kinderen, of sommige leeftijden daar wel toe in staat zijn. Zichzelf los te koppelen van de… Of je dat wel kan vragen.” “De spelvaardigheden liggen echt heel erg bij iemand zelf toch, terwijl de regievaardigheden voltrekken zich altijd in combinatie met anderen en dat is nog best wel… Voor deze leeftijdscategorie als ik het over deze jongeren hebt, is het gewoon een redelijk hoog gegrepen doel… een enkel talent uitgesloten… want ze moeten gewoon hun eigen leeftijdgenoten aansturen en aanspreken.” Ook een leerling geeft aan dat hij zichzelf lastig kan beoordelen op bepaalde criteria: “De laatste drie [‘regisseren van een scène’, ‘verbeelden’, ‘reflecteren op eigen werk en dat van anderen’] zijn eigenlijk voornamelijk voor de lerares bedoelt, en niet zozeer, denk ik voor de leerling… reflecteren zou op zich nog wel kunnen maar je merkt, je bent vooral heel erg bezig met hoe iemand speelt.” Docenten geven aan een aantal onderdelen echt niet te gaan gebruiken uit de zevenendertig Rubrics. Dit wordt vooral benoemd als de hoofdcriteria ‘schrijven’, ‘reflecteren’ en ‘theorie’ besproken worden. Docenten geven aan niet of nauwelijks te schrijven in de dramalessen en het niet te beoordelen. Wat hen betreft zou dit hoofdcriterium ook maar één subcriterium kunnen bevatten. Reflecteren doen docenten wel tijdens de lessen, maar de vraag is of dit beoordeeld moet worden, en als het beoordeeld wordt, of de subcriteria die binnen ‘reflecteren’ omschreven worden niet samengevoegd kunnen worden:“Ja… reflecteren is een breed begrip, hier worden allerlei praktische voorbeelden gegeven, maar dat zou je ook mondeling kunnen toelichten.” Zeker als het gaat op het beoordelen van elkaar, is de vraag of deze beoordeling weer beoordeeld moet worden: “Elkaars presentaties beoordelen mag weg, die valt onder opbouwende feedback geven. Ik vind niet dat je de leerling op de stoel van de docent mag zetten”.

Volledigheid Het gevaar met het samenstellen van je eigen Rubrics uit de zevenendertig Rubrics is dat er onvolledigheid ontstaat in de samengestelde versie. Zo wordt verschillende malen benoemd dat het criterium ‘regisseren van een scène’ in de nu onderzochte acht Rubrics veel te weinig omvat dan waar regisseren eigenlijk over gaat. Elementen als leiding geven, samenwerken en vormgeven worden hierin gemist. “Voor mijzelf bestaat regisseren voor ongeveer zeker 60 procent uit sociale cohesie creëren en zeg maar leiding geven en allemaal dat soort dingen en misschien 40 procent uit creativiteit.” Wel ervaren docenten de zevenendertig Rubrics als behoorlijk volledig en kunnen ze niet iets specifieks noemen wat ze niet terug kunnen vinden.Tijdens de interviews met de docenten werden eerst de acht uitgekozen Rubrics besproken waarna er kort ingegaan werd op de zevenendertig Rubrics. Daar kwamen docenten vaak de missende onderdelen tegen waar ze naar zochten tijdens het bespreken van de acht Rubrics. Doordat er specifiek voor woorden binnen de niveauomschrijvingen is gekozen, dekken de niveauomschrijvingen niet altijd meer wat het criterium wil beoordelen. Dit is bijvoorbeeld terug te zien bij het subcriterium ‘geloofwaardigheid’. Binnen de niveauomschrijvingen is er voor gekozen om emoties aan geloofwaardigheid te koppelen, bijvoorbeeld: ‘De leerling speelt emoties zeer geloofwaardig’. “Ik zou emoties eruit halen omdat, het heeft niet altijd met emoties van doen of iets geloofwaardig is. Want als ik een fysieke opdracht geef… dan gaat het gewoon puur om geloof ik dat die persoon inderdaad in een kathedraal staat” Ditzelfde geldt voor het subcriterium ‘fysiek spel/transformatie’, waar binnen de niveauomschrijvingen het woord ‘personage’ gekoppeld is, bijvoorbeeld: ‘Het personage is heel duidelijk fysiek vormgegeven’. Volgens de respondenten is fysiek spel meer dan alleen het vormgeven van een personage. “Zonder een direct personage kan je dingen heel fysiek spelen… Daarbij ligt het accent lang niet altijd op het personage die je speelt, maar soms gewoon puur op de acties, dat is een bijna soort abstracter niveau.” Als subcriteria onvoldoende zijn uitgewerkt missen de respondenten ook een stuk dekkendheid, ofwel de volledigheid. Een leerling zegt: “Ja, dan denk ik: tekstbehandeling… Bedoel je dan dat je tekst makkelijk eigen kan maken? Of dat je je tekst goed, weet ik veel, ja, kan ontleden, of dat je hem uit je hoofd kan leren? Ik vind hem niet helemaal duidelijk.” Naast dat de Rubrics niet altijd volledig zijn vinden de respondenten ook dat veel dingen in de klas besproken horen te worden. Het mondeling bespreken van bijvoorbeeld de randvoorwaarden van een dramales: Wat verstaat de docent onder goed samenwerken, onder veiligheid en onder respect tonen, is hierbij van belang. “Ik denk toch dat dat te maken heeft met dat je het neer moet zetten.. .dat ik dan toch een aantal soort van huisregeltjes eigenlijk neerleg van dingen die ik belangrijk vind… Ik denk wel dat daar een toelichting aan vast zit, sowieso. Zodat iedereen dan ook weet waar je het over hebt.” Meetbaarheid Over de meetbaarheid van de criteria met bijbehorende niveauomschrijvingen zijn veel en uiteenlopende interessante en bruikbare opmerkingen gemaakt tijdens de interviews. In deze paragraaf zullen de belangrijkste resultaten over dit onderwerp puntsgewijs kort besproken worden. Zichtbaarheid is noodzakelijk voor meetbaarheid, dat is één van de resultaten uit de interviews. Daarom moet volgens een aantal respondenten de wijze van beoordeling ingaan op de mate van zichtbaarheid. Is het aan te leren of is het iets dat je wel of niet in je hebt? Met het meten van de fantasie stel je dat je als leerling en docent kunt bepalen of iemand fantasie heeft. Er is twijfel of je dit wel zo kunt stellen, omdat het onzichtbare volgens de respondenten niet te meten en daarmee te beoordelen is. “Maar ze moeten het wel kunnen laten zien, snap je? Je kan in je eigen fantasiewereld leven en totaal in de verbeelding zijn, maar dat absoluut niet uitdragen op het podium.”

Niet alle criteria zijn bij alle leerlingen op een gelijkwaardige manier meetbaar, omdat dit bijvoorbeeld wordt beïnvloed door leeftijd, geslacht en aanleg. Een voorbeeld van de invloed van leeftijd en geslacht zien we binnen het criterium ‘reflecteren op eigen werk en dat van anderen’. Een docent geeft aan dat dit criterium pas op latere leeftijd toepasbaar en meetbaar is (als de leerling drama als e eindexamenvak heeft gekozen of vanaf de 3 klas) en een andere docent is van mening dat jongens en meisjes op een andere manier reflecteren. Over aanleg wordt gezegd dat bijvoorbeeld aanleg voor fantasie het cijfer en de niveauverschillen binnen de groep sterk kan beïnvloeden. Respondenten geven aan dat emoties een goed zichtbaar en daarmee meetbaar middel zijn. De vraag is echter of, als ‘geloofwaardigheid’ gemeten moet worden, dit middels het meten van emoties moet gebeuren. Daarom heeft het volgens de betreffende docent de voorkeur om, in plaats van naar de emoties, naar het uitspelen van het belang te kijken bij het beoordelen van geloofwaardigheid. Dit wordt kracht bijgezet door het feit dat de meeste respondenten ‘geloofwaardigheid’, ‘waarachtigheid’ en ‘tekstbehandeling’ subjectief vinden, wat de meetbaarheid bemoeilijkt. “Ja ik vind het ook zo subjectief, ik kan soms iets heel erg geloofwaardig vinden en dan vindt iemand anders het heel lelijk.” Tekstbehandeling is volgens een aantal respondenten objectief te meten en te beoordelen als de objectieve aspecten binnen de criteria of binnen de niveauomschrijvingen benoemd worden. Binnen de huidige niveauomschrijving wordt dit allemaal samengevat in ‘waarachtig’, wat volgens de respondenten niet meetbaar is. Bij het criterium over reflectie is het voor de leerlingen niet duidelijk hoe de mate van reflectie wordt beoordeeld en vraagt een leerling zich af wat hij doet als hij goed reflecteert. Verder merken de respondenten binnen de niveauomschrijvingen woorden zoals ‘origineel’ en ‘sterk’ op, wat volgens hen subjectieve waarderingen zijn die niet meetbaar zijn en daarom voorkomen moeten worden. Binnen bepaalde niveauverschillen (bijvoorbeeld bij het criterium ‘fysiek spel/ transformatie’) is het niet duidelijk of het om een momentopname van beoordeling gaat of over een gemiddelde van meerdere momentopnames. Het is volgens de respondenten belangrijk dat hier duidelijkheid over is, omdat dit invloed heeft op de meetbaarheid en validiteit van het betreffende criterium. Helder is wel dat dit door de docent gestuurd kan en moet worden. “Stel dat het een jaarbeoordeling is en je hebt in het jaar 16 verschillende personages gespeeld. Dan is het heel lastig om te zeggen: het personage is heel duidelijk fysiek vormgegeven, want misschien heb je 6 van de rollen heel slecht gespeeld en helemaal niet fysiek vormgegeven en de andere 10 weer wel.” Regisseren wordt door leerlingen gezien als een groepsproces en het is niet altijd te bepalen wie het idee heeft bedacht. Dit maakt het moeilijk om de individuele regievaardigheden, zoals ze nu in de Rubrics staan, te meten. Binnen hetzelfde hoofdcriterium ‘maken’ zou het de dekkendheid en meetbaarheid hiervan verbeteren, als hier het subcriterium ‘vormgeven’ aan toegevoegd zou worden, wat volgens een docent een goed meetbaar aspect is van het maken van een scène. Als laatste resultaat over het onderwerp meetbaarheid is discipline volgens de meeste respondenten net als fantasie iets dat je hebt of niet hebt. Daarom moet discipline volgens hen niet beoordeeld worden binnen deze Rubrics. Woordkeuze Omdat de Master Rubric een uitgeschreven beoordelingsinstrument is, hebben de taalkundige keuzes grote invloed op de bruikbaarheid en validiteit. Deze paragraaf zal dieper ingaan op de woordkeuze en doet dit eerst vanuit een inhoudelijke en vervolgens vanuit een begrijpbare focus. Bij de inhoudelijke focus wordt er gekeken of de woordkeuze volgens de respondenten aansluit op de vakinhoudelijke aspecten die beoordeeld moeten worden. Bij de begrijpelijke focus wordt gekeken of de criteria en niveauomschrijvingen door de respondenten eenduidig begrepen worden. Het is voor een valide beoordeling van groot belang, dat zowel de beoordelaar als de beoordeelde een tekst op dezelfde manier verstaat en interpreteert. Uit de interviews zijn zeer veel kleine aanpassingen te concluderen, die betrekking hebben op inhoudelijke en begrijpelijke woordkeuze. Zo geven respondenten aan dat een ander woord beter dekkend of inhoudelijk beter aansluit op het te beoordelen criterium. Omdat

deze aanpassingen per interview ook erg verschillen zijn ze per interview verwerkt in een nieuwe versie van de Rubrics, die terug te vinden is in bijlage 3.1 tot en met 3.7. Inhoudelijke woordkeuze Wanneer er vakinhoudelijke termen worden gebruikt is het belangrijk dat deze termen consequent worden gebruikt. Zo wordt er in de Rubrics gebruik gemaakt van ‘spelomgeving’ en ‘leeromgeving’ binnen eenzelfde criterium, waardoor verwarring ontstaat die afleidt van de taak van het instrument: beoordelen. Deze inconsequentie is ook terug te vinden in de aanduiding van de beoordeelde. Er wordt voornamelijk gesproken over ‘de leerling’, maar binnen eenzelfde criterium ook over ‘de speler’ en bij andere criteria wordt er gesproken over ‘het personage’. Dit creëert de indruk dat het hier over iemand anders gaat, terwijl dit niet het geval is en we het nog altijd over de beoordeelde hebben. De respondenten hebben de voorkeur voor ‘de leerling’. Hiernaast zijn er zeer veel en zeer diverse aanpassingen door de respondenten voorgesteld, welke elk een inhoudelijke verbetering of verduidelijking nastreven, maar dit is erg respondent- gebonden. Uit deze diversiteit van opvattingen over inhoudelijke woordkeuze kunnen we daarom vooral concluderen, dat woordkeuze in relatie met vakinhoud zeer persoonlijk bepaald wordt. De overeenkomstige bevindingen van de respondenten over de woordkeuze hebben in veel gevallen wel te maken met de wijze, waarop vakinhoudelijke termen worden begrepen door de respondenten en dan met name de leerlingen. Daarom vervolgen we met de resultaten die gaan over het begrijpen van de woordkeuze. Begrijpelijke woordkeuze Het is van belang dat er geen twijfel of discussie kan ontstaan over wat er specifiek bedoeld wordt met een bepaald woord. Het gaat er om dat iedereen die een woord leest hetzelfde begrip bij dit woord heeft. In de huidige Rubrics worden woorden gebruikt als ‘fysiek spel’, ‘fysiek vormgeven’, ‘waarachtig’ en ‘transformatie’. Voor docenten zijn deze begrippen helder, maar bij de leerlingen creëren ze twijfel. “Fysiek spel is toch dat je heel erg… Als je boos bent, dat je dan echt op de tafel gaat slaan” Door deze twijfel hebben de leerlingen geen zekerheid over wat er precies beoordeeld wordt. Uit de interviews is gebleken dat sommige woorden vervangen kunnen worden door een ander woord. Een voorbeeld hiervan is het woord ‘waarachtig’ vervangen door ‘geloofwaardig’. Dit verandert volgens de respondenten niet de beoordeling, maar voorkomt wel deze onduidelijkheid en twijfel. In andere gevallen is er een voorkeur om een begrip te specificeren binnen het subcriterium van de Rubrics. Zo geven docenten aan dat ‘veilige spelomgeving’ en ‘tekstbehandeling’ uitgesplitst kunnen worden in meerdere criteria (zie paragraaf Indeling) of binnen het criterium verduidelijkt kunnen worden door het benoemen van alle vaardigheden die hiermee te maken hebben. Taak van docent Bij een aantal criteria benoemen docenten dat dit in principe de taak van de docent is en niet van de leerlingen. Er zijn bijvoorbeeld criteria (zoals ‘lef en durf’) die gemeten worden bij de leerling maar voor een groot deel beïnvloed worden door de docent. Verder vallen docenten over het woord ‘creëren’ van een veilige spelomgeving. Het is de taak van een docent om een juiste voorwaarde te creëren, en het is de taak van de leerling om dit “te behouden en niet te verpesten”. Omdat dit een taak van de docent is, moet de hoogste normering voor de leerling uitgaan van het behouden van deze veilige spelomgeving. Hierbij moeten de niveauomschrijvingen ook dekkend zijn voor een situatie waarin een leerling deze voorwaarde “verpest”. De docent behoort dit te creëren, is de opvatting, en de leerlingen “dragen er aan bij”. “Ik vind dat de docent verantwoordelijk is voor een veilige spelomgeving en ik vind dat je daar de leerlingen op kan wijzen, wanneer ze daar wel of niet aan voldoen.” “Nou ja, als een leerling altijd actief bezig is met creëren vanuit een veilige leeromgeving dan is hij niet met drama bezig. Want dan is hij alleen maar met de groep bezig en veiligheid. Dan neemt hij de rol van de docent over en dan is hij niet vrij, is hij niet aan het spelen.” Het is van belang dat de onderlinge verhoudingen binnen de niveauomschrijvingen zijn gericht op het wel of niet in stand houden van dit criterium. De niveauomschrijvingen bij dit criterium zouden volgens de meeste respondenten, zowel leerlingen als docenten, enkel moeten bestaan uit twee niveaus, namelijk het wel of niet in stand houden van de veilige spelomgeving die door de docent gecreëerd zou moeten zijn.

Ook is het de taak van de docent om met goede spelopdrachten leerlingen te triggeren hun verbeelding en fantasie te gebruiken. Bij de beoordeling van deze criteria is dus ook de vraag in hoeverre de docent de voorwaarden heeft geschapen om leerlingen op een zo hoog mogelijk niveau te laten functioneren. Hiernaast is er twijfel over de meetbaarheid van het criterium ‘regisseren van een scène’. Dit heeft te maken met de vraag van verschillende respondenten of je dit wel moet meten bij de leerlingen of dat dit criterium een taak van de docent is en áls je het wilt meten of dit wel kan, aangezien een leerling afhankelijk is van het spel van zijn medeleerlingen.

4.2.b Operationalisering Niveauomschrijvingen Docenten hebben verschillende visies over de vier niveauomschrijvingen binnen de Rubrics. Zo wil een docent graag een vijfde niveau toevoegen welke in het midden komt, zodat leerlingen ook de veilige middenweg kunnen kiezen. Een andere docent geeft aan juist naar drie niveaus terug te willen met het idee: Als je iets goed doet, doe je het goed, dan kun je het niet zéér goed doen. Voor de normering van de criteria is het volgens de respondenten wel van belang dat er consequent gebruik gemaakt wordt van kwalificatie en kwantificatie. In de huidige Rubrics wordt dit regelmatig binnen een zelfde criterium door elkaar gebruikt (bijvoorbeeld: zeer goed, goed, soms). Er is nu sprake van een inconsequent woordgebruik. Wanneer er bij de hoogste normering gebruik wordt gemaakt van kwantiteit zoals: ‘altijd’, dan zouden de andere niveaus ook deze kwantiteit aan moeten kunnen houden zoals: ‘altijd’, ‘meestal’, ‘soms’ ‘nooit’. Als er gebruik gemaakt wordt van kwaliteit dan zou de rij er zo uit kunnen zien: ‘goed’, ‘ruim voldoende’, ‘matig’, onvoldoende’. Aanduidingen zoals ‘in delen’ kunnen, volgens de respondenten, beter voorkomen worden omdat dit te subjectief en niet helder is. De veel terugkerende laagste normering ‘vindt het moeilijk’, wordt ook wel als “lief” en “minder lullig” ervaren door leerlingen. Er is geen overeenstemming of dit positief of negatief is, maar stelt wel vraagtekens bij de vraag of ‘het moeilijk vinden’ in deze gevallen de juiste omschrijving is voor een laagste normering. Respondenten geven aan dat het “aardig” is dat er bijvoorbeeld van uit wordt gegaan dat je ‘het moeilijk vindt om te regisseren vanuit een beeld’ in plaats van dat je het gewoon onvoldoende kan. Sommigen geven aan dat ‘vindt het moeilijk’ niet meetbaar is en dat je prima mag zeggen dat een leerling ergens onvoldoende op scoort. “Als iemand niet goed kan spelen dan heeft die een vier voor spel, gewoon omdat je daar niet hard genoeg voor gewerkt hebt, of gewoon niet goed kan. En ik wil met alle plezier wil ik je dat bijleren en goed leren doen, maar als je het niet goed kan, kan je het niet. En daar komen allemaal verzachtende factoren bij, ja, maar daar heb ik het gewoon niet zo op.” Respondenten geven aan dat voor het formuleren van een duidelijke normering vaker gebruik gemaakt kan worden van de gradatie: goed, ruim voldoende, voldoende, onvoldoende. Hiermee kan in sommige gevallen voorkomen worden dat er gebruik gemaakt moet worden van subjectieve moeilijke begrippen zoals: ‘waarachtig’. Over het hoofdcriterium ‘theorie’ uit het gehele model wordt aangegeven, dat deze gradatie die er nu staat (goed, ruim voldoende, voldoende en onvoldoende) de enige woorden binnen de niveauomschrijvingen zou moeten zijn, zonder extra toelichting. Er zijn veel diverse opvattingen over de juiste niveauomschrijvingen voor het criterium ‘geloofwaardigheid’. De overeenkomst is dat de respondenten zich niet kunnen vinden in de huidige omschrijving vanwege de subjectiviteit. In de verbeterde Rubrics naar aanleiding van de interviews zijn alle ideeën hierover terug te vinden (bijlage 3.1 tot en met 3.7). Bij de niveauomschrijving ‘de leerling speelt emoties zeer geloofwaardig’ wordt aangegeven dat dit niet kan. Het hoogste niveau is ‘de leerling speelt emoties geloofwaardig’. Er kan namelijk niet meer dan geloofwaardig gespeeld worden en dit hoort dan ook de hoogste normering te zijn. De meeste respondenten stellen dat er binnen de Rubrics inconsequent wordt omgegaan met kwantitatieve en kwalitatieve aanduidingen. De onderlinge verhoudingen tussen de verschillende

niveaus moeten gelijkwaardig afbouwen, waarbij gebruik gemaakt moet worden van de juiste aanduiding voor kwaliteit en/ of kwantiteit van een te beoordelen vaardigheid. “Dat is eigenlijk beter dan is meestal waarachtig. Eigenlijk is als je zegt hij is waarachtig dan impliceer je daarmee dat hij het gewoon is en als je zegt meestal dan hoor je daar altijd al in maar niet altijd. En zou je dat bijna moeten omruilen.” Hierbij is het van belang dat het feit dat de Rubrics ruimte geven voor vier niveaus, niet betekent dat ieder criterium vier niveaus vereist. “Ja, ook weer drie. Want het is gewoon wel of niet, of soms. En het is niet zeer. Dat vind ik.” Bij subjectieve vaardigheden zoals ‘verbeelding/ fantasie’ is de moeilijkheid van de meetbaarheid ook terug te zien in de wijze waarop er naar de onderlinge verhoudingen van de niveauomschrijvingen wordt gekeken. Hier is volgens leerlingen en docenten weinig overeenstemming en variëren de meningen van: “Ik vind het helemaal nonsens eigenlijk” tot opmerkingen over een meer evenredig en consequentere verdeling van de niveaus, waarbij rekening gehouden wordt met het wel of niet beschikken over een vaardigheid (kwaliteit) en/ of de mate van inzet van de vaardigheid (kwantiteit). Door het onregelmatige gebruik van de laagste niveauomschrijving ‘vindt het moeilijk’ is hier geen overeenstemming over bij de respondenten. Het niet consequent gebruiken van dezelfde onderlinge verhoudingen van de verschillende niveaus veroorzaakt een discussie over deze laagste niveauomschrijvingen, die hierdoor niet algemeen als goed gewaardeerd worden. Indeling Binnen indeling wordt er gekeken naar het loskoppelen en/ of uitsplitsen van subcriteria en overlappingen binnen de verschillende criteria. Wanneer de subcriteria niet specifiek zijn en meerdere onderdelen willen dekken, gaat dit volgens de respondenten ten koste van de toetsbaarheid hiervan. Door de combinatie van bijvoorbeeld ‘verbeelding/ fantasie’, ‘fysiek spel/ transformatie’ en ‘reflecteren op eigen werk en dat van anderen’, wil het subcriterium te veel beoordelen. In deze gevallen moeten de subcriteria losgekoppeld worden, met ieder de bijbehorende niveauomschrijvingen. De beide vaardigheden binnen de drie eerder genoemde voorbeelden zijn volgens de respondenten te verschillend om binnen één subcriterium te beoordelen. “Maar ik vind dat reflecteren op eigen werk en dat van anderen dat zijn eigenlijk twee verschillende dingen. Want je kan soms… Nou ja, dat snap ik niet helemaal. Reflecteren op eigen werk is dat dat je tegen jezelf zegt van: oké, volgende keer moet ik dat doen [..]. Dat is iets heel anders dan dat ik tegen iemand anders zeg wat hij goed of minder goed heeft gedaan of zo.” Hierbij is het van belang dat er bij het loskoppelen opnieuw wordt gekeken naar de indeling van het losgekoppelde subcriterium. Er is geen eenduidig antwoord te concluderen als het gaat om de herindeling van deze subcriteria. Zo wordt ‘transformatie’ bijvoorbeeld zeer verschillend door de respondenten verbonden aan andere criteria. Sommigen vinden het een onderdeel van ‘geloofwaardigheid’ en anderen vinden dat het verbonden moet zijn aan ‘personage opbouw’. Een aantal respondenten geven aan dat veel subcriteria uitgesplitst moeten worden, om zo helderheid en overeenstemming te creëren over de betekenis van het criterium. Deze uitsplitsing betekent geen opsplitsing waardoor er meerdere criteria ontstaan, maar het gaat om een uiteenzetting van begrippen en vaardigheden die het criterium verhelderen. Dit is een toevoeging binnen de ruimte voor het subcriterium. De invulling van deze vakinhoudelijke specificatie is terug te vinden in de aangepaste Rubrics per interview (bijlage 3.1 tot en met 3.7). Het specificeren van deze subcriteria kan tot gevolg hebben dat andere subcriteria komen te vervallen. Zo geeft een respondent aan dat de subcriteria ‘houding’ en ‘respect tonen’ onderdeel zijn van een veilige spelomgeving en daarom hieraan gekoppeld kunnen worden. Dit geldt ook voor ‘opbouwende feedback geven’, wat wordt gezien als een onderdeel van ‘reflecteren op eigen werk en dat van anderen’. Dit geldt binnen het gehele instrument ook voor ‘tekstanalyse’, ‘tekstinterpretatie” en ‘verstaanbaarheid’, wat volgens meerdere respondenten onder ‘tekstbehandeling’ zou moeten vallen.

Er is tussen de respondenten geen overeenstemming over de wijze van het verhelderen van de subcriteria. Zo gaf een docent aan dat dit bij aanvang van de dramalessen een taak van de docent is en dat de (sub)criteria op dat moment besproken en uitgelegd moeten worden. In dit geval zou een uiteenzetting van begrippen en vaardigheden binnen de Rubrics niet vereist zijn. Uit beide opvattingen is wel te concluderen dat de subcriteria zoals ze nu geformuleerd zijn om specificatie vragen, ofwel mondeling ofwel schriftelijk. Wanneer binnen de niveauomschrijvingen twee of meerdere verschillende vaardigheden aan bod komen, geven de meeste respondenten aan dat het de kwaliteit van de beoordeling ten goede zou komen als deze losgekoppeld worden. “Tekstbehandeling gaat voor mij ook over… verstaanbaarheid. Over intonatie, over ritmiek, over spanningsopbouw… Hoe behandel je überhaupt een tekst? Kun je die voor jezelf zo analyseren en weer opnieuw levend maken dat hij ook zo overkomt. Daar komt meer bij kijken. Daar komt eigenlijk ook allerlei stemvaardigheden ook nog eens een keer bij kijken.” Zo worden het meerdere subcriteria, ieder met eigen niveauomschrijvingen. Een voorbeeld hiervan zien we terug in het subcriterium ‘regisseren van een scène’. Hier is het criterium eenduidig, maar wordt er in de niveauomschrijvingen gekeken naar het hebben van een beeld en het overbrengen (ofwel regisseren) van het beeld. De meeste respondenten geven aan dat het beter zou zijn als beide vaardigheden apart beoordeeld worden met een eigen reeks niveauomschrijvingen. Een docent voegt bij dit voorbeeld toe dat dit criterium beter dekkend zou zijn als hier het aspect ‘vormgeven’ aan toe wordt gevoegd. In het volgende citaat gaat het over de opsplitsing van het criterium ‘improviseren’, om zowel fysieke improvisatie als tekstimprovisatie los van elkaar te kunnen beoordelen: “Iemand kan bijvoorbeeld qua tekst supergoed improviseren, maar staat er verder bij als een zoutzak. Dan vind ik het zonde dat hij een slecht cijfer zou krijgen voor improvisatie, terwijl hij het qua tekst wel heel goed doet. En dan zou hij op tekst een acht kunnen krijgen en op fysiek een vijf en dan kan hij ook zien waar hij zich nog in moet verbeteren.” Hier geeft de docent aan dat het niet alleen maar om de dekkendheid van de beoordeling gaat, maar dat hij op deze manier ook goed feedback kan geven aan de leerling. Zo kan de leerling exacter bepalen welke vaardigheden hij nog moet verbeteren. Als afsluiting van deze paragraaf gaan we in op een opvallende, door veel respondenten als verwarrend ervaren, overlapping. Tijdens veel interviews is aangegeven dat het subcriterium ‘verbeelding’ onder het hoofdcriterium ‘basisvaardigheden’, mogelijk samenvalt met het subcriterium ‘verbeelding’ onder het hoofdcriterium ‘maken’. “Nou ja, wat is het verschil tussen basisvaardigheid verbeelding en maken van de verbeelding?” Zodra een vaardigheid als basisvaardigheid is beoordeeld, is het voor de leerlingen verwarrend als het binnen een ander hoofdcriterium nogmaals wordt beoordeeld. Deze verwarring komt tot stand omdat er binnen het subcriterium niet is beschreven wat hier specifiek beoordeeld wordt. De eerder genoemde specificatie is een mogelijkheid om het onderlinge verschil tussen eenzelfde vaardigheid, die binnen verschillende hoofdcriteria wordt ingezet, te verhelderen. Wanneer dit wel helder is merkt een docent op dat de verbeelding tijdens het maken ook wordt beoordeeld binnen de niveauomschrijvingen van ‘regisseren van een scène’, waar gesproken wordt over ‘het hebben van een beeld’. Naast schijnbare overlappingen binnen de subcriteria is het van belang dat er ook geen overlapping plaats vindt tussen subcriteria en niveauomschrijvingen van een ander subcriterium. De betreffende respondent geeft aan dat dit subcriterium vervangen kan worden door het eerder genoemde ‘vormgeven’. Dekkendheid De dekkendheid hangt nauw samen met de normering, niveauomschrijvingen en meetbaarheid. Zo gaat het bij het onderwerp ‘dekkendheid van de waardering voor de leerlingen en docenten’ tijdens de interviews veelvuldig over: Wat is goed en wat is slecht. Hierbij gaat het om kleine aanpassingen binnen de niveauomschrijvingen, die er voor zorgen dat het verloop van de beste tot en met de slechtste waardering gelijkwaardiger verloopt en dekkend is voor alle niveauverschillen binnen een groep. Binnen de huidige Rubrics zijn er volgens de leerlingen en docenten een aantal terugkerende aanpassingen gewenst. Een veelvoorkomende aanpassing is het veranderen van ‘vindt het moeilijk’ naar een niveau dat ondermaats presteren vertegenwoordigt zoals: ‘onvoldoende’ of ‘niet’.

“als je het moeilijk vindt om het in te zetten, betekent nog niet dat je het niet doet.” Bij veel criteria ontbreekt dit niveau, terwijl dit wel aanwezig kan zijn binnen een groep en dus ook als zodanig beoordeeld moet kunnen worden. Leerling 1: “vindt het moeilijk, vind jij de slechtste beoordeling?” Leerling 2: “Nee, die vind ik juist niet, die vind ik juist wel goed eigenlijk.” Hier wordt volgens de leerlingen in veel gevallen uitgegaan van de aanwezigheid van inzet van de leerling en er is binnen de niveauverschillen geen mogelijkheid om deze inzet te meten en te beoordelen. Daarnaast is de kwantitatieve aanduiding ‘altijd’ volgens hen niet toepasbaar, omdat het onmogelijk is om een vaardigheid te allen tijde te tonen en juist in te zetten.

4.3 Rapportcijfer voor de acht Rubrics door docenten en leerlingen Van drie klassen die geïnterviewd zijn hebben alle docenten en leerlingen een cijfer toegekend aan de helderheid/ begrijpelijkheid per criterium en de daaraan gekoppelde niveauomschrijvingen én een cijfer aan de dekkendheid per criterium en de daaraan gekoppelde niveauomschrijvingen. Dit cijfer is van 1 tot en met 5 waarbij 1 de laagste score is en 5 de hoogste score. Op deze manier is het mogelijk om waarden toe te kennen aan de individuele criteria, naast dat er door interviews veel gezegd kan worden over de inhoud van de Rubrics. In bijlage 4 zijn de resultaten terug te vinden van de toegekende rapportcijfers door docenten en leerlingen over de validiteit en dekkendheid van de acht Rubrics. Vijftien mensen hebben elk subcriterium beoordeeld. Per persoon is eerst het cijfer ingevuld voor de begrijpelijkheid van het criterium (en de daaraan gekoppelde niveauomschrijvingen), gevolgd door een / teken, en daarop gevolgd met het cijfer ingevuld voor de dekkendheid van het criterium (en de daaraan gekoppelde niveauomschrijvingen). De eerste drie kolommen zijn ingevuld door docenten, de twaalf daarna door leerlingen. Vervolgens zijn er vier totaal- kolommen in de grafiek opgenomen. In tabel 2 zijn de scores terug te vinden van begrijpelijkheid en dekkendheid van de docenten en van de leerlingen. De scores zijn van laag naar hoog opgenomen. Begrijpelijkheid docenten Creëren veilige spelomgeving 1,67 Verbeelding/ fantasie 2

Dekkendheid docenten Regisseren van een scène 2 Tekstbehandeling 2,33

Regisseren van een scène 2

Verbeelden 2,33

Fysiek spel/ transformatie 2,67

Tekstbehandeling 2,67

Geloofwaardigheid 3

Verbeelding/ fantasie 2,67 Creëren veilige spelomgeving 2,83 Geloofwaardigheid 3

Reflecteren op eigen werk en dat van anderen 3,67

Reflecteren op eigen werk en dat van anderen 3

Verbeelden 3

Begrijpelijkheid leerlingen Tekstbehandeling 2,75 Fysiek spel/ transformatie 2,92 Verbeelden 3,33

Reflecteren op eigen werk en dat van anderen 3,42 Creëren veilige spelomgeving 3,75 Regisseren van een scène 3,83 Verbeelding/ fantasie 3,92 Geloofwaardigheid 3,92

Dekkendheid leerlingen Tekstbehandeling 2,75 Fysiek spel/ transformatie 3 Reflecteren op eigen werk en dat van anderen 3,42 Verbeelding/ fantasie 3,42 Verbeelden 3,5 Creëren veilige spelomgeving 3,67 Regisseren van een scène 3,75 Geloofwaardigheid 3,83

Tabel 2. Rapportcijfer voor de 8 Rubrics door docenten en leerlingen

De laagste score bij de begrijpelijkheid van de criteria/ niveauomschrijvingen zien we bij de docenten terug in ‘creëren veilige spelomgeving (met een 1,67), waarna redelijk snel ‘verbeelding/ fantasie’ en ‘regisseren van een scène’ volgt (met een 2). Bij de leerlingen zien we dat ‘tekstbehandeling’ qua

begrijpelijkheid het laagste scoort (met een 2,75), waarna redelijk snel ‘fysiek spel/ transformatie’ volgt (met een 2,92). De laagste score bij dekkendheid van de criteria/ niveauomschrijvingen zien we bij de docenten terug in ‘regisseren van een scène’ (met een 2). Bij de leerlingen zien we ‘tekstbehandeling’ ook weer terugkomen in laagste score bij dekkendheid (met een 2,75), en redelijk snel volgt ‘fysiek spel/ transformatie’ (met een 3). De hoogste score bij de begrijpelijkheid van de criteria/ niveauomschrijvingen zien we bij de docenten terug in ‘reflecteren op eigen werk en dat van anderen’ (met een 3,67). Bij de leerlingen zien we dat ‘geloofwaardigheid’ en ‘verbeelding/ fantasie’ qua begrijpelijkheid het hoogste scoren (beiden met een 3,92) waarna redelijk snel ‘regisseren van een scène’ volgt (met een 3,83). De hoogste score bij dekkendheid van de criteria/ niveauomschrijvingen zien we bij de docenten ook terug in ‘reflecteren op eigen werk en dat van anderen’ en in ‘geloofwaardigheid’ (beiden met een 3). Bij de leerlingen zien we ‘geloofwaardigheid’ ook weer terugkomen in de hoogste score (met een 3,83), en redelijk snel volgt ‘regisseren van een scène’ (met een 3,75) en ‘creëren veilige spelomgeving’ (met een 3,67). Conclusie die hieraan verbonden kan worden is dat de leerlingen ‘tekstbehandeling’ en ‘fysiek spel/ transformatie’ het minst helder én het minst dekkend vinden. Als de interviews naast deze scores gelegd worden dan wordt gezien dat leerlingen de begrippen niet helder vinden en inhoudelijk niet goed weten waar zij dan op beoordeeld worden. ‘Geloofwaardigheid’ vinden zij het meest vanzelfsprekend en helder. Ze begrijpen goed wat hiermee bedoeld wordt en vinden ook de niveauomschrijvingen dekkend voor dat wat het criterium wil beoordelen. Ook bij de docenten staat het criterium ‘geloofwaardigheid’ als één van de meest heldere en dekkende criteria beoordeeld. Docenten vinden het ‘reflecteren op eigen werk en dat van anderen’ het meest helder en dekkend van alle criteria (Ondanks dat een aantal het graag uitgesplitst zien in ‘reflecteren op eigen werk’ en ‘reflecteren op het werk van anderen’). Leerlingen ervaren dit criterium zeker niet als meest helder en dekkend. Velen vroegen zich tijdens het interview af wat reflecteren is en hoe je dit op je eigen spel kunt doen “want je ziet jezelf niet spelen”. Docenten vinden het ‘creëren veilige leeromgeving’ het minst helder, vaak omdat hier voor hen veel subcriteria onder vallen en deze nu niet benoemd worden. Als minst dekkend vinden zij nu het ‘regisseren van een scène’. Ook hierbij willen de meeste docenten meer subcriteria en vallen ze over de niveauomschrijving ‘heeft altijd een beeld bij een scène en kan vanuit dat beeld goed regisseren’. Dit behandelt voor hen maar een klein aspect van het regisseren. Regisseer je altijd vanuit beeld? En is dat het meest relevant bij regisseren of gaat het vooral om het overbrengen van je idee op je klasgenoten?

5. Conclusie, aanbevelingen, discussie Conclusie Dit onderzoek heeft tot doel antwoord te geven op de onderzoeksvraag: In hoeverre is het beoordelingsinstrument voor dramalessen in het voortgezet onderwijs van Lok (2013) toepasbaar en inhoudsvalide volgens docent en leerling? De deelvragen zijn uitgesplitst in: de toepasbaarheid van het beoordelingsinstrument binnen het voortgezet onderwijs, de inhoudsvaliditeit van de acht onderzochte criteria en de niveauomschrijvingen, en de toepassingen van de uitkomsten op het totale beoordelingsinstrument. Op basis van dit onderzoek kunnen we een aantal conclusies trekken: De toepasbaarheid van het beoordelingsinstrument binnen het voortgezet onderwijs Zoals door meerdere docenten is opgemerkt, kunnen we stellen dat de Master Rubric een “dappere poging” is om het vak drama voor HAVO en VWO dekkend, valide en betrouwbaar te beoordelen. ‘Dapper’ omdat drama beoordelingen vaak als subjectief worden beschouwd door docenten en leerlingen en docenten vaak een eigen invulling geven aan het vak. Dit bemoeilijkt de ontwikkeling van een breed inzetbaar beoordelingsinstrument voor het vak drama. Het beoordelingsinstrument is een goede, uitvoerige en volledige basis en docenten kunnen niet iets specifieks noemen wat ze er niet in terug kunnen vinden. Hiernaast sluit het volgens de docenten goed aan op de exameneisen voor het vak drama. Deze volledigheid gaat echter verloren als een docent een selectie maakt uit de zevenendertig criteria voor een project. Hierdoor wordt de docent alsnog gedwongen om bij ieder project veel criteria te gebruiken voor de beoordeling of hij moet de keuze maken niet volledig te willen zijn. De praktische toepasbaarheid is van grote invloed op de functionaliteit van het instrument. Omdat het tijdens de interviews door alle docenten is aangegeven, is het van belang om te concluderen dat de digitale omgeving van het instrument minder praktisch is dan het op het eerste gezicht lijkt. Zo is het samenstellen van een beoordelingsformulier per leerling en de bijbehorende chatfunctie te arbeidsintensief. Het huidige instrument is ontwikkeld voor Google Docs, maar veel scholen hebben niet de mogelijkheid en de vrijheid om binnen hun onderwijs voor een ander digitaal platform te kiezen dan het platform waar ze al mee werken (bijvoorbeeld het platform Magister). De inhoudsvaliditeit van de acht onderzochte criteria en de niveauomschrijvingen Voor de toepasbaarheid van het instrument in het voortgezet onderwijs en een correcte inhoudsvaliditeit zijn verbeteringen noodzakelijk. Deze verbeteringen zijn op de gehele Rubrics toepasbaar en op specifiek niveau per criterium. Een veel terugkerende kritiek is dat begrippen en kwantitatieve en kwalitatieve aanduidingen inconsequent worden toegepast binnen het instrument. Het is helder dat er, indien mogelijk, één lijn getrokken zou moeten worden in de aanduiding van de niveauverschillen, waarbij consequent wordt omgegaan met de kwantitatieve en kwalitatieve beoordeling. Een valkuil van de Rubrics is wel dat er uiteindelijk overal ‘goed, ruim voldoende, voldoende, matig en onvoldoende’ staat. Als dit aan de hand is, is de vraag wat de meerwaarde van de niveauomschrijvingen is en of er dan niet beter gewerkt kan worden met de reguliere termen van goed, ruim voldoende, voldoende, matig en onvoldoende of een lijn of hokjes waarbij leerlingen aan kunnen kruisen op welk niveau ze zich bevinden binnen een specifieke Rubric. De toepassingen van de uitkomsten op het totale beoordelingsinstrument Verdere noodzakelijke aanpassingen ter verbetering van de inhoudsvaliditeit zijn in onderstaande paragraaf ‘Aanbevelingen’ te lezen. Zoals bovenstaand is aangegeven bestaan de belangrijkste conclusies uit het onderstaand overzicht van aanbevelingen voor alle onderwerpen die een goede inhoudsvaliditeit voor ogen hebben.

Aanbevelingen De aanbevelingen worden gedaan op basis van de onderzoeksresultaten uit de interviews. Ze richten zich per onderwerp op zowel specifieke criteria als op het totale beoordelingsinstrument. Hierbij wordt dezelfde structuur aangehouden als bij de resultaten en worden de aanbevelingen niet per criterium, maar per onderdeel dat invloed heeft op de validiteit, behandeld. Omdat dit onderzoek vanuit de acht geselecteerde criteria aanbevelingen wil doen voor het gehele instrument, zijn waar mogelijk de criteria- specifieke aanbevelingen herschreven, zodat ze toepasbaar zijn op het gehele instrument. Sommige aanbevelingen komen voor bij meerdere onderwerpen. Voor de leesbaarheid is ervoor gekozen om ze bij het meest passende onderwerp terug te laten komen.

De (digitale) toepasbaarheid van het beoordelingsmodel van Lok in de lespraktijk -

De Rubrics worden als beperkend ervaren als het gaat om het dekken van het gehele vak drama. Daarom zou dit instrument niet moeten dienen als enige beoordelingsmethode. Het heeft de voorkeur om hier een uitgeschreven beoordeling van de docent aan toe te voegen, die niet wordt beperkt door de hokjes van een Rubric. Als het instrument tijdens de les ingezet wordt, zal hier veel tijd voor vrijgemaakt moeten worden, zodat de leerlingen de tijd en aandacht hebben om de veelomvattende mogelijkheden van het instrument te kunnen benutten. Omdat deze tijd vaak niet beschikbaar is, is het de vraag of het instrument dit doel moet willen nastreven. Binnen de criteria moet uitvoeriger uiteengezet en beschreven worden welke punten er specifiek onder vallen, zodat de Rubrics concreter en minder discutabel worden. Ter verbetering van het instrument moet er nader onderzocht worden, in hoeverre de exameneisen voor het vak drama in het voortgezet onderwijs getoetst worden door het instrument. Het digitale aspect functioneert goed voor het dynamische karakter waarbij de docent de criteria zelf kan samenstellen. Het belang van de mogelijkheid om eigen subcriteria en/ of niveauomschrijvingen toe te voegen is groot en zal, ook als het instrument op andere digitale platforms kan werken, aanpasbaar moeten blijven. De chatfunctie is te arbeidsintensief. De tijdsinvestering is niet in balans met de leeropbrengst. Om deze reden heeft het de voorkeur om de chatfunctie eventueel te vervangen door een persoonlijk gesprek. Het digitale instrument is nu enkel werkzaam via Google Docs, maar moet toepasbaar zijn voor het digitale leerplatform van de school.

Inhoudelijk Toepasbaarheid - Er wordt binnen de dramalessen weinig tot niet gewerkt aan het schrijven van scènes. Daarom moet het criterium hiervoor teruggebracht worden tot één subcriterium. Volledigheid - Binnen de niveauomschrijvingen moeten specifieke woorden die zich richten op een enkel aspect van een criterium worden voorkomen. Een voorbeeld hiervan is de focus op emoties tijdens het beoordelen van geloofwaardigheid, terwijl geloofwaardig spel meer behelst dan enkel het goed overbrengen van emoties. - Het is van belang dat subcriteria voldoende uiteen worden gezet zodat beoordelaar en beoordeelde overeenstemming hebben in wat er wordt beoordeeld. - Het is van belang dat het instrument aanstuurt op een uitvoerige mondelinge bespreking van het instrument tussen de leerkracht en de leerlingen. Meetbaarheid - Wanneer een te beoordelen criterium een groepsproces is (zoals ‘regisseren van een scène’) moet de niveauomschrijving zich richten op het zichtbare en meetbare individuele aandeel.

Woordkeuze - Vakinhoudelijke termen moeten binnen eenzelfde Rubric consequent gebruikt worden (bijvoorbeeld ‘spelomgeving’ of ‘leeromgeving’ binnen het subcriterium ‘creëren veilige spelomgeving’). - Veelomvattende en/ of ingewikkelde vaktermen zoals ‘fysiek spel’, ‘fysiek vormgeven’, ‘waarachtig’ en ‘transformatie’ moeten vermeden worden of duidelijk gespecificeerd of waar nodig opgesplitst in meerdere criteria, zodat er geen onduidelijkheid over de betekenis kan ontstaan. Taak van docent - Wanneer het de taak van een docent is om een juiste voorwaarde voor een criterium te creëren, is het de taak van de leerling om dit te behouden en niet te doorbreken. Een voorbeeld: ‘creëren veilige spelomgeving’ is de taak van de docent. In deze situatie moet de niveauomschrijving enkel beoordelen of de leerling deze veiligheid behoudt of niet, wat betekent dat dit maar twee niveaus worden. - Wanneer een docent een belangrijke rol speelt binnen een criterium, zoals bij ‘lef en durf’, dan is het van belang dat het specifieke aandeel hierin van leerlingen omschreven is binnen de niveauomschrijvingen.

Operationalisering Niveauomschrijvingen - Kwalitatieve en kwantitatieve omschrijvingen moeten consequent worden gebruikt binnen één reeks van niveauomschrijvingen. Hier zou één heldere lijn binnen alle Rubrics getrokken moeten worden, en als dit niet mogelijk is, in ieder geval binnen één Rubric. - Kwantitatieve subjectieve aanduidingen zoals ‘in delen’, moeten vermeden worden en vervangen worden door heldere meetbare aanduidingen. - Het onvoldoende zichtbaar zijn van een criterium moet ook als ‘onvoldoende’ beoordeeld kunnen worden. De omschrijving ‘vindt het moeilijk’ is niet toereikend voor een beoordeling die onvoldoende is. - Wanneer de aanwezigheid van een vaardigheid het hoogst haalbare is, moet dit ook de hoogste niveauomschrijving zijn. Een voorbeeld ter verduidelijking is: ‘geloofwaardig’ in plaats van ‘zeer geloofwaardig’ als hoogste niveau, omdat ‘geloofwaardig’ al het hoogst haalbare is. - In het geval van het criterium ‘theorie’ is een niveauomschrijving van goed, voldoende, matig en onvoldoende toereikend. - De vier vakjes voor niveauomschrijvingen betekenen niet dat ieder criterium op vier verschillende wijzen beoordeeld moet worden. Wanneer er bijvoorbeeld bij een criterium slechts sprake is van voldoende en onvoldoende niveau, dan moeten hier enkel twee niveauomschrijvingen worden gebruikt. - De onderlinge verhoudingen tussen de niveaus van het beste tot en met het slechtste, moeten consequent gebruikt worden. De omschrijvingen van de niveauverschillen moeten binnen het grote aantal criteria zo min mogelijk variëren. - Een valkuil van de Rubrics is wel dat er uiteindelijk overal ‘goed, ruim voldoende, voldoende, matig en onvoldoende’ staat. Als dit aan de hand is, is de vraag of er dan niet beter gewerkt kan worden met deze reguliere termen van goed, ruim voldoende, voldoende, matig en onvoldoende of een lijn of hokjes waarbij leerlingen aan kunnen kruisen op welk niveau ze zich bevinden binnen een specifieke Rubric. Indeling - Wanneer er twee vaardigheden worden benoemd binnen één subcriterium of niveauomschrijving moeten hier twee subcriteria met eigen niveauomschrijvingen van worden gemaakt. - Subcriteria die bestaan uit een grote hoeveelheid vaardigheden moeten gespecificeerd worden. Door de verschillende vaardigheden die het criterium behelzen te benoemen, vergroot dit het begrip van het criterium en dus de validiteit van de beoordeling. - Wanneer binnen de Master Rubric onder verschillende hoofdcriteria dezelfde subcriteria te vinden zijn, moet er een specificatie binnen het subcriterium komen.

Dekkendheid - Kwantitatieve aanduidingen zoals ‘altijd’ moeten vermeden worden binnen de niveauomschrijvingen, omdat het onmogelijk is om een vaardigheid altijd in te zetten en/ of te tonen.

Discussie Binnen de discussie wordt eerst ingegaan op een aantal punten die uit de interviews naar voren zijn gekomen. Dit zijn punten waar helemaal geen overeenstemming tussen de respondenten bestond ofwel, waar wij als onderzoekers onze vragen bij hebben. Na deze concrete punten wordt er een reflectie op het onderzoek gegeven. Toepasbaarheid Het instrument is ontwikkeld om leerlingen meer inzicht en houvast te geven bij de eigen ontwikkeling. Het kan toegepast worden als reflectie instrument en/ of als beoordelingsinstrument. Voor beide vormen zijn vóórs en tegens te benoemen. Afhankelijk van het niveau van de leerlingen, de leerdoelen van de lessen en de docent zal hier goed naar gekeken moeten worden. Ook zal er gekeken moeten worden naar wat er op papier gebeurt, wat mondeling, wat in hokjes geplaatst wordt en wat in losse uitgeschreven tekst. Respondenten gaven aan dat bepaalde subcriteria en niveauomschrijvingen sterk afhankelijk zijn van de leeftijd van de leerling. Een optie zou wellicht zijn om bij bepaalde subcriteria niveauomschrijvingen per leeftijdscategorie te maken. Een nadeel hiervan is dat het instrument nog grootser wordt. De aanpasbaarheid van het instrument maakt het ook mogelijk om de docent dit zelf in te laten vullen. Meetbaarheid Subjectieve vaardigheden zoals ‘geloofwaardigheid’, ‘waarachtigheid’ en ‘tekstbehandeling’, maar ook ‘origineel’ en ‘sterk’ of de kwantitatieve aanduiding ‘in delen´, zijn moeilijk meetbaar. De vraag is of deze woorden zoveel mogelijk voorkomen moeten worden binnen de Rubrics en/of vervangen moeten worden door objectieve zichtbare vaardigheden die het subjectieve doel meetbaar maken. De vraag is echter ook of dit mogelijk is en of je daarmee bepaalde criteria niet tekort doet. Ook is er twijfel over de meetbaarheid van het criterium ‘regisseren van een scène’. Dit heeft te maken met de vraag van verschillende respondenten of je dit wel moet laten meten door de leerlingen of dat dit criterium een taak van de docent is. Áls je het wel wilt meten is dit dan wel mogelijk aangezien een leerling afhankelijk is van het spel van zijn medeleerlingen. Op deze vraag is geen antwoord gekomen waar een directe aanbeveling aan te verbinden is. Dekkendheid De vraag is of er naast het meten van een vaardigheid ook de inzet van de leerling bij het toepassen van deze vaardigheid gemeten moet kunnen worden. Dit betekent een toevoeging op de niveauomschrijvingen. Hiermee kan een beter beeld worden verkregen over het proces van de leerling, want als alleen de vaardigheid wordt beoordeeld kan de leerling deze vaardigheid ook alleen op de beoordelingsmomenten laten zien. Een andere kant is dat er bij een vak als wiskunde ook niet beoordeeld wordt op inzet. Waarom zou dit wel bij drama van toepassing zijn? Reflectie Het voordeel van het toetsen van een concreet beoordelingsinstrument is dat de resultaten zeer concreet en makkelijk toe te passen zijn op het beoordelingsinstrument. Er is voor gekozen om alle interviews in nieuwe Rubrics uit te werken. Dit levert zeven verschillende Rubrics op. Als onderzoekers vonden wij dit de meest zorgvuldige vorm. Dit betekent wel dat er veel in details getreden wordt en het gevaar van overlap bestaat. We hebben gemerkt dat we met zeven verschillende interviews ruim voldoende informatie hebben om een vertaalslag te kunnen maken naar het gehele instrument met alle zevenendertig criteria. Alle aanbevelingen zouden hierin verwerkt kunnen worden. Het zou daarna wel van belang zijn om nogmaals de cyclus van interviews te doorlopen binnen nieuwe scholen en met andere docenten, om te kijken of de inhoudsvaliditeit van het instrument voldoende verbeterd is.

6. Literatuur Baarda D.B., de Goede M.P.M. & Teunissen J. (2009). Basisboek Kwalitatief Onderzoek. Handleiding voor het opzetten en uitvoeren van kwalitatief onderzoek. Groningen/ Houten: Noordhoff Uitgevers Bos, W. (2000). Theatereducatie in het basisonderwijs: een theoretische verkenning. Universiteit Utrecht: Literatuurscriptie Drenth, P. J. D. & Sijtsma. K. (1990). Testtheorie. Inleiding in de theorie van de psychologische test en zijn toepassingen. Houten: Bohn Stafleu Van Loghum Janssens, L. (1998). Drama is de kunst. Handboek voor dramadocenten. Haarlem: Beukers Scholma Lok, C. (2013a). Beoordeling van theaterlessen in het Voortgezet Onderwijs. Amsterdam AHK Theaterdocentopleiding Lok, C. (2013b, 12 september) Theater Rubric. Geraadpleegd op http://youtu.be/WJ-vk14IVRw Swanborn, P.G. (1984). Methoden van sociaal-wetenschappelijk onderzoek. Inleiding in ontwerpstrategieĂŤn. Meppel: Boompers drukkerijen bv Hulp bij Onderzoek (12 mei 2014). Constructvaliditeit. Geraadpleegd op http://www.hulpbijonderzoek.nl/constructvaliditeit

Bijlagen Bijlage 1

Codeboom

THEMA

SUBTHEMA

LABELS/ PARAGRAFEN CONCLUSIES

LABEL

Rubrics algemeen 103

Becijfering

Validiteit/ helderheid

Validiteit/ helderheid docenten

Validiteit/ helderheid leerlingen Dekkendheid docenten Dekkendheid leerlingen Algemeen

Zie bijlage 4

Systeem Rubrics digitaal Toepasbaarheid Systeem Rubrics digitaal Hoofdcriteria/ subcriteria totaal Vormgeving/ overzichtelijkheid/ toegankelijkheid totaal Volledigheid totaal Niveauomschrijvingen Eigen beoordelingsmethode

11 30 11 4

Toepasbaarheid inhoudelijk

Volledigheid

Volledigheid Effect Normering Eerlijkheid Meetbaarheid Inhoudelijke woordkeuze Begrijpbare woordkeuze Belang Taak docent Dekkendheid inhoud

27 1 28 4 46 63 25 9 4 22

Vakinhoud (specifiek over vak drama) Afstanden

Indeling Loskoppelen Uitsplitsen Overlapping Dekkendheid waardering

34 24 18 8 36

Dekkendheid Rubrics systeem 82

Algemene reactie Inzetten van het instrument Toepasbaarheid Digitale aspect

Inhoudsvalidit eit - 475

Eigen beoordelingsmetho de Inhoud - 301

Niveau omschrijvingen Eigen beoordelingsmethode

Normering Meetbaarheid Woordkeuze

Operationalisering - 174

aantal keer gelabeld in interviews Respondenten geven cijfers zie bijlage 4

Belang Taak docent ***verdeeld onder paragrafen*** ***verdeeld onder paragrafen*** Afstanden Indeling

Dekkendheid waardering

Zie bijlage 4 Zie bijlage 4

11 19 21

Totaal: 578

Bijlage 2.1 De acht onderzochte Rubrics uit het beoordelingsmodel met de basis nummering van de top-down codering

Bijlage 2.2 Het totale beoordelingsmodel met de zevenendertig Rubrics met de basis nummering van de top-down codering

Bijlage 3.1

De acht Rubrics verbeterd naar aanleiding van interview met docent 1

Bijlage 3.2

De acht Rubrics verbeterd naar aanleiding van interview met docent 2

Bijlage 3.3

De acht Rubrics verbeterd naar aanleiding van interview met docent 3

Bijlage 3.4

De acht Rubrics verbeterd naar aanleiding van interview met leerlingen van docent 1

Bijlage 3.5

De acht Rubrics verbeterd naar aanleiding van interview met leerlingen van docent 2

Bijlage 3.6

De acht Rubrics verbeterd naar aanleiding van interview met leerlingen klas 1 van docent 3

Bijlage 3.7

De acht Rubrics verbeterd naar aanleiding van interview met leerlingen klas 2 van docent 3

Bijlage 4

Rapportcijfer voor de acht Rubrics door docenten en leerlingen

Bijlage 5.1

Topiclist interview docenten

Dit interview duurt maximaal 1,5 uur. Bij dit interview zal er gebruik gemaakt worden van een half gestructureerde interviewmethode, waarbij ook gebruik gemaakt wordt van een topiclist en begin- en doorvragen verbonden aan deze topiclist. Topiclist met begin- en doorvragen voor interview met de docenten Introductie onderzoek - Voorstellen - Belang onderzoek - Duur interview - Toestemming vragen voor het opnemen van het gesprek - Anonieme verwerking van gegevens - Toestemming om verwerking van gegevens - Korte inleiding op verloop van het interview Introductie docent - Aantal jaren onderwijservaring in het voortgezet onderwijs Validiteit van beoordeling Deze vragen worden per onderdeel (dus acht keer) besproken Uitleg wat beoordelingscriteria zijn en wat de niveauomschrijvingen zijn en hoe het gesprek gaat verlopen (per criterium staan we stil). Docenten mogen zo open mogelijk zijn Formulering van de beoordelingscriteria en niveauomschrijvingen • Is de formulering van dat wat beoordeeld wordt begrijpelijk? • Is de formulering van de niveauomschrijvingen begrijpelijk en dekkend? Welke zijn begrijpelijk en dekkend? Welke niet? • Is er voldoende onderscheid tussen de verschillende niveaus voor een goede beoordeling? Zo ja: Waar blijkt dit uit? Zo nee: Welke niveauomschrijvingen voldoen hier niet aan? Waarom niet? Hoe zou dit anders geformuleerd kunnen worden? •

Kunt u de verschillende niveaus nu objectief toepassen in de niveauomschrijvingen? Zo ja: Hoe komt dit? Zo nee: Hoe moeten de niveauomschrijvingen dan geformuleerd worden zodat je wel objectief kunt beoordelen?

•

Beoordelingscriteria voor self-assessment Komt de self-asssessment van de leerlingen overeen met de beoordeling van u als docent? Zo ja: Zijn er opvallende overeenkomsten en welke zijn dat? Zo nee: Hoe denkt u dat dit komt en hoe zouden de criteria een bijdrage kunnen leveren aan deze overeenstemming?

•

Geef een cijfer van 1 tot 5 waarbij 1 slecht is en 5 heel goed voor de volgende twee vragen: - Is de formulering van het criterium en de niveauomschrijvingen helder en begrijpelijk voor docent en leerling? - Zijn het criterium en de niveauomschrijvingen dekkend voor dat wat het wil beoordelen?

Dekkendheid van alle zevenendertig criteria binnen het beoordelingsinstrument van Lok • Kloppen de beoordelingscriteria met de activiteiten van de leerlingen in de dramalessen? Zo ja: Wat maakt de beoordelingscriteria compleet? Zo nee: Wat mist u? • Welke rollen verlangt u van een leerling om tijdens de dramalessen aan te kunnen nemen? • Zijn alle rollen vertegenwoordigd in het instrument? Mist u hierin dingen? Zo ja: Wat dan?

• •

Zo nee: Bent u door de criteria meer bewust geworden van rollen die de leerlingen tijdens de les aannemen? Komen de beoordelingscriteria overeen met de eisen/beoordelingspunten van de school? Zo nee: Welke criteria mist u? Komen de beoordelingscriteria overeen met uw eigen visie op beoordelingscriteria? Zo nee: Welke criteria mist u?

Bruikbaarheid van het instrument via internet (google docs) indien tijd over •

Mening over beoordelingsinstrumenten - Wat is uw persoonlijke mening over het beoordelingsinstrument? - Hoe verhoudt dit zich tot de huidige wijze van beoordelen? Hoe verhouden deze twee instrumenten zich tot elkaar? Wat zijn de verschillen en overeenkomsten? - Zou u met dit instrument willen gaan werken? Wat zijn de voor- en nadelen?

Afsluiting • Ruimte voor vragen en opmerkingen. U kunt altijd bellen of mailen als de respondent aanvullingen heeft • Aangeven wat er met de gegevens gebeurt en of de respondent nog iets over de resultaten hoort en zo ja, hoe • Bedankt

Bijlage 5.2 Topiclist interview leerlingen Dit groepsinterview duurt maximaal 50 minuten. Bij dit interview zal er gebruik gemaakt worden van een half gestructureerde interviewmethode, waarbij ook gebruik gemaakt wordt van een topiclist en begin- en doorvragen verbonden aan deze topiclist. Topiclist met begin– en doorvragen voor groepsinterviews met leerlingen Introductie onderzoek - Voorstellen - Belang onderzoek - Duur interview - Anonieme verwerking van gegevens - Toestemming om verwerking van gegevens Introductie leerlingen - Leeftijd - Klas - Ervaring drama Validiteit van beoordeling Deze vragen worden per onderdeel (dus acht keer) besproken Uitleg wat beoordelingscriteria zijn en wat de niveauomschrijvingen zijn en hoe het gesprek gaat verlopen (Per criterium staan we stil, komt iedereen aan het woord en mag er discussie komen). Leerlingen mogen zo open mogelijk zijn Formulering van de beoordelingscriteria en niveauomschrijvingen • Is de formulering van dat wat beoordeeld wordt begrijpelijk? • Is de formulering van de niveauomschrijvingen begrijpelijk en dekkend? Welke zijn begrijpelijk en dekkend? Welke niet? • Begrijp je wat er bedoeld wordt? • Zou je dat zelf ook zo zeggen of zou je het anders zeggen en hoe dan? •

Is er voldoende onderscheid tussen de verschillende niveaus voor een goede beoordeling? Zo ja: Waar blijkt dit uit?

Zo nee: Welke niveauomschrijvingen voldoen hier niet aan? Waarom niet? Hoe zou dit anders geformuleerd kunnen worden? •

Zijn de niveauomschrijvingen zo geformuleerd dat verschillende beoordelaars hetzelfde beoordelen? Stel, jullie beoordelen dezelfde scène met dit criterium, weten jullie dan zeker dat jullie hetzelfde aan het beoordelen zijn? Zo ja: Hoe komt dit? Zo nee: Hoe moeten de niveauomschrijvingen dan geformuleerd worden zodat je wel hetzelfde kunt beoordelen?

•

Geef een cijfer van 1 tot 5 waarbij 1 slecht is en 5 heel goed voor de volgende twee vragen: - Is het helder omschreven? Begrijp je wat er staat? - Klopt dat wat er staat met dat wat er beoordeeld wordt en staat alles er in?

•

Beoordelingscriteria voor self-assessment Komt de beoordeling over jezelf overeen met de beoordeling van de docent? Zo ja: Zijn er opvallende overeenkomsten en welke zijn dat? Zo nee: Hoe denk je dat dit komt en hoe zouden de criteria een bijdrage kunnen leveren aan deze overeenstemming?

Afsluiting • Ruimte voor vragen en opmerkingen • Indien tijd over: Vind je dit een goed instrument? Vind je dit een goede manier van beoordelen? Wil je altijd zo werken of liever zoals jullie tot nu toe beoordeeld worden? Hoe worden jullie tot nu toe beoordeeld? • Aangeven wat er met de gegevens gebeurt en of de respondent nog iets over de resultaten hoort en zo ja, hoe • Bedankt

Bijlage 6

Brief aan ouders/ verzorgers over video en geluidsopnamen

Beste ouders, verzorgers en leerling van het …………….

Binnen de dramalessen heeft een kleinschalig praktijkonderzoek plaatsgevonden waarbij een beoordelingsinstrument is getest met de leerlingen. Hierbij zijn een aantal video –en geluidsopnamen gemaakt. Deze opnamen worden gebruikt voor het onderzoek en zullen alleen door de student onderzoekers en eventueel de begeleiders bekeken worden.

Ouders/verzorgers die daar bezwaar tegen hebben, kunnen dit tot uiterlijk 13 april 2014 schriftelijk kenbaar maken door dit formulier ondertekend terug te geven aan de lesgevende dramadocent. Heeft u hier geen bezwaar tegen dan hoeft u niets te ondernemen. Alvast bedankt voor uw medewerking, Borius van der Meulen (student – onderzoeker) en Debbie Klarenbeek (student – onderzoeker) van de AHK Master Kunsteducatie

Ik ga NIET akkoord met het gebruik van de video en geluidsopnamen voor het praktijkonderzoek Naam ouder/verzorger: …………………………………………………………………… Naam leerling:

……………………………………………………………………

Datum:

....-….-……..

Handtekening:

……………………………