Metrologia delle prove esame di Stato parte 2

Page 1

della terza prova potrebbe consentire alla commissione di convergere anche sui criteri per la valutazione ed evitare inopportune spaccature in sede di votazioni sulle singole prove. L'avere menzionato qui gli errori di misura e la soggettivitĂ dei giudizi dovrebbe ridurre il rischio di un approccio meccanicistico che affidi alla chiarezza cartesiana del numero una equitĂ di giudizio che rimane invece responsabilitĂ personale di ciascun commissario. E senza cadere

nei dubbi amletici dell'incertezza e della non decisione, occorre ricordare che l'esame somma tanti momenti distinti che riducono l'entitĂ dell'errore complessivo. In particolare, il nuovo esame assume formalmente l'informazione che proviene dagli accertamenti compiuti dalla scuola durante gli ultimi anni mediante il credito scolastico e quegli accertamenti possono costituire una filigrana di sfondo per orientare i criteri di giudizio in tutte le prove.


Allegato 2 I molti aspetti del Monitoraggio di Raimondo Bolletta I compiti assegnati dal decreto istitutivo all'Osservatorio sugli Esami di Stato (Ones) si possono riassumere in due funzioni principali o assistere le scuole e le commissioni nella fase di costruzione delle terze prove e o realizzare un monitoraggio sistematico risultati della riforma degli Esami di Stato.

dei

L'Osservatorio ha inizialmente dedicato la sua attenzione alla questione della terza prova per la quale sin dall'inizio dell'anno scolastico 199899, si erano manifestate preoccupazioni diffuse trai docenti e idirigenti scolastici. In seguito però sono emersi altri punti nodali sui quali si è

concentrato il dibattito degli operatori della scuola. Nell’indagine fatta nel 1999 mediante un questionario postale, effettuata per conoscere le opinioni dei docenti e dei presidi, la seconda fonte di preoccupazione riguardava la conduzione del colloquio pluridisciplinare, preoccupazione più avvertita dai i presidi, probabili futuri presidenti di commissione, che dai docenti, per il loro ruolo di commissari. Nella fig.1 sono riportate le frequenze delle risposte multiple calcolate sul totale dei rispondenti; si tenga conto che ogni rispondente poteva segnalare fino a tre aspetti 'preoccupanti' all'interno della lista proposta.

Difficoltà di gestione dell'esame La costruzione della terza prova La conduzione del colloquio pluridiscip L'assegnazione dei punteggi ll rapporto tra interni ed esterni La valutazione della terza prova La suddivisione per aree disciplinari La valutazione della prima prova La valutazione della seconda prova 0

10

20

30

40

50

60

70

80

% dei rispondenti

per il presidente secondo i presidi Anche in base a questo risultato e ai numerosissimi quesiti e messaggi elettronici pervenuti al forum dell'Osservatorio è stato deciso di sottoporre a monitoraggio anche il colloquio in considerazione della sua funzione fondamentale nell’ambito della riforma

per i commissari secondo i docenti

Aspetti metodologici dell'indagine nell'ambito del monitoraggio Il piano di monitoraggio ha richiesto una lunga ed approfondita discussione sulle modalità più opportune d’ intervento; si trattava infatti di osservare, documentare e studiare un fenomeno di vastissime proporzioni e di enorme importanza culturale e sociale e quindi anche 'politica' che si


sarebbe realizzato in tempi molto rapidi, meno di un mese su tutto il territorio nazionale. Le due esigenze 'contrastanti' da tener presente riguardavano la tempestività della restituzione dei dati ai responsabili e ai protagonisti del processo e il rigore metodologico e la profondità delle analisi condotte. i Si è scelto di affrontare il problema operando su due fronti, quello campionario e quello censimentario, utilizzando strumenti e metodi per la raccolta dei dati sia di tipo quantitativo sia qualitativo. Il criterio generale cui ci si è attenuti è stato quello di non creare, attraverso le azioni di monitoraggio, delle significative perturbazione al regolare svolgimento degli esami, o almeno di far in modo che le inevitabili perturbazioni indotte da una attività osservativa fossero uniformemente distribuite su tutta la popolazione non soltanto su alcune commissioni. E' evidente, ad esempio, che se solo alcune commissioni avessero dovuto comunicare all'Osservatorio gli esiti del proprio lavoro avremmo potuto avere delle distorsioni negli stessi criteri di valutazione. Per questo la raccolta degli esiti analitici ha interessato allo stesso modo tutte le commissioni e, ove si è dovuto ricorrere alla costituzione di campioni, le richieste di informazioni hanno rispettato assolutamente l'anonimato e sono state formulate dopo che le commissioni avevano deciso le valutazioni (è il caso ad esempio della raccolta del campione delle prime prove che è stata comunicata direttamente ai presidenti di commissione estratti solo dopo la pubblicazione degli esiti degli scritti e che consentiva di mascherare nelle fotocopie sia i dati nominativi sia le correzioni o e le valutazione espresse dai commissari). Il monitoraggio del colloquio si configurava quindi come particolarmente delicato poiché la presenza di un osservatore poteva turbare sia la prestazione del candidato sia l'atteggiamento dei commissari, falsando sia la relazione comunicativa che si voleva studiare sia la stessa validità della prova. Da qui nasce la decisione di ricorrere a una metodologia che potremmo definire da 'candid camera' con lo scopo evidente di mascherare il più possibile la presenza di una osservatore estraneo alla commissione e alla classe, ricorrendo a personale specializzato nelle osservazioni di comportamenti sociali spontanei. Non si tratta di una procedura inquisitoria, come qualche organo i stampa ha recentemente qualificato l'iniziativa, di tipo ispettivo o sanzionatorio ma di una metodologia che ha cercato di essere massimamente rispettosa della delicatezza del momento che doveva essere osservato. La procedura realizzata combina l'approccio quantitativo con quello qualitativo: l'istituto demoscopico incaricato di effettuare le rilevazioni ha restituito una serie di osservazioni fattuali condotte sulla base di una griglia concordata con il CEDE, una serie di osservazioni libere riferite

alle circostanze in essa non riconducibili e, ove è stato tecnicamente possibile, le bobine delle registrazioni dei colloqui. La fase di rilevazione è stata realizzata dalla Doxa che ha operato in stretta sinergia con l'Osservatorio convenendo sia le procedure di campionamento sia le griglie di osservazione sia i criteri di formazione dei rilevatori-osservatori. Al momento attuale (Febbraio 2000) sono disponibili solo i risultati di questi primi due aspetti mentre le registrazioni vocali sono in fase di trascrizione e di analisi per una lettura più approfondita dei colloqui realizzati.

Struttura della ricerca Pur consapevoli che i costi di una simile procedura non potevano consentire numerosità campionarie significative per un processo altamente variabile e poco studiato, si è comunque ritenuto opportuno procedere alla identificazione dei colloqui da osservare con un campionamento rigorosamente casuale. Anche per ridurre le spese di viaggio dei rilevatori, sono state selezionate nel campione 15 tipologie di scuole in 101 punti di campionamento (comuni) distribuiti sul territorio proporzionalmente alla presenza delle scuole. Nel dettaglio, sono state osservate prove orali dell’esame di stato nelle seguenti tipologie di scuole: 1.

Liceo Scientifico

2.

Liceo Classico

3.

Liceo Artistico

4.

Istituto d’Arte

5.

Istituto Magistrale

6.

Istituto Agrario

7.

Istituto Tecnico Industriale

8.

Istituto Tecnico per Geometri

9.

Istituto Tecnico Commerciale

10. Istituto Tecnico Geometri

Commerciale

per

11. Istituto Professionale per i Servizi Sociali 12. Istituto Professionale per l’Artigianato 13. Istituto Professionale Turismo

Commercio

e

14. Istituto Professionale Servizi Alberghieri e della Ristorazione 15. Istituto Professionale Ambientale

Agrario

e

La ripartizione geografica delle scuole è risultata la seguente: Nord Ovest

19,7%

Nord Est

17,8%

Centro

20,0%

Sud

28,9%

Isole

13,6%


Sono state estratte 400 scuole di cui 391 sono state effettivamente raggiunte per un totale di 799 colloqui osservati. Si noti che l'osservatore doveva assistere a soltanto due colloqui consecutivi per la stessa commissione per non insospettire eccessivamente i commissari ed evitare una eccessiva concentrazione dell'indagine su poche commissioni. La griglia di osservazione è stata discussa approfonditamente e se ne è convenuta una versione che potesse essere agevolmente utilizzata da personale non necessariamente esperto dello specifico scolastico. Si è evitato quindi di pretendere dall'osservatore una valutazione della difficoltà della prova ma si è chiesto di rilevare solo gli aspetti strutturali ed esteriori che potevano essere spia di specifiche impostazioni più o meno coerenti con quanto la nuova normativa cercava di introdurre nelle prassi delle commissioni. I punti su cui era focalizzata l'attenzione dell'Osservatorio erano centrati sullo spazio che avrebbe avuto la discussione del lavoro presentato dal candidato, l'ampiezza degli accertamento ulteriori più o meno centrati su singole discipline o su un approccio coerentemente integrato. La variabili direttamente rilevate possono essere così raggruppate: o tempi del colloquio o l’ambientazione (numero dei commissari presenti, pubblico, tipo di aula e strumenti presenti, ecc.) o il comportamento dei commissari o il comportamento degli studenti. Le osservazioni sono state condotte da 81 osservatori opportunamente formati direttamente dall'istituto incaricato dell'indagine e si sono protratte dal primo al 16 luglio 1999. Tale intervallo temporale deriva dalla preoccupazione di ricoprire tutto il periodo in cui si sono svolte le prove orali. Come abbiamo detto, le procedure di rilevazione hanno variamente intrecciato osservazioni 'oggettive' con giudizi che potremmo ascrivere alla soggettività dell'osservatore. Dire ad esempio che un candidato ha brillantemente

esposto la sua tesina ha una connotazione meno 'oggettiva' del notare che c'è a disposizione una lavagna luminosa o un calcolatore elettronico. D'altra parte l'essersi affidati a giudizi o impressioni di rilevatori non professionisti della scuola, se può presentare qualche rischio di pertinenza e validità sulla valutazione degli apprendimenti, risponde alla consapevolezza che l'esame di Stato è un atto pubblico in cui la Scuola si espone e si rende visibile all'esterno a un pubblico di 'incompetenti' che però hanno titolo per giudicare o criticare la validità specifica della prova e il valore delle prestazioni dei candidati. E' proprio dalle osservazioni 'soggettive' dei rilevatori che nasce l'idea dell'approfondimento proposto da questo volume che non si concentra sugli aspetti tecnici e specifici della prova valutativa in sé ma che esplora il ricchissimo mondo delle implicazioni legate alla conduzione di una prova pubblica sulle competenze di giovani che escono da un lungo periodo di studio e di preparazione per entrare nel modo del lavoro o dello studio avanzato per la professione futura.

Una sintesi delle osservazioni La griglia predisposta per la raccolta delle osservazioni prevedeva due sezioni: la prima, dedicata alla descrizione dell’ambiente (caratteristiche dell’aula) in cui si svolge il colloquio ed una seconda di approfondimento, sull’andamento del colloquio.

Il contesto La maggior parte delle aule in cui si sono svolti i colloqui di esame sono state classificate dai rilevatori come grandi e spaziose (81,7%), prevalentemente accoglienti (66,5%) e anche silenziose (72,0%) e luminose (88,2%). Le osservazioni riguardanti la sensazione di freddezza e di non accoglienza provata entrando nelle aule di alcune scuole ( fino al 33,5%) solleva però un problema non trascurabile di qualità dell'ambiente in cui si svolge un momento formale e certamente importante per la vita dei candidati e delle stesse scuole.


Ambiente in cui si svolge il colloquio 800

700

600

500

400

300

200

100

0 ACCOGLIENTE NON (CALDA, FA ACCOGLIENTE SENTIRE A (FREDDA, PROPRIO AGIO) METTE A DISAGIO)

RUMOROSA

Il pubblico è risultato in genere poco numeroso (non più di 10 persone) e formato prevalentemente dagli stessi studenti della classe desiderosi di studiare gli stili di approccio dei commissari esterni e acquisire esperienze e

FORMATO DA STUDENTI E PARENTI CONOSCENTI IN MISURA SIMILE 5% FORMATO PREVALENTEMENTE DA PARENTI CONOSCENTI CURIOSI 6%

SILENZIOSA

LUMINOSA

NON LUMINOSA

informazioni sugli stili di conduzione dei commissari e sull’andamento dei colloqui degli amici. Nei licei scientifici e classici è stata rilevata la presenza di un pubblico più numeroso (25,5% e 26,5% rispettivamente).

Pubblico presente NON INDICATO 7%

FORMATO PREVALENTEMENTE DA STUDENTI (PIU' DI 50%) 82%

Lo strumento didattico maggiormente presente all’interno delle aule è risultata la lavagna per gesso tradizionale (72,0%). Poco diffusi sono risultati strumenti come la lavagna luminosa (4,3%), il computer da tavolo (20,9%), il proiettore (6,8%) e il cavalletto con fogli di carta (2,3%).

La presenza del computer da tavolo è stata rilevata prevalentemente presso gli istituti tecnici industriali (50,0%), gli istituti tecnici per geometri (24,8%) e gli istituti professionali per il commercio e turismo (39,1%).


CAVALLETTO CON FOGLI DI CARTA 2%

LAVAGNA LUMINOSA 4%

LAVAGNA (PER PENNARELLI) 6%

COMPUTER DA TAVOLO 19%

PROIETTORE 6% LAVAGNA (PER GESSO) 63%

Strumenti per esporre

Gli strumenti presenti in aula, e a disposizione degli studenti, sono stati utilizzati in modo piuttosto contenuto: si va da un 19,8% di studenti che hanno utilizzato il computer da tavolo (sul totale di quelli che lo avevano a disposizione) ad uno 1,9% di studenti che, avendola a disposizione, hanno utilizzato una lavagna per pennarelli. 4,7% sono risultati gli studenti che hanno utilizzato la lavagna per gesso. Insieme alla scarsa diffusione di strumenti didattici moderni si rileva dunque anche una non abitudine al loro uso nella prova di esame orale.

Il colloquio I Commissari Una domanda, che spesso era circolata nei dibattiti che hanno preceduto gli esami, riguardava il modo in cui era possibile impostare un colloquio pluridisciplinare in un tempo necessariamente limitato che non fosse la giustapposizione di domande slegate e nozionistiche di ciascun commissario per la sua materia.

Dai dati della griglia di osservazione non è possibile rilevare la congruità dei nessi tra le varie domande e il modo in cui si evolveva nel merito il discorso dei candidati ma alcune aspetti formali possono essere assunti come indicatori della qualità dell'impostazione della prova. Innanzitutto è stato rilevato il numero dei commissari presenti. La collegialità del colloquio era stata oggetto di dibattito per qualche mese, poiché prima della pubblicazione dell'ordinanza sugli esami, erano circolate ipotesi di conduzione per aree disciplinari proprio per permettere un più esteso ed analitico controllo su tutte le discipline. L’ordinanza ha confermato invece una conduzione completamente collegiale. Dal campione esaminato risulta che le commissioni hanno operato al completo e che quasi tutti i commissari hanno partecipato attivamente al colloquio (6,4 commissari in media) e in 6 colloqui su 10 (60,7%) anche il presidente è intervenuto attivamente ponendo domande al candidato. Ciascun colloquio ha avuto una durata di circa un’ora: nel 16,5% dei casi i colloqui si sono però esauriti in 40 minuti e nel 23,8% si sono invece protratti oltre i 60 minuti. Dal grafico emerge anche che nei licei la durata è stata maggiore


Durata del colloquio 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% totale

licei

FINO A 40 MINUTI

tecnici

41-50 MINUTI

51-60 MINUTI

professionali

OLTRE 60 MINUTI

DURATA MEDIA DEL COLLOQUIO 62

60

58

56

54

52

50

48

46

Totale

scientifico

classico

istituto arte

magistrale

industriale

commerciale

professionale

DURATA MEDIA

Di questi 60 minuti, in media, circa un terzo (21 minuti) è stato dedicato alla discussione della tesina. In 6 casi su 10 (59,8%) gli osservatori hanno giudicato brillante l’esposizione dell’argomento portato dal candidato, mentre in 2 casi su 10 (20,7%) i candidati non lo avevano

preparato con cura e l’impressione è stata negativa (impressione di un “monologo impacciato”). Alcuni candidati (5,6%) non hanno presentato alcuna tesina e in 13,9% dei casi l’osservatore Doxa non ha rilevato il dato.


Tempo dedicato all'argomento scelto dal candidato 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0%

totale FINO A 10 MINUTI

licei 11-15

Il maggior numero di esposizioni brillanti, a giudizio della Doxa, è stato rilevato presso i licei: 70,8% al liceo scientifico, 67,3% al liceo classico.

16-20

tecnici 21-30

professionali OLTRE 30 MINUTI

In 6 colloqui su 10 (58,7%) la presentazione della tesina è stata un dialogo con più docenti mentre in 3 casi su 10 (27,7%) lo studente ha dialogato con un solo docente. In 1 caso su 10 questa informazione non è stata rilevata.

totale

licei %

tecnici %

professionali %

%

UN MONOLOGO IMPACCIATO

165

21%

64

19%

69

22%

32

22%

UNA ESPOSIZIONE BRILLANTE

478

60%

216

63%

181

57%

81

57%

45

6%

14

4%

25

8%

6

4%

47

14%

40

13%

24

17%

NON PRESENTATA LA TESINA OMESSO

111

14%

TOTALE

799

100%

Fatto 100 il numero delle tesine presentate, 32,7 hanno riscosso, fra i commissari, un interesse elevato, mentre 58,1 un interesse medio e le restanti 9,2 un interesse scarso. Successivamente all’esposizione della tesina, al candidato sono state rivolte, in media, 15 domande: 41,9% degli studenti hanno dovuto rispondere a non più di 10 domande mentre 18.6% a più di 20 domande. La percezione dei rilevatori è stata principalmente quella di colloqui condotti dalle commissioni in modo coerente e coordinato (73,1%): non mancano però le impressioni di colloqui condotti dalle commissioni “giustapponendo domande slegate” (21,2%)

341 100% 315 100% 143 100% oppure in modo distratto e poco convinto (5,7%). La lettura dei commenti liberi degli osservatori riportati sui questionari e presentati nel contributo successivo aiuta ad interpretare questi dati e ad entrare nell’atmosfera creata dai commissari all’interno dell’aula durante la conduzione delle prove. In 4 colloqui su 10 (39,3%) le domande rivolte dai commissari ai candidati riguardano prevalentemente argomenti diversi da quello della tesina, in altrettanti (37,9%) le domande si ripartiscono equamente fra l’argomento della tesina e altri argomenti e in 2 casi su 10 (22,8%) il colloquio è stato improntato prevalentemente sull’argomento della tesina.


Interesse mostrato dalla commissione per la tesina totale

licei

tecnici

professionali

ALTO

243

30%

99

32%

88

28%

56

MEDIO

431

54%

172

56%

167

53%

92

52%

SCARSO

68

9%

19

6%

32

10%

17

10%

NON PRESENTATA LA TESINA

45

6%

14

5%

25

8%

6

3%

NON INDICA TOTALE

32%

12

2%

3

1%

3

1%

6

3%

799

100%

307

100%

315

100%

177

100%

Come la commissione ha condotto il colloquio totale

licei

tecnici

professionali

COORDINATO E COERENTE

584

73%

229

75%

221

70%

134

76%

GIUSTAPPONENDO SLEGATE

169

21%

63

21%

71

23%

35

20%

46

6%

15

5%

23

7%

8

5%

799

100%

DOMANDE

IN MODO DISTRATTO E POCO CONVINTO TOTALE

Considerando tutte le domande rivolte dai commissari al candidato in media sono state toccate 6 materie: 19,9% degli studenti hanno

307 100% 315 100% 177 100% risposto a domande su un massimo di 5 materie, 41,8% hanno risposto a domande su 6 materie e 38,3% a domande su più di 6 materie.

Materie coinvolte nel colloquio totale 3 MATERIE

10

licei

1%

4

tecnici

1%

5

professionali

2%

1

1%

4 MATERIE

46

6%

17

6%

18

6%

11

6%

5 MATERIE

103

13%

31

10%

42

13%

30

17%

6 MATERIE

334

42%

125

41%

134

43%

75

42%

42%

116

37%

60

34%

PIU' DI 6 MATERIE

306

38%

130

TOTALE

799

100%

307

La maggior parte degli osservatori Doxa ha contato le materie coinvolte nel colloquio avendo come riferimento i diversi commissari che le ponevano (94,6%). In altre parole, ogni commissario veniva individuato come titolare di una materia. In alcuni casi il cambio della materia era annunciato dagli stessi commissari (8,3%) o dallo stesso studente (0,5%). L'impressione che si può trarre da questi dati è che ci sia stata da parte delle commissioni un chiaro tentativo di accertare in modo diffuso la preparazione del candidato, mobilitando tutti i commissari nella conduzione del colloquio con il candidato. Poco possiamo al momento dire,

100% 315 100% 177 100% prima dell'analisi dei protocolli registrati delle conversazioni, circa il livello di integrazione tra le domande poste dai commissari e il tipo di competenze richieste ai candidati. Le impressioni dei rilevatori sul clima instaurato durante i colloqui tra gli studenti e i commissari sono comunque piuttosto positive: 94,4% riferiscono di commissari calmi e tranquilli, 87,4% anche di commissari ben disposti nei confronti dei candidati, 70,5% di commissari attenti alle risposte e 65,5% di commissari che si sono fatti parte attiva durante i colloqui rispondendo all’esigenza di condividere prove orali basate sulla pluridisciplinarità.

La commissione era ben disposta nei confronti dei candidati totale

licei

tecnici

professionali

CALMI, TRANQUILLI

754 94%

288

94%

297 94%

169

95%

BEN DISPOSTI

698 87%

264

86%

273 87%

161

91%

ATTENTI ALLE RISPOSTE

563 70%

224

73%

207 66%

132

75%

PARTE ATTIVA NEL COLLOQUIO

523 65%

221

72%

185 59%

117

66%

Totale

799 100% 307

100% 315 100% 177

100%


Nel complesso, l’impressione è stata di commissari che hanno messo a proprio agio i candidati comprendendone le difficoltà emotive spesso legate a preparazioni carenti (91,9%). Nella conduzione dei colloqui la maggior parte dei commissari (96,4%) ha fatto riferimento a testi o documenti da commentare (55,4%). L’utilizzo di testi e documenti da commentare suggerito anche dall’ordinanza è risultato particolarmente diffuso presso i licei e gli istituti d’arte. La maggior parte dei commissari non ha fatto apprezzamenti sulle opinioni espresse dai candidati nel corso dei colloqui (73,7%), anche se in 4 casi su 10 (39,8%) vi sono stati scambi di opinioni fra candidati e commissari.

I candidati L’immagine degli studenti fornita dai rilevatori è fortemente segnata dal problema della sicurezza con cui affrontavano la prova: 5 studenti su 10 (53,5%) si sono presentati all’esame sereni e tranquilli ma i restanti o non lo erano affatto (13,1%) o avevano un atteggiamento incerto (33,4%); ancora 5 studenti su 10 (49,8%) si sono dimostrati disinvolti e sicuri (hanno parlato con sicurezza) mentre gli altri hanno mostrato momenti di incertezza; 4 studenti su 10 sono stati giudicati molto preparati (hanno cioè risposto a tutte le domande loro rivolte con sicurezza) (39,3%) mentre, viceversa, 6 su 10 hanno incontrato difficoltà.

Valori leggermente più elevati si sono rilevati per gli esaminati dei licei e degli istituti d’arte. Sicurezza del candidato totale

licei

tecnici

professionali

SERENO, TRANQUILLO

427

53%

176

57%

161

51%

90

51%

DISINVOLTO, SICURO DI SE'

398

50%

172

56%

146

46%

80

45%

MOLTO PREPARATO

314

39%

148

48%

107

34%

59

33%

TOTALE

799

100%

307

100%

315

100%

177

100%

Le incertezze dei candidati sono emerse secondo le modalità riportate nella seguente tabella.

arrossire

12,8%

sudare in modo vistoso, eccessivo

Gli studenti dei licei classici e scientifici si sono rilevati i più sicuri e preparati mentre quelli degli istituti tecnici commerciali e degli istituti professionali sono stati più incerti

fare lunghe rispondere

.

pause

prima

5,3% di

14,8%

fare molte pause durante le risposte

13,6%

parlare in modo poco fluente

16,1%


il candidato si sentiva a proprio agio?

il candidato appariva preparato?

100%

90%

80%

70%

60%

50%

40%

30%

20%

10%

0% totale

licei

tecnici

professionali

SI'

L’impressione di essere preparati su tutte le materie sono riusciti a darla 4 studenti su 10 (37,4%), mentre per i restanti 6 (62,6%) sono risultate evidenti alcune incertezze su alcune materie. Considerando il campione complessivo degli studenti osservati, le incertezze maggiori si sono rilevate per le seguenti materie: materie in cui emergono maggiormente le incertezze matematica / geometria

18,9%

italiano

18,4%

storia

12,0%

inglese

6,1%

fisica

6,0%

diritto

6,0%

filosofia

5,6%

letteratura italiana

4,3%

totale

licei

tecnici

professionali

NO

corsi universitari previsti giurisprudenza

13,7%

economia e commercio

11,4%

psicologia

7,6%

informatica

5,3%

lettere moderne

4,6%

medicina

4,6%

Il campione osservato Gli studenti osservati durante il colloquio sono risultati metà maschi e metà femmine (48,8% e 51,2%). Mediamente le classi degli esaminandi erano formate da 20 studenti: nel 13% dei casi le classi erano composte da non più di 15 studenti, nel 31% le classi avevano fra 16 e 20 studenti, nel 29% avevano fra 21 e 25 studenti e 15% avevano oltre 25 studenti. In 12% la numerosità non è stata indicata.

In quasi 3 casi su 10 (27,5%) al termine del colloquio i commissari hanno affrontato con gli esaminandi anche il tema della scelta universitaria. Con i candidati dei licei, questa percentuale è risultata leggermente superiore: 34,3% con gli esaminandi del liceo scientifico e 43,9% con gli esaminandi del liceo classico. (Dom. 27)

Il voto medio di ammissione alla prova orale è risultato 38. A questo proposito ricordiamo che 18% non aveva superato il punteggio di 30 e 13% aveva invece ottenuto più di 50.

In un caso su 2 (59,5%), gli studenti hanno anche dichiarato di aver già deciso la facoltà a cui iscriversi. Fra queste le facoltà preferite sono risultate:

Citiamo il testo delle conclusioni del rapporto Doxa assunto qui come un punto di vista indipendente, esterno alla scuola e alle sue problematiche specifiche.

Conclusioni della DOXA


Innanzitutto l’ambiente: gli esami si sono svolti in aule poco affollate, prevalentemente grandi e relativamente accoglienti ma con pochi strumenti didattici a disposizione degli studenti. Insegnanti e allievi non sono risultati avvezzi al loro uso non avendoli a disposizione nel quotidiano. Fa specie la bassissima presenza di computer nelle scuole, quando altre indagini mostrano la crescita continua della presenza di computer nelle abitazioni delle famiglie italiane. I commissari: si tratta di insegnanti che hanno prevalentemente cercato di mettere a loro agio i candidati, consci della difficoltà emotiva che essi stavano affrontando. Poche sono risultate le citazioni riguardanti commissari incuranti dello stato emotivo degli esaminandi. Sostegni ed incoraggiamenti sono stati anche rilevati durante le prove orali per quanto riguardava la preparazione vera e propria. La tendenza dei commissari è stata quella di presenziare e partecipare attivamente ai colloqui con gli studenti anche se si sono rilevati casi di distrazione o di parcellizzazione della prova orale. Gli studenti: come sempre i più preparati emergono e i non preparati soccombono alla loro mancanza di studio o alla loro fragilità emotiva. Dalle osservazioni rilevate nel corso della ricerca gli studenti hanno qualche pecca in più rispetto ai commissari. Solo il confronto del numero dei promossi e delle votazioni, per quanto possibile, con quelle degli anni precedenti potrà dire se gli studenti di quest’anno erano più o meno preparati.

Certo è che i voti di accesso alle prove orali non erano molto elevati e difficilmente risulterà alto il numero di coloro i quali hanno ottenuto il massimo dei voti. Non affrontiamo in questo ambito la questione posta in chiusura dal commento della Doxa. Altri rapporti e risultanze diffuse dell'Osservatorio affrontano la questione degli esiti ed in particolare il ruolo giocato dalla prova orale rispetto alle altre prove di esame. Ci preme sottolineare qui che l'immagine che si ricava da questi dati è sicuramente migliore di alcuni pregiudizi e di alcuni luoghi comuni diffusi prima e dopo gli esami proprio sul colloquio ma sottolineano la presenza di un significativo numero di casi in cui permangono problemi di qualità complessiva dell'ambiente fisico, del clima dei rapporti, dell'atteggiamento dei commissari e dei candidati ed infine della preparazione così evidentemente lacunosa di alcuni candidati. Si tratta di un complesso di evidenze contrastanti che al di la delle percentuali un po' fredde delle tabelle di questo contributo prendono corpo, colore e vivezza nelle osservazioni libere raccolte dagli osservatori. Da questo spaccato vivo e contraddittorio, ricco di potenzialità ma anche di problemi e di manchevolezze nasce l'idea di una riflessione sullo stile degli esami e della scuola come un prodotto di un monitoraggio che restituisce al sistema non solo le informazioni che ha raccolto ma anche strumenti interpretativi dei risultati e strumenti di intervento per il miglioramento.


Allegato 3 L'assegnazione dei punteggi. Una riflessione che prosegue Raimondo Bolletta Premessa Nel progettare il PTP2000 abbiamo, tra le altre cose, messo in conto l’esigenza di dare continuità alle riflessioni che introducevano il PTP1999, anche per rispondere alle …questioni emerse in relazione agli aspetti sui quali ci eravamo soffermati presentando il volume. Sull’assegnazione dei punteggi abbiamo raccolto molti interventi, a volte critici, a volte positivamente schierati su una posizione che molti ci chiedono di diffondere. Ma quando si finisce un lavoro impegnativo ci assale un senso di stanchezza, per cui anche un piccolo passo aggiuntivo ci sembra impossibile, unito all'entusiasmo per aver conquistato un traguardo difficile. La stanchezza ci porterebbe a far generico riferimento a quanto già pubblicato, l’entusiasmo ci porta a lavorarci ancora per chiarire meglio, per arricchire e completare l’intervento dello scorso anno anche sulla base dei risultati del monitoraggio. Ne è nata una riscrittura parziale del contributo dello scorso anno che si spera possa essere una ‘riflessione che prosegue’ e che in parte si allarga dalla terza prova ad altri aspetti degli esami.

L’accertamento, sommare i punteggi Il nuovo esame di stato si caratterizza, tra l’altro, per l'uso diffuso e sistematico nelle varie prove scritte e orali di scale numeriche la cui somma si traduce automaticamente in esito finale. Il legislatore ha introdotto una nuova gamma per il punteggio finale stabilendo la sufficienza in 60 punti e il massimo in 100 e l'ha ripartita in quote diverse sulle varie prove. Le tabelle seguenti mettono in evidenza in quale misura la nuova normativa stimoli i commissari ad una forte revisione delle modalità di assegnazione dei punteggi costringendoli ad operare su scale che hanno una gamma diversa e una soglia di sufficienza che non corrisponde al tradizionale 6. I voti scolastici, che i docenti sono abituati ad assegnare, sono messi in discussione anche dal punteggio del credito scolastico, che consentirebbe di attribuire il massimo solo ai rarissimi casi di studenti che hanno ottenuto una media dei voti compresa tra 8 e 10.

Credito scolastico Media voti

a.s. 1998-1999

a.s. 1999-2000

minimo

massimo

minimo

massimo

M=6

4

6

4

5

6<M<=7

6

8

5

6

7<M<=8

8

10

6

7

8<M<=10

10

12

7

8

Sufficienza

Massimo

Credito scolastico

8

20

Prima prova scritta

10

15

Seconda prova scritta

10

15


Terza prova scritta

10

15

Orale

22

35

Bonus Punteggio finale

5* 60

100

* la concessione del bonus non può far superare 100 La terza prova scritta, proprio per il suo carattere più strutturato, si presta in misura maggiore delle altre ad attivare procedure di valutazione 'oggettive'; su tali procedure i membri della commissione possono convergere più facilmente e trovare un accordo più forte che sulle procedure di valutazione delle altre prove. Anche nel PTP2000 si conferma la scelta di non fissare criteri vincolanti di valutazione delle prove, ma di fornire solo elementi informativi utili alle commissioni, che saranno libere di modificare, adattare e integrare il materiale offerto e di dare degli elaborati degli studenti le letture e le valutazioni che più riterranno opportune. Ciò anche in ossequio allo spirito del nuovo esame, che intende tenere in debito conto il curricolo effettivamente svolto nelle singole classi e conseguentemente i livelli effettivamente raggiunti in rapporto a quelli fissati dal consiglio di classe. Le chiavi di correzione e i criteri di adeguatezza sono stati predisposti con modalità più omogenee rispetto al primo volume e crediamo di aver fornito un corredo informativo sufficiente per operare in modo affidabile, rispettoso dell’autonomia valutativa della commissione. La questione delle soglie di sufficienza, che nei punteggi dell’esame non corrispondono al 6, (6 sta a 10 come 9 sta a 15 ma 9 non è la sufficienza!), ha costretto, già lo scorso anno, ad adottare varie procedura per far condividere ai membri della commissione una comune modalità di assegnazione dei punteggi grezzi. La questione non ha riguardato solamente la terza prova, che anzi si prestava più delle altre ad essere trattata con punteggi sommabili, ma soprattutto la prima prova scritta e la prova orale, nelle quali tradizionalmente si procede con un approccio globale, difficilmente descrivibile con una procedura standard che non dipenda dall’intuizione e dal giudizio del correttore. Molte commissioni hanno affrontato questa difficoltà mediante l’adozione di griglie di valutazione convenute a priori che consentivano di apprezzare la prova, scritta o orale, del candidato, attraverso una pluralità di aspetti analitici. Per ciascuno di tali aspetti venivano quindi formulati dei descrittori, che ne rendevano operativa l'identificazione, e dei livelli soglia dei punteggi analitici, degli indicatori della prestazione, che consentivano un'assegnazione del punteggio pressoché automatica da parte della commissione. Una ricca casistica di tali griglie di valutazione per la terza prova è presente nell’Archivio delle Terze Prove, ATP2000, già distribuito su CD-rom alle scuole secondarie superiori. L’uso delle griglie costituisce certamente un valido approccio al problema dell’assegnazione dei punteggi, ma non è immune da rischi evidenti: i descrittori potrebbero non essere sufficientemente chiari ed operativi, per cui potrebbe esserci anche una forte divergenza di opinioni tra commissari diversi che valutano la stessa prestazione; se i descrittori sono troppo generici e globali potrebbero in realtà correlare troppo con il medesimo aspetto della prestazione del candidato, per cui si assegnano ripetutamente punteggi parziali allo stesso aspetto, i pesi assegnati, sotto forma di punteggi parziali con gamme diverse a seconda dell’importanza dell’aspetto valutato costituiscono già un forte presupposto per orientare l’esito finale in relazione a un criterio a priori dei commissari. In sostanza anche le griglie potrebbero prestarsi a una certa confusione tra il momento dell’accertamento, o della misura, e quello della valutazione e dell’applicazione di un criterio, che costituisce uno dei rischi di una procedura d’esame che vorrebbe essere, nelle intenzioni del legislatore, più oggettiva e più giusta. Questo problema è apparso più evidente in una strategia, suggerita come una scorciatoia per semplificare la questione dell’assegnazione dei punteggi: valutare la singola prova con un livello qualitativo già utilizzato nei giudizi dei vecchi esami di maturità, livelli sui quali i commissari avevano maggiore dimestichezza, e convenire nella commissione una corrispondenza tra tali livelli e bande di punteggi. In questo modo un aggettivo come buono o discreto , che non fa parte del lessico formale del nuovo esame, si trasformava in un


punteggio numerico. Questa procedura, anche se facilmente attuabile, stravolge e ribalta il senso dell’uso dei punteggi come momento di accertamento ‘oggettivo’ rispetto a quello eminentemente valutativo. Le difficoltà sin qui segnalate emergono chiaramente in alcuni risultati del monitoraggio degli esiti. L’adozione di bande di oscillazione rigide, per discretizzare su pochi livelli una scala che può assumere una estesa gamma di valori, può determinare degli ‘aggiustamenti’ che nelle fase di accertamento non sono opportuni. Ad esempio la distribuzione del grafico n.1 mostra come l’esistenza delle bande di oscillazione rigida, entro cui i consigli di classe possono assegnare eventualmente qualche punto aggiuntivo, ha indotto nel primo anno di attuazione degli esami degli aggiustamenti nei voti del secondo quadrimestre. E’ evidente dalla figura che le medie vicine al valore soglia per accedere alla banda successiva sono meno frequenti e ciò determina un profilo della distribuzione a denti di sega. Arrotondamenti di pochi decimi per raggiungere la banda successiva nei casi meritevoli non sono un grave problema, ma possono indurre la sensazione che si abbia a che fare con dati inaffidabili, modificabili a piacimento, in relazione alle varie convenienze. Distribuzione delle medie dei voti. Campione nazionale di 7563 casi 400

350

300

250

200

150

100

50

9,9

9,7

9,5

9,3

9,1

8,9

8,7

8,5

8,3

8,1

7,9

7,7

7,5

7,3

7,1

6,9

6,7

6,5

6,3

6,1

5,9

5,7

5,5

5,3

5,1

4,9

4,7

4,5

4,3

<4

4,1

0

Grafico1 Distribuzione della media dei voti scolastici assegnati Forse uno stesso meccanismo di aggiustamento verso la sufficienza è intervenuto nella valutazione della prima prova scritta, in cui il valore modale in 10 fa pensare che l’indisponibilità di griglie affidabili e di procedure di assegnazione del punteggio di tipo ‘globale’ abbiano consentito di dichiarare accettabili degli esiti probabilmente non tali per gli esaminatori.


Andamenti delle tre prove scritte 80000

70000

60000

50000

40000

30000

20000

10000

0 1

2

3

4

5 prima prova

6

7

8

9

seconda prova

10

11

12

13

14

15

terza prova

Grafico 2 i tre grafici delle tre prove Nonostante ciò la distribuzione della somma dei punteggi delle prove scritte e del credito scolastico ha un andamento ‘regolare’ più simile a quello vero, a quello che necessariamente dovrebbe essere, data la numerosità della popolazione esaminata e la complessità delle competenze accertate, e cioè una classica distribuzione normale. Non sorprende affatto che sommando quattro misure, seppure affette singolarmente di errori ed aggiustamenti, si ottenga una nuova misura che complessivamente appare più affidabile e regolare; ciò corrisponde a quanto si fa nelle scienze sperimentali, in cui per ridurre gli errori di misura si ripetono le misure. Una condizione perché ciò avvenga è però che le misure siano tra loro indipendenti, che cioè gli errori in una misura non influenzino quelli delle altre; in altri termini se in una prova un candidato è stato casualmente (o intenzionalmente) favorito o sfavorito ciò non deve ripetersi nello stesso senso nelle altre prove, in cui invece gli errori di misura dovranno continuare ad essere casuali.


Distribuzione dei punteggi alla fine delle prove scritte 18000

16000

14000

12000

10000

8000

6000

4000

2000

64

62

60

58

56

54

52

50

48

46

44

42

40

38

36

34

32

30

28

26

24

22

20

18

16

14

12

10

8

6

0

Fig.3 Distribuzione del punteggio alla fine delle prove scritte La distribuzione del punteggio finale denota viceversa un cambiamento radicale introdotto evidentemente dal punteggio assegnato nella prova orale. Ritorna il picco in corrispondenza al sessanta, cioè alla soglia minima per poter passare l'esame e sul punteggio massimo. Non possiamo qui affrontare nel merito la questione spinosa di un così alto addensamento di casi sulla soglia di accettabilità ma ci limitiamo a segnalare una questione puramente tecnica: la non indipendenza dell'ultima 'misura' rispetto alle precedenti. L'esito dell'orale è condizionato dagli esiti degli scritti e la ricca gamma di punti disponibili per tale prova serve a compensare o a integrare il resto delle prove per ottenere un punteggio finale che sostanzialmente è il risultato di un giudizio globale e non la somma di misure indipendenti.


10

97

94

91

88

85

82

79

76

73

70

67

64

61

58

55

52

49

46

43

40

37

34

31

28

25

22

19

16

11

Distribuzione del voto finale

Assegnazione dei punteggi-voto In realtà, ciò che con una voluta ambiguità abbiamo genericamente sinora chiamato punteggi, punteggi grezzi, voti, sono delle scale che dovrebbero scaturire da una misura, ma che devono essere ‘votate’ dalla commissione, sono punteggi votati, punteggi-voto. Il nostro tentativo qui è di enfatizzare ulteriormente la distinzione dei queste due fasi (l’accertamento e la valutazione) e riflettere sulla gestione del passaggio dalla prima alla seconda fase, dal punteggio grezzo al punteggio voto. Come è noto, quest’anno la norma consente di costruire terze prove con non più di 30 quesiti. Ciò consente, anzi ciò induce, l’uso di punteggi grezzi, cioè di punteggi non ancora votati e pubblicati come esiti, con una gamma più estesa dei 15 punti assegnabili. La commissione può così tenere più chiara la distinzione tra il momento della raccolta dei dati (ovvero della 'misura' dei livelli di conoscenza o di competenza dei candidati) da quello della formulazione del giudizio cioè dell'interpretazione del significato del dato raccolto rispetto ad un criterio di valore, a priori o a posteriori. La stessa questione si pone, forse in termini più complicati e difficili, anche per le altre prove scritte, in cui nella fase di correzione della prova, se non si dispone di griglie di correzione condivise dalla commissione, si potrebbe comunque prescindere dall'uso della scala in quindicesimi per costruire piuttosto un ordinamento delle prove per livelli di qualità, identificando degli insiemi di prove più o meno equivalenti cui assegnare a posteriori i punteggi in quindicesimi. Se si dispone invece di griglie di correzione è consigliabile costruire una scala disancorata dai quindicesimi. Abbiamo potuto constatare che molte commissioni hanno penato molto a distribuire frazioni di punto alle molteplici dimensioni individuate: non solo è più semplice e pratico ragionare con punteggi complessivi con dinamiche più ampie ma è anche più corretto. Siamo certi a priori che sommando le varie sufficienze individuate in ciascun aspetto rilevato si ottenga il fatidico 10 da assegnare alla sufficienza complessiva? Chi ha provato a far ciò, ad esempio con una griglia di valutazione di una prova di italiano si sarà trovato in qualche imbarazzo a giustificare le sue scelte e a gestire a posteriori i risultati, a meno che non abbia preventivamente validato lo strumento sul campo. Ma torniamo a ragionare sulla terza prova, usandola però come una metafora delle altre nella misura in cui si sia riusciti a valutarli in modo analitico.


Criteri di valutazione a priori Se abbiamo deciso di lavorare con un punteggio grezzo diverso dalla scala in quindicesimi nella fase di assegnazione del punteggio votato dovremo operare una traduzione. Quale punteggio grezzo corrisponde al punteggio soglia della sufficienza? E' evidente che tale valore soglia dipende della difficoltà dei quesiti posti: se questi fossero molto difficili, anche i candidati più bravi otterrebbero un punteggio basso, così come sarebbe possibile assegnare punteggi alti se le domande poste fossero molto facili. La commissione, nella misura in cui riassume una consolidata esperienza didattica, potrebbe essere in grado di apprezzare preventivamente la difficoltà dei quesiti e, quindi, potrebbe prevedere quale soglia dei punteggi dovrebbe essere raggiunta da coloro che hanno una preparazione sufficiente. La commissione potrebbe cioè stabilire a priori il livello di punteggiogrezzo atteso che corrisponda alla sufficienza e stabilire quindi a priori le fasce di punteggi-grezzi comprese nei punteggi-voto assegnati nella prova. Per le prove ministeriali l’identificazione di tali livelli soglia sarebbero auspicabili ma, onestamente, occorre ammettere che per prove complesse la cosa non è affatto facile e rischia anche di essere poco affidabile. Questa procedura, che fissa il criterio a priori, suppone una forte omogeneità tra i membri della commissione sia nelle esperienze didattiche effettuate, sia nei criteri di valore cui ciascuno fa implicitamente riferimento. E' un assunto forte se si considera che la commissione proviene da istituti scolastici diversi, che la parte esterna non conosce già la classe e che ogni commissario rappresenta una disciplina diversa. Un aiuto forte potrebbe venire dal documento del consiglio di classe che dovrebbe fornire elementi operativi per individuare i livelli di sufficienza perseguiti dalla classe. Criteri a posteriori Un'altra modalità di trasformazione da punteggi-grezzi a punteggi-voto si basa sui risultati accertati e possiamo definirla a posteriori. Se non vi è un affidabile accordo sulla distribuzione dei punteggi-grezzi attesi, si può attendere di conoscere la distribuzione effettivamente ottenuta dalla classe esaminata e ricavarne empiricamente i valori soglia per stabilire le corrispondenze tra le due scale, quella dei punteggi grezzi e quella dei punteggi-voto. La commissione potrà decidere il punteggio grezzo che corrisponde alla sufficienza (10) e stabilire, sempre che sia stato effettivamente riscontrato, quale punteggio-grezzo corrisponde al massimo (15) assegnando in conseguenza i voti intermedi. Nel programma elettronico denominato Conchiglia 2000, distribuito dall'Osservatorio ad uso delle commissioni, è disponibile anche quest’anno una funzione che permette di eseguire rapidamente proprio questo tipo di conversioni. Non si tratta dell’unica procedura automatica utilizzabile per questa conversione dei dati. Molte altre sono possibili e sono state variamente suggerite nelle reti dell'aggiornamento. Le possiamo classificare però in due famiglie: le procedure che determinano automaticamente i livelli soglia in base alle caratteristiche della distribuzione, le procedure che consentono la conversione tra le due scale utilizzando i livelli soglia come valori in ingresso, decisi dalla commissione. La procedura di Conchiglia è del secondo tipo poiché parte da una decisione (a priori o a posteriori, è indifferente) adottata dalla commissione ed effettua solamente dei calcoli in modo strumentale. Le procedure previste per l'assegnazione dei punteggi-voto, cioè le 'votazioni' che coinvolgono tutta la commissione, sono perfettamente compatibili con questi ragionamenti che, se ben gestiti, potrebbero condurre la commissione a formulare proposte di punteggio-voto uniche e pervenire quindi a determinazioni all'unanimità, almeno sulla terza prova scritta. Non solo Conchiglia ma anche un comune foglio elettronico consente di effettuare semplici, o più complesse, elaborazioni dei dati grezzi ad uso di una votazione più consapevole e documentata.

Assegnazione dei punteggi-grezzi Torniamo ora al problema fondamentale, alla fase della costruzione della terza prova, ed esaminiamo il caso di prove costruite secondo il modello proposto dal Cede con uno o più testi di riferimento o quelle cosiddette miste. In questo caso tutte le forme previste dalla legge per i quesiti sono consentite e occorre


decidere una opportuna distribuzione di punteggi da assegnare alle diverse domande che potranno essere di vario tipo per formato, complessità e difficoltà. Con quali criteri possiamo decidere di assegnare pesi diversi alle varie domande? Possiamo procedere in diversi modi: spesso si fa riferimento al livello di difficoltà. Si pensa che sia giusto riconoscere più punti alle domande che ci sembrano più difficili rispetto alle altre. In effetti questo criterio potrebbe non essere opportuno o necessario poiché quei pochi candidati che sanno rispondere a domande molto più difficili delle altre sanno rispondere anche alle domande più facili e quindi si troveranno comunque positivamente discriminati dalla prova complessiva; possiamo differenziare i punteggi in base al tempo richiesto per rispondere ovvero alla complessità della prestazione implicata dalla domanda. Sembra ovvio che una domanda aperta, che chiede la redazione di cinque o dieci righe di testo, debba avere un punteggio maggiore di quello di una domanda chiusa in cui si tratta di scegliere una risposta già formulata. Questo criterio può non concordare con il precedente poiché un quesito chiuso può essere molto più difficile di una domanda aperta, ma il tempo richiesto al candidato da un quesito chiuso è certamente minore di quello richiesto da una domanda aperta; altri esaminatori potrebbero invece tener conto della complessità delle prestazioni accertate rispetto ad una qualche tassonomia di riferimento. Si dà peso alla gerarchia che pone più in basso il semplice ricordo di fatti singoli e di conoscenze slegate e più in alto l'applicazione alla soluzione di problemi o la formulazione di giudizi, ciò anche in considerazione del fatto che i livelli più alti e complessi implicano il possesso dei livelli più bassi. Anche questo criterio può essere meno ovvio di come appare, poiché i processi utilizzati per rispondere al nostro quesito possono essere di natura diversa a seconda della preparazione del candidato, per alcuni solo una risposta mnemonica e per altri un complesso ragionamento che tiene conto di tanti fatti diversi; un altro criterio può riferirsi invece alla gerarchia degli obiettivi fissati dal curricolo svolto. Dalla documentazione del consiglio di classe dovrebbe apparire il diverso grado di importanza delle varie conoscenze e competenze perseguite durante il corso. Se nel formulare i quesiti della terza prova saremo in grado di dire quali aspetti di tale profilo sono saggiati, potremo anche premiare con pesi diversi le prestazioni che hanno più importanza nel progetto educativo di quel consiglio di classe; la stessa domanda potrebbe avere quindi pesi diversi se proposta a indirizzi di studio diversi; si può ragionare come nel punto 4, ma facendo riferimento al curricolo formale e al profilo del candidato teoricamente atteso dalla commissione. Questa elencazione di possibilità, probabilmente non esaustiva, sottolinea la difficoltà del compito della commissione: in pratica il criterio effettivo sarà un miscuglio dei cinque illustrati con una chiara accentuazione dell'importanza del quarto criterio che centra l'attenzione sul progetto educativo realizzato nella classe esaminata. In particolare il bilanciamento tra il quarto e il quinto potrebbero impegnare molto la commissione, che deve conciliare due esigenze apparentemente opposte: tener conto del curricolo effettivo della classe riferendo le valutazioni agli obiettivi fissati nell'istituto, e contemporaneamente assegnare un punteggio finale spendibile in un vasto mercato del lavoro, in cui sarebbe giusta una certa confrontabilità degli esiti.

Elementi di adeguatezza Se il punteggio assegnato ad un singolo quesito ha una gamma sufficientemente vasta, ad esempio cinque punti, sarà possibile attribuire tutti i valori della scala, e non solo lo 0 o il 5, per cui sarà opportuno concordare preventivamente la modalità di attribuzione dei singoli punteggi. In questo volume si fa spesso riferimento agli elementi di adeguatezza: con il termine adeguatezza si è evitato di evocare il termine sufficienza, che si riteneva non dovesse essere veicolato dal volume, e che assumerebbe un valore puntuale di soglia rigida traducibile in un valore dicotomico 0/1. Il termine suggerisce piuttosto una graduazione, determinata proprio dalla presenza di un insieme di elementi che si possono contare. Se ad esempio nella formulazione di una domanda aperta si chiedono le ragioni dell'entrata in guerra della nazione x nell'anno y e la storiografia corrente ne elenca 5, potremo giudicare il grado di adeguatezza attraverso il numero delle ragioni corrette addotte dal candidato e assegnare così l'intera gamma dei punteggi previsti. La questione è molto meno


banale di quanto possa sembrare da questo esempio ed implica la capacità di prevedere le varie tipologie di risposta alla domanda: l'ideale sarebbe riuscire ad identificare in modo chiaro tutti gli elementi che concorrono all'adeguatezza della risposta e per ciascuno di essi la qualità attesa. Qualsiasi membro della commissione o qualsiasi altro docente della stessa materia dovrebbe poter procedere all'assegnazione dei punteggi-grezzi in modo affidabile; cioè in modo tale che due correttori indipendenti diano allo stesso elaborato lo stesso punteggio. Tale identificazione potrebbe essere realizzata elencando gli elementi informativi attesi, come nell'esempio precedente, o descrivendo operativamente gli aspetti che concorrono a definire la qualità della risposta (ad esempio in una risposta resa in lingua 2, il candidato potrebbe dare una risposta errata nel merito ma impeccabile dal punto di vista linguistico, per cui sarà bene distinguere questi due aspetti) o infine redigendo preventivamente delle tipologie di risposta che potranno essere usate nella correzione come criterio ovvero come esempi di riferimento per identificare i livelli di adeguatezza della risposta.

Oggettività e soggettività Le considerazioni sin qui sviluppate ripropongono più in generale la difficile questione del rapporto tra accertamento e valutazione. Riproponiamo alcune riflessioni generali di metodo già illustrate nel primo volume, ma la cui importanza è per noi centrale. La terza prova è nata, nelle prime proposte di molti anni fa, come una prova oggettiva che doveva essere diffusa dal Ministero per rendere confrontabili gli esiti della vecchia maturità. La proposta nasceva alla fine degli anni '80 da evidenze sperimentali che mostravano una bassissima correlazione tra i voti della vecchia maturità e gli esiti di prove oggettive di profitto somministrate su campioni rappresentativi a livello nazionale. Pur essendo diventata una prova del tutto 'locale', la terza prova mantiene caratteristiche tali da prestarsi meglio delle altre ad una lettura 'oggettiva' dei risultati. Per come è concepita, la terza prova promette di essere più valida delle prime due, in quanto la commissione può e deve adattarla al curricolo effettivo della classe e quindi può scegliere quesiti più validi cioè più capaci di misurare quello che gli esaminatori vorrebbero misurare. Questa caratteristica della terza prova è già emersa nel primo anno di attuazione dei nuovi esami, come emerge dal grafico seguente, in cui come è stato osservato nel volume STP2000, ‘se compariamo i punteggi standardizzati attribuiti in tutte le prove e nel credito scolastico rispetto ai vari ordine di studio, notiamo che le due prove scritte, la seconda e la terza hanno un andamento sostanzialmente indipendente dal tipo di scuola. Queste prove infatti misurano la competenza rispetto alle finalità proprie dell’indirizzo e sono capaci di far emergere prestazioni specifiche anche eccellenti in tutti gli indirizzi'.


Medie punteggi standardizzati rispetto ai tipi di scuole 0,4

0,3

0,2

0,1

0

-0,1

-0,2

-0,3

-0,4

Sperimentale

credito scolastico

Licei

prima prova

Professionali

seconda prova

terza prova

Tecnici

colloquio

votofinale

Figura 5 Medie punteggi standardizzati rispetto ai tipi di scuole A regime, la terza prova promette anche di essere più attendibile: infatti, con un adeguato numero di quesiti, è possibile costruire scale abbastanza estese, in grado di effettuare una buona discriminazione tra i candidati. Come è noto, l'attendibilità o affidabilità di una prova consiste nella sua capacità di misurare una certa prestazione con adeguata precisione, cioè con un errore di misura non troppo grande. Come esaminatori dobbiamo sempre ricordare che in qualsiasi misura il valore trovato è la somma del valore vero e di un errore, cioè di un valore di disturbo casuale e quindi ineliminabile. Ciò anche in fisica! Nell'ambito degli apprendimenti non potremmo parlare in senso stretto di misura in quanto non disponiamo di unità campione e di uno zero: le misure che otteniamo sono solo scale numeriche che al più consentono di stabilire graduatorie, ordinamenti tanto più attendibili quanto meno affetti da errori di misura. L'attendibilità di una prova dipende dal numero dei quesiti (aumenta con l'aumentare dei quesiti come se ripetessimo le misure) e dalla sua omogeneità (se il punteggio complessivo somma le misure di aspetti troppo eterogenei e incoerenti, l'errore di misura rimane alto). L'omogeneità interna della prova è una caratteristica che dipende direttamente dal lavoro preparatorio del consiglio di classe e dalla qualità della documentazione fornita alla commissione e infine dal lavoro della commissione. Nonostante sia necessario saggiare competenze afferenti a più discipline, occorrerebbe scegliere quesiti che si riferiscano a competenze trasversali, sufficientemente integrate tra loro nella preparazione dei candidati. In questo caso l'integrazione tra le discipline non va tanto ricercata a livello epistemologico tra le discipline quanto all'interno del lavoro didattico realmente sviluppato nelle classi per vedere se e in che misura tale lavoro ha prodotto prestazioni coerentemente integrate. La facile soluzione di assegnare solo delle domande aperte lasciate alla scelta indipendente di quattro commissari si può rivelare debole anche dal punto di vista metrologico, in quanto tale formato fornisce misure scarsamente attendibili se non si dispone di griglie realmente affidabili mentre il formato misto o quello proposto in questo volume consentono, se realmente coerenti con l'attività svolta nella classe esaminata, di migliorare l'attendibilità stessa della prova. Inoltre, potendo inserire domande di diverso formato, è possibile, come abbiamo suggerito nelle riflessioni iniziali, utilizzare delle scale con una gamma di valori abbastanza estesa e selettiva. E' infine utile ricordare che l'oggettività cui si fa qui riferimento non equivale all'esattezza delle misure, ma all'indipendenza del valore del punteggio-grezzo dal correttore della prova. Il punteggio-grezzo dovrebbe dipendere solo dal livello di preparazione del candidato e dovrebbe essere inteso come una stima, la più precisa possibile, del livello di competenza vero. Effettuata la misura, l'accertamento oggettivo, il punteggio


grezzo va interpretato e valutato e, in questa fase, le norme prevedono che la responsabilità sia collegiale e che si esprima mediante una votazione. Questa è la fase soggettiva, in cui però la soggettività non equivale ad arbitrarietà o incoerenza, ma piuttosto a responsabilità dei soggetti che giudicano in base a criteri, eventualmente diversi. Le norme prevedono che possano esistere divergenze di valutazione da parte dei commissari, per cui la stessa prestazione accertata e quantificata dal punteggio-grezzo potrebbe essere tradotta in punteggi-voto diversi. Ma proprio il lavoro sulla costruzione della terza prova potrebbe consentire alla commissione di convergere anche sui criteri per la valutazione ed evitare inopportune spaccature in sede di votazioni sulle singole prove.

Allegato 4 Nota sulla conversione dei punteggi in Conchiglia Raimondo Bolletta Il programma Conchiglia prevede una funzionalità che consente di convertire qualsiasi scala numerica nella scala in quindicesimi utilizzata per valutare le prove scritte dell'esame di stato. Sulla opportunità di distinguere la fase dell'accertamento o della misurazione da quello della valutazione, sulla distinzione tra punteggi grezzi e punteggi-voto, o votati, sui problemi dell'oggettività o soggettività nella valutazione si è riflettuto nei contributi presenti nella parte introduttiva dei volumi PTP1999, PTP2000 e PTP20013 a cui queste considerazioni fanno riferimento. Riprendiamo qui i termini della questione. La normativa prevede che i punteggi assegnati ai candidati siano votati da tutta la commissione. Le votazioni collegiali non sono, diversamente dal vecchio esame, concentrate nella fase finale dell'esame ma si ripetono per ognuna delle prove. Ciò ha sollevato, da parte di alcuni, problemi di competenza: il commissario di matematica può giudicare il tema e viceversa? Un'altra sfida del nuovo esame: criteri e metodi devono essere trasparenti e condivisibili collegialmente dalla commissione senza alcuna pretesa di esclusività o di specialismo. A ben vedere le norme finalizzano l'accertamento su obiettivi, su competenze che attraversano le discipline e per le quali un terreno comune di intesa tra i commissari è assolutamente necessario. Sappiamo però che queste cose sono meno semplici di quanto si possa dire in un articolo o prevedere in una norma. Esiste una dinamica a volte lacerante tra la fase della 'correzione del compito' e quella della valutazione della prestazione. La difficoltà sta nella condivisione del livello soglia per la sufficienza, livello delicato e rischioso perché può decidere delle sorti delle persone che giudichiamo, ma spesso la stessa difficoltà può emergere nello stabilire il livello di eccellenza. Insistiamo nella distinzione tra queste due fasi, accertamento e valutazione prevedendo l'uso di punteggi grezzi da un lato e di punteggi voto o punteggi votati dall'altro. Conchiglia consente di usare entrambi i punteggi e facilita il passaggio dalla prima scala alla seconda. La proposta è di usare per i punteggi grezzi delle scale con una gamma di valori abbastanza vasta, ad esempio non in quindicesimi se stiamo valutando le prove scritte. Ciò per varie ragioni: •

non confondere il punteggio grezzo con il punteggio votato

discriminare maggiormente le varie situazioni osservabili

usare più facilmente griglie di correzione che considerino molteplici e vari aspetti della prova prodotta dal candidato.

Sia nei quesiti a risposta chiusa con 30 o 40 quesiti sia nei saggi complessi, come il tema o qualche tipo di seconda prova, si potranno sommare punti senza preoccuparsi che il totale massimo teorico sia 100 o 10 o 15, cioè scale che siamo implicitamente abituati ad interpretare con dei livelli soglia di sufficienza. Ogni dimensione rilevata nella prova avrà un suo punteggio, possibilmente semplice da assegnare. La somma di 3

R. Bolletta, Riflessioni sull'assegnazione dei punteggi. In Osservatorio Nazionale per gli Esami di Stato, Proposte per le terze prove. Modelli e materiali per la definizione di prove pluridisciplinari. FrancoAngeli, 1999.


tutti i massimi teorici in ogni dimensione sarà il punteggio massimo teorico ottenibile nella prova. Qual è il valore soglia per la sufficienza? Se si dispone di una griglia di valutazione già validata in precedenza, tale valore soglia potrebbe essere già stato fissato; se si dispone di una prova classica, sulla cui correzione la commissione vanta una vasta esperienza, è possibile convenire una prestazione soglia a priori, ma, come spesso accade, se tutto ciò non è vero occorre procedere con un approccio a posteriori, cioè attendere di conoscere la distribuzione dei punteggi effettivamente osservati per poter decidere quali siano i punteggi di riferimento. In entrambi i casi, sia nell'approccio a priori sia in quello a posteriori la procedura informatica presente in Conchiglia consente di effettuare i calcoli. Attenzione! la procedura esegue solo i calcoli e non si può sostituire, né tenta di farlo, alla responsabilità della commissione che deve decidere i livelli soglia. Effettuate le conversioni, il programma fornisce delle proposte da votare e sta alla commissione assegnare il punteggio voto ai singoli candidati. Abbiamo ricevuto molti messaggi da parte di colleghi che, riflettendo sulla formula della conversione da punteggio grezzo a punteggio-voto, usata da Conchiglia, hanno chiesto chiarimenti e obiettato alcune apparenti incongruenze dell'algoritmo. La procedura consente di avere un ambiente di lavoro, usabile solo per una prova scritta alla volta, in cui vengono registrati i punteggi grezzi assegnati, e il punteggio massimo conseguibile. Man a mano che vengono assegnati i punteggi grezzi, nella schermata appaiono il punteggio minimo e il punteggio massimo effettivamente conseguiti. Assegnati tutti i punteggi grezzi sarà possibile inserire i valori soglia che corrispondono alla sufficienza e al massimo. Tale operazione sarà fatta sulla base di una decisione presa prima della correzione delle prove, e siamo nel caso dell'uso di criteri a priori, oppure sulla base di un esame dei punteggi grezzi effettivamente assegnati, criteri a posteriori. Cliccando sul pulsante calcola il programma completa la colonna Proposta di voto che contiene punteggi in quindicesimi, ovviamente espressi come valori decimali. E' possibile esaminare rapidamente la situazione verificando quanti rientrano nella fascia dei voti sufficienti e quanti invece rimangono al di sotto. Nelle analisi dei dati, se si procede con un criterio a posteriori, la possibilità di modificare i valori soglia ed ottenere rapidamente le conversioni consente di ragionare sui casi concreti riesaminando direttamente le prove di coloro che si trovano al rischioso confine della sufficienza. Ma se si decide di abbassare la soglia della sufficienza automaticamente tutti i punteggi vengono ricalcolati: non solo quei pochi che, sulla soglia della sufficienza hanno un 'aiuto', ma anche tutti gli altri per i quali vengono rispettate le distanze reciproche. Stesso discorso vale nel caso in cui la soglia viene innalzata, in cui tutti i singoli voti vengono nuovamente 'aggiustati'. La funzione che lega il punteggio grezzo ai voti in quindicesimi nel programma Conchiglia si basa sulla formula: ((a – b) / (c – b) / 5) + 10

in cui a è il punteggio grezzo assegnato al candidato, b è il punteggio grezzo a cui si assegna il valore di sufficienza, soglia della sufficienza c è il punteggio grezzo a cui si assegna il valore di massimo. La formula ipotizza l'esistenza di una proporzionalità tra le due distribuzioni all'interno dell'intervallo che comprende i voti che superano la sufficienza La relazione si può rappresentare geometricamente come appare nella figura 1. In questo caso il punteggio grezzo è rappresentato sull'asse delle y mentre il punteggio in quindicesimi è rappresentato sull'asse delle ascisse. Il punteggio massimo conseguibile nel nostro esempio è 80 ma, forse, tale punteggio non è stato conseguito da nessuno e la commissione ha deciso di assegnare a posteriori il voto massimo 15 al punteggio grezzo 75 mentre la soglia della sufficienza è stata stabilita a 35 punti. La retta che unisce i punti di coordinate (10, 35) e (15, 75) stabilisce la corrispondenza tra le due scale nel modo indicato dalla freccia tratteggiata che mostra la corrispondenza tra due punteggi.


La relazione non funziona più per valori molto piccoli: in quanto, ad esempio, 0 ottantesimi corrisponderebbe a 5,6 quindicesimi, ma occorre dire che se il gruppo è sufficientemente omogeneo e la prova è ben calibrata, la maggior parte dei punteggi risulta concentrata in un intervallo non troppo esteso e per quell'intervallo l'assunzione di una relazione lineare può essere una buona approssimazione che ha il vantaggio di essere facilmente calcolabile. Ricordiamo che questo non è il solo modo di effettuare la conversione dei punteggi e ha quei difetti matematici evidenziati nei casi troppo distanti del grosso della distribuzione. Ma la procedura ha il vantaggio di lasciare totalmente in mano alla commissione la responsabilità dell'uso dei criteri: solo dopo aver deciso i livelli soglia la procedura propone dei valori in quindicesimi che la commissione dovrà tradurre in valori interi votando. Citiamo per completezza altre tre procedure possibili, realizzabili facilmente con dei fogli elettronici: 1.

l'uso di una spezzata che prevede due formule leggermente diverse a seconda che si sia sopra o sotto la sufficienza 10 (v.fig. 2),

2.

usare una relazione non lineare come ad esempio una parabola o un'altra funzione che passi per (0, 0) (10, 35) e (15, 75) (v. fig.3)

3.

e infine sfruttare la forma della distribuzione dei punteggi grezzi facendo riferimento ai valori medi e agli scarti tra i punteggi (v. fig. 4).


Figura1 80 75 70 65 60 55 50 45 40 35 30 25 20 15 10 5 0 0

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

Figura 2 80 75 70 65 60 55 50 45 40 35 30 25 20 15 10 5 0 0

Si noti che nella soluzione 2, l'uso della relazione non lineare può favorire il candidato fermi restando i due livelli soglia di riferimento, 35 e 75. La corrispondenza evidenziata dalla freccia bianca è la stessa della figura 1 determinata dalla relazione lineare: lo stesso punteggio grezzo viene nella figura 1 associato ad un valore inferiore a 13 mentre nella figura 3 si associa ad un valore seppur di poco superiore a 13.


Figura 3 80 75 70 65 60 55 50 45 40 35 30 25 20 15 10 5 0 0

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

Concludiamo questa nota illustrando brevemente la soluzione 3, ovvero la conversione che si basa sulla forma della distribuzione dei punteggi. Ciò ci consente di chiarire meglio il senso degli 'aggiustamenti' dei valori di soglia che abbiamo evocato sopra La figura 4 riporta la distribuzione di frequenza di punteggi assegnati in una prova a cui sono stati sottoposti 45 candidati. Supponiamo che la commissione avesse deciso a priori che il livello soglia era 35. Osservando il grafico, notiamo che due prove verranno classificate insufficienti ma qualcuno potrebbe obiettare che la differenza tra 34 e 35 è poco significativa e che solo il 32 si deve classificare come insufficiente assegnandogli un punteggio-voto di 8 o 9. Ma qualcun altro al contrario potrebbe osservare che in realtà tutto il gruppo che si trova tra 32 e 38 si distanzia dal resto della distribuzione per cui varrebbe la pena di porre il livello limite della sufficienza su 40 piuttosto che su 35. Come sciogliere la questione? La procedura più sensata è quella di tornare a rivedere le prove e verificarne il livello sia globalmente sia analiticamente per arrivare a convenire operativamente quale prestazione può essere considerata sufficiente. La forma della distribuzione, il modo in cui i vari punteggi grezzi si raggruppano possono suggerire delle correzioni dei livelli soglia e delle modalità empiriche per raggruppare i punteggi nei pochi punteggi voti da assegnare. Nel nostro caso i voti al di sotto della sufficienza sono solo 6 e le conversioni tra punteggi potrebbero essere effettuate direttamente operando sul grafico. In questa nota di approfondimento abbiamo cercato di mostrare come qualsiasi procedura, più o meno automatizzata, presuppone una forte consapevolezza del significato delle operazioni valutative e non può ridurre la responsabilità di chi giudica i fatti in base a criteri più meno condivisi, più o meno esplicitati.


Figura 4 6

5

4

3

2

1

76

74

72

70

68

66

64

62

60

58

56

54

52

50

48

46

44

42

40

38

36

34

32

0

Allegato 4 Nuovi elementi del Monitoraggio 2000 di Raimondo Bolletta

Premessa Obiettivo del contributo è di presentare le modalità di lavoro seguite nella selezione delle terze prove contenuta nel volume e di fornire primi dati quantitativi concernenti le modalità di attuazione e gestione della terza prova. Documenti e dati si riferiscono alla sessione 2000 degli esami finali della scuola secondaria superiore. Per facilitare l'approccio a questo volume anche a coloro che non hanno già utilizzato l'analogo volume relativo alla sessione 1999 e per non appesantire la lettura di chi su quel volume ha già lavorato, riteniamo utile riprendere quello stesso testo introduttivo facendolo evolvere con integrazioni e aggiornamenti emersi nel lavoro che abbiamo condotto sulla sessione 2000.

Il monitoraggio Come è noto il regolamento sugli esami di Stato prevede che nel plico contenente le schede dei presidenti, sia allegata anche una copia delle terze prove effettivamente assegnate. Le terze prove sono così diventate un oggetto del monitoraggio e per certi versi un indicatore molto importante dell'andamento dell'attuazione dei nuovi esami. Questa selezione a partire dallo scorso anno ha assunto per l'Osservatorio il valore di un ponte tra la funzione di assistenza sulle terze prove e il compito di monitoraggio della qualità dell'attuazione dalla legge. La raccolta delle terze prove è stata realizzata con la collaborazione dei provveditorati, i quali sono stati i primi destinatari dei plichi spediti dai presidenti delle commissioni esaminatrici. In molti casi i provveditorati hanno controllato sistematicamente il materiale pervenuto ed hanno assicurato la completezza della documentazione con solleciti e ricerche presso le commissioni ed i singoli istituti scolastici. Nel secondo anno di attuazione, alla ditta incaricata dal CEDE di effettuare le registrazioni dati


della scheda dei presidenti, le spedizioni sono state fatte più celermente, ma comunque si sono protratte sin dopo l'estate 2000 e, in relazione alle dimensioni dei provveditorati e al numero delle schede da controllare, per circa tre mesi fino a tutto novembre. Per facilitare il lavoro di acquisizione per la costruzione dell'archivio elettronico e rendere più veloce la selezione delle prove da pubblicare quest'anno, sono state introdotte due innovazioni: la compilazione da parte delle stesse commissioni di una scheda di rilevazione descrittiva delle caratteristiche formali della terza prova e l'uso di etichette adesive a lettura ottica identificative delle prove e delle schede. Non tutto è andato come sperato poiché per molte commissione la modalità d'uso delle etichette a lettura ottica non è risultata sufficientemente chiara e ciò ha determinato errori o omissioni. Quasi nessuno, inoltre, si è preoccupato, come era richiesto dalle istruzioni, di mascherare i dati identificativi delle singole scuole riportati nel testo delle terze prove. Ciò ha richiesto un accurato lavoro di controllo e, in molti casi, un intervento per ricostruire le corrispondenze tra schede descrittive e prove e per mascherare le prove cancellando i riferimenti alle scuole o alle commissioni. Tale lavoro che ha richiesto molte giornate di impegno per l'enorme quantità di materiali raccolti. Coerentemente con una concezione del monitoraggio che intende soprattutto dare visibilità e diffondere elementi fattuali ad uso di tutti i responsabili della qualità del processo, abbiamo comunque ritenuto prioritario lavorare sulla restituzione alle scuole delle terze prove sia mediante la costruzione del secondo archivio, in cui tutte le terze prove riproducibili fotograficamente sono state registrate ed indicizzate, sia attraverso la selezione da editare in questo secondo volume. Tutto il materiale raccolto è stato visionato, come già lo scorso anno, in due fasi: la prima, finalizzata al riordino delle schede e al controllo della presenza e congruità dei codici a barre e al mascheramento del nome delle scuole, ha isolato le terze prove centrate sulla comprensione di uno o più testi e quelle che si presentavano comunque con un titolo o che erano classificate dalla commissione come un progetto o un caso professionale. Solo questo sottoinsieme di prove, circa un migliaio, sono state oggetto di una seconda fase di analisi ad opera del gruppo dei docenti che operano all'interno dell'Osservatorio. Questa seconda selezione intendeva verificare se e in che misura la commissione avesse prodotto una prova con un apprezzabile livello di integrazione tra le competenze sviluppate nelle diverse discipline. In realtà quest'anno lo stesso gruppo di docenti per poter meglio convergere su criteri di valutazione omogenei ed affidabili ha visionato a tappeto tutte le prove provenienti da alcune città per avere un quadro più completo circa le tendenze emergenti. Le prove sono state composte tipograficamente e rieditate integralmente, con la sola eliminazione delle informazioni relative alla commissione o alla scuola per rispettare l'anonimato. In qualche raro caso vi è stata qualche semplificazione degli apparati valutativi, ad esempio quando erano riportate la griglia valutativa e la scheda, perfettamente identica alla griglia, usata per la registrazione degli esiti. Questa selezione, per come è stata realizzata, non pretende quindi di rappresentare le prove migliori (non è un’antologia) per due motivi: 1.

molte altre prove potrebbero aver caratteristiche migliori ma sono sfuggite alla nostra attenzione solo perché non avevano ben evidente un titolo,

2.

le prove selezionate potrebbero essere state poco adatte all’effettivo percorso didattico seguito dalla classe e quindi essere state, o potranno essere, considerate ‘non buone’ da altri.

Sono però certamente tali da meritare l’attenzione dei docenti e degli studenti poiché sollecitano un approccio integrato all’accertamento delle competenze, che costituisce la vera sfida innovativa della terza prova. Individuano uno standard effettivo, raggiungibile forse da un numero più vasto di commissioni, uno stimolo e uno strumento per diffondere idee su cui lavorare. Questo volume rinvia ad una lettura parallela del materiale presente nel CD rom, che le scuole hanno ricevuto nel gennaio 2000, dal titolo Archivio delle terze prove sessione 2000, ATP2001. Il doppio canale, il dispositivo elettronico e quello cartaceo, tiene conto dei vincoli oggettivi in cui si lavora nella scuola che non sempre consentono a tutti di avere a disposizione apparati tecnologici sofisticati.


Abbiamo deciso anche di conservare tutto il materiale in un unico volume senza separarlo per ordini di studio. Confermiamo così l’intenzione dell’Osservatorio di dare visibilità reciproca a curricoli spesso molto diversi che dovrebbero vicendevolmente conoscersi meglio, almeno nella rappresentazione degli esiti finali. Per completare il quadro della problematica affrontata in generale dal monitoraggio e in particolare da questa selezione riportiamo alcuni dati a titolo di esempio, rimandando per ulteriori approfondimenti al sito Internet già citato o al repertorio statistico Gli esami in numeri sessione 2000 che sarà pubblicato fra qualche mese. Le statistiche qui riportate si riferiscono solo alle prove che sono state registrate nell'archivio elettronico ATP2001. Va sottolineato che in tale archivio sono state acquisite le prove in buono stato, cioè ben fotocopiate, riproducibili fotograficamente, corredate della scheda descrittiva e contenibili in due CD rom. Alla data attuale (primi giorni del gennaio ’01) ci sono ancora circa 5000 terze prove che, pur non potendo rientrare nell'archivio elettronico, saranno classificate e contribuiranno a popolare le statistiche definitive. Le statistiche che sono presentate in questo volume pur non riguardando la totalità dei materiali raccolti sono comunque da considerare come delle stime molto attendibili degli andamenti effettivi. La tabella seguente mostra la distribuzione delle scelte delle commissioni rispetto al formato delle terze prove. Distribuzione dei formati delle terze prove rispetto agli ordini scolastici Licei

Professionali

Tecnici

Italia

N

% colonna

N

% colonna

N

% colonna

N

% colonna

137

2,6%

84

3,0%

168

3,0%

389

2,9%

Trattazione sintetica

1.530

29,5%

221

7,9%

752

13,5%

2.503

18,5%

Quesiti a risposta multipla

2.344

45,3%

819

29,3%

2.428

43,6%

5.591

41,3%

Casi pratici e professionali

29

,6%

41

1,5%

59

1,1%

129

1,0%

Quesiti a risposta singola

730

14,1%

722

25,8%

1.356

24,3%

2.808

20,7%

10

,4%

49

,9%

59

,4%

Omesso

Problemi a soluzione rapida Sviluppo di progetti

6

,1%

135

4,8%

62

1,1%

203

1,5%

Con testo di riferimento

22

,4%

261

9,3%

45

,8%

328

2,4%

Formato misto

381

7,4%

501

18,0%

651

11,7%

1.533

11,3%

5.179

100,0%

2.794

100,0%

5.570

100,0%

13.543

100,0%

Italia


Grafico 1 Distribuzione percentuale dei formati rispetto agli ordini scolastici

50 45 40 35 30 25 20

Italia

15

Tecnici

10

Professionali

5

Licei Formato misto

Con testo di riferimento

Sviluppo di progetti

Problemi a soluzione rapida

Quesiti a risposta singola

Casi pratici e professionali

Quesiti a risposta multipla

Trattazione sintetica

0

Come si può notare anche dal grafico 1, che raffronta le distribuzioni percentuali, le commissioni hanno usato prevalentemente quesiti a scelta multipla, forma che nel secondo anno di attuazione ha accresciuto la propria consistenza anche per il maggior numero di quesiti consentito dalla norma. Gli istituti professionali hanno distribuito meglio le proprie scelte sulle varie forme limitando fortemente la prima, quella della trattazione sintetica, maggiormente scelta dai licei. Alcune forme hanno avuto una frequenza più ridotta sia per la maggiore difficoltà di preparazione della prova in tempi ridotti, come nel caso della prova integrata con testo di riferimento, sia per qualche diffidenza delle commissioni rispetto alla possibilità di richiedere lo sviluppo di un progetto su cui la classe aveva già effettivamente lavorato durante l'anno. In realtà, le prove, che i nostri classificatori hanno isolato come prove con testo di riferimento, sono state classificate dalle commissioni a volte sotto altre voci, come casi professionali o come trattazione sintetica. Come si può notare negli esempi selezionati, spesso il 'testo' consiste in un'immagine, uno schema, una consegna complessa. Certamente le disposizioni per il secondo anno di attuazione del nuovo esame, consentendo un uso più flessibile delle varie forme, hanno permesso alle commissioni una scelta più vasta e la produzione di prove più attendibili (aumento dei quesiti) e probabilmente più capaci di rilevare competenze complesse (formato misto). Sulla attendibilità di tali prove, sulla loro facilità e coerenza rispetto alle altre prove scritte, vi è stato già una diffuso dibattito, che intendiamo riprendere con la presentazione di nuovi dati, seppur provvisori. La fase di acquisizione dei dati della sessione 2000 non è ancora conclusa ed i grafici si riferiscono solo a un campione di circa 10.000 casi tratti da quelli acquisiti mediante il programma Conchiglia.


Grafico 2 Andamenti nelle tre prove scritte 1800 1600 1400 1200 1000 800 600 400 200 0 1

2

3

4

5

6

prima prova

7

8

9

seconda prova

10

11

12

13

14

terza prova

La distribuzione dei punteggi presente nella figura 2 mostra, meglio dello scorso anno, che la terza prova non è stata una generale panacea in quanto ha assegnato punteggi su tutta la gamma, anche su valori inferiori alla sufficienza. Rispetto alle altre due prove scritte vanno notate due particolarità. Non presenta in 10, che è il valore di soglia per raggiungere la sufficienza, un picco, come accade invece alla prima prova e alla seconda prova, ma ha un andamento regolare. Essendo la terza una prova strutturata per la correzione della quale la commissione spesso ha convenuto a priori i criteri di assegnazione di punteggi, non si sono verificati quegli aggiustamenti intorno alla soglia di sufficienza che sono invece evidenti nel caso della prima e della seconda prova. Questo è certamente un elemento positivo che depone a favore dell'attendibilità della prova che funzionerebbe in modo più 'oggettivo' delle altre. Nella prima sessione si era notato che la frequenza del voto massimo era più alta delle altre due prove e tale fatto veniva segnalato come un indizio di una scelta operata da parte di alcune commissioni di rendere la terza prova più facile delle altre, al punto di saturare maggiormente il punteggio massimo. Questo fenomeno sembra essere sparito nella seconda sessione, anzi, sul campione esaminato, sembra che la frequenza del voto massimo sia ancora più esigua delle altre due prove. Se ciò verrà confermato sul resto dei dati, questo farebbe considerare la terza prova ancora più attendibile rispetto a quanto successo nella prima sessione in cui il numero dei questi erra stato eccessivamente limitato.

La costruzione delle terze prove Nella sessione 2000, su un campione casuale rappresentativo a livello nazionale di 400 commissioni, è stata effettuata una raccolta delle prove scritte di tre studenti anch'essi scelti casualmente dall'Osservatorio. La raccolta degli elaborati, comunicata alle commissioni subito dopo la pubblicazione degli esiti delle prove scritte, è stata anche l'occasione per rilevare alcune informazioni aggiuntive sulla questione abbastanza dibattuta delle modalità di costruzione della terza prova da parte delle commissioni. Si tratta di un brevissimo questionario costituito da tre domande aperte sui punti di forza e di debolezza della terza prova e sui problemi connessi all'attuazione dell'innovazione e da altre domande concernenti le condizioni

15


materiali in cui è avvenuta la formulazione delle terze prove e l'uso che era stato fatto del repertorio diffuso dall'Osservatorio. Le domande aperte sono state integralmente codificate utilizzando un griglia abbastanza dettagliata e consentendo di rilevare fino a tre risposte distinte per ciascuna domanda: in sostanza le tre risposte aperte hanno generato 9 variabili elaborate come tre risposte multiple. Le tabelle seguenti riportano accanto alle risposte rilevate, che ricordiamo erano libere, le frequenze assolute e le percentuali calcolate rispetto al totale delle risposte e al totale dei casi. Pur nella limitatezza del campione riteniamo interessante la varietà delle considerazioni emerse che denota una ricca consapevolezza dei problemi posti dalla gestione della terza prova da parte delle commissioni

Rilevazione sulle prove scritte Scuola …….. Commissione cod. ……

Classe rilevata ……

Questionario sulla preparazione della terza prova Il presidente è pregato di rispondere in modo sintetico alle seguenti domande sulla preparazione della terza prova. Il questionario non è sostitutivo della relazione finale che i presidenti sono tenuti ad inoltrare all'Osservatorio nazionale sugli esami di stato in formato cartaceo o elettronico. In generale. Punti di forza della terza prova Punti di forza calibrata su programma svolto/documento consiglio di classe verifica competenze trasversali o pluridisciplinari accertamento capacità conoscenze e competenze verifica capacità analisi e sintesi compresenza di 4 discipline oggettività della valutazione introduzione della interdisciplinarità nella didattica verifica conosc.e comp.specifiche omesso esame nelle discipline non oggetto altre prove scritte riguarda un nucleo pluridisciplinare entra nei particolari del caso specifico riflette esigenze corso di studi libertà di scelta della tipologia rapidità della correzione oggettività della valutazione sviluppo di capacità relativamente alle tipologie presenza lingua straniera obbliga docenti a lavorare insieme durante l'anno formulazione da parte dei commissari chiarezza nella formulazione delle domande collegamento con il colloquio collegialità della scelta graduazione della difficoltà tempo max affidato alla commissione Totale

N 71 58 43 39 38 26 21 20 17 17 15 14 13 13 13 13 11 8 7 6 6 4 3 3 2 481

% su risposte 14,8 12,1 8,9 8,1 7,9 5,4 4,4 4,2 3,5 3,5 3,1 2,9 2,7 2,7 2,7 2,7 2,3 1,7 1,5 1,2 1,2 0,8 0,6 0,6 0,4 100,0

% su casi 23,6 19,3 14,3 13 12,6 8,6 7 6,6 5,6 5,6 5 4,7 4,3 4,3 4,3 4,3 3,7 2,7 2,3 2 2 1,3 1 1 0,7 159,8


Punti di debolezza della terza prova Punti di debolezza alcune tipologie sono riduttive e nozionistiche omesso tipologia C poco significativa frammentarietà discipline difficile verifica reale livello conoscenze lamentele generiche documento 15 maggio inadeguato alla formulazione della 3° prova difficoltà di costruzione di una griglia di valutazione scarsa attitudine degli studenti ad affrontare tipologie e materie diverse in poco tempo entra nei particolari del caso specifico diversità di comportamento tra commissioni diverse difficoltà nel realizzare pluridisciplinarietà durante l'anno risultati poco attendibili perché i ragazzi copiano inadeguatezza tipologie per alcuni indirizzi i membri interni sono inaffidabili pochi quesiti per prova oggettiva affidabile manca progettazione integrata tra docenti nell'anno scarsa preparazione degli studenti poco tempo per la preparazione difficoltà dei docenti ad accordarsi presenza di sole 4 discipline necessità di fissare il rapporto tra tipologie e tempi difficoltà a costruire prova oggettiva proposte varie difficoltà nelle prove strutturate rispetto alle prove articolate sarebbe meglio che la prova fosse formulata dal Ministero poca informazione degli studenti su obiettivi e criteri di valutazione commissari non aggiornati, docenti non aperti all'innovazione utilizzo mezzi informatici per la formulazione la correzione necessità standard livelli difficoltà docenti impreparati alla formulazione dei test a risposta multipla diverse tipologie determinano prove non equivalenti difficoltà ad usare tipologie diverse da A e B per i limiti di tempo chiarezza nella formulazione delle domande normativa poco chiara introduzione della interdisciplinarità nella didattica difficoltà per commissari su più commissioni difficoltà con classi distribuite su sedi diverse aumentare i quesiti assenza dei commissari durante la formulazione Totale

N 42 30 28 28 25 18 18 17 15

% su risposte 10,3 7,4 6,9 6,9 6,2 4,4 4,5 4,2 3,7

% su casi 13,9 9,9 9,3 9,3 8,3 5,9 6 5,6 5

15 14 13 12 12 12 11 11 10 10 9 8 7 7 5 5 4 3 3 2 2 2 2 2 2 1 1 1 1 1 1 404

3,7 3,5 3,2 3 2,9 3 2,7 2,7 2,5 2,5 2,2 2 1,7 1,7 1,1 1,2 1 0,7 0,7 0,5 0,5 0,5 0,5 0,5 0,5 0,2 0,2 0,2 0,2 0,2 0,2 100

5 4,6 4,3 4 3,9 4 3,6 3,6 3,3 3,3 3 2,6 2,3 2,3 1,7 1,7 1,3 1 1 0,7 0,7 0,7 0,7 0,7 0,7 0,3 0,3 0,3 0,3 0,3 0,3 133,8

N 123

% su risposte 34,5

% su casi 40,9

Problemi di attuazione dell'innovazione relativa alla terza prova. Problemi di attuazione omesso


poco tempo per la preparazione documento 15 maggio inadeguato alla formulazione della 3° prova manca progettazione integrata tra docenti nell'anno frammentarietà discipline difficoltà dei docenti ad accordarsi difficoltà nel realizzare pluridisciplinarietà durante l'anno commissari non aggiornati, docenti non aperti all'innovazione difficoltà di costruzione di una griglia di valutazione lamentele generiche proposte varie difficoltà con classi distribuite su sedi diverse alcune tipologie sono riduttive e nozionistiche entra nei particolari del caso specifico scarsa preparazione degli studenti difficile verifica reale livello conoscenze aumentare i quesiti scarsa attitudine degli studenti ad affrontare tipologie e materie diverse in poco tempo difficoltà a costruire prova oggettiva i membri interni sono inaffidabili docenti impreparati alla formulazione dei test a risposta multipla difficoltà nelle prove strutturate rispetto alle prove articolate poca informazione degli studenti su obiettivi e criteri di valutazione necessità di fissare il rapporto tra tipologie e tempi diverse tipologie determinano prove non equivalenti inadeguatezza tipologie per alcuni indirizzi assenza dei commissari durante la formulazione prova in giorni diversi per classi diverse difficoltà per commissari su più commissioni utilizzo mezzi informatici per la formulazione e la correzione sarebbe meglio che la prova fosse formulata dal Ministero risultati poco attendibili perché i ragazzi copiano normativa poco chiara tipologia C poco significativa diversità di comportamento tra commissioni diverse calibrata su programma svolto/documento consiglio di classe tempo max affidato alla commissione sostituire prove orali con prove scritte documento 15 maggio inadeguato alla formulazione della 3° prova sinteticità difficoltà con classi aventi indirizzi di studio diversi difficoltà ad usare tipologie diverse da A e B per i limiti di tempo non solo materie dell'ultimo anno Totale In particolare nella sua commissione: Utilità del Documento del Consiglio di Classe per la stesura della terza prova

23 22 18 17 17 12 10 9 8 7 6 6 5 5 5 4 4

6,4 6,2 5 4,8 4,8 3,4 2,8 2,5 2,2 2 1,7 1,7 1,4 1,4 1,4 1,1 1,1

7,6 7,3 6 5,6 5,6 4 3,3 3 2,7 2,3 2 2 1,7 1,7 1,7 1,3 1,3

4 4 4 3 3 3 3 3 3 3 3 2 2 2 2 2 2 1 1 1 1 1 1 1 1 357

1,1 1,1 1,1 0,8 0,8 0,8 0,8 0,8 0,8 0,8 0,8 0,6 0,6 0,6 0,6 0,6 0,6 0,3 0,3 0,3 0,3 0,3 0,3 0,3 0,3 100

1,3 1,3 1,3 1 1 1 1 1 1 1 1 0,7 0,7 0,7 0,7 0,7 0,7 0,3 0,3 0,3 0,3 0,3 0,3 0,3 0,3 118,6


Nessuna

Bassa

2,0

Media

7,3

Alta

41,4

Non saprei dire

47,4

0,7

Nel Documento del Consiglio di Classe erano disponibili esempi di terze prove utilizzati nelle simulazioni? Sì

No

Mancante

83,1

14,9

2,0

Si è tenuto conto di tali esempi nella preparazione della terza prova? Non c'erano esempi

No

Solo in parte

Sì molto

Mancante

9,9

5,3

59,3

10,6

11,6

3,3

Chi ha formulato i singoli quesiti? Prevalentemente esterni

i

membri Non ci sono state distinzioni Esterni ed interni in Prevalentemente Mancante parti uguali gli interni.

4,6

26,8

62,6

5,3

0,7

La commissione era a conoscenza dei repertori prodotti dell'Osservatorio sulla terza prova? No nessuno era informato

Solo alcuni membri lo erano

Sì tutti erano informati

Mancante

2,0

43,7

52,6

1,7

I repertori sono stati messi a disposizione della commissione Sì

No

Mancante

51,7

46,7

1,7

I repertori dell'Osservatorio sono stati utilizzati per la costruzione della terza prova? Sì

No

Mancante di sistema

12,6

85,8

1,7

Giudizio complessivo sui repertori Non sono conosciuti Negativo a sufficienza

Positivo perplessità

37,7

34,8

3,0

con Positivo

19,5

Molto positivo

Mancante di sistema

2,0

3,0

Le statistiche precedenti sono di per sé abbastanza eloquenti, seppur riferite ad un campione piuttosto modesto: appare una ricca e variegata rassegna di problemi legati alla introduzione generalizzata di una prova strutturata di tipo pluridisciplinare, le commissioni incontrano difficoltà nella preparazione della prova ma stentano a riferirsi a quanto i documenti dei consigli di classe o l'editoria o lo stesso Osservatorio mettono a disposizione. Il rischio evidente, che sembra emergere sia dai dati sia dall'analisi delle prove effettuata per la selezione, è la rinuncia a perseguire un livello più alto di integrazione tra le discipline e il consolidamento di formati facilmente assemblabili su competenze disciplinari che si sommano soltanto.


Allegato 5 L'assegnazione dei punteggi. Atto terzo Raimondo Bolletta Premessa Riproponiamo una riflessione che andiamo conducendo già dal primo volume aggiornata con qualche riflessione ulteriore che nasce dalle analisi dei risultati delle prime due sessioni. Il contatto diretto con molti colleghi che ci interpellano o che collaborano con l'Osservatorio ci ha convinto dell'opportunità di riinserire questo tema nel terzo volume perché le questioni legate alle modalità di valutazione delle terze prove e delle prove d'esame in generale sono tutte aperte e necessitano probabilmente di un lungo processo di crescita della consapevolezza dei probelmi e della padronanza delle procedure che porti a una qualità migliore della valutazione finale della scuola secondaria. L'Osservatorio è anche impegnato in uno studio sperimentale sulla questione della valutazioen delle prove scritte che si ispira proprio alle problematiche suscitate dai dati qui presnetati e che fornirà ulteriori elementi di riflessione a tutti coloro che a vario titolo sono impegnati nella gestione degli esami di stato.

L’accertamento, sommare punteggi Il nuovo esame di stato si caratterizza per l'uso nelle prove scritte e orali di scale numeriche la cui somma si traduce automaticamente in esito finale. Questo fatto ha posto numerosi problemi di attuazione legati soprattutto all'abitudine a codici linguistici e numerici diversi e al timore di esiti inattesi e incontrollabili ottenuti sommando singole misure del profitto. La stessa necessità di pubblicare tempestivamente gli esiti degli scritti e di verbalizzare giornalmente gli esiti dei colloqui sembra contraddire la necessità di effettuare comparazioni tra tutti i colloqui per poter giudicare con un metro unico. Rimane ancora abbastanza diffusa la protesta tra i docenti per l'uso di scale diverse all'interno dello stesso esame. Il legislatore ha introdotto infatti una nuova gamma per il punteggio finale stabilendo la sufficienza in 60 punti e il massimo in 100 e l'ha ripartita in quote diverse nelle varie prove. Sufficienza

Massimo

Credito scolastico

8

20

Prima prova scritta

10

15

Seconda prova scritta

10

15

Terza prova scritta

10

15

Orale

22

35

Bonus Punteggio finale

5* 60

100

* la concessione del bonus non può far superare 100 La terza prova scritta, proprio per il suo carattere più strutturato, si presta meglio delle altre ad attivare attendibili procedure di accertamento; sulle quali i membri della commissione possono convergere e trovare un accordo più forte rispetto alle prove complesse. Anche nel PTP2001 non abbiamo fissato criteri di valutazione delle prove, ma solo fornito elementi informativi utili alle commissioni, che saranno libere di dare degli elaborati degli studenti le letture e le valutazioni che più riterranno opportune in relazione al curricolo svolto nella classe esaminata. Le chiavi di correzione e i criteri di adeguatezza costituiscono un corredo informativo sufficiente per operare in modo


affidabile, rispettoso dell’autonomia valutativa della commissione ed utile per tutti coloro che vorranno utilizzare il materiale a livello didattico. Le soglie di sufficienza, che nei punteggi dell’esame non corrispondono al 6, (6 sta a 10 come 9 sta a 15 ma 9 non è la sufficienza!), hanno costretto le commissioni ad adottare apposite procedura per far condividere al suo interno una comune modalità di assegnazione dei punteggi grezzi. La questione non ha riguardato solamente la terza provama soprattutto la prima prova scritta e la prova orale, nelle quali tradizionalmente si procede con un valutazione globale, difficilmente descrivibile con una procedura standard che non dipenda dall’intuizione e dal giudizio personale del singolo correttore. Molte commissioni anche nella seconda sessione del 2000 hanno affrontato questa difficoltà mediante l’adozione di griglie di correzione e di valutazione convenute a priori che consentivano di assegnare il punteggio alla prova, scritta o orale, del candidato, attraverso l'osservazione di una pluralità di aspetti analitici. Per ciascuno di tali aspetti sono stati formulati dei descrittorie dei livelli soglia dei punteggi analiticiche consentivano un'assegnazione del punteggio pressoché automatica da parte della commissione. Una ricca casistica di tali griglie di valutazione per la terza prova è presente negli Archivi delle Terze Prove, ATP2000 e ATP2001, distribuiti nel 2000 e nel 2001 su CD-rom alle scuole secondarie superiori. Proprio la casistica riccamente documentata nei due archivi elettronici dimostra però che l’uso delle griglie non è immune da rischi: i descrittori possono non essere sufficientemente chiari ed operativi, per cui può emergere anche forti divergenze di opinioni tra commissari diversi che valutano la stessa prestazione del candidato; se i descrittori sono troppo generici e globali possono in realtà correlare troppo con un medesimo aspetto dell'elaborato , per cui si assegnano ripetutamente punteggi parziali alla stessa cosa, i pesi assegnati, sotto forma di punteggi parziali con gamme diverse a seconda dell’importanza dell’aspetto valutato, costituiscono già un modo per predeterminare l’esito finale in relazione a un criterio a priori dei commissari che però a volte non è stato chiaramente esplicitato, le griglie potrebbero essere improvvisate e non essere state validate con un uso sufficientemente esteso nel tempo e ripetuto su prove e classi diverse da almeno qualche membro della commissione, la griglia può essere assunta acriticamente con una declinazione di obiettivi, forse coerenti con il documento del consiglio di classe, ma con una inconsistente relazione con i quesiti specifici che sono formulati nella prova o con la traccia del tema. Quindi anche le griglie possono generare una certa confusione tra il momento dell’accertamento, o della misura, quello cioè della assegnazione di un punteggio che dovrebbe corrispondere solo alle caratteristiche oggettiva dell'elaborato o della prestazione e quello della valutazione e dell’applicazione di un criterio di valore che si realizza con la votazione del punteggio da assegnare al candidato. L'assimilazione tra le due fasi costituisce uno dei rischi di una procedura d’esame che dovrebbe essere, nelle intenzioni del legislatore, più oggettiva e più giusta. Questo problema è apparso più evidente in una strategia, suggerita come scorciatoia per semplificare la questione dell’assegnazione dei punteggi e che anche nel secondo anno di attuazione è stata attuata da alcune commissioni: valutare la singola prova con un livello qualitativo già utilizzato nei giudizi dei vecchi esami di maturità, livelli sui quali i commissari hanno maggiore dimestichezza, e convenire nella commissione una corrispondenza tra tali livelli e bande di punteggi. In questo modo un aggettivo come buono o discreto , che non fa parte del lessico formale del nuovo esame, si trasforma in un punteggio numerico. Questa procedura, apparentemente affidabile, stravolge e ribalta però il senso dell’uso dei punteggi anteponendo la fase della valutazione a quella dell'accertamento 'oggettivo'. Le difficoltà sin qui segnalate emergono chiaramente in alcuni risultati del monitoraggio degli esiti. L’adozione di bande di oscillazione rigide, per discretizzare su pochi livelli una scala che può assumere una estesa gamma di valori, può determinare degli ‘aggiustamenti’ dei voti non sempre opportuni. Ad esempio le distribuzioni dei grafici 1 e 2 mostrano come l’esistenza delle bande di oscillazione rigida, entro cui i consigli di classe possono assegnare eventualmente qualche punto aggiuntivo al credito, ha indotto sia nel primo anno di attuazione degli esami sia nel secondo degli aggiustamenti nei voti assegnati. E’ evidente dalla figura che le medie vicine al valore soglia per accedere alla banda successiva sono meno


frequenti e ciò determina un profilo delle distribuzioni a denti di sega. Arrotondamenti di pochi decimi per raggiungere la banda successiva nei casi meritevoli non sono un grave problema, ma possono indurre la sensazione che si abbia a che fare con dati inaffidabili, modificabili a piacimento, in relazione alle varie convenienze. Distribuzione delle medie dei voti. Campione nazionale di 7563 casi 400

350

300

250

200

150

100

50

9,9

9,7

9,5

9,3

9,1

8,9

8,7

8,5

8,3

8,1

7,9

7,7

7,5

7,3

7,1

6,9

6,7

6,5

6,3

6,1

5,9

5,7

5,5

5,3

5,1

4,9

4,7

4,5

4,3

<4

4,1

0

Grafico1 Distribuzione della media dei voti scolastici assegnati nella sessione 1999 Distribuzione delle medie dei voti di ammissione. Campione 2000. Casi 7.054 500

450

400

350

300

250

200

150

100

50

0

3

3,5

4

4,5

5

5,5

6

6,5

7

7,5

8

8,5

9

9,5

10

Grafico2 Distribuzione della media dei voti scolastici assegnati nella sessione 2000 Uno stesso meccanismo di aggiustamento verso la sufficienza è intervenuto nella valutazione della prime dueprove scritte, in cui il valore modale in 10 fa pensare che procedure di assegnazione del punteggio di


tipo ‘globale’ abbiano consentito di dichiarare accettabili degli esiti probabilmente non tali per gli stessi esaminatori. Lo stesso fenomeno che si osserva nelle due sessioni non compare nell'andamento dei risultati della terza prova che invece nella soglia della sufficienza ha un andamento gradualemtne crescente senza addensamenti particolari della frequenza.

Andamenti delle tre prove scritte. Sessione 1999 0,2 0,18 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 0

1

2

3

4

SESSIONE 1999

5

6

7

8

prima prova

9

10

11

12

13

seconda prova

14

15

terza prova

Grafico 3 Le distribuzioni dei punteggi delle tre prove scritte sessione 1999

Andamenti delle tre prove scritte. Sessione 2000 0,2 0,18 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 0

1

SESSIONE 2000

2

3

4

5

6

prima prova 99

7

8

9

10

11

seconda prova99

Grafico 4 Distribuzioni dei punteggi delle tre prove scritte sessione 2000

12

13

14

terza prova99

15


Confrontando i grafici 3 e 4 è possibile notare anche l'effetto prodotto dallo scambio di ruoli nei correttori della prima e seconda prova: Nel '99 la prima prova era corretta da un commissario esterno e la seconda da un interno. Nel 2000 in moltissimi indirizzi i ruoli si sono scambiati. Anche le due distribuzioni hanno subito nei due anni uno scambio di posizione! Andamento della prima prova scritta. Sessione 1999 0,2 0,18 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 0

1

2

3

4

5

6

7

8

9

prima prova 99

10

11

12

13

14

15

12

13

14

15

prima prova 2000

Andamento della prima prova scritta. Sessione 1999 0,2 0,18 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 0

1

2

3

4

5

6

seconda prova99

7

8

9

10

11

seconda prova 2000

Anche nel 2000 la distribuzione della somma dei punteggi delle prove scritte e del credito scolastico ha un andamento ‘regolare’ più simile a quello vero, a quello che necessariamente dovrebbe essere, data la numerosità della popolazione esaminata e la complessità delle competenze accertate, e cioè una classica distribuzione normale. Non sorprende affatto che sommando quattro misure, seppure affette singolarmente


di errori ed aggiustamenti, si ottenga una nuova misura che complessivamente appare più affidabile e regolare; ciò corrisponde a quanto si fa nelle scienze sperimentali, in cui per ridurre gli errori di misura si ripetono le misure. Una condizione perché ciò avvenga è però che le misure siano tra loro indipendenti, che cioè gli errori in una misura non influenzino quelli delle altre; in altri termini se in una prova un candidato è stato casualmente (o intenzionalmente) favorito o sfavorito ciò non deve ripetersi nello stesso senso nelle altre prove, in cui invece gli errori di misura dovranno continuare ad essere casuali.

Distribuzione dei punteggi alla fine degli scritti 0,06

0,05

0,04

0,03

0,02

0,01

0 0

6

8

10

12

14

16

18

20

22

24

26

28

30

32

34

36

1999

38

40

42

44

46

48

50

52

54

56

58

60

62

64

2000

Fig.3 Distribuzione del punteggio alla fine delle prove scritte La distribuzione del punteggio finale denota viceversa un cambiamento radicale della distribuzione introdotto evidentemente dal punteggio assegnato nella prova orale. Ritorna il picco in corrispondenza al sessanta, cioè alla soglia minima per poter passare l'esame e sul punteggio massimo. Non possiamo qui affrontare nel merito la questione spinosa di un così alto addensamento di casi sulla soglia di accettabilità ma ci limitiamo a segnalare una questione puramente tecnica: la non indipendenza dell'ultima 'misura' rispetto alle precedenti. L'esito dell'orale è condizionato dagli esiti degli scritti e la ricca gamma di punti disponibili per tale prova serve a compensare o a integrare il resto delle prove per ottenere un punteggio finale che sostanzialmente è il risultato di un giudizio globale e non la somma di misure indipendenti.


Distribuzione dei voti finali 0,14

0,12

0,1

0,08

0,06

0,04

0,02

0 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71 73 75 77 79 81 83 85 87 89 91 93 95 97 99 voto2000

voto1999

Assegnazione dei punteggi-voto Il nostro tentativo in questo contributo che è riporposto nei tre volumi del PTP è di enfatizzare la distinzione tra la fase dell’accertamento e quella della valutazione e di riflettere sul passaggio dalla prima alla seconda fase, dal punteggio grezzo al punteggio voto. Quest’anno la norma consente di aumentare ulteriormente i quesiti nella terza prova. Ciò consentel'assegnazione di punteggi grezzi, cioè di punteggi non ancora votati e non ancora pubblicati come esiti, come scale numeriche aventi una gamma più estesa dei 15 punti assegnabili. La commissione può così avere più chiara la distinzione tra il momento della raccolta dei dati (ovvero della 'misura' dei livelli di conoscenza o di competenza dei candidati) da quello della formulazione del giudizio cioè dell'interpretazione del significato del dato raccolto rispetto ad un criterio di valore, a priori o a posteriori. La stessa questione si pone, forse in termini più complicati e difficili, anche per le altre due prove scritte, in cui nella fase di correzione della prova, se non si dispone di griglie di correzione condivise dalla commissione, si potrebbe comunque prescindere dall'uso immediato della scala in quindicesimi per costruire piuttosto un ordinamento delle prove per livelli di qualità, identificando degli insiemi di prove più o meno equivalenti cui assegnare a posteriori i punteggi in quindicesimi. Se si dispone invece di griglie di correzione è consigliabile costruire una scala disancorata dai quindicesimi. Abbiamo potuto constatare che molte commissioni hanno penato molto a distribuire frazioni di punto alle molteplici dimensioni individuate: non solo è più semplice e pratico ragionare con punteggi complessivi con gamme più ampie ma è anche più corretto dal punto di vista concettuale. Siamo effettivamente certi a priori che sommando le varie sufficienze individuate in ciascun aspetto rilevato si ottenga il fatidico 10 da assegnare alla sufficienza complessiva? Chi ha provato a far ciò, ad esempio con una griglia di valutazione di una prova di italiano si sarà trovato in qualche imbarazzo a giustificare le sue scelte e a gestire a posteriori i risultati, a meno che non avesse preventivamente validato lo strumento sul campo, su molte prove e su molti studenti diversi. Ma torniamo a ragionare della terza prova, usandola però come una metafora delle altre due nella misura in cui si sia riusciti a correggerle in modo analitico usando delle griglie.


Criteri di valutazione a priori Se la commissione ha deciso di lavorare con un punteggio grezzo diverso dalla scala in quindicesimi, nella fase di assegnazione del punteggio voto dovremo operare una traduzione. Quale punteggio grezzo corrisponde al punteggio soglia della sufficienza? Quale punteggio grezzo corrisponde al punteggio voto massimo? E' evidente che il valore di tale soglia dipende della difficoltà dei quesiti posti: se questi fossero molto difficili, anche i candidati più bravi otterrebbero un punteggio grezzo basso, così come sarebbe possibile assegnare punteggi grezzi alti se le domande poste fossero molto facili. La commissione, nella misura in cui può vantare complessivamente una consolidata esperienza didattica, potrebbe essere in grado di apprezzare preventivamente la difficoltà dei quesiti posti e, quindi, potrebbe prevedere quale soglia dei punteggi dovrebbe essere raggiunta da coloro che hanno una preparazione sufficiente. La commissione potrebbe cioè stabilire a priori il livello di punteggio-grezzo atteso che corrisponda alla sufficienza e stabilire quindi a priori le fasce di punteggi-grezzi comprese nei punteggi-voto assegnati nella prova. Per le due prove scritte fissate dal ministero l’identificazione di tali livelli soglia della sufficienza sarebbero auspicabili ma occorre ammettere che per prove complesse la cosa non è affatto facile e rischia anche di essere poco affidabile se fatta in modo affrettato a livello centrale su una enorme quantità di tracce . La procedura che abbiamo ora descritto, che fissa il criterio di sufficienza a priori, suppone una forte omogeneità tra i membri della commissione sia per le esperienze didattiche effettuate, sia per i criteri di valore cui ciascun membro fa implicitamente riferimento. E' un assunto forte se si considera che la commissione proviene da istituti scolastici diversi, che la parte esterna non conosce già la classe e che ogni commissario rappresenta una disciplina diversa. Un aiuto forte potrebbe venire dal documento del consiglio di classe che dovrebbe fornire elementi operativi per individuare i livelli di sufficienza perseguiti dalla classe.

Criteri a posteriori Un'altra modalità di trasformazione da punteggi-grezzi a punteggi-voto si basa sui risultati accertati e possiamo definirla a posteriori. Se non vi è un affidabile accordo sulla distribuzione dei punteggi grezzi attesi, si può attendere di conoscere la distribuzione effettivamente ottenuta dalla classe esaminata e ricavarne empiricamente i valori soglia per stabilire le corrispondenze tra le due scale, quella dei punteggi grezzi e quella dei punteggi voto. La commissione potrà decidere il punteggio grezzo che corrisponde alla sufficienza (10) e stabilire, sempre che sia stato effettivamente riscontrato, quale punteggio-grezzo corrisponde al massimo (15) assegnando in conseguenza i voti intermedi. Nel programma elettronico denominato Conchiglia 2001, distribuito dall'Osservatorio ad uso delle commissioni, è disponibile anche quest’anno una funzione che permette di eseguire rapidamente proprio questo tipo di conversione. Non si tratta dell’unica procedura automatica utilizzabile per questa conversione dei dati. Molte altre sono possibili e sono state variamente suggerite nelle reti dell'aggiornamento. Le possiamo classificare però in due famiglie: procedure che determinano automaticamente i livelli soglia in base alle caratteristiche della distribuzione dei punteggi effettivamente assegnati, procedure che consentono la conversione tra le due scale utilizzando i livelli soglia come valori in input, fissati dalla commissione. La procedura di Conchiglia è del secondo tipo poiché parte da una decisione (a priori o a posteriori, è indifferente) adottata dalla commissione ed effettua solamente dei calcoli in modo del tutto strumentale. Le procedure previste per l'assegnazione dei punteggi-voto, cioè le 'votazioni' che coinvolgono tutta la commissione, sono perfettamente compatibili con questi ragionamenti che, se ben gestiti, potrebbero condurre la commissione a formulare proposte di punteggio voto uniche e pervenire quindi a determinazioni all'unanimità, almeno sulla terza prova scritta. Non solo Conchiglia ma anche un comune foglio elettronico consente di effettuare semplici, o più complesse, elaborazioni dei dati grezzi ad uso di una votazione più consapevole e documentata.


Assegnazione dei punteggi-grezzi Torniamo ora al problema fondamentale, alla fase della costruzione della terza prova, ed esaminiamo il caso di prove costruite secondo il modello proposto dal Cede con uno o più testi di riferimento o quelle cosiddette miste. In questo caso tutte le forme previste dalla legge per i quesiti sono consentite e occorre decidere una opportuna distribuzione di punteggi da assegnare alle diverse domande che potranno essere di vario tipo per formato, complessità e difficoltà. Con quali criteri possiamo decidere di assegnare pesi diversi alle varie domande? Possiamo procedere in diversi modi: spesso si fa riferimento al livello di difficoltà. Si pensa che sia giusto riconoscere più punti alle domande che ci sembrano più difficili rispetto alle altre. In effetti questo criterio potrebbe non essere opportuno o necessario poiché quei pochi candidati che sanno rispondere a domande molto più difficili delle altre sanno rispondere anche alle domande più facili e quindi si troveranno comunque positivamente discriminati dalla prova complessiva; possiamo differenziare i punteggi in base al tempo richiesto per rispondere ovvero alla complessità della prestazione implicata dalla domanda. Sembra ovvio che una domanda aperta, che chiede la redazione di cinque o dieci righe di testo, debba avere un punteggio maggiore di quello di una domanda chiusa in cui si tratta di scegliere una risposta già formulata. Questo criterio può non concordare con il precedente poiché un quesito chiuso può essere molto più difficile di una domanda aperta, ma il tempo richiesto al candidato da un quesito chiuso è certamente minore di quello richiesto da una domanda aperta; altri esaminatori potrebbero invece tener conto della complessità delle prestazioni accertate rispetto ad una qualche tassonomia di riferimento. Si dà peso alla gerarchia che pone più in basso il semplice ricordo di fatti singoli e di conoscenze slegate e più in alto l'applicazione alla soluzione di problemi o la formulazione di giudizi, ciò anche in considerazione del fatto che i livelli più alti e complessi implicano il possesso dei livelli più bassi. Anche questo criterio può essere meno ovvio di come appare, poiché i processi utilizzati per rispondere al nostro quesito possono essere di natura diversa a seconda della preparazione del candidato, per alcuni solo una risposta mnemonica e per altri un complesso ragionamento che tiene conto di tanti fatti diversi; un altro criterio può riferirsi invece alla gerarchia degli obiettivi fissati dal curricolo svolto. Dalla documentazione del consiglio di classe dovrebbe apparire il diverso grado di importanza delle varie conoscenze e competenze perseguite durante il corso. Se nel formulare i quesiti della terza prova saremo in grado di dire quali aspetti di tale profilo sono saggiati, potremo anche premiare con pesi diversi le prestazioni che hanno più importanza nel progetto educativo di quel consiglio di classe; la stessa domanda potrebbe avere quindi pesi diversi se proposta a indirizzi di studio diversi; si può ragionare come nel punto 4, ma facendo riferimento al curricolo formale e al profilo del candidato teoricamente atteso dalla commissione. Questa elencazione di possibilità, probabilmente non esaustiva, sottolinea la difficoltà del compito della commissione: in pratica il criterio effettivo sarà un miscuglio dei cinque illustrati con una chiara accentuazione dell'importanza del quarto criterio che centra l'attenzione sul progetto educativo realizzato nella classe esaminata. In particolare il bilanciamento tra il quarto e il quinto potrebbero impegnare molto la commissione, che deve conciliare due esigenze apparentemente opposte: tener conto del curricolo effettivo della classe riferendo le valutazioni agli obiettivi fissati nell'istituto, e contemporaneamente assegnare un punteggio finale spendibile in un vasto mercato del lavoro, in cui sarebbe giusta una certa confrontabilità degli esiti.

Elementi di adeguatezza Se il punteggio assegnato ad un singolo quesito della terza prova ha una gamma sufficientemente vasta, ad esempio cinque punti, sarà possibile attribuire tutti i valori della scala, e non solo lo 0 o il 5, per cui sarà opportuno concordare preventivamente la modalità di attribuzione dei singoli punteggi. In questo volume si fa spesso riferimento agli elementi di adeguatezza: con il termine adeguatezza si è evitato di evocare il termine sufficienza, che si riteneva non dovesse essere veicolato dal volume, e che assumerebbe un valore puntuale di


soglia rigida traducibile in un valore dicotomico 0/1. Il termine suggerisce piuttosto una graduazione, determinata proprio dalla presenza di un insieme di elementi che si possono contare. Se ad esempio nella formulazione di una domanda aperta si chiedono le ragioni dell'entrata in guerra della nazione x nell'anno y e la storiografia corrente ne elenca 5, potremo giudicare il grado di adeguatezza attraverso il numero delle ragioni corrette addotte dal candidato e assegnare così l'intera gamma dei punteggi previsti. La questione è molto meno banale di quanto possa sembrare da questo esempio ed implica la capacità di prevedere le varie tipologie di risposta alla domanda: l'ideale sarebbe riuscire ad identificare in modo chiaro tutti gli elementi che concorrono all'adeguatezza della risposta e per ciascuno di essi la qualità attesa. Qualsiasi membro della commissione o qualsiasi altro docente della stessa materia dovrebbe poter procedere all'assegnazione dei punteggi-grezzi in modo affidabile; cioè in modo tale che due correttori indipendenti diano allo stesso elaborato lo stesso punteggio. Tale identificazione potrebbe essere realizzata elencando gli elementi informativi attesi, come nell'esempio precedente, o descrivendo operativamente gli aspetti che concorrono a definire la qualità della risposta (ad esempio in una risposta resa in lingua 2, il candidato potrebbe dare una risposta errata nel merito ma impeccabile dal punto di vista linguistico, per cui sarà bene distinguere questi due aspetti) o infine redigendo preventivamente delle tipologie di risposta che potranno essere usate nella correzione come criterio ovvero come esempi di riferimento per identificare i livelli di adeguatezza della risposta.

Oggettività e soggettività Le considerazioni sin qui sviluppate ripropongono più in generale la difficile questione del rapporto tra accertamento e valutazione. Riproponiamo alcune riflessioni generali di metodo già illustrate sin dal primo volume, ma la cui importanza è per noi centrale. La terza prova è nata, nelle prime proposte di molti anni fa, come una prova oggettiva che doveva essere diffusa dal Ministero per rendere confrontabili gli esiti della vecchia maturità. La proposta nasceva alla fine degli anni '80 da evidenze sperimentali che mostravano una bassissima correlazione tra i voti della vecchia maturità e gli esiti di prove oggettive di profitto somministrate su campioni rappresentativi a livello nazionale. Pur essendo diventata una prova del tutto 'locale', la terza prova mantiene caratteristiche tali da prestarsi meglio delle altre ad una lettura 'oggettiva' dei risultati. Per come è concepita, la terza prova promette di essere più valida delle prime due, in quanto la commissione può e deve adattarla al curricolo effettivo della classe e quindi può scegliere quesiti più validi cioè più capaci di misurare quello che gli esaminatori vorrebbero misurare. Questa caratteristica della terza prova è già emersa nel primo anno di attuazione dei nuovi esami, come emerge dal grafico seguente, in cui come è stato osservato nel volume STP2000, ‘se compariamo i punteggi standardizzati attribuiti in tutte le prove e nel credito scolastico rispetto ai vari ordine di studio, notiamo che le due prove scritte, la seconda e la terza hanno un andamento sostanzialmente indipendente dal tipo di scuola. Queste prove infatti misurano la competenza rispetto alle finalità proprie dell’indirizzo e sono capaci di far emergere prestazioni specifiche anche eccellenti in tutti gli indirizzi'.


Medie punteggi standardizzati rispetto ai tipi di scuole 0,4

SESSIONE 1999 0,3

0,2

0,1

0

-0,1

-0,2

-0,3

-0,4

Sperimentale credito scolastico

Licei prima prova

Professionali seconda prova

terza prova

Tecnici colloquio

votofinale

Figura 5 Medie punteggi standardizzati rispetto ai tipi di scuole 1999

Medie punteggi standardizzati rispetto ai tipi di scuole 0,4

SESSIONE 2000 0,3

0,2

0,1

0

-0,1

-0,2

-0,3

-0,4

Sperimentali credito scolastico

Licei prima prova

Professionali seconda prova

terza prova

Tecnici colloquio

VOTO

A regime, la terza prova promette anche di essere più attendibile: infatti, con un adeguato numero di quesiti, è possibile costruire scale abbastanza estese, in grado di effettuare una buona discriminazione tra i candidati. Come è noto, l'attendibilità o affidabilità di una prova consiste nella sua capacità di misurare una certa prestazione con adeguata precisione, cioè con un errore di misura non troppo grande. Come esaminatori dobbiamo sempre ricordare che in qualsiasi misura il valore trovato è la somma del valore vero e di un errore, cioè di un valore di disturbo casuale e quindi ineliminabile. Ciò anche in fisica! Nell'ambito


degli apprendimenti non potremmo parlare in senso stretto di misura in quanto non disponiamo di unità campione e di uno zero: le misure che otteniamo sono solo scale numeriche che al più consentono di stabilire graduatorie, ordinamenti tanto più attendibili quanto meno affetti da errori di misura. L'attendibilità di una prova dipende dal numero dei quesiti (aumenta con l'aumentare dei quesiti come se ripetessimo le misure) e dalla sua omogeneità (se il punteggio complessivo somma le misure di aspetti troppo eterogenei e incoerenti, l'errore di misura rimane alto). L'omogeneità interna della prova è una caratteristica che dipende direttamente dal lavoro preparatorio del consiglio di classe e dalla qualità della documentazione fornita alla commissione e infine dal lavoro della commissione. Nonostante sia necessario saggiare competenze afferenti a più discipline, occorrerebbe scegliere quesiti che si riferiscano a competenze trasversali, sufficientemente integrate tra loro nella preparazione dei candidati. In questo caso l'integrazione tra le discipline non va tanto ricercata a livello epistemologico tra le discipline quanto all'interno del lavoro didattico realmente sviluppato nelle classi per vedere se e in che misura tale lavoro ha prodotto prestazioni coerentemente integrate. La facile soluzione di assegnare solo poche domande aperte lasciate alla scelta indipendente di ciascun commissari si può rivelare debole anche dal punto di vista metrologico, in quanto tale formato fornisce misure scarsamente attendibili se non si dispone di griglie realmente affidabili mentre il formato misto o quello proposto in questo volume consentono, se realmente coerenti con l'attività svolta nella classe esaminata, di migliorare l'attendibilità stessa della prova. Inoltre, potendo inserire domande di diverso formato, è possibile, come abbiamo suggerito nelle riflessioni iniziali, utilizzare delle scale con una gamma di valori abbastanza estesa e quindi più selettiva. E' infine utile ricordare che l'oggettività cui si fa qui riferimento non equivale all'esattezza delle misure, ma all'indipendenza del valore del punteggio grezzo dal correttore della prova. Il punteggio-grezzo dovrebbe dipendere solo dal livello di preparazione del candidato e dovrebbe essere inteso come una stima, la più precisa possibile, del livello di competenza vero. Effettuata la misura, l'accertamento oggettivo, il punteggio grezzo va interpretato e valutato e, in questa fase, le norme prevedono che la responsabilità sia collegiale e che si esprima mediante una votazione. Questa è la fase soggettiva, in cui però la soggettività non equivale ad arbitrarietà o incoerenza, ma piuttosto a responsabilità dei soggetti che giudicano in base a criteri, eventualmente diversi. Le norme prevedono che possano esistere divergenze di valutazione da parte dei commissari, per cui la stessa prestazione accertata e quantificata dal punteggio-grezzo potrebbe essere tradotta in punteggi-voto diversi. Ma proprio il lavoro sulla costruzione della terza prova potrebbe consentire alla commissione di convergere anche sui criteri per la valutazione ed evitare inopportune spaccature in sede di votazioni sulle singole prove. Chiudiamo questo intervento con la presentazione di alcuni dati del monitoraggio che evidenziano un fatto emerso in entrambe le sessioni e che legano la questione dell'oggettività delle misurazione alla soggettività dei criteri. Come si concilia la necessità di valutare in rapporto ai livelli effettivamente attesi dalla programmazione della classe con l'opportunità di assegnare valutazioni comparabili sul territorio?


Confronti territoriali delle medie standardizzate dei punteggi 0,3

0,2

0,1

0

nordovest

nordest

centro

sud

sudisole

-0,1

-0,2

SESSIONE 1999 -0,3

credito scolastico

prima prova

seconda prova

terza prova

colloquio

voto

Grafico ‌ Confronti territoriali delle medie standardizate dei punteggi. Sessione 1999

Confronti territoriali delle medie standardizzate dei punteggi 0,3

0,2

0,1

0

nordovest

nordest

centro

sud

sudisole

-0,1

-0,2

SESSIONE 2000 -0,3

credito scolastico

prima prova

seconda prova

terza prova

Grafico ‌ Confronti territoriali delle medie standardizate dei punteggi. Sessione 2000

colloquio

voto


Dai due grafici emergono chiaramente due domande: quale punteggio corrisponde meglio alle differenze di rendimento riscontrata ormai da tempi e per compentenze diverse sul territorio e che pone al primo posto le regioni del nordest e agli ultimi le regioni del sud? Vi è forse una sistematica differenziazione del livello di difficoltà della terza prova tra commissioni che appartengono a regioni diverse? Mentre le prove ministeriali consentono l'uso di criteri di valutazione diversi, a parità di traccia, la terza prova può variare in difficoltà e criterio di valutazione rendendo l'andamento complessivo così differenziato rispetto alla variabile territoriale da porre un problema su cui dovremo tutti ancora riflettere.

Allegato 6 Un prodotto del Monitoraggio Di Raimondo Bolletta Può essere utile, per meglio comprendere il significato, il valore ed i limiti di questo volume, dare qualche informazione sulle modalità e sui criteri organizzativi seguiti dall'Osservatorio nella selezione delle prove inserendo tale proposta nel quadro delle attività di monitoraggio. Il regolamento sui nuovi esami di Stato prevedeva che nel plico contenente le schede dei presidenti, fosse allegata anche una copia delle terze prove effettivamente assegnate nella prima sessione d'esami del 1999. Le terze prove sono così diventate oggetto del monitoraggio e questa selezione ne costituisce un prodotto. La raccolta è stata realizzata tramite la collaborazione dei provveditorati, i quali sono stati i primi destinatari dei plichi preparati dai presidenti. In molti casi i provveditorati hanno controllato sistematicamente il materiale pervenuto ed hanno assicurato la completezza della documentazione con solleciti e ricerche presso le commissioni ed i singoli istituti scolastici. Gran parte delle spedizioni alla ditta incaricata dal CEDE di effettuare le registrazioni dati della scheda dei presidenti sono state fatte dopo l'estate 1999 e si sono protratte, in relazione alle dimensioni dei provveditorati e al numero delle schede da controllare, per circa tre mesi fino a tutto novembre. La mole imponente del materiale raccolto, circa 18.000 prove di quattro o cinque pagine l'una, ha sùbito richiesto la definizione di una strategia operativa semplice ed efficiente che evitasse che l’impegno di tante commissioni finisse in un archivio polveroso ed inutile. Dai primi giorni di settembre 1999 i docenti comandanti nell'Osservatorio hanno iniziato a leggere le prove raccolte per individuare quelle più interessanti da pubblicare nel sito in Internet del CEDE. Ma ben presto ci si è accorti che l'impresa sarebbe stata impossibile per la quantità di tempo e di attenzione richiesti ad un numero troppo esiguo di scrutinatori; altrettanto complesso e costoso risultava trascrivere le prove prescelte. Coerentemente con una concezione del monitoraggio che intende soprattutto dare visibilità ed elementi fattuali ad uso di tutti i responsabili della qualità del processo, sentivamo l'urgenza di una restituzione del materiale raccolto che fosse realmente utile ad uno sviluppo positivo dell'innovazione indotta dalla nuova legge sugli esami di stato. D’altronde, l'esame dei primi materiali ci convinceva dell'alto valore della documentazione raccolta: non era mai accaduto che una tale varietà e quantità di materiali valutativi fosse raccolta in un unico luogo e fosse completamente disponibile in tempi utili per migliorare il secondo ciclo di attuazione degli esami. Il valore consiste soprattutto nel complesso delle prove che offre un quadro esauriente della molteplicità delle opzioni possibili e della ricchezza, o della povertà, delle varie situazioni rappresentate dalle singole prove. La soluzione del problema è stata di tipo tecnologico: la scansione di tutti i documenti per generare immagine elettroniche e la possibilità di concentrare tutto in due CD-rom a costi particolarmente ragionevoli e in tempi ridotti portavano alla decisione di indicizzate tutte le prove secondo semplici descrittori e di costituire una base documentaria completa da diffondere presso le scuole mediante un CD rom.


Tutto il materiale raccolto è stato quindi visionato in due stadi, il primo ha prodotto una classificazione di tutte le prove secondo le seguenti variabili: il numero progressivo posto sulla prima pagina con codici a barre, l’ordine degli studi, licei tecnici e professionali, gli indirizzi specifici, le materie coinvolte e la presenza o meno delle griglie di valutazione e degli obiettivi. Oltre a ciò il gruppo dei classificatori doveva mascherare con apposite etichette bianche tutti gli elementi di identificazione della prova per renderla anonima e separare dal resto della collezione le prove centrate sulla comprensione di uno o più testi e tutte quelle che si presentavano comunque con un titolo. Solo questo sottoinsieme di prove, circa duemila, sono state oggetto di un secondo stadio di scelta ad opera del gruppo dei docenti che operano all'interno dell'Osservatorio. Questa seconda selezione intendeva verificare se e in che misura la commissione avesse inteso produrre una prova con un buon livello di integrazione tra le competenze accertate. Il lavoro di selezione è avvenuto basandosi sulla forte omogeneità di giudizi del gruppo di docenti, che, ormai da più di un anno, stanno lavorando e riflettendo su queste tematiche, prima con la proposta di modelli terze prove integrate pubblicate sul sito del cede www.cede.it e poi nel coordinamento della produzione del repertorio di modelli di terze prove, denominato PTP1999 (Proposte di Terze Prove). Ad una prima lettura ogni prova è stata classificata su quattro livelli ++ da pubblicare senza bisogno di un altro parere + forse da pubblicare ma con il parere di un altro collega - forse da non pubblicare ma con il parere di un altro collega -- da non pubblicare. In pratica la maggior parte delle prove è passata al vaglio di due docenti che hanno concordato un giudizio positivo. Una descrizione più approfondita di questa fase è contenuta nell’intervento successivo. Le prove sono state rieditate integralmente, con la sola eliminazione delle informazioni relative alla commissione o alla scuola per renderle anonime. In qualche raro caso vi è stata qualche semplificazione degli apparati valutativi, ad esempio quando erano riportate le griglie valutative e la scheda usata per la registrazione degli esiti, perfettamente identica alla griglia. Questa selezione, per come è stata realizzata, non pretende quindi di rappresentare le prove migliori (non è un’antologia) per due motivi: 3.

molte altre prove potrebbero aver caratteristiche migliori ma sono sfuggite alla nostra attenzione solo perché non avevano ben evidente un titolo,

4.

queste stesse potrebbero essere state poco adatte all’effettivo percorso didattico seguito dalla classe e quindi essere state, o potranno essere, considerate ‘non buone’ da altri.

Sono però certamente tali da meritare l’attenzione dei docenti e degli studenti poiché sollecitano un approccio integrato all’accertamento delle competenze, che costituisce la vera sfida innovativa della terza prova. Individuano certamente uno standard effettivo, raggiungibile forse da un numero più vasto di commissioni, uno stimolo e uno strumento per diffondere idee su cui lavorare. Questo volume rinvia quindi ad una lettura parallela del materiale presente nel CD rom, citato sopra, che le scuole hanno ricevuto nel febbraio 1999, dal titolo Archivio delle terze prove sessione 1999, ATP1999. Il doppio canale, il dispositivo elettronico e quello cartaceo tiene conto dei vincoli oggettivi in cui si lavora nella scuola che non sempre consentono di avere a disposizione apparati tecnologici sofisticati. Abbiamo deciso anche di conservare tutto il materiale in un unico volume senza separarlo per ordini di studio. Confermiamo così l’intenzione dell’Osservatorio di dare visibilità reciproca a curricoli spesso molto diversi che dovrebbero vicendevolmente conoscersi meglio, almeno nella rappresentazione degli esiti finali. Per completare il quadro della problematica affrontata in generale dal monitoraggio e in particolare da questa selezione riportiamo alcuni dati a titolo di esempio, rimandando per un approfondimento al sito Internet già citato o al rapporto in via di pubblicazione per ulteriori approfondimenti. La tabella mostra la distribuzione delle scelte delle commissioni rispetto al formato delle terze prove.


Come si può notare le commissioni hanno usato prevalentemente quesiti a scelta multipla anche se nella prima fase di attuazione della riforma la normativa prevedeva la possibilità di limitarsi a solo 10 quesiti, il che rendevano questa modalità poco consistente. Gli istituti professionali hanno preferito ricorrere ai casi pratici e professionali, seguiti in ciò dagli istituti tecnici. I licei hanno optato al 42% per le scelte multiple e al 32% per i quesiti con trattazione sintetica. Le altre forme hanno avuto una consistenza più marginale sia per la maggiore difficoltà di preparazione della prova in tempi ridotti come nel caso della prova integrata con testo di riferimento sia per qualche diffidenza delle commissioni rispetto alla possibilità di richiedere lo sviluppo di un progetto su cui la classe aveva già effettivamente lavorato durante l'anno. In realtà, le prove che i nostri classificatori hanno isolato come prove con testo di riferimento sono state classificate dalle commissioni sotto altre voci, come casi professionali o come trattazione sintetica. Come si può notare negli esempi selezionati spesso il 'testo' consiste in un'immagine, uno schema, una consegna complessa. Omesso N

%

Sperimentale N

%

Licei N

Professionali %

N

%

Tecnici N

%

1

1,9

93

4,0

183

3,2

124

3,9

236

3,1

trattazione sintetica

5

9,3

648

27,6

1843

32,3

354

11,2

1417

18,8

quesiti a risposta multipla

32

59,3

1037

44,1

2434

42,6

1026

32,6

3238

42,9

casi pratici e professionali

14

25,9

447

19,0

988

17,3

1415

44,9

2285

30,2

quesiti a risposta singola

18

0,8

5

0,1

19

0,6

127

1,7

problemi a soluzione rapida

15

0,6

7

0,1

101

3,2

121

1,6

sviluppo di progetti

54

2,3

195

3,4

37

1,2

62

0,8

con testo di riferimento

2

3,7

38

1,6

53

0,9

76

2,4

70

0,9

Totale

54

100

2350

100

5708

100

3152

100

7556

100

Certamente la nuove disposizioni per il secondo anno di attuazione, consentendo un uso più flessibile delle varie forme, permetteranno alle commissioni una scelta più vasta e la produzione di prove più attendibili. Sulla attendibilità di tali prove, sulla loro facilità e coerenza rispetto alle altre prove scritte vi è stato già una diffuso dibattito, non sempre adeguatamente documentato. Possono essere motivo di riflessione i grafici seguenti.


Andamenti delle tre prove scritte 80000

70000

60000

50000

40000

30000

20000

10000

0 1

2

3

4

5 prima prova

6

7

8

9

seconda prova

10

11

12

13

14

15

terza prova

La distribuzione dei punteggi mostra che la terza prova non è stata una generale panacea in quanto ha assegnato punteggi su tutta la banda anche su valori inferiori alla sufficienza. Rispetto alle altre due prove scritte vanno notate due particolarità. Non presenta in 10, che è il valore di soglia per raggiungere la sufficienza, un picco come accade invece alla prima prova e alla seconda ma ha un andamento regolare. Essendo la terza prova una prova strutturata in cui in moltissimi casi la commissione ha convenuto a priori i criteri di assegnazione di punteggi non si sono verificati quegli aggiustamenti intorno alla soglia di sufficienza che sono invece evidenti nel caso della prima e della seconda prova. Questo è certamente un elemento positivo che depone a favore dell'attendibilità della prova che funzionerebbe in modo più 'oggettivo' delle altre. Il secondo aspetto da analizzare riguarda la frequenza del voto massimo che è più alta delle altre due prove. Ciò potrebbe essere l'indizio di una scelta di alcune commissioni di rendere la terza prova più facile delle altre al punto di saturare maggiormente il punteggio massimo. Se si osserva però la distribuzione del punteggio complessivo assegnato nelle prove scritte emerge una sostanziale regolarità e simmetria con il valore modale nel punto di mezzo tra la sufficienza e il massimo. La leggera irregolarità sul 60, che ha assorbito alcuni casi che avrebbero dovuto 59, è probabilmente dovuto alla volontà di alcune commissioni di concedere eventualmente il bonus nella fase finale.


Distribuzione alla fine delle prove scritte 18000

16000

14000

12000

10000

8000

6000

4000

2000

Che ci sia stata però una variegata politica delle commissioni nel decidere il livello di difficoltà della prova appare evidente dal grafico seguente.

Confronti territoriali medie prove scritte 12,5

12

11,5

11

10,5

10

9,5

nordovest

nordest

prima prova

centro

seconda prova

sud

terza prova

sudisole

70

60

50

40

30

20

10

0

0


Se si confrontano i valori assoluti dei punteggi medi nelle varie prove scritte distinti per strato territoriale si nota chiaramente che il livello di difficoltà è stato diversamente pianificato e ciò è in contrasto anche con quanto emerge nelle altre due prove. Questo volume e il CD rom ATP1999 vogliono rispondere a ai problemi posti da questa situazione: una migliore conoscenza di ciò che effettivamente è stato proposto agli studenti come terza prova consente di far convergere gradualmente il sistema verso una maggiore condivisione degli standard di fatto meno circoscritti all'ambito del proprio distretto o della propria provincia ed arrivare nel pieno rispetto della autonomia delle singole commissioni ad una cultura maggiormente condivisa anche sulla terza prova. Il grafico seguente sottolinea in vece un punto di forza della terza prova. Medie punteggi standardizzati rispetto ai tipi di scuole 0,4

0,3

0,2

0,1

0

-0,1

-0,2

-0,3

-0,4

Sperimentale

credito scolastico

Licei

prima prova

Professionali

seconda prova

terza prova

Tecnici

colloquio

Se compariamo i punteggi standardizzati4 attribuiti in tutte le prove e nel credito scolastico rispetto ai vari ordini di studio notiamo che le due prove scritte, la seconda e la terza, hanno un andamento sostanzialmente indipendente dal tipo di scuola. Mentre nel credito scolastico nella prima prova e nel voto finale si stabilisce quasi una gerarchia di valori, prima i licei poi i tecnici e quindi i professionali, la seconda e terza prova riportano valori più vicini alla media generale, che nel grafico è rappresentata dallo zero per tutte le scale. Ciò corrisponde ad una specifica finalità di queste prove che misurano la competenza rispetto alle finalità proprie dell'indirizzo e che quindi consentono anche alle scuole con candidati più carenti, soprattutto per altri aspetti linguistici, di far emergere prestazioni specifiche anche eccellenti. Questo è un punto di difficoltà del nuovo esame di stato: come valutare la preparazione di un candidato? facendo riferimento ad uno standard unico comune a tutti gli indirizzi di studio (è quello che in parte accade nella prima prova e nell'ambito linguistico) o piuttosto al curricolo effettivamente seguito dai candidati o, ancora, basandosi sugli obiettivi specifici dell'indirizzo di studio. Questo volume è tentativo di contribuire ad una maggiore omogeneità e trasparenza di criteri e di strumenti per gestire la valutazione finale degli studi secondari.

4

Per rendere confrontabili gli andamenti, le variabili Credito scolastico, Colloquio, Punteggi nelle prove scritte sono stati standardizzati (attraverso la riconduzione ad una scala unica) in modo che tutte abbiano stessa media 0 e stesso scarto 1.

votofinale


i

Azione 1. Raccolta su base campionaria dei documenti dei consigli di classe. Obiettivo: raccogliere su un campione probabilistico nazionale, circa 200 esempi di documentazioni e analizzarli secondo almeno due criteri di lettura: l’adeguatezza alla norma e la ricchezza dei contenuti presentati

Azione 2. Raccolta su base campionaria di alcuni dati sensibili sullo svolgimento delle operazioni fondamentali Su un campione probabilistico di circa 400 scuole sono state monitorate circa 3000 commissioni con la raccolta per via telematica di tre schede: 1. i crediti scolastici assegnati rapportati alla media aritmetica dei voti in una classe opportunamente campionata della scuola. Le analisi complessive per tipi di scuola, per regioni geografiche e rispetto ad altre variabili esplicative sono state rese note al MPI prima della costituzioni delle commissioni. 2. la regolaritĂ delle presenze nelle commissioni. E' stata rilevata la situazione delle presenze nel primo giorno di lavoro delle commissioni. 3. gli esiti aggregati del punteggio complessivo alla fine degli esami. Azione 3 Studio approfondito dei colloqui Azione 4 Raccolta ed analisi della scheda del presidente Con tale azione si intende raccogliere sull'intero universo delle commissioni e dei candidati tutte le principali informazioni relativi agli esiti. Azione 5 Raccolta di tutte le terze prove assegnate Tale azione prevista dal regolamento ha consentito la pubblicazione di un archivio elettronico ATP2000 contenente le copie di circa 13.000 terze prove prodotte dalle commissioni e di un volume con piĂš di 500 terze prove denominato ST2000.

Azione 6 Raccolta di un campione di prime prove Analisi sistematica approfondita per verificare l'impatto delle nuove tracce, i livelli di padronanza emergenti e i criteri di valutazione adottati dalle commissioni.


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.