Valutazione dei Modelli

Page 1

Valutazione dei Modelli Corso di Apprendimento Automatico Laurea Magistrale in Informatica Nicola Fanizzi Dipartimento di Informatica Universita` degli Studi di Bari

30 dicembre 2008

Corso di Apprendimento Automatico

Valutazione dei Modelli


Sommario

Principi di conservazione ed indeterminazione Errore, Bias e Varianza Intervalli di confidenza per l’errore osservato dell’ipotesi Stimatori Distribuzioni: Binomiale, Normale Teorema del Limite Centrale t-Test a coppie

Confronto di algoritmi di apprendimento Metodi di campionamento per la stima Altri metodi

Corso di Apprendimento Automatico

Valutazione dei Modelli


Valutazione

Quant’e` predittivo il modello appreso? L’errore sui dati di training non e` un buon indicatore della performance su dati futuri Altrimenti 1-NN sarebbe un classificatore ottimale

Soluzione semplice usabile se si hanno a disposizione molti esempi classificati: Suddividere i dati in training e test set

Tuttavia: i dati (soprattutto se classificati) sono in genere in numero limitato Si necessitano tecniche piu` sofisticate

Corso di Apprendimento Automatico

Valutazione dei Modelli


Confronto di algoritmi Domande 1

Se si e` interessati alla performance sulla generalizzazione, ci sono ragioni per preferire un classificatore o un algoritmo piuttosto che un altro ?

2

Se non si fanno assunzioni supplementari, ci si puo` aspettare che un algoritmo sia globalmente superiore (o inferiore) rispetto agli altri ? Si puo` trovare un algoritmo che risulti in generale superiore (o inferiore) ad una procedura di classificazione casuale ?

3

Risposte 1-2-3: NO L’apparente superiorita` di un algoritmo dipende dal particolare problema e dalla distribuzione dei dati Corso di Apprendimento Automatico

Valutazione dei Modelli


Principio di conservazione dell’errore I Supponendo di lavorare nel discreto sia P(h) la probab. a priori di h ∈ H e sia P(h|S) la probab. di costruire h in base al campione S Errore atteso: E[err |S] =

XX

P(x)[1 − δ(f (x), h(x))]P(h|S)P(f |S)

h,f x6∈S

dato S, e` correlato alla somma degli input, pesati dalla loro probabilita` P(x), e all’allineamento della risposta dell’ipotesi con la risposta corretta, pesati, risp., da P(h|S) e P(f |S) Quindi: non conoscendo P(f |S) a priori, si puo` concludere poco sulla performance dell’alg. di classificazione P(h|S)

Corso di Apprendimento Automatico

Valutazione dei Modelli


Principio di conservazione dell’errore II Errore atteso off-training del k -esimo algoritmo: X E[errk |f , n] = P(x)[1 − δ(f (x), hk (x))]P(hk (x)|S) x6∈S

Le assunzioni sul dominio del problema sono molto rilevanti Anche per alg. apparentemente ottimali, vi sono problemi per i quali le prestazioni sono basse: quelli in cui algoritmo e probab. a posteriori non collimano Si dimostra infatti una sorta di ”teorema di conservazione” per la generalizzazione: per ogni alg. di apprendimento, la somma delle prestazioni rispetto a tutte le possibili funzioni obiettivo e` nulla piu` formalmente... Corso di Apprendimento Automatico

Valutazione dei Modelli


Teorema No Free Lunch Theorem (No Free Lunch) Dati due algoritmi, con probab. P(h1 (x)|S) e P(h2 (x)|S), indipendentemente dalla distribuzione dei campioni P(x) e dal loro numero n, sono vere le seguenti asserzioni: 1

Mediando uniformemente su tutte le funzioni f : E(err1 |f , n) − E(err2 |f , n) = 0;

2

Per ogni campione fissato S, mediando uniformemente su tutte le funzioni f : E(err1 |f , S) − E(err2 |f , S) = 0;

3

Mediando uniformemente sulle probab. a priori P(f ): E(err1 |n) − E(err2 |n) = 0;

4

Per ogni campione fissato S, mediando uniformemente sulle probab. a priori P(f ): E(err1 |f , S) − E(err2 |f , S) = 0 Corso di Apprendimento Automatico

Valutazione dei Modelli


No Free Lunch – osservazioni I 1

Stesso errore se si media su tutte le funzioni possibili: XX P(S|f )[E(err1 |f , n) − E(err2 |f , n)] = 0 f

S

se le funzioni sono equiprobabili, allora in generale un algoritmo (buono) non supera mai un altro (cattivo) 2

Fissato S, nessun algoritmo porta a migliorare l’errore off-training rispetto agli altri: X [E(err1 |f , D) − E(err2 |f , D)] = 0 f

3

come 1. per distribuzioni delle funzioni target non uniformi

4

come 2. per distribuzioni delle funzioni target non uniformi Corso di Apprendimento Automatico

Valutazione dei Modelli


impossibili

+ 0

sopra la media sotto la media in media

spazi dei problemi

possibili

No Free Lunch – osservazioni II

a) buona accuratezza su pochi problemi, ma molto bassa sugli altri b) eccellente accuratezza su molti problemi, ma scarsa su molti altri c) media accuratezza generale, con punte molto alte o molto basse d) eccellenti prestazioni su tutto e),f) impossibile andar mediamente bene su tutti i problemi Corso di Apprendimento Automatico

Valutazione dei Modelli


Similarita` e indeterminazione I

Supponiamo di lavorare ancora nel discreto in logica proposizionale Dati due esempi, supponiamo di usare un numero finito feature (e quindi di pattern) per descriverli In assenza di informazione a priori sulla distribuzione, una misura di similarita` tra esempi potrebbe semplicemente contare il numero di pattern condivisi Si stabilisce un risultato di indeterminazione basato sulla uguale similarita` di tutti gli esempi, se non si fanno assunzioni ulteriori in base alla conoscenza di fondo sul dominio

Corso di Apprendimento Automatico

Valutazione dei Modelli


Similarita` e indeterminazione II Esempio Istanze xi come triple di feature fi binarie:

a) f1 : ha gambe, f2 : ha braccio dx, f3 : ha mano dx (notare che f3 ⇒ f2 ) b) ... c) f1 : arancio, f2 : marrone, f3 : blu mutamente esclusive Corso di Apprendimento Automatico

Valutazione dei Modelli


Similarita` e indeterminazione III Le feature fi corrispondono ad insiemi elementari, le formule / pattern ad insiemi complessi Diagramma generale per un problema con 2 feature

es. 4 insiemi descritti da formule congiuntive: x1 ∈ f1 ∧ ¬f2 x2 ∈ f1 ∧ f2 x3 ∈ ¬f1 ∧ f2 Corso di Apprendimento Automatico

Valutazione dei Modelli

x4 ∈ ¬f1 ∧ ¬f2


Similarita` e indeterminazione IV Rango (rank) r di un pattern: numero di elementi che descrive/contiene NB.

1

2

3

4

rank

4 0

= 0: ∅ = f1 ∧ ¬f1 ∨ f2 ∧ ¬f2

rank 41 = 4: {x1 } = f1 ∧ ¬f2 {x2 } = f1 ∧ f2 {x3 } = ¬f1 ∧ f2 {x4 } = ¬(f1 ∨ f2 ) 4 rank 2 = 6: {x1 , x2 } = f1 {x1 , x3 } = f1 ∧ ¬f2 ∨ ¬f1 ∧ f2 {x1 , x4 } = ¬f2 {x2 , x3 } = f2 {x2 , x4 } = ¬(f1 ∧ f2 ) {x3 , x4 } = ¬f1 4 rank 3 = 4: {x1 , x2 , x3 } = f1 ∨ f2 {x1 , x2 , x4 } = f1 ∨ ¬f2 {x1 , x3 , x4 } = ¬(f1 ∧ f2 ) {x2 , x3 , x4 } = ¬f1 ∨ f2 rank 44 = 1: {x1 , x2 , x3 , x4 } = > = f1 ∨ ¬f1 ∨ f2 ∨ ¬f2 Corso di Apprendimento Automatico

Valutazione dei Modelli


Similarita` e indeterminazione V In assenza di ulteriori informazioni: Misura di similarita` basata sul numero di pattern condivisi Osservazioni Date d le istanze, # di pattern distinti condivisi: 0 di rank 1, 1 di rank 2, d−1 = d − 2 di rank 3, . . . 1 In generale, dato r (r ≤ d), # pattern condivisi:

d−1 r −2

Per cui il numero totale di predicati condivisi risulta: d X d −2 = (1 + 1)d−2 = 2d−2 r −2 r =1

indipendentemente dalla scelta delle feature / pattern Corso di Apprendimento Automatico

Valutazione dei Modelli


Teorema del brutto anatroccolo – Ugly Duckling

Theorem (Ugly Duckling) Dato un insieme finito di pattern per distinguere coppie di esempi, il numero di pattern condivisi da due esempi risulta contante e indipendente dalla loro scelta. Inoltre, se la loro similarita` dipende dal numero totale di pattern condivisi, allora tutte le coppie di esempi sono ugualmente simili

Corso di Apprendimento Automatico

Valutazione dei Modelli


Definizioni di errore I L’errore vero dell’ipotesi h rispetto alla funzione target f ed alla distribuzione D e` la probabilita` che h misclassificano un’istanza presa a caso seguendo D: errD (h) ≡ Px∈D [f (x) 6= h(x)]

L’errore sul campione di h rispetto ad f ed al campione di dati S e` la proporzione di esempi che h misclassifica: errS (h) ≡

1X δ(f (x), h(x)) n x∈S

dove δ(f (x), h(x)) vale 1 se f (x) 6= h(x) e 0 altrimenti Quanto si riesce a stimare bene errD (h) con errS (h)? Corso di Apprendimento Automatico

Valutazione dei Modelli


Definizioni di errore II In caso di regressione (f , h a valori reali) Si definisce una loss function: L(f (x), h(x)) Tipicamente: (f (x) − h(x))2 errore quadratico L(f (x), h(x)) = |f (x) − h(x)| errore assoluto ` Quindi l’errore di generalizzazione sara: errD (h) ≡ E[L(f (x), h(x))] ` Mentre l’errore di training e: errS (h) ≡

1X L(f (x), h(x)) n x∈S

Corso di Apprendimento Automatico

Valutazione dei Modelli


Problemi di stima dell’errore I bias alto bassa varianza

errore di predizione

bias basso alta varianza

alta

complessitĂ del modello

bassa

errS (h) non e` una buona stima di errD (h): decresce al crescere della complessita` del modello, arrivando a 0 per modelli complessi Tali modelli, pero` risultano sovradattati (overfit) sul campione di training: scarsa generalizzazione

Corso di Apprendimento Automatico

Valutazione dei Modelli


Problemi di stima dell’errore II In caso i dati abbondino: suddivisione del dataset in 3 parti: training set: per costruire i modelli; validation set: per stimare l’errore di predizione al fine di selezionare il modello migliore; test set: per stabilire l’errore di generalizzazione del modello finale scelto Idealmente, il test set andrebbe preservato ed usato solo alla fine del processo Se si usasse il test set per la scelta del modello con il minimo errore di test, allora sottostimerebbe il vero errore Suddivisione tipica:

training 50%

Corso di Apprendimento Automatico

validation 25%

Valutazione dei Modelli

test 25%


Problemi di stima dell’errore III Bias Se S e` il training set, errS (h) e` una stima troppo ottimista (biased) bias ≥ E[errS (h)] − errD (h) Per una stima non falsata (unbiased), h e S devono essere scelti in modo indipendente Varianza Anche con un campione S falsato, errS (h) potrebbe nondimeno differire da errD (h)

Corso di Apprendimento Automatico

Valutazione dei Modelli


Bias vs. Varianza I Supponendo che h(x) = f (x) + ε con E(ε) = 0 e Var (ε) = σε2 ` allora l’errore atteso sara: errD (h(x)) = E[L(h(x), f (x))] = E[(h(x) − f (x))2 ] = σε2 + [Eh(x) − f (x)]2 + {E[h(x) − Eh(x)]}2 = σε2 + [Bias(h(x))]2 + Var [h(x)] = Errore irriducibile + Bias2 + Varianza

Adottando una loss function 0/1 il compromesso bias/varianza si comporta diversamente

Corso di Apprendimento Automatico

Valutazione dei Modelli


Bias vs. Varianza II S1

S2

S3

Corso di Apprendimento Automatico

Valutazione dei Modelli


Stimatori

Esperimento: 1

scegliere il campione S di cardinalita` n secondo la distribuzione D

misurare errS (h) errS (h) e` una variabile aleatoria (ossia, il risultato di esperimento) 2

errS (h) e` uno stimatore non falsato (unbiased) di errD (h) Dato il valore di errS (h) osservato, cosa si puo` concludere su errD (h) ?

Corso di Apprendimento Automatico

Valutazione dei Modelli


Intervalli di confidenza I

SE S contiene n esempi, scelti indipendentemente da h e da ognuno degli altri n ≥ 30 ALLORA con probabilita` di circa il 95%, errD (h) cade nell’intervallo r errS (h)(1 − errS (h)) errS (h) ± 1.96 n

Corso di Apprendimento Automatico

Valutazione dei Modelli


Intervalli di confidenza II SE S contiene n esempi, scelti indipendentemente da h e da ognuno degli altri n ≥ 30 ALLORA con probabilita` di circa N%, errD (h) cade nell’intervallo r errS (h)(1 − errS (h)) errS (h) ± zN n dove N%: zN :

50% 0.67

68% 1.00

80% 1.28

Corso di Apprendimento Automatico

90% 1.64

95% 1.96

Valutazione dei Modelli

98% 2.33

99% 2.58


Predire le prestazioni

Assumendo che il tasso di errore stimato sia del 25% Quant’e` vicino questo valore al tasso d’errore reale ? dipende dal numero di dati

La predizione e` come il lancio di una monetina (falsata) ad es. testa sta per ”successo”, croce sta per ”errore”

In statistica, una sequenza di eventi indipendenti come questa si chiama processo di Bernoulli La teoria della statistica fornisce intervalli di confidenza per la vera proporzione nascosta

Corso di Apprendimento Automatico

Valutazione dei Modelli


errS (h) come variabile aleatoria Ripetere l’esperimento con diversi campioni S estratti casualmente (di card. n) Probabilita` di osservare r esempi misclassificati:

P(r ) =

n! errD (h)r (1 − errD (h))n−r r !(n − r )!

Corso di Apprendimento Automatico

Valutazione dei Modelli


Distribuzione binomiale Probabilita` P(r ) di r teste in n lanci (con p = P(testa)) P(r ) =

n! pr (1 − p)n−r r !(n − r )!

Valore atteso, o media, di X : E[X ] ≡

n X

rP(r ) = np

r =0

Varianza di X : Var (X ) ≡ E[(X − E[X ])2 ] = np(1 − p) Deviazione standard di X : q p σX ≡ E[(X − E[X ])2 ] = np(1 − p) Corso di Apprendimento Automatico

Valutazione dei Modelli


Approssimazione della binomiale tramite normale I errS (h) segue una distribuzione Binomiale, con media: µerrS (h) = errD (h) deviazione standard: r σerrS (h) =

errD (h)(1 − errD (h)) n

Per approssimare con una Normale media: µerrS (h) = errD (h) deviazione standard: r σerrS (h) ≈

Corso di Apprendimento Automatico

errS (h)(1 − errS (h)) n

Valutazione dei Modelli


Approssimazione della binomiale tramite normale II Per usare la normale N(0, 1) si riduce la var. casuale X in modo da avere una media pari a 0 e varianza unitaria: trasformazione di X : f −p sqrtp(1 − p)/N (ossia si sottrae la media e si divide per la dev. standard) Equazione risultante f −p P[−z ≤ p ≤ z] = c p(1 − p)/N Soluzione: z2 p=X+ ± 2N

r

X X2 z2 z2 − + / 1+ N N N 4N 2

Corso di Apprendimento Automatico

Valutazione dei Modelli


Distribuzione normale I

"

1

1 p(x) = √ exp − 2 2 2πσ

x −µ σ

2 #

La probabilita` che X cada nell’intervallo [a, b] e` data da Z

b

p(x)dx a Corso di Apprendimento Automatico

Valutazione dei Modelli


Distribuzione normale II

Valore atteso o media di X : E[X ] = µ

Varianza di X : Var (X ) = σ 2 Deviazione standard di X : σX = σ

Corso di Apprendimento Automatico

Valutazione dei Modelli


Distribuzione normale III

` cade nell’intervallo µ ± 1.28σ L’80% della superficie (probabilita) ` cade nell’intervallo µ ± zN σ N% della superficie (probabilita) N% zN

50% 0.67

68% 1.00

80% 1.28

Corso di Apprendimento Automatico

90% 1.64

95% 1.96

Valutazione dei Modelli

98% 2.33

99% 2.58


Intervalli di confidenza I

SE S contiene n esempi, estratti in modo indipendente da gli altri e da h n ≥ 30 ALLORA ` con circa il 95% di probabilita, errS (h) ricade nell’intervallo r errD (h)(1 − errD (h)) errD (h) ± 1.96 n

Corso di Apprendimento Automatico

Valutazione dei Modelli


Intervalli di confidenza II

Equivalentemente, errD (h) ricade nell’intervallo r errS (h) ± 1.96

errD (h)(1 − errD (h)) n

che e` approssimativamente p errS (h) ± 1.96 errS (h)(1 − errS (h))/n

Corso di Apprendimento Automatico

Valutazione dei Modelli


Teorema del Limite Centrale Si considera un insieme di variabili indipendenti ed identicamente distribuite (i.i.d.) Y1 . . . Yn , che seguono una distribuzione arbitraria con media µ e varianza finita σ 2 Media campionaria n 1X ¯ Y ≡ Yi n i=1

Theorem (Teorema del Limite Centrale) ¯ si avvicina alla Al tendere di n → ∞, la distribuzione di Y σ2 Normale, con media µ e varianza n ossia, la somma di un gran numero di variabili i.i.d. segue una distribuzione che e` approssimativamente Normale

Corso di Apprendimento Automatico

Valutazione dei Modelli


Calcolo degli intervalli di confidenza

1

Si considera il parametro p da stimare

2

Scegliere uno stimatore

errD (h) errS (h) 3

Determinare la distribuzione che segue lo stimatore errS (h) segue una distribuzione Binomiale, approssimata da una Normale quando n ≼ 30

4

Trovare l’intervallo [L, U] tale che il N% della massa di probabilita` ricada nell’intervallo Si usa la tavola dei valori di zN

Corso di Apprendimento Automatico

Valutazione dei Modelli


Valutare ipotesi differenti I Testare h1 sul campione S1 e h2 su S2 1

Scegliere il parametro da stimare d ≡ errD (h1 ) − errD (h2 )

2

Scegliere uno stimatore dˆ ≡ errS1 (h1 ) − errS2 (h2 )

3

Determinare la distribuzione che regola lo stimatore s errS1 (h1 )(1 − errS1 (h1 )) errS2 (h2 )(1 − errS2 (h2 )) σdˆ ≈ + n1 n2 Corso di Apprendimento Automatico

Valutazione dei Modelli


Valutare ipotesi differenti II

4

Trovare l’intervallo [L, U] tale che l’N% della massa di probabilita` ricada nell’intervallo s dˆ ±zN

errS1 (h1 )(1 − errS1 (h1 )) errS2 (h2 )(1 − errS2 (h2 )) + n1 n2

Corso di Apprendimento Automatico

Valutazione dei Modelli


t-Test accoppiato per confrontare hA e hB I

1

Partizionare i dati in k test set disgiunti T1 , T2 , . . . , Tk di pari cardinalita` (≥ 30)

2

Per i da 1 a k , eseguire: δi ← errTi (hA ) − errTi (hB )

3

¯ dove Restituire il valore δ, k

1X δ¯ ≡ δi k i=1

Corso di Apprendimento Automatico

Valutazione dei Modelli


t-Test accoppiato per confrontare hA e hB II

Stima dell’intervallo per d con confidenza dell’N% : δ¯ ± tN,k −1 sδ¯ v u u s¯ ≡ t δ

k

X 1 ¯2 (δi − δ) k(k − 1) i=1

Nota: δi ha approssimativamente una distribuzione Normale

Corso di Apprendimento Automatico

Valutazione dei Modelli


Confronto degli algoritmi LA e LB I

Cosa si deve stimare: ES⊂D [errD (LA (S)) − errD (LB (S))] dove L(S) e` l’ipotesi in output da L sul training set S ossia, la differenza attesa, in termini di errore reale, tra le ipotesi prodotte dagli algoritmi LA e LB , addestrati su campioni di training casuali S costruiti secondo la distribuzione D

Corso di Apprendimento Automatico

Valutazione dei Modelli


Confronto degli algoritmi LA e LB II

Ma, dato il numero limitato dei dati D0 , qual e` un buono stimatore ? Si potrebbe partizionare D0 in un training set S e un training set T0 , e quindi misurare errT0 (LA (S0 )) − errT0 (LB (S0 ))

Ancor meglio se si ripete la procedura molte volte e si mediano i risultati

Corso di Apprendimento Automatico

Valutazione dei Modelli


Confronto degli algoritmi LA e LB III 1

2

Partizionare i dati D0 in k test set disgiunti T1 , T2 , . . . , Tk di pari cardinalita` (≥ 30) Per i da 1 a k , eseguire: Usare Ti come test set e i dati rimanenti per il training set Si Si ← {D0 − Ti } hA ← LA (Si ) hB ← LB (Si ) δi ← errTi (hA ) − errTi (hB )

3

¯ dove Restituire il valore δ, k

1X δi δ¯ ≡ k i=1

Corso di Apprendimento Automatico

Valutazione dei Modelli


Confronto degli algoritmi LA e LB IV Si noti che si dovrebbe usare il t-test accoppiato su δ¯ per ottenere un intervallo di confidenza Ma questo non e` del tutto corretto poiche` i training set in questo algoritmo non sono indipendenti (si sovrappongono) E` piu` corretto considerare l’output dell’algoritmo come una stima di ES⊂D0 [errD (LA (S)) − errD (LB (S))] aniziche` di ES⊂D [errD (LA (S)) − errD (LB (S))] a volta anche l’approssimazione puo` almeno dare un’idea Corso di Apprendimento Automatico

Valutazione dei Modelli


Stima Holdout

Che fare se i dati sono pochi ? Il metodo holdout riserva un certo quantitativo per il test e usa il resto per il training In genere: 1/3 per il test, 2/3 per il training

Problema: i campioni potrebbero non essere rappresentativi Ad es. la classe target potrebbe mancare nei dati di test

Una versione avanzata usa la stratificazione Assicura che ogni classe sia rappresentata in proporzione equa (approssimativamente) in entrambi i sottoinsiemi

Corso di Apprendimento Automatico

Valutazione dei Modelli


Metodo di Holdout Ripetuto

La stima Holdout puo` essere resa piu` affidabile ripetendo il processo con differenti sottoinsiemi di dati Ad ogni iterazione, si seleziona casualmente una certa proporzione e` per il training (possibilmente con la stratificazione) I tassi d’errore nelle diverse iterate sono mediati in modo da produrre un tasso globale

Questo metodo si dice anche holdout ripetuto Ancora non rappresenta il metodo ottimo: i diversi test set si sovrappongono Come prevenire tale sovrapposizione ?

Corso di Apprendimento Automatico

Valutazione dei Modelli


Cross-validation I

La Cross-validation evita le sovrapposizioni di test set 1

2

primo passo: dividere i dati in k sottoinsiemi di pari cardinalita` secondo passo: usare un sottoinsieme alla volta per il test, ed il resto per il training

1: train

2: train

3: test

4: train

5: train

6: train

Si chiama anche k -fold Cross-Validation (CV) Le varie stime dell’errore sono mediate per produrre una stima dell’errore globale

Corso di Apprendimento Automatico

Valutazione dei Modelli


Cross-validation II Stima dell’errore n

CV =

1X L(f (xi ), h−π(i) (xi )) n i=1

dove π : {1, . . . , n} 7−→ {1, . . . , k} fa da indice della partizione nella quale l’i-esimo esempio e` casualmente assegnato e h−p viene costruita togliendo la p-esima parte Spesso i sottoinsiemi sono stratificati prima di eseguire il metodo di cross-validation In caso di pochi esempi, si puo` usare la leave-one-out CV: il numero di fold corrisponde a quello degli esempi k = n

Corso di Apprendimento Automatico

Valutazione dei Modelli


Cross-validation III cv

errore misclassificazione

err

dim. sottoinsieme Corso di Apprendimento Automatico

Valutazione dei Modelli


Bootstrap

La CV usa il campionamento senza rimpiazzo: una stessa istanza, una volta selezionata, non puo` figurare di nuovo in un particolare training/test set Per costituire il training set, il metodo di bootstrap usa il campionamento con rimpiazzo Training set: campionare un dataset di n istanze n volte con rimpiazzo in modo da costituire un nuovo dataset di n istanze Testing set: usare le istanze dal dataset originario che non figurino nel training set

Corso di Apprendimento Automatico

Valutazione dei Modelli


0.632 Bootstrap

Questo metodo si chiama anche 0.632 bootstrap Una data istanza ha probabilita` pari a 1 − 1/n di non essere selezionata ` Pertanto la probabilita` di finire nel test set sara: 1 n 1− ≈ e−1 ≈ 0.368 n Cio` significa che il training set conterra` approssimativamente il 63.2% delle istanze

Corso di Apprendimento Automatico

Valutazione dei Modelli


Stima dell’errore nel metodo Bootstrap

La stima dell’errore sul test set sara` molto pessimistica Addestramento solo su circa il 63% delle istanze Pertanto, Si combina tale errore con quello di rimpiazzo: err = 0.632 × errtest + 0.368 × errtraining Notare che errtraining ha un peso inferiore di errtest Si ripete il processo diverse volte con differenti campioni (con rimpiazzo) Infine, si mediano i risultati

Corso di Apprendimento Automatico

Valutazione dei Modelli


Osservazioni sul metodo di Bootstrap ` tra i metodi migliori quando i dati sono limitati E Problemi, ad es. si consideri un dataset casuale un classificatore che semplicemente memorizzi gli esempi avra` errtraining = 0% e errtest =∼ 50% ` la stima del metodo di bootstrap sara: 0.632 × 50% + 0.368 × 0% ≈ 31.6% mentre l’errore vero atteso e` del 50%

Si ricorre in tali casi a metodi piu` complessi come il Bootstrap 0.632+ vedere anche metodo Jacknife

Corso di Apprendimento Automatico

Valutazione dei Modelli


Altri metodi

Lift chart Curve ROC Altre misure

Corso di Apprendimento Automatico

Valutazione dei Modelli


Lift chart I

Metodo grafico per il confronto tra diversi scenari Si crea una tabella ordinando le istanze secondo la probabilita` della previsione di positivita` Probabilita` prevista Classificazione reale .95 + .94 + .93 .92 + .88 .87 + .. .. . .

Corso di Apprendimento Automatico

Valutazione dei Modelli


Lift chart II Si costruisce un grafico con: sulle ascisse la dim. del campione e sulle ordinate il numero TP di veri positivi

Corso di Apprendimento Automatico

Valutazione dei Modelli


Curve ROC I

Le curve ROC sono simili alle lift charts ROC sta per �Receiver Operating Characteristic�

Si usano in teoria del segnale per mostrare il compromesso tra tasso di successi e falsi allarmi su canale rumoroso Differenze con le lift chart: sulle ordinate: percentuale dei veri positivi TP nel campione sulle ascisse: percentuale dei falsi positivi FP nel campione

Corso di Apprendimento Automatico

Valutazione dei Modelli


Curve ROC II

uso della cross validation set di dati di test generico

Corso di Apprendimento Automatico

Valutazione dei Modelli


Curve ROC III

Per ricavare la ROC curve dalla CV: Raccogliere le probabilita` delle istanze nelle ripetizioni (fold) di test Ordinare le istanze secondo le loro probabilita` Un’altro modo consiste nel generare una ROC curve per ogni fold e poi fare una media

Corso di Apprendimento Automatico

Valutazione dei Modelli


Curve ROC IV

campione piccolo: usare il metodo A campione grande: usare il metodo B caso intermedio: scegliere tra A e B usando le probabilita` Corso di Apprendimento Automatico

Valutazione dei Modelli


Altre misure I Dall’Information Retrieval Precision: percentuale di doc. ritrovati che sono rilevanti TP TP + FP Recall: percentuale di doc. rilevanti che sono ritrovati TP TP + FN Le curve di precision e recall hanno una forma iperbolica

Corso di Apprendimento Automatico

Valutazione dei Modelli


Altre misure II Misure riassuntive mediazione della precision a diversi valori della recall (es. 20%, 50% and 80% three-point average recall) F1 -measure

2 × recall × precision recall + precision

Sensitivity × Specificity TP TN × TP + FN FP + TN Area sotto la curva ROC (AUC): probabilita` che un’istanza positiva scelta casualmente si posizioni al di sopra di una negativa (sempre presa a caso) Corso di Apprendimento Automatico

Valutazione dei Modelli


Fonti

R. Duda, P. Hart, D. Stork: Pattern Classification, Wiley T. Hastie, R. Tibshirani, J. Friedman: The Elements of Statistical Learning, Springer T. M. Mitchell: Machine Learning, McGraw Hill I. Witten & E. Frank: Data Mining: Practical Machine Learning Tools and Techniques, Morgan Kaufmann

Corso di Apprendimento Automatico

Valutazione dei Modelli


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.