08txtI.qxp_Layout 1 31/01/17 18:58 Pagina 153
Capitolo
8
La correlazione tra variabili
Nei capitoli dedicati alla statistica descrittiva abbiamo preso in esame l’analisi di una singola variabile in un gruppo di soggetti. Tuttavia, in psicologia spesso la ricerca è volta ad approfondire lo studio simultaneo di più variabili misurate nello stesso gruppo di soggetti o, meglio, del tipo di relazione che lega più variabili e, laddove possibile, sintetizzare le informazioni ottenute. Per fare ciò, occorre riferirsi al concetto di “correlazione”. In questo capitolo ci occuperemo di analizzare il concetto di correlazione, distinguendolo da quello di relazione; definire forma, intensità e direzione della correlazione; esporre il calcolo dei diversi indici di misurazione della correlazione, che saranno applicati in diversi esempi pratici.
Obiettivi di apprendimento In questo capitolo discuteremo di:
•
comprendere il concetto di relazione tra le variabili attraverso la definizione di correlazione e regressione;
•
definire i tre parametri in base a cui si valuta una correlazione (forma, entità e direzione);
•
calcolare i diversi indici di misurazione della correlazione, a seconda del livello di misurazione delle variabili in esame.
8.1 La relazione tra le variabili: il concetto di covarianza Nella quotidianità, ci capita spesso di mettere in associazione due aspetti della realtà per spiegare l’insorgenza di un fenomeno. Qualche volta si tratta di “relazioni causa-effetto”, più spesso, invece, si tratta di semplici “correlazioni”. Nella correlazione si ipotizza che le variazioni di una variabile Y possano essere associate, in una certa misura, alle variazioni di una variabile X e, allo stesso tempo, che le variazioni di X possano essere associate alle variazioni di Y. Dunque, non è possibile parlare di “variabile indipendente” e di “variabile dipendente”, né di relazione “causa-effetto”. Il concetto che è alla base della correlazione è, infatti, quello di “covarianza” e non quello di causazione. Date due variabili X e Y, misurate sugli stessi soggetti, definiamo covarianza la tendenza di X e Y a “variare insieme”. Per esempio, possiamo ipotizzare che tra il numero di ore di telelavoro svolto nel week-end e il punteggio a un test di distress psicologico riportato da un gruppo di giovani madri ci sia una relazione positiva:
08txtI.qxp_Layout 1 31/01/17 18:58 Pagina 154
154
La correlazione tra variabili
all’aumentare del numero di ore di telelavoro svolto, aumenta sistematicamente anche il distress riferito dalle donne. Oppure, possiamo ipotizzare che tra la frequenza alle sedute di psicoterapia e il punteggio a un test d’ansia riportato da un gruppo di pazienti esista una relazione negativa: all’aumentare delle sedute di psicoterapia, diminuisce sistematicamente anche il punteggio d’ansia. Dunque, la correlazione risponde semplicemente alla domanda: “Al variare di una variabile varia anche l’altra?” Il fatto che due variabili varino insieme non vuol dire che esse siano sicuramente in una relazione di causalità tra loro: potrebbero esserlo ma anche non esserlo. Con la “regressione”, che tratteremo nel Capitolo 9, è possibile stabilire, tra le variabili prese in esame, quella che causa o precede l’altra. Tuttavia, spesso in psicologia le correlazioni sono confuse con relazioni causali (si veda l’Approfondimento 8.1).
Approfondimento 8.1 La correlazione in psicologia Il continuo aumento dei contributi scientifici della ricerca psicologica volti alla descrizione del comportamento ha portato a evidenziare l’esistenza di diverse regolarità tra due o più eventi comportamentali (McBurney e White, 2007). In psicologia, infatti, l’interesse scientifico è centrato sullo studio di possibili relazioni fra diverse caratteristiche, atteggiamenti, attributi o tratti presenti in una persona o in un gruppo di persone (Pedone, 2002). Tuttavia, è bene sottolineare che la maggior parte della ricerca scientifica in psicologia ha attestato l’esistenza di “correlazioni” e non già di relazioni causa-effetto. Per esempio, la relazione rinvenuta frequentemente nella letteratura scientifica tra “ansia” e “depressione” implica una covariazione tra le due variabili e non una causazione. Detto altrimenti, ansia e depressione risultano significativamente e positivamente associate: all’aumentare dell’una aumenta anche l’altra, così come al diminuire dell’una diminuisce anche l’altra. Tuttavia, non sarebbe appropriato sostenere che la causa dell’ansia sia la depressione, né che la causa della depressione sia l’ansia. Entrambe queste variabili potrebbero, per esempio, appartenere a una stessa dimensione psicopatologica, che è stata definita “affettività negativa” da Clark e Watson (1991), che potrebbe spiegare la tendenza delle due variabili a co-variare, ossia a manifestare aspetti comuni, che tendono a sovrapporsi (Olino et al., 2008). Analogamente, nella ricerca scientifica in psicologia sono state avanzate ipotesi su relazioni tra variabili anche molto diverse, che sono state disconfermate da studi successivi. È il caso della relazione ipotizzata da Richard Lynn (2010), uno dei più famosi studiosi esistenti dell’intelligenza umana, tra la variabile “provenienza geografica italiana” e “quoziente intellettivo”. In un suo articolo molto discusso e controverso, egli concludeva che esistono differenze significative nell’intelligenza tra italiani del Nord e del Sud, a sfavore dei meridionali. Tuttavia, un’attenta analisi dell’elaborazione dei dati di Lynn, condotta da un gruppo di studiosi non solo italiani (Saggino, Tommasi e Robinson, 2011), evidenzia come, tra le due variabili prese in esame, non non vi sia un’associazione significativa e che dunque l’affermazione di Lynn (2010), secondo cui “le differenze Nord-Sud nell’intelligenza degli italiani predicono differenze nell’istruzione, nelle entrate economiche, nella mortalità infantile” è sostanzialmente scorretta, oltre a essere foriera di inutili pregiudizi culturali.
08txtI.qxp_Layout 1 31/01/17 18:58 Pagina 155
155
La correlazione tra variabili
Nel Caso 8.1 riportiamo un esempio di studio correlazionale mentre nei paragrafi successivi tratteremo il concetto di indice di correlazione e le relative procedure di calcolo.
Caso 8.1 Esempio di studio correlazionale Decidere se iscriversi a un corso di laurea e, soprattutto, a quale rappresenta una delle scelte più importanti nella vita della maggior parte dei ragazzi nei paesi industrializzati occidentali (Galotti, 2007). Holland (1985, 1996, 1997) ha sottolineato come sia fondamentale per i giovani effettuare una scelta della facoltà universitaria che, al di là di considerazioni concrete sul futuro inserimento professionale, aderisca e ben si “sposi” con le proprie caratteristiche di personalità, in quanto ciò potrebbe essere predittivo di un buon successo accademico e professionale. Esplorando la letteratura scientifica esistente, diversi studi hanno mostrato un’associazione tra la presenza di specifici tratti di personalità e la scelta di determinate facoltà universitarie. Si tratta di correlazioni e non già di relazioni causa-effetto. Non è plausibile, di fatto, sostenere se siano i tratti di personalità a determinare la scelta della facoltà universitaria (“effetti di selezione”) o, al contrario, sia la scelta di un particolare contesto culturale-accademico ad avere un impatto sistematico sulla struttura di personalità di un individuo (“effetti di socializzazione”). In una ricerca condotta da un gruppo di ricercatori italiani (Balsamo, Lauriola e Saggino, 2012) e pubblicata sulla rivista scientifica Psychology (“Personality and College Major Choice: Which Come First?”, vol. 3, n. 5, pp. 339-405, scaricabile on line: http://dx.doi. org/10.4236/psych.2012.35056) si è cercato di chiarire se venisse prima l’uovo o la gallina. La relazione tra tratti di personalità e scelta della facoltà universitaria è stata studiata non già in studenti universitari ma in un campione di studenti italiani frequentanti l’ultimo anno di scuola superiore, due mesi prima della fine dell’anno scolastico. Per la precisione, a un campione di 886 studenti italiani, con età compresa tra i 17 e i 20 anni (M = 18,11; DS = 0,58) provenienti da diverse scuole superiori, è stata somministrata una batteria di test che includeva una scheda socio-anagrafica, il Big-Five Questionnaire-60 (BFQ-60; Caprara et al., 2006), e una scheda che indagava l’intenzione di iscriversi a un determinato corso di laurea universitario. Dopo aver escluso dal campione gli studenti che hanno dichiarato di non voler continuare gli studi accademici (132 casi), nella restante parte del campione è stata effettuata un’analisi correlazionale tra i cinque tratti di personalità secondo la teoria del Big-Five (Estroversione, Coscienziosità, Stabilità emotiva, Apertura mentale, Amicalità) e l’intenzione di iscriversi a un determinato corso di laurea universitario. Sono emerse correlazioni alte, significative e positive tra due tratti di personalità misurati dal BFQ-60 (Estroversione/Introversione e Coscienziosità/Negligenza) e le diverse intenzioni di scelta di facoltà universitarie (raggruppate in categorie, come, per esempio, “corsi umanistici”, “corsi sociali”, “corsi economico-giuridici”, “scienze della salute” ecc.). Gli studenti che avevano intenzione di intraprendere un percorso universitario di tipo umanistico (che includeva, corsi di laurea in Lingue e Letteratura Classica) risultavano più introversi e coscienziosi rispetto agli studenti che si accingevano a immatricolarsi a corsi di laurea di tipo economico-giuridico (per esempio, in Giurisprudenza o in Economia e Commercio). Correlazioni significative e positive sono state trovate tra l’Estroversione e l’intenzione di iscriversi a “corsi artistici”, così come correlazioni significative e negative sono state trovate tra la Coscienziosità e l’intenzione di iscriversi a “corsi artistici”. Nello specifico, gli
08txtI.qxp_Layout 1 31/01/17 18:58 Pagina 156
156
La correlazione tra variabili
studenti aspiranti artisti risultavano essere più estroversi e meno coscienziosi di quelli che sceglievano altri tipi di studi. Questi risultati sembrerebbero deporre a favore degli effetti di selezione delle differenze individuali nella scelta della facoltà universitaria più che di quelli di socializzazione. Proprio per questo, essi potrebbero essere utili nell’ambito della psicologia dell’orientamento, nella misura in cui indirizzare lo studente dell’ultimo anno di liceo verso la facoltà universitaria cui sono associati tratti di personalità più vicini ai propri potrebbe favorire una maggiore soddisfazione percepita e probabilmente una migliore performance accademica e professionale.
8.2 La correlazione e la sua rappresentazione grafica Statisticamente, la “correlazione” tra due varabili si valuta in base a tre parametri: la forma, la direzione e la forza (o entità o intensità). La forma della correlazione ci permette di distinguere le correlazioni in “lineari” o “non lineari”. In questa sede, ci occuperemo solo delle correlazioni lineari e dei vari indici utili per quantificarla. Per indagare la forma di una correlazione occorre rappresentare i dati attraverso la costruzione di un diagramma di dispersione o scatter-plot, il metodo di rappresentazione grafico più usato per la correlazione tra due variabili. Il diagramma di dispersione è di semplice generazione: basta costruire un sistema di assi cartesiani e riportare sull’asse delle ascisse i diversi valori assunti dalla variabile X e sull’asse delle ordinate i diversi valori assunti dalla variabile Y. Si segna, dunque, un punto per ogni soggetto, all’incrocio tra il valore assunto nella variabile X e quello assunto nella variabile Y. L’insieme dei punti ottenuti (che saranno tanti quanti sono i soggetti) fornisce una prima sostanziale idea sulla forma, ma anche sulla forza e sulla direzione della relazione. L’Esempio 8.1 illustrerà i passi necessari per la costruzione del diagramma di dispersione.
Esempio 8.1 Costruzione del diagramma di dispersione o scatter-plot Uno psicoterapeuta è interessato a studiare la relazione tra “ansia” (variabile X) e “depressione” (variabile Y) in un piccolo campione clinico di cinque pazienti. Dopo aver somministrato due specifici test psicologici a ciascun paziente, ottiene i seguenti risultati:
Paziente A B C D E
Variabile X
Variabile Y
6 5 8 10 4
7 4 5 8 6
Lo psicoterapeuta è interessato ad avere un’idea preliminare sulla relazione tra queste due variabili attraverso il diagramma di dispersione.
08txtI.qxp_Layout 1 31/01/17 18:58 Pagina 157
157
La correlazione tra variabili
Passo 1 Costruire un sistema di assi cartesiani, denominando l’asse delle ascisse “X” e l’asse delle ordinate “Y”. Passo 2 Riportare sull’asse delle ascisse (X) i valori della variabile X (“ansia”) e sull’asse delle ordinare (Y) i valori della variabile Y (“depressione”). Y
8 7 6 5 4 45 6
8
10
X
Passo 3 Riportare all’interno del grafico per ciascun soggetto i rispettivi punteggi ottenuti nei questionari che misurano rispettivamente la variabile X e la variabile Y. Per esempio, per il paziente A: X = 6; Y = 7. Y
8 7 6 5 4
D
A E
C B
45 6
8
10
X
La figura rappresentata è un diagramma di dispersione. Successivamente, forniremo le conoscenze appropriate per interpretarlo.
Attraverso l’ispezione visiva del diagramma di dispersione possiamo definire la correlazione: • “lineare” quando l’andamento dei punti, nel grafico, assume una forma rettilinea, ovvero i punti si distribuiscono idealmente lungo una retta; • “non lineare” quando l’andamento dei punti, nel grafico, assume una forma curvilinea, ovvero i punti si distribuiscono secondo forme diverse dalla retta, come per esempio, sinusoidale, logaritmica, esponenziale. La Figura 8.1 mostra questi due tipi di correlazione. Una relazione “lineare”, simile a quella raffigurata nella Figura 8.1a, potrebbe essere quella tra “numero di ore di studio” e “voto all’esame di Psicologia Generale”. Maggiore è il numero di ore dedicate allo studio della disciplina, più alto sarà il voto ottenuto.
08txtI.qxp_Layout 1 31/01/17 18:58 Pagina 158
158
La correlazione tra variabili
Y
Y
X (a) Lineare
X (b) Curvilinea
Figura 8.1 Rappresentazione grafica di due relazioni aventi forme diverse: lineare (a) e curvilinea (b).
Una relazione “a U rovesciata”, simile a quella raffigurata nella Figura 8.1b, molto nota nella letteratura scientifica in psicologia, è quella tra la variabile “livello d’ansia” e la variabile “rapidità di apprendimento”. All’aumentare del livello d’ansia aumenta anche la rapidità di apprendimento, sino a che la tendenza si inverte. Ciò vuol dire che a livelli molto bassi e molto alti d’ansia è associata una scarsa rapidità di apprendimento, mentre livelli intermedi d’ansia sono associati a un’alta rapidità di apprendimento. Quando la nube di punti nel diagramma di dispersione appare diffusa, tale da non suggerire alcuna forma, si parla di assenza di correlazione, ossia i valori di Y variano in modo casuale al variare di X (e viceversa). La relazione misurata attraverso i coefficienti di correlazione che qui studieremo è di tipo lineare. Il secondo parametro da considerare per valutare una correlazione è la direzione. Essa riguarda il verso positivo o negativo della relazione ed è espressa dal “segno” che precede l’indice di correlazione, che può essere “+” o “-”. La correlazione lineare è positiva quando le due variabili variano nella stessa direzione, ossia all’aumentare dei valori di una variabile aumentano sistematicamente anche i valori dell’altra oppure al diminuire dei valori di una anche i valori dell’altra diminuiscono. Si può, dunque, affermare che le due variabili X e Y variano “concordemente” (Ercolani, Areni e Leone, 2001). È negativa, invece, quando all’aumentare di una variabile l’altra diminuisce. In base alla direzione, le relazioni si presentano graficamente in maniera diversa: i punteggi dei soggetti sembrano collocarsi approssimativamente intorno a una retta immaginaria, inclinata, da sinistra a destra rispetto all’asse delle x: verso l’alto, nel caso di relazione lineare positiva (Figura 8.2a), verso il basso, nel caso di relazione lineare negativa (Figura 8.2b). Un esempio di correlazione positiva può essere quello tra la variabile “età” e il “numero di rughe”: con l’aumentare degli anni aumenta il numero di rughe e viceversa. Un esempio di correlazione negativa può essere quello tra “anni di vita dall’adolescenza alla vecchiaia” e “numero di neuroni”: con l’aumentare degli anni di vita dall’adolescenza alla vecchiaia diminuisce il numero di neuroni, e viceversa. Il terzo parametro usato per valutare una correlazione è la forza (o entità o intensità). Essa si riferisce a quanto è intensa la correlazione tra due variabili ed è espressa dal valore assoluto del coefficiente di correlazione (indicato con r). A partire da 0 (assoluta
08txtI.qxp_Layout 1 31/01/17 18:58 Pagina 159
159
La correlazione tra variabili
Y
Y
X (a) Positiva
X (b) Negativa
Figura 8.2 Rappresentazione grafica di due relazioni aventi direzioni diverse: positiva (a) e negativa (b).
indipendenza), maggiore è il valore assoluto di r (cioè più vicino è a 1) maggiore sarà la forza della relazione tra X e Y, minore è il suo valore assoluto (cioè più vicino è a 0) più debole sarà l’associazione tra X e Y. Nel diagramma di dispersione, maggiore è il valore di r, indipendentemente dal segno, maggiore sarà l’allineamento dei punti nella nube. Dunque, con 1 in valore assoluto si indica la totale concordanza o correlazione perfetta, ovvero all’aumentare di un’unità di misura della X, il corrispondente valore della variabile Y aumenta (o diminuisce) di una quantità costante. Con 0 si indica assenza di correlazione lineare, ovvero le due variabili potrebbero essere legate da una relazione non lineare, che il coefficiente non è in grado di evidenziare. Il segno che precede il valore numerico del coefficiente di correlazione indica, come sopra detto, la direzione della correlazione. Pertanto, -1 indica una perfetta correlazione negativa, +1 una perfetta correlazione positiva. Può essere utile, a tal proposito, riferirsi alle linee guida per l’interpretazione della forza del coefficiente di correlazione, proposte da Ercolani, Areni e Leone (2001) e qui riportate nella Tabella 8.1. Approfondiamo le procedure per il calcolo del coefficiente di correlazione nei paragrafi seguenti. Per agevolarne la comprensione, dobbiamo ricordare le nozioni acquisite nel Capitolo 2. Esistono, infatti, diversi tipi di coefficienti di correlazione lineare, il cui uso dipende dal livello di misura delle variabili in esame. Essi variano nelle formule di calcolo ma la loro interpretazione è la stessa. Nella Tabella 8.5 (vedi oltre) sono riassunti i coefficienti di correlazione di tipo lineare tra due variabili che possiamo applicare, a seconda del livello di misura su cui si trovano le due variabili che abbiamo preso in esame. 8.2.1 Il coefficiente rXY di Bravais-Pearson Per calcolare la correlazione tra due variabili entrambe misurate su scala a intervalli equivalenti o a rapporti equivalenti oppure misurate una su scala a intervalli equivalenti e l’altra su scala a rapporti equivalenti, si ricorre al coefficiente (r) di correlazione di Bravais-Pearson (rXY). Si tratta del coefficiente di correlazione più usato in psicologia, dal momento che la maggior parte delle variabili psicologiche è misurata su scala a intervalli equivalenti (per es.: “ansia”, “depressione”, “fobia”, “quoziente intellettivo”, “tratto di personalità” ecc.).
08txtI.qxp_Layout 1 31/01/17 18:58 Pagina 160
160
La correlazione tra variabili
Tabella 8.1
Linee guida per l’interpretazione della forza del coefficiente di correlazione tra due variabili
Valore
Interpretazione
Diagramma di dispersione
r = +1
Tra le due variabili esiste una concordanza positiva lineare perfetta
+1 < r < 0,50
Indica una relazione positiva molto elevata (per valori di r vicini a 1) o comunque abbastanza elevata Indica una “tendenza” alla relazione positiva
I punti si dispongono tutti perfettamente allineati formando una retta orientata in senso ascendente da sinistra verso destra I punti si dispongono intorno a una retta, con piccole oscillazioni, in senso ascendente da sinistra verso destra I punti, pur suggerendo più o meno vagamente l’idea di una retta, presentano notevoli oscillazioni
0,50 < r < 0,20
0,20 < r < -0,20
-,20 < r < -,50
Indica una totale assenza di correlazione (per r = 0) o trascurabile tendenza alla relazione positiva o negativa (a seconda del segno) Indica una “tendenza” alla relazione negativa
-0,50 < r < -1
Indica una relazione negativa abbastanza elevata o molto elevata
r = -1
Tra le due variabili esiste una concordanza negativa lineare perfetta
Per r = 0 (o valori vicini allo 0) i punti si dispongono senza ordine formando una “nuvola” priva di forma definita
I punti, pur suggerendo più o meno vagamente l’idea di una retta, presentano notevoli oscillazioni I punti si dispongono intorno a una retta, con piccole oscillazioni, orientata in senso discendente da sinistra verso destra I punti si dispongono tutti perfettamente allineati formando una retta orientata in senso discendente da sinistra verso destra
Per procedere al calcolo di tale coefficiente, esistono diverse formule computazionali, tutte derivate dalla formula teorica qui di seguito riportata. rXY =
ΣiN=1 (z Xi ⋅ zYi ) N
(8.1)
dove: rXY = coefficiente di correlazione Bravais-Pearson ΣnN=1 ( zXi ⋅ zYi ) = sommatoria di tutti i prodotti ottenuti moltiplicando, per ciascun soggetto, il punteggio z della variabile X per il punteggio z della variabile Y N = numero delle osservazioni o casi Benché questa formula non sia usata per il calcolo di rXY, essa è utile per la comprensione del suo significato: poiché z rappresenta la distanza del punteggio rispetto alla media del gruppo, il prodotto tra zX e zY di un soggetto è una misura della concordanza tra X e Y per quel soggetto. Dividendo per N, si ottiene una misura media della concordanza dei valori X e Y per tutto il campione. Ne deriva che: 1. se tutti i soggetti hanno punti z simili (in valore assoluto) per X e per Y, il valore di rXY sarà più elevato;
08txtI.qxp_Layout 1 31/01/17 18:58 Pagina 161
161
La correlazione tra variabili
2. il valore di rXY sarà positivo se le coppie di punti z hanno segno uguale (ovvero sono concordi); 3. il valore di rXY sarà negativo se le coppie di punti z hanno segno diverso (ovvero sono discordi); 4. se tutti i soggetti hanno esattamente lo stesso punto z per X e per Y, il coefficiente rXY sarà uguale a 1 (correlazione perfetta). Dalla formula teorica, è possibile derivare diverse formule computazionali con semplici passaggi matematici che si basano su medie e deviazioni standard delle variabili o, meglio ancora, sui dati grezzi. Qui si riportano due formule computazionali basate su dati grezzi, il cui calcolo, nella pratica, risulta molto agevole.
∑ X ⋅Y − ∑ N∑ X) Y) ( ( ∑ ∑ ∑ X − ⋅ ∑ Y − N N Xi ⋅
rXY =
2
(8.2)
2
i
2 i
i
2
i
rXY =
Yi
i
i
∑ X ⋅Y − ∑ X ⋅ ∑Y N ⋅ ∑ X − (∑ X ) ⋅ N ⋅ ∑ Y − (∑ Y ) N⋅ 2 i
i
i
i
i
2
i
i
(8.3)
2
2
i
dove: rXY = coefficiente di correlazione Bravais-Pearson N = numero delle osservazioni o casi Xi Yi = sommatoria dei prodotti di ogni valore della variabile X per ogni valore della variabile Y Xi Yi = sommatoria di tutti i valori della variabile X moltiplicata per la sommatoria di tutti i valori della variabile Y Xi2 = sommatoria di tutti i valori elevati al quadrato della variabile X ( Xi )2 = elevazione al quadrato della sommatoria di tutti i valori della variabile X Yi2 = sommatoria di tutti i valori elevati al quadrato della variabile Y ( Yi )2 = elevazione al quadrato della sommatoria di tutti i valori della variabile Y Le due formule computazionali sono equivalenti. Tuttavia, l’applicazione della Formula (8.3) è di gran lunga preferita poiché richiede dei calcoli molto agevolati, perciò se ne approfondiremo l’elaborazione. I passi necessari per il calcolo di questa formula computazionale sono i seguenti: 1. 2. 3. 4. 5. 6. 7.
calcolare la sommatoria () di tutti i valori (Xi ) della variabile X; calcolare la sommatoria () di tutti i valori (Yi ) della variabile Y; moltiplicare il valore di Xi per il valore di Yi (Xi Yi) per ciascuna unità del campione; calcolare la sommatoria di questi prodotti ( Xi Yi ); elevare al quadrato ogni valore della variabile X e ogni valore della variabile Y; operare la sommatoria di tutti i quadrati di X ( Xi2) e di tutti i quadrati di Y ( Yi2); applicare la Formula (8.3), sostituendo i valori ottenuti dai calcoli preliminari e inserendo N.
08txtI.qxp_Layout 1 31/01/17 18:58 Pagina 162
162
La correlazione tra variabili
Nel precedente punto 3, è errore comune effettuare la moltiplicazione tra la sommatoria di X ( Xi ) e la sommatoria di Y ( Yi ). Tale modo di procedere è errato poiché ciò che richiede il passaggio è la sommatoria dei singoli prodotti ( Xi Yi ) e non il prodotto delle sommatorie ( Xi Yi ). Nei punti 5 e 6, un errore comune è quello di elevare al quadrato la somma di tutti i valori di X e, poi, di Y. Questo modo di procedere è scorretto poiché ciò che va calcolata è la sommatoria dei valori elevati al quadrato (prima di X e poi di Y) e non di elevare la somma dei valori al quadrato (prima di X e poi di Y). Ricordiamo infatti che ( Xi2) ( Xi )2 così come ( Yi2) ( Yi )2. È consigliabile organizzare questi calcoli in tabella, secondo quanto illustrato nell’Esempio 8.2. Entrambe le Formule computazionali (8.2) e (8.3) portano allo stesso risultato. Ricordiamo che il valore del coefficiente di correlazione deve essere sempre compreso tra -1 e +1. Dunque, non sarà mai possibile ottenere come risultato -1,5 o +2. Nel caso si dovessero ottenere risultati al di fuori di questo range, consigliamo allora di ricontrollare attentamente i calcoli e l’inserimento dei diversi valori numerici nell’applicazione della formula. L’Esempio 8.2 chiarirà i passaggi precedentemente illustrati.
Esempio 8.2 Il calcolo del coefficiente di correlazione di Bravais-Pearson (rXY) Uno psicologo ricercatore è interessato a studiare la relazione tra il profitto in Psicometria II (variabile X) e il livello d’ansia (variabile Y). A tale scopo, in sede d’esame, consegna a un campione di 11 studenti un test di profitto sul programma di Psicometria II (composto da trenta domande a risposta multipla) e lo State-Trait Anxiety Inventory (S.T.A.I., Spielberger, Gorsuch e Lushene, 1970), per la misura dell’“ansia di stato”. Registra, dunque, i punteggi ottenuti al test di profitto e i punteggi ottenuti al test d’ansia di ciascun partecipante nella tabella seguente. Studente A B C D E F G H I L M
Profitto in Psicometria II (Xi)
Ansia di stato (Yi)
28 20 25 18 19 23 30 29 24 21 20
15 33 20 47 40 51 10 16 30 34 35
Passo 1 Individuare, innanzitutto, su quale scala di misura si collocano le due variabili in esame per decidere quale coefficiente di correlazione è più appropriato applicare. Sia la variabile X (“profitto in Psicometria II”) che la variabile Y (“ansia di stato”) sono misurate su scala a intervalli equivalenti poiché si riferiscono a punteggi derivanti da test psicologici: lo zero, dunque, non è assoluto.
08txtI.qxp_Layout 1 31/01/17 18:58 Pagina 163
163
La correlazione tra variabili
Per misurare la presenza di un’eventuale relazione tra le due variabili, lo psicologo ricercatore userà il coefficiente (r) di Bravais-Pearson. Passo 2 Calcolare la sommatoria () di tutti i valori (Xi) della variabile X, nonché la sommatoria () di tutti i valori (Yi) della variabile Y.
∑ X = 28 + 20 + 25 + 18 + 19 + 23 + 30 + 29 + 24 + 21 + 20 = 257 ∑ Y = 15 + 33 + 20 + 47 + 40 + 51 + 10 + 16 + 30 + 34 + 35 = 331 i
i
Passo 3 Costruire una tabella dove riportare, accanto alla colonna dei valori di X e a quella dei valori di Y, una colonna con il prodotto della moltiplicazione di ciascun valore (Xi) della variabile X per ogni rispettivo valore (Yi) della variabile Y, intestata Xi Yi. Profitto in Psicometria II (Xi)
Ansia di stato (Yi)
Xi Yi
A
28
15
28 15 = 420
B
20
33
20 33 = 660
C
25
20
25 20 = 500
D
18
47
18 47 = 846
E
19
40
19 40 = 760
F
23
51
23 51 = 1173
G
30
10
30 10 = 300
H
29
16
29 16 = 464
I
24
30
24 30 = 720
L
21
34
21 34 = 714
M
20
35
20 35 = 700
Studente
Passo 4 Calcolare la sommatoria () di tutti i prodotti (Xi Yi) sopra elaborati.
∑ X ⋅Y = 420 + 660 + 500 + 846 + 760 +1173 + 300 + 464 + 720 + 714 + 700 = 7257 i
i
Passo 5 Elevare al quadrato tutti i valori (Xi) della variabile X, nonché tutti i valori (Yi) della variabile Y, aggiungendo due colonne, intestate, rispettivamente, Xi2 e Yi2. Profitto in Psicometria II (Xi)
Ansia di stato (Yi)
Xi Yi
Xi2
A
28
15
28 15 = 420
282 = 784
152 = 225
B
20
33
20 33 = 660
202 = 400
332 = 1089
C
25
20
25 20 = 500
252 = 625
202 = 400
D
18
47
18 47 = 846
18 = 324
472 = 2209
E
19
40
19 40 = 760
192
= 361
402 = 1600
F
23
51
23 51 = 1173
232 = 529
512 = 2601
G
30
10
30 10 = 300
302 = 900
102 = 100
H
29
16
29 16 = 464
29 = 841
162 = 256
Studente
2
2
Yi2
08txtI.qxp_Layout 1 31/01/17 18:58 Pagina 164
164
La correlazione tra variabili
Profitto in Psicometria II (Xi)
Ansia di stato (Yi)
Xi Y i
I
24
30
24 30 = 720
242
L
21
34
21 34 = 714
212 = 441
342 = 1156
M
20
35
20 35 = 700
202 = 400
352 = 1225
Studente
Xi2 = 576
Yi2 302
= 900
Passo 6 Calcolare la sommatoria () di tutti i quadrati (Xi2) della variabile X, nonché la sommatoria () di tutti i quadrati (Yi2) della variabile Y.
∑X ∑Y
i
i
= 784 + 400 + 625 + 324 + 361 + 529 + 900 + 841 + 576 + 441 + 400 = 6181
2
= 225+1089 + 400 + 2209 +1600 + 2601+100 + 256 + 900 +1156 +1225 =11761
2
Passo 7 Applicare la Formula (8.3), sostituendo i vari elementi con i valori calcolati nei passaggi precedenti.
rXY =
∑ X ⋅Y − ∑ X ⋅ ∑Y = N ⋅ ∑ X − (∑ X ) ⋅ N ⋅ ∑ Y − (∑ Y ) N⋅
i
i
i
i
2
2 i
2
2
i
i
i
11 ⋅ 7257 − 257 ⋅ 331 = 11 ⋅ 6181 − (257)2 ⋅ 11 ⋅ 11761 − (331)2 −5240 79827 − 85067 = = = 1942 ⋅19810 (67991 − 66049) ⋅ (129371 − 109561) −5240 −5240 = = = −0, 84 6202, 50 38471020
=
Il valore del coefficiente di correlazione calcolato è -0,84. In base alle linee guida per l’interpretazione dell’indice di correlazione, possiamo affermare che si tratta di una correlazione negativa molto elevata. Ciò vuol dire che all’aumentare del livello d’ansia di stato, così come misurato dallo S.T.A.I., il profitto registrato in Psicometria II diminuisce, e viceversa. Passo 8 Costruire il diagramma di dispersione delle due variabili in esame nel campione di soggetti esaminato. Y
51 47 40 35 34 33 30 20 16 15 10 18192021 232425 282930
X
08txtI.qxp_Layout 1 31/01/17 18:58 Pagina 165
165
La correlazione tra variabili
Come possiamo osservare, i punti si dispongono idealmente intorno a una linea retta, con piccole oscillazioni (segno di una correlazione molto forte) in senso discendente da sinistra a destra (segno di una correlazione negativa) nel diagramma di dispersione.
8.2.2
Il coefficiente rho di Spearman e il coefficiente tau di Kendall
Quando dobbiamo calcolare il coefficiente di correlazione tra due variabili, di cui almeno una è misurata su scala ordinale, possiamo applicare i “coefficienti di correlazione per ranghi”, che sono il coefficiente rho di Spearman e il coefficiente tau di Kendall. La formula del coefficiente rho di Spearman (rs) è la seguente. rs = 1 −
6⋅
∑d
2 i
N ⋅ (N 2 − 1)
(8.4)
dove: rs = coefficiente di correlazione di Spearman di2 = sommatoria delle differenze tra i ranghi per il soggetto i-esimo, elevate al quadrato N = numero delle osservazioni o dei casi N2 = numero delle osservazioni o dei casi elevati al quadrato Il calcolo di rs si basa sulle differenze (d) riscontrate tra i ranghi attribuiti allo stesso soggetto nelle due variabili X e Y (d = rango X - rango Y). Ne deriva che: a. si ottiene una correlazione positiva perfetta (+1) quando, considerando ciascun soggetto, coincidono i ranghi attribuiti nella prima e nella seconda graduatoria (tutte le di = 0, poiché alla 1a posizione per la graduatoria di X corrisponde la 1a posizione per la graduatoria di Y, alla 2a posizione per la graduatoria di X corrisponde la 2a posizione per la graduatoria di Y ecc.); b. si ottiene una correlazione negativa perfetta (-1) quando, per ciascun soggetto, si hanno posizioni in graduatoria esattamente opposte (alla 1a posizione per X corrisponde l’ultima posizione per Y, alla 2a posizione per X corrisponde la penultima posizione per Y ecc.). Possiamo distinguere tre casi diversi in cui applicare il coefficiente rs di Spearman. Il primo caso è quello in cui entrambe le variabili da mettere in correlazione sono misurate su scala ordinale e, dunque, tutti i dati sono presentati in forma di graduatorie. A questo punto, si procede con pochi semplici passi, che richiedono di: 1. calcolare la differenza (di) tra ciascun valore (Xi) della variabile X e ciascun valore (Yi) della variabile Y; 2. elevare al quadrato ciascuna differenza; 3. calcolare la sommatoria () dei quadrati delle differenze tra i ranghi (di2); 4. applicare la Formula (8.4). Il valore ottenuto può variare tra -1 e +1, a seconda della discordanza o concordanza tra le due graduatorie. Si rimanda alla Tabella 8.1 per l’interpretazione precisa del coefficiente.
08txtI.qxp_Layout 1 31/01/17 18:58 Pagina 166
166
La correlazione tra variabili
L’Esempio 8.3 mostra un’applicazione dei passaggi appena elencati. Ricordiamo che un errore comune da evitare nel procedere ai calcoli previsti nel punto 3 è quello di sommare le differenze e, poi, di elevare al quadrato tale sommatoria [(di)2]. Occorre, invece, elevare al quadrato ciascuna differenza e poi sommare tali quadrati (di2).
Esempio 8.3 Il calcolo del coefficiente di correlazione di Spearman (rs) tra due graduatorie Uno psicologo dello sport è interessato a esplorare l’esistenza di una possibile relazione tra le posizioni di arrivo a una gara di atletica leggera (variabile X) e il livello di simpatia (variabile Y) attribuito agli atleti professionisti. A tale scopo, registra le posizioni di arrivo a una gara podistica di 10 corridori iscritti alla Federazione Italiana di Atletica Leggera Italiana e chiede, a tutti i partecipanti alla gara, di stilare una classifica dei colleghi in base alla loro simpatia, dal più simpatico (prima posizione) al meno simpatico (decima posizione). Ottiene le seguenti graduatorie: Podista
Posizione gara (Xi)
Gradimento simpatia (Yi)
9° 3° 6° 4° 10° 1° 7° 5° 2° 8°
2° 7° 4° 6° 3° 10° 5° 9° 8° 1°
A B C D E F G H I L
Passo 1 Individuare su quale scala di misura si collocano le due variabili in esame e il coefficiente di correlazione più appropriato da calcolare. Poiché i dati sono presentati sotto forma di classifica (o ranghi), entrambe le variabili (X = “posizione alla gara podistica”; Y = “posizione nella graduatoria di simpatia”) sono misurate su scala ordinale. Lo psicologo dello sport applicherà, dunque, il coefficiente di Spearman (rs). Passo 2 Calcolare le differenze tra ciascun valore (Xi) della variabile X e ciascun valore (Yi) della variabile Y ed elevarle al quadrato, procedendo con ordine alla compilazione della tabella dei calcoli. Podista
Posizione gara (Xi)
Gradimento simpatia (Yi)
di
A
9°
2°
9-2=7
B
3°
7°
3 - 7 = -4
C
6°
4°
6-4=2
D
4°
6°
4 - 6 = -2
E
10°
3°
F
1°
10°
1 - 10 = -9
G
7°
5°
7-5=2
10 - 3 = 7
di2 72 = 49 (-4)2 = 16 22 = 4 (-2)2 = 4 72 = 49 (-9)2 = 81 22 = 4
08txtI.qxp_Layout 1 31/01/17 18:58 Pagina 167
167
La correlazione tra variabili
Podista
di2
Posizione gara (Xi)
Gradimento simpatia (Yi)
H
5°
9°
5 - 9 = -4
(-4)2 = 16
I
2°
8°
2 - 8 = -6
(-6)2 = 36
L
8°
1°
8-1=7
di
72 = 49
Passo 3 Calcolare la sommatoria () delle differenze tra i ranghi di X e di Y, elevate al quadrato (di2).
∑d
2 i
Passo 4
= 49 + 16 + 4 + 4 + 49 + 81 + 4 + 16 + 36 + 49 = 308
Applicare la Formula (8.4). 6⋅
∑d
2 i
1848 1848 6 ⋅ 308 = 1− = 1− = 1− = N (N −1) 10 ⋅ (10 2 −1) 10 ⋅ (100 − 1) 10 ⋅ 99 1848 = 1− = 1 − 1, 86 = −0, 86 990
rs = 1 −
2
Il valore del coefficiente di correlazione è -0,86. Si tratta, dunque, di un’elevata correlazione negativa. Ciò vuol dire che i podisti che si sono posizionati più in vetta alla classifica della gara sono stati indicati dai colleghi come i meno simpatici, e viceversa. Passo 5 Costruire il diagramma di dispersione delle due variabili in esame nel campione di soggetti esaminato. Y 10 9 8 7 6 5 4 3 2 1 1
2
3
4
5
6
7
8
9
10
X
Come possiamo osservare, i punti si dispongono a formare con buona approssimazione una linea retta (segno di una correlazione elevata) inclinata (da sinistra a destra rispetto all’asse delle x) verso il basso (segno di una correlazione negativa), nel diagramma di dispersione.
Il secondo caso è quello in cui entrambe le variabili da mettere in correlazione sono misurate su scala ordinale, ma i dati non sono ordinati in graduatoria. A tal punto, prima di procedere al calcolo di rs, dobbiamo costruire una graduatoria, attribuendo un ordine di rango ai diversi elementi del gruppo. Ciò significa associare un numero (appartenente ai numeri reali) a ogni elemento, che corrisponda alla posizione che il soggetto occupa rispetto agli altri nel gruppo.
08txtI.qxp_Layout 1 31/01/17 18:58 Pagina 168
168
La correlazione tra variabili
Come si attribuisce un ordine di rango? • Si assegna la 1a posizione (o rango 1) al primo elemento della graduatoria, la 2a posizione al secondo elemento e così via. • Se due elementi occupano la stessa posizione in graduatoria, ovvero se due soggetti presentano gli stessi punteggi (pari merito), viene attribuita a ciascuno la media dei ranghi che si sarebbero dovuti assegnare se le loro posizioni fossero state diverse e contigue (rango medio). • In tal caso, viene attribuito all’elemento successivo a quello del rango medio il rango che gli sarebbe spettato se le posizioni precedenti fossero state diverse e contigue. • L’ultimo elemento della graduatoria avrà rango pari al numero totale degli elementi della graduatoria stessa. Supponiamo questi dati riferiti ai punteggi ottenuti da cinque bambini a una prova di lettura: 27 (per il bambino 1); 28 (per il bambino 2); 27 (per il bambino 3); 15 (per il bambino 4); 10 (per il bambino 5). Ordinando i punteggi in senso crescente (dal punteggio più basso a quello più alto), otterremo in via preliminare la graduatoria illustrata nella Tabella 8.2. Tabella 8.2 Classifica preliminare dei punteggi di 5 bambini alla prova di lettura Bambino
Punteggio (Xi)
Rango
5 4 1 3 2
10 15 27 27 28
1° 2° 3° 4° 5°
Come possiamo osservare, due bambini (1 e 3) hanno totalizzato lo stesso punteggio (Xi = 27). Poiché non è possibile attribuire lo stesso rango a due soggetti diversi, calcoliamo la media dei ranghi che sarebbero dovuti spettare ai due punteggi se le loro posizioni fossero state diverse e contigue, ossia 3a e 4a posizione, per cui (3 + 4)/2 = 3,5. Dunque, si otterrà la classifica definitiva illustrata nella Tabella 8.3. Tabella 8.3
Classifica definitiva dei punteggi di 5 bambini alla prova di lettura Bambino
Rango (X)
5 4 1 3 2
1 2 3,5 3,5 5
Notiamo che poiché la 4a posizione è stata inglobata all’interno del rango medio, al soggetto successivo è stata assegnata la 5a posizione (non la quarta). Se avessimo assegnato al bambino 2 il rango 4, la classifica sarebbe stata composta solo da quattro posizioni mentre i bambini sono cinque! L’Esempio 8.4 mostra un’applicazione del procedimento di calcolo del coefficiente di correlazione rs di Spearman quando i dati devono essere ordinati in graduatoria.
08txtI.qxp_Layout 1 31/01/17 18:58 Pagina 169
169
La correlazione tra variabili
Esempio 8.4 Il calcolo del coefficiente di correlazione di Spearman (rs) con dati su scala ordinale da disporre in graduatoria Una commissione accademica si trova a valutare i curricula di 15 studenti universitari per la selezione di sette “tutor di cattedra” per l’anno accademico in corso. Ciascun candidato (identificato con una lettera dell’alfabeto) viene valutato secondo due criteri: la media degli esami sostenuti (variabile X) e il numero dei CFU acquisiti (variabile Y). Al fine di valutare l’esistenza di un’eventuale concordanza, vengono stilate due classifiche preliminari dai membri della commissione accademica (rispettivamente per le variabili X e Y). Graduatoria
Media esami (X) CFU acquisiti (Y)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
B B
G E
M G
A D
H Q
D F
I C
C H
L I
P O
O N
Q P
E M
N L
F A
Passo 1 Individuare su quale scala di misura si collocano le due variabili in esame e il coefficiente di correlazione più appropriato da calcolare. Trattandosi di due classifiche, entrambe le variabili sono misurate su scala ordinale. Dunque, va calcolato il coefficiente di Spearman (rs ). Passo 2 Costruire le graduatorie operabili relative alle due variabili, a partire da una colonna con l’elenco dei candidati identificati con le lettere dell’alfabeto, inserendo in successione una colonna per le posizioni che essi occupano nella variabile X (“posizione in base alla media degli esami sostenuti”) e una colonna per le posizioni che essi occupano nella variabile Y (“posizione in base ai CFU acquisiti”). Passo 3 Calcolare le differenze tra ciascun valore (Xi) della variabile X e ciascun valore (Yi) della variabile Y ed elevarle al quadrato, procedendo alla compilazione della tabella dei calcoli.
Studente
Media esami (Xi)
CFU acquisiti (Yi)
di 4 - 15 = -11
di2 (-11)2 = 121
A
4°
15°
B
1°
1°
1-5=0
02 = 0
C
8°
7°
8-7=1
12 = 1
D
6°
4°
6-4=2
22 = 4
E
13°
2°
13 - 2 = 11
112 = 121
F
15°
6°
15 - 6 = 9
92 = 81
G
2°
3°
2 - 3 = -1
(-1)2 = 1
H
5°
8°
5 - 8 = -3
(-3)2 = 9
I
7°
9°
7 - 9 = -2
(-2)2 = 4
L
9°
14°
9 - 14 = -5
(-5)2 = 25
M
3°
13°
3 - 13 = -10
N
14°
11°
14 - 11 = 3
(-10)2 = 100 32 = 9
08txtI.qxp_Layout 1 31/01/17 18:58 Pagina 170
170
La correlazione tra variabili
di2
Media esami (Xi)
CFU acquisiti (Yi)
di
O
11°
10°
11 - 10 = 1
P
10°
12°
10 - 12 = -2
Q
12°
5°
12 - 5 = -7
Studente
(-2)2 = 4 (-7)2 = 49
Calcolare la sommatoria () delle differenze elevate al quadrato (di2).
Passo 4
∑d
2 i
Passo 5
12 = 1
= 121 + 0 + 1 + 4 + 121 + 81 + 1 + 9 + 4 + 25 + 100 + 9 + 1 + 4 + 49 = 530
Applicare la Formula (8.4). 6⋅
∑d
2 i
3180 3180 6 ⋅ 530 = 1− = 1− = 1− = N (N 2 −1) 15 ⋅(152 −1) 15 ⋅(225 −1) 15 ⋅ 224 3180 = 1− = 1 − 0, 94 = 0, 06 3360
rs = 1 −
Il valore del coefficiente di correlazione è 0,06. Si tratta di una correlazione positiva prossima allo zero. Ciò vuol dire assenza di correlazione (lineare). Dunque, è possibile affermare che non vi è alcuna concordanza tra le due graduatorie. Passo 6 Costruire il diagramma di dispersione delle due variabili in esame nel campione di soggetti esaminato. Y 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
X
Il diagramma di dispersione riflette in maniera evidente il valore del coefficiente di correlazione. Poiché il valore è molto vicino allo zero, i punti si dispongono in maniera dispersa e casuale nel diagramma di dispersione.
Il terzo e ultimo caso in cui applicare il coefficiente rs di Spearman è quello in cui una variabile si presenta misurata su scala ordinale e l’altra su scala a intervalli o a rapporti equivalenti. Il primo passaggio da effettuare in questo caso sarà quello di trasformare la variabile misurata su scala a intervalli o a rapporti equivalenti in una variabile ordinale asse-
08txtI.qxp_Layout 1 31/01/17 18:58 Pagina 171
171
La correlazione tra variabili
gnando i ranghi ai suoi valori. Come abbiamo visto nel Capitolo 2, si tratta di una trasformazione possibile all’interno della gerarchia delle scale di misura poiché si passa da una scala più complessa a una più semplice (scala a rapporti scala a intervalli scala ordinale). L’Esempio 8.5 chiarirà in maniera pratica questo terzo caso.
Esempio 8.5 Il calcolo del coefficiente di correlazione di Spearman (rs) nel caso di una variabile ordinale e una continua Una psicologa clinica è interessata a studiare l’esistenza di un’eventuale correlazione tra la disponibilità emotiva genitoriale (definita come “qualità emozionale delle risposte del genitore agli atteggiamenti del figlio” [Babore, Candelori e Picconi, 2012, p. 442]) e la creatività dei figli in un piccolo campione di adolescenti. A tale scopo, contatta i nove partecipanti al concorso Creatività a scuola (identificati con lettere dell’alfabeto) e registra la loro classificazione a tale concorso (variabile X). Somministra, quindi, a ciascuno di essi la Lum Emotional Availability of Parents (LEAP; Lum e Phares, 2005), che misura la disponibilità emotiva genitoriale (variabile Y), ottenendo i seguenti punteggi. Partecipante
Posizione al concorso (variabile X) Punteggio al test LEAP (variabile Y)
A
B
C
D
E
F
G
H
I
3°
8°
9°
2°
5°
6°
1°
7°
4°
70
20
30
85
62
30
90
15
40
Passo 1 Individuare su quale scala di misura si collocano le due variabili in esame e il coefficiente di correlazione più appropriato da calcolare. La variabile X (“posizione al concorso Creatività a scuola”) è misurata su scala ordinale e si presenta sotto forma di graduatoria. La variabile Y, invece, riguarda una serie di punteggi derivati da un questionario psicologico, dunque è misurata su una scala a intervalli equivalenti. Possiamo, allora, applicare il coefficiente rs di Spearman, trasformando la variabile continua Y in una graduatoria, ovvero trasformando i punteggi in posizioni. Passo 2 Costruire la graduatoria relativa alla variabile Y, a partire da una prima colonna con l’elenco dei partecipanti identificati con le lettere dell’alfabeto, riportando in una seconda colonna i punteggi ottenuti dai soggetti al test e inserendo una terza colonna in cui a tali punteggi vengono attribuiti i ranghi in ordine crescente (a punteggi più alti corrisponderanno livelli di disponibilità maggiori, a punteggi più bassi corrisponderanno livelli di disponibilità minori). Adolescente
Punteggio test (Yi )
Rango (Yi )
A
70
3
B
20
8
C*
30
6,5
D
85
2
08txtI.qxp_Layout 1 31/01/17 18:58 Pagina 172
172
La correlazione tra variabili
Punteggio test (Yi )
Rango (Yi )
E
62
4
F*
30
6,5
G
90
1
H
15
9
I
40
5
Adolescente
Poiché due partecipanti alla ricerca (C e F) presentano lo stesso punteggio al test (Yi = 30) e dunque dovrebbero ricevere lo stesso rango (Ry = 6), procederemo al calcolo del rango medio (6 + 7/2 = 6,5). Passo 3 Includere in un’unica tabella i dati relativi alle due variabili, calcolare la differenza tra ciascun valore (Xi) della variabile X e ciascun valore (Yi) della variabile Y ed elevarle al quadrato. Adolescente
di2
Rango (Xi)
Rango (Yi)
di
A
3
3
3-3=0
B
8
8
8-8=0
02 = 0
C
9
6,5
9 - 6,5 = 2,5
2,52 = 6,25
D
2
2
2-2=0
02 = 0
E
5
4
5-4=1
12 = 1
F
6
6,5
6 - 6,5 = -0,5
02 = 0
(-0,5)2 = 0,25
G
1
1
1-1=0
H
7
9
7 - 9 = -2
(-2)2 = 4
I
4
5
4 - 5 = -1
(-1)2 = 1
Passo 4
Calcolare la sommatoria () delle differenze elevate al quadrato (di2).
∑d
2 i
Passo 5
02 = 0
= 0 + 0 + 6, 25 + 0 + 1 + 0, 25 + 0 + 4 + 1 = 12, 50
Applicare la Formula (8.3) 6⋅
∑d
2 i
6 ⋅12, 50 75 75 = 1− = 1− = 1− = N (N 2 −1) 9 ⋅(9 2 −1) 9 ⋅(81 −1) 9 ⋅ 80 75 = 1− = 1 − 0,10 = 0, 90 720
rs = 1 −
Il valore del coefficiente di correlazione è 0,90. Si tratta di una correlazione positiva molto elevata. La psicologa clinica, dunque, conclude che i ragazzi che occupano le posizioni più alte nella classifica del concorso Creatività a scuola hanno punteggi più elevati al test di disponibilità emotiva (dunque, si sentono molto supportati e accolti dai propri genitori), e viceversa. Passo 6 Costruire il diagramma di dispersione delle due variabili in esame nel campione di soggetti considerato.
08txtI.qxp_Layout 1 31/01/17 18:58 Pagina 173
173
La correlazione tra variabili
Y
9 8 7 6 5 4 3 2 1 1
2
3
4
5
6
7
8
9
X
Il diagramma di dispersione riflette in maniera evidente il valore del coefficiente di correlazione. Essendo esso molto vicino a 1, i punti si dispongono, con trascurabili oscillazioni, intorno a un’immaginaria retta, inclinata verso l’alto da sinistra a destra.
Abbiamo visto come si procede al calcolo del coefficiente rs di Spearman quando sono presenti ranghi uguali (attribuzione del rango medio). Tuttavia, quando sono presenti molti ranghi uguali in una o in entrambe le variabili, la differenza tra ranghi di X e di Y risulterebbe molto ridotta. Ciò causerebbe una stima per eccesso di r, che pertanto dovrebbe essere corretto attraverso una formula di correzione molto complessa (Ercolani, Areni e Leone, 2001). Per tale motivo, generalmente si preferisce ricorrere a un altro coefficiente di correlazione tra ranghi, che è il coefficiente tau di Kendall. La sua formula è la seguente. tau =
S 1 ⋅ N ⋅ ( N − 1) 2
(8.5)
dove: S = somma dei valori attribuiti ai confronti di tutte le possibili coppie della graduatoria N = numero delle osservazioni o casi Gli step per procedere al suo calcolo sono i seguenti. 1. Si trasformano in graduatorie i punteggi delle due variabili X e Y. 2. Si pone una delle due graduatorie, per esempio quella della variabile X, nell’ordine naturale crescente (1, 2, 3, ….). 3. Si ordinano i corrispondenti valori dell’altra graduatoria (Y) in base a questa graduatoria. 4. Si procede al calcolo di S confrontando ciascun valore di Y con tutti quelli che lo seguono in graduatoria. 5. Ogni volta che la coppia di valori a confronto si trova nell’ordine naturale corretto (per es., 1 2) si attribuisce +1, in caso di ordine naturale non corretto (per es., 4 2) si attribuisce -1. In caso di ranghi uguali (all’interno della stessa graduatoria o nella graduatoria dell’altra variabile) si attribuisce 0. 6. La somma di tutti questi valori (S) viene messa in rapporto con il valore massimo possibile che da un confronto del genere si potrebbe ottenere (cioè il valore che si otterrebbe se fosse sempre rispettato l’ordine naturale, ossia se anche la graduatoria di Y rispettasse l’ordine naturale), che è 1/[2N(N - 1)], mediante l’applicazione della Formula (8.5).
08txtI.qxp_Layout 1 31/01/17 18:58 Pagina 174
174
La correlazione tra variabili
Il valore ottenuto dall’applicazione della Formula (8.5) rappresenta l’indice del coefficiente tau di Kendall. Tale indice non sempre rappresenta una buona stima di r. I suoi valori, compresi tra -1 e +1, vanno interpretati secondo quanto riportato nella Tabella 8.1. L’Esempio 8.6 illustrerà in maniera più concreta i passaggi necessari per il calcolo di questo indice.
Esempio 8.6 Il calcolo del coefficiente di correlazione tau di Kendall quando i ranghi uguali sono minori di 3 Al fine di realizzare un intervento mirato a incrementare l’attività produttiva di una piccola azienda in cui lavorano sette persone, uno psicologo del lavoro decide di indagare sull’esistenza di una relazione tra “posizione di arrivo sul luogo del lavoro” (variabile X) e “classifica in base allo stipendio percepito” (variabile Y). Annota quindi su un registro le posizioni di arrivo di ciascuno dei sette lavoratori del turno della mattina (attribuendo il primo posto a chi arriva per primo e l’ultimo a chi arriva in coda). Consultando le buste paga dei lavoratori, stila, inoltre, una graduatoria in base al reddito, attribuendo la posizione 1 al lavoratore più pagato e la posizione 7 al lavoratore che percepisce lo stipendio più basso. Ottiene così i seguenti elenchi. Lavoratore
Posizione di arrivo sul luogo di lavoro (variabile X) Posizione stipendio percepito (variabile Y)
A
B
C
D
E
F
G
7°
5,5°
1°
2°
3,5°
5,5°
3,5°
7°
6°
1,5°
3°
4°
5°
1,5°
Passo 1 Individuare su quale scala di misura si collocano le due variabili indagate e il coefficiente di correlazione più appropriato da calcolare. Trattandosi di due graduatorie, entrambe le variabili (“posizione di arrivo sul luogo di lavoro” e “classifica in base allo stipendio percepito”) sono misurate su scala ordinale. Dato che sono presenti diversi ranghi uguali in entrambe le graduatorie, per studiare tale relazione lo psicologo del lavoro userà il coefficiente tau di Kendall. Passo 2 Si pone la graduatoria di X nell’ordine naturale crescente e si ordinano i corrispondenti valori della graduatoria di Y in base a essa. Posizione di arrivo sul luogo di lavoro (Xi )
Posizione stipendio perpecito (Yi )
C
1°
1,5°
D
2°
3°
E
3,5°
4°
G B
3,5° 5,5°
1,5° 6°
F
5,5°
5°
A
7°
7°
Lavoratore
08txtI.qxp_Layout 1 31/01/17 18:58 Pagina 175
175
La correlazione tra variabili
Ricordiamo che la quarta posizione della graduatoria di X è stata inglobata nel rango medio (3 + 4)/2 = 3,5, così come la sesta posizione è stata inglobata nel rango medio (5 + 6)/2 = 5,5. Di conseguenza, l’ultimo soggetto occupa la settima posizione. Nella graduatoria di Y, invece, la seconda posizione è stata inglobata nel rango medio (1 + 2)/2 = 1,5, poiché due lavoratori (C e G) si sono classificati al primo posto nella classifica in base allo stipendio percepito. Passo 3 Confrontare ogni valore della graduatoria di Y con tutti i valori della stessa variabile che lo seguono, assegnando +1 nel caso di ordine corretto (ovvero ordine naturale crescente), -1 nel caso di ordine non corretto e 0 nel caso di ranghi uguali (ranghi che compaiono uguali o nella graduatoria di X o nella graduatoria di Y). Partendo dal soggetto C, confrontare la posizione, nella graduatoria di Y, di tutte le coppie possibili dei 7 lavoratori: • • •
confronto C-D graduatoria 1,5-3 (ordine corretto punteggio +1 perché 1,5 deve precedere 3); confronto C-E graduatoria 1,5-4 (ordine corretto punteggio +1 perché 1,5 deve precedere 4); confronto C-G graduatoria 1,5-1,5 (ranghi uguali punteggio 0); e così via.
Per evitare errori, è bene riportare i calcoli su righe separate secondo il seguente criterio: • • • •
prima riga – punteggi dei confronti del soggetto C con tutti i soggetti che lo seguono (D, E, G, B, F, A); seconda riga – punteggi dei confronti del soggetto D con tutti i soggetti che lo seguono (E, G, B, F, A); terza riga – punteggi dei confronti del soggetto E con tutti i soggetti che lo seguono (G, B, F, A); a seguire fino all’ultima riga, in cui ci sarà il confronto tra F e A.
In questo caso:
C
D
E
G
B
F
A
+1
+1
0
+1
+1
+1
D
+1
-1
+1
+1
+1
E
0
+1
+1
+1
G
+1
+1
+1
B
0
+1
F
+1 A
Alle coppie E-G, B-F, essendo ranghi uguali per la graduatoria X, è stato assegnato 0. Alla coppia C-G, essendo ranghi uguali per la graduatoria Y, è stato assegnato 0. Passo 4 Calcolare S, contando quante volte compare il valore +1 e quante volte compare il valore -1. Effettuare, dunque, la somma tra questi valori interi. Nell’esempio, +1 compare diciassette volte, mentre -1 è stato assegnato una volta.
08txtI.qxp_Layout 1 31/01/17 18:58 Pagina 176
176
La correlazione tra variabili
Dunque: S = 17 (+1) + 1(−1) = 17 −1 = 16
Passo 5
Applicare la Formula (8.5) tau =
S 16 16 16 = = = = 0, 76 1 1 1 ⋅ N ⋅ (N − 1) ⋅ 7 ⋅ (7 − 1) ⋅ 7 ⋅ 6 21 2 2 2
Il coefficiente di correlazione tau di Kendall è 0,76. Tra le due variabili vi è, dunque, una relazione positiva abbastanza elevata: tendenzialmente, all’aumentare dello stipendio, si registra un anticipo di arrivo sul posto di lavoro nella piccola realtà aziendale dei 7 lavoratori. Passo 6 Disegnare il diagramma di dispersione delle due variabili in esame nel campione di soggetti testato. Y 7 6 5 4 3 2 1
1
2
3
4
5
6
7
X
Il diagramma di dispersione riflette il valore del coefficiente di correlazione: essendo esso compreso tra +0,50 e +1, i punti si dispongono, con piccole oscillazioni, intorno a un’ipotetica retta, inclinata verso l’alto da sinistra a destra.
Nel caso in cui compaiano in una o in entrambe le variabili ordinali molti ranghi uguali, in numero maggiore di 3, anziché applicare la Formula (8.5) applichiamo la Formula (8.6), detta anche formula corretta, per il calcolo del coefficiente di correlazione tau di Kendall: tau =
S 1 1 ⋅ N ⋅ ( N − 1) − TX ⋅ ⋅ N ⋅ ( N − 1) − TY 2 2
(8.6)
dove: S = somma dei valori attribuiti ai confronti di tutte le possibili coppie della graduatoria N = numero delle osservazioni o casi
08txtI.qxp_Layout 1 31/01/17 18:58 Pagina 177
177
La correlazione tra variabili
TX e TY si calcolano nel seguente modo: 1 ⋅ 2 1 TY = ⋅ 2 TX =
∑t ∑t i
Xi
i
Yi
⋅ (t Xi − 1) ⋅ (tYi − 1)
dove: tXi = numero di ranghi uguali per ciascun gruppo di ranghi uguali nella graduatoria di X (ovvero, se vi è un gruppo con quattro ranghi uguali, tX = 4) tYi = numero di ranghi uguali per ciascun gruppo di ranghi uguali nella graduatoria di Y (ovvero, se vi è un gruppo con due ranghi uguali, tY = 2). I passaggi per il calcolo di questa formula corretta sono uguali a quelli presentati per la Formula (8.5). L’Esempio 8.7 chiarirà, attraverso un caso pratico, i passaggi per l’applicazione della formula corretta.
Esempio 8.7 Il calcolo del coefficiente di correlazione di tau di Kendall quando i ranghi uguali sono maggiori di 3 Riprendiamo l’Esempio 8.6 per verificare come l’applicazione della Formula (8.6) a graduatorie in cui i ranghi uguali siano in numero maggiore di 3 offra una stima più precisa di r. Posizione di arrivo sul luogo di lavoro (Xi )
Posizione stipendio perpecito (Yi )
C
1°
1,5°
D
2°
3°
Lavoratore
E
3,5°
4°
G B
3,5° 5,5°
1,5° 6°
F
5,5°
5°
A
7°
7°
Nella graduatoria di X, infatti, i ranghi uguali sono 4. Salteremo i primi 4 passi, che vanno eseguiti in modo identico, per arrivare all’applicazione della Formula (8.6). Passo 5
Calcolare TX e TY, applicando le formule di trasformazione:
∑t ∑t
1 ⋅ 2 1 TY = ⋅ 2 TX =
i
Xi
i
Yi
1 1 ⋅[(2 ⋅1) + (2 ⋅1)] = ⋅ 4 = 2 2 2 1 1 ⋅ (tYi −1) = ⋅ (2 ⋅1) = ⋅ 2 = 1 2 2 ⋅ (t Xi − 1) =
Nella graduatoria della variabile X vi sono due gruppi di ranghi uguali. Nella graduatoria Y vi è un solo gruppo di ranghi uguali.
08txtI.qxp_Layout 1 31/01/17 18:58 Pagina 178
178
La correlazione tra variabili
Passo 6
Poiché S = 16, dal precedente esempio, è possibile applicare la Formula (8.6)
S = 1 1 ⋅ N ⋅ N − − T ⋅ ⋅ N ⋅ N − − T 1 1 ( ) X ( ) Y 2 2 16 16 16 16 16 = = 0, 79 = = = = 20 ⋅ 20, 5 410 20, 24 1 1 1 1 ⋅7 ⋅(6)− 2⋅ ⋅7 ⋅(6)−1 ⋅ 40⋅ ⋅ 41 2 2 2 2
tau =
Il coefficiente di correlazione è 0,79. Esso indica una correlazione positiva molto forte e lievemente più elevata di quella calcolata con la Formula (8.5).
8.2.3
Il coefficiente di correlazione rpb punto-biseriale
Il coefficiente punto-biseriale (rpb) si usa quando si è interessati a misurare la relazione tra una variabile misurata su scala a intervalli o a rapporti equivalenti e un’altra variabile dicotomica, misurata, dunque, su scala nominale. rpb è molto usato per la valutazione della coerenza interna di un test (che tratteremo nel Capitolo 10), quando si deve calcolare la correlazione tra ciascun item di un test con 2 alternative di risposta (“si/no”, “vero/falso”, “giustosbagliato”) e il punteggio totale del test psicologico. L’obiettivo è quello di misurare quanto il contenuto dell’item è associato al punteggio totale ottenuto dal test di cui fa parte. La sua formula è la seguente. Variabile dicotomica Variabile che può assumere esclusivamente due valori (sì/no, favorevole/contrario, vero/falso, uomo/donna, alfabetizzati/non alfabetizzati, residenti in città/residenti in campagna.
rpb =
X a − Xb N a Nb ⋅ ⋅ s tot N N
(8.7)
dove (per X = variabile continua e Y = variabile dicotomica che assume i valori a o b): rpb = coefficiente di correlazione r punto-biseriale X a = media in X di coloro che in Y hanno valore a X b = media in X di coloro che in Y hanno valore b stot = deviazione standard dell’intero campione (N) Na = numerosità dei casi che rientrano nella categoria a della variabile dicotomica Nb = numerosità dei casi che rientrano nella categoria b della variabile dicotomica N = numerosità del campione o casi, dato anche dalla somma di Na + Nb Supponiamo che uno psicologo sociale sia interessato a misurare la relazione tra il livello di pregiudizio razziale mediante un test psicologico specifico e l’accordo (favorevole/contrario) verso una proposta di legge che favorisce l’inserimento lavorativo di cittadini extra-comunitari in Italia. In questo caso, la variabile “grado di pregiudizio razziale” è misurata su scala a intervalli equivalenti, mentre il grado di accordo, espresso attraverso due opzioni di scelta (“favorevole” o “contrario”), si colloca su una scala no-
08txtI.qxp_Layout 1 31/01/17 18:58 Pagina 179
179
La correlazione tra variabili
minale. Si tratta, per la precisione, di una variabile dicotomica. Possiamo, dunque, applicare il coefficiente punto-biseriale (rpb). Gli step da eseguire per il suo corretto calcolo sono i seguenti. 1. Ordiniamo i dati in una tabella, dividendo i casi in base alla variabile dicotomica: nella ricerca riportata, lo psicologo sociale sceglie arbitrariamente di inserire prima i partecipanti che hanno espresso parere “favorevole” (livello a della variabile dicotomica) e poi quelli che hanno espresso parere “contrario” (livello b della variabile dicotomica). 2. Una volta sistemati i dati in tabella, procediamo al calcolo della media ( X ) e della deviazione standard (s o s) per la variabile misurata su scala a intervalli o a rapporti equivalenti, che corrisponde, in questo caso, ai punteggi ottenuti al test di pregiudizio razziale. 3. Più nello specifico, dobbiamo calcolare la deviazione standard della variabile misurata su scala a intervalli o a rapporti equivalenti relative all’intero campione (stot), la media dei punteggi al test sul pregiudizio razziale relativa ai partecipanti che hanno espresso parere “favorevole” ( X a ) e, infine, la media dei punteggi al test sul pregiudizio razziale relativa ai partecipanti che hanno espresso parere “contrario” ( X b). 4. Applichiamo la Formula (8.7). Il valore ottenuto rappresenterà l’indice numerico del coefficiente di correlazione punto-biseriale. Così come tutti i coefficienti di correlazione, i valori che esso può assumere variano da +1 a -1 (per l’interpretazione dei punteggi si rimanda alla Tabella 8.1). L’Esempio 8.8 chiarirà i passaggi sopra descritti.
Esempio 8.8 Il calcolo del coefficiente di correlazione punto-biseriale (rpb) Un docente è interessato a valutare se esiste una relazione tra il tipo di scuola secondaria superiore frequentata dallo studente e l’esito alla prova d’esame di Psicometria I. Più nello specifico, vuole indagare se vi è un’associazione tra una tipologia di scuola “scientificomatematica” (variabile X) e il risultato ottenuto alla prova di profitto in Psicometria I (variabile Y). A tale scopo, a ciascuno dei 20 studenti frequentanti le lezioni chiede: “Hai frequentato una scuola superiore di tipo scientifico-matematico (per es., liceo scientifico)?” e registra le risposte in termini di “sì” o “no”. Successivamente, segna il punteggio ottenuto alla prova di profitto da ciascuno studente all’esame di Psicometria I. Ottiene i seguenti dati: Studente
Variabile X Variabile Y
1
2
3
4
5
6
7
8
9
10
No 28
No 25
No 24
Sì 20
No 22
No 18
Sì 25
Sì 30
No 30
No 29
Studente
Variabile X Variabile Y
11
12
13
14
15
16
17
18
19
20
No 27
Sì 18
No 18
No 22
Sì 18
Sì 30
No 29
Sì 27
No 22
No 18
08txtI.qxp_Layout 1 31/01/17 18:58 Pagina 180
180
La correlazione tra variabili
Passo 1 Individuare su quale scala di misura si collocano le due variabili indagate e il coefficiente di correlazione più appropriato da calcolare. La risposta (no/sì) alla domanda “Hai frequentato una scuola superiore di tipo scientifico-matematico (per es., liceo scientifico)?” (variabile X) è misurata su scala nominale. Presentando due sole alternative di risposta, si tratta di una variabile dicotomica. Il punteggio alla prova scritta di Psicometria I (variabile Y), è misurato su scala a intervalli equivalenti. È possibile, dunque, applicare il coefficiente di correlazione punto-biseriale (rpb). Passo 2 Costruire la tabella dei dati, ordinando e dividendo i casi in base alla variabile dicotomica (no/sì). Dunque, si decide di disporre prima i “no” (Xia) e poi i “sì” (Xib). Studente
Risposta domanda (Xi )
Punteggio prova di profitto (Yi )
1
No
28
2
No
25
3
No
24
5
No
22
6
No
18
9
No
30
10
No
29
11
No
27
13
No
18
14
No
22
17
No
29
19
No
22
20
No
18
4
Sì
20
7
Sì
25
8
Sì
30
12
Sì
18
15
Sì
18
16
Sì
30
18
Sì
27
Passo 3 Calcolare la media relativa ai due gruppi (gruppo “no” = Na = 13 e gruppo “sì” = Nb = 7) e la deviazione standard relativa all’intero campione (N = 20) dei punteggi ottenuti dagli studenti all’esame.
Xa =
∑X
Xb =
∑X
i
=
28 + 25 + 24 + 22 +18 + 30 + 29 + 27 +18 + 22 + 29 + 22 +18 312 = = 24 13 13
i
=
20 + 25 + 30 +18 +18 + 30 + 27 168 = = 24 7 7
N
N
08txtI.qxp_Layout 1 31/01/17 18:58 Pagina 181
La correlazione tra variabili
Ricordiamo che per calcolare la deviazione standard dell’intero campione, è necessario calcolare prima la media (da sostituire all’interno della formula). Dunque, procederemo prima al calcolo della media e, successivamente, al calcolo della deviazione standard.
X tot
stot =
28 + 25 + 24 + 22 + 18 + 30 + 29 + 27 + 18 + 22 + + 29 + 22 + 18 + 20 + 25 + 30 + 18 + 18 + 30 + 27 480 = = = 24 20 20
∑X N
2 i
−X2 =
282 + 252 + 24 2 + 222 + 182 + 302 + 292 + 272 + 182 + 222 + + 292 + 222 + 182 + 20 2 + 252 + 30 2 + 182 + 182 + 30 2 + 27 2 = − 24 2 = 20 784 + 625 + 576 + 484 + 324 + 900 + 841 + 729 + 324 + 484 + + 841 + 484 + 324 + 400 + 625 + 900 + 324 + 324 + 900 + 729 = − 576 = 20
=
11922 − 576 − 596,1 − 576 = 20,1 = 4, 48 20
Passo 4 Applicare la Formula (8.7) rpb =
X a − Xb N a Nb 24 − 24 13 7 ⋅ ⋅ = ⋅ ⋅ = 0 ⋅ 0, 65 ⋅ 0, 35 = 0 stot N N 4, 48 20 20
Il valore del coefficiente di correlazione è 0. Ciò vuol dire che non esiste alcuna relazione tra le due variabili prese in esame. Non è detto che gli studenti che abbiano ricevuto una formazione scientifico-matematica alle scuole superiori ottengano un punteggio più alto o più basso alla prova di profitto di Psicometria I rispetto agli studenti che hanno un altro tipo di formazione. Passo 5 Non è possibile rappresentare la relazione graficamente poiché è presente una variabile nominale dicotomica.
8.2.4
Il coefficiente di correlazione rphi
Il coefficiente di correlazione rphi permette di conoscere il grado di associazione tra due variabili nominali dicotomiche. Viene usato spesso in psicologia quando si intende calcolare la correlazione tra le risposte a item dicotomici (per es., “sì/no”, “vero/falso”, “giusto-sbagliato”). Si dia il caso, per esempio, di due item di uno stesso test, che prevedono risposte del tipo “sì/no”. Si avranno le 4 coppie di possibili risposte. a. b. c. d.
item item item item
1: 1: 1: 1:
sì – item 2: sì. sì – item 2: no. no – item 2: sì. no – item 2: no.
181
08txtI.qxp_Layout 1 31/01/17 18:58 Pagina 182
182
La correlazione tra variabili
Tabella 8.4 Tabella di contingenza 2 2 per il calcolo di rphi tra due risposte dicotomiche a un test Item 1
Item 2
Totale
Sì
No
Sì
fa
fb
fa + fb (= p)
No
fc
fd
fc + fd (= q)
Totale
fa + fc (= p)
fb + fd (= q)
N
Come primo passaggio per il calcolo del coefficiente di correlazione rphi, dobbiamo organizzare i dati in una tabella di contingenza 2 2, come quella presentata in Tabella 8.4, dove: • fa rappresenta il numero di casi in cui è stata data risposta “sì” a entrambi gli item; • fb è il numero di casi nei quali la risposta è stata “sì” al primo item e “no” al secondo; • fc rappresenta il numero di casi in cui la risposta è stata “no” al primo item e “sì” al secondo; • fd corrisponde alla frequenza relativa ai casi in cui la risposta è stata “no” a entrambi gli item. Le frequenze marginali, invece, sono costituite dai totali delle righe (p; q) e delle colonne (p; q). Il totale generale, che si ottiene dalla somma delle frequenze marginali o per riga ( p + q) o per colonna ( p + q), è uguale al numero delle osservazioni o casi (N). In fase di costruzione della tabella di contigenza 2 2, è importante considerare come le due variabili vengono codificate e, di conseguenza, come vengono organizzati i dati. A seconda di ciò, cambia non già il risultato, ma la direzione della relazione calcolata. Tale aspetto verrà approfondito nell’Esempio 8.9. Dopo aver costruito la tabella di contingenza dove abbiamo sistemato i dati (ed eventualmente calcolato i dati mancanti), possiamo procedere all’applicazione della formula del coefficiente di correlazione rphi: rphi =
( f a ⋅ f d ) − ( fb ⋅ fc )
( p ⋅ p′) ⋅ (q ⋅ q′)
(8.8)
dove a ciascuna lettera dovrà corrispondere valore sistemato in tabella (si veda la Tabella 8.4). Il valore ottenuto dall’applicazione della Formula (8.8) rappresenta l’indice numerico del coefficiente di correlazione rphi. Anche in questo caso, esso può oscillare tra -1 e +1. L’Esempio 8.9 chiarirà in maniera semplice lo svolgimento dei due passaggi sopra descritti per il calcolo del valore del coefficiente rphi.
Esempio 8.9 Il calcolo del coefficiente di correlazione rphi Lo stesso docente dell’esempio precedente decide di effettuare una nuova raccolta per valutare, in un altro campione di 20 studenti, se esiste una relazione tra il tipo di scuola
08txtI.qxp_Layout 1 31/01/17 18:59 Pagina 183
183
La correlazione tra variabili
secondaria frequentata dallo studente (variabile X) e l’esito all’esame di Psicometria II (variabile Y). Tuttavia, dopo l’ultimo Consiglio di Corso di Laurea, la commissione ha decretato che la valutazione dell’esame sarà espressa non più in trentesimi bensì mediante idoneità (ID = Idoneo, NID = Non idoneo). Ciò sarà possibile includendo nella categoria ID gli studenti con una valutazione >18, mentre nella categoria NID quelli che presentano una valutazione <18. Per valutare tale relazione, il docente ricorre alla stessa procedura usata nella prima rilevazione di dati. Chiede a ciascuno dei 20 studenti di rispondere alla domanda: “Hai frequentato una scuola superiore di tipo scientifico-matematico (per es., liceo scientifico)?” (sì o no?) e registra il punteggio alla prova di profitto di Psicometria II di ognuno, ottenendo i seguenti dati: Studente
Variabile X Variabile Y
1
2
3
4
5
6
7
8
9
10
No NID
No ID
No NID
Sì ID
No ID
No NID
Sì NID
Sì ID
Sì NID
No NID
Studente
Variabile X Variabile Y
11
12
13
14
15
16
17
18
19
20
No ID
Sì NID
Sì NID
No ID
Sì ID
No NID
No ID
Sì NID
Sì ID
No NID
Passo 1 Individuare su quale scala di misura si collocano le due variabili e quale coefficiente di correlazione si può applicare. La risposta (sì/no) alla domanda: “Hai frequentato una scuola superiore di tipo scientifico-matematico (per es., liceo scientifico)?” è nominale e dicotomica. La modalità di valutazione, rispetto all’esempio precedente, ha subito una trasformazione, passando da un punteggio ad una prova di profitto (scala a intervalli equivalenti) a una valutazione di tipo categoriale (“idoneità”). Dunque, la variabile Y è misurata su scala nominale e, poiché può assumere due soli valori (ID/NID), è dicotomica. Dovendo analizzare la relazione tra due variabili dicotomiche, il docente applicherà il coefficiente di correlazione rphi. Passo 2 Costruire la tabella di contingenza 2 2, disponendo al suo interno le quattro categorie possibili (“sì/ID”, “sì/NID”, “no/ID”, “no/NID”).
Esito esame Risposta
ID
NID
Sì
fa
fb
No
fc
fd
Passo 3 Completare la tabella di contingenza 2 2, consultando la tabella dei dati raccolti. Nella casella fa, inseriremo il numero di casi di studenti idonei che hanno risposto sì alla domanda (sì/ID = fa = 4). Nella casella fb, inseriremo il numero di casi di studenti non idonei che hanno risposto sì alla domanda (sì/NID = fb = 5).
08txtI.qxp_Layout 1 31/01/17 18:59 Pagina 184
184
La correlazione tra variabili
Nella casella fc, inseriremo il numero di casi di studenti idonei che hanno risposto no alla domanda (no/ID = fd = 5). Nella casella fd, inseriremo il numero di casi di studenti non idonei che hanno risposto no alla domanda (no/NID = fd = 6) Esito esame Risposta
ID
NID
Sì
4
5
No
5
6
Passo 4 Calcolare, partendo dai dati inseriti, le frequenze marginali per riga (p; q) e per colonna (p; q). Esito esame Risposta
ID
NID
Totale
Sì
4
5
4 + 5 = 9 p
No
5
6
5 + 6 = 11 q
Totale
4 + 5 = 9 p
5 + 6 = 11 q
20 N
Passo 5 Applicare la Formula (8.8) rphi =
( f a ⋅ f d ) − ( fb ⋅ f c )
( p ⋅ p ′) ⋅ (q ⋅ q′)
=
(4 ⋅ 6) − (5 ⋅ 5) 24 − 25 −1 −1 = = = = −0, 01 81 ⋅121 9801 99 (9 ⋅ 9) ⋅(11 ⋅11)
Il valore del coefficiente di correlazione rphi è -0,01. Il valore è negativo e vicinissimo allo zero, per cui il docente può confermare i risultati ottenuti nella ricerca precedente (rpb = 0) affermando che non vi è alcuna relazione tra la tipologia di scuola media superiore frequentata e l’esito dell’esame di Psicometria II. Passo 6 Poiché abbiamo a che fare con variabili nominali (dunque, categorie) non è possibile costruire il diagramma di dispersione.
8.3 Linee guida per l’uso dei coefficienti di correlazione Come è emerso dai paragrafi precedenti, in psicologia risulta molto utile e interessante studiare la relazione che intercorre tra due variabili, nonché indagare sulla natura di questa relazione (in termini di forma, direzione e forza). Tuttavia, prima di applicare il coefficiente più appropriato per valutare tale relazione, dobbiamo avere un’idea chiara del livello di misurazione su cui le due variabili siano collocate. Una volta individuato il livello di misurazione delle variabili e aver eventualmente operato appropriate procedure di trasformazione di entrambe le variabili o di una di
08txtI.qxp_Layout 1 31/01/17 18:59 Pagina 185
185
La correlazione tra variabili
Tabella 8.5
Tabella riassuntiva dei cinque coefficienti di correlazione esaminati Coefficiente di correlazione
Indice scientifico
Formula
rXY
(8.1), (8.2), (8.3)
Coefficiente di Spearman
rs
(8.4)
Coefficiente di Spearman
rs
(8.4)
Scala ordinale con molti ranghi uguali Scala a intervalli o a rapporti equivalenti Scala ordinale con molti ranghi uguali Scala nominale dicotomica
Tau di Kendall
tau
(8.5)
Tau di Kendall
tau
(8.6)
Tau di Kendall
tau
(8.6)
Coefficiente puntobiseriale
rpb
(8.7)
Scala a intervalli o a rapporti Scala nominale
Coefficiente puntobiseriale Coefficiente phi
rpb
(8.8)
rphi
(8.9)
Variabile X
Variabile Y
Scala a intervalli equivalenti o a rapporti equivalenti
Scala a intervalli equivalenti o a rapporti equivalenti
Coefficiente di Bravais-Pearson
Scala ordinale
Scala ordinale o a intervalli o a rapporti equivalenti Scala ordinale
Scala ordinale o a intervalli o a rapporti equivalenti Scala ordinale con molti ranghi uguali Scala ordinale con molti ranghi uguali Scala a intervalli o a rapporti equivalenti Scala a intervalli o a rapporti equivalenti Scala nominale dicotomica Scala nominale
esse, siamo in grado di scegliere quale indice di correlazione applicare in base alle scale di misura cui appartengono le variabili studiate, come illustrato nella Tabella 8.5.
8.4 La covarianza È possibile esprimere il significato del coefficiente di correlazione r in termini di covarianza tra due variabili, cioè la parte della varianza comune alle variabili X e Y (Ercolani, Areni e Leone, 2001). La covarianza è definita come la media del prodotto degli scarti di ciascuna variabile dalla propria media. cov XY =
∑ ( X − X ) ⋅(Y − Y ) i
i
N
(8.9)
Dalla covarianza è possibile derivare il coefficiente di correlazione r di Pearson dividendola per il prodotto delle deviazioni standard di X e Y. rXY =
cov XY s X ⋅ sY
(8.10)
08txtI.qxp_Layout 1 31/01/17 18:59 Pagina 186
186
La correlazione tra variabili
Sostituendo la covarianza nella Formula (8.10), si avrà:
∑ ( X − X ) ⋅(Y − Y ) i
i
N s X ⋅ sY
rXY =
(8.11)
Sostituendo al denominatore la formula della deviazione standard, si avrà:
∑ ( X − X ) ⋅(Y − Y ) i
i
rXY =
N 2 X − X 2 N
∑
∑Y
2
N
− Y 2
(8.12)
Attuando le opportune semplificazioni, si otterrà:
∑ ( X − X ) ⋅(Y − Y ) i
i
rXY =
∑
N X 2 − X N
(8.13)
∑
Y 2 − Y N
La forma computazionale della Formula (8.13) è la seguente: rXY =
∑ X ⋅Y − ∑ X ⋅∑Y N ⋅ ∑ X − (∑ X ) ⋅ N ⋅ ∑ Y − (∑ Y ) N⋅
i
i
i
i
2
2 i
i
i
(8.14)
2
2
i
che corrisponde alla Formula computazionale (8.3) per il calcolo del coefficiente r di Bravais-Pearson, usata anche nell’Esempio 8.2. Dunque, al numeratore si avrà la covarianza e al denominatore la radice quadrata della varianza delle due variabili, ovvero: rXY =
cov XY
(8.15)
s X2 ⋅ sY2
che è esattamente uguale alla Formula (8.10). Il coefficiente di correlazione rXY di Bravais-Pearson è il rapporto tra la covarianza di X e Y e il prodotto delle relative deviazioni standard. Riprenderemo questa definizione di r nel Capitolo 9.
Riepilogo Lo studio della relazione tra due variabili è un aspetto fondamentale della ricerca e della pratica psicologica. Sapere in che misura due costrutti co-variano (ovvero, variano insieme) può essere molto utile. Per studiare le relazioni tra variabili, si ricorre a diversi indici di correlazione, la cui appropriatezza è determinata dal tipo di scala sulla quale le variabili sono misurate. In questo capitolo, abbiamo approfondito i principali indici
08txtI.qxp_Layout 1 31/01/17 18:59 Pagina 187
187
La correlazione tra variabili
di correlazione (coefficiente di Bravais-Pearson, coefficiente di Spearman, coefficiente tau di Kendall, coefficiente punto-biseriale, coefficiente phi) e le relative procedure di calcolo, che permettono di identificare la forma (lineare o non lineare), la forza (mediante indice numerico che può assumere valori compresi tra 0 e 1 in valore assoluto) e la direzione (determinata dal segno che precede l’indice numerico) della relazione.
Bibliografia Babore A., Candelori C., Picconi L. (2012), La misura della disponibilità emotiva genitoriale: un contributo preliminare alla validazione italiana della Lum Emotional Availability of Parents (LEAP) con adolescenti, Psicologia Clinica e dello Sviluppo, n° 2, pp. 441-451. Balsamo M., Lauriola M., Saggino A. (2012), Personality and College Major Choice: Which Come First?, Psychology, vol 3, n. 5, pp. 399-405. Caprara G.V., Schwartz S., Capanna C., Vecchione M., Barbaranelli C. (2006), Personality and politics: values, traits, and political choice, Political Psychology, n. 27, pp. 1-28. Clark L.A., Watson D. (1991), Tripartite model of anxiety and depression: psychometric evidence and taxonomic implications, Journal of Abnormal Psychology, n. 100, pp. 316-336. Ercolani A.P., Areni A., Leone L. (2001), Statistica per la psicologia. I. Fondamenti di psicometria statistica e descrittiva, Il Mulino, Bologna. Galotti K.M. (2007), Decision structuring in important real-life decisions, Psychological Sciences, n. 18, pp. 320-325. Holland J.L. (1985), Making vocational choices: A theory of vocation personalities and work environment, Prentice Hall, Englewood Cliffs. Holland J.L. (1996), Exploring careers with a typology what we have learned and some new directions, American Psychologist, n. 51, pp. 397-406. Holland J.L. (1997), Making vocational choices: A theory of vocational personalities and work environments, Psychological Assessment Resources, Odessa. Lynn R. (2010), In Italy, north-sud differences in QI predict differences in income, education, infant mortality, stature, and literacy, Intelligence, n. 38, pp. 93-100. Lum J.J., Phares V. (2005), Assessing the emotional availability of parents, Journal of Psychopathology and Behavioral Assessment, n. 27, pp. 211-226. McBurney D.H., White T.L. (2007), Metodologia della ricerca in psicologia, Il Mulino Editore, Bologna. Olino T.M., Klein D.N., Lewinsohn P.M., Rohde P., Seeley J.R. (2008), Longitudinal associations between depressive and anxiety disorders: A comparison of two trait models, Psychological Medicine, n. 38, pp. 353-363. Pedone R. (2002), Statistica per psicologi, Carocci Editore, Roma. Spielberger C.D., Gorsuch R.L., Lushene R.E. (1970), STAI: Manual for the State-Trait Anxiety Inventory, Consulting Psychologists Press, Palo Alto. Saggino A., Tommasi M., Robinson D. (2011), Gli italiani del Sud sono meno intelligent degli italiani del Nord? Una replica a Lynn, Giornale Italiano di Psicologia dell’Orientamento, n, 12/2, pp. 45-52.
08txtI.qxp_Layout 1 31/01/17 18:59 Pagina 188