Capitolo 1
Introduzione FAQ e qualcos’altro, da leggere prima
1.1 Questo è un libro di Statistica Ho scritto questo libro pensando che chi lo legge sia una studentessa o uno studente di Scienze sociali, politiche o economiche, costretta/o dal proprio corso di laurea ad affrontare un esame di Statistica. Ma anche che sia un qualunque altro utente (utentessa?) che per una qualche ragione abbia avvertito l’improvviso bisogno di studiare, rispolverare o approfondire un po’ di Statistica. In ogni caso penso che chi lo legge lo faccia aspettandosi di trovarci dentro qualcosa di utile, di ricavarne un qualche giovamento e magari che ciò succeda nel più breve tempo possibile. Su quest’ultimo punto non voglio compromettermi. Ho invece preso come una sfida personale l’obiettivo di affrontare (e soddisfare!) i primi due. L’ho scritto pensando che chi studia dovrà trovarci dentro quello che serve per superare il proprio esame, qualcosina in più per superarlo brillantemente e, magari, un eccesso di approfondimento nel caso scopra particolare attrazione e interesse per la materia (il che, credetemi, non è raro!). L’utente interessato dovrà trovare quanto serve per prodursi in esclamazioni del tipo “Ah... ecco cos’era quella roba lì!” oppure “Questa è la formula che cercavo!” o magari “Ah... guarda, è meglio che faccia così, non come facevo prima!” o qualcosa del genere. L’ho scritto sapendo anche che cosa non volevo scrivere: non un elenco di tecniche, formule e soluzioni (ce ne sono tanti), non un pomposo manuale di teoria e fondamenti astratti (ce ne sono tanti), ma una guida alla comprensione, qualcosa che aiuti a collocare pezzi di nozioni e di metodi magari già usati e abusati e mai capiti fino in fondo, un’introduzione al ragionamento statistico, all’occhio critico per giudicare e usare consapevolmente l’abbondanza di software disponibili per fare analisi statistiche.
1.2 Serve un sacco di Matematica? Studentesse, studenti o utenti interessati che siano, non li ho pensati necessariamente provvisti di una laurea in Matematica o di un abbondante numero di crediti in Analisi, Algebra e Geometria. Ma per quanto vaga sia ancora (a questo punto del libro...) l’idea di Statistica, è probabilmente ben chiaro che la Matematica ne è comunque strumento essenziale. Il punto è allora quanta e quale (in genere la domanda viene posta in quest’ordine) Matematica serve per leggere il libro, capirlo e impararlo? Uno dei miei maestri risponderebbe: “Se conosci le 4 operazioni elementari +, −, ×, /, ma forse bastano anche le prime 3, puoi seguire con profitto un corso di Statistica”. Sarei tentata di dire che aveva ragione, ma la verità è che esagerava. Un po’ di Matematica, più avanzata
2
Capitolo 1
delle 4 operazioni elementari, è necessaria per l’obiettivo che mi sono posta. E da qui non si scappa. Ma mi sono impegnata a limitare quel po’ di Matematica che serve a quella che tutti abbiamo visto alla scuola dell’obbligo o al massimo al biennio di una qualunque scuola secondaria. Mi rivolgo a persone con poca abitudine al ragionamento analitico formalizzato (cioè non proprio esperti amanti di formule, equazioni, grafici, linguaggio e strumenti della Matematica) ma con attitudine e abitudine a ragionare. Come si dice nel prossimo paragrafo, la Statistica è caratterizzata da trasversalità e versatilità. La vastità di applicazione dei metodi statistici richiede necessariamente un certo grado di astrazione dal particolare contesto applicativo. È per questo che si rende necessario procedere per modelli e regole generali, usando strumenti matematici formali come le funzioni e le equazioni. In questo libro ci affideremo più spesso all’intuizione che al rigore matematico. Nulla di scorretto, comunque, ma qualche volta poco elegante (... sempre meglio che incomprensibile!). Qualunque sia il concetto o lo strumento trattato in questo libro, l’esposizione teorica è abbondantemente integrata da esempi di impiego concreto. Esempi semplici, a volte banali, di vita quotidiana o letti sui giornali o trovati su internet.
1.3 Perché devo studiare la Statistica? Perché devo studiare la Statistica se mi sono iscritto/a a un corso di laurea per sociologi, scienziati politici, economisti, scienziati dell’organizzazione e simili? Non abbiamo ancora un’adeguata definizione di Statistica (per questo bisogna leggere almeno il Capitolo 2) e presumo (più per esperienza che per arroganza, concedetemelo...) che i più abbiano al momento un’idea confusa di che cosa sia e a che cosa serva. Guardiamoci intorno: nella nostra società dell’informazione e della comunicazione la Statistica e il ragionamento statistico sono ovunque. Dalla mattina alla sera non c’è giornale o telegiornale che non contenga almeno un grafico o una tabella o il risultato di un sondaggio. Al supermercato sulla confezione di ogni prodotto possiamo leggere la tabella dei “valori nutrizionali”, e alla cassa vengono registrate sulla nostra “carta fedeltà” una quantità di dati che riguardano noi e i nostri acquisti. Per accedere ai siti internet (anche quelli free) dobbiamo pagare il prezzo di “registrarci”, che poi significa cedere una quantità di dati su noi, i nostri gusti, le nostre abitudini, le nostre opinioni. In farmacia acquistiamo cose che per poter essere vendute sono state ampiamente testate e sperimentate... e potrei andare avanti così per ore. Viviamo ogni giorno la Data Revolution e con un doppio ruolo: produciamo e riceviamo dati, continuamente e in quantità che cresce rapidissimamente. Produciamo, spesso senza accorgercene, i Big Data e li lasciamo online a disposizione di qualcuno che potrà decidere come usarli. Siamo bombardati, ogni giorno, da una quantità di informazione quantitativa: l’esperienza della pandemia di Covid-19 l’ha rivelato in modo dirompente con una tempesta di dati che in molti chiamano info-demia. Abbiamo tutti e tutte bisogno di essere pronti e preparati a produrre e ricevere dati e informazione quantitativa e abbiamo bisogno dell’attrezzatura adeguata. Competenze statistiche e ragionamento statistico ci servono per diventare consapevoli produttori di dati e allo stesso tempo utilizzatori critici di quanto viene comunicato e affermato sulla base di dati, numeri, grafici, modelli, previsioni… insomma: abbiamo bisogno della Statistica. La Statistica (non solo lei, per esempio anche la Matematica e le Lingue) è uno strumento utile, a volte indispensabile, alle altre scienze e discipline. Usano abbondantemente i metodi statistici quasi tutte le scienze empiriche, quelle che hanno a che fare con i fatti del mondo e delle società, per esempio la Sociologia e l’Economia. La Statistica è ampiamente
Introduzione
3
applicata anche nelle scienze naturali e sperimentali che studiano i fatti osservati in natura o i dati prodotti in laboratorio, per esempio la Biologia, la Medicina, la Fisica e l’Ingegneria. Quasi tutti i corsi di laurea prevedono attualmente almeno un corso introduttivo di Statistica e si avrà a che fare con lei sia che da “grandi” si voglia fare gli astronauti sia che si voglia diventare sociologi. Nella mia esperienza di docente vedo sempre più spesso studenti e studentesse di ritorno, cioè gente che si avvicina (o ri-avvicina) alla Statistica dopo un’esperienza lavorativa. Pare che iniziando a lavorare appaia più chiara l’esigenza di una strumentazione statistica che determina poi il ritorno alla formazione. Non è mai troppo tardi... ma con questo libro vorrei evitare questo passaggio tortuoso: studiamola adesso!
1.4 Questo esame, io, non lo passerò mai! Difficile dare un’idea di quante volte ho sentito o letto negli occhi dei miei studenti questa frase. Non posso non chiedermi perché. A differenza di altre materie (la Matematica, la Storia ecc.), la Statistica non viene insegnata nella scuola dell’obbligo come materia a sé stante e molto raramente è nei programmi ministeriali delle scuole secondarie. Nozioni e metodi squisitamente statistici ci vengono sì impartiti sin dalla scuola elementare, ma quasi mai sotto questo nome. Per questo forse ci si trova all’università ad affrontare un esame di Statistica con qualche vaga idea e molti sentimenti negativi. Mentre il resto del libro è dedicato a porre rimedio alle “idee vaghe”, ora provo a sgombrare il campo dai “sentimenti negativi”. Ho idea che da qui abbiano origine le difficoltà che spesso gli studenti incontrano nel fare propri i contenuti dei corsi di Statistica (leggi “imparare un po’ di Statistica”) e finalmente superare l’esame. In tali difficoltà vi è certamente una parte reale, che ha a che fare con la diversità della Statistica fra le materie tipiche dei corsi di laurea in Scienze sociali, politiche ed economiche. Ma c’è anche tanto pregiudizio, una chiusura mentale che certe volte ci prende di fronte alle scienze formali e matematicizzate (il che sa un po’ di insulto all’intelligenza umana) oppure all’idea che la Statistica sia una “roba un po’ polverosa da scantinato ministeriale”. La Statistica, dovremmo averlo capito, è scienza attuale e dalle applicazioni ampie, professionali, quotidiane e in rapida espansione, una competenza di cittadinanza. Liberiamoci dai pregiudizi e dedichiamoci alle difficoltà reali che per essere superate richiedono un po’ d’impegno, direi quello necessario al superamento dell’esame universitario medio.
1.5 Ma questa Statistica, di preciso, che cos’è? Definire una scienza significa elencarne i metodi e gli oggetti e, quindi, si capisce di più alla fine di un libro che non all’inizio (e questo lo diceva già D. Diderot ai tempi della sua Encyclopédie, per citare qualcuno che la sapeva lunga!). Direi allora di pensare lateralmente e cominciare a capire a che cosa serve la Statistica. Il bisogno che la Statistica cerca di soddisfare dipende da due specifici limiti della mente umana: siamo in genere incapaci di comprendere ciò che avviene nella realtà con un’unica o con un insieme ridotto di osservazioni e, d’altro canto, non riusciamo a sintetizzare “a mente” o “a occhio” un insieme più ampio di osservazioni (diciamo pure che si ha già qualche problema con 5 o 6). È un po’ come il nostro “naturale limite di velocità” (a piedi!) che superiamo con i mezzi di trasporto oppure come l’impossibilità del nostro cervello di ricordare grandi quantità di informazioni o di eseguire rapidamente calcoli lunghi e complessi che superiamo (e sempre più facilmente) con l’Elettronica e l’Informatica.
4
Capitolo 1
La Statistica supplisce all’incapacità di percepire un fenomeno reale con una sola o con poche osservazioni e, allo stesso tempo, all’incapacità di sintetizzare quantitativamente il risultato di un elevato numero di osservazioni. Il suo sviluppo è avvenuto in periodi storici differenti, quindi a diversi stadi di esigenze e conoscenza umane, e l’ha fornita così di diverse facce. Scopi tradizionali della Statistica sono la raccolta e la produzione di dati. Nel linguaggio comune la Statistica viene spesso identificata con un insieme di osservazioni: il termine “statistica” è diffusamente usato nei media e nella chiacchiera quotidiana per indicare una tabella di numeri o un grafico. La raccolta di dati, ufficiali e della natura più varia, è uno dei ruoli fondamentali dell’ISTAT (l’istituto nazionale di Statistica italiano). Attualmente la produzione di dati non è più un’esigenza primaria (anche se servono sempre competenze e abilità specifiche) principalmente perché di dati siamo sommersi. La moderna Statistica è strumento non solo per la raccolta dei dati, ma principalmente per la loro elaborazione e analisi con l’obiettivo di trasformarli in informazioni, che sono poi quelle che servono per prendere decisioni. Lo stesso mio maestro che ho citato poco fa diceva anche: “Il dato, da solo, è muto. Per farlo parlare serve un po’ di Statistica”. Nella moderna pratica statistica poi, tutto ciò avviene in genere sulla base di un’osservazione parziale e incompleta della realtà, cioè come si dice in condizioni di incertezza. Ed eccoci in grado di tentare una definizione di Statistica: la Statistica è un insieme di metodi e di tecniche per la conoscenza quantitativa, l’analisi e la comprensione di uno o più fenomeni, singolarmente o congiuntamente considerati, che si presentano nella realtà con un insieme di diverse manifestazioni, osservabili totalmente o parzialmente. Dati non completi e incerti, perché prodotti in maniera incontrollata, è condizione frequente nella nostra era di Big Data. La Statistica è componente cruciale della moderna Data Science (Scienza dei Dati) per il suo ruolo indispensabile di trattamento, controllo e misura dell’incertezza Sempre pensando lateralmente, fermiamoci a riflettere anche su che cosa non è la Statistica. La Statistica non è saper fare i conti, e lo scopo di questo libro non è insegnarvi a contare. I conti li fa il computer, più velocemente e precisamente di noi. Un mito da rifiutare è l’idea che la Statistica sia un metodo per predire con sicurezza il futuro o per fare affermazioni certe sull’inosservato o per provare qualunque cosa si abbia voglia di (o convenienza a) provare. Chi arriverà alla fine di questo libro saprà che questi sono tipici abusi della Statistica, ma non sono Statistica. L’idea è distinguere fra dato e interpretazione con l’obiettivo di imparare le precise regole statistiche per contenere la (sciagurata umana) tendenza a interpretare al di là dei dati.
1.6 Un po’ di storia (aiuta sempre) Sull’etimologia del termine statistica non tutti sono d’accordo; la teoria apparentemente più seguita lo fa derivare da “Stato”, con riferimento cioè alle rilevazioni ufficiali da parte di istituzioni statali. Le tracce più antiche di rilevazioni statistiche ufficiali risalgono ai Sumeri (IV-II millennio a.C.). Nell’antico Egitto ci sono testimonianze di un’attiva misurazione quantitativa dei fenomeni sociali e della venerazione di una dea dei libri e dei conti. Fa parte della Bibbia il Libro dei Numeri, dove si parla anche del censimento di Mosè su ordine divino (1720 a.C.). Ci sono prove di rilevazioni statistiche ufficiali nell’antica Cina (2238 a.C.) e naturalmente nell’antica Roma: si sa che la Madonna non partorì a casa sua a Nazareth (in Galilea), ma nella stalla sulla strada per Betlemme (in Giudea) dove stava andando per registrarsi al censimento di Augusto.
Introduzione
5
Si fa iniziare la fase metodologica con A. Quetelet (1796-1874) a cui dobbiamo l’unificazione sotto un’unica visione di diversi ambiti di ricerca riconducibili alla Statistica (la Demografia, la Teoria degli errori accidentali e il Calcolo delle Probabilità). È da questo momento che la Statistica si caratterizza come metodo scientifico. I metodi e i concetti su cui si fonda il moderno ragionamento statistico appaiono nel secolo appena concluso. I contributi classici più citati sono di K. Pearson, E.S. Pearson, Sir R.A. Fisher, W.S. Gosset, J. Neyman e degli italiani C. Gini, O. Chisini, B. De Finetti. I computer, la crescente potenza di calcolo automatizzato e di memorizzazione a costi e tempi in continua riduzione stanno attualmente rivoluzionando il modo di fare Statistica sia sotto il profilo metodologico, con la possibilità delle simulazioni al computer e il graduale abbandono delle ipotesi analitiche iniziali sostituite da enormi masse di conti impensabili solo qualche decina di anni fa, sia sotto quello pratico, espandendone gli ambiti di applicazione e aumentando nel contempo l’esigenza di opportuni e specifici strumenti statistici. Statistica e computer (Computer Science) sono le componenti-base della moderna Scienza dei Dati (in Inglese Data Science), quegli algoritmi di cui tanto si parla, nel bene e nel male, sempre più presenti nella nostra quotidianità. Nella società dell’informazione molti sono in grado di accedere con facilità a ogni sorta di dati, ma pochi, precisamente solo chi dispone di adeguate competenze statistiche, sanno cosa farne e sono capaci di farli parlare senza abusarne.
1.7 Come usare questo libro Dopo i primi tre capitoli di nozioni introduttive e generali, questo libro è diviso in tre parti. Segue una sequenza di metodi e obiettivi applicativi che mi è sembrata naturale (e che è anche piuttosto standard). Credo che le tre parti più o meno si equivalgano in termini di difficoltà e di impegno. Direi però che l’ultima parte (III) è per sua natura più matematicizzata, e richiede più immaginazione e intuizione delle precedenti. La prima parte (I) è la prima parte! È lì che sono introdotti il linguaggio tecnico, la notazione (simboli) e i fondamenti. Se si è al primo approccio con la Statistica, potrebbe essere la parte più impegnativa. Le tre parti e tutti i capitoli formano una sequenza: credo che non sia possibile comprendere e imparare un capitolo se non si è già letto e imparato quello precedente. Annoiano, ma sono inevitabili, i continui inviti a ritornare indietro nelle pagine, nei paragrafi e nei capitoli. È alla fine del capitolo, non all’inizio, che si capisce dove si va a parare. Il consiglio è di resistere e arrivare fino in fondo: una pagina tira l’altra! Questo libro insegna la Statistica come un processo cumulativo. Non credo ci sia un modo diverso di usarlo. Alla fine del libro trovate un Eserciziario con una serie di semplici esercizi suddivisi in base ai capitoli e, al termine di ciascuna delle tre parti, un gruppo di esercizi riepilogativi. Suggerimenti per la soluzione e soluzioni complete si trovano sulla pagina dedicata al volume sul sito www.mheducation.it. Di solito amo la sintesi e mi annoiano le ripetizioni. Penso però che molta sintesi aiuti chi già sa, e per chi non sa giovi ripetere (lo dicevano già i latini!). Con questo principio, in questo libro, mi ripeto spesso. La maggior parte delle formule sono enunciate, spiegate ed esemplificate, ma non sono dimostrate. Per alcune ho aggiunto la dimostrazione, spiegandola passo per passo e solo quando, come ho promesso, non serve più Matematica di quella che abbiamo imparato tutti a scuola. Le dimostrazioni sono chiaramente segnalate e separate dal resto e possono essere saltate senza perdere il filo. Se però l’obiettivo è imparare, saltare le dimostrazioni non è una buona idea! Prima di tutto
6
Capitolo 1
le dimostrazioni dimostrano. Spendendoci sopra un po’ di tempo è poi più facile convincersi che il metodo funziona e ricordarsi come, quando e perché funziona. Il grassetto serve per ricordare (definizioni, enunciati, concetti ecc.); l’italico serve per enfatizzare (fermare la voce, fermarsi a riflettere ecc.).
1.8 Ringraziamenti Devo un sacco di ringraziamenti a un sacco di persone. Tutte quelle che mi hanno insegnato, ascoltato, sostenuto, incoraggiato, letto e corretto. Le ringrazio col cuore. Loro lo sanno. Alessandro Barbiero mi ha assistita nella composizione in LATEX della prima edizione e nella produzione di grafici e tabelle. Rosa Falotico ed Elena Siletti hanno curato gli esercizi di fine capitolo che trovate nell’Eserciziario. Emanuela Furfaro ha aggiornato i numerosi esempi per la seconda edizione e ha curato l’aggiunta dei nuovi esercizi di riepilogo per ciascuna parte. Per questa terza edizione, Edoardo Ratti ha aggiornato tutti gli esempi e Rosa Di Biase ha revisionato la revisione per inconsistenze, imprecisioni e nuovo input. A tutti e tutte loro un grande grazie per il prezioso super-apprezzato contributo. Lo stimolo più forte per scrivere questo libro e per il suo continuo aggiornamento, mi è arrivato e mi arriva dai miei studenti. Sono grata a tutti: i bravi e le brave, i medi, i cattivi, i motivati e quelli a cui sembrava non importasse niente, quelli che ho avuto e quelli che avrò. Dedico questo libro a Frank e a Lorenzo. Anche loro lo sanno.
1.9 Un’aggiunta di ringraziamenti Questa è la terza edizione del libro. È stato interamente rivisto rispetto alle precedenti due ma l’impianto e la sequenza dei contenuti è rimasto pressoché sostanzialmente lo stesso. Molte sviste ed errori sfuggiti alle prime due stesure sono stati corretti, in parecchi punti intere frasi sono state riformulate nella speranza di averle rese più chiare. Con la stessa speranza, alcuni capitoli sono stati riarrangiati, qua e là il testo è stato integrato con l’aggiunta di concetti e nozioni, ma anche paragrafi, esempi e dimostrazioni che mi sembravano mancare. La gran parte di questi cambiamenti è basata su segnalazioni di studenti e studentesse, colleghi e lettori. Ringrazio tutti e tutte: avevano ragione.