UNIVERSITÀ DEGLI STUDI DI NAPOLI “FEDERICO II” DIPARTIMENTO DI SCIENZE SOCIALI
Corso di laurea magistrale in Comunicazione Pubblica, Sociale e Politica Corso di Nuovi Dati e Nuovi Metodi per l'Analisi della Comunicazione e Metodi Statistici per l'Analisi della Comunicazione
Terra dei Fuochi: la dimensione del consumo alimentare nel giornalismo online
Prof.ssa Enrica Amaturo Prof.ssa Maria Gabriella Grassia Tutor: Ciro De Falco
Candidati: Salvatore Di Bari Alessandro Grieco Francesco Pompeo Carmela Prisco Gaia Rasco Vincenzo Rusciano Federica Russo
M15/983 M15/1019 M15/981 M15/1030 M15/1033 M15/988 M15/1013
Anno Accademico 2016/2017
0
Sommario Introduzione Capitolo 1 Comunicazione e informazione: una panoramica storica
2 4 4
Editoria digitale: le mutazioni nella forma e nel linguaggio
10
Terra dei fuochi
12
Capitolo 2
14
Analisi del contenuto
14
Disegno della ricerca
17
Definizione dei parametri di ricerca e raccolta degli articoli
19
Capitolo 3
27
Analisi automatica dei testi
27
Concetti generali preliminari
29
Tipi di corpora
34
Fase di pre-trattamento dei dati
36
La Statistica esplorativa multidimensionale
40
Analisi delle corrispondenze lessicali (ACL)
41
L’analisi testuale in SPAD_T
47
Fasi preliminari
48
Mots
50
Corda
52
Amado
54
Vospec
60
Talex
69
L'interpretazione dei piani fattoriali
70
Grafico variabili attive e lemmi
78
Denominazione degli assi fattoriali
85
Conversione delle variabili da attive ad illustrative e viceversa
87
Cluster Analysis
89
Conclusioni
98
Bibliografia
101
1
Introduzione Una terra che brucia, un paese condannato, un destino segnato ancor prima di nascere: sono queste le immagini che la mente evoca quando si pensa alla Terra dei Fuochi. E ancora: malattie, fumo, lacrime. Andando più a fondo si ritrovano anche le incantevoli e nostalgiche immagini di un tempo: le verdi distese, gli ottimi prodotti della terra, gli inconfondibili odori e sapori. La portata dei disastri della Terra dei Fuochi non si limita alla sola Campania ma travalica i confini per ergersi a emergenza nazionale che coinvolge tutti gli ambiti, da quelli più privati della propria salute, a quelli effettivamente pubblici del commercio, dell’inquinamento e delle politiche del territorio. Tutti guardano a questo problema, molti ne parlano, ancora pochi sono consapevoli della portata dei danni e dei pericoli che incombono sulla qualità della vita di ciascuno. Notizie maneggiate e rimaneggiate da qualsiasi mezzo di comunicazione, immagini (che fanno riflettere) diffuse attraverso molteplici canali, opinioni circolate in ogni contesto e ambito: tutti questi elementi hanno contribuito a formare uno specifico clima d’opinione intorno al tema e un particolare ciclo di vita dell’istanza stessa. Con questo studio si intende rilevare il modo in cui è stato trattato l’argomento, le variabili in gioco che hanno contribuito all’affermarsi di un orientamento rispetto a un altro, guardando nello specifico al trattamento mediatico delle notizie circolate online attraverso gli articoli delle maggiori testate, con un occhio critico sul grado di influenza che l’appartenenza territoriale della testata può esercitare durante le fasi di trattamento e costruzione della notizia. Nel primo capitolo si tenta di dare un riferimento teorico sugli sviluppi del rapporto tra comunicazione e informazione, soffermandosi sull’enorme crescita dei media digitali e dell’informazione digitalizzata come strumenti sempre più pervasivi e privilegiati dagli individui. Ci si sofferma, ancora, sulle nuove prospettive e possibilità offerte dall’editoria digitale. Il capitolo si conclude con l’introduzione al tema cui verte l’analisi che seguirà inquadrando e tematizzando il problema della Terra dei Fuochi, delineandone gli sviluppi
2
avvenuti agli inizi del nuovo millennio, presentandone gli attori e gli impatti socio-politici ed economici generatisi. Nel secondo capitolo si cerca di fornire un quadro teorico esaustivo dell’indagine che verrà condotta definendo l’ambito di studio nel quale il lavoro ricade, cioè: l’analisi del contenuto. Vengono presentate anche le prime fondamentali nozioni tecniche dell’analisi nello specifico introducendo il disegno di ricerca, definendo i parametri che si è scelto di utilizzare e il processo di raccolta e selezione degli articoli su cui l’indagine è stata effettivamente condotta. Il terzo capitolo scende nel vivo della ricerca dapprima fornendo le linee teoriche per capire l’importanza dell’utilizzo dell’analisi automatica dei testi, cui segue un paragrafo nel quale vengono raccolti e definiti i principali concetti (corpus, occorrenza, token/type, dizionario, vocabolario, rango, etc.) che si ritiene essere utile considerare per trattare in maniera agevole l’analisi che si svolge e la lettura stessa che si sta affrontando. Fondamentale è anche la descrizione della fase di pre-trattamento dei dati in cui si spiega come gestire agevolmente la grande quantità di testo su cui si lavora. A questa prima parte segue quella centrale di tutto lo studio, che rappresenta il cuore dell’indagine stessa, in cui ci si addentra nella descrizione operativa delle varie analisi condotte. Viene descritta in primis l’analisi delle corrispondenze lessicali (ACL), fulcro dell’intera indagine, in cui vengono presentati gli elementi fondanti della ricerca. Segue l’analisi testuale in SPAD_T, software utilizzato per sviluppare tecnicamente l’ACL e la Cluster Analysis (condotta in seguito). Il lavoro procede poi con l’analisi degli output grafici, cioè dei piani fattoriali, e l’interpretazione dei risultati mediante molteplici prospettive. L’ultima analisi condotta, e che conclude l’indagine, è la Cluster Analysis che permette di individuare possibili aggregati che presentino al loro interno caratteristiche di omogeneità, permettendo una migliore interpretazione dei dati risultanti dall’indagine, mediante la complementarietà tra metodi fattoriali e metodi di classificazione. La lettura termina con un paragrafo di conclusione, in cui si cerca di tirare le somme sul lavoro svolto e di arricchire l’opera con qualche considerazione personale.
3
Capitolo 1 Comunicazione e informazione: una panoramica storica Nel corso degli anni le scienze sociali hanno manifestato sempre più interesse verso la comunicazione e l’informazione. Non è un caso. Questi due elementi nelle società odierne rappresentano fonti di potere e contro-potere, in grado di concorrere alla produzione simbolico-culturale dove gli individui possono raccontarsi e riconoscersi. Ma quali sono gli elementi necessari affinché avvenga lo scambio informativo? Alla base di tutti i modelli della comunicazione ci sono due differenti teorie: la prima elaborata da Shannon e Weaver e la seconda da Roman Jacobson. Il termine “comunicazione” ha avuto significati differenti nel corso dei secoli. In primo luogo, è stato utilizzato per indicare contatto o trasferimento materiale, come può avvenire col termine “mura comunicanti” o “vasi comunicanti”. In era moderna, il significato si è ampliato, includendo anche gli aspetti relativi al trasporto (come nel caso di “vie di comunicazione”) e trasferimento di informazione (“comunicazioni telefoniche”). Claude Elwood Shannon (1916-2001) è stato un ingegnere elettrico statunitense, matematico ed inventore. Ha avuto modo di lavorare nei laboratori Bell dal 1941 al 1972. Insieme al suo collega, Warren Weaver (1894-1978) ha studiato con l’obiettivo di migliorare l’efficienza della trasmissione dei segnali attraverso apparati tecnici di trasmissione. Nel 1949 insieme al suo collega ha pubblicato “La teoria matematica della comunicazione” sul Bell System Technical Journal, un testo sorprendentemente leggibile pur essendo una relazione tecnica creata da due persone fortemente caratterizzate da un background tecnico. Le loro idee hanno contribuito a costruire le fondamenta della teoria dell’informazione (information theory). Il modello matematico elaborato prevede la presenza dei seguenti elementi: fonte dell’informazione, trasmittente, canale, ricevente, destinatario dell’informazione. Ovvero: la fonte codifica un messaggio che diventa un segnale (eventualmente anche privato), che viaggia su un canale e diventa segnale ricevuto, che a sua volta va decodificato affinché diventi messaggio ricevuto.
4
Questo modello è stato criticato perché non in grado di tenere conto degli aspetti interattivi, contenutistici e culturali dell’interscambio comunicativo, che chiaramente non può essere ridotto in senso semplicistico matematico. La cultura e lo spazio sociale della comunicazione, infatti, non rientrano nella teoria matematica della comunicazione. Inoltre, nel modello creato da Shannon e Weaver, la comunicazione viene gestita interamente dall’emittente, con il destinatario attore passivo che si limita ad essere colpito. Invece, il concetto di comunicazione, la cui radice deriva da “comunità”, “comune”, implica la condivisione dell’informazione perché, come sottolineato da Paccagnella, “la comunicazione è un processo di costruzione collettiva e condivisa di significato, processo dotato di livelli di formalizzazione, consapevolezza e intenzionalità”.1 Differente l’interpretazione fornita da Roman Jakobson (1896-1982) che nel suo modello ha sottolineato con grande decisione il variare dei significati in relazione al variare del contesto. La teoria della comunicazione verbale di Jakobson, individua 6 elementi: mittente, messaggio, destinatario, contesto (ovvero le circostanze in cui ogni evento comunicativo è inserito nel messaggio), codice e un canale (o anche detto contatto). A questi sei elementi corrispondono altrettante funzioni della lingua: 1
R.Albano, L.Paccagnella, La ricerca sociale sulla comunicazione, Carocci, 2006, p.18.
5
● La funzione referenziale (contesto) ● La funzione emotiva (mittente) ● La funzione conativa (destinatario) ● La funzione fàtica (contatto) ● La funzione poetica (messaggio) ● La funzione metalinguistica (codice) Queste funzioni in genere sono sempre presenti, ma con delle prevalenze di una o più di esse. Ma quali sono, dunque, le differenze tra i due modelli proposti fin qui? Innanzitutto, nel modello di Jakobson, fonte e trasmittente si unificano in un’unica voce. Inoltre, segnale e rumore spariscono, dando spazio a contesto e codice. Jakobson ha dunque cercato di costruire un modello della comunicazione umana che ci permetta di capire come e perché siamo in grado di parlare di qualcosa e di comprendere ciò che viene detto. Come ben sappiamo, spesso la comunicazione può terminare con fraintendimenti se non si condivide il contesto. È il caso, ad esempio, del tone of voice utilizzato online che potrebbe essere facilmente mal interpretato in senso negativo. Questo però non significa che condividere lo stesso contesto generi, necessariamente, un’interpretazione perfetta. Tutt’altro: la comprensione di un messaggio rappresenta un processo molto complesso, che non presenta mai una perfetta simmetria tra codifica e decodifica. L’uomo per sua natura, dal punto di vista biologico è dotato di apparati di trasmissione e ricezione e i dispositivi tecnologici che noi quotidianamente utilizziamo, come smartphone e tablet, non fanno altro che estendere queste nostre possibilità, consentendoci di ampliare il nostro pubblico potenziale e dandoci modo di conoscere in tempo reale l’opinione di un numero incredibile di persone su uno specifico tema. L’uso dei media digitali e delle reti telematiche è una pratica ormai interiorizzata nel quotidiano di ciascuno, tanto che sembra essere oggi un’attività scontata su cui non ci sia bisogno di ulteriori riflessioni. Sebbene l’uso di questi strumenti è cosa ormai diffusa e accessibile a tutti, sembra opportuno fermarsi e riflettere maggiormente sul potenziale espressivo, le nuove forme di fruizione, lo sviluppo di nuovi flussi comunicativi, che il Computer e Internet hanno generato nella società dell’informazione.
6
L’evoluzione del computer ha influenzato profondamente tutte le altre tecnologie della comunicazione, facendone proprie, nello stesso tempo, tutte le potenzialità. La tecnologia dei microprocessori a partire dagli anni Settanta, il costante sviluppo di software facili da utilizzare e, negli anni Novanta, la rapida espansione della Rete hanno permesso la diffusione di questo strumento che, da dispositivo riservato alle grandi organizzazioni e amministrazioni, ai comandi militari e alla ricerca scientifica, è diventato accessibile a tutti, proprio come un qualsiasi altro elettrodomestico. Internet poi ha rivoluzionato il modo stesso di comunicare, di scambiare informazioni e di organizzare attività di natura sociale, politica ed economica. Stilare una lista precisa dei vari usi di internet è difficile, ma è importante sottolineare il grande impatto che ha avuto la diffusione della comunicazione digitale che, dal 1971, in cui avvenne la prima forma di comunicazione in internet via mail, ad oggi si è ampiamente radicata nella quotidianità. Così la rete è diventata uno strumento di massa aperto alla divulgazione di notizie e alla vendita di prodotti e servizi e la sua implementazione con le più svariate applicazioni informatiche consente oggi, di organizzare il lavoro e di gestire la vita relazionale in modo virtuale. Andando più nello specifico, è possibile suddividere la storia di Internet in tre grandi periodi o fasi: -
La fase militare/scientifica
-
La fase universitaria/accademica
-
La fase universale/di massa
Nel 1969, negli Stati Uniti, l’agenzia di ricerca ARPA, che aveva il preciso compito di occuparsi di ricerca e sviluppo nel campo militare e in quello delle tecnologie di comunicazione, in un periodo in cui c’era il rischio concreto di un conflitto atomico, sviluppò un progetto per la realizzazione di una rete di telecomunicazioni che potesse garantire la circolazione delle informazioni anche in caso di guerra: venne realizzata ARPANET, una rete telematica in grado di collegare centri di ricerca e università statunitensi. In questo modo si permetteva la collaborazione a distanza tra scienziati al lavoro su progetti militari ma si gettavano anche le basi per una nuova fase di sviluppo economico.
7
Fu proprio la possibilità di comunicare a distanza fra i diversi nodi della rete a suscitare maggior entusiasmo tanto che la posta elettronica fu uno dei risultati più importanti ottenuti con la realizzazione della rete. Nel corso degli anni Settanta ARPANET continuò a svilupparsi, facilitata, in questo, dalla sua struttura totalmente decentralizzata. Il primo standard di trasmissione utilizzato fu il cosiddetto NCP (Network Control Protocol), il quale però fu presto sostituito da un protocollo più sofisticato, lo stesso che avrebbe reso possibili le prestazioni della futura rete Internet, il TCP/IP (Transfer Control Protocol/Internet Protocol). La disponibilità del protocollo TCP/IP e la struttura decentralizzata di ARPANET favorirono il sempre più rapido collegamento di intere nuove reti, determinando lo sviluppo di quel gigantesco sistema telematico che in breve tempo avrebbe avvolto l'intero pianeta e che si cominciava a denominare Internet (dalla fusione delle parole, Interconnected Networks). Nel 1983, visto il proliferare delle reti locali che si univano ad Arpanet, per motivi di sicurezza, il Ministero della Difesa degli Stati Uniti divise Arpanet in due parti: “Milnet”, utilizzato esclusivamente per programmi di ricerca a scopo militare e “Arpanet” che continuò a restare al servizio delle università e dei centri di ricerca. Così La rete Arpanet finì per inglobare tante altre piccole reti di comunicazione divenendo INTERNET (Interconnected Networks – Reti Interconnesse). Ma se fino a quel momento la rete era stata, prevalentemente, uno strumento di lavoro per la comunità scientifica e accademica degli Stati Uniti, dall'inizio degli anni Novanta le cose cominciarono a cambiare a seguito di una serie di avvenimenti, primo fra tutti l’introduzione del World Wide Web, che portarono allo sviluppo della rete verso una dimensione commerciale e di massa. Il World Wide Web è un ambiente di Internet sviluppato nel 1990 presso il CERN di Ginevra o, più precisamente, un sistema ipertestuale di documenti elettronici collegati tra loro tramite il testo e le immagini la cui introduzione, unitamente ad altri fattori, provoca una vera e propria rivoluzione nel mondo della rete. Il rapido aumento del numero dei computer collegati alla rete fece sorgere la necessità di facilitare la ricerca di informazioni e l’accessibilità alle stesse da parte degli utenti. A tal fine nacquero i browser, come Mosaic, e da quel momento gli utenti ebbero a disposizione un potentissimo strumento di lavoro multimediale. Così, negli ultimi anni, è stato possibile creare
8
degli ambienti sociali virtuali che consentono la gestione delle relazioni interpersonali degli individui, l’eventuale organizzazione del lavoro e la condivisione e lo scambio dell’informazione in maniera autonoma. L’evoluzione della tecnologia degli ultimi decenni ha consentito la creazione dei blog e dei social network. Questi nuovi mezzi di comunicazione, definiti “i nuovi Media” o “Social Media”, ampliano l’orizzonte di possibilità offerto dalla rete permettendo la condivisione dei contenuti multimediali che si trovano su Internet e la partecipazione attiva degli utenti nella gestione degli stessi. Tutto ciò va a caratterizzare quello che viene definito oggi come Web 2.0. e utilizzando questi ambienti sociali digitali, ognuno può gestire in totale autonomia la propria esperienza virtuale accedendo ad una miriade di servizi che coprono svariate necessità: informazione, divertimento, cura dei rapporti interpersonali, ecc. La Rete, come fenomeno globale, incide sulla vita di tutti i cittadini del mondo e le scienze sociali sono interessate soprattutto a cogliere i diversi approcci con i quali società e tecnologia si interfacciano, lasciandosi influenzare vicendevolmente. La ragione dell'interesse creato da Internet sta nella sua capacità, in parte effettiva e in parte potenziale, di fornire risposte avanzate ai bisogni di comunicazione di persone, imprese ed organizzazioni. È facile intuire le ragioni per cui la rete Internet sia diventata così pervasiva nella vita quotidiana e i motivi per cui l’informazione viene sempre più spesso fruita in rete. I nuovi network multimediali permettono la contemporanea acquisizione di dati, testi, immagini e suoni con lo stesso apparecchio; offrono inoltre la possibilità di costruire percorsi personalizzati di fruizione della comunicazione e delle informazioni e facilitano la comunicazione interpersonale a distanza. In Internet si trova tutto velocemente e comodamente e ciò porta inevitabilmente a una progressiva crisi del cartaceo informativo (molti giornali stanno orientandosi alla Rete) che, al contrario delle visioni pessimiste, ritrova negli ambienti 2.0 nuova forza e nutrimento affermando la centralità dell’informazione digitale nella società attuale. Lo sviluppo di Internet consente, dunque, di intravedere un mondo nel quale il costo dell'informazione tende a ridursi, se non ad annullarsi, e in cui la distanza costituisce sempre meno un ostacolo e la conoscenza diviene davvero accessibile a tutti.
9
Editoria digitale: le mutazioni nella forma e nel linguaggio Nel corso degli anni la stampa tradizionale ha perso la centralità che ha avuto nel corso del ‘900. Si tratta di un cambiamento rilevante, dovuto allo sviluppo dei media digitali che hanno consentito la nascita di un ecosistema fertile per lo sviluppo di progetti web-based in grado di coinvolgere gli utenti con contenuti interattivi e multimediali. Il contenuto e la forma subiscono mutamenti, a causa delle caratteristiche intrinseche delle tecnologie digitali, le quali sono in grado di mettere in secondo piano elementi un tempo fondamentali. Il riferimento va ad elementi come la collocazione spaziale degli articoli o il numero di pagina. Con la stampa cartacea, questi elementi rivestono un ruolo essenziale visto che i giornali sono formati da un numero finito di pagine, le quali delimitano la quantità di informazioni contenute all’interno. L’attenzione dell’utente viene accuratamente indirizzata, secondo criteri che solitamente prevedono le notizie principali nelle primissime pagine, mentre argomenti più leggeri vengono di solito riservati alla fine. Tutto ciò, ovviamente, tenendo sempre ben presente la focalizzazione tematica della singola testata editoriale. Per un quotidiano come La Repubblica, lo sport tendenzialmente non verrà inserito nelle prime pagine, le quali saranno tappezzate di informazioni riguardo la politica (interna ed estera) e l’attualità. Viceversa, per un quotidiano come la Gazzetta dello Sport, le prime pagine saranno riservate alle notizie sportive più importanti del momento, in grado di suscitare interesse e curiosità nei lettori. Elementi secondari (come l’oroscopo o gli altri sport minori) saranno inseriti nelle pagine finali, ad arricchire la chiusura dell’edizione cartacea. Col digitale tutto ciò muta. Perché grazie ai siti web non è più necessario limitare all’essenziale il numero di informazioni contenute nel testo, visto che non ci sono limiti legati alla stampa materiale cartacea del giornale. I costi di riproduzione non comprendono più la stampa, distruggendo un fattore storicamente molto dispendioso per le testate giornalistiche. La quantità potenzialmente illimitata di informazioni disponibili sul web e fruibili tramite i siti web delle testate giornalistiche, vengono ordinate secondo menù tematici ed è possibile consentire agli utenti la ricerca attraverso barre di ricerca, con appositi filtri in grado di ordinare i contenuti per data, autore, titolo e sezione.
10
Le testate giornalistiche online evidenziano homepage dinamiche, strutturalmente diverse rispetto alle prime pagine delle testate cartacee. Infatti, i contenuti messi in evidenza possono essere modificati in tempo reale, con la presenza di banner pubblicitari multimediali e interattivi. Inoltre, gli elementi ADV sono fortemente targetizzati sulla base delle caratteristiche socio-anagrafiche degli utenti, rilevate da alcuni dei principali servizi web della nostra epoca come Google o Facebook, divenuti nel tempo vere e proprie banche date universali riguardanti informazioni (anche sensibili) di miliardi di utenti. Un’altra caratteristica rilevante che rende differenti gli ambienti digitali rispetto a quelli tradizionali cartacei riguarda la possibilità d’inserimento e valorizzazione di elementi semio-testuali come immagini e video, che vengono creati sfruttando logiche proprie del web. Le immagini, usate da sole (in particolare sui social media) o al corredo di articoli, prevedono la presenza di pochissimo testo a corredo di un elemento visuale d’impatto e in grado di suscitare curiosità. Sul fronte dei colori, si privilegia la presenza di colori accesi e vivi, in grado di colpire l’attenzione degli utenti in maniera immediata. I protagonisti presenti nelle foto, generalmente, vengono ritratti in pose in grado di enfatizzare al massimo gli umori. Non è raro, infatti, trovarsi di fronte a foto di particolari politici ripresi puntualmente in pose corrucciate ad evidenziare lo stile comunicativo particolarmente rude e rumoroso. Al contrario, altri politici vengono spesso rappresentati in pose istituzionali, con espressioni del volto pacate, per mettere in evidenza uno stile comunicativo compassato e diplomatico. Per quanto riguarda i video, si preferisce renderli di immediata fruibilità, con durate inferiori ai 3-4 minuti, tranne casi specifici legati a inchieste o approfondimenti. I testi, quando inseriti nel contesto digitale, tende a concentrarsi in macro blocchi informativi, con frasi che spesso seguono il classico schema delle 5W2 (Who?, What?, When?, Where?, Why?), prediligendo uno stile dialogico e narrativo, per costruire attesa e invogliare l’utente a continuare nella lettura. Il dato riguardo il numero di minuti e secondi trascorsi dall’utente sul sito web risulta essere particolarmente importante anche sul fronte pubblicitario, visto che una maggiore permanenza dell’utente sulla piattaforma consente anche di
La cosiddetta regola delle 5W rappresenta una delle regole principali dello stile giornalistico anglosassone. In inglese sono anche note come Five Ws sia come W-h questions e fanno parte delle regole di buona costruzione del discorso (scritto o verbale). 2
11
destinare un quantitativo maggiore di attenzione verso i contenuti commerciali, come banner, native advertising e popup pubblicitari. Oltre lo stile e la forma, a mutare è anche il modello di business sottostante al processo creativo editoriale. Se per la stampa cartacea il guadagno proviene da inserzioni e numero di copie vendute (con o senza allegati), per il digitale il processo non è lo stesso. Gli inserzionisti possono creare collegamenti ai propri siti web, decidendo di investire in quote pubblicitarie. Al posto della copia cartacea, è possibile trovare varie formule (come gli abbonamenti settimanali, mensili e annuali) che garantiscono la piena compatibilità della versione cartacea a device come smartphone, tablet e pc. Oltre a questo aspetto, c’è il sito web, che ha il compito di attirare e trattenere il maggior numero di persone, per catturare la loro attenzione e renderla profittevole, proponendo pubblicità e, in alcuni, casi anche altro. Le principali testate giornalistiche online, hanno infatti deciso di puntare sulla formazione dei propri lettori/clienti, mettendo in campo video-corsi specifici su vari argomenti.
Terra dei fuochi L’espressione “Terra dei fuochi” coniata negli anni 2000, è stata utilizzata per la prima volta nel Rapporto Ecomafie 2003 curato da Legambiente, e riutilizzato successivamente da Roberto Saviano nel libro Gomorra come titolo dell’undicesimo e ultimo capitolo. Parte del clamore mediatico fu causa dell’interesse rivolto al pentito Carmine Schiavone durante la trasmissione “Servizio Pubblico” del 23 dicembre 2013, sulla rete privata Cielo. Cugino di Francesco Schiavone, boss del clan dei Casalesi, meglio noto con il soprannome Sandokan (attribuitogli per una velata somiglianza con l’attore Kabir Bedi), Carmine venne arrestato con l’accusa di affiliazione camorristica e si pentii con le autorità nel maggio del 1993 diventando, de facto, un collaboratore di giustizia. Nei quattro anni tra il ‘93 e il ‘97, Schiavone raccontò ai magistrati di sversamenti di materiali tossici e interramenti abusivi degli stessi nelle zone del casertano. Non solo riuscì a descrivere nel dettaglio le zone compromesse da tali efferati crimini, ma impreziosì le dichiarazioni intessendo un rapporto fitto e abominevole con la politica e l’industria del settentrione. La trasmissione televisiva dei tempi recenti, condotta dal giornalista napoletano 12
Sandro Ruotolo, è andata ad incidere pesantemente sul rapporto di fiducia non solo dei campani nei riguardi della propria terra, ma del popolo nazionale ed internazionale. Il racconto di Schiavone è rotto da un rimorso alieno per una figura come la sua, mentre accompagna il giornalista nei siti che sarebbero stati interessati dagli sversamenti illegali. Questa presa diretta della realtà, elaborata da uno dei fautori dello scempio, ha portato l’opinione pubblica a scoprire, o per meglio dire approfondire, un aspetto celato della Terra dei Fuochi, escluso dall’irritazione dello sguardo. Se la paura di avvelenamenti derivanti dall’inalazione di sostanze tossiche combuste, è accompagnata da una presenza percettiva e sensoriale del pericolo (la visione del fumo, sentirne il fetore) di contro la rimozione di possibili agenti, in questo caso interrati, che possano fornire un’allerta decisa e chiara, aumenta esponenzialmente la crescita di ansie, timori, insicurezze che si esemplificano in un rifiuto al voler usufruire di qualsiasi prodotto sia anche solo transitato per le province di Napoli e Caserta. L’atto mistificatorio di deprimere l’intera filiera campana e etichettarla come fonte di rischio per la salute, segue di pari passo la semplificazione di semiosi di cui è stata vittima l’intera regione. L’esigenza, in seguito, di circoscrivere le aree di cui si nutre un sospetto o una certezza di contaminazione, vengono circoscritte in un territorio di 1076 km², in cui sono situati 57 comuni, dei quali 33 comuni sono ubicati nella provincia di Napoli e i restanti 24 nella provincia di Caserta. La definizione “Terra dei Fuochi” dunque, entra prepotentemente nell’immaginario collettivo, che avverte l’impeto di trovare una verità, qualunque realtà essa racconti. Le esalazioni putride attribuite ai roghi, che tutt’ora non cessano di oscurare sporadicamente il cielo, permeano nei terreni coltivati, nelle falde acquifere, fino a raggiungere i nostri fruttivendoli di fiducia o il rubinetto di casa. La serenità dell’intero popolo nazionale viene rotta, fatalmente incrinata come un materiale ferroso che supera il coefficiente di modulo. La percezione verso i prodotti campani, anche nell’istante in cui scriviamo, trova difficoltà a riacquistare fiducia piena dal mercato, irritata da avvenimenti come il riscontro di una limitata presenza di diossina nel latte di bufala proveniente da allevamenti del casertano, notizia riportata nel 26 marzo 2008 da molte testate giornalistiche. Ciò ha causato, ad esempio, un immediato blocco, da parte di alcuni paesi come la Corea del Sud e il Giappone,
dell’importazione della mozzarella campana. Alla produzione testuale di
informazione si è aggiunta quella audiovisiva, con tutte le capacità di suscitare emozioni che essa
13
porta. Questo tema, infatti, a partire dal 2007, ha interessato una nutrita filmografia con la realizzazione del film documentario Biùtiful cauntri con la regia di Esmeralda Calabria, Andrea D’Ambrosio, Peppe Ruggiero; e poi a seguire: Vietato respirare (2008) regia di Ricky Farina, Pietro Menditto, Diego Fabricio; Nella Terra dei Fuochi (2013) regia di Marco La Gala; Ogni singolo giorno (2014) regia di Thomas Wild Turolo; Io non mi arrendo (2016) regia di Enzo Monteleone; The Land of Fires (2016) regia di Silvia Luzi e Luca Bellino; Il segreto di Pulcinella (2016) regia di Mary Griffo. E’ bene precisare che in questa sede non si discute se la Terra dei Fuochi sia realmente ciò che è stata descritta in questi anni, ma se l’informazione giornalistica, nel torto o nella ragione, abbia applicato maliziosamente un’interpretazione eccessivamente distorta dello stato fattuale delle cose con il solo obiettivo di creare scompiglio. Che si sia adottato un comportamento che cercasse a tutti i costi di mitigare l’aura negativa ormai assunta dai prodotti dei territori campani, o che vi sia l’intento malcelato di descrivere una situazione ormai irrecuperabile e dannosa, la parola Terra dei Fuochi si è fusa nell’immaginario di tutti con le colline, i campi, le valli, i quali dolci saliscendi descrivono il territorio campano.
Capitolo 2 Analisi del contenuto Con tale locuzione si intende definire un’approfondita ricerca di metodi volta a studiare i fenomeni comunicativi ed i documenti umani. Nella nostra società c’è un’immensa mole di tracce documentali prodotte dai singoli individui e dalle società. Inoltre, oggi, con lo sviluppo del web abbiamo assistito ad una crescita esponenziale di documenti di diversa natura. Di seguito una veloce rassegna dei principali tipo di documenti, distinti rispettivamente in quelli di tipo segnico e non segnico. Nei primi rientra tutto ciò che è finalizzato alla trasmissione di un messaggio, mentre tra i documenti di tipo non segnico figurano i “manufatti prodotti per finalità diverse dalla comunicazione: per esempio edifici, abiti, macchinari, accessori e tutti gli ‘artefatti’ che vengono prodotti e utilizzati in un determinato contesto”3. 3
Amaturo, E., Punziano, G., Content Analysis tra comunicazione e politica, Ledizioni, 2013, p.22.
14
Tra i documenti di tipo segnico è opportuno distinguere tra quelli personali, istituzionali e i prodotti mediatici. I documenti personali sono prodotti dagli individui a scopo privato e sono “espressione di una esperienza del reale e della sua soggettività”4. Tra questi ci sono autobiografie, diari, lettere, utili per l’analisi dei soggetti oggetti di studio. L’esempio più noto è la ricerca di Thomas e Znaniecki, Il Contadino Polacco in Europa e in America, basata interamente sull’analisi delle missive scambiate tra emigrati polacchi negli USA e i loro congiunti rimasti in Polonia. Con la diffusione del web si sono moltiplicati i documenti online che è possibile annoverare in questa categoria documentaria. I documenti istituzionali sono gli output di gruppi e istituzioni nello svolgimento della loro attività. Tali documenti sono utili per ricerche come quelle condotte dallo Stato finalizzate alla realizzazione di statistiche ufficiali. Il sistema dei mezzi di comunicazione di massa è il maggior produttore di materiale documentario sulla società. Oggi questo ambito di analisi si è ulteriormente allargato abbracciando i new media. Inoltre, è opportuno ricordare che rientrano in questa categoria anche i prodotti della cultura popolare come fiabe e leggende, già studiate dal linguista russo Propp nel 1928. E’ importante non nutrire una fiducia illimitata nello svolgimento dell’analisi del contenuto, ma parimenti è indispensabile sottolineare la sua utilità in sede di analisi di un corpus testuale. L’analisi del contenuto tout-court si presenta come una tecnica in grado di scomporre “qualsiasi messaggio - in genere proveniente dai mezzi di comunicazione di massa - in elementi costitutivi più semplici, di cui è possibile calcolare la ricorrenza in vista di ulteriori elaborazioni, eventualmente dopo procedimenti di classificazione in sistemi opportuni”5. La definizione classica fu data da B. Berelson nel 1952 nell’ambito degli studi condotti dalla scuola di Lasswell: “L’analisi del contenuto è una tecnica di ricerca per la descrizione obiettiva, sistematica e quantitativa del contenuto manifesto della comunicazione”6. Da questa dichiarazione scaturiscono le seguenti riflessioni: in primo luogo, l’oggetto della comunicazione
Amaturo, E., Punziano, G., Content Analysis tra comunicazione e politica, Ledizioni, 2013, p.22. Ivi, p.24. 6 Ibidem. 4 5
15
era limitato ad un singolo elemento del processo di comunicazione, cioè al cosa è comunicato; in secondo luogo, suddetta definizione allude all’approccio survey o sondaggio, considerato equivalente all’analisi del contenuto nella manualistica anglosassone. Negli anni sessanta sono state avanzate, soprattutto in Europa, numerose critiche, sorte perlopiù in contesti disciplinari linguistici o di semiotica, nei confronti delle pratiche di analisi del contenuto più comuni, come conteggi di frequenza su determinate parole-chiave. L’attenzione verso il linguaggio e i fenomeni comunicativi in genere ha comportato una crescita di ricerche secondo un approccio di tipo qualitativo. Contemporaneamente, si assiste allo sviluppo di nuovi mezzi informatici che fornivano strumenti rapidi e veloci per il trattamento quantitativo di dati, anche testuali. Con questi nuovi mezzi il panorama degli studi si è arricchito sempre più e ha indotto Rositi a non parlare più di una sola analisi del contenuto, ma di “insieme di tecniche di ricerca, spesso molto diverse fra loro di loro se non concorrenti e perfino contraddittorie”7. Tuttavia, qualunque sia l’indagine che si intende compiere è fondamentale partire dal testo, che va interrogato con precise domande e ipotesi al fine di “operare una drastica riduzione di complessità a favore di quegli elementi o quegli aspetti che sono da considerarsi pertinenti o rilevanti rispetto alle specifiche ipotesi in gioco”8. I canti di Sion furono il primo testo stampato su cui fu eseguita un’analisi di tipo quantitativo. L’analisi fu compiuta nella Svezia del XVIII secolo e si basava sul conteggio dei simboli religiosi e sui contesti in cui i canti appaiono. Tuttavia i primi studi di una certa rilevanza ci furono negli Stati Uniti, dove la cultura di massa e la diffusione massiccia dei quotidiani e dei giornali di tipo scandalistico avevano alimentato un diffuso interesse verso il controllo dei mercati e dell’opinione pubblica. I primi lavori vertevano in tale direzione e si basavano su procedure quantitative come lo spazio-colonna dedicato ai diversi argomenti. In questo periodo, come opportunamente rilevato da Krippendorff “il problema metodologico principale sembrò essere quello di suffragare gli argomenti giornalistici con fatti scientifici”9 in quanto si dava grande importanza ai numeri, “il rispetto per i numeri è senza dubbio di vecchia data”10. Amaturo, E., Punziano, G., Content Analysis tra comunicazione e politica, Ledizioni, 2013, p.26. Ibidem. 9 Ivi, p.27. 10 Ibidem. 7 8
16
Disegno della ricerca Nell’effettuare un’analisi del contenuto è necessario prendere delle decisioni in sede di disegno della ricerca. In questa fase preliminare “vanno gettate le basi di tutto il lavoro successivo di un ricercatore e della sua èquipe; tale fase è perciò indispensabile qualunque sia il tipo di approccio che si sceglie di seguire”11. Nel pianificare il disegno di ricerca è stato definito l’oggetto di studio basato sul trattamento mediatico del tema Terra dei Fuochi - Cibo. Partendo da ciò, ci siamo posti come interrogativo di ricerca la possibilità dell’esistenza di una relazione tra l’appartenenza territoriale dei quotidiani online che hanno trattato il caso e il modo in cui lo hanno trattato. Di conseguenza le domande di ricerca poste nel progetto sono: ● In che modo le testate giornalistiche hanno trattato l’associazione Terra dei fuochi Cibo? ● L’appartenenza territoriale delle testate (nazionali/locali) ha influito su di essa?
Una volta definita l’ipotesi di ricerca il primo passo da compiere è l’individuazione dell’oggetto sociale, ovvero l’oggetto di studio di cui si occuperà la nostra ricerca; poiché l’oggetto di studio non è necessariamente l’individuo è più corretto definire i vari tipi di oggetto come “unità di analisi o di osservazione”. “L’unità d’analisi è un elemento importante del disegno della ricerca e per questo deve essere determinata con precisione nel momento in cui si vuole sottoporre una teoria a controllo empirico. Definiamo l’unità di analisi o di osservazione il tipo di oggetto di cui si occupa una ricerca;è il referente sul quale il ricercatore intende rilevare alcune informazioni”12. Distinguiamo due tipi di unità d’analisi a cui è possibile riferirsi: il primo è definito unità d’analisi o di riferimento, il secondo unità di raccolta o di rilevamento. Il primo caso è valido “quando le proprietà rilevate si riferiscono direttamente all’unità”, invece “se le proprietà sono aggregate, le informazioni sono riferite a un livello inferiore dell’unità d’analisi l’unità prende il nome di unità di raccolta”13. Amaturo, E., Metodologia della ricerca sociale, Utet Università, 2012, pp.63-64. Ivi, p.74. 13 Ivi, p.76. 11 12
17
Nel caso specifico della nostra indagine l’unità d’analisi fa riferimento ai singoli articoli on-line delle testate giornalistiche nazionali e locali che verranno successivamente selezionate. In questo caso la nostra unità d’analisi corrisponde ad un prodotto culturale dato che “l’indagine si pone l’obiettivo di studiare un fenomeno sociale attraverso l’analisi degli articoli di giornale”14. Questi ultimi rappresenteranno la nostra popolazione di riferimento, definita principalmente su un criterio spaziale, materiale testuale proveniente da testate online di base nazionale e locale, e temporale, 1 Gennaio 2013 - 31 Dicembre 2016 (l’arco temporale è stato da noi arbitrariamente definito in seguito ad un’attenta analisi effettuata su tutti gli articoli presenti nella nostra popolazione, da questa è emerso che la maggior parte degli articoli che ha trattato il caso è stata pubblicata proprio in questo spazio temporale, probabilmente dovuto al fatto che nel 2013 si riaccese il dibattito sul tema della Terra dei Fuochi). Successivamente è stata definita l’unità di contesto e l’unità di classificazione. L’unità di contesto, “il campo di comunicazione che l’analista deve considerare nell’operazione di classificazione”15, è rappresentata dai singoli articoli delle testate giornalistiche nazionali e locali selezionate sulla base della lista delle testate giornalistiche fornita dalla F.I.E.G. Definita l’unità di contesto, siamo giunti alla definizione dell’unità di classificazione, e facendo riferimento alla tipologia di primo tipo definita da Rositi (1970, 1988) in cui “le unità di classificazione coincidono con gli elementi ‘significanti’ o con gli elementi della struttura linguistica”16, abbiamo identificato come unità di classificazione ogni singolo lemma degli articoli da noi analizzati. In seguito abbiamo definito il nostro campione. “Lo scopo principale delle strategie di campionamento è di ridurre la gamma di dati potenziali a dimensioni più agevolmente gestibili, garantendo tuttavia la possibilità di generalizzare i risultati da pochi casi effettivamente analizzati all’intera popolazione statistica di riferimento”17. La scelta è ricaduta su un tipo di campionamento non probabilistico, ovvero un campionamento in cui la probabilità per ciascun caso appartenente alla popolazione di riferimento di essere incluso nel campione non è nota, “a scelta ragionata (judgmental scampling)” il quale “prevede che i casi siano scelti dal ricercatore sulla base di criteri soggettivi; essi vengono cioè selezionati in modo razionale tra quelli che il 14
Ivi, p.78. Amaturo, E., Punziano, G., Content Analysis tra comunicazione e politica, Ledizioni, 2013, p.54. 16 Ivi, p.55. 17 Ivi, p.53. 15
18
ricercatore ritiene essere maggiormente connessi al fenomeno oggetto di studio”18. Il nostro campione è stato costruito sulla base di due criteri: la presenza di keywords, da noi specificate in fase di definizione del lavoro, in ogni articolo e la numerosità degli articoli per testata. Le keywords di riferimento, elencate per radici dei lemmi per ricavare anche forme flesse con errori ortografici e al singolare/plurale, sono: ACQU. FALD. ACQUIFER. CIB. ALIMENT.
AGRO/I PRODOTT. FRUTT. ORTOFRUTT.
COLTIVA. POMODOR. PIZZ. MOZZARELL.
LATT. ALBICOCC. VERDUR. GRAN.
Tenendo presente tali condizioni sono state individuate sette testate giornalistiche: Il Corriere della Sera (che comprende la sezione locale Corriere del Mezzogiorno), La Repubblica (a sua volta comprendente la sezione locale Repubblica Napoli), La Stampa, L’Avvenire, Il Fatto Quotidiano, Il Mattino, Fanpage; con un numero totale di 148 articoli. La tecnica di analisi individuata per questo lavoro rientra tra le tecniche di analisi multidimensionali applicabili ai dati: Analisi delle Corrispondenze Lessicali (ACL), “termine che traduce l’espressione analyse des donnèes textuelles col quale la scuola francese dell’Analyse des donnèes propone il suo approccio basato sulla trasposizione dell’analisi delle corrispondenze multiple per variabili categoriali”. “Attraverso tale tecnica multidimensionale è possibile rappresentare graficamente le associazioni tra righe e colonne di una tabella a doppia entrata forme lessicali per testi19. Per l’applicazione di questa tipologia di analisi abbiamo utilizzato il software SPAD_T (Systeme portable pour l’analyse des donnèes), software particolarmente indicato per corpora estesi, operando mediante associazione di parole e modalità categoriali20.
Definizione dei parametri di ricerca e raccolta degli articoli Una ricerca che si auspica di scorgere delle evidenze in favore della proprie supposizioni ha l’inderogabile necessità di definire al meglio quelli che sono i parametri di ricerca. Con questi, Amaturo, E., Metodologia della ricerca sociale, Utet Università, 2012, p.223. Amaturo, E., Punziano, G., Content Analysis tra comunicazione e politica, Ledizioni, 2013, p.136. 20 Ivi, p.290. 18 19
19
intendiamo i confini entro i quali svolgere la propria analisi e le caratteristiche fondamentali che il risultato della ricerca deve avere. In un’analisi testuale la scelta del corpus sul quale lavorare è una fase di estrema importanza. Nel nostro caso specifico il corpus viene trattato sugli articoli online delle maggiori testate giornalistiche, sia che abbiano una produzione fisica, ossia cartacea, sia che agiscano esclusivamente sulle piattaforme digitali, questi giornali devono avere dei requisiti da rispettare. La soddisfazione di quest’ultimi deriva da due principi fondamentali. Il primo riguarda il numero di articoli, prodotti da una specifica testata giornalistica, rivolti al tema della nostra domanda di ricerca. In particolare si è attinto ai dati offerti da F.I.E.G, un organismo “super partes” che fornisce una lista dettagliata di tutte le testate giornalistiche presenti operanti sul territorio nazionale. Da qui siamo partiti con la ricerca effettiva degli articoli, che si è svolta sul motore di ricerca di Menlo Park in California, Google. La fase che abbiamo soprannominato digital digging (scavare) si è profilata in due ulteriori fasi di controllo. La prima, ha visto un’analisi sul sito della testata interessata basata sull’inserimento della parola chiave “terra dei fuochi” nella barra di ricerca offerta dal sito. Gli articoli risultanti sono stati selezionati uno ad uno grazie all’interrogazione di questi attraverso l’uso di keyword e una fase di skimming (lettura veloce). L’identificazione delle keyword migliori per scovare gli articoli di nostra competenza, è avvenuta con un processo di esperienza, o più banalmente, con la lettura degli articoli. Maggiore è stato il numero di letture, più alta l’efficacia delle variabili in questione. Dopo un numero consistente di letture, siamo stati in grado di fissare con una certa sicurezza che gli articoli attinenti alla nostra domanda di ricerca, avrebbero avuto al loro interno parole come: cibo, alimentazione, acqua, alim, agro, orto, prodott, coltiv etc. Solo un numero estremamente basso di articoli non ha restituito la presenza di alcuna parola chiave tra quelle definite, ma sono stati comunque scelti per la pregnanza dei contenuti trattati. Alla luce della caducità che i risultati ottenuti tramite la ricerca interna al sito hanno spesso presentato, è stata necessaria una seconda fase di controllo. Questa è indirizzata sulle capacità di ricerca di Google, per cui abbiamo inserito il nome di una testata giornalistica, seguita dalla parola chiave “terra dei fuochi”, come ad esempio: “Repubblica terra dei fuochi”. L’ulteriore ricerca in questi termini ha prodotto notevoli risultati, aumentando di fatto non solo il numero dei risultati effettivi, ma anche la concretezza di quest’ultimi.
20
Una volta che la lista è stata definita, siamo giunti ad una ulteriore fase di convalida. Durante l’analisi di un contenuto testuale, è difficile far emergere un’interpretazione univoca riguardo ciò che si è letto. Ogni analista, ad esempio, potrebbe ritenere più o meno idoneo un articolo anziché un altro. In merito a ciò, è stata assegnata una testata ad ognuno di noi per una rilettura articolo per articolo, volto a far emergere possibili risultati non idonei, ripetuti o che semplicemente non hanno presentato una rilevanza del tema all’interno dell’articolo. Questo controllo è stato effettuato con un processo circolare, in cui ogni partecipante si è visto assegnato di volta in volta un gruppo di articoli, fino a leggerli tutti. La lista preliminare ha presentato più di 150 articoli, e ci porta alla seconda fase della ricerca, la definizione territoriale dell’articolo. Ma come si fa a discriminare un articolo piuttosto che un altro? È bene fare una considerazione fondamentale, a partire dal concetto di alimento. Con esso abbiamo inteso non solo oggetti commestibili solidi, ma anche un bene prezioso come l’acqua, che rientra a tutti gli effetti tra i prodotti principi dell’alimentazione umana. Non solo, è stato necessario ai fini della ricerca, inglobare la filiera produttiva e merceologica, che chiaramente viene considerata a capo o a valle del ciclo che qualsiasi bene alimentare deve seguire. Dunque, dai campi coltivati, alla grande distribuzione, tutto ciò che concerne il concetto di cibo/alimento è stato considerato come valido. Pensiamo ad esempio ad una catena di supermercati che sponsorizza i propri prodotti come non appartenenti alla Terra dei Fuochi. È chiaro che, anche nel caso in cui non si facesse menzione alcuna all’oggetto solido commestibile o alle risorse idriche campane, possiamo considerarlo coerente con le nostre esigenze. In conclusione possiamo dire che le keyword sono state strutturali per la ricerca, ma non indispensabili. Veniamo alla seconda fase. Come ben sappiamo un contenuto giornalistico si riferisce ad una certa dimensione, che possiamo classificare in nazionale e locale. Per articoli a dimensione nazionale, intendiamo quelli che si rivolgono a tutto il tessuto nazionale, senza dichiararsi come contenuto a diffusione regionale o urbano. Di contro, quelli locali, sono specificamente pensati per offrire dei contenuti che offrono un prodotto particolareggiato e coerente con il territorio a cui si rivolge. Prendiamo ad esempio il quotidiano La Repubblica, esso è composto dal solo giornale nazionale, ma anche da un inserto chiamato Repubblica Napoli. Stessa cosa vale per il Corriere della Sera, che offre anche un giornale come il Corriere del Mezzogiorno. Questa
21
differenza è stata rilevata in fase di ricerca grazie allo studio dell’architettura di ordinamento e archiviazione degli articoli. Per giunta, un articolo di Repubblica Napoli, sarà archiviato con i metadati Repubblica-Repubblica Napoli. Stessa cosa vale per eventuali rubriche, intitolate in modo tale da poter essere riconosciute come specificamente rivolte ad un determinato territorio, ma fruibile da tutti. La lista finale, quindi, è stata cucita attorno a questo criterio di selezione, per cui, grazie ad una variabile “Dimensione territoriale”, adottata per interrogare l’unità d’analisi, è stato possibile discriminare per ogni articolo la sua appartenenza locale o nazionale. Come abbiamo appena visto, la conoscenza del proprio contesto di analisi è una pratica fondamentale per sviluppare un lavoro che abbia una valenza scientifica. Quando parliamo di comprensione dello scenario, ci riferiamo all’individuazione dei referenti nodali attorno ai quali viene costruito il discorso. La consapevolezza degli strumenti adoperati in un’analisi delle corrispondenze lessicali (da ora in poi ACL) ci ha permesso di affermare, seppur in una fase preliminare, che la nube di individui (token/occorrenze) e variabili (modalità) avrebbe probabilmente presentato una dispersione poco accentuata e una forma presumibilmente ellittica. Alla luce di ciò, avere un numero cospicuo di articoli, ma soprattutto favorire quelle produzioni giornalistiche che si distanziano dalla media, si è dimostrato d’eccezionale importanza. Pensiamo ad esempio alla scelta di aggiungere il quotidiano Avvenire al nostro lotto. Ad un primo impatto, infatti, il modo in cui questa testata affronta il tema ha destato non poche perplessità, creando un sano dibattito tra gli analisti, che si è risolto con la convalida di questo quotidiano. Avere queste nozioni teoriche e tecniche già dalla fase di raccolta dei dati, rende il lavoro molto più efficiente e getta le basi per edificare un progetto di ricerca che non si limiti a descrivere il fenomeno, ma che sia in grado anche di problematizzare gli eventuali risultati. Tale aspetto viene accentuato molto nel momento in cui vanno stabilite le variabili secondo cui andrà interrogata l’unità di analisi (l’articolo). Difatti, “la variabile è una proprietà di cui sia stata data una definizione operativa, permettendo così di trasformare una serie di situazioni reali in una serie di dati su un vettore, ovvero una sequenza ordinata di informazioni relative allo stesso referente. Nella ricerca sociale queste informazioni sono presentate in forma di valori simbolici (abitualmente cifre)”21.
21
Amaturo, E., Metodologia della ricerca sociale, Utet Università, 2012, p.108.
22
Trattandosi di analisi del contenuto è stata messa a punto una griglia di scomposizione, ovvero una scheda di rilevazione, che ci permettesse di “interrogare” la nostra unità d’analisi; in pratica la scheda di rilevazione è teoricamente identificata con una sorta di questionario che ci permette di analizzare informazioni e caratteristiche del messaggio veicolato nei vari articoli on-line. Il punto di partenza è quindi la creazione di una matrice di dati, un insieme ordinato di righe (che corrispondono all’unità d’analisi della nostra ricerca) e di colonne (che corrispondono invece alle variabili che hanno interrogato ogni articolo); i primi sono detti vettori-riga e i secondi vettori-colonna, l’incrocio tra questi due costituisce una cella della matrice che contiene al suo interno le informazioni. In questo modo è possibile mettere in relazione, e di conseguenza analizzare, l’unità d’analisi con ciascuna variabile. Queste ultime in ogni caso dovranno risultare esaustive, al fine di far emergere quegli aspetti che permettano di illustrare una variabilità tra diverse variabili e nelle variabili stesse. La scelta delle variabile è stata fatta tenendo in considerazione due principi fondamentali: il primo è che la proprietà dell’unità d’analisi che si intende considerare deve innanzitutto variare per poter essere trasformata in variabile, poiché se ciò non accadesse essa diverrebbe una costante; il secondo principio è che sia possibile darne una definizione operativa. Inoltre, è necessario tenere in considerazione altri “tre princìpi basilari che riguardano l’attinenza delle stesse al problema affrontato (principio di pertinenza), la capacità a rappresentare gli stessi aspetti dimensionali, qualitativi, dinamici (principio di esaustività) e in numero non eccessivo (principio di non ridondanza)”22. In tal senso il confronto costante tra gli analisti si è reso necessario per potenziare le capacità critiche di ogni soggetto facente parte al progetto, tutti gli articoli sono stati copiati e incollati su un unico file testuale condiviso. Tale disposizione ha permesso di esprimere eventuali impressioni, dubbi e proposte, apponendo un commento direttamente sull’articolo interessato. La matrice di dati da noi creata è formata da 149 righe corrispondenti al numero di articoli e da 23 colonne corrispondenti invece alle variabili da noi stabilite, comprese di ID, Titolo e Corpus. Prima di passare all’elenco delle variabili da noi costruite è necessaria una breve spiegazione dei vari stati che può assumere una variabile; su ciascuna di essa è possibile distinguere tra variabile “categoriale” e “cardinale”. Questa distinzione è frutto delle differenti proprietà che hanno Gherghi, M., Lauro, C., Appunti di analisi dei dati multidimensionali, metodologia ed esempi, Rce Multimedia Communication company, p.XI. 22
23
suggerito la variabile, che a loro volta si differenziano in relazione ai vari tipi di stato che esse generano. Le variabili categoriali (qualitative) si distinguono a loro volta in “sconnessa” (non ordinata) e “ordinata”; nel primo caso alla modalità della variabile viene assegnato un valore che non ha alcun significato oltre a quello di distinguere e identificare, nel secondo caso invece il valore assegnato alle singole modalità riflette le relazioni d’ordine tra esse, stabilisce cioè una sorta di rapporto gerarchico. Per quanto riguarda le variabili cardinali invece la distinzione da fare è tra “discreta” e “continua”: una proprietà è discreta se può assumere solo un numero finito di stati che non sono in relazione quantitativa tra loro; al contrario una proprietà è continua se può assumere un numero infinito di stati impercettibilmente diversi l’uno dall’altro.23 In questo caso i valori numerici attribuiti alle modalità che verranno successivamente registrati in matrice non hanno nessun valore cardinale, ma vengono semplicemente utilizzati per distinguere le singole categorie, tenendo ovviamente presente che ciascuna modalità dovrà possedere un codice numerico diverso dalle altre. Abbiamo prima accennato al fatto che una delle condizioni fondamentali di una variabile è che essa debba variare, infatti una volta individuati gli stati che ciascuna proprietà può assumere perché possano essere trasformati in modalità è necessario che siano rispettate tre regole: la prima è che nell’individuazione delle modalità si ricorra ad un unico fundamentum divisionis, ossia un unico criterio di classificazione; la seconda è la mutua esclusività, tale che nessun referente possa essere contemporaneamente attribuito a due o più classi. L’ultima regola è che la modalità sia esaustiva, che comprenda cioè tutte le sfaccettature della proprietà. Nel nostro caso poiché dovremo utilizzare software per l’analisi statistica dei dati ciascuna modalità è stata differenziata ricorrendo alla serie di numeri naturali in sequenza semplice (1,2,3…). Passiamo adesso a discutere delle variabili da noi operativizzate. Poiché si analizzano articoli on-line la prima variabile stabilita è “Titolo”, una variabile categoriale non ordinata che indica il titolo di ciascun articolo cosicché esso sia facilmente individuabile e distinguibile dagli altri.
23
Amaturo, E., Metodologia della ricerca sociale, Utet Università, 2012, p.115.
24
La seconda variabile “Nome testata” indica il quotidiano on-line di riferimento presente nel nostro collettivo, anche quest’ultima è definita variabile categoriale non ordinata; a tale variabile sono state associate sette modalità, indicate con un codice numerico che va da 1 a 7 indicando rispettivamente: 1= Corriere della Sera, 2= La Stampa, 3= Avvenire, 4= La Repubblica, 5= Il Fatto Quotidiano, 6= Il Mattino, 7= Fanpage. La terza variabile corrisponde al “Periodo” ovvero l’arco temporale in cui sono stati pubblicati i vari articoli, in tal caso tale carattere prevede 4 modalità: 1= 2013, 2= 2014, 3= 2015, 4= 2016. Questa variabile a differenza delle due precedenti è cardinale discreta, poiché ciascuna modalità si riferisce ad una cifra numerica. La quarta e la quinta variabile, rispettivamente “Autografo” e “Presenza sottotitolo”, sono di carattere dicotomico, pertanto indicano la presenza o meno di quella variabile. La sesta variabile individuata riguarda la “Dimensione pubblicazione”, ovvero specifica l’appartenenza territoriale di ciascun articolo on-line indicando tramite le due modalità previste se esso è stato pubblicato nella sezione locale o nazionale della testata di appartenenza; essa è una variabile categoriale non ordinata (1= Locale, 2= Nazionale). La settima è “Argomento prevalente”, ancora una volta categoriale non ordinata, che presenta sei diverse modalità: 1= Salute, 2= Economia, 3= Legalità, 4= Agroalimentare, 5= Ambiente e 6= Altro argomento prevalente. Ci è sembrato di grande funzionalità creare una variabile che si rifacesse alla “Valutazione del giornalista”, la quale indica l’impressione personale che il giornalista nutre nei confronti dell’argomento che sta trattando (variabile categoriale non ordinata), questa variabile è intercettata in tre diverse modalità: 1= Positivo, 2= Neutro e 3= Negativo; segue la variabile “Stile”(categoriale non ordinata) riferita al tipo di stile con cui sono stati scritti i singoli articoli in questione, sono state stilate cinque modalità: 1= Narrativo, 2= Descrittivo, 3= Valutativo, 4= Inchiesta e 5= Altro stile. La decima variabile presente in matrice indica la “Dimensione articolo” (variabile categoriale ordinata) in tre modalità: 1= Corto (meno di 2500 parole), 2= Medio (da 2500 a 5000 parole) e 3= Lungo (oltre 5000 parole). A seguire c’è la variabile “Presenza immagine”, altro carattere dicotomico (presenza/assenza immagine); sempre in riferimento a quest’ultima variabile è stato opportuno crearne un’altra che facesse riferimento al “Soggetto prevalente immagine” (categoriale non ordinata) che sintetizzasse quindi il contenuto delle varie immagini qualora fossero presenti nei singoli articoli on-line; a tal proposito sono state individuate sette modalità:
25
1= Coltivazione, 2= Rifiuti, 3= Forze dell’ordine, 4= Manifestazione, 5= Alimento, 6= Altro, 7= Nullo. La tredicesima variabile riguarda la “Tipologia alimento citato”, sempre categoriale non ordinata, cosicché si potesse facilmente individuare quale particolare tipo di alimento venga maggiormente discusso nei vari articoli analizzati; per tale ragione sono state distinte sei diverse categorie di alimenti: 1= Acqua, 2= Latticini, 3= Ortofrutta, 4= Carne/Pesce, 6= Altro, 7=Assente. Scorrendo la matrice si passa poi alla quattordicesima variabile “Riferimenti a dati scientifici”, anch’essa dicotomica; trattandosi di un tema delicato come quello della possibile contaminazione dei prodotti alimentari compresi nelle aree della “Terra dei Fuochi” non è ragionevole non tenere in considerazione i diversi riferimenti a dati ed enti scientifici che possono trovarsi nei vari articoli. Subito dopo è presente un’altra variabile dicotomica “Associazione nel titolo tra keyword e terra dei fuochi”, per verificare se anche nel titolo dell’articolo comparisse una delle keyword definite in fase di lavoro. Segue un’altra variabile dicotomica “Presenza testimonianze” a cui è associata la variabile “Tipologia interlocutore/intervistato”, (categoriale non ordinata) in cui individuiamo sette modalità: 1= Politico, 2= imprenditore, 3= Religioso, 4= Comitati/associazioni, 5= Scienziato/dottore, 6= Altro, 7= Assente. Leggendo i vari articoli è emerso come le testimonianze dei cittadini che si succedono nei vari testi acquistino in alcuni di essi un certo rilievo, ci è sembrato pertanto opportuno esprimere e categorizzare il fenomeno con delle variabili apposite. Inoltre l’esigenza stessa di interpellare e dare voce ai soggetti coinvolti, come a voler validare lo stato delle cose, è già di per sé fonte d’interpretazione. Rimanendo in tale ambito è stata individuata la variabile “Menzione a figure rilevanti”, (categoriale non ordinata) suddivisa in sette modalità: 1= Politiche, 2= Clericali, 3= Istituzionali, 4= Forze dell’ordine, 5= Scientifiche, 6= Altro, 7= Assente. In essa si è cercato di evidenziare come il creatore del contenuto giornalistico facesse riferimento ad una di queste figure, ora per descrivere una possibile responsabilità riguardo ai fatti accaduti, ora per elogiare eventuali interventi di questa o quella autorità, o semplicemente per far figurare l’interessamento nella vicenda di un soggetto. Riallacciandoci al discorso intorno alla possibile contaminazione del cibo coltivato nelle terre in questione si è deciso di creare una variabile (dicotomica) che tenesse conto della “Presenza tema
26
malattia”, che indicasse cioè se nell’articolo in questione si fa riferimento ad eventuali malattie scaturite dal consumo dei prodotti agricoli della Terra dei Fuochi. La terz’ultima variabile presente in matrice è “Tipologia articolo”, (categoriale non ordinata) che prevede cinque modalità: 1= Cronaca, 2= Critica, 3= Iniziativa, 4= Reportage e 5= Altro; a seguire la variabile dicotomica “Territori specificati”, quest’ultima esplicita se nell’articolo si fa menzione di alcuni territori specifici, ovviamente sempre legati al tema Terra dei Fuochi. Infine l’ultima variabile “Corpus” (variabile categoriale non ordinata) contiene al suo interno il testo originale dei singoli articoli. E’ importante, in tale sede, evidenziare che l’interrogazione degli articoli è stata sottoposta a test-retest, in modo da scongiurare possibili emersioni di soggettività. Questa procedura, infatti, permette a tutti gli analisti di compilare la scheda di rilevazione per ogni testata e di confrontarla con un collega che abbia precedentemente rivolto le sue indagini agli stessi articoli. Dal confronto tra schede rivolte allo stesso oggetto, ma compilate da diversi soggetti, si giunge ad una discussione che risulta eccellente per la determinazione di una matrice di dati che rispecchi il meno possibile le singole soggettività, favorendo una base di partenza eccellente.
Capitolo 3 Analisi automatica dei testi Negli ultimi 20 anni abbiamo assistito a due fenomeni molto importanti. Il primo riguarda la nascita di un ecosistema florido, il web, capace di rendere possibile la creazione e il trasferimento di informazioni di ogni sorta in ogni settore della vita umana. Tali informazioni sono incredibilmente numerose, create da individui ed organizzazioni, facilmente reperibili tramite appositi motori di ricerca (detti anche search engine), i quali mettono a disposizione degli utenti appositi filtri per trovare più facilmente ciò che si desidera. Queste informazioni hanno consentito di pari passo lo sviluppo delle tecnologie di immagazzinamento e reperimento dei dati attraverso macchine di crescente potenza, dotate di immense banche dati predisposti in modo da facilitare e automatizzare il reperimento di informazioni sui dati che contengono. L’altro fenomeno sviluppatosi nell’ultimo ventennio riguarda la nascita di appositi tool in grado di 27
studiare aspetti specifici dei testi, estraendo valori ed indicazioni utili per l’analisi dei ricercatori. Applicando ai testi selezionati le tecniche linguistiche per renderli adatti alle analisi automatiche, è possibile scavare nei testi ed estrarre informazioni di secondo ordine su modalità di organizzazione linguistica dei testi e loro contenuti. Come si è potuto notare in queste righe introduttive, l’analisi automatica e il relativo trattamento dei testi, presuppone di non leggere i testi. Servendoci della statistica e dell’information retrieval (letteralmente “recupero delle informazioni”) sará possibile attingere alle molteplici letture automatiche del programma. Tuttavia, una prima sommaria lettura da parte dei ricercatori nel nostro caso è stata necessaria. Innanzitutto, per comprendere meglio l’argomento oggetto del nostro lavoro, ossia il cibo, associato ad un tema sociale particolarmente caro ai campani: la Terra dei Fuochi. Inoltre, ulteriori letture dei testi sono avvenute sia nella fase di compilazione della matrice, dove abbiamo interrogato ogni singolo articolo selezionato, sia nella fase di normalizzazione, dove ci siamo occupati di ripulire il testo da simboli e numeri non utili ai fini della nostra analisi. L’analisi automatica dei testi (AAT) avviene per modelli, i quali creano una “metrica”, ovvero rappresentazioni che possono essere di tipo lessicale (quindi paradigmatico del linguaggio utilizzato) o testuale (quindi sintagmatico del discorso). L’approccio statistico-informatico permette di analizzare anche corpus di grandissime dimensioni. Anzi, ciò è preferibile in quanto corpus troppo piccolo risulterebbero poco robusti ad un’analisi quantitativa delle frequenze. Tuttavia, dal punto di vista pratico esistono limiti oggettivi dovuti alle capacità di archiviazione elettronica e dalle potenze di calcolo dei programmi e delle macchine elettroniche utilizzate. Già Berelson (1952), più di mezzo secolo, fa aveva spiegato alcuni dei motivi, tuttora validi, per effettuare l'analisi del contenuto del testo in maniera automatica. Tra questi troviamo: ● Descrivere le tendenze del contenuto nel tempo (differenziando i corpus, ad esempio, per anno) ● Descrivere il focus di attenzione per una serie di argomenti ● Confrontare le differenze dei testi in relazione ai contenuti ● Confrontare le differenze individuali nello stile della scrittura e negli argomenti trattati
28
● Tracciare lo sviluppo dei concetti nella storia culturale ● Confrontare il contenuto effettivo con contenuti teorici ● Individuare
l’uso
di termini
nella pubblicità, negli spot televisivi e nei banner
pubblicitari online ● Codificare risposte in indagini a risposta aperta.
Lo studio del linguaggio naturale, inteso come capacità di espressione dell’uomo a un determinato livello comunicativo, era tradizionalmente campo di ricerca di linguisti, psicologi e sociologi; diventa oggetto di studio della statistica attraverso l’evolversi della Statistica Testuale e dell’Analisi Automatica dei Testi. L’approccio quantitativo ha spostato l’interesse da una logica di tipo linguistico, prima degli anni Sessanta, a una di tipo lessicale, intorno agli anni Settanta e, infine, ad una di tipo testuale o lessico-testuale, negli anni Ottanta e Novanta. Le concrete possibilità di Analisi del Testo si sono ampliate e arricchite passando, infatti, da un semplice studio quantitativo, nel quale le raccolte di parole si intendono come “campioni” e il numero di volte che si presentano come l’approssimazione delle frequenze, ad uno di tipo testuale, dove si sviluppa una più approfondita analisi statistica in forme grafiche. Successivamente, si è pervenuti a studi più complessi, di tipo lessico-testuale, dove ci si avvale dell’apporto di meta-informazioni di carattere linguistico, di dizionari elettronici, di lessici di frequenza, di grammatiche locali, di trattamenti di normalizzazione, di lemmatizzazione e di lessicalizzazione. È in quest’ultima fase che l’aumento della quantità di testi da esaminare e lo sviluppo di ausilio informatico hanno portato alla diffusione delle tecniche di Text Mining (TM) idonee ad estrarre informazioni da materiali espressi in linguaggio naturale: l’Information Retrieval (IR) e l’Information Extraction (IE).
Concetti generali preliminari In ogni testo è utile poter distinguere il linguaggio utilizzato secondo alcune sue componenti di fondo. La prima componente è legata alla lingua, ovvero l’idioma della comunità di appartenenza dei “parlanti”. Nel nostro caso, l’idioma utilizzato è stato l’italiano, nel periodo storico compreso tra il 2013 e il 2016. Secondariamente, la parte di lessico che caratterizza il 29
contesto, ossia l’ambito concettuale, come dominio semantico di una data area tematica (o settore terminologico). In terzo luogo, è importante poter individuare quale e quanta parte del discorso è dovuta alla situazione, ossia alla specifica condizione di produzione del testo, che riflette la modalità d’interazione fra colui che emette il messaggio (E) e colui che lo riceve. Nel nostro caso, questa modalità d’interazione avviene tra gli autori degli articoli e il pubblico dei lettori, in un processo da uno a molti, tipico dei manifesti, delle assemblee, dei mass media. Convenzionalmente si usano tre termini: “parlante” per indicare la fonte che ha generato il testo, “discorso” per indicare lo sviluppo delle frasi nel testo e “parola” per indicare l’unità elementare del testo. Il nostro oggetto di studio è stato un insieme di materiali testuali, ossia un discorso espresso dalle parole di un parlante. Un corpus testuale è una collezione di unità di contesto o frammenti, che si ritengono fra loro coerenti e pertinenti per essere studiate sotto un qualche punto di vista. Nel nostro caso, il filo conduttore è rappresentato dal tema oggetto dell’analisi, ovvero il binomio Terra dei Fuochi-Cibo, con gli articoli che sono stati ricercati e trovati mediante specifiche parole chiave. Salem (1994), afferma che un corpus deve essere rigorosamente omogeneo, costituito da testi con caratteristiche lessicometriche confrontabili. Inoltre, ai fini del confronto, è necessario che i testi che si racchiudono in una stessa collezione abbiano delle lunghezze comparabili. Quando la collezione che costituisce il corpus è ampia (nell’ordine di centinaia o migliaia di elementi) è possibile associare ad ogni elemento della collezione informazioni strutturate, attraverso variabili quantitative e qualitative. In alcune fasi del trattamento automatico del corpus, il frammento viene esplorato a tratti per spezzoni di testo o chunk. Quindi si tratta di finestre, di lunghezza predefinita, aperte temporaneamente sul testo al fine di ricercare coppie di parole (co-occorrenze) o sequenze di parole (segmenti). Nel primo caso si considera una finestra di ampiezza predefinita che scorre al variare della parola considerata come polo; nel secondo caso, invece, si tratta di una sequenza di parole comprese fra i due estremi del chunk, che sono chiamati separatori forti (punteggiatura). Con il termine contesto locale, si indica un determinato insieme di parole adiacenti (co-testi) a un termine prefissato, che funge da polo, detto anche pivot. Lo studio sistematico dei co-testi (detti anche intorni destro e sinistro) di una parola, è detto analisi delle concordanze di quel termine. Il testo visualizzato è compreso, ad esempio, tra 5-10 parole prima e dopo il termine
30
prescelto come polo. Nel trattamento automatico del testo, una occorrenza di parola è una sequenza di caratteri di un alfabeto, compreso tra due separatori. La scansione del testo bit per bit da parte di un analizzatore automatico (SPAD_T) porta ad individuare le occorrenze nel testo. Nel nostro caso, abbiamo deciso di utilizzare il separatore dello spazio bianco (blank), rimuovendo in sede di normalizzazione il fine paragrafo, il fine riga, il tabulatore, la punteggiatura, le parentesi, le virgolette, i tratti e alcuni caratteri speciali. Ogni volta che una parola appare in un corpus, definisce una sua occorrenza, che viene chiamata token. Il termine parsing indica il processo di tokenizzazione. Cioè ad ogni parola del testo viene assegnato un doppio codice numerico: un ID_type per ogni sequenza diversa di caratteri alfabetici e un ID_token per ogni occorrenza incontrata. Nel nostro caso, su 148 articoli abbiamo potuto osservare 90500 token, 12076 type, con un type/token ratio pari a 13.3% (V/N).
Il parsing numerizza il testo in types e token e produce l’indice del corpus. Il numero totale delle occorrenze (tokens) determina la dimensione del corpus (N). Il numero delle occorrenze di uno stesso type determina la frequenza di quella parola nel corpus. Inoltre, è necessario evidenziare che si definisce segmento una qualsiasi sequenza di parole adiacenti nel testo di varia lunghezza. Fra questi, risultano di particolare interesse i poliformi, ossia segmenti di senso compiuto come: Terra dei Fuochi, Presidente del Consiglio, Ministro degli Interni. Ai fini della nostra analisi, è necessario far riferimento alla differenza di significato tra dizionario e vocabolario. Con il primo termine, si indica l’insieme dei lemmi di una lingua raccolti dal lessicografo, ovvero colui che mette a punto un dizionario della lingua, in un unico inventario. Ad esempio, assolvono questa funzione i tradizionali dizionari cartacei (disponibili anche in bi/multi-lingue) che recentemente sono stati sostituiti da quelli elettronici, consultabili in maniera gratuita e filtrabili attraverso apposite query. Il vocabolario è una rappresentazione 31
concreta del discorso del parlante, nel nostro caso dei giornalisti. L’insieme delle parole diverse (types) individua il vocabolario del corpus, che solitamente è possibile vederlo graficamente espresso con una lista, in cui a ciascuna parola è associato il rispettivo numero di occorrenze. Il numero di types in un testo definisce l’ampiezza del vocabolario (V). Nel nostro caso, il nostro corpus è stato composto da 90500 occorrenze di parole, con 12076 types diversi. Fra questi, la parola Terra appare 641 volte (i-esima classe di occorrenze). Quindi N=[numero], V=[numero] i=[numero]. V1 indica il numero di parole diverse che ricorrono i volte in un vocabolario. V1 rappresenta quindi l’insieme delle parole che appaiono una sola volta, ossia l’insieme degli hapax di un testo, V2 quelle che ricorrono due volte ecc. Quindi, vale la seguente relazione: V1 + V2 + V3 +...+Vfmax = V Dove Vfmax indica il valore delle occorrenze della parola con il maggior numero di occorrenze del vocabolario (formata da una sola parola). Il vocabolario può essere espresso sia in forme grafiche (ossia utilizzando le parole nello stesso modo in cui sono scritte nel testo originale) o lemmi (ossia riconducendo le parole del testo al corrispondente vocabolo presente nel dizionario). Chiaramente, in quest’ultimo caso la dimensione del vocabolario cambierà radicalmente e ciò lo abbiamo potuto riscontrare direttamente. Fra i lessicometrici, si utilizza solitamente il criterio che ordina le forme secondo il numero decrescente di occorrenze, come è possibile vedere nell’immagine in basso.
32
Si definisce rango il posto occupato da un termine nella graduatoria del vocabolario, qualora tale lista venga ordinata per grandezza decrescente. Il primo posto in graduatoria sarà dunque rango 1 e per ricollegarci all’esempio del nostro vocabolario, il rango 1 è occupato dalla parola Terra. Appare evidente come in un vocabolario di forme grafiche si nascondono spesso molte ambiguità, in quanto una parola può avere anche più di un significato. Lo studio del vocabolario è puramente quantitativo, decontestualizzato dagli articoli in questione. Tanto più una parola è frequente, tanto più sarà sfruttata per molteplici usi. Inoltre, è necessario tenere in considerazione che in un lingua esiste un numero elevato di parole omografe, ossia parole identiche in termini di carattere, ma diversi in termini di pronuncia e quindi di significato. Nel nostro caso, un esempio lampante è stato rappresentato dalla parola pesca, che può essere inteso come frutto o come attività. Un passo importante per ridurre le ambiguità delle forme è costituito dalla
33
lemmatizzazione, ossia il processo di riconoscimento della categoria grammaticale di una parola e di riconduzione della forma grafica al lemma di appartenenza. È bene mettere in evidenza che le parole di un vocabolario hanno sempre una distribuzione ben definita, in termini di occorrenze, nota come legge di Zipf (1935). Cosa stabilisce? Che le parole di un vocabolario si distribuiscono in maniera tale che la frequenza e il rango di una parola sono inversamente proporzionali. In formula, è esprimibile così moltiplicando f ed r, con risultato c, dove quest’ultimo sarà un valore costante. Un classico esempio, fatto dallo stesso Zipf, è tratto da uno studio di carattere lessicale sull’Ulysses di Joyce. Il vocabolario era composto da un corpus di 260.000, dove: ● al rango 10 la frequenza è 2653 ● al rango 100 la frequenza è 265 ● al rango 1000 la frequenza è 26 ● al rango 10000 la frequenza è 2. Per valutare la ricchezza lessicale, solitamente si considera il numero di vocaboli diversi. Su questa base si assume come prima misura il suddetto type/token ratio (V/N), che permette di confrontare testi solo a parità di dimensioni. Per limitare questo aspetto, Guiraud ha proposto il coefficiente G = V / RADQ(N). Sempre secondo Guiraud, anche il rapporto di proporzione di hapax sul totale di parole diverse, a parità di dimensioni, può esprimere una misura della diversa ricchezza lessicale.
Tipi di corpora Il termine “corpus” ha designato raccolte di testi comprendenti i documenti disponibili per precisi campi di studio. Più precisamente John Sinclair definiva un corpus quale “una collezione di dati testuali selezionati e organizzati secondo criteri linguistici espliciti per servire da campioni di linguaggio”24. Si distinguono due tipi di corpora, quelli considerati per analisi specifiche (per esempio l’analisi del contenuto) e i corpora di riferimento per generare risorse statistico - linguistiche cioè liste di frequenza d’uso di forme e lemmi (per esempio dizionari e grammatiche locali). 24
Bolasco, S., L’analisi automatica dei testi. Fare ricerca con il text mining, Carocci, 2013, p.68.
34
I corpora per analisi specifiche devono avere almeno tre caratteristiche: 1) una o più proprietà in comune (esempio la rassegna stampa su un tema). 2) un minimo livello di pulizia grafica e lo stesso trattamento di fenomeni grafici in ogni componente del corpus (esempio normalizzazione). 3) vari standard minimi condivisi per lo scambio e la preparazione di testi in formato elettronico. In questi determinati corpora vengono associate meta-informazioni a due livelli: variabili a priori di tipo codificato e qualitative per partizionare il corpus e applicare filtri alla collezione dei documenti. Variabili a posteriori, o testuali, frutto di analisi effettuate sul testo. Per le analisi specifiche vanno distinte due situazioni diverse: raccolte di testi veri, cioè materiale testuale fatto di discorsi pieni con periodi e frasi articolati, e raccolte di testi-frammento ossia materiali testuali brevi, senza periodi precisi, qui il linguaggio scritto spesso è del tutto assente. Per quanto concerne i corpora come risorse di riferimento essi servono come modelli per estrarre informazioni utili dai testi. Questi corpora mirano a descrivere la “la lingua”nelle sue diverse varietà, essi richiedono criteri di rappresentatività statistica del lessico che intendono misurare. C’è bisogno di costruire un campione statistico di testi così da stabilire un equilibrio tra le fonti accessibili raccolte nelle parti costitutive del corpus. Sia per i corpora per analisi specifiche che per i corpora come risorse di riferimento è opportuno stabilire quale sia la dimensione utile del corpus oltre la quale le statistiche restano stabili. La sua ampiezza minima dipende dalla ricchezza del vocabolario e dal livello di ripetitività presente nel testo, l’ampiezza massima dipende invece dalle potenzialità degli strumenti utilizzati per il trattamento dei dati e dal tempo che si vuole dedicare all’analisi. Il tasso di accrescimento di un vocabolario decresce all’aumentare della dimensione del corpus, ciò dipende dal tipo di testi considerati. Per i testi veri cinque milioni di occorrenze è un limite oltre il quale la maggior parte delle misurazioni statistiche risultano stabili. Per i testi-frammento, se il livello di ripetitività del lessico attualizzato è elevato un milione di occorrenze è già una dimensione ampia e rappresentativa. Una raccolta intorno alle 10.000 occorrenze può produrre dal punto di vista statistico un’analisi valida.
35
I corpora di grandi dimensioni che concorrono a costruire risorse statistico - linguistiche hanno una duplice funzione: da un lato consentono di studiare casi significativi di linguistica dei corpora, dall’altro esprimono valori di frequenza sufficientemente stabili per attestare l’uso delle parole in un determinato settore. Se ci si sposta dal livello dell’ampiezza dei lessici al livello di ampiezza dei testi che li producono ci troviamo dinanzi a un problema dimensionale. E’ per questo che per rincorrere la potenzialità infinita delle lingue e dei lessici che le definiscono, dobbiamo interessarci alle dimensioni dei corpora, infatti si pensa subito agli ordini di grandezza delle informazioni che viaggiano su internet.
Fase di pre-trattamento dei dati Dopo aver raccolto l’intero corpus con tutti i testi da analizzare facendo attenzione ad eliminare tutti gli inserti pubblicitari, si procede al pre-trattamento dei dati. Nel manuale Content Analysis questa fase è definita di controllo e trasformazione e presenta una serie di operazioni che consentono una maggior comprensione di come vengono impiegate le parole nel testo, pur senza modificare il senso del testo. “Suddetta procedura costituisce la fase della classificazione”25. Il trattamento del testo è finalizzato alla riduzione dell’ambiguità e al miglioramento della monosemia delle entrate del vocabolario. In altre parole, si intende individuare le lessie che permettano di restare il più a lungo possibile ancorati al contenuto del testo, in modo da conservare “le variazioni significative in termini semantici e fondere le forme che costituiscono degli invarianti semantici”.26 La prima procedura da compiere è la normalizzazione, detta anche di standardizzazione di forme grafiche, che consiste nell’eliminazione delle varianti non significative (numeri, date, accentazioni, contrazioni, maiuscolo-minuscolo ed errori ortografici) e l’individuazione dei separatori (segni di punteggiatura). Innanzitutto abbiamo separato il titolo dal testo dell’articolo ed evidenziato il primo con il grassetto, in modo da differenziarlo dal resto del testo e dagli altri articoli. Dopo aver inserito tutto il testo in questione su un documento di Microsoft Word ed aver
25 26
Amaturo, E., Punziano, G., Content Analysis tra comunicazione e politica, Ledizioni, 2013, p.289. Bolasco,S., L’analisi automatica dei testi. Fare ricerca con il text mining, Carocci, 2013, p.99.
36
eseguito accuratamente questa distinzione, il prossimo passaggio da compiere è mettere tutto in evidenza (eseguibile anche attraverso la funzione Seleziona tutto) e trasformare tutto il testo in minuscolo per “eliminare le possibili fonti di sdoppiamento del dato testuale”27, in modo da evitare inutili frazionamenti di occorrenze di una stessa parola. Garantire il riconoscimento dei nomi propri di persona, come Caldoro, De Luca, Limone, Patriciello, Mancini, Liguori, e quelli di luoghi, organizzazioni e istituti, cioè le named entities, magari mediante l’iniziale in maiuscolo.28 In alcuni casi (non è stato il nostro), per garantire il riconoscimento di alcuni nomi propri quando sono confondibili con parole comuni, occorre lasciare ai primi la maiuscola. Un secondo passaggio da compiere è sostituire qualsiasi separatore, contrazioni, numeri, simboli, apostrofi e doppi spazi con un unico spazio attraverso la funzione Trova e sostituisci di Microsoft Word. Di seguito tutti gli elementi che abbiamo sostituito in questo modo: - segno di fine paragrafo, segno tabulatore, segno di fine riga - eliminazione di tutti i caratteri numerici - punteggiatura (, . : ; ? !) - parentesi ({ } ( ) [ ] ) - virgolette (“ ” ‘ «» < >) - tratti (- _ / \ |) - caratteri speciali (# @ & € * +) - doppi spazi (questa fase è molto importante e dev’essere sempre l’ultima ad essere sviluppata, occorre compiere questa operazione fin quando non ci saranno più sostituzioni da compiere). Inoltre, è opportuno leggere il testo e controllare che non ci siano errori segnalati da Word che potrebbero essere rilevati da SPAD come hapax, ossia parole che occorrono una sola volta in tutto il testo. In aggiunta, è utile tenere a mente che potrebbero presentarsi delle dimensioni di variazioni, che vanno riconosciute e in taluni casi normalizzati. Parliamo delle dimensioni diatopiche (ossia la provenienza geografica dei parlanti), diastratica (posizione sociale dei parlanti), diafasica (situazione comunicativa), diamesica (il canale scelto) e quella diacronica (la questione temporale). Avendo noi un corpus costruito su degli articoli, le uniche dimensioni a cui 27 28
Ivi, p.80. Ibidem.
37
abbiamo dovuto prestare attenzione sono state quelle diatopica e diafasica. Nei vari testi infatti, non sono mancati usi dialettofoni o forme colloquiali, solitamente distanti dallo stile giornalistico, che si sono evinte per l’emersione di un’attribuzione sentimentale nei confronti del tema trattato, o semplicemente dall’uso di testimonianze o forme di approfondimento che si differenziassero dagli stilemi tradizionali. Potremmo fare un esempio con la parola “pummarola”, che ha mostrato una frequenza pari a undici. Questi token definiscono l’utilizzo di un idioma e rafforzano la fase diatopica, la quale senza le parole che aiutano a definirla (in questo caso il napoletano) sarebbe difficile da rilevare in un contesto di comunicazione pubblica come quella dei quotidiani online. Il Fatto quotidiano, ad esempio, utilizza spesso la parola “pummarola”, probabilmente per screditare De Luca, Presidente della Regione Campania, che in diverse occasioni si è curato di tutelare questo ortaggio. Le altre operazioni di pulizia del testo da compiere sono: - l’eliminazione delle forme vuote come articoli, congiunzioni, preposizioni, che non rivelano nulla di significativo nella procedura di interpretazione di un testo e anzi potrebbero sporcare il testo con la loro alta frequenza. Tuttavia, come sottolineato in Bolasco29, in alcuni casi le parole grammaticali, dette anche strumentali, potrebbero essere significative se spie testuali utili nella determinazione di una parola o di una tipologia testuale. - l’attribuzione di equivalenza permette il controllo dei sinonimi e pronomi attraverso le funzioni di aggregazione nella stessa forma. - la lemmatizzazione è la procedura di riduzione della parola alla radice del lemma di riferimento eliminando i suffissi (per esempio le forme verbali mangiamo, mangerei, mangiassi, etc, sono riconducibili ad un unico lemma, cioè all’infinito mangiare). Nella schermata del vocabolario in SPAD_T le parole lemmatizzate sono raffigurate con un quadratino rosso, mentre i derivati del lemma di riferimento presentano un quadratino bianco. Solitamente, per corpus molto ampi, si adopera un’operazione di filtraggio che permetta di conservare solo le occorrenze che non abbiano uno scarto troppo grande tra lemmi con alta frequenza e meno frequenti. Tuttavia, risulta rischioso andare ad eliminare senza un’accurata analisi le occorrenze con bassa frequenza perché queste potrebbero essere accorpate tra di loro e aumentare il loro peso. Dunque, in questo
29
Bolasco, S., L’analisi automatica dei testi. Fare ricerca con il text mining, Carocci, 2013, p.94.
38
specifico caso, non è stato utilizzato alcun imbuto, per preservare al massimo l’integrità del corpus. - la disambiguazione consente di individuare le forme grafiche omografe o polisemiche e permette la disaggregazione di queste forme problematiche (per esempio la parola creato può essere sia participio passato di creare che un semplice sostantivo maschile singolare). SPAD ci viene in aiuto con la procedura CORDA. Questa va attivata dopo la procedura MOTS ed è in grado di superare la limitatezza che gli strumenti di analisi automatica ci offrono, ossia la scomposizione del corpus in singole unità di indagine, e dunque la dissolvenza del contesto di ogni singola parola. E’ facilmente intuibile che un linguaggio complesso è tale perché definito attraverso delle regole che si concatenano tra loro, tali da definire l’idioma dei parlanti. Prendiamo come esempio la parola stato, essa può riferirsi sia un sostantivo che ad un verbo, a seconda dell’uso che se ne fa. Tramite la procedura CORDA possiamo recuperare il frammento di testo, detto anche chunk, che precede e succede la parola, permettendo di ricostruire il contesto e di differenziare il sostantivo dal verbo. - la lessicalizzazione o segmentazione comporta la trasformazione di un segmento in una forma grafica semplice (per esempio, nel nostro caso, terra_dei_fuochi). Questa fase viene eseguita in SPAD_T utilizzando la procedura SEGME e verificando le co-occorrenze di ogni lemma. Pensiamo alle parole “istituto” e “zooprofilattico”, oppure “maurizio” e “patriciello” ma anche a segmenti tematici, detti poliformi, come “falda acquifera”, “terreno inquinato”, “sostanze chimiche”, che ben si prestano ad un’evidenza grafica volta a descrivere un fenomeno. Queste parole vengono legate dal programma in base alla vicinanza tra loro e, in maniera analoga alla fase di costruzione del vocabolario, vanno ad arricchirlo ulteriormente. Durante la segmentazione sono noti fenomeni di forte ridondanza, che riducono la quantità di segmenti rilevanti. Per ovviare a ciò, si impone una taglio di frequenza maggiore o uguale a cinque, quindi i lemmi con meno di 5 occorrenze sono stati cancellati dal nostro vocabolario. Inoltre, questa misura cautelativa evita di comprendere segmenti troppo lunghi, chiamati sintagmi poliformi. A tal proposito, si è resa necessaria l’individuazione e la conseguente lessicalizzazione di alcuni poliformi. Data la natura della nostra domanda di ricerca, basata sull’identità territoriale che la testata giornalistica assume e il modo in cui esse trattano del tema,
39
si è reso necessario l’isolamento tramite lessicalizzazione. Tra questi citiamo le parole precedute da aggettivi possessivi, come “mio”, “nostro”, “nostre”, atte ad evidenziare poliformi come “nostra terra”, “nostri figli”, “mio paese”, che probabilmente andranno a disporsi sui piani fattoriali in modo tale da affrancare le nostre ipotesi di ricerca. La lista di parole utili per basare la nostra ricerca vengono definite in AAT come start list, mentre quelle da tralasciare per il nostro studio in quanto “rumore”, poco o nulla informative, sono menzionate stop list. E’ impossibile, infatti, compilare un elenco che vada bene per tutti gli scopi: non ci sono particolari problemi con le POS (Part of Speech) funzionali ma è necessario individuare a seconda del contesto quelle forme che risultano “banali”, e quindi povere di contenuto informativo.
La Statistica esplorativa multidimensionale La Statistica descrittiva consente di rappresentare e sintetizzare i dati relativi ad una o due variabile/i che derivano dall’osservazione di un fenomeno con tecniche semplici e di immediata comprensione. L’Analisi multidimensionale dei dati ne costituisce la naturale generalizzazione quando questi dati riguardano più variabili o dimensioni. Non si tratta più solo di sintetizzare o presentare i dati raccolti ma di approfondire gli aspetti strutturali e fisiologici di sistemi complessi mediante l’impiego di metodi che consentono di palesare aspetti non osservabili direttamente con gli strumenti della statistica classica. Dunque la definiamo come un insieme di tecniche e metodi il cui obiettivo principale è la visualizzazione e l’interpretazione della struttura di vasti insiemi di dati che si propone di evidenziare la struttura latente sottostante al sistema in esame mediante una riduzione della dimensionalità dello spazio di rappresentazione delle variabili o di quello delle unità statistiche in modo che l’informazione strutturale estratta possa ritenersi ottimale in relazione ad un criterio statistico prefissato. Quindi l’Analyse des données rivaluta l’individuo-osservazione “con un
40
approccio più induttivo che deduttivo volto alla ricerca a posteriori di una struttura che caratterizzasse l’insieme dei dati”.30 L’AMD consente di descrivere e di esplorare tabelle di dati mediante rappresentazioni su sottospazi di migliore approssimazione in cui vengono evidenziate le relazioni tra le variabili, tra le unità (Metodi fattoriali) e tra le classi di equivalenza delle unità statistiche rappresentabili mediante strutture ad albero o grafi (Metodi di classificazione o Cluster analysis).
Analisi delle corrispondenze lessicali (ACL) L’analisi delle corrispondenze lessicali (ACL) applica ai dati testuali l’analisi delle corrispondenze (AC), una tecnica di analisi dei dati per variabili categoriali (cioè qualitative) elaborata nell’ambito dell’approccio Analyse des données dalla scuola francese di J.P. Benzécri all’inizio degli anni Settanta. Il metodo dell’ACL, come la sorella ACM, deriva dall’AC. Il primo step per procedere all’analisi è una particolare organizzazione dei dati originari, ossia la trasformazione dei dati in una tabella che contiene tutte le tavole di contingenza che si possono ottenere incrociando a due a due le variabili di partenza, compresa ogni variabile con se stessa. Questa tabella è conosciuta con il nome di matrice di Burt e si può considerare l’equivalente della matrice di correlazione nell’ACP. La Burt si ottiene premoltiplicando la tabella disgiuntiva completa per la sua trasposta (B=Zt Z). Si ricorda che la tabella disgiuntiva completa deriva dall’applicazione alle variabili originarie della codificazione del linguaggio binario (1 modalità scelta, 0 modalità non scelta), che avrà tante righe quanti sono i casi e tante colonne quante sono le modalità di ciascuna variabile nell’analisi. La massa si ottiene dal rapporto tra la frequenza della modalità e il totale dei casi delle variabili attive e corrisponde al peso che ogni modalità ricopre nell’analisi. La distanza tra i punti si calcola in modo differente dall’ACP (che si avvale del teorema di Pitagora) ponderando ciascuna colonna, cioè dando maggior peso alle modalità che vantano minor frequenza. Questo passaggio è svolto grazie alla matrice del Chi-Quadrato, che si avvale della proprietà dell’equivalenza distributiva per cui “se due profili riga uguali o proporzionali
Gherghi, M., Lauro, C., Appunti di analisi dei dati multidimensionali, metodologia ed esempi, Rce Multimedia Communication company, p.VIII. 30
41
vengono aggregati in un unico profilo con massa pari alla somma delle masse” viene garantita l’invariabilità dei risultati indipendentemente da come le variabili siano state codificate sia in modo da non perdere informazione (in caso di aggregazione) né generare guadagno informativo (in caso di suddivisione in categorie). L’ACL è un procedimento di tipo fattoriale che consente, in primo luogo, di sintetizzare l’informazione contenuta nei dati “senza dover effettuare a priori interventi di codifica o di selezione dei testi analizzati”.31 In secondo luogo, questa tecnica multidimensionale consente di rappresentare graficamente l’associazione tra righe e colonne di una tabella a doppia entrata formata da forme lessicali (parole, segmenti, parole chiave) per testi (nel nostro caso articoli), che corrisponde al secondo tipo individuato da Bolasco, cioè forme grafiche per modalità delle variabili.32 Inoltre fornisce una “connessione tra dati testuali e dati di contesto”.33 Quindi le forme lessicali sono considerate come modalità della variabile lessico che si incrocerà con la variabile testo, che presenterà a sua volta tante modalità quanti sono i testi presi in considerazione. Dopo la lunga fase di pre-trattamento dati, le parole vengono proiettate su un piano definito da due assi fattoriali secondo una struttura che lavora sulle opposizioni. Pertanto, sarà possibile vedere sul grafico che le parole non presenti negli stessi testi e i testi in cui figurano lessici diversi si troveranno su lati opposti del grafico; in tal modo si fornisce “un quadro sintetico della struttura semantica generale”.34 I fattori sono variabili di sintesi che riproducono la variabilità della matrice originaria e possono rivelare dimensioni di senso latenti. Se il corpus è costituito da frammenti non corti, con testi non molto ripetitivi, il singolo asse fattoriale mette in evidenza soprattutto le opposte polarità del fenomeno che stiamo indagando. La dimensione fattoriale rappresenta quindi un “gradiente” di un dato concetto, scalando gli elementi da un valore minimo ad uno massimo. Le modalità e gli individui che concorrono a determinare i fattori si dicono attive, mentre quelle che non intervengono nella determinazione dei fattori (non influiscono sull’inerzia dei fattori considerati), ma possono contribuire a descriverli meglio sono dette illustrative o supplementari (anche strutturali). Il test del Chi-quadro è finalizzato alla verifica dell’indipendenza di due Amaturo, E., Punziano, G., Content Analysis tra comunicazione e politica, Ledizioni, 2013, p.136. Bolasco, S., L’analisi automatica dei testi. Fare ricerca con il text mining, Carocci, 2013, p.173. 33 Amaturo, E., Punziano, G., Content Analysis tra comunicazione e politica, Ledizioni, 2013, p. 137. 34 Ibidem. 31 32
42
variabili e si calcola con la seguente formula
ottenuto sommando, per ogni
evento Ei il quadrato degli scarti tra le frequenze teoriche e quelle osservate pesato sulle frequenze teoriche. Le proprietà dell’indice del Chi-quadro sono: ● Ha un valore di 0 in caso di indipendenza assoluta, mentre non ammette un limite superiore che consenta di quantificare la dipendenza. ● Il Chi-quadro è un indice simmetrico, ossia permette di misurare contemporaneamente la dipendenza tra due variabili. ● E’ l’unico indice calcolabile con entrambe le variabili qualitative ed è valido per tutti i tipi di tabella (mista, di correlazione e di contingenza).
Come sottolineato da Amaturo, per determinare un risultato che possa essere interpretabile è importante che le variabili che determinano la soluzione fattoriale “siano omogenee da un punto di vista sostantivo”, ossia siano riconducibili allo stesso ordine di fenomeni. Un fattore è associato ad un autovalore35 o valore proprio che rappresenta la quota d’inerzia spiegata oppure di varianza riprodotta dal fattore stesso. Per conoscere la porzione di inerzia riprodotta da un determinato fattore è sufficiente dividere l’autovalore di un determinato fattore per la somma degli autovettori di tutti i fattori. La scelta dei fattori viene determinata in base alla ricerca di un numero limitato di fattori con la massima quota d’inerzia spiegata. I criteri per la scelta dei fattori sono due: ● Il criterio della variabilità spiegata, che si basa sull’idea di valutare quei fattori in grado di spiegare più di quanto una singola variabile riesce a fare, prendendo in considerazione quei fattori in grado di esprimere un autovalore superiore a 1/p, inteso come numero di variabili attive compreso nell’analisi36. ● Il criterio dello scree test o della caduta dell’istogramma degli autovalori, ove il ricercatore valuta l’andamento dell’istogramma degli autovalori fermando l’analisi a quegli assi che non presentano un decremento uniforme dei valori. 35 36
Un autovalore è una misura della capacità esplicativa dei singoli fattori. Cuturi, V., Sampugnaro, R., Tomaselli, V., L'elettore instabile--voto-non voto, Franco Angeli, 2000, pp.135-137.
43
Quindi i fattori vengono scelti sulla base dell’autovalore più alto, che spiegano la quota di variabilità maggiore. E’ auspicabile scegliere una quota di variabilità spiegata pari al 75% (come poi vedremo per la cluster analysis). Nel nostro caso, tuttavia, sarebbero stati necessari 7 fattori per raggiungere tale quota; pertanto, abbiamo prima provato ad applicare la correzione di Benzécri
in modo da migliorare la qualità della rappresentazione. Dinanzi,
all’impossibilità di applicare la formula di correzione, dato che nessuno degli autovalori presentava un coefficiente superiore a 1/p, abbiamo deciso di adottare un criterio scree test scegliendo i primi 4 fattori, che rappresentano il 56.15 % di variabilità spiegata.37 E’ bene ricordare che nell’ACL i valori molto bassi anche per i primi fattori sono una conseguenza della codifica disgiuntiva completa, che imponendo una relazione di ortogonalità tra le modalità di una stessa variabile, determina una sorta di sfericità artificiale della nube dei punti.38 I piani fattoriali scaturiscono dall’intersezione di due assi fattoriali in cui ogni modalità delle variabili attive si colloca su siffatto piano: se il punto-modalità è vicino all’origine degli assi ne consegue che la modalità avrà una frequenza elevata e definirà il profilo modale delle unità d’analisi; mentre se il punto-modalità è lontano dall’origine degli assi tirerà verso di sé gli altri punti, coinvolgendo di conseguenza l’asse fattoriale. Si precisa anche che due punti-modalità sono prossimi ci sarà maggiore interdipendenza tra le modalità, mentre di contro, due punti lontani potrebbero determinare un’opposizione. Ci sono due modi per leggere i risultati dell’ACL: ● L’interpretazione grafica è fondata sulla lettura del grafico fattoriale. Tuttavia l’interpretazione dei risultati non può basarsi esclusivamente sulla grafica, a causa delle difficoltà nella trasposizione delle informazioni sul piano bidimensionale. I parametri considerati nell’interpretazione semantica, invece, forniscono la chiave per una corretta lettura dei risultati;
37
Si ricordi che l’utilità dell’Acl è proprio fondata sulla sua capacità di sintesi. Gherghi, M., Lauro, C., Appunti di analisi dei dati multidimensionali, metodologia ed esempi, Rce Multimedia Communication company, p.129. 38
44
● L’interpretazione semantica, che analizza i contributi assoluti, il coseno quadrato (detto anche contributo relativo), le coordinate fattoriali e il valor test; L’interdipendenza semantica dei fattori e le relazioni sussistenti tra le variabili attive si basa su tali criteri: ● Le coordinate fattoriali presentano segno + o - e specificano la posizione (espresse in coordinate) delle modalità sugli assi fattoriali e la distanza dall’origine. Di solito, le modalità attive presentano valori alti nelle coordinate fattoriali (sono più distanti dall’origine degli assi) e sono quelle che contribuiscono di più alla formazione dell’asse. Il valore della coordinata dipende dalla massa e dal coseno quadrato della modalità ed è sensibile alle modalità rare; In tal caso, una variabile-modalità appare collocata molto distante dall’origine degli assi fattoriali per via della sua scarsa frequenza; ● Il contributo assoluto di ciascuna modalità indica la quota d’inerzia totale del fattore spiegata dalla modalità stessa, ossia quanta parte questa variabile ha avuto nella determinazione del fattore, in rapporto all’insieme delle variabili. In altre parole, il contributo assoluto esprime l’apporto informativo di ogni unità alla variabilità dell’asse. Il contributo assoluto di una modalità è proporzionale alla sua massa e al quadrato della sua coordinata fattoriale. La somma dei contributi assoluti di una modalità è uguale a 100, mentre sommando i contributi assoluti della modalità della stessa variabile è possibile ottenere il contributo cumulato di ogni variabile rispetto a ciascun fattore; ● Il coseno quadrato o contributo relativo indica il contributo del fattore alla spiegazione della variabilità di una determinata variabile e permette di valutare la qualità della rappresentazione.39 Difatti, uno dei problemi che affligge questo tipo di analisi multidimensionale deriva dalla riduzione dello spazio ambiente a due dimensioni, che convertendo i punti da un ambiente solido ad uno piano, li costringe ad esprimersi attraverso una proiezione sugli assi fattoriali. Il quadrato del coseno dell’angolo formato dai vettori corrispondenti al punto nello spazio originario, permette di esprimere un valore che varia da 0 e 1 (moltiplicato per 100 si ottiene la percentuale di dispersione di
Gherghi, M., Lauro, C., Appunti di analisi dei dati multidimensionali, metodologia ed esempi, Rce Multimedia Communication company, p.49. 39
45
una modalità riprodotta da una fattore)40; per giunta, un valore pari a 0 presenta una rappresentazione distorta del punto, viceversa un valore pari ad 1 esprime la massima fedeltà di proiezione di quel punto dallo spazio originario a quello fattoriale e dal punto di vista grafico più piccolo sarà l’angolo formato dai due vettori. Il valor test delle modalità delle variabili illustrative controllano la significatività dell’associazione tra una variabile ed un fattore. Per controllare se le modalità illustrative sono significativamente associate ad un fattore, viene esaminato il valore del test, calcolato mediante la statistica del T di Student, e con una distribuzione simile alla Normale. Se i coefficienti sono >2 in valore assoluto, la relazione delle modalità delle variabili con i fattori è statisticamente significativa al livello 0,05, cioè al 5%. In caso contrario, cioè con i coefficienti inferiori a 2 in valore assoluto, deve essere accettata l’ipotesi di indipendenza (non può essere rifiutata l’ipotesi di indipendenza). Quindi se la modalità illustrativa è collocata molto vicino all’origine del fattore è considerata dipendente (associata) al fattore e, di conseguenza, la modalità illustrativa non può essere utilizzata per arricchire i significati relativi a quel determinato fattore. In altre parole, il valor test offre una valutazione della casualità o meno della collocazione della modalità illustrativa sul fattore. Se ne tratterà in maniera più dettagliata nel paragrafo sull’Utilizzo di SPAD_T. Quindi, per individuare le modalità che contribuiscono maggiormente a generare assi e piani fattoriali e a dare loro significato, si selezionano per ciascun fattore le variabili e le relative modalità che presentano contributi assoluti più elevati. Tra queste, viene posta l’attenzione su quelle con il coseno quadrato (contributo relativo) più elevato, indice di una migliore qualità della rappresentazione. Il software statistico scelto per operare l’analisi delle corrispondenze lessicali è SPAD_T (Systeme portable pour l’analyse des donnèes). Questo offre un’analisi statistica dei dati testuali – approccio di tipo lessicometrico basato principalmente sul confronto di profili lessicali e sulle distribuzioni di frequenza delle parole – ovvero software finalizzati all’analisi semi-automatica del testo e un’analisi dei dati quantitativi con l’ausilio del computer, detta CAQDAS (Computer-Assisted Quantitative Data Analysis Software), che consente di etichettare Di Franco, G., Corrispondenze multiple e altre tecniche multivariate per variabili categoriali, Franco Angeli, 2006. 40
46
manualmente porzioni di testo con codici alfanumerici riferiti ai concetti che i ricercatori desiderano evidenziare. SPAD_T rientra in quest’ultima famiglia di applicazioni.
L’analisi testuale in SPAD_T Dopo aver analizzato ogni singolo articolo delle testate giornalistiche online è stato utilizzato il programma
SPAD_T
per
l’analisi automatica del contenuto attraverso metodologie
statistico-lessicometriche, uno tra i principali software che permette di sviluppare analisi automatiche su dati testuali, consente di applicare diverse tipologie di analisi, tra le quali l’Analisi delle Corrispondenze Lessicali (ACL) e la Cluster Analysis, che si basano su dati testuali di diverso genere come interviste, documenti, questionari e altro. SPAD_T (Système portable pour l’analyse des données) è un software di origine francese sviluppato nel 1989 da Lebart, Morineau, Becue e Haeusler
41
utilizzato per l’analisi
semi-automatica di testi, si serve di tecniche statistiche e lessicali basate sull’analisi delle parole e delle loro relazioni all’interno del testo. SPAD_T riconosce ogni parola di un testo e la classifica per la sua forma grafica, ovvero come un elemento la cui caratteristica è l’apparenza grafica (parole tali e quali scritte nel testo: perché diverso da perché). È inoltre possibile far interagire il testo con le variabili presenti sui prodotti del testo stesso, così facendo si possono identificare eventuali differenze peculiari nell’uso delle parole o nella scelta degli argomenti, tra i diversi tipi di produttori di testi. Tra gli aspetti più interessanti di questo tipo di analisi automatica, c’è sicuramente la possibilità di ottenere un lessico di frequenza basato sul corpus adoperato. Altro non è che una lista di occorrenze, opportunamente pulite come descritto dal paragrafo precedente, sui quali l’ACL sostanzialmente si basa. Da un primo approccio potremmo cadere vittime della semplificazione quantitativa che il programma apporta al nostro corpus. Saremmo, dunque, tentati di conservare solo i token che presentano frequenza più alta. Memori dei suggerimenti discussi nel capitolo due, avere una conoscenza sul tema porta anche alla necessità, oltre alla capacità, di valorizzare tutti quei lemmi che vanno a definire al meglio la nostra ricerca. Nel nostro specifico caso,
Amaturo, E., Punziano, G., Content Analysis tra comunicazione e politica, Ledizioni, 2013, p.283.
41
47
potremmo avere intenzione di salvaguardare elementi grafici come “mozzarella”, “pomodoro”, ma anche “inquinato” “devastato”. Insomma, la costruzione di un buon vocabolario, non evince dalla consapevolezza dei nodi principali attorno ai quali il nucleo della ricerca gravita.
Utilizzo di SPAD_T Fasi preliminari Per il corretto utilizzo di SPAD_T è di fondamentale importanza seguire delle linee guida che ne permettano un funzionamento ottimale. La versione fornita per lo sviluppo del progetto ha parecchi anni sulle spalle, e di conseguenza si porta dietro difetti di compatibilità con i nuovi sistemi operativi. La prima premura sarà quella di avviare il programma come amministratore. Una volta caricata la base con estensione .sba grazie ad un doppio click su “BASE”, occorre avviare la filiera, ossia il tipo di analisi che abbiamo intenzione di effettuare. Segue immagine:
48
49
Si apriranno a cascata tutte le procedure di questa filiera. La prima procedura è MOTS, che sarà trattata nel prossimo paragrafo. Mots Mots è l’equivalente francese di ‘parola’. È una procedura che permette di creare il nostro vocabolario, una fase di estrema importanza. Ogni errore in questa fase avrà ripercussioni su tutta l’analisi. Accedendo alla finestra di impostazione della procedura, si ha la capacità di aggiungere in vocabolario le forme grafiche testuali che abbiamo precedentemente inserito in base (matrice di rilevamento). E’ bene, prima di procedere, andare sulla pagina “Vocaboulaire des mots” delle impostazioni di procedura e correggere la voce “Majorant de nombre de mots distincte” facendo in modo che il programma accetti il numero di occorrenze che si ha intenzione di processare. Segue immagine esplicativa:
50
In seguito, dopo aver eseguito la procedura con un click destro e aver salvato la filiera, si giunge ad una nuova finestra, quella del vocabolario. Viene riassunta in basso:
Sulla sinistra è disponibile il vocabolario iniziale, al centro il vocabolario modificato e a destra la radice delle forme grafiche. Per raggruppare un lemma con un altro, secondo le regole di lemmatizzazione esplicitate nei capitoli precedenti, è necessario un doppio click sull’occorrenza per portarla dal vocabolario modificato alla colonna di destra. In tal modo, con un doppio click su altri lemmi non precedentemente raggruppati, verranno legati quest’ultimi alla forma grafica principale e cliccando su Valider, avremo la nostra lemmatizzazione nel vocabolario modificato, identificato da un quadrato rosso. I quadrati bianchi di fianco il lemma, invece, segnalano una
51
parola raggruppata alla sua relativa radice. Se la forma grafica è stata corretta davanti alla stessa comparirà una C. Se la forma grafica è stata eliminata comparirà invece una X. Per annullare un raggruppamento, basta cliccare su Efficacer Tout nella colonna destra se siamo ancora in fase di aggregazione dei token, o cliccare con il tasto destro sul lemma già raggruppato e annuller l’équivalence, ossia annullare l’equivalenza. Per poter eliminare forme grafiche poco interessanti (poche occorrenze) o per fare selezioni multiple di vario tipo è possibile utilizzare il seguente tasto
. Si aprirà, quindi, una finestra di dialogo in cui è possibile impostare dei
filtri logici per la selezione. Sarà dunque possibile impostare filtri rispetto alla parola stessa (Mot), alla frequenza della forma grafica (Fréquence) o alla sua lunghezza (Longueur). Una volta impostato il filtro clicchiamo su Ajounter. È possibile applicare più filtri contemporaneamente prima di chiudere la finestra con “Ok”. Corda Il metodo Corda ci è utile per definire il contesto delle parole omografe, ossia tutte quelle parole che si scrivono nello stesso modo ma si pronunciano in modi diversi (come pesca frutto/pesca verbo oppure stato sostantivo/stato verbo). Per creare il nuovo metodo, andiamo su “Mots” e clicchiamo col tasto destro, selezionando l’opzione Insérer méthode. Qui possiamo notare la creazione del box libero, dove possiamo selezionare il metodo desiderato. Nel nostro caso si tratta del “Corda”, per cui in Analyses textuelles possiamo scegliere l’Edition des contextes des mots.
52
In questo caso abbiamo modo di selezionare soltanto la parola desiderata, dove abbiamo la possibilità di recuperare il frammento di testo (chunk) che immediatamente precede e succede la parola, permettendo di ricostruire il contesto e differenziare le due forme grafiche. Un altro esempio di disambiguazione risolta con la procedura CORDA è fornito dalla determinazione della forma grafica “sequestrato”. Nell’interesse dell’analista vi è la necessità di determinare la natura della parola, distinguendo il suo ausilio in forma di aggettivo o di voce del verbo sequestrare. È utile esercitare queste accortenze nel momento in cui, in fase di creazione del vocabolario, “sequestrato” viene accorpato con “sequestrati” e “sequestrate” che sono chiaramente degli aggettivi.
53
Se non fossimo a conoscenza della natura effettiva della forma grafica, recuperando il contesto al quale ogni parola appartiene, saremmo indotti ad accorpare il tutto senza le dovute cautele. In questo caso, la procedura ci ha restituito una quantità di 7 occorrenze, in cui si identificano 4 aggettivi e 3 verbi. E’ un dato interessante questo che, tuttavia, perde di efficacia a causa delle capacità limitate di text retrieval fornite dal software, che non permette di recuperare l’effettiva porzione di testo e di applicare un tagging grammaticale. Sulla base quindi, della semplice conoscenza della quantità di aggettivi o di verbi evidenziata dalla procedura, andremo ad accettare quella più numerosa (consapevoli del “rumore” che viene immesso dalla compresenza di diverse forme lessicali). Amado In alcuni casi di matrici lessicali di dimensioni non elevate è possibile visualizzare i dati mediante le matrici di Bertin, che godono della proprietà semiologica del trattamento grafico dell’informazione. Questo, fondandosi sulla permutazione alternata di righe e colonne in base alle leggi della percezione visiva, permette di sintetizzare efficacemente dati che altrimenti avremmo difficoltà ad interpretare con la sola osservazione delle celle. La lettura delle relazioni significative è semplicemente basata sui confronti visivi tra i profili lessicali. I profili sono rappresentati con istogrammi proporzionali che si definiscono tramite i valori assoluti delle frequenze (occorrenze) se osserviamo la larghezza, mentre in altezza abbiamo i valori relativi di dette frequenze. La congiunzione delle due frequenze presenterà un’area proporzionale all’informazione trasmessa e quindi, maggiore sarà l’area dell’istogramma più forte sarà la 54
relazione42. L’elaborazione appena presentata è possibile grazie alla procedura AMADO che andremo ad illustrare. Per raggiungere la procedura, basta cliccare tasto destro su una procedura precedentemente attivata e inserire un nuovo metodo. In seguito ricerchiamo la procedura in questione e selezioniamo il metodo “Costruzione di una matrice di dati per AMADO”. La schermata successiva, di impostazione dei parametri è la seguente:
Come possiamo ben notare, la procedura ci da l’opportunità di mettere a grafico due modalità a nostra scelta. Nel nostro caso l’intenzione è quella di evidenziare la relazione tra loro le variabili “Nome testata” e
“Valutazione del giornalista”, che poniamo rispettivamente in riga per
colonna. Il risultato è questo:
42
Bolasco, S., L’analisi automatica dei testi. Fare ricerca con il text mining, Carocci, 2013, p.227.
55
La capacità di sintesi di questa procedura è molto esaustiva e vede Il Mattino identificato da un istogramma la cui area, nella riga “neutro”, ha la predominanza su tutti gli altri. Segue con un risultato modesto anche La Repubblica, e a pari merito Corriere Della Sera e Avvenire. Con un’osservazione più ampia possiamo dire che la valutazione assunta dai giornalisti da noi rilevata, si aggira perlopiù su un carattere neutro. La larghezza di ogni istogramma, inoltre, è funzionale per dare un peso ad ogni testata, determinata dal numero di articoli raccolti su di essa. Abbiamo messo a confronto variabili che riteniamo possano essere utili per validare ulteriormente le nostre considerazioni iniziali, le quali però riceveranno una verifica completa solo con l’interpretazione degli assi fattoriali. Di seguito, altri tre esempi di associazioni tra variabili. Nel primo caso abbiamo messo a confronto Testata (in riga) e Argomento Prevalente (in colonna) in modo tale da vedere su quale argomento ogni testata concentra maggiormente la propria attenzione.
56
Un'altra possibile associazione da cogliere è quella tra Testata (in riga) e Tipologia articolo (in colonna), in modo da evidenziare la predilezione dei vari quotidiani considerati per una determinata tipologia di articolo.
57
Inoltre, con Amado possiamo anche verificare il numero di articoli che ogni testata ha dedicato al tema Terra dei Fuochi - Cibo nel corso dei vari anni. Pertanto, poniamo in riga la variabile Testata e in colonna quella Periodo.
58
Nei seguenti output sono stati distinti Corriere del Mezzogiorno da Corriere della Sera e Repubblica Napoli da Repubblica. Tuttavia, come già sottolineato nel paragrafo dedicato alla scelta delle variabili, nel corso della ricerca le due testate locali Corriere del Mezzogiorno e Repubblica Napoli verranno considerate all’interno delle seguenti di portata nazionale rispettivamente Corriere della Sera e Repubblica. Vospec Quando si effettua un’analisi delle corrispondenze lessicali spesso si lavora su corpus che vengono raccolti in un arco di tempo lungo anche decenni. Lo studio “cronologico” del discorso, 59
permette di individuare l’ingresso di singoli termini o la scomparsa di altri, denotando interessanti mutamenti che possono evidenziare come determinati eventi, posti in unità temporali differenti, siano trattati con soluzioni esclusive. Sulla base di un’intuizione di Salem ed il suo indice diacronico43, abbiamo immaginato di poter definire il ciclo di vita di specifiche parole, atto ad individuare il trend evolutivo delle parole all’interno di una finestra temporale, segnato dalle modalità di una variabile di partizione del corpus in predefinite unità di tempo. Le nostre partizioni sono identificate dagli anni che vanno dal 2013 al 2016, modalità della variabile “Periodo”. Per effettuare questa osservazione giunge un’ulteriore procedura del software SPAD, chiamata VOSPEC, che troviamo nel gruppo appartenente alle Analisi Lessicali. La pagina di impostazione si presenta così:
Questa procedura deve necessariamente succedere la MOTS, perché da essa attinge automaticamente al vocabolario da noi costruito. Nella figura è illustrata la variabile “Periodo” scelta dalla nostra matrice. Una volta eseguita la procedura, l’output tabellare sarà questo: 43
Bolasco, S., L’analisi automatica dei testi. Fare ricerca con il text mining, Carocci, 2013, pp.215-216.
60
Lâ&#x20AC;&#x2122;output testuale (anno 2013) presenta una tabella in cui sono disposte le forme grafiche relativamente al loro valor test. Oltre alle percentuali interne (relative allâ&#x20AC;&#x2122;anno 2013) e globali (rapportate allâ&#x20AC;&#x2122;intero corpus) e le frequenze assolute (interne) e relative (globali), è fondamentale 61
lo studio di tale valore test. Prima di procedere, tuttavia, è necessario spiegare come agisce questo indice. Il valor test “confronta la frequenza relativa di una parola nella parte, con la corrispondente frequenza relativa nel corpus totale. Questo test è effettuato sotto l’ipotesi di un’approssimazione normale, per cui è possibile assumere i classici limiti degli intervalli di confidenza di una variabile standardizzata z di tipo gaussiano. Quando il valore z di una parola è intorno allo zero, la parola è presente nella parte (sub-testo) in proporzioni puramente aleatorie, ossia tanto quanto in media ci si può aspettare nell’intero corpus. In tal caso la parola non è caratteristica della parte, dunque “banale”. Se z è un superiore, in valore assoluto, a 2 sappiamo che la presenza della parola è significativamente diversa da quella attesa. Ciò può esserlo in termini positivi e negativi. Nel caso di positività, si dirà che il numero di occorrenze della parola in esame nel sub-testo supera largamente il “valore atteso” non per puro effetto del caso, quindi la parola è caratteristica di quella parte (specificità positiva). Nel caso di negatività, la sua bassa frequenza è anch’essa significativa, ovvero esisterà un motivo per cui la parola non è presente nel testo quanto ci si aspetterebbe. La parola si dice allora anti-caratteristica o “rara”, oppure sotto-rappresentata (specificità negativa). Questa differenza è sempre valutata in termini probabilistici. Nei software di analisi dei dati testuali viene anche pubblicato il suo p-value, ossia il valore della probabilità di ottenere campioni con valori di z uguali o più rari di quello osservati”44. Sulla base di queste nozioni, siamo in grado adesso di interpretare le tabelle offerte da VOSPEC. Le forme grafiche da considerare per l’output relativo al 2013, tramite l’analisi del valor test, vanno da 1 a 30 partendo da sopra e da 1 a 14 partendo dal basso. Perché utilizziamo questa classificazione? Per il semplice motivo che i valori centrali nella tabella sono compresi tra l’intervallo -2 e +2, quindi hanno una probabilità casuale di trovarsi nel sub-testo. Tra le parole fortemente caratteristiche è interessante notare: mozzarella, pomì, diossina, coldiretti, produttore, fragole, patologie, nostro territorio, agricoltura, mela. All’opposto, invece, troviamo: agroalimentare, zooprofilattico, qrcode, pasta e acqua. Per offrire un confronto con un altro periodo al quale gli articoli raccolti, e le loro forme grafiche relative, fanno riferimento prendiamo ad esempio l’anno 2016, esso si presenta così:
44
Bolasco, S., L’analisi automatica dei testi. Fare ricerca con il text mining, Carocci, 2013, pp.141-142.
62
Le differenze rilevabili sono molte, e descrivono un mutamento sia degli eventi che hanno coinvolto il tema, sia la fluttuazione delle forme grafiche adoperate per descrivere queste realtĂ . 63
Tra le caratteristiche abbiamo: camorra, amianto, nostro dolore, nostro, pomodoro, coltivato, grano, acquedotto, natura, agronomo, agricoltura. Nelle anti-caratteristiche evidenziamo: prodotto, suolo, consumatore, expo, prodotto agricolo, mozzarella. Come possiamo ben notare “mozzarella” è passata dall’essere molto caratteristica nel 2013 per diventare valore di specificità negativa 3 anni dopo. Stessa cosa possiamo dire riguardo parole tematiche come nostro dolore, nostro figlio, rassegnazione, speranza, che nel 2016 assumono una specificità rilevante, al contrario di expo, che resta anti-caratteristica in entrambe le unità temporali presi in esame. Lasciando momentaneamente i confronti da parte, l’anno 2014 si distingue in positivo per il modo di affrontare il tema soprattutto sotto il punto di vista giuridico, legislativo, etico dovuto alle parole: cassazione, sentenza, riesame, minimizzare. È presente anche una componente economica grazie a forme come: imprenditore agricolo, vendita, supermercato, acquistare, crisi, milioni. Infine notiamo parole quali avvelenamento, minimizzare, vino, sano, eccellenza, verdura, inquinamento ambientale e cuoco. Sull’altro versante da considerare sono: medico, verità, mangiare, latte, ricerca, silenzio. Questo è probabilmente l’anno più completo nell’utilizzo delle forme grafiche e dei temi trattati, con l’interessante presenza di valori affini alla giustizia con quelli economici e di attribuzione valoriale di rivalsa verso prodotti campani.
64
65
Nel 2015, infine, abbiamo un ribalto dell’occorrenza De Luca, che passa da primo negativo nell’anno precedente a primo positivo, accompagnato dall’istituto zooprofilattico, salubre, acqua, agroalimentare, ecoreato, trasparenza, tracciabilità, monitoraggio, esame, risultato e sicuro. Sul negativo si riscontrano: Caivano, disastro, sequestro, vino, avvelenamento, tumore, pericoloso, disastro ambientale, morire. Un ventaglio di parole pressoché affini tra caratteristiche e anti-caratteristiche, che denotano una certa esigenza di affidarsi alla scientificità per assopire il demone della percezione negativa che, maturando negli anni appunto, ha fatto da coltre su tutta la filiera campana.
66
Per una più efficace ed intuitiva rappresentazione grafica è stato utilizzato lo strumento del tag cloud45 applicandolo al valor test anziché alle frequenze di ogni forma grafica. Quindi le parole presentano grandezze proporzionali al valor test. In blu avremo le forme caratteristiche, mentre in rosso le anti-caratteristiche. I risultati sono i medesimi:
45
http://www.wordclouds.com/.
67
La capacitĂ euristico-esplicativa degli output grafici come le tag clouds consente di recuperare anche il contesto di utilizzo di una determinata parola in modo da renderle estremamente intuitive e utili in fase interpretativa.
68
Talex La prossima procedura analizzata sarà il Talex. Definita come “Tabella lessicale delle contingenze”, ci restituisce una matrice a doppia entrata sulla quale le righe presentano le forme lessicali in ordine alfabetico, e le colonne sono le modalità alle variabili imposte sulla base. La tabella, fornisce un incrocio tra le due e ne esplicita un’associazione, presentandosi in tal modo:
Come possiamo vedere le colonne altro non sono che la variabile operativizzata di una modalità. Ad esempio, i primi valori in colonna dal 1 al 7, altro non sono che le modalità della variabile “Testata giornalistica”, che riconosciamo come Corriere Della Sera, La Stampa, Avvenire, La Repubblica, Il Fatto Quotidiano, Il Mattino, Fanpage, così ordinati in senso crescente. Dunque, se prendiamo la parola “avvelenamento”, sappiamo che questa è ricorsa 16 volte tra i testi del 69
Fatto Quotidiano. Questa procedura può risultare utile nel momento in cui vogliamo una contingenza tra forma grafica (o segmento) e una particolare modalità. Ad esempio, sotto la variabile “Tipologia Interlocutore/Intervistato” la modalità “scienziato/dottore” presenta 43 relazioni con la forma “terreno”. Questo ci indica che che l’esigenza di dare un valore scientifico all’analisi dei terreni e della loro salubrità ha spesso accompagnato la presenza di referenti appartenenti ad un campo di studi coerente con tali propositi. Considerando che “terreno” ha frequenza assoluta di 298, possiamo dire che l’associazione tra lo scienziato/dottore e la forma grafica “terreno” si sono presentate nel testo con una percentuale del 14%. L'interpretazione dei piani fattoriali Nulla di ciò che abbiamo trattato precedentemente avrebbe senso se non giungessimo finalmente all’analisi dei piani fattoriali. L’Analisi delle Corrispondenze Multiple (dalla quale l’ACL deriva) può essere considerata, ad oggi, una delle tecniche statistiche più utilizzate per l’analisi “multipla” di dati quantitativi o misti rilevati attraverso questionari. Obiettivo principale dell’ACM consiste nell’analisi delle relazioni esistenti tra un insieme di variabili qualitative osservate su un collettivo di unità statistiche. Ciò avviene, come in tutte le tecniche di analisi fattoriale, attraverso l’identificazione di uno spazio “ottimale”, di dimensione ridotta, sintesi dell’informazione strutturale contenuta nei dati originari. In altre parole, il metodo conviene alla costruzione di una serie di variabili latenti (o fattori) combinazione delle variabili originali, che esprimono alcuni concetti non direttamente osservabili nella realtà ma frutto della misurazione di un insieme di variabili. La caratteristica dei metodi fattoriali è costituita dalla possibilità di presentare un output mediante grafici che permetta di osservare la disposizione dei punti su quei piani di proiezione formati da coppie di fattori. L’intento è, in definitiva, quello di evidenziare la struttura latente mediante una riduzione della dimensionalità dello spazio di rappresentazione delle variabili e delle unità statistiche, in modo che l’informazione strutturale estratta possa ritenersi ottimale in relazione ad un criterio statistico prefissato. Il software SPAD_T chiama questa importante procedura CORBIT. Con il doppio click su di essa appare in video la consueta finestra di impostazione. Diamole uno sguardo:
70
Com’è possibile intuire, ciò che andremo ad impostare è un’analisi delle corrispondenze binarie di una tabella lessicale. Sulla sinistra sono disposte le modalità (colonne), mentre a destra le parole (lemmi). Per ognuna delle due si è in grado di selezionare le variabili o le parole che desideriamo e porle in attivo, illustrativo o abbandono. Le variabili attive sono quelle che partecipano attivamente alla identificazione dello spazio di dimensione ridotto e quindi contribuiscono nella determinazione dei fattori considerati. Le variabili supplementari sono invece quelle che vengono semplicemente proiettate nello spazio identificato, quindi non partecipano alla individuazione della soluzione ma semplicemente aiutano a descrivere meglio il fenomeno e i fattori latenti. Alcuni manuali46 istruiscono al riconoscimento delle variabili e al modo in cui andrebbero poste. Uno dei motivi salienti per la determinazione di questa scelta è la vicinanza delle modalità all’origine dei fattori. Più sono prossimi a quest’ultimi meno contribuiranno a far emergere caratteri latenti della nostra analisi, dunque andrebbero poste in illustrativo (o supplementare). Alla luce di ciò sarebbe utile eseguire dapprima una simulazione con tutte le variabili in attivo, proprio per avere la facoltà di riconoscere eventuali concentrazioni 46
Testo d’esame 2010/2011: De Lillo, A., Analisi multivariata per la ricerca sociale, Pearson Editore, 2007.
71
nell’origine degli assi e agire di conseguenza. Dall’osservazione della disposizione di variabili e lemmi, il grafico inerente all’analisi svolta vede un contributo modesto e una distanza discreta dall’origine per le variabili seguenti: “Argomento prevalente”, “Stile prevalente”, “Tipo alimento citato”, “Tipo di articolo”. In generale, si può asserire che la scelta del ruolo da attribuire alle diverse variabili dipende strettamente dagli obiettivi di indagine che ci si propone, dalla natura dei caratteri considerati (se descrittivi del fenomeno o caratterizzanti la tipologia di unità statistica) e dall’opportunità di spiegare certi aspetti piuttosto che altri. In altre parole, si può dire che le variabili attive descrivono soggettivamente le unità mentre quelle illustrative determinano dei gruppi di osservazioni (si immagini il settore merceologico, la dimensione, il fatturato, ecc. per le aziende) e ne descrivono quindi l’appartenenza ad una certa “tipologia”. Date le nostre prospettive di ricerca, quest’ultime variabili sono state poste in attivo, perché sono in grado di determinare il comportamento che ci auspichiamo di far emergere, mentre tutte le altre sono state considerate illustrative per la loro capacità di approfondire determinati aspetti del fenomeno, senza che il loro contributo influisca sull’analisi. Tuttavia, è bene fare una precisazione ulteriore, che riguarda la natura dell’analisi multidimensionale alla quale ci riferiamo. Difatti “l’ACM risulta particolarmente sensibile in due casi: a) al numero di modalità delle differenti variabili attive su cui si lavora; b) alla frequenza delle modalità”47. Il caso da noi studiato, infatti, presenta alcune modalità, tra le variabili poste in attivo, che hanno una frequenza molto bassa. Vista la raccomandazione del manuale prima citato, sono state messe in illustrativo le modalità che avrebbero potuto concorrere al creare di distorsioni sul grafico. Tra queste si riconoscono: altro argomento prevalente, altro stile, tipo di alimento citato nullo. Per una pulizia maggiore e un impatto grafico che restituisca la massima rappresentatività dell’interpretazione che si vuole proporre, è stato avviato un piano fattoriale di sole variabili attive e illustrative che, in virtù della loro associazione con le attive, sono di aiuto nel chiarimento delle dimensioni latenti emerse dall’analisi. Partiamo subito con l’output testuale. Come è stato precedentemente detto, l’analisi
47
De Lillo, A., Analisi multivariata per la ricerca sociale, Pearson Editore, 2007.
72
multidimensionale offre una riduzione della dimensionalità attraverso l’individuazione dell’autovalore, a cui è associato un singolo fattore, che espliciti quanta più informazione possibile dell’inerzia totale (dicasi anche variabilità). La selezione avviene tramite l’osservazione degli autovalori con frequenza cumulata più alta. Maggiore è la frequenza, più alta sarà la capacità di quell’autovalore di risultare rappresentativo. Solitamente si attesta al 75% la soglia utile di inerzia riprodotta. Tuttavia vi sono situazioni, come quella che andiamo descrivendo, in cui l’adempimento di tale soglia richiede l’osservazione di molti fattori, il che è controproducente, dato che l’Analisi Multidimensionale risulta efficace proprio per le sue caratteristiche di sintesi. Per ottemperare a questa inerzia insoddisfacente dei fattori, si è applicato un criterio scree test con cui abbiamo considerato i primi 4 fattori, ossia quelli che precedono l’appiattimento del grafico.
Da non sottovalutare inoltre, come si vedrà in seguito, la probabile emersione di caratteristiche interessanti da analizzare anche su fattori superiori a quelli selezionati. La tabella che raccoglie coordinate, contributi assoluti e relativi delle variabili attive è la seguente:
73
L’interpretazione delle tabelle parte sempre dalle coordinate, che in ACM aiutano a definire eventuali opposizioni tra le unità osservate. Osservando il confronto tra primo e secondo fattore, notiamo immediatamente che economia e latticini hanno coordinate del tutto opposte dal primo al secondo, seguite dal binomio inchiesta e altro alimento citato. A queste vanno associati i contributi assoluti sul primo fattore, che vedono una predominanza netta di latticini con valore massimo, economia e salute alla pari, agroalimentare e descrittivo a seguire. E’ chiaro che su questo fattore peserà molto l’attenzione verso due sfere contigue tra loro. La prima è la sfera economica, della filiera produttiva e la salvaguardia dei prodotti campani, in particolare i latticini. La seconda spazia in un ambito salutistico, della cura personale, della preoccupazione diffusa che i prodotti possano rivelarsi dannosi per l’organismo. Il tutto accompagnato da uno stile descrittivo, che tende ad esibire la volontà di descrivere, appunto, una realtà a tutto tondo, che non badi soltanto a promuovere determinate caratteristiche del fenomeno. Sul secondo fattore troviamo valutativo, altro alimento citato e critica con contributi molto alti, seguiti da iniziativa, ortofrutta e altro tipo di articolo. E’ sicuramente più ostico, in questo caso, ricercare un’interpretazione dalla sola lettura delle variabili. Sicuramente è riscontrabile un cambio di stile, più vicino a quelle che sono le considerazioni personali del giornalista, che si allacciano facilmente anche ad un tipo di articolo critico, che opti per una descrizione dei fatti disinibita e infervorata dalla ricerca della verità. Si nota anche il voler esibire l’esigenza a trattare il tema raccontando delle iniziative che hanno coinvolto il territorio giacché dare spazio anche ad alimenti differenti da quelli che hanno affollato le pagine e i notiziari giornalistici. Sul terzo fattore si ha la netta prevalenza di due variabili, legalità e acqua. Con ben sappiamo è stato 74
questo un tema caldo nel dibattito, che dura ormai da anni, riguardo la salubrità dell’acqua. Paura motivata, senza alcun dubbio, dall’importante quantità di sequestri che nel tempo si sono succeduti e hanno trovato visibilità. Sul quarto, invece, pesano molto le modalità carne/pesce, altro tipo di alimento e reportage. Grazie a SPAD_T, come anticipato, siamo in grado di ottenere un grafico fattoriale che è possibile cucire sulle proprie necessità. Una volta effettuate le procedure di setting, affinché a video appaiano soltanto le variabili attive e illustrative, il grafico elaborato è il seguente:
Partendo dalla considerazione di quelle variabili che ci guideranno maggiormente durante questa analisi, le testate giornalistiche (in fucsia), si può intravedere da subito una certa polarizzazione tra i giornali considerati locali e nazionali. Difatti, la modalità nazionale occupa il semiasse negativo e locale, in completa opposizione, gravita sul quadrante positivo. Questo primo approccio è confortante per gli analisti che hanno lavorato a questo progetto, perché dimostra una certa specificità di trattamento della notizia a seconda del pubblico al quale ci si rivolge. Date le premesse, sulla parte sinistra troviamo Avvenire, FanPage e La Stampa. Il Fatto Quotidiano si pone esattamente a metà degli assi, dimostrando di aver trattato il tema con un certo equilibrio. Una nota di merito quindi, per un giornale che nessuno degli analisti avrebbe ritenuto capace di mitigare i suoi toni notoriamente sensazionalistici. Il Mattino, naviga solitario sul primo quadrante, mentre Corriere Della Sera e La Repubblica viaggiano insieme sul secondo
75
quadrante. Una precisazione è dovuta per questi ultimi due giornali. Seppur siano considerate testate a tiratura nazionale, gran parte, se non la totalità (come nel caso del Corriere, che segna due articoli nazionali sui ventuno del Corriere del Mezzogiorno, il quale è stato accorpato per evitare proporzioni disomogenee di numerosità statistica) degli articoli in oggetto sono di natura locale (Repubblica Napoli conta venti articoli contro i sei di La Repubblica), quindi riferibili a Corriere Del Mezzogiorno e Repubblica Napoli. Questa premessa esplicita una chiave di lettura del grafico, che vuole una netta superiorità in numero della componente locale, e dunque, una leggera vicinanza agli stilemi de Il Mattino. Una seconda variabile importante è quella delle valutazioni del giornalista, che distinguiamo nelle modalità negativo, neutro e positivo. Così come sono state elencate, queste occupano il grafico, da sinistra verso destra, con la sola differenza che la modalità neutro è posizionata in alto, sul semiasse positivo. Da rilevare che Avvenire e La Stampa sono definibili come negativi; Il Fatto Quotidiano, Il Corriere Della Sera e La Repubblica come positivi, il Mattino neutrale e Fanpage fugge da queste etichette con un comportamento unico, potremmo dire tendenzialmente neutrale. Visto che nei capitoli precedenti abbiamo proposto tramite la procedura AMADO, in cui è stato fatto presente proprio questo confronto tra valutazioni, possiamo azzardare che, in alcuni casi, ci sono discrepanze tra le due osservazioni. Questo effetto è deducibile come conseguenza del fatto che AMADO dà un forte peso alla numerosità degli articoli per ogni testata, mentre i piani fattoriali alle relazioni di dipendenza tra variabili e occorrenze. Passando al periodo si noterà che Il Mattino è stato molto presente nell’annata del 2015, mentre Avvenire e La Stampa si spartiscono il 2016. Per la variabile attiva argomento prevalente, invece, salute è dominato da Avvenire, che ha rivolto molta della sua comunicazione su questi temi. La modalità economia, piuttosto, si pone esattamente all’estremo opposto, definendo una distanza netta tra i due argomenti. Legalità si dispone sul quarto quadrante, vicino ad Avvenire, ma non molto distante da Fanpage, spesso interessato a descrivere le vicende giudiziarie che interessano i territori della Terra dei Fuochi. Agroalimentare, invece, è appannaggio de Il Mattino che evidentemente ne ha curato in misura maggiore gli aspetti. L’ultima, altro tipo di articolo, è calamitata da Fanpage, il quale tende a dare spazio ad argomenti di plurima natura. La prossima variabile attiva, stile, si lega perfettamente con ciò che è stato discusso. Lo stile 76
narrazione è vicino a Corriere e Repubblica, più propensi ad immettere nella trascrizione dei fatti le voci, i valori e i sentimenti dei soggetti coinvolti. Non a caso nei pressi, troviamo la modalità comitati/associazioni come tipo di interlocutore e una presenza di immagini che ritraggono delle manifestazioni. Lo stile descrittivo è assunto da Il Mattino, a cui associa un articolo prevalentemente di cronaca, e quindi corto, veloce, atto a parlare di giorno in giorno del tema, per offrire un’informazione ampia ed esaustiva. Valutativo è lo stile del La Stampa, che associa anche una certa critica ai suoi prodotti culturali, che sono secchi, decisi, conditi con un pizzico di malizia nell’esercitare la capacità di rivolgersi alla pubblica opinione. Altro punto interessante è inchiesta, che sul grafico si pone nelle vicinanze di reportage. Chiaramente tra le due c’è una soluzione di continuità, ed ovviamente si rendono dipendenti da un articolo generalmente lungo, ricco di dettagli, impressioni, studi. Avvenire e Fanpage sono certamente legati a questo tipo di esposizione, seppur il secondo, presentandosi di fatto come testata completamente indipendente e certamente con un indirizzo e un modo di approcciare alle notizie che si distingue dagli agenti di informazione tradizionale, si fissa lontano dagli altri, proprio a voler esercitare questa autonomia. La variabile presenza immagine, in un’era dove la comunicazione digitale ruota attorno all’immediatezza del supporto visivo, si mostra essere interessante per tessere le strategie che i giornali intraprendono nell’anticipare una notizia con quelle che in psicologia sociale vengono definite euristiche. Con queste si intendono delle scorciatoie cognitive a cui il soggetto si adagia per motivi vari, e definiscono la qualità dell’informazione assunta da quest’ultimo. Un’associazione costante tra il soggetto/oggetto ritratto nell’immagine, con il contenuto stesso dell’articolo, va ad influenzare il modo in cui il lettore percepisce questa relazione. Alla modalità coltivazione, con cui si intende il soggetto dell’immagine, lo si ritrova vicino a Il Mattino. Invece, forze dell’ordine e rifiuti sono proiettati a poca distanza tra loro, nel terzo quadrante negativo, accoppiati con La Stampa. L’immagine alimento, a differenza di quelli citati dapprima, si pone a distanza sul Fattore 1 positivo, molto vicino alla modalità imprenditore, a significare che, probabilmente, negli articoli in cui compare questa figura come interlocutore o intervistato, spesso e volentieri l’immagine associata riguarda un alimento. E’ interessante, poi, notare come ad una presenza di testimonianze, vi sia anche una presenza di dati scientifici nell’articolo. Certo sono due variabili queste, modalità comprese, che
77
gravitano attorno al centro degli assi, per cui dovremmo essere dissuasi dal proporre delle associazioni tra loro, eppure la sensazione derivata dalla lettura preliminare degli articoli, è di un tentativo da parte del giornalista di confermare l’emersione di possibili valori scientifici con delle testimonianze che li confermino o smentiscano. In particolare, alcune modalità della variabile tipologia interlocutore/intervistato si dispongono in modo tale da confermare questa osservazione. Per cui religioso è vicino a clericali (modalità di menzione a figure rilevanti), politico è appannaggio de Il Mattino, scienziato/dottore è nei pressi di presenza malattia, mentre la menzione alla figura scientifica è tra Corriere e Repubblica, per giunta in un contesto di positività. Le figure menzionate forze dell’ordine ed istituzionali, inoltre, si presentano relazionate con Avvenire l’una e Fanpage l’altra. Grafico variabili attive e lemmi Nell’output che andremo a discutere a breve saranno presenti le variabili attive e i lemmi. Questa scelta è derivata dalla necessità di ottenere una pulizia maggiore, che renda possibile una lettura intuitiva e veloce. Per un’individuazione ancora più agevolata dei vari comportamenti si è lasciata visibile soltanto la variabile illustrativa testata giornalistica, oltre a quelle attive. Le disposizioni dei lemmi si dimostrano eloquenti. Volendo iniziare con il primo quadrante (in alto a destra) troviamo Il Mattino, diamo uno sguardo all’immagine:
78
Il Mattino è impegnato nell’interpretazione dei risultati dei vari studi scientifici e accertamenti, ma anche ad addestrare nel riconoscere i rifiuti pericolosi, spingere al monitoraggio degli ortaggi, analizzare i parametri che vedono metalli pesanti incidere sulle condizioni del suolo. In alto, sul secondo fattore, è agricoltore a mostrare un discreto contributo, indice che vi è stato un impegno all’ascolto degli addetti ai lavori, che meglio di altri hanno saputo raccontare il disagio di vedersi accomunati ad attività illegittime ed immorali. Luca Galletti, Ministro dell’Ambiente dal 2014, è vicino a decreto, simbolo dell’impegno politico preso per epurare la Terra dei Fuochi. È illuminante anche la presenza di un’istituzione come l’Università Federico Secondo, che si è vista protagonista di varie indagini accademico/scientifiche, così come la costante voce di Antonio Limone, presidente dell’Istituto Zooprofilattico che scorgiamo verso l’esterno del grafico. Il discorso continua con l’ARPAC e le sue preoccupazioni per un territorio presumibilmente contaminato. Oltre ad una componente sociale, che ne Il Mattino trova spesso luogo, è decisa la manovra di difesa del prodotto campano, base dell’alimentazione della popolazione, sulla quale desta l’interesse del lavoro svolto dai commissari e dell’impianto istituzionale. È altresì il prodotto a imporsi con un contributo discreto sul primo fattore, che vicino a campagna, ricercatore, ricerca, napoletano e aiutare, descrive la voglia del giornale di esibire al cospetto dell’opinione pubblica, un’interpretazione alternativa e metodica tra diventa crocevia tra la consapevolezza di un problema diffuso e barbaro e la necessità di salvaguardare l’alimento nostrano. Spostando lo sguardo a destra la componente economica, strettamente correlata con la vendita e la protezione dei prodotti si fa più serrata. Si avverte l’urgenza, da parte de Il Mattino, di rassicurare l’opinione pubblica, e in particolare il mercato, quando a girare nel web sono immagini di limoni mostruosi provenienti dalla Terra dei Fuochi. Preoccupazione che si estende anche all’export dei prodotti, sul quale grava la provenienza della merce, soprattutto nei confronti di mercati d’esportazione, dapprima stabili, come quelli della Germania. Non mancano figure politiche come Renzi e Caldoro, ma è alto anche il contributo del lemma Presidente, con la quale si identifica molto probabilmente il Presidente della Regione Campania. Si aggiunge a questo, la dichiarazione di uno stato di crisi della filiera produttiva, sulla quale arriva in aiuto una campagna volta alla promozione dei prodotti campani, specialmente dei latticini, invogliando i diffidenti all’acquisto. In particolare si vede un 79
contributo molto alto dei lemmi mozzarella, Expo e De Luca, spesso impegnato nella difesa dell’indotto agroalimentare e dell’ “oro bianco” campano, che per anni ha vissuto una leadership indiscussa. Sull’estremo del grafico, a confermare il tutto, troviamo il lemma Coldiretti, conferito di un contributo molto alto, sta a significare l’impegno alla salvaguardia attraverso l’associazionismo tra imprenditori agricoli che tutelano la bontà del loro operato.
Passando al secondo quadrante (in basso a destra), ritroviamo Corriere Della Sera e La Repubblica accerchiate da lemmi piuttosto vari. La loro lettura ci descrive una comunicazione piuttosto trasversale appunto, dove in parte si richiede chiarezza, sicurezza, l’ausilio di uno screening sanitario per mappare le zone agricole e in generale rassicurare della bontà o meno del cibo campano, con la quale si intende frutta e verdura, ad esempio, che troviamo vicino ad allarmante. Per il Corriere l’interesse è rivolto verso la realtà che interessa la regione, con le sue aziende del comparto agroalimentare (accreditato di un alto contributo), che definisce anche la sua provenienza campana. Un trattamento molto specifico quindi, dalle coordinate spaziali ben definite. Attenzione è data anche all’aspetto sentimentale, con il lemma nostro territorio, che vicino ai contributi interessanti di consumatore e produzione chiarisce che gli argomenti trattati sono relativi alla cura dei due soggetti attivi nel mercato. Per Repubblica invece, scrutiamo milione e miliardo. Il primo a valutare il costo per le bonifiche da effettuare, il secondo a quantificare la perdita che il settore agroalimentare sta subendo a causa della criminalità 80
organizzata. A contrapporsi, dunque, c’è un’esigenza ad aumentare la trasparenza dei prodotti, ma anche a tutelare e promuovere i nostri prodotti da discriminazioni e diffamazione atte a ledere l’immagine dei prodotti campani, come ad esempio, con la spiacevole campagna pubblicitaria di Pomì. La qualità dei prodotti passa anche attraverso proposte di coltivazioni alternative ecologiche e bio. La produzione delle aziende, difatti, ha subito un forte danneggiamento del marchio e si è sentita costretta a difendere le proprie eccellenze con l’ausilio di consorzi, ma anche grazie al supporto di cuochi che si sono prodigati ad incentivare e dare fiducia all’agroalimentare compano. Si evince anche un sentimento di orgoglio verso il nostro territorio, famoso per la pasta, il latte, il formaggio, l’olio e il vino, che compongono parte della ricca dieta mediterranea. Tornando al Corriere, la mozzarella ha un peso decisivo sul grafico, al quale viene associato il lemma salubre. La bufala in particolar modo si è fatta simbolo di questo diffuso abuso di porre sul medesimo piano i veleni della Terra dei Fuochi e i latticini, insigniti del marchio di tutela Dop. Si arriva infine, alle iniziative slow food che si auspicano di rimuovere il pregiudizio dai consumi alimentari. Ultimo lemma sull’estremo del grafico è Gragnano, coinvolta da una campagna che ne ha messo sotto cattiva luce la sua più grande risorsa, la pasta. L’alimento a base di farina, infatti, è stato accusato di avere alla base grano contaminato, incidendo di parecchio sull’economia dei pastifici, tema preponderante del quadrante. Leggermente diversa è la lettura del Fatto Quotidiano che richiede anch’esso trasparenza per la tutela della salute dei consumatori. In particolare si tratta spesso l’argomento dei pomodori, un problema a livello internazionale e del rischio che ci cela dietro l’acquisto di prodotti di provenienza campana, a cui è richiesta trasparenza. Dato che alcuni lemmi sono condivisi con quelli di Repubblica non staremo qui a ripeterli. Si dia per certo che vi è una vicinanza a due città, Nola e Marcianise, spesso citate dal Dottor Marfella, Medico per l’Ambiente di Napoli, che ha firmato molti degli articoli selezionati. Questa condizione, che vede l’uso di esperti sentimentalmente legati ai territori oggetto di indagine, ha permesso al giornale di presentarsi a cavallo di un paradosso. Difatti se il modo in cui vengono trattate le notizie è sufficientemente immune da misticismi, apologie e demagogie, lo stesso non si può dire dei lettori che, a più riprese, hanno commentato sotto questi articoli con toni piuttosto contrariati e diffamatori. Pur allontanandoci dalla nostra domanda di ricerca, questo particolare ci dimostra che, talvolta, si
81
può fare informazione anche contro il proprio target di riferimento. Probabilmente la forza espressa dai contenuti elargiti dal Fatto, è data dal tipo di notizie a cui si è dato maggiore spazio. A dichiarare queste intenzioni ci sono i lemmi donna, malato, madre e nostro, proprio a voler esercitare con la leva del sentimento una discussione aperta alle sensazioni e alle emozioni. A ragione di ciò, si avverte una voglia di fare chiarezza, surrogata dalla trasparenza della reale condizione delle coltivazioni e segnata dalla preoccupazione per il futuro.
Il giornale La Stampa, di contro, si definisce subito per i suoi toni marcatamente pessimistici. Scorgiamo devastazione, apocalittico, devastante, ecomafia, amianto, abusivo. L’identificazione geografica passa dalla provincia, alla provincia di Caserta, fino alla determinazione geografica individuata nella città di Caserta. Tra le parole anomale vediamo albicocca e grano, ma soprattutto occorrenze che colpiscono il lettore come veleno, velenoso, sversamento, minimizzare, tragedia, malanno assieme ad altri in cui ci si domanda della responsabilità politica, del Governo stesso, si reclama l’intervento o la colpevolezza di un ministro. Lo stesso lemma nostro cambia connotati, e passa dall’identificare un’appartenenza a determinati valori, alla preoccupazione per una contaminazione che può rivelarsi dannosa per i propri interessi. Tutto è molto legato alla parola rifiuto, che contribuisce ampiamente e attrae a sé una serie di punti. Tra di essi scorgiamo tonnellata, profondità, preoccupazione, smaltimento illegale e area agricola. Si parla anche di un registro tumori, soprattutto per le popolazioni di Acerra, 82
fortemente colpite da questa tragedia, complice di un allarmismo diffuso e giunto fino al nord. Passando ad Avvenire troviamo un nuovo stile, un’altra comunicazione, forse ripresa un po’ da quella de La Stampa, dunque molto critica, ma che riserba ancora più rancore, alle volte frustrazione. È un modo di trattare il tema molto legato alla salvaguardia della salute. A capo del movimento c’è un personaggio di indiscussa importanza, che non solo ha trovato largo consenso tra i giornalisti della testata a stampo cattolico, ma ha avuto riverbero mediatico praticamente ovunque. Parliamo di Maurizio Patriciello. I toni qui sono di assoluta originalità. Troviamo lemmi molto legati al territorio, grazie alle parole mio e nostra terra, accompagnate da lemmi che descrivono il modo di percepire e raccontare ciò che sta accadendo attraverso uno sguardo endogeno. Inquinato ha un contributo molto alto, e assieme a rogo, definiscono il tema attorno ai quali la discussione si protrae. Nelle vicinanze figurano mangiare, sostanza tossica, statistico, allarme. Tra le pagine di Avvenire, prende vita il racconto di una psicosi per il mangiare prodotti nocivi provenienti dai terreni inquinati. Nutrienti che diventano fonte di paura per la propria salute e dei cari, per cui abbiamo un contributo modesto di tumore, associato a lemmi come uccidere, nocivo, morire, vita, bambino, oncologo, ammalato, morto, figlio, dolore, dramma, speranza, malattia, patologia, cancerogeno, leucemia, cancro. Ma anche silenzio, piombo, cittadino, gente e infine acquedotto, per giunta vicino a coltivabile. Uno dei temi centrali è proprio il rischio connesso tra l’avvelenamento delle acque e il correlato inquinamento dei terreni coltivati con i quali sono irrigati. Avvenire, quindi, descrive una realtà molto cruda, densa di storie di vita che dalla vicenda hanno tratto solo il peggio. È interessante come l’approccio scientifico, eccetto rari casi come dato scientifico e scienziato, comporti la presenza di termini molto specifici come tetracloroetilene, nonché la presenza di fragola, mais, cavolfiore e una certa assunzione di colpevolezza verso le realtà industriali, con i loro scarti illegali. Si chiude questa testata con la triste storia di Liguori Michele, vigile urbano di Acerra che, come recitano i giornali stessi, è morto di dovere e isolamento per combattere la Terra dei Fuochi.
83
È il momento di osservare l’ultimo quadrante, quello in alto a sinistra, sul Fattore 2. Un quadrante pressoché dominato da Fanpage, che da subito la sensazione di aver dato molta importanza alla legalità, all’opera della Cassazione, che si pronuncia con delle sentenze a cui precedono i sequestri, un lemma molto forte. Questa caratteristica è palese anche per altri lemmi come reato, sanzione, riesame, Corpo Forestale, divieto, Ministero, illecito, sindaco, magistrato, procura, senato, giustizia. Si attivano, quindi, tutta una serie di figure istituzionali e con esse, i loro interventi per curare questo territorio dalle grinfie della malavita. Tuttavia non basta, lo stile d’inchiesta spinge i giornalisti ad abbarbicarsi tra i dettagli. Per cui arsenico, manganese, diossina, percolato e tetracloroetilene diventano le sostanze principe del biocidio in atto. Ad esse associate troviamo relazionati pozzo, falda acquifera, nonché rassegnazione e rassicurante, preoccupare e fiducia, avvelenato e paura, consapevolezza e pericolo, contaminazione e sicuro, imprenditore e sano. Tutti lemmi che gravitano attorno ai contributi di acqua e terreno. Insomma, va in opera un concerto di scale armoniche dal moto sinusoidale, dove la realtà segue il corso della giornata, ora positiva, ora negativa. Probabilmente, dall’analisi delle correlazioni, la seconda accezione, quella negativa, risalta maggiormente. Certo è che vi è una definizione di inquinamento ambientale decisamente più completa rispetto alle altre testate, così come è più completa la presenza dell’aspetto giuridico e legislativo che ha colpito il fenomeno. Meno efficace, ma pur sempre presente, è la componente scientifica con i lemmi risultato, scientifico, 84
sostanza, valore, bonifica e analizzare. Lo stesso vale per il comparto agronomo, ortofrutticolo, dei terreni adibiti alla coltivazione, che restituiscono dei prodotti agricoli. Interessante anche la strettissima vicinanza (dunque associazione) tra terreno, che ha un contributo piuttosto alto e diossina, nonché pericoloso. Denominazione degli assi fattoriali La nostra analisi presenta la forma più comune di una configurazione fattoriale, l’ellissoide. L’asse maggiore dell’ellisse esprime la maggior parte dell’informazione e quindi rappresenta il fattore più importante. Grazie a ciò si ha un’interpretazione facilitata dal fatto che i fattori sono bipolari, cioè vi sono due gruppi opposti di modalità che descrivono ogni fattore (i due estremi dal baricentro) e ne consentono la denominazione. Seppur sui grafici sia già evidente, dopo aver a lungo disquisito sugli effetti che tale analisi delle corrispondenze lessicali ha apportato alla nostra domanda di ricerca, possiamo ritenerci pronti per definire il primo fattore, identificandolo con un titolo che abbia capacità riassuntive, ma soprattutto, che si dimostri in grado di chiarire il modo in cui i fattori descrivono la disposizione, non casuale, dei punti sui piani. Per il Fattore 1 è stato deciso il titolo di salvaguardia. Questo sostantivo femminile è scelto sulla base di due chiavi di lettura che spieghino i poli di un fenomeno che ha smosso sentimenti medesimi di rivalsa. Sulla destra abbiamo la salvaguardia per i prodotti dell’eccellenza campana, ferita nell’immagine e negli introiti da una speculazione giornalistica calunniatrice. Sulla sinistra, invece, possiamo trovare la salvaguardia per la propria salute, che diventa dapprima un monito per le autorità e le istituzioni che spesso e volentieri tacciono la verità e tardano ad intervenire, fino ad arrivare ad un vero e proprio atto disperato per concentrare l’attenzione su un tema tanto sensibile. L’altro fattore, il secondo, è stato denominato consapevolezza. Sul semiasse positivo determina una cognizione verso un inquinamento ambientale di cui si paventano cause e colpevoli e su quello negativo, la coscienza collettiva si raggruma attorno a sentimenti di riscatto, di verità disapprovata, che vive in una condizione di sfiducia verso le istituzioni. Una consapevolezza che fa a pugni con le percezioni soggettive, o che addirittura viene assoggettata da questa e dalle proprie storie di vita.
85
Analisi dei fattori superiori al secondo Nell’analisi multidimensionale si palesa, talvolta, la necessità di andare oltre l’osservazione dei primi due fattori. Questi fattori, infatti, potrebbero esplicitare aspetti interessanti che potrebbero risultare celati o mal rappresentati. E’ utile osservare, ancora una volta, i contributi assoluti che la procedura mette a disposizione. Andiamo a guardarli:
I contributi assoluti sul terzo fattore risultano alti per la modalità legalità e acqua, mentre al quarto si osservano carne/pesce, altro alimento citato e reportage. Si presume, quindi, che queste modalità siano identificative dei fattori. Nonostante ciò, la proiezione dei punti sul Fattore 3 e sul Fattore 4 si presentano poveri di capacità esplicative, risultando spesso ridondanti e difficilmente situabili all’interno di un quadro di comportamento chiaro. I contributi ci direbbero che sul quarto fattore dovrebbero essere privilegiati il tipo di alimento carne/pesce e altri alimenti, tuttavia non c’è modo di evincere alcun comportamento che possa determinarsi in modo diverso dalla lettura dei primi due fattori. Per il quarto fattore, sarebbero legalità e acqua a predominare, ma per questi vale la stessa osservazione fatta per il Fattore 3; non è possibile individuare comportamenti latenti che ci offrano la capacità di avanzare delle interpretazioni. Per correttezza viene allegato il grafico corrispondente:
86
Rassicurante, se così si può dire, è il coseno al quadrato molto basso della stragrande maggioranza dei punti, compresi quelli con un contributo molto interessante. Anche il valor test non ha mostrato valori confortanti. Ad esempio il lemma Quarto, sul semiasse positivo del Fattore 3, ha un contributo di 1,419 con un coseno al quadrato di pari a 0,075.
Conversione delle variabili da attive ad illustrative e viceversa Per accertarsi che le dipendenze tra variabili e lemmi non siano casuali ma frutto di una relazione effettiva, si procede con il sostituire le variabili strutturali (illustrative) con le non strutturali (attive). Dalla prima osservazione dell’output notiamo che l’inerzia tra gli autovalori risulta molto dispersa, indice che la nube di punti soffrirà di una sfericità notevole. Quest’ultimo infatti si è dimostrato poco dissimile da quello analizzato nel paragrafo precedente. La vicinanza di La Stampa e Il Fatto Quotidiano resta, seppur risulta amplificata la declinazione negativa e nazionale con il supporto di Avvenire che sicuramente, con i suoi contenuti, contribuisce a definire questa caratteristica. La posizione de Il Mattino resta autonoma, con una specificità verso latticini e l’ambito economico. Una dimensione locale quindi che trova conferma anche in questo test, con tutta la necessità non solo di comprovare la salubrità dei prodotti agricoli, ma anche di trovare il supporto degli istituti competenti. Corriere e Repubblica continuano a condividere parte dei lemmi e delle variabili, con un trattamento positivo, dallo stile narrativo, 87
volto a dare spazio a comitati/associazioni e manifestazioni. Presenti anche dati scientifici e testimonianze. Fanpage, a sua volta, resta ancorato alla legalità, l’ordine giuridico e del diritto. La testata giornalistica si prodiga anche a raccontare le storie degli imprenditori e delle attività che svolgono nell’ambito ortofrutticolo etc. Le immagini che seguono sono del suddetto grafico (parte alta e parte bassa):
88
Cluster Analysis Gran parte di ciò che accade nelle nostre vite quotidiane riguarda processi che si strutturano in forma di raggruppamenti di persone, cose o attività. Ma cos’è un gruppo? Noi tutti utilizziamo questo termine quotidianamente, per definire un ammassamento di unità che mostrano una certa vicinanza spaziale, temporale o relazionale. Ad esempio, i commensali ad una cena possono disporsi al tavolo in funzione della loro prossimità sociale, anagrafica o relazionale. Oppure in un centro commerciale, gli oggetti non sono disposti a caso, ma adeguatamente ordinati per reparti (alimentare, elettronica, ferramenta ecc). O ancora: le notizie di un settimanale possono essere raggruppate per sezioni (cronaca, attualità, sport ecc.). Abbiamo visto come l’obiettivo dei metodi fattoriali sia la riduzione dello spazio dimensionale generato dalle variabili osservate sugli individui, mediante l’individuazione di un numero ridotto di fattori in grado di sintetizzare al meglio l’informazione contenuta nei dati originari. Mentre invece la Cluster Analysis ci permette di individuare dei possibili aggregati che presentino al loro interno delle caratteristiche di omogeneità. Cluster Analysis può essere letteralmente tradotto in italiano con il termine analisi dei gruppi. Il termine è stato introdotto da Robert Tryon nel 1939 e rappresenta un insieme di tecniche di analisi multivariata volte alla selezione e raggruppamento di elementi omogenei. Sebbene i primi approcci possano essere ricondotti agli anni 30, i metodi di classificazione si sono pienamente affermati solo dopo la diffusione dei moderni strumenti di calcolo, cui queste tecniche fanno riferimento non tanto per la complessità dei calcoli da effettuare quanto, piuttosto, per il numero di operazioni generalmente richiesto. Troviamo interessanti applicazioni della cluster analysis in sociologia, medicina, linguistica, genetica, ingegneria, antropologia e economia. In sociologia può risultare molto utile ad esempio nella ricostruzione dei valori mancanti. Sappiamo bene quanto sia difficile ottenere risposte a domande piuttosto delicate come il reddito. Ma questa informazione può comunque essere ricavata da una serie di indicatori (come il possesso dell’auto, della seconda casa, etc). Dunque le tecniche di raggruppamento si basano su misure di somiglianza tra gli elementi. Questa somiglianza è concepita in termini di vicinanza o distanza tra i punti in uno spazio multidimensionale. Gli algoritmi raggruppano gli elementi sulla base della loro distanza 89
reciproca e quindi l'appartenenza o meno ad un grappolo dipende da quanto l'elemento preso in esame è distante dal grappolo stesso. La nostra tecnica di clustering si è basata su una filosofia dal basso verso l’alto (dall’inglese bottom up), basata su elementi considerati cluster a sé, con l’algoritmo che ha provvisto all’unione dei cluster più vicini. Per usare altri termini, ogni tipo individuato costituisce una classe di equivalenza, dove gli appartenenti ai gruppi possono essere descritti uniformemente con le unità lessicali caratteristiche di quel gruppo, data la loro forte omogeneità interna. Il risultato sarà dunque frutto di una elaborazione statistica tipicamente esplorativa con una classificazione di tipo deterministico, in quanto ogni unità potrà far parte soltanto di un gruppo. Nelle procedure di clustering viene meno la distinzione tra variabili dipendenti e indipendenti, quindi tutte le variabili in gioco assumono lo status di variabili indipendenti. Inoltre, il ricercatore dovrà essere consapevole che variabili con maggior estensione di scala e maggior varianza avranno un impatto più consistente nella formazione dei cluster. I dati, chiaramente, non parlano da soli e il ricercatore riveste un ruolo chiave per almeno 4 fasi: 1) Scelta degli indicatori appropriati sulla base dei quali costruire uno spazio multidimensionale di immersione degli oggetti 2) Scelta delle regole per misurare la distanza o similarità tra oggetti 3) Definizione della procedura di raggruppamento delle unità statistiche 4) Attribuzione di senso ai gruppi ottenuti Come nei metodi fattoriali, la matrice di partenza può essere rappresentata da una tabella unità-variabili, una tabella di contingenza, o una tabella presenza-assenza. Mentre le classi vengono definite mediante algoritmi iterativi basati su una serie di operazioni elementari ripetute in maniera ricorsiva utilizzando il risultato dell’ultima operazione come punto di partenza per l’operazione successiva. Le tecniche di classificazione automatica, possono essere anche applicate ai risultati di un metodo fattoriale. Questo può accadere perché a volte la visualizzazione della nube dei punti-individuo sui piani fattoriali può risultare inefficace a fornire una visione dell’informazione complessiva. Ciò accade per due possibili motivi: 1) Ciascun piano rappresenta solo una parte dell’informazione complessiva; 2) Le relazioni stesse, a volte, possono risultare estremamente complesse da interpretare.
90
E quindi, risulta ben evidente una forte complementarietà tra metodi fattoriali e metodi di classificazione, finalizzata alla comprensione della struttura dei dati e ad una migliore interpretazione dei risultati. I metodi di classificazione che più frequentemente ricorrono nelle Cluster Analysis sono: ● Procedure gerarchiche, le quali possono essere a) agglomerative, che realizzano fusioni successive in gruppi degli oggetti iniziali e b) divisive, che definiscono partizioni sempre più fini dell’insieme iniziale. ● Procedure non gerarchiche (a partizione ripetuta), che procedono a riallocazioni successive delle unità tra i gruppi definiti a priori fino alla partizione giudicata ottimale sulla base di un criterio predefinito. La prima procedura descritta, riesce a rappresentare i dati attraverso un dendrogramma, o detto anche diagramma ad albero, tagliando il quale ad un certo livello è possibile ottenere i gruppi (o classi). Le procedure aggregative partono da una situazione in cui ciascuno oggetto costituisce un cluster a sé stante, e con i passi successivi si operano delle fusioni fino al raggiungimento di un unico gruppo comprensivo di tutte le unità. Al contrario, le procedure divisive (utilizzate da noi per questo lavoro), partono da un unico gruppo che contiene tutti gli oggetti e operano successive divisioni in sottogruppi di dimensioni sempre più piccole, fino a quando non verrà soddisfatta una regola di arresto prefissata oppure fino all’ottenimento di tanti gruppi quanti sono gli oggetti da classificare. Al primo passo della procedura, l’algoritmo divisivo valuta 2 (N-1) -1 possibili
scissioni degli oggetti entro i due potenziali gruppi. Di conseguenza, il numero delle comparazioni possibili aumenta in modo esponenziale al crescere degli oggetti (N). Le procedure non gerarchiche, invece, consentono di cercare direttamente una partizione dell’insieme iniziale che abbia proprietà che si approssimano a quelle desiderate. Uno dei problemi principali nelle procedure di classificazione automatica consiste nel definire il criterio di raggruppamento di due gruppi, che a sua volta comporta la definizione del concetto di distanza. Quest’ultimo elemento può essere calcolato utilizzando uno dei seguenti metodi: ● Metodo del legame semplice: definito da Benzécri “criterio del salto minimo”. Si tratta di quello più diffuso e richiede la conoscenza della sola matrice di dissimilarità.
91
● Metodo del legame completo: parte invece da considerazioni opposte a quelle del metodo precedente. Anziché unire un oggetto al gruppo per il quale risulta minima la distanza dall’elemento più vicino, il metodo del legame completo richiede che un oggetto sia entro un certo livello di prossimità “t” con l’elemento più distante, e quindi con tutti i membri di quel gruppo. ● Metodo del legame medio: introdotto nel 1958 come metodo intermedio tra il legame semplice e completo. ● Metodo del centroide: quest’ultimo parte dalla considerazione che ogni oggetto può essere visto come un punto in uno spazio euclideo.
Mentre invece, per quanto riguarda i criteri basati sull’inerzia dei gruppi, troviamo il metodo di Ward (la procedura RECIP segue proprio questo criterio). Tale metodo è volto alla minimizzazione della varianza all’interno dei gruppi (pertanto può essere utilizzato solo per variabili quantitative). Ad ogni passo questo algoritmo tende ad ottimizzare la partizione ottenuta tramite l’aggregazione di due elementi. Una partizione si considera tanto migliore quanto più le classi risultano omogenee al loro interno e differenti l’una dall’altra. In altri termini, quanto più è elevata la varianza tra le classi, e bassa la varianza interna (alle classi). È noto che la varianza totale di un insieme di unità, si può scomporre nella somma di due quantità: varianza interna (ai cluster) e varianza esterna (cioè tra i cluster). In maniera analoga si scompone la matrice di varianze e covarianze. Per il nostro lavoro, abbiamo preso in considerazione i primi 7 autovalori (che esprimono almeno il 75% dell’informazione) lasciando tutti gli altri parametri di Spad di default.
92
Attraverso i passi precedenti abbiamo ridotto il complesso spazio delle variabili a pochi fattori principali che sono in grado di spiegare la maggior parte della variabilità della matrice dei dati, ora vogliamo ridurre lo spazio a pochi raggruppamenti, all’interno dei quali le strutture siano il più possibile omogenee tra di loro; naturalmente all’omogeneità interna di tali raggruppamenti deve, possibilmente, corrispondere il massimo di eterogeneità tra i raggruppamenti stessi. Poiché, come ricordiamo, affinché la Cluster Analisys operi correttamente, è necessario fornire al calcolatore una variabilità totale di almeno il 75%. Precedentemente abbiamo osservato, attraverso gli autovalori della procedura CORBIT, che sul settimo fattore ricade il 78.33% della varianza totale. Si è, dunque, effettuato la procedura di aggregazione lavorando solo su questi fattori. Il grafico restituito è chiamato dendrogramma e descrive il coefficiente di similarità che andrà in seguito a definire la cluster.
93
Il dendrogramma, in sostanza, visualizza l’intero processo di aggregazione ossia una gerarchia di partizioni. Un numero definito di partizioni si ottiene “tagliando” il dendrogramma ad un dato livello dell’indice di distanza della gerarchia. La scelta di quanti gruppi finali ottenere si traduce nel problema: a quale livello tagliare l’albero? Dato che si ha interesse ad avere il minor numero di gruppi con massima omogeneità nel gruppo, si cerca di tagliare “alle radici” dell’insieme dei rami lunghi. All’aumentare del numero di unità contenute in un cluster, aumenta la varianza interna al cluster. Infatti in un cluster di un solo elemento la varianza interna è nulla (perché l’unico elemento rappresenterà anche il baricentro del cluster). Un cluster di due elementi non coincidenti, avrà una varianza positiva e così via. Aggiungendo elementi ad un cluster, la varianza interna al cluster aumenta. Inoltre, l’algoritmo con il quale il software elabora i dati, ricerca il salto minimo di aumento della varianza interna, cioè ad ogni passo aggrega ad un cluster già individuato l’unità o il cluster che portino il minor incremento di varianza interna. Un buon esercizio per determinare quante classi considerare è fornito dal software stesso. Nel dendrogramma della procedura RECIP, alla voce Courbe des indices de niveau possiamo ottenere un output come il seguente:
94
L’analisi di quest’ultimo istogramma degli indici di livello è molto simile allo scree test utilizzato per la determinazione degli autovalori. Sull’asse verticale si trovano i nodi, sull’asse orizzontale l’indice di livello, dunque, ogni barra corrisponde ad un “taglio”. Al livello uno avremo un taglio che consideri una singola partizione, e così via. Escludendo il primo salto, che come è stato detto avrebbe varianza interna nulla, potremmo considerare il terzo o il sesto raggruppamento. Ricordiamo che ogni livello corrisponde al grado di aggregazione di ogni partizione, per una partizione con indice alto si ha un numero medesimo di aggregazioni. Sarebbe sconveniente, ad esempio, prendere in considerazione due livelli con indici molto diversi, come il sesto (indice pari a 0.01034) e il settimo (0.00698), perché la seconda, avendo un numero inferiore di aggregazioni, avrebbe anche una varianza interna trascurabile, che non si distinguerebbe con la prima. Date le considerazioni appena illustrate, l’analisi ci ha condotto a considerare tre partizioni, che verranno esaminate nella procedura PARTI-DECLA. Dalla
95
finestra di impostazioni è necessario selezionare Defineus par l’utilisateur e inserire il valore numerico delle partizioni che la procedura deve considerare. Segue immagine:
Impostate le partizioni (nel nostro caso pari a 3), bisogna osservare l’output testuale, dal quale si traggono i riferimenti teorici che, precedendo il grafico, saranno necessari per applicare un’interpretazione esaustiva. Dall’output testuale, in Partition Par coupure d’un arbre hiérarchique, possiamo osservare le tre classi e valutare i paragons, ossia i lemmi presenti in ogni classe. Dagli output tabellari notiamo una preponderanza di figure rilevanti (istituzionali) e un’attenzione verso il cittadino, che è definito come la principale vittima del tema oggetto della nostra analisi. Parte della responsabilità è imputabile agli sversamenti industriali che ha minato e contaminato la Campania Felix, generando un rischio sanitario ed epidemiologico. Tuttavia, tale condizione è soggetta alla ricerca della verità, ricercata dal parroco Patriciello per spiegare le morti premature dei bambini della Terra dei Fuochi, e allo stesso tempo all’occultamento della stessa da parte dei responsabili. Lo stile adoperato nell’articolo è quello valutativo, tendente ad una valutazione negativa, con un presenza delle endiadi salute e malattia e la predilezione per articoli di reportage e di critica medio o lunghi adottati prevalentemente da Avvenire (giornale d’ispirazione clericale) e La 96
Stampa, giornale torinese. Possiamo dunque asserire che la prima partizione riguardi l’emergenza sanitaria. La seconda partizione si sofferma sull’ambiente e la sua violazione. Partendo dai risultati emersi negli anni sugli studi effettuati nelle aree interessate, passando per le dovute bonifiche dei terreni delle zone colpite tra il napoletano e il casertano, si avverte il timore che l’inquinamento ambientale sia arrivato ad un punto di non ritorno. Questa situazione ovviamente, ha condizionato le coltivazioni e ha indotto la politica a prendere misure eccezionali di salvaguardia del territorio, compresi i tutori della legge. La classe due, quindi, è etichettabile come ambiente. La terza partizione mette in evidenza il depauperamento della filiera produttiva campana, dovuta al danno di immagine determinato dallo scandalo della Terra dei Fuochi. La salubrità dei prodotti alimentari, per giunta, è validata dalle ricerche compiute da alcuni enti ad indirizzo scientifico, come l’Istituto Zooprofilattico. La terza classe, è definibile prodotto. Il grafico clusterizzato si presenta nell’immagine che segue:
L’impatto visivo della cluster è stato migliorato evidenziando con dei colori i lemmi (non etichettati per facilitarne la lettura). Ogni partizione ha un colore proprio, per cui in verde troviamo la prima cluster, denominata salute. In rosso vi è la seconda cluster, chiamata ambiente. In giallo c’è l’ultima cluster, la terza, tradotta in prodotto. Come descritto fin’ora, la seconda 97
cluster è quella più corposa e comprende grosso modo i lemmi di Fanpage, La Stampa e Il Fatto Quotidiano. È visibile anche un numero esiguo di punti isolati che si dispongono lontani rispetto al baricentro della partizione. Questo è probabilmente dovuto a qualche anomalia, o ad un valor test poco significativo. Avvenire, in giallo, si prospetta come testata autonoma nel modo di trattare l’argomento e Corriere della Sera, assieme a La Repubblica e Il Mattino, chiariscono il loro intento a fare fronte unito contro una cattiva rappresentazione del marchio campano.
Conclusioni Gli interessanti risultati a cui ha condotto l’analisi delle corrispondenze lessicali hanno confermato in parte la domanda di ricerca posta a monte dell’indagine. Difatti, le testate giornalistiche considerate hanno certamente mostrato una caratteristica di sottofondo associabile alla propria dimensione di pubblicazione, ma in un contesto di competitività sempre più alto, in cui ad influenzare l’informazione concorre anche il singolo “navigante” del web con le proprie interazioni e la propria soggettività: perciò risulta arduo rilevare una posizione inamovibile, da parte di qualsiasi testata, nei confronti di un tema così vasto. Significativa infatti è la pratica, comune nel campo della comunicazione online, di ritagliarsi il proprio bacino d’utenza, motivo per cui, da una parte, si rilevano delle differenziazioni limpide nel modo di trattare il tema, dovute alla considerazione del proprio target di riferimento e, dall’altra, è riscontrabile comunque una certa soglia di omogeneità che vede 5 giornali su 7 gravitare poco lontani dal centro degli assi; questo a significare, appunto, la necessità di trattare il tema considerando anche le esigenze di mercato: non ci si può limitare ad un trattamento della notizia che sia eccessivamente rivolta al proprio target; le differenze sono dunque riscontrabili ma in qualche modo velate o, meglio, diluite dall’esigenza di attrarre anche altri tipi di pubblico sviluppando notizie più equilibrate rispetto ad un bacino di utenza più vasto. Molto spesso, infatti, a fare la differenza sono quegli articoli di approfondimento che problematizzano il contesto per cercare risposta ai dilemmi o trovarne degli altri sui quali avviluppare una discussione o, ancora, per creare engagement.
Ci si chiede dunque se l’ipotesi di ricerca è confermata. Nelle pagine
precedenti si è cercato di fornire i nodi interpretativi sufficienti a definire la riuscita della domanda di ricerca. Sicuramente una conferma è data dalla mole considerevole di articoli 98
selezionati per ogni testata in cui l’argomento Terra dei Fuochi è legato in qualche modo ai temi relativi al cibo. Si considerano all’incirca di 200 articoli, ridotti nella numerosità per i motivi ampiamente illustrati, che rappresentano già di per sé un indice di lettura. Tra gli articoli debitamente selezionati, l’associazione tra il contesto in cui lo scandalo ha avuto luogo e tutto ciò che in questa sede è figurato come “cibo”, ha mostrato delle differenze. Testate come Il Mattino, Il Corriere della Sera e La Repubblica, solo in casi di effettiva associazione tra le due entità hanno sentito il dovere di riportare le notizie senza eccedenze nei toni, facendo cronaca pura. Avvenire e La Stampa, invece, hanno spesso e volentieri trattato il tema calcando la mano ad esempio su come l’inquinamento potesse essere quasi automaticamente fonte di problemi sanitari. Le stesse parole utilizzate descrivono la durezza con cui la notizia viene cesellata dal giornalista. Sono rarissimi i casi di lemmi positivi, o anche solamente incoraggianti. In particolare, a destare sospetto non dev’essere la presenza di parole come fragola, albicocca, grano o pomodoro ma, piuttosto, la quasi regolarità di terreno agricolo, area agricola, coltivabile, mangiare, terreno inquinato, che gettano il discorso su una generalizzazione malsana per tutti. Come descritto nelle prime pagine, a far paura è essenzialmente ciò che non si vede, che fugge dall’irritazione dello sguardo. La proposizione pressappoco costante tra produzione agricola e sversamenti nocivi, crea una paura diffusa, quasi irrazionale, sicuramente offuscata da una mancanza di prove tangibili, basata sulla proposta di argomentazioni che attraverso il particolare vorrebbero spiegare l’intera complessità del fenomeno. Il Fatto Quotidiano, in questo, si è parzialmente dissociato. Dai suoi articoli è percepibile l’intenzione di ottenere trasparenza, non necessariamente di assurgere tutti i prodotti provenienti da quelle zone come doni mefistofelici. La sua ricerca verso la verità non è particolarmente arguta o impreziosita da un approccio rigoroso, ma neanche tendenziosa e iperbolica. FanPage, tra i giornali considerati, presenta solo la versione online. La singolarità della testata si palesa in un atteggiamento che tende a porre in primo piano gli attori istituzionali, che sembrano fare da frame ricorrente tra i colpevoli della Terra dei Fuochi. I prodotti paiono posti nel retroscena, per usare un’immagine cara a Goffman, mentre sul palcoscenico appaiono le varie figure istituzionali. Lo stile d’inchiesta adottato dalla testata è caratterizzato dall’annotazione meticolosa delle sostanze nocive, dall’utilizzo di termini ricercati e semanticamente molto forti
99
(si pensi alle parole biocidio ed epidemiologia), nonché dalla volontà di mettere in luce i torbidi network malavitosi che hanno lucrato sulla pelle degli abitanti campani. Eppure, è impossibile non notare la vicinanza di parole come acqua, falda, pozzo, terreno, prodotto agricolo, ortofrutticolo etc, vicino ad altre dall’effetto ansiogeno come diossina, percolato, arsenico, avvelenato, paura, etc. La particolarità di Fanpage, che si differenzia dalle altre testate ad indirizzo nazionale, è nella fiducia e speranza che viene rivolta verso il futuro. Il giornale online, tende sì a mostrare la faccia oscura della medaglia, ma non si tira indietro nel discorrere di analisi andate a buon fine, valori rassicuranti, terreni risultati sani, nonché a riporre fiducia verso i tutori della legge i quali, coi loro interventi, si rendono canali di trasmissione di una regione che sta reagendo. Le tre locali, Il Mattino, Il Corriere della Sera e La Repubblica, si sono mostrate molto attive nella tutela dell’identità campana che, come tradizione vuole, passa soprattutto attraverso le prelibatezze culinarie. Le rimostranze mosse verso tutti coloro che si sono prodigati a screditare l’intera filiera produttiva mostrano un orgoglio di fondo che probabilmente è relativo anche al bacino d’utenza al quale questi giornali fanno riferimento. Qui l’associazione Terra dei fuochi Cibo è frutto di una riappropriazione valoriale motivata attorno allo scongiurare dello svilupparsi di una contro-informazione che vuole fare di “tutt’erba un fascio”. L’ausilio di esperti, analisti, ricercatori, studiosi, istituti, professionisti etc, imboccano la strada della rassicurazione del consumatore sulla salubrità del prodotto, incitano ad assumere un punto di vista meticoloso nel definire cosa sia contaminato o meno. Inoltre questi sono gli unici giornali a mettere in prima battuta la crisi economica che ha accompagnato l’evolversi dello scandalo negli anni. Emergono storie di produttori e imprenditori della zona, attorno ai quali i cronisti hanno raccontato realtà diverse da quelle descritte in altri giornali, fatte di legalità, correttezza e determinazione. Si può dunque affermare che la dimensione locale o nazionale abbia influito sul trattamento del caso in oggetto? La lettura del grafico sembra confermare ciò: i giornali a predominanza locale sono raggruppati sulla destra dei piani, mentre quelli nazionali sulla sponda opposta. Anomalo è il Fatto Quotidiano che si pone sul crocevia, mentre Avvenire, La Stampa e Fanpage trattano l’associazione con durezza. Differiscono sicuramente tra loro nella preferenza degli argomenti, ma è possibile tessere un fil rouge che li distingue dai giornali locali. 100
In conclusione, quindi, possiamo affermare ciò: dall’analisi è emerso che seppur vi sia un’omogeneità soggiacente, che vede tutte le testate on-line analizzate ottemperare a quelle che sono le esigenze di copertura della notizia, definita in sociologia come notiziabilità dell’evento, ognuna d’essa ha espresso un comportamento inedito. Inoltre, è stato possibile osservare differenze tra testate on-line che curano prodotti culturali indirizzati esplicitamente alla popolazione locale, e prodotti destinati al pubblico su scala nazione.
Bibliografia Albano, Paccagnella, La ricerca sociale sulla comunicazione, Carocci, Roma, 2006 Amaturo, Punziano, Content Analysis: tra comunicazione e politica, Ledizioni, Milano, 2013 Amaturo, Metodologia della ricerca sociale, Utet Università, Torino, 2012 Bolasco, Sergio, L’analisi automatica dei testi, Carocci Editore, Roma, 2013 Borra, Di Ciaccio, Statistica e metodologie per le scienze economiche e sociali, McGraw-Hill, 2008 De Lillo, Analisi Multivariata per le Scienze Sociali, Pearson Education, 2007 Gherghi, Lauro, Appunti di Analisi dei Dati Multidimensionali, RCE Multimedia, 2010
101