Dispensa di Analisi dei dati territoriali Romana Gargano
Corso di Laurea in “Turismo Culturale e Discipline delle Arti, della Musica e dello Spettacolo�
Introduzione Spazio e tempo sono due dimensioni imprescindibili del processo cognitivo. Pertanto, possiamo non considerarle esplicitamente nell’analisi delle nostre variabili di studio, ma ciò non le priverà in ogni caso da una loro insita connotazione in termini spaziali e temporali. D’altro canto, il turismo stesso, nella sua definizione maggiormente accreditata consiste nella “[…] attività svolta dalle persone che viaggiano verso e si trovano in luoghi diversi dal proprio ambiente abituale per un periodo complessivo non superiore ad un anno […]” (WTO, 1994). Esso, infatti, nasce proprio nel momento in cui ci si sposta da una regione (cosiddetta di residenza o di origine) ad un’altra (di destinazione). D’altra parte, le caratteristiche della destinazione turistica (distanza dalla regione d’origine, caratteristiche geografiche, etc…) sono tra le variabili prese in considerazione dal turista nella scelta della vacanza, ma anche dagli operatori turistici (albergatori, agenti di viaggio, etc…) nelle loro scelte strategiche. Obiettivo della presente dispensa è quello di offrire una panoramica sulle principali metodologie per l’analisi dei dati spaziali, in funzione sia delle diverse tipologie dei dati che dei diversi obiettivi di ricerca. I Geographic Information Sytems (GIS) Un grande impulso allo sviluppo delle metodologie dell’analisi spaziale è derivato certamente dallo sviluppo dei GIS (Geographic Information Systems). Secondo la definizione di Burrough (1986) il GIS è composto da una serie di strumenti software per acquisire, memorizzare, estrarre, trasformare e visualizzare dati spaziali dal mondo reale. Si tratta di un sistema informatico in grado di produrre, gestire e analizzare dati spaziali, associando a ciascun elemento geografico una o più descrizioni alfanumeriche. I sistemi informativi geografici o GIS possono pertanto essere visti come una forma di DBMS (Database Management System, Sistema di Gestione di basi di dati), in grado di gestire dati geografici. È possibile riassumere le funzioni dei GIS in quattro grandi insiemi (Anselin, Getis, 1992): - Immissione dei dati - Memorizzazione dei dati - Analisi dei dati - Visualizzazione dei dati. I dati spaziali sono caratterizzati da alcune specificità. Anzitutto nell’ambito dei GIS, si parla di dati georeferenziati, per indicare la compresenza degli attributi relativi all’unità di analisi considerata unitamente alle informazioni relative alla sua localizzazione. La Georeferenziazione è il processo attraverso il quale un oggetto viene posizionato su una carta secondo un sistema di coordinate. Il processo di attribuzione della localizzazione ad un insieme di unità o ai relativi attributi, prende il nome di geocoding; esso può essere effettuato sulla base delle coordinate geografiche, oppure attraverso altri riferimenti spaziali (es. circoscrizione censuaria, comune, CAP). Le specificità dei dati spaziali riguardano: - la localizzazione: si pone il problema del dove; - la dipendenza spaziale: fenomeni di interazione, esternalità, contagio, ecc. - il problema della scala spaziale (riguarda gli aspetti relativi alla costruzione delle unità spaziali di analisi).
Nell’ambito delle diverse tipologie di dati GIS, possiamo distinguere tra i dati di superfici continue (raster) e i cosiddetti oggetti spaziali discreti (vettori). Con riferimento alla prima categoria, si tratta per lo più di dati di tipo geo-fisici, relativi per esempio ad informazioni di tipo ambientale, ma non mancano alcune tipologie di tali dati anche nell’ambito delle scienze sociali (es. mappe di rischio). In tal caso, per la rappresentazione, spesso si ricorre all’interpolazione di una forma funzionale alla superficie, ovvero si può ricorrere ad una discretizzazione del continuo attraverso l’utilizzo di una griglia, o di linee di contorno (es. mappe altimetriche). Con riferimento alla seconda categoria di dati, gli oggetti spaziali discreti, si suole distinguere tra punti, linee e poligoni. I primi sono identificati nello spazio attraverso una coppia di coordinate, le linee sono identificate attraverso due coppie di coordinate, mentre i poligoni (rappresentati da un insieme di linee connesse tra loro) sono identificati dalle coordinate geografiche dei vertici. Quanto al significato attributo a ciascun oggetto spaziale, i punti sono generalmente utilizzati per indicare il verificarsi di un certo evento, le linee si utilizzano in genere per la rappresentazione di strade o comunque di linee di trasmissione, mentre i poligoni in genere identificano unità amministrative. Le serie statistiche I dati, anche quelli spaziali, sono generalmente forniti in forma di serie. Non sempre l’ordine delle unità statistiche ha una qualche rilevanza. Ci sono casi invece in cui l’ordine ha una certa importanza come nel caso delle: • serie storiche: sono le più conosciute dove l’ordine utilizzato è quello temporale; • serie spaziali e territoriali: l’ordine delle unità territoriali non è univoco ma va specificato dal ricercatore. • serie spazio-temporali: spesso si incontrano serie che presentano entrambi gli ordinamenti. Con il termine di analisi dei dati spaziali si intende, in genere, lo studio statistico dei fenomeni per i quali è determinante la conoscenza della localizzazione dell’unità statistica nello spazio k-dimensionale di riferimento. L’analisi dei dati spaziali è, quindi, uno studio quantitativo e/o qualitativo dei fenomeni osservati sulla ripartizione territoriale che può essere intesa come la suddivisione del territorio in un determinato numero di zone, ad esempio regioni, province e comuni. In analogia al concetto di unità e popolazione è possibile indicare lo spazio di riferimento come l’insieme delle unità spaziali. Se il tale spazio di riferimento è bidimensionale, in modo da essere assimilato ad una superficie, si parla di analisi di dati territoriali. Ne consegue che , e il dato statistico è detto territoriale. Potendo disporre di unità territoriali, il dato spaziale sarà costituito dall’osservazione dell’intensità di un carattere quantitativo e/o qualitativo, del quale è possibile dare una rappresentazione grafica tridimensionale. In generale il supporto d’osservazione del dato statistico è definito da un iperspazio a k dimensioni, ne consegue che e il dato statistico è detto spaziale. Le varie tipologie di dato spaziale. Tre differenti tipologie di dato spaziale sono individuabili in base al tipo d’unità territoriale su cui i dati sono rilevati: ♦ Dato puntuale: si riscontra quando il dato è misurato in un punto determinato del territorio, avente un’estensione trascurabile rispetto all’estensione di quest’ultimo. Si parla di dati puntuali per quei dati riferiti ad una unità punto costituita, ad esempio, da una determinata città o area urbana in una analisi su scala regionale o nazionale.
In tal caso ogni unità punto è individuabile attraverso una coppia di coordinate ed in ognuna è possibile osservare un qualunque fenomeno quale, ad esempio, il numero di abitanti; il numero di attività produttive. ♦ Dato lineare: si ha quando i dati riguardano un sottoinsieme unidimensionale del territorio che si estende in lunghezza con larghezza trascurabile rispetto all’estensione del territorio stesso. Si parla di dato lineare per quei dati riferiti ad un’unità complessa costituita dall’unione di più unità punto. Dati di questo genere sono quelli misurati su strade, linee ferroviarie, corsi dei fiumi. In ogni unità linea è possibile osservare un determinato fenomeno quale, ad esempio, l’intensità dell’inquinamento delle acque o del traffico su una rete ♦ Dati areali: si hanno quando i dati risultano inerenti ad un partizione del territorio in un’insieme di sub-aree non sovrapposte. La partizione sarà regolare se è formata da sub-aree di uguale forma e dimensione disposte secondo un ordinamento sistematico - ad esempio in un reticolo composto di m per n celle quadrate disposte lungo m righe e n colonne –. In dette partizioni si rileva l’ammontare di un dato carattere - o la modalità se il carattere è qualitativo -. Dati di questo genere sono quelli misurati nei singoli comuni della provincia in esame, nelle singole provincie della regione considerata. In ogni unità areale è possibile osservare un determinato fenomeno quale, ad esempio, la popolazione residente, gli investimenti effettuati o la produttività del suolo di una data provincia o regione. I dati spaziali sono caratterizzati dagli effetti della dipendenza e dell’eterogeneità spaziale, che assumono una notevole importanza nell’analisi statistica, poichè la loro presenza può invalidare alcuni risultati della metodologia standard, ossia quella nella quale gli effetti prodotti dallo spazio sui dati non sono esplicitati. Risulta evidente la necessità di adattare, dove possibile, l’analisi standard, e di sviluppare un insieme specializzato di tecniche in taluni contesti. La natura spaziale/territoriale dei dati È possibile affermare che la gran parte dei dati ha sempre, all’origine, un riferimento spaziale/territoriale ossia “dove” il dato è stato misurato o rilevato. Si pensi ad una misurazione di temperatura o di una distanza fisica, alla rilevazione dell’età di una persona o del fatturato di un’impresa. Non sempre però la variabile spaziale ha interesse per l’analisi oppure, durante l’elaborazione dei microdati, la connotazione viene parzialmente o totalmente persa; se però la natura spaziale ha un interesse fondamentale si entra in un ambito specifico della statistica. Le caratteristiche dei dati spaziali/territoriali I dati spaziali/territoriali hanno delle caratteristiche ben diverse da quelli che non considerano esplicitamente tale aspetto. Queste sono riconducibili ad alcune osservazioni di massima: 1. i dati spaziali sono dipendenti tra di loro; 2. la dipendenza dei dati è multidirezionale; 3. le unità spaziali (celle) sono costruite dal ricercatore / le unità territoriali sono scelte dal ricercatore La statistica spaziale/territoriale La statistica spaziale/territoriale è vista come quell’insieme di tecniche statistiche che trattano i dati tenendo conto esplicitamente della loro natura spaziale, ossia della posizione in cui questi si sono manifestati nello spazio.
Proprio perché si tratta di un insieme di tecniche, non si tratta di consolidata ma presenta ancora anime diverse, in base alla disciplina appartenenza degli studiosi che hanno presentato tecniche ad hoc problemi. La statistica spaziale/territoriale si sviluppata grazie anche fornito da altre discipline, tra cui: • biologia (ad es. studio delle popolazioni biologiche) • economia e econometria (ad es. lavoro, marketing territoriale) • geografia (problemi legati alla cartografia e telerilevamento) • medicina (in particolare l’epidemiologia) • matematica e geometria • pianificazione territoriale (gestione del territorio) • statistica (descrittiva, inferenza, applicata)
una materia scientifica di per specifici al contributo
La differenza tra statistica spaziale e quella territoriale Generalmente i termini “spaziale” e “territoriale” sono usati nel linguaggio corrente come sinonimi, ai fini statistici Zani (1993) propone di chiamare: • analisi spaziale (in senso stretto) quelle che si “basa su griglie [costituite da celle regolari o meno, ndr] ovvero fanno riferimento alla distribuzione dei punti su una superficie”; • analisi territoriale quella relativa a dati relativi alle suddivisioni amministrative (regioni, province, ecc.) che sono generalmente precostituire da unità territoriali irregolari. Gli obiettivi della statistica spaziale In via del tutto generale, la statistica spaziale fornisce dei metodi e delle tecniche che permettono di studiare la presenza di fenomeni, di diversa natura compresi quelli socioeconomici, su un determinato spazio; ad es. le precipitazioni in un’area montana, il reddito regionale ecc. Le griglie regolari Un territorio può essere studiato utilizzando una griglia, di solito regolare ma non necessariamente. La scelta delle caratteristiche del reticolo dipende dal ricercatore, il quale deve risolvere alcuni problemi inerenti alla: • forma delle celle; • dimensione delle celle; • collocazione delle celle (es. baricentro). Le scelte delle caratteristiche della griglia influiscono direttamente sui risultati.
Le griglie irregolari Esiste anche la possibilità di utilizzare una griglia di celle irregolari. Questa soluzione si presenta quando da un insieme di punti distribuiti su territorio, si voglia costruire un reticolo che utilizzi tali punti come spigoli o baricentri. Per fare questo, esistono delle tecniche, ormai informatizzate, dette di triangolarizzazione. Le partizioni amministrative irregolari È il tipico caso che si incontra nelle analisi territoriali, generalmente partizioni amministrative del territorio. Il ricercatore può solo scegliere il livello di scala su cui studiare il fenomeno (Regione, Provincia, ecc.). In realtà una tale affermazione è sempre subordinata all’esistenza di Fonti Ufficiali che forniscano i dati al livello desiderato (questo è un problema fortemente limitante). Per quanto riguarda il problema della collocazione, viene generalmente scelto in via convenzionale il Capoluogo (di Regione, di Provincia, ecc.). Dipendenza spaziale. Le fasi dell’indagine statistica spaziale si differenziano da quelle della teoria statistica di base in quanto, nello spazio difficilmente tra le osservazioni si riscontra l’indipendenza Infatti, risulta impossibile immaginare un qualsiasi fenomeno economico o sociale di rilevanza spaziale in cui i valori osservati in una zona non influenzino almeno quelli osservati nelle confinanti. Nell’analisi spaziale è necessario individuare il tipo di legame esistente tra una zona e l’altra. La dipendenza spaziale viene considerata come l’esistenza di una relazione tra ciò che accade in una unità e ciò che accade altrove nello spazio. Secondo il geografo Tobler le unità spaziali sono correlate ma, le unità vicine risultano più correlate di quelle lontane, quindi, al crescere della distanza tra le unità statistiche la correlazione tra le intensità dei fenomeni osservati diminuisce. Ad esempio se consideriamo il fenomeno della piovosità in una specifica area, rileveremo una somiglianza maggiore tra le intensità registrate tra due comuni vicini rispetto a quelle registrate tra comuni maggiormente distanti. In base al principio di autocorrelazione tra le unità spaziali di Tobler non si può conservare, come è stato già detto, l’approccio metodologico della statistica di base in quanto quest’ultima considera le unità oggetto di studio indipendenti e identicamente distribuite.
Alla risoluzione del problema determinato dalla dipendenza delle osservazioni nei dati spaziali hanno dato un notevole contributo numerosi studiosi della scuola italiana ed in particolare della scuola romana con Baldassarri, Gallo e Weber i quali abbandonano l’ipotesi di indipendenza delle osservazioni garantita dallo schema di estrazione Bernulliano ed introducono il concetto di indipendenza intrinseca. In base a tale concetto l’utilizzo di uno schema di estrazione con ripetizione non è sufficiente a garantire l’indipendenza delle osservazioni ma delle sole estrazioni perché la dipendenza è contenuta nei dati i quali sono il risultato di un processo stocastico per ciascuna osservazione spaziale. Riprendendo l’esempio della piovosità la nuvola con la sua ampiezza distribuisce la pioggia con intensità simile su zone adiacenti e dissimile su zone distanti quindi per tale fenomeno esiste un modello che descrive tale fenomeno ed è il processo stocastico che lega le varie unità spaziali. Non si cada nell’equivoco di considerare necessariamente dipendenti le osservazioni di un carattere su delle unità spaziali. Infatti se si considera, il fenomeno della natalità, il numero dei nati vivi in un anno in un comune è necessariamente indipendente da quello osservato in un comune anche se quest’ultimo è confinante, questo perché la natalità è un fenomeno non collegabile all’unità territoriale ma, influenzabile da altri fattori esogeni quali, ad esempio, fattori culturali, economici. C. Baitely e A.C. Gattrel riportano come es. della differenza fondamentale tra l’analisi dei dati e l’analisi dei dati territoriali una ricerca svolta sul campo della biogeografia. Un gruppo di scienziati ebbe l’incarico di scoprire il legame tra il numero delle specie di piante e l’ampiezza della superficie di un gruppo di piccole isole dell’oceano, quindi ciascuna isola costituiva l’unità territoriale. Aumentando l’ampiezza dell’isola aumenta anche il numero delle specie riscontrate, ciò è spiegato dall’aumento della probabilità che un numero maggiore di specie di piante trovino il loro habitat su di essa Quanto detto porta alla conclusione che non necessariamente debba essere coinvolta un’analisi di tipo spaziale ma è sufficiente una semplice funzione che colleghi le due variabili coinvolte nella ricerca: ♦ numero di specie di piante ♦ ampiezza della superficie delle isole Quindi anche se le unità di osservazione hanno una specifica localizzazione cioè una delle variabili coinvolte è l’estensione, l’ampiezza, etc., non necessariamente ciò implica che l’analisi sui dati debba essere di tipo spaziale. Nell’ipotesi in cui sulle medesime isole si conduce un’altra analisi alla base della quale, però, si considera che l’isolamento” - in termini di distanza - sia un fattore importante si otterranno conclusioni diverse. Infatti, un’altra ricerca condotta sulla distribuzione delle specie di uccelli sulle isole del Pacifico ha mostrato che l’isolamento, in questo caso, dalla Nuova Guinea, riduce il numero della specie, tale analisi è definibile più chiaramente come spaziale dato che la localizzazione delle unità spaziali rispetto alla Nuova Guinea è stata utilizzata nell’analisi e contribuisce a spigare la variazione nell’intensità del fenomeno nello spazio. La dipendenza spaziale sembra, in prima approssimazione, simile alla dipendenza temporale. Le metodologie sviluppate nell’ambito delle serie storiche, però, non sono non sono immediatamente applicabili all’analisi della dipendenza spaziale in quanto la dipendenza spaziale è di natura multidirezionale opposta alla natura unidirezionale della dipendenza nel tempo.
L’eterogeneità spaziale Empiricamente si osserva una mancanza di uniformità delle unità osservate nello spazi.. Infatti, ad esempio, gli enti amministrativi territoriali hanno aree e forme differenti, le città hanno diversi livelli di popolazione e di reddito. Se questi aspetti della eterogeneità sono riflessi da errori di misura, dovuti a variabili omesse, errata specificazione funzionale, potrebbero dar luogo ad un situazione di eteroschedasticità. Occorre introdurre delle strategie di modellizzazione che considerino le caratteristiche di ciascuna unità spaziale. In econometria tale obiettivo viene raggiunto mediante dei metodi che prendono in considerazione la possibilità che la forma funzionale ed i parametri varino nello spazio e non rimangano omogenei all’interno dell’insieme dei dati. Il concetto di vicinato Accertata l’esistenza della dipendenza spaziale per poter costruire un indice di dipendenza spaziale occorre introdurre il concetto di vicinato, che permette di formalizzare la struttura dei legami tra le unità spaziali In prima istanza si può affermare che se due unità hanno un elemento di collegamento, il quale è scelto dal ricercatore, esse sono considerate contigue. Per meglio definire il concetto di vicinato occorre distinguere il caso in cui il supporto spaziale è continuo da quello in cui è discreto. Supporto dei dati spaziali continuo: tra le unità spaziali vicine non c’è soluzione di continuità, un esempio è dato dal territorio provinciale di una regione. In tal caso il legame di vicinato potrebbe essere rappresentato dal confine in comune tra le province, di conseguenza si dirà che due unità Si e Sj sono contigue se Si ha una parte di confine in comune con Sj.. Il concetto di contiguità basato sul confine in comune può essere esteso considerando come contigue anche unità non necessariamente confinanti ma connesse dall’esistenza di vie di comunicazioni di vario tipo fiumi, strade, ferrovie, etc. Se le unità spaziali nascono dalla sovrapposizione di una griglia su una carta del territorio la scelta è tra più alternative. Come elemento di collegamento si potrà considerare il lato in comune tra le due celle o, alternativamente, il vertice in comune o, ancora, entrambi i requisiti. Cliff e Ord hanno cercato una analogia gli scacchi designando le precedenti esplicazioni rispettivamente come i casi della torre, dell’alfiere e della regina. In particolare si parla di vicini secondo il metodo: - della torre (a): se i quadrati contigui hanno un lato in comune; - dell’alfiere (b): se i quadrati contigui hanno uno spigolo in comune; - della regina (c): se i quadrati contigui hanno un lato o uno spigolo in comune.
Supporto dei dati discreto: tra le unità vicine c’è soluzione di continuità, le unità spaziali sono distribuite nello spazio in un numero finito ed inoltre sono convenientemente, rappresentate da punti. Un esempio è dato dai centri abitati di una provincia. In tal caso il legame di vicinato può essere rappresentato dalla distanza tra i punti. Si dirà che le due unità Si e Sj sono contigue se dij≤d, dove d indica la soglia di distanza stabilita preventivamente.
Il concetto di vicinato è un concetto pluridirezionale di conseguenza risultano vicini al punto, preso in esame tutti i punti che cadono all’interno della circonferenza avente centro i e raggio d, come si evidenzia nella rappresentazione grafica.
Da quanto detto si evince che il concetto di vicinato è determinato da una precisa ipotesi di lavoro scelta dal ricercatore è, dunque, un concetto soggettivo.
Matrice di contiguità. In generale il concetto di vicinato è esprimibile mediante una matrice di contiguità avente dimensione n x n così configurata:
Si definisce matrice di contiguità spaziale W la matrice binaria, quadrata e simmetrica e di ordine n Wnxn={w ij } Nel caso di contiguità di tipo binario gli elementi wij sono così definiti:
Per usare le parole di Badaloni e Vinci (1988), “nella generalità delle situazioni W non è altro che una ipotesi del ricercatore riguardante il sistema delle interdipendenze tra i luoghi di osservazione del fenomeno e il grado in cui la relazione di interdipendenza agisce sulle determinazioni del fenomeno”. Per rendere operativo questo schema è necessario scegliere l’elemento di collegamento di cui sopra si è ampiamente trattato. Nel caso in cui il supporto sia discreto gli elementi della matrice di contiguità assumono valore 1 in corrispondenza delle coppie di unità spaziali la cui distanza è inferiore a d nel caso contrario assumeranno valore pari a 0. Nel caso in cui si ha il supporto continuo e il caso torre, gli elementi della matrice assumono valore pari a 1 in corrispondenza di quelle coppie di unità che hanno un lato in comune e in caso contrario assumeranno valore pari a 0. Esempi di matrici di contiguità A) RETICOLO REGOLARE A D
B E
C F
Nel caso della torre: le celle i e j sono contigue, quindi wij=1, se e soltanto se hanno in comune un lato del loro perimetro, si otterrà la seguente matrice di contiguità:
A B C D E F
A 0 1 0 1 0 0
B 1 0 1 0 1 0
C 0 1 0 0 0 1
D 1 0 0 0 1 0
E 0 1 0 1 0 1
F 0 0 1 0 1 0
Nel caso alfiere le celle i e j sono contigue, quindi wij=1, se e soltanto se hanno in comune uno spigolo del loro perimetro, la matrice di contiguità sarà:
A B C D E F
A 0 0 0 0 1 0
B 0 0 0 1 0 1
C 0 0 0 0 1 0
D 0 1 0 0 0 0
E 1 0 1 0 0 0
F 0 1 0 0 0 0
Nel caso regina le celle i e j sono contigue, quindi wij=1, se e soltanto se hanno in comune un lato o uno spigolo del loro perimetro. La matrice di contiguità sarà:
A B C D E F
A 0 1 0 1 1 0
B 1 0 1 1 1 1
C 0 1 0 0 1 1
D 1 1 0 0 1 0
E 1 1 1 1 0 1
F 0 1 1 0 1 0
Esempio: Costruzione della matrice di contiguità di una mappa di alberghi. Si consideri la seguente localizzazione di alcuni alberghi in una data area (già suddivisa in quadrati contigui)
Si può procedere alla costruzione della mappa binaria colorando in nero (xi= 1), se il quadrato i contiene almeno un punto e in bianco; (xi=0se il quadrato i non contiene alcun punto.
Otteniamo una mappa di 12 quadrati di cui sei neri (x = 1) e sei bianchi (x = 0) . A questo punto si vuole costruire la matrice di contiguità adottando il criterio della torre. Nel nostro esempio, dunque si considereranno contigui i quadrati 1 e 2 (ma anche 2 e 1), [e quindi si avrà valore 1 in corrispondenza dell’elemento w12 = w21 ], mentre i quadrati 1 e 6 non sono considerati contigui tra loro, in quanto condividono uno spigolo e non un lato2[ e quindi w 16= w61= 0 ].
Come si può osservare la matrice è simmetrica rispetto alla diagonale (i cui valori, che indicano la contiguità di una cella con sé stessa, assumono sempre valore zero). Considerando per esempio la cella 7 si osserva che questa è contigua con le celle numero 3, 6, 8 e 11 (e quindi in corrispondenza di tali incroci, l’elemento w assume valore 1, mentre è nullo in corrispondenza degli incroci con le altre celle non contigue). RETICOLO IRREGGOLARE
In questo caso si considerano vicini se hanno un confine in comune, si otterrà la seguente matrice di contiguità.
A B C D E F
A 0 1 1 0 0 0
B 1 0 1 0 0 0
C 1 1 0 1 1 1
D 0 0 1 0 1 0
E 0 0 1 1 0 1
F 0 0 1 0 1 0
Caratteristiche della matrice di contiguità La matrice di contiguità è uno strumento molto utilizzato nell’analisi spaziale, essa: o sintetizza il concetto di “ritardo” spaziale; o è simmetrica, e pertanto non tiene conto di interazioni non reciproche; o può essere costruita per ordini superiori al primo, considerando contiguità di secondo ordine, di terzo etc…. Nel caso di contiguità di secondo ordine, per esempio, le celle 1 e 3 verrebbero considerate contigue, e così via. Si tratta di una sorta di analogia con le serie storiche, come in quel caso potevamo considerare la variabile ritardata di un periodo, di due etc. lo stesso vale nel caso del ritardo spaziale; o infine, il concetto di contiguità può essere modificato in funzione dell’oggetto di studio. In ambito turistico, per esempio, possono essere considerate contigue due località che hanno un collegamento aeroportuale diretto (es. Palermo – Roma), ma si può parlare di contiguità anche in senso culturale, etc.. La matrice di contiguità è dunque essenzialmente uno strumento che permette di considerare la variabile ritardata nello spazio. Matrice di contiguità a ritardo spaziale k. La matrice di contiguità, ottenuta in base ai criteri sopra riportati , fornisce, però, un ordinamento delle unità spaziali non completamente efficiente. Infatti, essa per ciascuna unità permette di distinguere solo tra le unità ad essa connesse le restanti. Se queste ultime le si vogliono ordinare secondo una scala gerarchica che rifletta la maggiore o minore lontananza rispetto alle unità di riferimento risulta necessario generalizzare il concetto di contiguità introducendo quello di contiguità di ritardo spaziale k. La matrice di ritardo spaziale k è data dal percorso minimo che bisogna effettuare per raggiungere j partendo da i attraversando k-1 zone del territorio in base al criterio di connessione. Di conseguenza due siti i e j saranno detti connessi a ritardo k se il cammino più breve che congiunge tali unità passa per k-1 unità intermedie. Esempi di matrici di contiguità ritardate spazialmente. Per rendere più chiaro quanto detto si possono riportare degli esempi di matrice di contiguità di pesi dicotomici, ai diversi ritardi spaziali, supponendo un supporto dei dati discreto. Esempio (Reticolo regolare) A D
B E
C F
Caso torre W(1)= A B C D E F
A 0 1 0 1 0 0
B 1 0 1 0 1 0
C 0 1 0 0 0 1
D 1 0 0 0 1 0
E 0 1 0 1 0 1
F 0 0 1 0 1 0 Tot
ni 2 3 2 2 3 2 14
W(2)= A B C D E F
A 0 0 1 0 1 0
B 0 0 0 1 0 1
C 1 0 0 0 1 0
D 0 1 0 0 0 1
E 1 0 1 0 0 0
F 0 1 0 1 0 0 Tot
ni 2 2 2 2 2 2 12
A 0 0 0 0 0 1
B 0 0 0 0 0 0
C 0 0 0 1 0 0
D 0 0 1 0 0 0
E 0 0 0 0 0 0
F 1 0 0 0 0 0 Tot
ni 1 0 1 1 0 1 4
W(3) A B C D E F
Per la i-esima unità spaziale il sottoinsieme delle unità ad essa connesse a ritardo k è indicato dagli elementi non nulli posti sulla i-esima riga della matrice di contiguità di (k)
ritardo k, W . Matrice di contiguità normalizzata Per molte finalità operative risulta conveniente normalizzare per riga la matrice di contiguità sia essa binaria o generalizzata, in modo tale che la somma per riga è pari ad 1. Per effettuare la normalizzazione si divide ciascun elemento per il totale di riga. Esempio A C
B D
caso torre W(-1) A B C D
A 0 1 1 0
B 1 0 0 1
C 1 0 0 1
Per effettuare la normalizzazione si pone: w*ij=wij/wi. La matrice di contiguità normalizzata sarà: 0 1/2 1/2 1 0 0 1 0 0 0 1 1
D 0 1 1 0
0 1 1 0
wi 2 2 2 2
Il criterio di connessione Nel concetto di vicinato, quindi non si considerano aspetti che influenzano la dipendenza dei dati, si osserva che nell’esempio del sopra riportato si sono considerate unità vicine quelle aventi in comune, a seconda dei casi, un vertice, un lato o entrambi in comune ma non si considerata la diversa estensione territoriale. Sì è visto fino ad ora il concetto di contiguità fisica, si vuole ora vedere quando due Ut sono connesse. Per decidere questo è necessario specificare un criterio di connessione. Generalmente si tratta di un criterio che un significato reale come la distanza in linea d’aria o quella stradale tra i punti di riferimento (collocazione delle celle) oppure il tempo di percorrenza medio; si possono anche formulare criteri di connessione economici. È importante notare che la matrice non è più binaria e, forse, nemmeno simmetrica Cliff e Ord hanno esteso il semplice concetto di contiguità binaria così da includere misure più generali della potenziale iterazione tra le unità spaziali. Tali autori hanno realizzato una generalizzazione delle matrici, proponendo di utilizzare, ai fini della determinazione degli elementi generici della matrice, una combinazioni di misure di distanza e di lunghezza relativa al confine in comune tra due unità spaziali, lunghezza intesa come parte della lunghezza totale condivisa con l’altra unità. Le matrici così costruite risulteranno asimmetriche tranne se le unità, a coppie, hanno confini di pari lunghezza totale. Le matrici generalizzate vengono chiamate “matrici dei pesi” , in quanto si assegna un peso alla capacità di ciascuna unità di interagire con le restanti. In altre parole si tratta di una proposta di un sistema di pesi generalizzato; ogni valore della matrice di connessione è calcolabile attraverso la seguente formula:
dove: α e β sono due parametri reali positivi, che enfatizzano gli effetti rispettivamente della distanza e la lunghezza del confine in comune. Essi costituiscono dei parametri di comodo definiti di volta in volta, il caso più semplice si ha quando α e β sono uguali e pari ad 1. dij la distanza tra le due unità spaziali; pij è la frazione di perimetro in comune ed è definita dal rapporto: =
∑ Al numeratore, di tale rapporto, è posta la lunghezza del confine in comune tra la zona i-esima e la zona j-esima e al denominatore la somma dei confini tra la i-esima zona e tutte le possibili zone vicine alla j-esima zona. Se la zona i e la zona j hanno il confine in comune, il grado di vicinanza va ad attenuarsi al ridursi della quota in confine in comune rispetto alla lunghezza totale del confine dell’area i-esima. Si constata immediatamente che secondo tale definizione non è possibile ricavare la matrice dei pesi di ritardo k non potendo definire la lunghezza. Quindi wij risulta in funzione della
distanza tra i e j e della lunghezza del confine in comune. Più precisamente l’elemento generico della matrice diminuisce al crescere della distanza tra la zona i e la zona j, e aumenta al crescere della lunghezza del confine in comune Quindi viene attribuito maggiore peso alle coppie di Ut più vicine e che hanno una maggiore quota di confine in comune. Una matrice di connessione costruita in base alla proposta di Cliff e Ord fa notare alcuni aspetti: • la matrice non è più di tipo binario; • le Ut con un solo spigolo in comune non sono connesse perché pij è nullo, quindi la proposta ricorda il caso torre; • rimane il problema della diagonale in quanto il peso sarebbe teoricamente infinito in quanto dij è nullo; • la matrice non è più simmetrica poiché pij ≠ pji ossia la frazione di perimetro comune tra le Ut (a numeratore) è diversa; • la soggettività del ricercatore nella scelta di α e β. Una volta costruito W, partendo da una determinata struttura spaziale o territoriale, è finalmente possibile introdurre delle dei modelli o delle misure che considerano esplicitamente l’esistenza di relazioni spaziale rispetto al fenomeno studiato. A tal riguardo va ancora posto l’accento sul fatto che W è un’ipotesi del ricercatore. Se non vi sono informazioni tali da costruire W in modo univoco, si possono formulare più ipotesi cercando, successivamente, una concordanza dei risultati ossia perseguendo una robustezza dei risultati. L’autocorrelazione spaziale Il notevole interesse verso lo studio dei problemi che implicano il fattore spazio, oltre al fattore tempo, comporta la formulazione di specifiche metodologie in grado di esplicitare l’apporto dell’effetto spaziale nella dinamica dei fenomeni territoriali. Quando si studia un fenomeno osservato su un insieme di unità territoriali bisogna tenere conto della distribuzione delle modalità, rilevate in ciascuna unità con riferimento alla loro disposizione. La prima domanda che ci si pone quando si studia un carattere distribuito nel territorio è se la presenza di un carattere in una zona influenzi, la presenza dello stesso, in zone contigue o più in generale connesse. Quindi, per una migliore comprensione del fenomeno e delle sue caratteristiche non si può prescindere dalla considerazione di una struttura di dipendenza reciproca tra le determinazioni del fenomeno presso le unità adiacenti. Naturalmente per poter conoscere la struttura di dipendenza occorre procedere ad una misura di quest’ultima ricorrendo ad indici di correlazione seriale, anche detti indici di autocorrelazione, derivati dal comune indice di correlazione ρ . Il concetto di autocorrelazione spaziale permette di verificare se un fenomeno presente su un territorio sia influenzato nelle sue manifestazioni dalla contiguità (o connessione) dei luoghi in cui esso viene osservato. Si parla di autocorrelazione in quanto si considerano le realizzazioni di uno stesso fenomeno ma in ambiti spaziali diversi. Così come accade per la correlazione, è possibile attribuire due significati diversi al tipo di autocorrelazione in base al segno della sua misura. Verificare se il fenomeno osservato sia o meno autocorrelato spazialmente è diverso dal verificare l’esistenza dell’autocorrelazione temporale nelle serie storiche
stazionarie, in quanto in esse l’osservazione al tempo t è influenzata solo da quelle passate, mentre nelle serie spaziali l’influenza può estendersi in tutte le direzioni. In questo contesto si svilupperanno le due maggiori statistiche utilizzate per l’autocorrelazione spaziale su un qualsiasi territorio che si assume ripartito in n celle, ossia le statistiche I e C proposte rispettivamente da Moran (1950) e dal Geary (1954) per dati quantitativi; mentre per dati qualitativi si svilupperà la statistica Join-Count proposta da Moran (1950). I suddetti indici tengono esplicitamente conto della struttura dei possibili legami - pesi – tra le unità territoriali mediante una opportuna matrice dei pesi. Ne deriva pertanto una notevole difficoltà nell’applicazione di tali indici, in quanto la scelta dei pesi è legata alle conoscente del ricercatore. Indice di autocorrelazione spaziale di Moran. L’indice di autocorrelazione spaziale di Moran deriva dal coefficiente di correlazione di Bravais-Pearson che rappresenta una misura relativa della indipendenza lineare tra due variabili statistiche x e y. Tale coefficiente, com’è noto, è dato dal rapporto tra la covarianza e il prodotto degli scarti quadratici medi delle due variabili: Analogamente, il numeratore dell’indice di autocorrelazione di Moran è ottenuto calcolando la covarianza tra le sole unità spaziali vicine, condizione espressa da wij= 1, dato che, per semplicità, si assume la matrice di contiguità dicotomica: =
1 0 ′
′
à − à −
è
è
′
′
à − à −
Limitatamente a quest’ultimo caso il numeratore dell’indice di Moran può essere scritto come: ∑ ∑ − ̅ − ̅! = ∑ ∑ Dove ΣΣ w ij rappresenta il totale dei legami esistenti tra le unità spaziali. Per ottenere il denominatore si considera il prodotto degli scarti quadratici medi di x e y, poiché nel caso specifico x = y si ottiene la varianza così espressa: # ∑ − ̅ "= L’indice di Moran avrà la seguente espressione: ∑ ∑ − ̅ − ̅! $= # ∑ ∑ ∑ − ̅ Ai fini della trattazione è utile riportare un esempio di calcolo dell’indice di Moran. Supponiamo che i dati sia disposti su un reticolo regolare di 4 celle:
Innanzi tutto bisogna definire la matrice di contiguità W di dimensione nxn. Operando con il criterio torre
Sapendo che n=4 e che la somma dei legami della matrice di contiguità ΣΣ wij=8, per poter determinare l’indice di Moran bisogna calcolare gli scarti dalla media. In particolare, poiché ∑ 1+2+1+0 = =1 ̅ = 4 è possibile costruire una tabella nella quale si riporta per ogni valore xi del fenomeno osservato il relativo scarto dalla media al quadrato:
facendo la somma di tali scarti si ottiene 2 L’ultimo elemento da calcolare ai fini della determinazione dell’indice è: ((
− ̅
− ̅!
A tal fine si costruisce una matrice ai cui margini si pongono le variabili scarto
Successivamente per i soli valori di wij = 1 si effettuano i prodotti tra i relativi scarti, sommandoli si ottiene: (0 × 1 × 1) + (0 × 0 × 1) + (1 × 0 × 1) + [1 × (− 1)× 1]+ (0 × 0 × 1) + [0 × (− 1)× 1]+ (− 1 × 1 × 1) + (− 1 × 0 × 1) = −2 Riepilogando:
=4
((
= 8
((
− ̅
− ̅!
= −2
per cui l’indice di Moran sarà: 4 2 1 $ = *− + = − 8 2 2 La statistica I è strutturalmente simile al coefficiente di correlazione e come questo varia tra -1 e +1; ne segue che alti valori di I indicano alta autocorrelazione spaziale, viceversa bassi valori di I. Differentemente dal coefficiente di correlazione, però, l’indice I non assume un valore teorico nullo in corrispondenza della condizione di indipendenza, ma un valore negativo molto prossimo a zero e pari a: 1 , $ =− −1 Valori di I maggiori della media teorica E(I) indicano autocorrelazione spaziale positiva, mentre valori di I minori della media teorica E(I) indicano un’autocorrelazione spaziale negativa. Indice di Geary. Altra misura di autocorrelazione è data dall’indice di Geary. Come l’indice di Moran quello di Geary si ricava dal coefficiente di Bravais-Pearson. In particolare, però, mentre l’indice I evidenzia maggiormente la forma di un qualsiasi coefficiente di correlazione ρ , Nell’indice di Geary l’interazione misurata non è il prodotto degli scarti dalla media (come in Moran) ma le differenze tra i valori delle x tra tutte le aree Quindi l’indice c ha la seguente forma: −1 = 2∑ ∑
∑ ∑ ∑
#
− ! − ̅ #
Tale indice ha una struttura molto simile all’indice di Moran ma a differenza dello stesso può assumere solo valori positivi poiché è dato dal rapporto tra due grandezze quadrate, non può quindi assumere valori negativi ma oscilla tra 0 e un valore massimo non definito ma intorno a 2. Ai fini dell’interpretazione dell’indice di Geary, come visto per l’indice I, occorre individuare i valori che l’indice assume quando il fenomeno presenta autocorrelazione positiva o negativa. Per quanto riguarda l’interpretazione di questo indice se: • c >1 autocorrelazione negativa unità spaziali vicine presentano modalità xi dissomiglianti; • c =1 autocorrelazione nulla; • c <1 autocorrelazione positiva.
La statistica “c” di Geary non è sostitutiva della statistica “I” di Moran, ma ne è il complemento. L’indice I è infatti un buon indicatore del grado di autocorrelazione spaziale globale o di primo ordine, mentre l’indice “c” è più sensibile ad effetti di clustering locali, di secondo ordine. L’informazione sul grado di autocorrelazione spaziale della distribuzione offerta dalle due statistiche è pertanto qualitativamente diversa. Esercizio Reticolo irregolare
Costruiamo la matrice di contiguità W
A B C D
A 0 1 1 1
B 1 0 0 1
C 1 0 0 1
D 1 1 1 0
Calcoliamo la media e la devianza xi 3 2 2 1 Tot=8
(xi-M) 3-2=1 2-2=0 0 1-2=-1
(xi-M)2 1 0 0 1 Tot=2
M=8/4=2 Calcoliamo il quadrato degli scarti dei valori delle x in tutte le aree (in questo caso le indichiamo con cij)
A B C D
A (3-3)2 (2-3)2 (2-3)2 (1-3)2
B (3-2)2 (2-2)2 (2-2)2 (1-2)2
C (3-2)2 (2-2)2 (2-2)2 (1-2)2
D (3-1)2 (2-1)2 (2-1)2 (1-1)2
Quindi si avrà
A B C D
A 0 1 1 4
B 1 0 0 1
C 1 0 0 1
D 4 1 1 0
Moltiplichiamo e sommiamo wij ×cij (0*0)+(1*1)+(1*1)+(1*4)+(1*1)+(0*0)+(0*0)+(1*1)+(1*1)+(0*0)+(0*0)+(1*1)+(1*4)+(1*1) +(1*1)+(0*0)=16 −1 = 2∑ ∑
∑ ∑ ∑
#
− ! − ̅ #
=
4 − 1 16 × = 1.2 2 ∗ 10 2
Eterogeneità spaziale e autocorrelazione spaziale L’indice di Moran e di Geary rilevano l’autocorrelazione in termini di variabilità. Entrambi questi indici si basano sulla comparazione tra due tipi di variabilità: quella della distribuzione dalle modalità xi e quella della struttura spaziale delle aree o zone nelle quali tali modalità sono osservate. Quest’ultima variabilità, misurata in termini di legami, è sintetizzata nella matrice di contiguità W. L’autocorrelazione interpretata in termini di variabilità è tanto maggiore quanto più elevata è la parte di variabilità delle aree contigue rispetto a quella totale. Nel caso di autocorrelazione positiva, coerentemente con la definizione data di questo concetto, la variabile osservata tende ad assumere le stesse modalità su partizioni spaziali contigue. Al contrario, nel caso di autocorrelazione negativa in subaree contigue il carattere statistico analizzato presenta modalità dissomiglianti mentre in zone lontane ha modalità simili. Ne consegue che nel caso di autocorrelazione nulla il fenomeno osservato si manifesta con le medesime modalità su tutte le coppie di unità spaziali indipendentemente dalla loro reciproca posizione spaziale.