Sistemi Informativi Statistici per la conoscenza della realtà socio-economica della città di Milano: il progetto AMeRIcA Mario Mezzanzanica
Biancamaria Zavanella
mario.mezzanzanica@unimib.it
biancamaria.zavanella@umimib.it
Flavio Necchi flavio.necchi@comune.milano.it
Dipartimento di scienze statistiche,
Comune di Milano
Facoltà di scienze statistiche
Settore Statistica
Università di Milano Bicocca
Servizio Statistiche Economiche
Via Bicocca degli Arcimboldi, 8
via Duccio di Boninsegna, 21
20126 Milano
20145 Milano
Abstract Nel presente lavoro viene presentato un approccio metodologico per lo sviluppo di un Sistema informativo Statistico-SIS alimentato da dati provenienti da archivi amministrativi di Pubbliche Amministrazioni. Tali archivi costituiscono una ricca sorgente di informazioni, ma per renderli utili quali dati statistici al fine di realizzare analisi di supporto decisionale devono essere “messi in qualità” e riorganizzati. Gli errori e le incompatibilità dei dati amministrativi sono abitualmente non evidenziati nell’uso amministrativo quotidiano effettuato dagli operatori dei servizi amministrativi delle Pubbliche Amministrazioni e devono essere identificati e gestiti prima di procedere ad analisi aggregate. L’approccio metodologico della proposta evidenzia gli aspetti di base per la costruzione di un SIS che utilizza come fonti sorgenti dati amministrativi: disegno di un modello integrato per la gestione di differenti e eterogenee basi di dati amministrative, implementazione di un modello per la qualità dei dati, rimozione di errori che potrebbero avere impatto negativo sulle analisi statistiche, disegno del data warehouse per le analisi statistiche, disegno del modello multidimensionale del data base da utilizzarsi per lo sviluppo di indicatori di supporto decisionale. Viene presentato uno studio di caso, il progetto AMeRIcA, dove l’approccio metodologico è applicato alle basi di dati amministrative dell’anagrafe del Comune di Milano e degli archivi fiscali della Agenzia delle Entrate del Ministero delle Finanze. Si mostra inoltre un primo approccio all’integrazione degli archivi dei Centri per l’Impiego della Provincia di Milano
Il progetto AMeRIcA1 Il progetto AMeRIcA rappresenta un esempio di Sistema informativo statistico, nel quale si sperimenta l’estensione al settore amministrativo delle tecniche di analisi dei dati a fini decisionali, con la possibilità di integrare ed analizzare diversi archivi, provenienti da database di enti amministrativi e tributari. I risultati del progetto dimostrano un elevato potenziale informativo, sia a livello descrittivo del contesto milanese sia come supporto delle politiche decisionali comunali. Il progetto AMeRIcA nasce dall’esigenza del comune di Milano di ricavare informazioni relative alle condizioni reddituali dei suoi cittadini, al fine di supportare decisioni politico-amministrative riguardanti il contesto socio-economico milanese; esperienze estere hanno dimostrato che l’utilizzo di banche dati di tipo fiscale e anagrafico, opportunamente integrate, possono consentire di ottenere informazioni molto ricche su tale argomento. Per rispondere alle richieste del Comune di Milano, il Dipartimento di Statistica dell’Università di Milano Bicocca ha gettato le basi di un datawarehouse, nel quale sono stati integrati i dati degli archivi dell’Anagrafe comunale milanese e dell’Agenzia delle Entrate relativi ai medesimi soggetti. Grazie all’integrazione di questi dati, è ora possibile, nel pieno rispetto della privacy, avere informazioni dettagliate e precise sul reddito dichiarato dai cittadini, accompagnate da informazioni sulle variabili anagrafiche che li caratterizzano. Fino ad ora, gli unici dati a disposizione in tale ambito provenivano da indagini campionarie, la cui significatività si abbassa notevolmente quando vengono indagati ambiti territoriali piccoli; pertanto questo progetto è in grado di fornire dati di interesse, sia dal punto di vista delle politiche amministrative sia da quello delle analisi statistiche rese in tal modo possibili. Anagrafe del Comune di Milano I dati anagrafici estratti dal Comune di Milano si riferiscono sia ai cittadini residenti, successivamente identificati come “attivi”, che ai cittadini iscritti alla lista AIRE2. Allo stato attuale dei lavori, il Data Warehouse contiene i dati relativi agli anni 2000, 2001, 2002 e 2003, ma si prevede un continuo aggiornamento della base di dati anche per gli anni successivi. Per ciascun anno, l’estrazione dall’Anagrafe di Milano avviene in data 31 dicembre e rappresenta una fotografia dello stock dei cittadini residenti a tale data. Operando in questo modo vengono
1
Anagrafe Milanese e Redditi Individuali con Archivio
2
L’AIRE (Anagrafe degli Italiani Residenti all’Estero) è l’anagrafe della popolazione italiana residenti all’estero
selezionati solo i cittadini presenti, tralasciando così tutti i movimenti demografici avvenuti durante il corso dell’anno. Un confronto fra le diverse fotografie fornisce comunque la possibilità di ricavare dati anche su coloro che, durante il corso dell’anno in esame, sono usciti perché emigrati o perché deceduti. Considerazione analoga può essere fatta anche per i cittadini in entrata. Agenzia delle Entrate I dati forniti dall’Agenzia delle Entrate ed estratti a partire dalla lista dei residenti nel Comune di Milano fanno riferimento solo alle persone fisiche; i modelli fiscali presenti sono quindi il Modello Unico, il Modello 730 e i quadri SA, per la maggior parte estrapolati dal Modello 770. Gli anni a disposizione sono il 2000, 2001, 2002 e 2003, caricati e puliti nel Data Warehouse AMeRIcA. Il Modello 730 Il requisito fondamentale per poter compilare il Modello 730 è quello di non possedere redditi provenienti da lavoro autonomo o redditi da imprese. Generalmente è quindi compilato da coloro che possiedono un lavoro dipendente. Il 730 è preferito per la maggiore semplicità di compilazione e per la possibilità di ricevere in tempi più brevi eventuali crediti d’imposta. Il Modello Unico Il Modello di dichiarazione UNICO viene presentato da coloro che hanno prodotto: •
redditi da lavoro autonomo perché possessori di partita IVA;
•
redditi d’impresa, anche in forma di partecipazione;
•
redditi derivanti dall’esercizio di arti e professioni abituali, anche in forma associata;
•
solo redditi patrimoniali e non percepiscono un reddito da lavoro dipendente.
Modello 770 - Quadro SA Il Quadro SA si trova all’interno del modello 770. Viene compilato dai sostituti d’imposta, ovvero da coloro che hanno corrisposto somme o valori soggetti a ritenuta alla fonte e/o contributi previdenziali e assistenziali dovuti all’INPS e/o premi assicurativi dovuti all’INAIL. Il Quadro SA viene quindi utilizzato per indicare l’elenco dei soggetti ai quali sono stati corrisposti, nell’anno di imposta considerato, redditi da lavoro dipendente e assimilati. In particolare, il sostituto d’imposta (datore di lavoro, ente pensionistico, etc.) è chi, per legge, sostituisce in tutto o in parte il
contribuente (sostituito) nei rapporti con l’Amministrazione finanziaria, trattenendo le imposte dovute dai compensi, salari, pensioni o altri redditi erogati e versandole successivamente allo Stato. Sistemi informativi statistici e uso statistico dei dati amministrativi Come si è detto, il progetto AMeRIcA è nato dall’iniziativa del Comune di Milano; infatti, la pubblica amministrazione, in un momento di profondi cambiamenti istituzionali e organizzativi, ha bisogno di un sistema informativo che permetta di prendere decisioni con rapidità, basandosi sulla conoscenza approfondita dei fenomeni di interesse. In tale contesto assume un ruolo determinante la creazione di un Sistema Informativo Statistico (SIS), orientato alla raccolta, all’archiviazione, alla trasformazione ed alla distribuzione dell’informazione statistica. Gli archivi amministrativi costituiscono lo schema di memoria dei processi attuati da sistemi gestionali amministrativi e sono caratterizzati in modo diverso in funzione del contenuto informativo gestito, a seconda del grado di strutturazione interna, delle modalità di gestione e delle motivazioni che hanno portato alla loro formazione. Il sistema informativo statistico recupera i dati in uscita da quello amministrativo-gestionale e li rielabora con finalità di tipo conoscitivo, esplorativo, di controllo e valutazione. Il sistema informativo ha quindi due finalità principali: •
supportare i processi decisionali attraverso la raccolta, l’analisi e l’elaborazione delle informazioni e la costruzione di indicatori direzionali;
•
ritornare le informazioni al sistema gestionale per consentire l’aggiornamento e l’evoluzione nel tempo.
Un sistema informativo statistico deve rispondere ad esigenze di affidabilità, imparzialità, pertinenza, tempestività, tutela delle riservatezza, trasparenza ed efficienza. Tuttavia, le finalità di un SIS possono andare anche molto al di la dei citati scopi di supporto alle politiche. Infatti, se l’integrazione viene effettuata con modalità non puramente informatiche, ma in un ottica di vera e propria formazione di dati statistici, le informazioni provenienti da un SIS possono rendere possibili analisi statistiche prima impossibili. Ad esempio, i dati contenuti in AMeRIcA sono di grande interesse per l’analisi dei redditi a livello comunale, ossia a un livello di granularità territoriale non raggiungibile utilizzando le fonti campionarie prima disponibili. Inoltre, i dati di AMeRIcA rendono possibile studiare sia i redditi individuali che quelli familiari, infatti tramite le informazioni dell’anagrafe si possono ricostruire le famiglie, delle quali si conoscono tutte le caratteristiche anagrafiche (composizione, età e genere dei
componenti, nazionalità, ecc.). Ma ciò non basta, in AMeRIcA si trovano anche informazioni sulle tipologie di reddito percepite dai cittadini (redditi da lavoro dipendente, redditi patrimoniali ecc.), accoppiate con le caratteristiche di coloro che percepiscono i diversi tipi di reddito. Si deve anche notare, che per ora si dispone già di quattro anni di dati, ma la serie storica iniziata crescerà nel tempo, rendendo possibili anche analisi di tipo dinamico. Infine, si deve sottolineare che le possibilità di analisi statistiche aumentano a dismisura se si formula l’ipotesi di integrare ulteriormente AMeRIcA con dati provenienti da altre fonti (INPS, INAIL; Centri per l’impiego, ecc.), in tal modo si disporrebbe, infatti, di un quadro economicosociale dei cittadini milanesi, che renderebbe possibili analisi prima impensabili e interventi di politica sociale estremamente mirate ed efficaci. Sistema Informativo Statistico per il supporto decisionale Come già detto, le basi dati dei sistemi di gestione di servizi amministrativi sono utilizzate come fonti sorgenti nei sistemi informativi statistici. Le informazioni in essi contenute, dopo una fase di estrazione, pulizia e controllo, vengono integrate e riorganizzate all’interno di un datawarehouse, in modo che siano effettuabili attività di analisi finalizzate in particolare a migliorare la conoscenza della realtà ed il supporto alle decisioni. Il sistema informativo così ottenuto acquisisce da un lato la funzione di sistema di “retroazione e controllo” rispetto al sistema amministrativo, cioè suggerisce delle regole di organizzazione delle informazioni e dei dati utili al miglioramento del sistema amministrativo e dall’altro diventa uno strumento di rilevanza per i decisori in quanto contiene volumi di dati con livelli di copertura molto elevata o “totale” della popolazione di riferimento. Questo fatto costituisce una risposta per i decisori (responsabili e dirigenti di istituzioni) che, in un momento di profondi cambiamenti istituzionali e organizzativi, hanno bisogno di migliorare puntualmente la conoscenza della realtà per intervenire nel prendere decisioni con rapidità in merito a politiche di sviluppo degli interventi di natura economica e sociale. In tale contesto assume un ruolo determinante la creazione di un Sistema Informativo Statistico (SIS) inteso come un sistema informativo di tipo non gestionale a supporto di decisioni, monitoraggio e controllo; è quindi un sistema informativo orientato alla raccolta, all’archiviazione, alla trasformazione ed alla distribuzione dell’informazione statistica. Un requisito essenziale del sistema informativo statistico è rappresentato dalla capacità di rispondere ad esigenze di affidabilità, imparzialità, pertinenza, tempestività, tutela della riservatezza, trasparenza ed efficienza.
Metodologia e modellazione di un SIS La metodologia di progettazione di un SIS prevede fasi distinte e indipendenti: dalla raccolta e analisi dei requisiti utente alla definizione degli indicatori statistici, passando per l’analisi delle fonti informative, la progettazione delle basi dati, il processo di trasformazione e trattamento delle informazioni, la definizione di un modello multidimensionale per l’analisi dei dati per il supporto direzionale. Un’importante caratteristica del SIS consiste nella sua capacità di evolvere dinamicamente nel tempo al momento dell’integrazione della base dati con una nuova fonte informativa, sia essa un aggiornamento di un archivio già integrato o un nuovo insieme di dati. Le informazioni che alimentano un SIS sono raccolte e acquisite tramite un tracciato record prestabilito ma del tutto destrutturato; tale fatto introduce ridondanza all’interno dei dati e implica una difficile integrazione data anche dalla diversa formattazione degli stessi dati. Si procede pertanto ad una operazione preliminare che consiste in una accurata analisi dei dati forniti finalizzata a ristrutturare e riorganizzane il modello dati. Si possono presentare due situazioni: la prima, rappresentata in figura 1 in cui si tratta di aggiornamento della base dati negli anni: è necessario progettare la riorganizzazione dei dati per renderli compatibili con il modello preesistente, passando da un formato destrutturato ad uno strutturato. Occorre, inoltre, ricondurre i dati di partenza agli standard classificatori adottati attraverso l’utilizzo di metadati, minimizzando così la perdita di informazione. Tabelle di transcodifica Tabella
Tabella
Classificazioni adottate Tabella
Tabella
Transcodifica
Metadati Mapping
Caricamento Tabella
Tabella Tabella
Modello destrutturato
Modello entità relazioni
Figura 1 - Aggiornamento della base dati
La seconda situazione ( in figura 2) è rappresentata da dati provenienti da un archivio di prima adozione; in tale caso è necessaria una fase di analisi più approfondita per la progettazione del modello dei dati, che consenta, normalizzazione delle informazioni, minimizzazione delle ridondanze, definizione delle entità coinvolte e delle relazioni che intercorrono tra esse e con le
entità già presenti nel modello di base.
Figura 2 - Integrazione di un nuovo archivio
Nel progettare il modello dati devono essere considerati due aspetti: le esigenze di integrazione, per le quali occorre prevedere i possibili punti di integrazione tra le diverse banche dati, predisponendo i dati in modo da risultare successivamente compatibili e confrontabili; le esigenze di analisi, registrando le informazioni in modo che possano essere facilmente accessibili e fruibili nel corso delle successive fasi di elaborazione. In questa fase si cercano di massimizzare le informazioni registrate e solo successivamente verranno distinte le informazioni utili fine dell’analisi e quelle accessorie, che rimangono disponibili per successive integrazioni o analisi di dettaglio. Una volta predisposto il modello dati, prima del caricamento, i dati vengono “trattati” al fine di migliorarne la qualità e l’affidabilità e per ricondurli a classificazioni standard. I processi a cui vengono sottoposti sono la pulizia semantica, riguardante la correttezza formale del dato, e la pulizia sintattica, caratteristica del dominio da cui proviene l’informazione. Qualità dei dati Come accennato in precedenza, gli archivi amministrativi generalmente non sono in uno stato qualitativo sufficiente per svolgere correttamente delle analisi, sono infatti presenti errori e inconsistenze i quali, sebbene non influiscano sull’uso “normale” degli archivi, possono condizionare pesantemente il risultato delle operazioni di analisi aggregate. Prima di procedere a qualsiasi analisi è necessario quindi verificare lo “stato qualitativo” degli archivi. Strumentale a
questa fase è l’attività di analisi della struttura e del contenuto dei database di origine. In generale la qualità dell’informazione si articola su tre aspetti principali: la qualità del modello concettuale con cui è organizzata l’informazione all’interno degli archivi, la qualità dei valori dei dati presenti negli archivi e la qualità con la quale l’informazione viene rappresentata esternamente. Le principali analisi di qualità degli archivi amministrativi riguardano i primi due aspetti. L’analisi di qualità viene svolta sia a livello di singolo archivio, sia confrontando il contenuto di diversi archivi; naturalmente il confronto di dati simili proveniente da archivi diversi permette di svolgere operazioni di valutazione altrimenti non possibili a livello di singolo archivio. Con riferimento alla qualità del modello concettuale riportiamo alcune delle dimensioni di qualità di maggior interesse per gli archivi amministrativi: •
rilevanza, ottenibilità e chiarezza della definizione del contenuto. La rilevanza indica in che misura i dati sono rilevanti per gli scopi di analisi, l’ottenibilità è una misura della facilità con cui le informazioni necessarie per l’analisi sono ottenibili dagli schemi a disposizione e la chiarezza indica se ogni termine nella definizione del modello è chiaramente definito o meno.
•
scopo, definito come il grado con cui il modello comprende i dati necessari per soddisfare le necessità di analisi.
•
granularità degli attributi e precisione dei domini rappresentati. La granularità indica il numero di possibili valori utilizzabili per rappresentare un concetto (maggiore è il numero di attributi, più finemente un concetto può essere rappresentato), la precisione dei domini rappresentati è il livello di dettaglio delle misure o dello schema di classificazione che definiscono il dominio o i domini di riferimento.
In merito alla qualità del valore dei dati, possiamo considerare le seguenti dimensioni di analisi: •
Accuratezza: è la vicinanza del valore di un dato memorizzato negli archivi al valore effettivamente descrittivo della situazione reale.
•
Currency: misura l’adeguatezza della rapidità di aggiornamento dei dati memorizzati negli archivi, nel contesto di realtà mutevoli nel tempo.
•
Completezza: indica in che misura un dato previsto a livello di schema è effettivamente presente all’interno dell’archivio; una possibile misura della completezza di un attributo può essere data dalla percentuale di valori nulli che l’attributo assume nell’archivio. In generale un attributo non dovrebbe mai assumere un valore nullo, salvo che il valore nullo non abbia un significato.
•
Consistenza. L’inconsistenza tra i valori si ha quando due attributi, tra i quali esiste una forma di dipendenza, presentano valori non compatibili.
Scopo dell’analisi di qualità degli archivi è stabilire se i dati contenuti negli archivi presentano un livello qualitativo sufficiente per lo svolgimento delle analisi preposte oppure se è necessario svolgere delle operazioni di messa in qualità al fine di raggiungere un livello qualitativo sufficiente per lo svolgimento delle analisi. La scarsa qualità degli archivi amministrativi è spesso causata da una conformazione non appropriata dei processi amministrativi che alimentano gli archivi stessi. Le attività di messa in qualità degli archivi hanno un effetto che non perdura nel tempo se non si interviene sulle cause sistemiche che causano l’introduzione di nuovi errori negli archivi. L’attività di revisione dei processi può essere efficacemente guidata dall’attività di analisi della qualità degli archivi, in quanto consente di far emergere quali sono i processi che necessitano di una revisione, senza dover procedere ad un’analisi approfondita di tutti i processi amministrativi coinvolti. In figura 3 viene rappresentato il processo complessivo di caricamento, trattamento e definizione delle strutture dati utilizzato nel progetto AMeRIcA:
Figura 3 - Il processo complessivo di estrazione, trasformazione e caricamento
Data Warehouse L’archivio prodotto come risultato delle attività di integrazione di archivi differenti e di messa in qualità dei dati costituisce il punto di partenza per le successive attività di analisi. Tuttavia, tale archivio, così come è strutturato, non permette di svolgere analisi in modo efficiente, pertanto si rende necessaria una riorganizzazione dei dati. La riorganizzazione dei dati deve facilitare per
quanto possibile l’integrazione di nuove forniture di dati, riguardanti sia archivi precedentemente integrati, sia nuovi archivi che si rendono disponibili nel tempo. Nell’ambito delle tecnologie informatiche, lo strumento tradizionalmente impiegato per questi scopi è il data warehouse. Un data warehouse è una soluzione informatica per la memorizzazione, gestione e l’analisi di grandi volumi di dati che viene impiegato con il fine di produrre informazione sintetica per il supporto alle decisioni. Il datawarehouse AMeRIcA si basa, dal punto di vista architetturale, su tre livelli. •
Il livello di archivio: ogni archivio può essere considerato separatamente dagli altri presenti all’interno del Data Warehouse e le analisi condotte su di esso non vengono influenzate dai valori caricati nei rimanenti archivi;
•
Il livello annuale: gli archivi vengono aggregati in base all’anno a cui fanno riferimento; ciascun archivio annuale prevede informazioni riguardanti l’anagrafe milanese, i dati fiscali ed eventuali altri dati derivanti da archivi correlati; al suo interno possono essere condotte analisi riguardanti le informazioni aggregate relative a ciascun anno;
•
Il livello globale: gli archivi vengono aggregati in un unico modello, che consente di analizzare l’andamento delle variabili lungo tutto il periodo preso in considerazione, tanto per i dati anagrafici quanto per quelli fiscali o combinazioni di essi, identificando entrate, uscite e variazioni nel flusso complessivo.
Figura 4 - Architettura del Data Warehouse AMeRIcA
Un datawarehouse richiede di riorganizzare il contenuto informativo secondo uno schema opportuno (schema a stella o a fiocco di neve) per poter svolgere velocemente ed efficacemente le
analisi richieste. Le informazioni risultanti al termine del processo di estrazione, trattamento e caricamento sono state riorganizzate secondo un modello multidimensionale, in modo da agevolare le successive operazioni di analisi, predisponendo una struttura che comprenda: •
Fatti: le principali entità oggetto delle analisi;
•
Misure: le variabili riferite ai fatti che determinano gli indicatori di analisi;
•
Dimensioni: le direzioni lungo cui si intende operare l’analisi, esaminandole nel dettaglio (calcolando ad esempio
un indicatore in base all’età del cittadino)
o eventualmente
aggregandole (ad esempio calcolando l’indicatore sulla base delle fasce di età) e combinandole (aggiungendo ad esempio la dimensione del genere del cittadino insieme a quella dell’età). Nella Figura 5 viene rappresentato schematicamente lo schema descrittivo degli elementi principali (fatti misure e dimensioni) su cui è progettato il data warehouse AMeRIcA.
Figura 5 - Schema descrittivo di fatti misure e dimensioni su cui è articolato DWH America
I principali fatti individuati all’interno del datawarehuose AMeRIcA riguardano individui e famiglie: nella figura di seguito riportata è illustrato lo schema del modello multidimensionale relativo al fatto Individuo.
Figura 6 - Il fatto "individuo"
Per utilizzare un data warehouse è necessario definire sin dal primo momento i fatti e le dimensioni di analisi, pertanto è necessario che sia già delineato il “fil rouge” lungo il quale dovranno essere svolte le attività di analisi. Una volta che un data warehouse sia stato costruito attorno a certi fatti e dimensioni di analisi, successive forniture di dati possono essere integrate facilmente, facilitando la continuazione dell’attività di analisi e permettendo in questo modo di monitorare nel tempo l’evoluzione dei fenomeni di interesse. La progettazione e realizzazione di un data warehouse che veda come principali fonti informative gli archivi dei sistemi di gestione amministrativa può risultare uno strumento efficace per l’analisi di fenomeni, in particolare territoriali e settoriali, per diverse considerazioni: puntualità dell’analisi, incrementalità delle basi dati nel tempo, accelerazione del “time to market decisionale”, cioè la possibilità di ridurre i tempi di analisi dei fenomeni e di mettere velocemente in circolo informazioni per i decisori. L’ipotesi esposta presuppone lo svolgimento di un lavoro e l’investimento in attività di ricerca per la messa a punto dei modelli di integrazione, messa in qualità e progettazione di un sistema informativo basato su data warehouse che integri le diverse sorgenti informative. Queste attività prevedono la partecipazione di soggetti con competenze differenti: statistica, informatica, giuridica ed economica. Inoltre risulta fondamentale la creazione di partnership fortemente motivate tra
istituzioni, in primis, e operatori privati per la messa a disposizione tempestiva delle fonti dati sorgenti. Esempi di analisi basate sul datawarehouse AMeRIcA Si riportano, in questo paragrafo, alcuni esempi delle possibili analisi basate sulle informazioni conservate nel datawarehouse AMeRIcA. In Figura 3 viene rappresentato l’andamento della popolazione milanese, soggetto principale di tutte le analisi, nel quadriennio caricato fino ad ora, stratificato per genere. Come si può notare l’andamento è sostanzialmente costante, anche se analisi più approfondite mostrano come il fenomeno sia frutto di un equilibrio dinamico tra un flusso uscente dei cittadini di nazionalità italiana, soprattutto nelle fasce più giovani, ed un flusso entrante dovuto all’immigrazione straniera. 800.000 700.000 600.000 500.000 400.000 300.000 200.000 100.000 0
2000
2001
2002
2003
Femmine
676.112
674.068
671.824
676.303
Maschi
600.708
599.028
596.198
602.879
Femmine
Maschi
Figura 3 - Popolazione milanese nel quadriennio 2000 - 2003 stratificata per genere
In Figura 4 viene invece rappresentata la distribuzione per genere e classe d’età della popolazione milanese nell’anno 2003; ad arricchire il dato numerico contribuisce l’indicazione del tasso medio di incremento annuo nel quadriennio che consente di fornire considerazioni in merito al flusso nel corso degli anni della popolazione oltre che alla situazione annuale.
4% 3% 2%
15%
1% 0%
10%
-1% -2%
5%
-3% -4%
0%
-5% 0-14
15-19 20-24 25-29 30-34 35-44 45-54 55-64 65-74
2003 Femmine
10,5%
2003 M aschi
12,6% 3,7% 4,7%
3,1% 3,9%
6,1%
8,2% 15,6% 12,4% 14,1% 13,3% 12,8%
7,2% 9,4% 17,7% 12,8% 13,3% 11,3% 7,4%
Tasso di Incremento Femmine 2,2% -1,4% -3,2% -4,5% 0,5% 2,9% -2,3% -0,7% 0,2% Tasso di Incremento M aschi
75+
Tasso di incremento medio annuo 00-03
20%
2,2% -0,9% -2,9% -4,3% -0,4% 2,8% -1,4%
-1,1%
1,3%
0,6% 2,9%
2003 Femmine
2003 Maschi
Tasso di Incremento Femmine
Tasso di Incremento Maschi
Figura 4 - Popolazione milanese nell'anno 2003 stratificata per genere e per classe d'età
La Figura 5 introduce il dato fiscale all’interno delle analisi descrivendo la composizione dei cittadini milanesi di nazionalità italiana che hanno presentato dichiarazione fiscale nel corso dell’anno 2003 e stratificandoli per genere e classe d’età. L’indicazione del tasso di incremento facilita la comprensione dell’andamento nel corso degli anni evidenziando un sostanziale calo dei dichiaranti, in particolar modo nella classi d’età inferiori, ad eccezione della classe che va dai 35 ai
80.000
4%
70.000
2%
60.000
0%
50.000
-2%
40.000 -4%
30.000
-6%
20.000
-8%
10.000 0
-10% 0-14 15-19 20-24 25-29 30-34 35-44 45-54 55-64 65-74 75 o + Femmine
Maschi
Tasso incremento femmine
Tasso incremento Maschi
Figura 5 - Dichiaranti milanesi di nazionalità italiana suddivisi per sesso e per classi d’età
Tasso di incremento medio annuo 00-03
44 anni.
In Figura 6 viene invece indicato il reddito imponibile medio dichiarato dai cittadini milanesi nel corso dell’anno 2003. Da sottolineare la profonda differenza di reddito tra i due generi a partire dai
45.000
5%
40.000
0%
35.000 30.000
-5%
25.000 20.000
-10%
15.000
-15%
10.000
-20%
5.000 0
-25% 0-14 15-19 20-24 25-29 30-34 35-44 45-54 55-64 65-74 75 o +
Femmine
2.423 3.190 7.721 12.83517.88020.81621.52516.363 12.45013.415
Maschi
2.446 3.955 8.666 15.56423.69435.62341.54640.316 32.34724.825
Tasso di incremento medio annuo 00-03
30 anni ed il differente andamento del tasso di incremento, in particolare per le classi più giovani.
Tasso incremento femmine 3,5% -19,2 -12,4 -12,9 -9,4% -1,0% 0,3% 1,9% -2,4% -0,3% Tasso incremento maschi
-0,1% -5,1% -12,4 -2,0% -2,4% -0,4% -2,4% 1,8% 2,3% 3,0% Femmine
Maschi
Tasso incremento femmine
Tasso incremento maschi
600.000 500.000 400.000 300.000 200.000
Tipologie di reddito
Solo redditi patrimoniali
Altre tipologie di reddito positivi- prevalenti
Redditi da impresa o da lavoro autonomo negativi
Redditi -positivi- da impresa
Redditi -positivi- da lavoro autonomo
Redditi solo da lavoro dipendente
Redditi da lavoro dipendente
0
Redditi nulli
100.000
30% 20% 10% 0% -10% -20% -30% -40%
Tasso di incremento medio annuo 00-03
Figura 6 - Reddito medio dei cittadini milanesi stratificato per sesso e per classi d'età
Tasso di crescita medio annuo
Figura 7 - Tipologie di reddito prevalenti
La Errore. L'origine riferimento non è stata trovata. indaga la composizione dei redditi
dichiarati dai cittadini milanesi indicando per ciascuno di essi la fonte di reddito prevalente. Da notare la prevalenza del reddito da lavoro dipendente, nella maggior parte dei casi addirittura presente come unica voce di reddito. 1400000
1276819
1273095
1279182
1268022
1200000 1000000 800000
712523
705725
663651
692247
600000 400000 200000
53674
54446
52284
60793
73825 0
0
0 2000
2001
Popolazione milanese
2002
2003
2004
Dichiaranti reddito dipendente
Individui avviati
Figura 12 - Popolazione milanese, lavoro dipendente e avviamenti al lavoro
In Figura 2 la popolazione milanese negli anni in esame viene confrontata con la porzione dichiarante reddito da lavoro dipendente e con i cittadini soggetti, estratti dalla base dati degli avviamenti dei centri per l’impiego della provincia di Milano, che hanno avuto avviamenti nel corso degli anni di riferimento. 16861,44 16342,71 12692,00
12349,00 10182,84 8735,00
9086,48
7745,00 6956,00
6183,35
6979,91
Media
Lavoro interinale
Lavoro a tempo indeterminato
Lavoro a tempo determinato
Avviamento di una giornata
Apprendistato
5151,40
Altro rapporto
18000,00 16000,00 14000,00 12000,00 10000,00 8000,00 6000,00 4000,00 2000,00 0,00
Mediana
Figura 83 - Reddito medio e mediano dei cittadini milanesi avviati stratificati per tipologia di rapporto
La Figura 83 focalizza l’attenzione sui cittadini milanesi soggetti ad avviamento che vengono stratificati sulla base della tipologia di rapporto instaurato: la differenza tra i redditi medi e mediani sottolinea l’asimmetria delle distribuzioni, particolarmente accentuata nel caso di lavoro a tempo indeterminato. 20000,00
18381,61
18000,00
15865,85
16000,00
15693,57
16355,83 13663,45
14000,00
12230,25 10989,60
12000,00
11167,00
11331,00
10586,00
8658,47
10000,00
7543,00
8000,00 6000,00 4000,00
4294,32
3008,00
2000,00 0,00 Da 16 a 19 Da 20 a 25 Da 26 a 30 Da 31 a 40 Da 41 a 50 Da 51 a 60 Da 61 a 65 Media
Mediana
Figura 9 - Reddito medio e mediano dei cittadini milanesi avviati stratificati per classi d’età
La medesima analisi, stratificata in Figura 9 per classi d’età, evidenzia da un lato l’asimmetria tra redditi medi e mediani in tutte le classi d’età, con particolare accentuazioni per le età maggiori, e le forti differenze di retribuzione tra le classi giovanili e le rimanenti.
39000 34000 29000 24000 19000 14000 9000 4000 Reddito imponibile mediano
1
2
3
4
5
6+
14,450
22,958
33,023
37,187
34,502
29,158
Numero Componenti Reddito imponibile mediano
Figura 10 - Reddito imponibile mediano delle famiglie milanesi stratificato per numero di componenti
Infine la Figura 10 introduce un’ulteriore potenzialità del DW AMeRIcA: la possibilità di aggregare i dai individuali fino a ricostruire le famiglie milanesi ed i rispettivi redditi; nel caso in esame viene
analizzato il reddito imponibile mediano stratificato per numero di componenti delle famiglie. Conclusioni In questo lavoro è stato descritta la metodologia seguita per lo sviluppo di un sistema informativo statistico alimentato da archivi amministrativi, il quale permette di fornire informazioni utili per il supporto alle attività decisionali. L’integrazione dei dati e gli aspetti connessi alla qualità degli stessi costituiscono le problematiche principali da affrontare per poter trasferire il contenuto di archivi eterogenei verso un sistema di supporto alle decisioni. Il data warehouse risultante (che costituisce il cuore del sistema per il supporto alle decisioni) permette sia di svolgere analisi dettagliate su tutta la popolazione sia di focalizzare le ricerche su specifiche classi di persone, in entrambi i casi la varietà delle fonti informative che alimentano il sistema informativo statistico permette di analizzare in modo esauriente e completo i diversi aspetti della realtà di interesse (sono stati riportati in questo articolo esempi di analisi svolte in termini sia di età, sia di distribuzione territoriale, sia di suddivisione in classi reddituali, sia in base alla tipologia di contratto lavorativo). L’enorme patrimonio informativo risultante si rivela, nello specifico caso preso in esame, una preziosa fonte di informazioni per i soggetti responsabili di promuovere politiche attive a sostegno del mercato del lavoro. Infine esiste la possibilità di instaurare una forte sinergia tra archivi amministrativi e sistemi informativi statistici per il supporto alle decisioni, tuttavia questa possibilità non è usualmente sfruttata in modo adeguato. Il rapporto di utilità tra le due entità è bidirezionale: gli archivi amministrativi forniscono dati al sistema informativo statistico, mentre quest’ultimo fornisce indicazioni su come può essere migliorata la qualità dei dati degli archivi e il modello di servizio con cui sono erogati i servizi delle pubbliche amministrazioni. Iniziare a sfruttare questo rapporto di utilità reciproca può innestare un circolo virtuoso capace di produrre notevoli benefici agli utenti finali dei due sistemi.
Bibliografia B. Zavanella “Verso Architetture Integrate di Sistemi Informativi Amministrativi: Nuove Opportunità per l’Analisi Statistica Territoriale”, Atti della XLI Riunione Scientifica della SIS, Milano, giugno 2002. AA. VV. “Qualità degli archivi amministrativi e qualità dell’informazione statistica”, Spunti tratti dalla riflessione di Marco Martini per un nuovo modello di relazione tra sistemi amministrativi e sistema statistico. A cura di P. Aimetti e B. Zavanella, Franco Angeli, Milano luglio 2004.
B. Zavanella, “Nuovi dati per l’analisi statistica territoriale: le opportunità offerte dai sistemi informativi della pubblica amministrazione”, in “Qualità degli archivi amministrativi e qualità dell’informazione statistica”, Franco Angeli, Milano luglio 2004. M. Martini, “Qualità degli archivi amministrativi: aspetti teorici e ipotesi di miglioramento degli archivi degli agenti economici in Italia”, in “Qualità degli archivi amministrativi e qualità dell’informazione statistica”, Franco Angeli, Milano luglio 2004. L. Buzzigoli, “The new role of statistics in local public administrations”, atti della conferenza “Quantitative methods in economics (multiple criteria decision making xi)”, svolta presso la Faculty of Economics and Management, Slovak Agricultural University, Nitra (SK), 2002 M. Denk, K. Froeschl, “The IDARESA data mediation architecture for statistical aggregates”, “Research in Official Statistics”, 3(1), 2000, p.7-38. M. Eppler, “Managing information quality”; Springer Verlag, 2003 E. Hoffmann, “We must use administrative data for official statistics - but how should we use them?”, “Statistical Journal of the United Nations/ECE”, 12, 1995, pp. 41-48. Information Quality I, “Principles and foundation, the MIT total data quality management program”, Ottobre-Novembre 2005, http://web.mit.edu/tdqm/www/index.shtml. H. Papageorgiou, F. Pentaris, E. Theodorou, M. Vardaki, M. Petrakos, “A statistical metadata model for simultaneous manipulation of both data and metadata”. Journal of Intelligent Information Systems, 17(2-3), pp. 169-192, 2001. Statistics Denmark, “The use of administrative sources for statistics and international comparabilità”, invited paper a”Conference of european statisticians, 48th plenary session”, Paris (FR), giugno 2000 B. Sundgren, “Making statistical data more available”, “International Statistical Review”, 64(1), pp. 23-38, 1996 I. Thomson, A. Holmy, “Combining data from surveys and administrative record systems - the norwegian experience”, “International Statistical Review”, 66(2), pp. 201-221, 1998 R. Wang, “A product perspective on total data quality management”, “Communication of the ACM”, 41(2), 1998 P. Mariani, M. Mezzanzanica, B. Zavanella, “Statistical Information Systems and Data Warehouses for Job Marketplaces”, Atti della XLIII Riunione Scientifica della SIS, Torino, luglio 2002.