14/6/2012
PROGETTO DI RICERCA
GEOCRIMEFMF
Biscardi Francesca - Marcello Miccio - Fausto Tucci 1
INTRODUZIONE L’applicazione dell’informatica, sia in campo gestionale che scientifico, ad attività specifiche, ben definite e deterministiche ha raggiunto notevoli risultati. In questi ultimi anni, però, si sta assistendo ad un utilizzo dell’informatica in attività che richiedono un intervento intelligente. In questo contesto si collocano i DSS, in quanto finalizzati alla risoluzione di problemi di livello logico più elevato di quelli trattati dai tradizionali sistemi informativi. Un Decision Support System è un sistema software che mette a disposizione dell’utente, il decisore, una serie di funzionalità di analisi dei dati e utilizzo di modelli in maniera interattiva ed estremamente semplice, allo scopo di aumentare l’efficienza e l’efficacia del processo decisionale. L'utilizzo dei DSS è diffuso in ogni ambito in cui esiste la necessità di ottenere, dall'enorme quantità di dati presenti in un database o provenienti da fonti esterne, informazioni correlazioni significative e conoscenze utili alla strategia decisionale. Uno degli ambiti più esplorati e sviluppati è quello del GeoMarketing. Il GeoMarketing è una metodologia di analisi che utilizza la capacità dei software GIS
(Geographic
Information
Systems)
di
immagazzinare,
elaborare
e
rappresentare dati ed informazioni relative al mercato, riferendole al territorio. L’utilizzo di questa metodologia fa emergere relazioni che è possibile cogliere solo se si analizzano i dati geograficamente:
due fenomeni, apparentemente non
correlati, in realtà lo sono, perché accadono nel medesimo luogo. Rappresentare e gestire geograficamente i dati
di mercato all'interno di un
sistema di
GeoMarketing, pertanto, consente di interpretarli in modo nuovo e diverso, di generare valore aggiunto grazie alla visione sistemica e di avere a disposizione uno strumento per orientare le proprie scelte. Un sistema di GeoMarketing si profila, quindi, come un Decision Support System che può assistere il management nell'identificare le relazioni significative con i propri clienti/mercati. Nonostante la crescente diffusione dell’utilizzo dei Decision Support Sistem nell’ambito del GeoMarketing, gli strumenti di cui si dispone sono ancora scarsamente utilizzati in riferimento all'attività illegale. Gli uffici statistici e le 2
forze dell'ordine producono una mole notevole di informazioni sull'impatto delle attività criminali, ma queste ultime, data la mancanza di una metrica comune, sono scarsamente utilizzabili per la stima dei costi aggregati dell'attività illegale. I motivi che spiegano questo stato di cose vanno dalla riluttanza ad accettare l'attribuzione di valori ad elementi intangibili quali dolore, sofferenza e decadimento della qualità della vita alle complicazioni teoriche e metodologiche nella definizione dei costi , senza contare la scarsa capacità tecnologica di gestire una grande mole di dati eterogenei. 1. DATI SALIENTI SUL PROGETTO 1.1 DESCRIZIONE DELL’OBIETTIVO FINALE Il progetto si propone di realizzare un DSS che sia un valido strumento di supporto decisionale nella problematica dell’ apertura di un nuovo punto vendita utilizzando come parametro di riferimento gli episodi criminali nella zona prescelta. Il sistema prende in entrata dati strutturati e non provenienti da fonti eterogenee, li inserisce all’interno di database storici suddivisi per area di interesse e previa tecniche di Data Mining pone in output un’ analisi di natura economica e sociale. A questo scopo ci si propone di studiare l’onere sociale dell’attività criminale, includendo tutta una serie di componenti non coperte dalle statistiche ufficiali, e stimare il costo della criminalità sotto l’aspetto economico. Tali valutazioni saranno la base del calcolo di indici utili per portare alla luce informazioni solitamente non prese in considerazione. Inoltre parte della ricerca sarà finalizzata a un miglioramento di natura tecnologica nel campo dei database e delle tecniche di Data Mining. 1.2 SPECIFICHE QUANTITATIVE DA CONSEGUIRE Il DSS fornirà dei dati dettagliati e precisi basati su analisi statistiche. La precisione del DSS aumenterà con l’aumentare dei dati storici introdotti, nonostante questo la base di veridicità di partenza delle analisi sarà del 89%. 3
I tempi di risposta del software saranno in media (i tempi possono variare in dipendenza dall’ hardware utilizzato):
Da 1 a 3 secondi per la creazione grafici quali istogrammi, trend e modelli di distribuzione, basati su query specifiche
Da 2 a 4 secondi per la creazione di grafici georeferenziati basati su query specifiche
dai 3 ai 7 secondi per la creazione di un grafico georeferenziato con annessi istogrammi, trend e modelli dell’ intera base di conoscenza
1.3 STATO DELL’ARTE Al giorno d’oggi risulta orami consolidato l’utilizzo di DSS destinati al geomarketing, ossia al supporto decisionale circa l’apertura di un nuovo punto vendita. Fra i parametri più utilizzati per la predizione circa l’apertura di una nuova attività commerciale ritroviamo:
valutare nuove location per l’apertura di punti vendita
valutare indici di penetrazione per area geografica
identificare carenze/sovrapposizioni nella copertura territoriale
valutare bacini geografici di mercato
profilare i propri clienti/target in base a dati demografici
valutare performance di "trade areas" per articolo/linea/categoria di prodotto/servizio
analizzare posizione e quota di mercato della concorrenza
ipotizzare scenari di copertura geografica e valutarne le performance
identificare best performers e best practises
replicare in luoghi diversi il miglior mix posizione/offerta/mercato
Tali tecniche risultano spesso molto valide ma il loro impiego è talmente consolidato da risultare in molti casi scontato. Non altrettanto si può dire per l’utilizzo di parametri riguardanti la criminalità, quali l’impatto socio-economico e la percezione di sicurezza. Questo nuovo approccio, combinato con l’utilizzo di supporti informatici all’avanguardia, potrebbe consentire il superamento di alcune carenze in ambito decisionale, fornendo un’analisi mirata.
4
Il primo passo per un’analisi di questo tipo è definire delle classi su cui osservare effetti di interesse per il progetto, si parla quindi d una clusterizzazione degli individui e delle attività criminali. In uno dei più importanti saggi della sociologia contemporanea[1] Bourdieu riconduce le differenze esistenti nella struttura sociale a tre dimensioni fondamentali che definiscono l’identità sociale dell’individuo: capitale economico, capitale culturale e capitale sociale. Scelti questi tre capitali come assi lungo i quali declinare le dinamiche della differenziazione sociale, lo spazio sociale si configura come uno spazio a tre dimensioni, all’interno del quale gli individui o le famiglie si collocano in base alla quantità dei tre capitali da essi detenuta. Eurisko propone una nuova segmentazione della popolazione in Stili di Vita. I risultati portano a una nuova Stilistica di Vita, composta da 14 gruppi, attuale e moderna. Gli stili presentati emergono come gruppi di individui aventi caratteristiche similari in riferimento a tre diversi tipi di variabili:
socio-demografiche
valori e atteggiamenti
comportamenti abituali in differenti campi dell’agire
E’ importante tenere presente che la prevalenza di variabili appartenenti ad uno o più di questi tre set è rilevante perché un individuo entri a far parte di un gruppo piuttosto che di un altro ma questo non significa che la totalità dei soggetti di un cluster debba avere identiche caratteristiche. Per studiare la ripartizione secondo il sesso di una popolazione si rapporta generalmente il numero di individui di un sesso al numero di quelli dell’altro, o all’ammontare complessivo della popolazione. Dal momento che spesso si pone a numeratore il numero di maschi, si parla frequentemente di mascolinità di una popolazione. L’espressione tasso di mascolinità designa la proporzione di sesso maschile nell’insieme della popolazione. Il rapporto di mascolinità è ottenuto dividendo gli appartenenti al sesso maschile per l’ammontare di popolazione di sesso femminile. Questo rapporto è generalmente espresso come indice, considerando come base l’ammontare di popolazione di sesso femminile. Si usa
5
anche far figurare al numeratore il sesso femminile. In tal caso si ottengono un tasso di femminilità ed un rapporto di femminilità.[2] La classificazione per età della popolazione viene fatta spesso per singoli anni di età o classi annuali di età ma anche per classi pluriennali di età, in questo
secondo
caso,
frequente è la ripartizione per classi quinquennali di età ma vengono
usate
anche
ripartizioni più grossolane, per grandi classi di età, come ad esempio,
0-19
anni,
20-59
anni, 60 anni e più. Talvolta la classificazione non è fatta per anno d’età, ma per anno di nascita. La composizione per età o struttura per età di una popolazione e la sua composizione secondo il sesso, vengono congiuntamente rappresentate in un grafico ad istogrammi, detto piramide delle età, così chiamato per sua forma all’incirca triangolare e la sua struttura ad istogrammi ruotati e sovrapposti.[3] La letteratura scientifica riguardante la percezione della sicurezza ha evidenziato come non vi sia correlazione tra dato statistico ufficiale sulla criminalità e percezione di sicurezza dei cittadini. Nella progettazione delle politiche di sicurezza appare allora importante non soltanto lo studio del quantum di pressione criminale in un determinato luogo, ma diventa almeno altrettanto importante l’analisi accurata delle “incontrollabili” logiche dei sentimenti di insicurezza.[4] La percezione del rischio coinvolge dei meccanismi di tipo psicologico: in genere la mente umana tende a valutare come più rischiose le situazioni che hanno una maggiore gravità (ovvero le situazioni che possono provocare la morte), mentre tende a valutare come meno rischiose le situazioni cui è associata una gravità
6
minore (ad esempio le situazioni che possono provocare un danno fisico non irreversibile). Un altro meccanismo psicologico che altera la percezione del rischio è quello per cui generalmente si valutano come meno rischiose le condizioni di cui si ha il controllo. La scienza della sicurezza quindi non tiene conto della percezione del rischio, bensì del rischio reale. L’ISTAT ha condotto negli anni (1997[5]; 2002[6]; 2008-2009[7]) indagini sulla sicurezza dei cittadini allo scopo di conoscere il fenomeno della criminalità attraverso il punto di vista della vittima. I dati numerici sono vasti e suddivisi per categoria di atto criminale. La paura non si distribuisce in modo uniforme tra la popolazione. La principale differenza riguarda il genere, infatti, la paura della vittimizzazione, è molto più forte tra le donne che tra gli uomini. Un’altra variabile importante è quella dell’età: tale paura, infatti, è forte tra le classi dei giovanissimi e degli anziani, mentre sono le persone di mezz’età a sentirsi più sicure. Queste differenze a seconda del sesso e dell’età in alcuni casi dipendono da effettive differenze nei rischi di subire alcuni reati. Le differenze di genere sono le più facilmente spiegabili. Le donne, infatti, temono di poter essere vittime di reati che difficilmente colpiscono gli uomini, dunque hanno da temere tutti i reati che possono colpire essi ma anche reati aggiuntivi. Per quanto riguarda l’età è evidente che la paura dipende anche dalla valutazione dei danni, dalla percezione delle conseguenze che un atto criminale può avere per chi li subisce ed è ovvio che le conseguenze di un reato siano spesso ben più gravi per un anziano che per un giovane. Un’importante metodologia di calcolo del rischio ci viene dal modello del rischio cumulativo[8], ovvero, prendendo simultaneamente in considerazione l’azione svolta da diversi fattori di rischio considerati rilevanti dalla letteratura in materia di sicurezza. E’ quindi importante avere anche una clusterizzazione delle attività criminali in modo da poter analizzare il peso diverso che ciascuna di essa ha sull’individuo, a
7
questo proposito ci viene incontro il D.Lgs 231/01 che riporta le principali categorie di reati. Il costo che un crimine può avere sull’economia e sulla comunità è stato ampiamente analizzato dalla letteratura. Paul Dolan fornisce una metodologia per stimare i costi intangibili (o il degrado della qualità della vita) provocati dai crimini violenti. Questi costi sono suddivisi in categorie a seconda se provocano o no perdite di salute. Le perdite non di salute sono associate con cambiamenti nel modo in cui la realtà è vista. Possibili metodi per misurare e valutare queste perdite non sanitarie sono discussi dallo studioso, il quale, tuttavia, si concentra sulla misurazione e la valutazione provvisoria monetaria per i danni sanitari derivanti dalla criminalità.[9] Un’altra metodologia interessante è quella adottata da Brand e Price che conduce all’identificazione delle diverse componenti guardando i costi sociali sostenuti in previsione come conseguenza e in risposta al verificarsi di un delitto o evento criminale. [10] Forse la più grande influenza è ciò che pensa la gente sulla sicurezza urbana, sulla coesione sociale o sull'efficacia delle politiche pubbliche. Molte persone esprimono le proprie paure su questioni quali la decadenza morale, il conflitto tra generazioni ed il capitale sociale. La gente può giungere a diverse conclusioni sui medesimi ambienti sociali o geografici. I criminologi suggeriscono che l'ansia sociale può mutare sensibilmente i livelli di tolleranza in un dato ambiente. Un altro aspetto che condiziona una comunità in cui vi è avvenuto un atto di natura criminale è ascoltare oltre gli eventi e avere contatto diretto con persone che sono state vittimizzate: questi sono concetti per incrementare le percezioni sulla criminofobia. Ciò è stato descritto come un “moltiplicatore del crimine” ovvero un processo che agisce nell'ambiente sociale che può amplificare l'impatto della criminalità. Il calcolo del tasso di criminalità è utile per diversi scopi, su tutti la valutazione oggettiva della criminalità. L'Onu pubblica periodicamente un rapporto sia sul tasso criminale che sulle attività di giustizia penale.[11]
8
Oltre il tasso di criminalità esiste anche l'Indice della Pace Globale (GPI) che è un tentativo di classificare le nazioni e le regioni in base a fattori che ne determinino lo stato di pacificità, o meglio l'attitudine di un determinato paese ad essere considerato pacifico. Questo indice è prodotto su base annuale ed è sviluppato in collaborazione con un’équipe internazionale di esperti di pace, da istituti e da think tank su dati forniti e rielaborati dall'Economist Intelligence Unit. Si ritiene sia il primo studio di classificazione di stati redatto secondo i relativi tassi di pacificità. Esso è calcolato su larga scala, prende infatti in considerazione 153 stati. I fattori analizzati includono fattori interni, quali i livelli di violenza e crimini nello stato, e fattori relativi alle relazioni estere, quali la spesa militare e guerre.[12] Trasformare questi dati in indici veri e propri non è facile, ma esistono dei modelli statistici capaci di analizzare simultaneamente più fenomeni, questi sono i Modelli di Regressione.
[13]
Un modello di regressione estremamente utilizzato è la regressione multipla lineare, un modello di analisi statistica in cui una variabile continua y, viene messa in relazione con un certo numero di variabili esplicative, x1, x2,…xq. Dall’analisi risulteranno altrettanti coefficienti sulla retta di regressione β, β1, β2, …βq, quante sono le variabili esplicative. Essi, stimati con il metodo dei minimi quadrati, misurano il cambiamento medio della risposta per variazione unitaria della variabile esplicativa, a condizione che le altre variabili esplicative restino costanti. Si parla di retta di regressione quando la distribuzione di punti nel piano è ben approssimata da una funzione lineare. Tale retta è la retta che meglio approssima la “nube” di dati. Questa è una tecnica di analisi multivariata, il cui principale vantaggio consiste nel poter apprezzare, simultaneamente e indipendentemente, gli effetti di ognuna delle variabili considerate, depurati delle reciproche interferenze. Inoltre è possibile valutare i diversi effetti delle variabili in grado di influenzarsi (interazione) positivamente o negativamente. Un DSS può relazionare tutti questi aspetti e ricavare da essi una visione nuova dell’ambiente preso in esame. 9
L’informazione è un bene a valore crescente, necessario per pianificare e controllare le attività di ogni organizzazione: costituisce la materia prima che è trasformata dai sistemi informativi. Spesso la disponibilità di troppi dati rende arduo, se non impossibile, estrapolare le informazioni realmente importanti. Allo stato attuale, si contano diversi metodi di misurazione, tra cui questionari porta a porta, rilevazioni provenienti dal pronto soccorso o dalle scienze attuariali, registri della polizia o altre istituzioni di difesa sociale. Queste ultime sono le più frequenti, ma molti reati non sono rilevati affatto. Alcuni dei più frequenti metodi per rilevare i reati sono le banche dati delle forze di polizia che riportano solo i reati denunciati e le vittimizzazioni rilevate, le denunce occasionali che sono più appetibili per reati meno frequenti quali gli omicidi e le rapine a mano armata. In Italia vi sono varie agenzie che offrono indici statistici, Doxa, Censis e Istat. E’ quindi necessario avere degli strumenti che ricavino conoscenza utile da fonti eterogenee. Queste tecniche informatiche sono dette di Text Mining. Il Text Mining può essere definito come Data Mining applicato a dati in forma testuale. Mentre il Data Mining è un processo di Knowledge Discovery applicabile quando i dati sono riconducibili a modalità prestabilite o a valori numerici, il Text Mining è utilizzato ogniqualvolta le informazioni sono espresse in forma non strutturata. E' evidente che il processo di Text Mining necessita di una fase di preprocessing dell'informazione più pesante e particolareggiata di quella necessaria per il Data Mining, a causa della mancanza di strutturazione dei dati su cui opera. Il Text Mining attraverso l'uso di tecniche di Natural Language Processing (NLP), di Intelligenza Artificiale e di Metodi Statistico-Probabilistici è in grado di filtrare in modo intelligente immense raccolte di documenti identificando le parole, le frasi, le relazioni e persino le emozioni presenti all'interno dei testi.[14] Vi è in primis una fase di preprocessing linguistico: utilizzando dizionari elettronici, taggers sintattici, motori di lemmatizzazione, la soluzione proposta risolve le principali ambiguità legate alla lingua, lemmatizza parole/espressioni, indicizza automaticamente i documenti, associando loro i concetti chiave ivi contenuti.
10
Segue una fase di Data Mining, dove i dati sono trattati seguendo l’approccio classico
individuando
connessioni/legami/somiglianze
tra
i
diversi
temi
individuati. Nella successiva fase di scoperta di regole possono essere evidenziati, attraverso grafici e statistiche, una serie di temi di particolare interesse ed i loro collegamenti. Il Data Mining che è stato nominato non è altro che: “The process of discovering meaningful new correlations, patterns and trends by sifting through large amounts of data stored in repositories, using pattern recognition technologies as well as statistical and mathematical techniques” (Gartner Group, 1995). In altre parole il processo di estrazione di conoscenza da banche dati di grandi dimensioni tramite l’applicazione di algoritmi che individuano le associazioni nascoste tra le informazioni e le rendono visibili e disponibili per essere utilizzate nell’ ambito del decision making. L’estrazione di conoscenza avviene tramite tecniche di Data Mining. Di seguito vengono riportati i principali approcci.
11
La classificazione è probabilmente la strategia di Data Mining più facile da capire. Tre sono le caratteristiche fondamentali:
l’apprendimento è supervisionato
la variabile dipendente è categorica
l’enfasi è posta sulla costruzione di modelli in grado di assegnare nuovi casi a una classe di un insieme di classi ben definito
Analogamente alla classificazione, lo scopo di un modello di stima è quello di determinare un valore per un attributo di output incognito. Diversamente dalla classificazione, gli attributi di output sono numerici (discreti o continui) anziché categorici. A differenza dei modelli di classificazione e stima, scopo di un modello di previsione è quello di determinare il comportamento futuro. Non esiste una variabile dipendente che guida il processo di apprendimento. Il programma di apprendimento costruisce una struttura di conoscenze utilizzando alcune misure della qualità dei cluster per raggruppare i casi in due o più classi. Obiettivo primario di una strategia di clusterizzazione non supervisionata è quello di scoprire le strutture concettuali dei dati. Scopo delle regole associative è quello di ricercare relazioni “interessanti” tra i prodotti delle vendite al dettaglio. I risultati di tali analisi aiutano i commerciali a ideare le campagne promozionali, a disporre i prodotti negli scaffali, a presentarli nei cataloghi e a sviluppare strategie di marketing incrociato (cross selling). Spesso, vengono utilizzati algoritmi di regole associative per l’applicazione di questo tipo di analisi a un insieme di dati. Il Data Mining serve a vagliare grandi quantità di dati per produrre associazione tra i dati, finalizzata a scoprire regole e fatti. Tutto questo lavoro diventa produttivo se i dati appropriati vengono raccolti e memorizzati in un Data Warehouse: un Data Warehouse può essere definito come il database di tipo decisionale che diventa il deposito centralizzato dei dati e che viene interrogato per intervenire sul business dell’azienda.
12
Le tecniche utilizzate sui Data Warehouse consentono di estrarre e trasformare i dati presenti nei database relazionali per caricarli nei database decisionali dei sistemi informativi direzionali, con lo scopo di supportare l’analisi e il reporting degli utenti che devono pendere le decisioni. Ci sono quattro caratteristiche che descrivono un Data Warehouse: 1. orientato ad un aspetto specifico: i dati sono organizzati secondo un aspetto invece che un’applicazione. I dati organizzati per argomento contengono solo le informazioni necessarie nei processi di supporto alle decisioni. 2. integrato:
quando
i
dati
risiedono
in
molte
applicazioni
separate
nell’ambiente operazionale, la codifica dei dati è spesso inconsistente. Quando i dati passano dal sistema operazionale al Data Warehouse, essi devono assumere un’uniformità nella codifica. 3. consolidato: il Data Warehouse contiene i dati che sono precedenti da 5 a 10 anni, o più vecchi, che devono essere usati per confronti, tendenze e previsioni. Questi dati non possono essere modificati. 4. non volatile: i dati non possono essere modificati o cambiati in nessun modo una volta che sono entrati nel Data Warehouse, ma possono essere solo caricati e consultati.[15] Allo scopo di realizzare applicazioni di Business Intelligent molte aziende si stanno orientando a progettare ed implementare dei Data Mart integrabili e/o incrementali piuttosto che un Data Warehouse. Essi, da un punto di vista tecnologico, sono la stessa cosa. Mentre, però, un Data Warehouse è la raccolta di dati assemblati al livello più basso di dettaglio disponibile nelle più importanti aree di business di un’azienda, un Data Mart si specializza su un singolo reparto o area funzionale aziendale e contiene dati di sintesi. Un Data Mart, quindi, contiene i dati per eseguire delle specifiche funzioni e poiché in genere contiene un numero più limitato di dati rispetto ad un Data Warehouse, i Data Mart, inoltre, lavorano in modo molto più veloce dei Data Warehouse. Si tende, quindi, a progettare più Data Mart indipendenti specializzati su differenti e specifiche aree che risultano tutti tra di loro integrabili ed integrati in 13
quanto utilizzano i dati come linea guida comune attraverso le tecniche di data modelling. 1.4 PRINCIPALI PROBLEMATICHE DI R&S L’implementazione di un DSS non è semplice da approcciare specialmente quando questo non deve tener conto solo di dati strettamente numerici e oggettivi ma anche di dati provenienti da studi di natura psicologica e socio economica. Altra problematica da considerare è quella del trattamento di una grande mole di dati eterogenei. Gli obiettivi che ci si propone di realizzare nel campo della ricerca industriale e i relativi approcci ad essi sono:
Studio di un modello di clusterizzazione della popolazione che riesca a inglobare in se tutte le varianti che comportano diversa percezione della paura e diverse reazioni psicologiche. Dallo stato dell’arte emerge che i fattori caratterizzanti i dati sono legati al genere e all’età ma non di meno allo stile di vita, per questo motivo si è scelto di adottare un approccio basato sull’intersezione di queste variabili. Ogni fascia sesso/età della piramide delle età sarà incrociata con ognuno dei 14 gruppi individuati da Eurisko nel campo della stilistica della vita, ottenendo così un gran numero di categorie che renderanno precisi, puntuali e mirati i risultati delle analisi. Va inoltre considerato che una clusterizzazione di questo tipo è flessibile e permette di passare facilmente ad un tipo di analisi diverso, ad esempio, mirato ad individuare la frequentazione di un esercizio commerciale specifico in base al genere e all’età.
Studi di carattere psicologico che influenzano la società e l’economia. Per quanto riguarda la percezione della sicurezza, l’approccio migliore è sicuramente quello di adottare un modello di rischio cumulativo, ovvero, prendendo in considerazione simultaneamente l’azione svolta da più fattori di rischio considerati rilevante nella letteratura relativa alla sicurezza. Sono due le categorie di fattori che vengono prese in considerazione: aspetti fisico-spaziali e psico-socio-relazionali. Per l’impatto psicologico, invece, si 14
adotterà la metodologia analizzata dagli studiosi Brand e Price. In fine, per analizzare gli effetti sull’economia degli esercizi commerciali, si è scelto di condurre delle indagini sul campo per individuare delle tendenze predominanti.
Quantificazione degli indici necessari all’indagine. L’analisi della criminalità attuale e i modelli di previsione a breve e medio termine presenti si basano sulla ricerca e quantificazione di indici. Cercare di spiegare le cause e concause dei fatti malavitosi non è impresa facile, ne tantomeno esprimere in
quale
misura
esse
siano
legate
alla
dinamica
del
contesto
socioeconomico considerato. Il percorso di ricerca si comporrà dei seguenti passi: 1. Partendo dagli indicatori della criminalità più opportuni e i relativi indici omogenei e confrontabili, evidenziati dallo stato dell’arte, si elaborerà per ognuno di essi, sulla base di dati grezzi provenienti da diverse fonti, l’entità in ogni una delle zone considerate. 2. Con base gli indicatori socioeconomici, culturali e demografici definiti nelle attività di ricerca precedenti, si calcolerà per ognuno di essi e sulla base di dati grezzi di altre fonti, il grado di percezione della sicurezza in ognuna zone considerate. 3. Utilizzando i dati delle ricerche condotte si costruirà un indice che relazioni la tipologia di attività commerciale e la sua fascia di clientela alla percezione che questa ha della sicurezza. 4. Mediante l’esame dei risultati precedenti e applicando il metodo della regressione Stepwise, ossia un modello di regressione automatico utilizzato soprattutto in studi esplorativi in presenza di molteplici variabili, si può giungere a un Modello di analisi Multivariata, cioè un modello che si basa su insieme di metodi statistici usati per analizzare simultaneamente più caratteri di un fenomeno.
Tale
modello mette in relazione ogni indice di criminalità (variabile
15
dipendente)
in
funzione
di
un
opportuno
insieme
d’indici
socioeconomici e culturali (variabili esplicative).
Studio di tecniche ad hoc per il trattamento dei dati. Ci si propone di sviluppare adeguatamente tecniche informatiche che permettano di avere a portata di mano i soli dati utili in forma strutturata, ideali per le analisi. La catena informatica del trattamento di questi dati parte con le tecniche di Text Mining per cui si individueranno adeguati dizionari elettronici, taggers sintattici, motori di lemmatizzazione, i dati saranno poi indicizzati e smistati in Data Mart storici per i quali si è scelta una divisione in base ai diversi tipi di indice, infine, partendo dalle tecniche di Data Mining note, esposte nello stato dell’arte, se ne svilupperanno di specializzate per operare su degli indici, in modo da ottenere analisi affidabili e curate nel minimo dettaglio.
1.5 DURATA E DATA D’INIZIO L’inizio delle attività è previsto per lunedì 03/09/2012 mentre il termine atteso per la conclusione è lunedì 24/11/2014 per una durata complessiva di circa 27 mesi. 1.6 LUOGHI DI SVOLGIMENTO DEL PROGETTO Le attività del progetto saranno svolte negli uffici e nei laboratori dell’azienda “X” situata a Fisciano (SA). 1.7 RESPONSABILI DEL PROGETTO Francesca Biscardi nata ad Avellino (AV - Italia) il 7/01/1991, laureanda in Ingegneria Informatica presso l’Università degli Studi di Salerno. Marcello Miccio nato a Piano di Sorrento (NA – Italia) il 15/11/1990, laureando in Ingegneria Gestionale presso l’Università degli Studi di Salerno. Fausto Tucci nato a Pompei (NA – Italia), il 19/11/1990 , laureando in Ingegneria Gestionale presso l’Università degli Studi di Salerno.
16
2. OBIETTIVI, ATTIVITÀ E TEMPISTICA 2.1 STRUTTURA DEL PRODOTTO/PROCESSO/SERVIZIO Il Decision Support System di cui si presenta il progetto è visto come un software da utilizzare in concomitanza con altri software di GeoMarketing al fine di avere delle analisi che tengano conto anche dell’aspetto riguardante la criminalità, non preso in considerazione da questi ultimi. Il progetto di ricerca si articola principalmente in due parti: una orientata all’ analisi psicologica ed economica delle conseguenze dei fenomeni di criminalità con il fine di sintetizzarli in indici utili per la fase di Data Mining; una orientata all’ aspetto informatico del DSS, comprensiva, quindi, di studio e messa a punto di algoritmi di Text Mining e Data Mining e, infine, della realizzazione di un prototipo funzionante del DSS. Il risultato del progetto sarà un applicativo in grado di essere performante ed efficiente senza alcun tipo di vincolo hardware. Il cuore dell’architettura è la Datawarehouse costituita da cinque Data Mart, uno contenente i dati provenienti dall’ Operational DB e gli altri quattro contenenti gli indici studiati organizzati per anni. Questi indici saranno analizzati secondo il Modello di analisi Multivariata e su di essi agiranno le tecniche di Data Mining implementate appositamente per agire su indici di questo tipo. I dati alla Datawarehouse arrivano da fonti eterogenee, in particolare, per calcolare gli indici, è necessario che i dati provenienti da forme testuali quali articoli di giornale, referti della polizia, survey, ecc…, siano trattati con tecniche di
Text
Mining,
specifiche
per
ciascun
tipo
di
fonte
in
entrata.
17
18
2.2 OBIETTIVI REALIZZATIVI E ATTIVITÀ OR1] Studio e ricerca di un modello di clusterizzazione della popolazione che sia ottimale e studio e ricerca dei flussi di clientela dei diversi esercizi commerciali. L’obiettivo ha come scopo un’indagine riguardante le maggiori tendenze in materia di classificazione di gruppi di individui e l’analisi della tipologia di clientela che ciascun esercizio commerciale possiede. A1] Studio e ricerca di un pattern appartenente a un cluster di persone che sia adatto ad un’analisi psicologica. Attività di ricerca il cui scopo è quello di individuare un’ insieme di algoritmi che si prefiggono di classificare individui in categorie tali che all'interno di una classe ci siano caratteristiche simili e che ogni classe sia relativamente distinta dalle altre. Questa clusterizzazione è mirata ad essere ottima per realizzare degli studi psicologici riguardanti la percezione di sicurezza dell’ individuo. A2] Studio e ricerca della diversa frequentazione di tipologie di attività commerciali da parte di individui di genere ed età diversi. Attività di ricerca che partendo da delle tipologie di esercizio commerciale analizza il flusso di clientela di ciascuna di esse diversificandolo in base al genere sessuale e l’età dei frequentatori, utilizzando come metro per queste caratteristiche la piramide delle età. A3] Studio e progettazione di un dimostratore per le precedenti attività di ricerca. Studio e implementazione di un dimostratore da applicare a gruppi di individui al fine di verificare concretamente il risultato delle ricerche svolte nell’attività precedente. OR2] Studio e ricerca dell’impatto che un determinato crimine ha su diverse tipologie di esercizi commerciali e sulla psicologia dell’ individuo. Lo scopo dell’ obiettivo realizzativo, partendo dalla suddivisione in categorie della popolazione, delle attività commerciali e degli atti criminali, è quello di indagare l’impatto che ciascuno di questi ultimi ha sulle diverse classi di individui e sulle differenti tipologie di punti vendita. 19
A1] Studio e ricerca dei fattori rilevanti per la percezione di sicurezza delle diverse categorie di individuo. In questo studio ci si propone di analizzare la percezione di sicurezza e la paura del crimine nei quartieri urbani utilizzando il modello del rischio cumulativo, ovvero, prendendo in considerazione simultaneamente l’azione svolta da più fattori di rischio considerati rilevante nella letteratura relativa alla sicurezza. Sono due le categorie di fattori che vengono prese in considerazione: aspetti fisico-spaziali e psico-socio-relazionali. A2] Studio e ricerca del costo sociale di ciascuna tipologia di attività criminale con particolare interesse rivolto all’impatto psicologico sulla comunità residente. Il primo passo di questo studio è individuare chi sono i soggetti che sopportano
tale
costo
e
quali
sono
le
principali
componenti
che
caratterizzano tale costo. Nella valutazione dei costi viene tenuta in considerazione la reazione delle categorie di individui in previsione, come conseguenza e in risposta al verificarsi di un delitto o evento criminale. A3] Studio e ricerca dell’impatto negativo della criminalità sullo sviluppo economico di diverse categorie di attività commerciali all’interno della zona lesa. L’analisi prende in considerazione i costi connessi agli effetti indiretti e indotti
dei
tassi
di
criminalità,
ovvero
quell’insieme
di
distorsioni
economiche si accompagnano a tassi di frequenza dei delitti cronici o particolarmente
radicati
spazialmente
(capaci
cioè
di
influenzare
significativamente la qualità della vita e l’evoluzione produttiva di aree e regioni). OR3] Studio e ricerca di un indice che correli i costi connessi alle attività criminali a un’area geografica. Per ognuna delle categorie individuate nell’obiettivo realizzativo precedente si analizzeranno criticamente le tecniche di stima più utilizzate e, nel contempo, si svilupperanno nuove procedure per quelle voci di costo attualmente trascurate o stimate in maniera insoddisfacente. Ci si riferisce tanto alle distorsioni economiche complessive quanto alla relazione fra i costi e la produttività di 20
un’attività commerciale. Pertanto, concentrando l’attenzione su diverse tipologie di delitti, la ricerca si focalizzerà sulla stima delle distorsioni economiche, generali e particolari e sugli effetti che esse hanno sul ciclo di vita di un punto vendita. A1] Studio di un indice che relazioni gli atti criminali a una zona. E’ necessario avere un’indicatore del grado di criminalità di una zona. In particolare è importante distinguere le tipologie di atti criminali che si verificano nell’ area in analisi dal momento che, come studiato nel secondo obiettivo realizzativo, diverse tipologie di delitti porteranno con se diversi costi. A2] Studio di un indice che relazioni ad una zona la densità di popolazione e la sicurezza da essa percepita. E’ stato osservato che comunità di diverse dimensioni hanno una percezione della sicurezza differente per questo motivo non è da sottovalutare l’incidenza che può avere una diversa densità di popolazione nella zona oggetto di studio. Questo studio si propone di creare un indice che relazioni questa informazione di natura quantitativa a ciò che è stato studiato nel primo obiettivo realizzativo, ovvero la percezione che una diversa classe di individui ha della sicurezza. A3] Studio
di
un
indice
che
relazioni
la
tipologia
di
esercizio
commerciale con il genere sessuale e l’età della sua clientela e percezione della sicurezza che esso ha. È fondamentale considerare che ogni tipologia di attività commerciale sarà probabilmente più frequentata da uomini o donne appartenenti a una determinata fascia d’età, usando questo dato prodotto nel primo obiettivo realizzativo si intente creare una correlazione con la percezione della sicurezza che la clientela individuata ha. A4] Studio e ricerca di un indice che tenendo conto dei costi sociali ed economici quantifica il grado di correlazione tra le varie tipologie di crimine e le reazioni psicologiche che affliggono le diverse categorie di individuo. La seguente attività si sviluppa a partire dai criteri per stabilire l’incidenza della criminalità, sviluppati nelle attività precedenti, e rivolge un’attenzione particolare alla costruzione di moltiplicatori in grado di produrre, per ogni categoria di delitti e per ogni categoria di individuo, stime attendibili del 21
rilievo quantitativo effettivo del fenomeno. L’aspetto su cui si pone maggiore rilievo è l’influenza che i costi economici e sociali hanno sull’apertura e/o sull’andamento economico di un punto vendita localizzato nella zona di interesse. A5] Studio e progettazione di un protocollo di test per gli indici prodotti. Tutti gli studi saranno verificati sul campo e trasferiti in un dimostratore che appuri l’attendibilità degli indici prodotti nelle attività precedenti. OR4] Studio e ricerca di tecniche ottimali per il trattamento di dati non strutturati e l’analisi dei dati ricavati da fonti interne ed esterne. Sviluppo di un prototipo. Un DSS è un supporto informatico con un’architettura predefinita, questo obiettivo realizzativo ha lo scopo di ricercare delle tecniche ottimali per il trattamento di dati provenienti da fonti eterogenee e per l’aggregazione di queste sottoforma
di
dati
strutturati
che
forniscano
informazione
implicita,
precedentemente sconosciuta e potenzialmente utile. Tutti gli studi realizzati confluiranno infine nello sviluppo di un prototipo del DSS. A1] Studio e ricerca di una tecnica ad hoc di Text Mining per ricavare informazioni da fonti testuali eterogenee. Si punta alla realizzazione di uno strumento software che abbia lo scopo di identificare le informazioni effettivamente significative, perché utili ai fini delle attività di analisi, all'interno di un insieme di dati generalmente di grandi dimensioni e molto rumoroso. A2] Studio e ricerca di tecniche di Data Mining per l’aggregazione dei dati provenienti dai Data Mart e l’estrazione di conoscenza non intuibile. Lo studio ha come scopo quello di implementare tecniche di Data Mining adatte ad operare su degli indici in modo da ricavare da essi informazione implicita e nuovi pattern significativi. A3] Integrazione di tutti gli studi realizzati al fine di realizzare un prototipo funzionante del DSS. Attività finalizzata ad aggregare tutti gli studi condotti nei vari obiettivi realizzativi con l’intento di concretizzarli sottoforma di un prototipo funzionante e performante.
22
OR1 OR2 OR3
A1
Studio e ricerca di un pattern appartenente a un cluster di persone che sia adatto ad un’analisi psicologica
RI
A2
Studio e ricerca della diversa frequentazione di tipologie di attività commerciali da parte di individui di genere ed età diversi
RI
A3
Studio e progettazione di un dimostratore per le precedenti attività di ricerca
SP
A1
Studio e ricerca dei fattori rilevanti per la percezione di sicurezza delle diverse categorie di individuo
RI
A2
Studio e ricerca del costo sociale di ciascuna tipologia di attività criminale con particolare interesse rivolto all’impatto psicologico sulla comunità residente
RI
A3
Studio e ricerca dell’impatto negativo della criminalità sullo sviluppo economico di diverse categorie di attività commerciali all’interno della zona lesa
RI
A1
Studio di un indice che relazioni gli atti criminali a una zona.
RI
A2
Studio di un indice che relazioni la densità di popolazione e la percezione della sicurezza che essa ha ad una zona
RI
A3
OR4
A4
Studio di un indice che relazioni la tipologia di esercizio commerciale con il genere sessuale e l’età della sua clientela e percezione della sicurezza che esso ha Studio e ricerca di un indice che tenendo conto dei costi sociali ed economici quantifica il grado di correlazione tra le varie tipologie di crimine e le reazioni psicologiche che affliggono le diverse categorie di individuo
RI
RI
A5
Studio e progettazione di un protocollo di test per gli indici prodotti
SP
A1
Studio e ricerca di una tecnica ad hoc di text mining per ricavare informazioni da fonti testuali eterogenee
RI
A2
Studio e ricerca di tecniche di Data Mining per l’aggregazione dei dati provenienti dai Data Mart e l’estrazione di conoscenza non intuibile
RI
A3
Integrazione di tutti gli studi realizzati al fine di realizzare un prototipo funzionante del DSS
SP
23
2.3 TEMPISTICA
24
25
Attività Durata Inizio Fine M0 1g lun 03/09/12 lun 03/09/12 A 1.1 90 g mar 04/09/12 lun 07/01/13 A 1.2 75 g mar 04/09/12 lun 17/12/12 M1 1g mar 08/01/13 mar 08/01/13 A 1.3 40 g mer 09/01/13 mar 05/03/13 A 2.1 75 g mer 09/01/13 mar 23/04/13 A 2.2 75 g mer 09/01/13 mar 23/04/13 A 2.3 75 g mer 09/01/13 mar 23/04/13 M2 1g mer 24/04/13 mer 24/04/13 A 3.1 90 g mar 04/09/12 lun 07/01/13 A 3.2 90 g gio 25/04/13 mer 28/08/13 A 3.3 90 g gio 25/04/13 mer 28/08/13 M3 1g gio 29/08/13 gio 29/08/13 A 3.4 120 g ven 30/08/13 gio 13/02/14 M4 1g ven 14/02/14 ven 14/02/14 A 3.5 40 g lun 17/02/14 ven 11/04/14 A 4.1 150 g mar 04/09/12 lun 01/04/13 A 4.2 160 g gio 25/04/13 mer 04/12/13 M5 1g mar 02/04/13 mar 02/04/13 M6 1g gio 05/12/13 gio 05/12/13 A 4.3 200 g lun 17/02/14 ven 21/11/14 M7 1g lun 24/11/14 lun 24/11/14
M1 Acquisizione conoscenze di base sull’analisi dell’individuo Individuazione costo sociale ed economico delle attività M2 criminali M3 Realizzazione di singoli indici per aspetti da analizzare Individuazione di un indice che determina l’influenza dei M4 costi sociali ed economici sull’apertura di un punto vendita M5 Realizzazione di nuove tecniche di Text Mining Realizzazione di una tecnica di Data Mining specifica per M6 agire su gli indici M7 Realizzazione software e consegna del DSS
26
3. COSTI AMMISSIBILI
RICERCA INDUSTRIALE Eleggibile Lett. a)
Eleggibile lett. c)
Eleggibile Ob. 2
Non Eleggibil e
Extr a U.E.
Personale
-
-
661.625€
Spese generali
-
-
396.975€
Attrezzature
-
-
Consulenze
-
-
Prestazioni di terzi
-
-
Beni immateriali
-
-
Materiali
-
Recuperi (da detrarre)
SVILUPPO PRECOMPETITIVO TOTALE
Eleggibile lett. a)
Eleggibile lett. c)
Eleggibile ob. 2
Non eleggibile
Extra U.E.
TOTALE
TOTALE GENERALE
-
661.625€
-
-
14.875€
-
-
14.875€
676.500€
-
-
396.975€
-
-
8.925€
-
-
8.925€
405.900€
14.100€
-
-
14.100€
-
-
900€
-
-
900€
15.000€
3.500€
-
-
3.500€
-
-
-
-
-
-
-
-
-
-
10.000€
-
-
10.000€
-
-
-
-
-
38.070€
-
-
38.070€
-
-
2.430€
-
-
2.430€
40.500€
-
-
-
-
-
-
-
-
-
-
-
-
-
Subtotale (altri costi del progetto)
-
-
-
-
-
-
-
-
-
-
-
-
-
Investimenti (*)
-
-
-
-
-
-
-
-
-
-
-
-
-
Totale
-
-
1.124.270€
-
-
1.124.270€
-
-
27.130€
-
-
27.130€
1.151.400€
-
3.500€
10.000€
27
4. VERIFICA DELL’ESITO DEL PROGE TTO DI RICERCA 4.1 RISULTATI DISPONIBILI Attività Risultati disponibili
A 1.1 A 1.2
A 1.3
A 2.1 A 2.2 A 2.3 A 3.1 A 3.2 A 3.3 A 3.4 A 3.5
A 4.1
A 4.2
Rapporti scientifici sui risultati prodotti dall’ applicazione del modello del rischio cumulativo alla percezione di sicurezza. Rapporti scientifici sull’ impatto psicologico e il costo sociale che le attività criminali hanno. Rapporti scientifici sull’ impatto negativo della criminalità sullo sviluppo economico di diverse categorie di attività commerciali all’interno della zona lesa. Rapporti scientifici che dimostrano l’indice trovato, ne giustificano la validità. Test effettuati. Rapporti scientifici che dimostrano l’indice trovato, ne giustificano la validità. Test effettuati. Rapporti scientifici che dimostrano l’indice trovato, ne giustificano la validità. Test effettuati.
Rapporti scientifici che dimostrano l’indice trovato, ne giustificano la validità. Test effettuati.
Protocollo di test per ognuno degli indici prodotti. Risultati statistici sull’aderenza alla realtà. Rapporti contenenti la descrizione dei test effettuati, le modalità utilizzate e i risultati ottenuti per ognuno degli indici analizzati nelle attività precedenti.
Rapporti tecnici sulle tecniche di Text Mining prodotte per i diversi tipi di fonti testuali ammesse. Protocollo di test per verificare la validità delle tecniche prodotte. Risultati statistici testimonianti l’efficienza e l’efficacia delle tecniche sviluppate. Rapporti tecnici sulle tecniche di Data Mining prodotte per l’aggregazione dei dati provenienti da Data Mart. Rapporti tecnici sulle tecniche di Data Mining prodotte per l’estrazione di conoscenza dagli indici individuati. Protocollo di test per verificare la validità delle tecniche prodotte. Risultati statistici testimonianti l’efficienza e l’efficacia delle tecniche sviluppate. Software funzionante. Rapporti di debbuging del software. Dimostratore in grado di fornire una visione complessiva delle prestazioni raggiunte dal prodotto finale
A 4.3
Rapporti scientifici sugli algoritmi di clusterizzazione degli individui che siano ottimi per realizzare degli studi psicologici riguardanti la percezione di sicurezza dell’ individuo. Rapporti scientifici sugli algoritmi di clusterizzazione degli individui basati sulla Piramide delle età. Protocollo di test statistico generale per gli algoritmi di clusterizzazione sviluppati. Statistiche per ciascuno dei diversi algoritmi. Rapporti contenenti la descrizione dei test effettuati, le modalità utilizzate e i risultati ottenuti per ognuno degli approcci di clusterizzazione analizzati nelle attività precedenti.
28
4.2 MODALITÀ DI VERIFICA Durante il progetto e alla sua conclusione i risultati saranno verificati attraverso dei dimostratori indicati nella tabella delle attività. L’accuratezza dei risultati crescerà man mano che il DSS apprenderà nuove informazioni e dati storici, al suo rilascio ci si propone di avere un’accuratezza delle analisi e un matching con l’esito positivo dell’ 89%. I parametri di sopra riportati saranno completamente verificabili a fine progetto, sia attraverso la documentazione prodotta, sia grazie ai dimostratori che consentiranno di testare l’aderenza alla realtà dei risultati prodotti. Il DSS terrà conto di tutti i dati riferiti agli ultimi 100 anni, i dati precedenti verranno scartati automaticamente, con l’avanzare degli anni. I tempi di risposta del software garantiti saranno in media (i tempi possono variare in dipendenza dall’ hardware utilizzato):
Da 1 a 3 secondi per la creazione grafici quali istogrammi, trend e modelli di distribuzione, basati su query specifiche
Da 2 a 4 secondi per la creazione di grafici georeferenziati basati su query specifiche
dai 3 ai 7 secondi per la creazione di un grafico georeferenziato con annessi istogrammi, trend e modelli dell’ intera base di conoscenza
Ci si propone, durante il progetto, se possibile, di migliorare la percentuale di precisione e la velocità del software. 5. INTERESSE TECNICO - SCIENTIFICO Il Decision Support System presentato nasce con l’intento di migliorare la qualità di un servizio già di per se efficiente rappresentato dai software di Geomarketing presenti sul mercato. Esso, infatti, è concepito come una componente da integrare in modo da coprire, nelle analisi, anche l’aspetto della criminalità. La componente innovativa del progetto è rappresentata proprio dall’ area di interesse che esso ricopre, infatti, quello della criminalità sta diventando un aspetto sempre più critico quando si parla dell’apertura di un nuovo punto 29
vendita. Un manager che debba confrontarsi con una problematica decisionale di questo tipo non può ignorare i segnali provenienti dall’ambiente sociale ed economico, per questo motivo, il DSS GeoCrimeFMF è progettato in modo da reagire ai cambiamenti più disparati e difficilmente analizzabili per la mente umana quali reazioni psicologiche e variazioni economiche dovute a queste. Il DSS GeoCrimeFMF è concepito come uno strumento di supporto alle decisioni perfettamente automatizzato, in grado di gestire da solo dati provenienti da fonti eterogenee, senza bisogno dell’intervento umano. 6. ARTICOLAZIONE DEI COSTI COSTO PERSONALE E’ possibile, in riferimento alla tabella “Costi ammissibili”, dettagliare con maggiore precisione la natura dei costi inseriti e la loro formazione. Personale assunto:
1 6 1 1 1 2 1
sovraintendente al progetto programmatori giovani programmatori esperto in attività di cluster programmatore esperto di Text Mining programmatore esperto di Data Mining sociologi psicologo
Per la determinazione dei costi si è ipotizzato un costo medio del personale mensile di: o 5.000€ per il sovraintendente al progetto o 1.500€ per ciascun programmatore junior o 2.000€ per l’esperto di clustering o 2.500€ per l’esperto di text mining o 3.000€ per l’esperto di data minig o 1.500€ per ciascun sociologo o 2.000€ per lo psicologo COSTO CONSULENZA Nella determinazione dei costi di consulenza è opportuno tenere conto della provenienza dei consulenti: 30
o I consulenti nel campo dell’analisi criminologica e della conoscenza psicosociale saranno ricercati nelle regioni dell’Italia Settentrionale. o I consulenti analisti saranno ricercati nella regione Campania, dove si svolgerà il progetto. Per questi due tipi di consulenze possiamo ipotizzare un costo di 2.000€ e di 1.500€, in base alla provenienza dello specialista. ALTRI COSTI Nella determinazione di successivi costi riguardanti il personale, si è tenuto conto in particolare dei costi hardware e software da sostenere durante lo svolgimento del progetto, quali l’acquisto di computer e licenze software sia di base sia specialistiche
(algoritmi,
pacchetti
particolari),
l’acquisto
dei
materiali
direttamente impiegati per la costruzione del prototipo, i canoni di locazione. Questi rappresentano gli elementi più importanti da considerare: i restanti saranno inclusi nella voce ‘Spese generali’ quantificata pari al 60% dei costi sostenuti per il personale. Si possono esplicitare le risorse hardware richieste da ogni attività: dall’analisi del fabbisogno delle attività e della loro contemporaneità è risultato che saranno necessari in totale 10 computer, di cui almeno 7 portatili e un server centrale per la raccolta ed elaborazione dati. Considerando i costi delle licenze software e delle licenze specifiche di cui si avrà necessità durante lo svolgimento delle attività, si stima un costo medio di 1.500 € per calcolatore che sommati ai costi del server principale determineranno un fabbisogno in termini di hardware e software pari a 25.000€, attribuibili per intero alle attività di ricerca industriale.
31
Mansione Sovraintendente al progetto Programmatore Clu Programmatore Jun
Stipendio Giornaliero 250 €
Descrizione
100 € 75 €
Esperto di cluster Giovane programmatore Esperto di text mining e strutturazione dati Esperto di data mining Sociologo Psicologo
Programmatore TM
125 €
Programmatore DM
150 €
Sociologo Psicologo
75 € 100 €
Attività 1.1 1.2 1.3 2.1 2.2 2.3 3.1 3.2 3.3 3.4 3.5 4.1 4.2 4.3
Durata(giorni) 90 75 40 75 75 75 90 90 90 120 40 150 160 200
Personale Spese Generali Attrezzature Consulenze Beni immateriali Beni materiali Totale
Quantità
Sigla
1
Inizio 04\09\2012 04\09\2012 09\01\2013 09\01\2013 09\01\2013 09\01\2013 04\09\2012 25\04\2013 25\04\2013 30\08\2013 17\02\2014 04\09\2012 25\04\2013 17\02\2014
RI 661.625 € 396.975 € 14.100 € 3.500 € 10.000 € 38.070 € 1.124.270 €
Fine 07\01\2013 17\12\2012 05\03\2013 23\04\2013 23\04\2013 23\04\2013 07\01\2013 28\08\2013 28\08\2013 13\02\2014 11\04\2014 01\04\2013 04\12\2013 21\11\2014
1 6
PrC Pr#
1
PrTM
1
PrDM
2 1
S# Ps
Team PrC, Pr2, Ps S1, Pr3 Pr3 Ps, Pr5 S1, Pr6 S2, Pr4 Pr2,S2 Pr3, Ps Pr4 PrC Pr2 PrTM, Pr1 PrDM,Pr4 PrC, PrTM, PrDM
Costo 49.500 € 22.500 € 6.000 € 26.250 € 22.500 € 22.500 € 27.000 € 31.500 € 13.500 € 24.000 € 6.000 € 60.000 € 72.000 € 150.000 €
Tipologia RI RI SS RI RI RI RI RI RI RI SS RI RI RI
SS 14.875 € 8.925 € 900 € 0€ 0€ 2.430 € 27.130 €
32
BIBLIOGRAFIA: [1] Pierre Bourdieu, “La distinction. Critique sociale du jugement”, Santoro 2001 [2] Eurisko, “Sinottica-Grande Mappa e Nuovi Stili di Vita”, 2004 [3] http://it-ii.demopaedia.org/wiki/32 [4] Anna Coluccia, Fabio Ferretti, Lore Lorenzi, Tommaso Buracchi, “Media e percezione della sicurezza. Analisi e riflessioni”, Rassegna Italiana di Criminologia n° 2/2008 [5] ISTAT,” Indagine sulla sicurezza dei cittadini”, 1997-1998. [6] ISTAT, “Indagine sulla sicurezza dei cittadini”, 2002 [7] ISTAT, “Indagine sulla sicurezza dei cittadini”, 2008-2009 [8] Evans G.W., Marcynyszyn, “Environmental justice, cumulative environmental risk, and health among low- and middle-income children in upstate”, American Journal of Public Health, 94, 1942-1944 [9] Dolan P., Peasgood T. “Estimating the economic and social costs of the fear of crime”, British journal of criminology, 47 (1). pp. 121-132 [10] Brand S., Price R., “The economic and social cost of crime”, Home Office Research Study 217, London, Home Office, 2000 [11] http://www.unodc.org/ [12] http://www.visionofhumanity.org/ [13] Amboni S., Rivaris M., “La Criminalità nelle Regioni Italiane: situazione attuale e previsioni” [14] http://www.intelligrate.it/attivita/textmining.html [15] Giuseppe Chiumeo , “Relazione sul Data Warehouse e sul Data Mining”, Master in Sicurezza dell’informazione
33