Γεωργιτσόπουλος, Ν. (27 Ιανουαρίου 2015). Εξόρυξη ∆εδοµένων: Μια επισκόπηση εφαρµογών στην Αστυνοµία (Data Mining: An overview of applications at Police). www.policenet.gr. ∆ιαθέσιµο σε: http://tinyurl.com/PoliceDataMining.
Εξόρυξη ∆εδοµένων: Μια επισκόπηση εφαρµογών στην Αστυνοµία Data Mining: An overview of applications at Police Νικόλαος Φ. Γεωργιτσόπουλος Αστυφύλακας υπηρετών στο Τµήµα Ασφαλείας Μενεµένης Θεσσαλονίκης Απόφοιτος του Τµήµατος Λογιστικής & Χρηµατοοικονοµικής του Αλεξάνδρειου Τεχνολογικού Εκπαιδευτικού Ιδρύµατος Θεσσαλονίκης E-mail: proskoposethnoys@yahoo.gr
Τα τελευταία χρόνια η ένταση και ο όγκος του εγκλήµατος έχει αυξηθεί σηµαντικά και µετατρέπεται σε ένα σηµαντικό πρόβληµα για πολλές χώρες. Η τροµοκρατία είναι ένα άλλο µεγάλο θέµα που επέρχεται στο προσκήνιο µετά τα τελευταία γεγονότα στη Γαλλία. Στο σηµερινό κόσµο οι εγκληµατίες και τοι τροµοκράτες χρησιµοποιούν στο µέγιστο δυνατό κάθε τεχνολογικό µέσο που έχουν στη διάθεση τους για τη διάπραξη εγκληµάτων (Brown, 1998). Η αστυνοµία βρίσκεται καθηµερινά αντιµέτωπη µε την καταπολέµηση του εγκλήµατος και τη διατήρηση της έννοµης τάξης. Η δηµιουργία και η διατήρηση βάσεων δεδοµένων στις όποιες καταγράφονται τα διάφορα εγκλήµατα και οι εγκληµατίες είναι αναγκαία (Krishnamurthy και Kumar, 2002). Η ανάπτυξη τεχνολογικών εργαλειών για την επεξεργασία δεδοµένων που καταχωρούνται σε τέτοιες βάσεις δεδοµένων αποτελεί µια πρόκληση. Η εξόρυξη δεδοµένων (data mining) είναι µια διαδικασία εξαγωγής γνώσης από τεράστια δεδοµένα αποθηκευµένα σε βάσεις και αποθήκες δεδοµένων. Η εξόρυξη δεδοµένων διαµορφώνει τα τελευταία χρόνια ένα πολύ σηµαντικό ρόλο σε θέµατα αντιµετώπισης της εγκληµατικότητας και της τροµοκρατίας (Krishnamurthy και Kumar, 2002). H ∆ιεύθυνση ∆ιαχείρισης και Ανάλυσης Πληροφοριών Η εποχή που ζούµε χαρακτηρίζεται από πολλούς ως αυτή της πληροφορίας. Η αστυνοµία και η αντιµετώπιση του εγκλήµατος δε θα µπορούσε να µείνει αµέτοχη έξω από αυτό. Οι πληροφορίες και τα δεδοµένα που συλλέγει η αστυνοµία αποτελούν το πιο σηµαντικό εργαλείο για την αντιµετώπιση του εγκλήµατος. Άλλωστε η διενέργεια αστυνοµικής προανάκρισης, όπως την ορίζει η ποινική δικονοµία δεν είναι από µόνη της µια διαδικασία συλλογής στοιχειών και πληροφοριών που θα χρησιµεύσουν για την απόδειξη της αλήθειας; Εξ’ ορισµού λοιπόν, η αστυνοµία συλλέγει και αξιολογεί δεδοµένα και στοιχεία και άλλα στοιχεία (τεκµήρια, αποδείξεις, ενδείξεις κλπ) προκειµένου να φτάσει στην ανακάλυψη της πληροφορίας που αυτά παρέχουν (όπως τον δράστη του εγκλήµατος κλπ). Πρόσφατα και µε αφορµή το νέο νόµο για την αναδιάρθρωση της Ελληνικής Αστυνοµίας συστάθηκε ένας ενιαίος φορέας συλλογής, διαχείρισης και επεξεργασίας πληροφοριών, µια αυτοτελής κεντρική Υπηρεσία, αυτή της «∆ιεύθυνσης ∆ιαχείρισης και Ανάλυσης Πληροφοριών». Συγκεκριµένα στο άρθρο του σχετικού νόµου που φέρει το τίτλο «∆ιεύθυνση ∆ιαχειρίσης και Ανάλυσης Πληροφοριών», αναφέρονται τα εξής: «Η ∆ιεύθυνση ∆ιαχείρισης και Ανάλυσης Πληροφοριών εδρεύει στην Αττική, υπάγεται απευθείας στον αρχηγό της Ελληνικής Αστυνοµίας και έχει ως αποστολή τη συγκέντρωση, ιδίως µέσω των περιφερειακών Υπηρεσιών της Ελληνικής Αστυνοµίας, την αξιολόγηση, ταξινόµηση ανάλυση και διάθεση επεξεργασµένων ή µη πληροφοριών προς το σκοπό της αντιµετώπισης κάθε µορφής εγκληµατικότητας και ιδίως της τροµοκρατίας και του οργανωµένου εγκλήµατος, καθώς και την τήρηση ενηµέρωση και διασφάλιση των ειδικών βάσεων δεδοµένων στις οποίες καταχωρείται και αποθηκεύεται πληροφοριακό υλικό, σύµφωνα µε την ισχύουσα νοµοθεσία.»
1
Γεωργιτσόπουλος, Ν. (27 Ιανουαρίου 2015). Εξόρυξη ∆εδοµένων: Μια επισκόπηση εφαρµογών στην Αστυνοµία (Data Mining: An overview of applications at Police). www.policenet.gr. ∆ιαθέσιµο σε: http://tinyurl.com/PoliceDataMining.
Όπως περιγράφεται στην αξιολογική έκθεση που δηµοσιεύτηκε για το συγκεκριµένο νόµο «Ο τοµέας της εξασφάλισης πληροφοριών - τόσο για την πρόληψη όσο και για την αντιµετώπιση της εγκληµατικότητας - αναγνωρίζεται ως κρίσιµο µέγεθος για τη νέα Αστυνοµία. Για τον λόγο αυτόν, άλλωστε, προβλέπεται η θέσπιση αυτόνοµης ∆ιεύθυνσης Πληροφοριών η οποία, µάλιστα, θα υπάγεται απευθείας στον αρχηγό της Αστυνοµίας. Αποστολή της συγκεκριµένης διεύθυνσης θα είναι η συγκέντρωση, ιδίως µέσω των περιφερειακών υπηρεσιών, η αξιολόγηση, η ταξινόµηση, η ανάλυση και η διάθεση επεξεργασµένων ή µη πληροφοριών προς τον σκοπό της αντιµετώπισης κάθε µορφής εγκληµατικότητας και ιδιαίτερα της τροµοκρατίας και του οργανωµένου εγκλήµατος.» Στο τύπο, τη περίοδο δηµοσίευσης του νοµοσχεδίου του συγκεκριµένου νόµου, είδαµε να γράφεται για τη συγκεκριµένη υπηρεσία, µεταξύ πολλών εφηµερίδων, και το εξής: «Μάλιστα η συγκεκριµένη υπηρεσία θα τηρεί και θα ενηµερώνει ειδικές βάσεις δεδοµένων. Τέτοιες βάσεις δεδοµένων λειτουργούν σε υπηρεσίες όπως το FBI ή η Σκότλαντ Γιάρντ», (Ηρειώτου και Νεσφυγέ, 2013). Η έννοια της πληροφορίας Για να γίνει όµως πιο συγκεκριµένη η χρήση του όρου «πληροφορία» στο παρόν πόνηµα δε θα γίνει εµβάθυνση στη σηµαντική συµβολή της πληροφορίας που παρέχει ο άνθρωπος στην αστυνοµία για τη πάταξη της εγκληµατικότητας. Τρανταχτό τέτοιο παράδειγµα είναι το απλό τηλεφώνηµα στην Άµεση ∆ράση για κάποιο έγκληµα. Ακόµα, η προφορική ειδοποίηση κάποιου πολίτη στο περιπολικό της γειτονίας αποτελούν επίσης τέτοιου είδους πληροφορία. Τέτοιες «ωµές», πρώτες πληροφορίες (raw information) δεν υποτιµούνται και δεν υποβαθµίζονται σε καµία περίπτωση. Χωρίς αυτές η αστυνοµία θα ήταν ανίκανη να επιλύσει πλήθος θεµάτων που κάθε µέρα ανακύπτουν, και όχι µόνο εγκληµάτων, εάν δεν είχε πληροφόρηση από το απλό κοινό. Είναι ευρέως γνωστό ότι αυτές οι πληροφορίες τροφοδοτούν σηµαντικό µέρος της καθηµερινής αστυνοµικής πραγµατικότητας (Ξανθάκος, 2007). Ή ακόµα, οι πληροφορίες παρόµοιου τύπου που προέρχονται από κακοποιούς χρήζουν ιδιαίτερης προσοχής, διότι είτε µπορεί να είναι σηµαντικές είτε κακόβουλες και αναξιόπιστες. Η συλλογή πληροφοριών γύρω από ένα έγκληµα µπορεί να γίνει από διαφορές πηγές και µάλιστα πολλές φορές απίθανες. Όλες θα πρέπει να είναι ευπρόσδεκτες, ωστόσο η συνεκτίµηση και η ανάλυση τους θα κάνει την αστυνοµία να φαίνεται επιτυχηµένη ή όχι (Ξανθάκος, 2007). Ένα από τα κυρία χαρακτηριστικά της σύγχρονης εποχής είναι η µαζική καταγραφή και αποθήκευση δεδοµένων ή πληροφοριών. Τεράστιες ποσότητες δεδοµένων καταγράφονται καθηµερινά και αποθηκεύονται σε αποθηκευτικά µέσα, τα οποία γίνονται συνεχώς φθηνότερα σε κόστος. Το ίδιο το πληροφοριακό σύστηµα (Police On Line) της Ελληνικής Αστυνοµίας είναι µία τέτοια τεράστια βάση δεδοµένων. Το µέγεθός των δεδοµένων µιας τέτοιας βάσης γίνεται αντιληπτό, αν σκεφτείτε πόσες έγγραφες και καταχωρίσεις πραγµατοποιούνται καθηµερινά σε αυτή από αστυνοµικούς διαφόρων υπηρεσιών του Σώµατος. Κείµενα, στατιστικά στοιχεία, φωτογραφίες, ήχος και πολλά άλλα είναι µερικά από τα δεδοµένα που δηµιουργούνται και αποθηκεύονται καθηµερινά. Ωστόσο η µαζική συσσώρευση δεδοµένων από µόνη της συνιστά µια δυνατότητα, όχι όµως και µια ικανότητα. Οι ικανότητες του ανθρώπινου εγκεφάλου είναι ανεπαρκείς να διαχειριστούν αυτόν τον τεράστιο όγκο δεδοµένων (Κύρκος, 2012). Για το λόγο αυτό απαιτούνται ειδικά εξελιγµένα εργαλεία που θα µετατρέπουν τα µη επεξεργασµένα δεδοµένα ή τις µη επεξεργασµένες «ωµές» πληροφορίες σε χρήσιµη, επεξεργασµένη, πληροφορία. Εξόρυξη δεδοµένων Για να προχωρήσουµε, ας φέρουµε ένα απλό παράδειγµα. Ας αναλογιστούµε τη θέση της αστυνοµίας µε αυτή ενός επιδόξου επιχειρηµατία που µόλις ξόδεψε µια περιουσία για να αγοράσει µια έκταση πλαγίας σε ένα βουνό. Ας παροµοιάσουµε τη τεράστια και αχανή αυτή πλαγιά µε τη 2
Γεωργιτσόπουλος, Ν. (27 Ιανουαρίου 2015). Εξόρυξη ∆εδοµένων: Μια επισκόπηση εφαρµογών στην Αστυνοµία (Data Mining: An overview of applications at Police). www.policenet.gr. ∆ιαθέσιµο σε: http://tinyurl.com/PoliceDataMining.
βάση δεδοµένων ή τις διάφορες βάσεις δεδοµένων που είναι στη διάθεση της αστυνοµίας. Εκτός από την προφανή αξία της έκτασης γης που θα έχει αυτή, συνεχίζοντας στο παράδειγµα, κάπου στο έγκατα αυτής της περιοχής έχουν πληροφορήσει τον επίδοξο επιχειρηµατία ότι υπάρχουν κοιτάσµατα πολύτιµων ορυκτών. Παρέλειψαν όµως να πληροφορήσουν τον τελευταίο, που ακριβώς είναι αυτά ή πως θα εξάγει τα πολύτιµα αυτά κοιτάσµατα ορυκτών για να παράγει κέρδος στη πράξη. Στην ίδια περίπου θέση του επιχειρηµατία βρίσκεται και η Ελληνική Αστυνοµία όταν επενδύει και αναπτύσσει µια ή πολλές βάσεις δεδοµένων, οι οποίες αποθηκεύουν όλο το δυνατό για την λειτουργία της όγκο δεδοµένων. Εύκολα θα µπορούσαµε να συµπεραίνουµε πως είναι προφανώς χρήσιµο η Ελληνική Αστυνοµία να διαθέτει και να διατηρεί αυτά τα δεδοµένα, όµως αυτό που δεν κατέχει είναι το πώς από τον αχανή αυτό όγκο δεδοµένων µπορεί, αρχικά, να προκύψει χρήσιµη γνώση, και στη συνέχεια µε πιο τρόπο αυτή τη γνώση µπορεί να οδηγήσει σε σηµαντικά οφέλη για την εκπλήρωση του σκοπού της και την αντιµετώπιση του εγκλήµατος. Η διαθεσιµότητα µεγάλων ποσοτήτων δεδοµένων και η ανάγκη να ανακτηθεί από αυτά χρήσιµη πληροφορία αποτέλεσαν τις βασικές αιτίες για τη δηµιουργία του κλάδου της Πληροφορικής που ονοµάζεται Εξόρυξη ∆εδοµένων (data mining). Επανερχόµενοι στο παράδειγµα µε τη πλαγιά του βουνού που αναφέρθηκε παραπάνω, η εξόρυξη δεδοµένων (data mining) βοηθά στην ανακάλυψη της χρήσιµης γνώσης. ∆ηµιουργεί τα απαραίτητα «ορυχεία» και προσφέρει τα κατάλληλα εργαλεία που έχουν ως στόχο να εξάγουν τα πολύτιµα ορυκτά (χρήσιµες πληροφορίες) από τη πλαγιά του βουνού (βάση δεδοµένων) και να τα παραδώσουν σε καθαρή µορφή στον ιδιοκτήτη τους (την αστυνοµία). Τα ορυκτά αυτά µπορεί να είναι χρυσός κι ασήµι (χρήσιµες πληροφορίες), αλλά µπορεί να είναι και άνθρακας (ήδη γνωστές πληροφορίες). Σε οποιαδήποτε περίπτωση όµως, αν τα εκµεταλλευτεί κανείς έξυπνα και σωστά, µπορεί να αποκοµίσει σηµαντικά «κέρδη». Η εξόρυξη δεδοµένων είναι ένας συλλογικός όρος που περιλαµβάνει ένα σύνολο µεθοδολογιών µε στόχο την ανακάλυψη έγκυρης, συνθέτης, όχι προφανούς και εν δυνάµει χρήσιµης γνώσης που είναι κρυµµένη σε µεγάλους όγκους δεδοµένων (Frawley κ.ά., 1992; Hand κ.ά., 2001; Monk κ.ά., 2006). Ο όρος «εξόρυξη δεδοµένων» µπορεί να είναι λίγο παραπλανητικός, γιατί αυτό που τελικά εξορύσσεται δεν είναι τα δεδοµένα, αλλά η γνώση που βρίσκεται κρυµµένη στα δεδοµένα (Κύρκος, 2012). Η γνώση που παράγεται από τεχνικές εξόρυξης δεδοµένων αποτελεί, σε αντίθεση µε την ακατέργαστη και ωµή πληροφορία (raw information) που αναλύθηκε σε προηγούµενη παράγραφο, επεξεργασµένη, αξιοποιήσιµη πληροφορία (intelligence). Ένας πιο δόκιµος όρος θα ήταν «Εξόρυξη γνώσης από βάσεις δεδοµένων». Επίσης ένας άλλος ισοδύναµος όρος που χρησιµοποιείται είναι η «Ανακάλυψη γνώσης σε βάσεις δεδοµένων» (Knowledge Discovery in Databases-KDD), (Frawley κ.ά., 1992; Hand κ.ά., 2001; Monk κ.ά., 2006). Η Εξόρυξη ∆εδοµένων ενσωµατώνει έννοιες, τεχνικές, και µεθόδους από τη στατιστική, τη τεχνητή νοηµοσύνη, τις βάσεις δεδοµένων και την αναγνώριση προτύπων (Κύρκος, 2012). Αντικείµενο της εξόρυξης δεδοµένων είναι η ανακάλυψη γνώσης µέσα από τα δεδοµένα. Η γνώση αυτή οφείλεται να προσδιορίζεται επακριβώς, και όχι µε φιλοσοφικές προσεγγίσεις. Αυτό που τελικά εντοπίζουν και εξάγουν οι µεθοδολογίες της εξόρυξης δεδοµένων είναι κανονικότητες, πρότυπα και σχέσεις δεδοµένων που περιγράφουν ή διαφοροποιούν κατηγορίες ή περιπτώσεις και που µπορούν πιθανώς να χρησιµεύσουν για τη διατύπωση προβλέψεων (Κύρκος, 2012). Τεχνικές Εξόρυξης ∆εδοµένων H εξόρυξη δεδοµένων χρησιµοποιεί διάφορες τεχνικές προκειµένου να επεξεργαστεί τα δεδοµένα που είναι διαθέσιµα. Κάθε µια από τις παρακάτω τεχνικές βρίσκει εφαρµογή σε ένα ή 3
Γεωργιτσόπουλος, Ν. (27 Ιανουαρίου 2015). Εξόρυξη ∆εδοµένων: Μια επισκόπηση εφαρµογών στην Αστυνοµία (Data Mining: An overview of applications at Police). www.policenet.gr. ∆ιαθέσιµο σε: http://tinyurl.com/PoliceDataMining.
περισσότερα πεδία, όπως θα φανεί στη συνέχεια. Μια κατηγοριοποίηση των τεχνικών εξόρυξης δεδοµένων ανάλογα µε το είδος της γνώσης που εξάγεται µπορεί να είναι η ακόλουθη (Κύρκος, 2012): Εξόρυξη Οντοτήτων (entity extraction) όπου προσδιορίζει συγκεκριµένα µοτίβα από δεδοµένα, όπως κείµενο, εικόνες, ή ακουστικό υλικό. Έχει χρησιµοποιηθεί για την αυτόµατη αναγνώριση προσώπων, διευθύνσεων, οχηµάτων και προσωπικών χαρακτηριστικών από αστυνοµικές εκθέσεις και αναφορές (Chau κ.ά., 2002). Χαρακτηρισµός και ∆ιάκριση (characterization and discrimination) όπου περιγράφονται τα χαρακτηριστικά µια οµάδας δεδοµένων ή συγκρίνονται µεταξύ τους διαφορές οµάδες δεδοµένων. Ανακάλυψη και Ανάλυση Σχέσεων και Προτύπων (association rules and patterns) όπου συνδυασµοί διαφόρων δεδοµένων φαίνονται να συσχετίζονται µεταξύ τους και να δηµιουργούν κανόνες και πρότυπα που ισχύουν γενικά και µπορούν να χρησιµοποιηθούν στο πραγµατικό κόσµο. Η Κατηγοριοποίηση (classification) είναι µια διαδικασία χαρτογράφησης της κλάσης στην οποία ανήκει κάθε παρατήρηση και αφορά τη δηµιουργία µοντέλων που περιγράφουν και διαφοροποιούν τις κατηγορίες των δεδοµένων που είναι εκ των προτέρων γνωστές. Για το λόγο ονοµάζεται και επιβλεπόµενη µάθηση (Κύρκος, 2012). Μια τέτοια τεχνική χρησιµοποιείται για την ανίχνευση των αποστολέων ανεπιθύµητων µηνυµάτων (spam e-mail) ηλεκτρονικού ταχυδροµείου (Chen κ.ά., 2004). Η Πρόβλεψη (prediction) αφορά την επεξεργασία παλαιών και παρόντων δεδοµένων µε σκοπό τη δηµιουργία µοντέλων για τον υπολογισµό µιας αριθµητικής τιµής, όπως για παράδειγµα το ποσοστό εγκληµάτων κλοπών σε µια περιοχή. Η Ανάλυση Οµάδων (cluster analysis) αφορά την ανακάλυψη οµάδων στις οποίες εντάσσονται τα διαφορά δεδοµένα η οποία στοχεύει στη δηµιουργία κατηγοριών για τα αυτά. Σε αντιδιαστολή µε τη κατηγοριοποίηση, εδώ οι κατηγορίες των δεδοµένων δεν είναι εκ των πρότερων γνωστές γι΄ αυτό και ονοµάζεται µη επιβλεπόµενη µάθηση (Κύρκος, 2012). Η τεχνική αυτή χρησιµοποιείται, για παράδειγµα, για να συνδέσει αυτόµατα διάφορα αντικείµενα και υποκείµενα, όπως άτοµα, οργανώσεις, οχήµατα, τοποθεσίες κ.λπ. σε βάσεις δεδοµένων εγκληµάτων (Krishnamurthy και Kumar, 2002). Ο Εντοπισµός Αποκλίνουσων τιµών (outliers analysis) αφορά των εντοπισµό δεδοµένων που αποκλίνουν από το κανονικό. Τέτοιες τεχνικές χρησιµοποιούνται για τον εντοπισµό περιπτώσεων διαφόρων µορφών απάτης ή ξεπλύµατος βρώµικου χρήµατος (Senator, 1995). H Ανάλυσης Εξέλιξης (evolution analysis) περιγράφει και µοντελοποιεί κανονικότητες και τάσεις αντικειµένων που αλλάζουν συµπεριφορά σε σχέση µε τον χρόνο. Μια τέτοια τεχνική για παράδειγµα χρησιµοποιείται για την εύρεση τον ποσοστών της εγκληµατικότητας σε κάθε περιοχή από µία περίοδο σε µια άλλη.
4
Γεωργιτσόπουλος, Ν. (27 Ιανουαρίου 2015). Εξόρυξη ∆εδοµένων: Μια επισκόπηση εφαρµογών στην Αστυνοµία (Data Mining: An overview of applications at Police). www.policenet.gr. ∆ιαθέσιµο σε: http://tinyurl.com/PoliceDataMining.
Σχήµα 1: Προσδιορισµός των σχέσεων µεταξύ των τεχνικών εξόρυξης δεδοµένων που εφαρµόζονται σε διάφορων τύπων εγκλήµατα (Πηγή: Chau κ.ά., 2002).
Μια ακόµα κατηγοριοποίηση (Κύρκος, 2012) των τεχνικών εξόρυξης δεδοµένων γίνεται ανάλογα µε το τύπο και τα διάφορα είδη των δεδοµένων. Εξόρυξη γνώσης µπορεί να γίνει σε σχεσιακές βάσεις δεδοµένων (relational data bases), βάσεις δεδοµένων κειµένου (text data bases), βάσεις δεδοµένων πολυµέσων (multimedia data bases), ακόµα και στο Παγκόσµιο Ιστό (world wide web-www). Μια ακόµα κατηγοριοποίηση (Κύρκος, 2012) των τεχνικών εξόρυξης δεδοµένων θα µπορούσε να γίνει ανάλογα µε τα εργαλεία που χρησιµοποιούνται για την εξόρυξη γνώσης, όπως τα ∆ένδρα αποφάσεων (decision trees), Νευρωνικά δίκτυα (neural networks), Γενετικοί αλγόριθµοι (genetic algorithms), Μπαϋεσιανά δίκτυα (Bayesian networks), Κατηγοριοποιητές βασισµένοι σε παράδειγµα (Instance Based Classifiers), Παλινδρόµηση (Regression), Μηχανές εδραίων διανυσµάτων (Support Vector Machines) και άλλες µέθοδοι. Η εξόρυξη δεδοµένων (data mining) είναι στην πραγµατικότητα µια σχετικά ευρεία έννοια: είναι µια διαδικασία που χρησιµοποιεί αλγόριθµους και µοντέλα για την ανακάλυψη προτύπων σε σύνολα δεδοµένων. Η «αυτοµατοποιηµένη ανάλυση δεδοµένων» (automated data-analysis) εφαρµόζει αυτά τα µοντέλα σε δεδοµένα για τη πρόβλεψη συµπεριφοράς, την εκτίµηση του κινδύνου, τον προσδιορισµό συνδετικών κρίκων, ή για τη πραγµατοποίηση άλλων µορφών αναλύσεων κλπ. Ο όρος «εξόρυξη δεδοµένων» (data mining) χρησιµοποιείται συχνά επιπόλαια και αναφέρεται στην πραγµατικότητα τόσο στην εξόρυξη δεδοµένων όσο και στην εφαρµογή αυτοµατοποιηµένων εργαλείων ανάλυσης αυτών των δεδοµένων (DeRosa, 2004). Τα µοντέλα που χρησιµοποιούνται για την αυτοµατοποιηµένη ανάλυση των δεδοµένων, αν και κάνουν χρήση όλων των παραπάνω τεχνικών που αναφέρθηκαν (classification, prediction κλπ), µπορεί σε γενικές γραµµές να είναι δυο. Πρώτον, είναι αυτά που είναι βασισµένα σε αναγνώριση πρότυπων (pattern-based) (από την εξόρυξη δεδοµένων ή που ανακαλύφθηκαν από άλλες µεθόδους), και δεύτερον, αυτά που είναι βασισµένα σε υποκείµενα (subject-based), τα οποία δηµιουργούν συνδετικούς κρίκους µε ήδη γνωστά υποκείµενα (DeRosa, 2004). Περαιτέρω γι’ αυτά και πιο εξειδικευµένα θα γίνει αναφορά παρακάτω, στις διάφορες περιπτώσεις εφαρµογής τους. Ωστόσο ανησυχίες σχετικά µε την εξόρυξη δεδοµένων υπάρχουν πάντα ή διακυβεύονται. Υπάρχει µια σειρά από κοινές παρανοήσεις σχετικά µε αυτές τις τεχνικές. Η εξόρυξη δεδοµένων εγείρει πολλές ανησυχίες για τη προστασία της ιδιωτικής ζωής (Kargupta κ.ά., 2003). Για 5
Γεωργιτσόπουλος, Ν. (27 Ιανουαρίου 2015). Εξόρυξη ∆εδοµένων: Μια επισκόπηση εφαρµογών στην Αστυνοµία (Data Mining: An overview of applications at Police). www.policenet.gr. ∆ιαθέσιµο σε: http://tinyurl.com/PoliceDataMining.
παράδειγµα, η εξόρυξη δεδοµένων και η ανάλυση τους δεν αυξάνουν την πρόσβαση σε προσωπικά δεδοµένα. Η εξόρυξη δεδοµένων και η ανάλυση τους, σίγουρα µπορεί να κάνει τα ιδιωτικά δεδοµένα που συλλέγονται πιο χρήσιµα, αλλά µπορεί να λειτουργήσει µόνο σε δεδοµένα που είναι ήδη προσιτά και διαθέσιµα (DeRosa, 2004). Ένας άλλος µύθος είναι ότι η εξόρυξη δεδοµένων και η ανάλυση των δεδοµένων απαιτεί µάζες δεδοµένων σε µία µεγάλη βάση δεδοµένων. Στην πραγµατικότητα, η εξόρυξη δεδοµένων και η ανάλυση τους µπορεί να διεξαχθεί χρησιµοποιώντας µία σειρά από βάσεις δεδοµένων διαφόρων µεγεθών (DeRosa, 2004). Εφαρµογές Εξόρυξης ∆εδοµένων Εφόσον οι δραστηριότητες της σηµερινής κοινωνίας προκαλούν τη µαζική καταγραφή και αποθήκευση δεδοµένων που αναφέρονται σε πλήθος διαφορετικών θεµάτων, η εξόρυξη δεδοµένων (data mining) βρίσκει αντίστοιχο πλήθος πεδίων εφαρµογής τόσο στον ιδιωτικό όσο και στο δηµόσιο τοµέα. Στον ιδιωτικό τοµέα, ως ενδεικτικά πεδία εφαρµογής, µπορούν να αναφερθούν: η ιατρική, και ειδικότερα η διάγνωση, η βιολογία και η ανάλυση δεδοµένων DNA, οι τηλεπικοινωνίες, η ενέργεια και η πρόβλεψη αναγκών για ηλεκτρικά φορτία, η λιανικές πωλήσεις και η διαχείριση της σχέσης µε τον πελάτη, τα χρηµατοοικονοµικά, οι τράπεζες και η ελεγκτική, ο αθλητισµός και πολλά άλλα (Κύρκος, 2012). Οι ιδιωτικές εταιρείες συλλέγοντας στοιχεία για τους πελάτες τους µπορούν να είναι σε θέση να γνωρίζουν µε βάση ορισµένα χαρακτηριστικά εάν ένας πελάτης µιας τράπεζας «αξίζει» να του χορηγηθεί ένα δάνειο σύµφωνα µε τη πιστοληπτική του ικανότητα ή εάν ένα «ατύχηµα» που δηλώθηκε σε µια ασφαλιστική εταιρεία στοχεύει στην εξαπάτησή της. Ένα παράδειγµα χρήσης µοντέλων βασισµένα στο υποκείµενο (subject-based) σε συνδυασµό µε την ανάλυση συνδετικών κρίκων (links analysis), τα οποία χρησιµοποιούνται στον ιδιωτικό τοµέα, είναι το λογισµικό NORA™ (Non Obvious Relationship Awareness), το οποίο χρησιµοποιείται για την πρόληψη της απάτης (fraud), της εξαπάτησης (cheating) και της κλοπής (theft) από τα καζίνο στο Λας Βέγκας των Η.Π.Α. (Jonas, 2003). Το συγκεκριµένο παράδειγµα αξίζει να αναφερθεί γιατί προσοµοιάζει το τρόπο λειτουργίας παρόµοιων συστηµάτων εξόρυξης δεδοµένων που έχουν άµεση σχέση µε θέµατα αντιµετώπισης της τροµοκρατίας, όπως θα γίνει αναφορά στη συνέχεια σε παρακάτω παραγράφους. Η βιοµηχανία παιχνιδιών των Η.Π.Α. έχει αναπτύξει µια λίστα παρακολούθησης «αποκλεισµένων ατόµων» τα ονόµατα των οποίων απαγορεύεται να εισέλθουν σε καζίνο. Το λογισµικό NORA™ είναι ικανό να αναζητήσει µέσα από µαζικές βάσεις δεδοµένων για να βρει αν υπάρχει σχέση µεταξύ, για παράδειγµα, ενός ατόµου που αναζητά µια θέση εργασίας σε ένα καζίνο, και ενός προσώπου που βρίσκεται στη λίστα αποκλεισµού (Jonas, 2003). Ίσως ο ένοικος ενός υπνοδωµατίου σε ένα καζίνο µία φορά να πούλησε ένα σπίτι, ή να χρησιµοποίεισαι ως σύσταση για την απασχόληση του κάπου, ένα πρόσωπο που είναι στη λίστα αποκλεισµού. Πρόκειται για πληροφορίες που το καζίνο µπορεί να χρησιµοποιήσει για να εστιάσει τους πόρους του στη δική του έρευνα για τη πρόληψη εξαπάτησης και κλοπής σε βάρος του (Jonas, 2003). Από την άλλη πλευρά, στο δηµόσιο τοµέα, η εξόρυξη δεδοµένων (data mining) χρησιµοποιείται για την πρόληψη απάτης και εξαπάτησης. Το ξέπλυµα χρήµατος και η φοροδιαφυγή µπορούν να καταπολεµηθούν µε τα σωστά εργαλεία εξόρυξης δεδοµένων. Οι διωκτικές αρχές και η αστυνοµία όπως προαναφέρθηκε, συλλέγουν και αναλύουν πληροφορίες για να ερευνήσουν εγκληµατικές και όχι µόνο δραστηριότητες. Μια µεγάλη πρόκληση είναι η ανάλυση µεγάλων όγκων δεδοµένων που αφορούν εγκληµατικές και τροµοκρατικές δραστηριότητες. Η εφαρµογή τεχνικών εξόρυξης δεδοµένων από τέτοια δεδοµένα κάνει την ανάλυση µεγάλων βάσεων δεδοµένων µια διαδικασία απλή, εύκολη, γρήγορη και πρακτική. 6
Γεωργιτσόπουλος, Ν. (27 Ιανουαρίου 2015). Εξόρυξη ∆εδοµένων: Μια επισκόπηση εφαρµογών στην Αστυνοµία (Data Mining: An overview of applications at Police). www.policenet.gr. ∆ιαθέσιµο σε: http://tinyurl.com/PoliceDataMining.
Η εξόρυξη γνώσης που σχετίζεται µε εγκλήµατα αλλά και την αστυνοµία στη διεθνή βιβλιογραφία είναι γνωστή κυρίως µε τον όρο «crime data mining» ή «police data mining», (DeRosa, 2004; Chen κ.ά., 2003; Elovici κ.ά., 2004; Chau κ.ά., 2002). Στη συνέχεια γίνεται µια αναφορά στα διάφορα πεδία εφαρµογής συναφή µε το έργο και το αντικείµενο απασχόλησης της αστυνοµίας. Τροµοκρατία Μετά την επίθεση της 11ης Σεπτεµβρίου 2001 στο παγκόσµιο κέντρο εµπορίου, η κυβέρνηση των Η.Π.Α. εξαπέλυσε πόλεµο κατά της τροµοκρατίας. Οι προσπάθειες εστιάστηκαν στο πώς θα βρεθούν τα δίκτυα εκείνα που συνδέουν τις διάφορες τροµοκρατικές οργανώσεις µεταξύ τους και στον τρόπο που χρηµατοδοτούνται από τα ήδη υπάρχοντα δεδοµένα που ήταν στη διάθεση της. Η εξόρυξη δεδοµένων (data mining) αποτέλεσε το νούµερο ένα εργαλείο για αυτό το σκοπό όπως αποκαλύπτεται µέσα από τη σχετική βιβλιογραφία. Τα µοντέλα εξόρυξης δεδοµένων που είναι βασισµένα σε υποκείµενα (subject-based) βρίσκουν ευρεία εφαρµογή σε θέµατα αντιµετώπισης της τροµοκρατίας, καθώς ξεκινούν µε ένα συγκεκριµένο και γνωστό θέµα (πρόσωπο, τοποθεσία, κλήση κλπ) και την αναζήτηση περισσότερών πληροφοριών που συνδέονται µε αυτό. Το υποκείµενο θα µπορούσε να είναι µια ταυτότητα (για παράδειγµα ένας ύποπτος, ένας επιβάτης αεροπορικής εταιρείας ή ένα όνοµα σε µια λίστα παρακολουθήσης) ή θα µπορούσε να είναι κάτι άλλο συγκεκριµένο (όπως µια τοποθεσία ή ένας αριθµός τηλεφώνου). Ένα τέτοιο µοντέλο που βασίζεται στο υποκείµενο, θα αναζητήσει περισσότερες πληροφορίες σχετικά και µια πιο πλήρη κατανόηση του υπο έρευνα υποκειµένου, όπως οι δραστηριότητες που ένα άτοµο έχει εµπλακεί ή συνδέσεις µε άλλους ανθρώπους, τόπους και πράγµατα. Παρέχει, επίσης, συνδέτικούς κρίκους (links) και σε άλλα υποκείµενα που θα µπορούσαν να διερευνηθούν (DeRosa, 2004). Η ανάλυση συνδετικών κρίκων (link analysis) είναι ένας τύπος µοντέλου εξόρυξης γνώσης που βασίζεται στο υποκείµενο (subject-based) που είναι ήδη σε χρήση. Η ανάλυση συνδετικών κρίκων (link analysis) διαπερνά βάσεις δεδοµένων για να βρει συνδέσεις (links) ανάµεσα σε ένα υποκείµενο (όπως για παράδειγµα έναν ύποπτο, µια διεύθυνση ή κάποιο κοµµάτι πληροφορίας) και άλλους ανθρώπους, διευθύνσεις ή πράγµατα. Αυτό µπορεί να παρέχει και άλλα στοιχεία προκειµένου να ακολουθήσουν οι αναλυτές ή οι ερευνητές. Η ανάλυση συνδετικών κρίκων που έγινε µετά την 11η Σεπτεµβρίου 2001 αποκάλυψε και τα 19 ονόµατα των τροµοκρατών που επέβαιναν στα µοιραία αεροπλάνα (DeRosa, 2004).
7
Γεωργιτσόπουλος, Ν. (27 Ιανουαρίου 2015). Εξόρυξη ∆εδοµένων: Μια επισκόπηση εφαρµογών στην Αστυνοµία (Data Mining: An overview of applications at Police). www.policenet.gr. ∆ιαθέσιµο σε: http://tinyurl.com/PoliceDataMining.
Σχήµα 2: Το τροµοκρατικό δίκτυο που περιέχει τους 19 αεροπειρατές της 11ης Σεπτεµβρίου 2001 (Πηγή: Chen & Xu, 2005).
Ωστόσο το κοµµάτι της εξόρυξης γνώσης που είναι βασισµένο σε υποκείµενα (sublectbased) είναι µόνο το ένα µέρος του νοµίσµατος. Από την άλλη πλευρά βρίσκεται η αναγνώριση προτύπων (pattern-based). Τα µοντέλα εξόρυξης γνώσης που είναι βασισµένα σε υποκείµενα στοχεύουν στον εντοπισµό τροµοκρατών. Από την άλλη πλευρά τα µοντέλα αναγνώρισης προτύπων στοχεύουν στον εντοπισµό αδρανών ή «εν υπνώσει» θυλάκων τροµοκρατίας (sleeper cells), (Krebs, 2002). Αυτά τα µοντέλα εξόρυξης γνώσης είναι δυνατό να παρέχουν στοιχεία για κάποιον άγνωστο τροµοκράτη που δεν έχει ασχοληθεί µε παρόµοια δραστηριότητα ξανά και τη δυνατότητα διασύνδεσης µε ήδη γνωστή τροµοκρατική δραστηριότητα ή τροµοκράτη (DeRosa, 2004). Τα µοντέλα εξόρυξης γνώσης που είναι βασισµένα σε αναγνώριση προτύπων (pattern based) µπορούν να χρησιµεύσουν για τη «πρόγνωση» τροµοκρατικών ενεργειών. Για παράδειγµα ένας «εν υπνώσει» (sleeper) τροµοκρατής σε µια χώρα ο οποίος αγοράζει µέσω µιας πιστωτικής κάρτας ένα βιβλίο σχετικό µε εκρηκτικές ύλες και 50 κιλά λίπασµα σε σάκους του ενός κιλού από διαφορετικά καταστήµατα (DeRosa, 2004). Ή υπάρχει η ανησυχία, για παράδειγµα, ότι οι τροµοκράτες ενδέχεται να χρησιµοποιούν µεγάλα φορτηγά για τροµοκρατικά χτυπήµατα (Farzad, 2003). Σε αυτή τη περίπτωση η εξόρυξη δεδοµένων θα είναι σε θέση να συνδυάσει ανθρώπους που έχουν νοικιάσει µεγάλα φορτηγά, µε κρατήσεις σε ξενοδοχεία και µέσα από ορισµένους παράγοντες όπως η ηλικία, το φύλλο και άλλους, να καταλήξει εάν υπάρχει κάποιο τροµοκρατικό µοτίβο ή σχέδιο (Farzad, 2003). Η εξόρυξη δεδοµένων επίσης µε τη χρήση βάσεων δεδοµένων νοσοκοµείων και φαρµακευτικών αγορών µπορεί να προειδοποιήσει έγκαιρα για ένα τροµοκρατικό χτύπηµα βιολογικού πολέµου (Perez-Pena, 2003). Η εξόρυξη δεδοµένων, αναµφίβολα, έχει αποδειχθεί ως το νούµερο ένα εργαλείο για την προστασία της δηµόσιας ασφάλειας. Για τις διωκτικές αρχές και τις υπηρεσίες πληροφοριών πολλών δυτικών χωρών η αντιµετώπιση της διεθνούς τροµοκρατίας θεωρείται µείζον ζήτηµα και η εξόρυξη δεδοµένων συµβάλει στην ανακάλυψη τροµοκρατικών δραστηριοτήτων µέσα από µεταφορές 8
Γεωργιτσόπουλος, Ν. (27 Ιανουαρίου 2015). Εξόρυξη ∆εδοµένων: Μια επισκόπηση εφαρµογών στην Αστυνοµία (Data Mining: An overview of applications at Police). www.policenet.gr. ∆ιαθέσιµο σε: http://tinyurl.com/PoliceDataMining.
χρηµάτων και επικοινωνίες, καθώς και στην αναγνώριση και τον εντοπισµό τροµοκρατών µέσα από αρχεία ταξιδιωτικών εταιρειών κλπ. Οργανωµένο έγκληµα Οι διασυνδέσεις των διαφόρων µερών µιας εγκληµατικής οργάνωσης είναι συχνά σύνθετες, δαιδαλώδεις και καλά κρυµµένες. ∆ύσκολα µπορεί να τις προσεγγίσει ο αστυνοµικός ερευνητής, γι’ αυτό και δεν είναι εύκολο να αποκαλυφθεί οτι πρόκειται για κάποιο εγκληµατικό κύκλωµα. Γι’ αυτό και πολλές δραστηριότητες γίνονται τις περισσότερες φορές, µε τέτοιο τρόπο έτσι ώστε να φαίνονται για κάποια µεµονωµένη πράξη, αποκλείοντας από τον άπειρο παρατηρητή τη «συνολική εικόνα» τρόπου δράσης. Σε αντίθεση µε άλλα εγκλήµατα, όπως για παράδειγµα µια ανθρωποκτονία ή µια κλοπή που τελούνται από έναν, µέχρι λίγους δράστες, οι εγκληµατικές οργανώσεις δρούν µε περισσότερα του ενός, συνεργαζόµενα µεταξύ τους, µέλη. Τα µέλη µιας εγκληµατικής οργάνωσης είναι δυνατό να σχηµατίζουν υποοµάδες και σχηµατισµούς πυρήνων επιτελλόντας διαφορετικούς ρόλους και σκοπούς στο πλαίσιο δράσης της εγκληµατικής οργάνωσης (Chen & Xu, 2005). Σε µια εγκληµατική οργάνωση διακίνησης ναρκωτικών, για παράδειγµα, διαφορετικές οµάδες ατόµων µπορεί να είναι υπεύθυνες για την προµήθεια των ναρκωτικών, την διανοµή, την πώληση, τη συλλογή των χρηµάτων και τέλος το ξέπλυµα τους (Chen & Xu, 2005). Σε κάθε µία από τις οµάδες αυτές που αναλαµβάνει ένα συγκεκριµένο σκοπό (προµήθεια, διανοµή κλπ), πιθανότατα υπάρχει ένας αρχηγός, ο οποίος παρέχει εντολές στα υπόλοιπα µέλη της υποοµάδας και στήνει µηχανισµούς µεταξύ των µελών άλλων υποοµάδων του εγκληµατικού δικτύου, έτσι ώστε να διασφαλίζεται η ροή των πληροφοριών, των ναρκωτικών και του χρήµατος ανάµεσα σ’ αυτές (Chen & Xu, 2005). Οι τεχνικές εξόρυξης δεδοµένων στοχεύουν σε αυτό ακριβώς το γεγονός. Κάνουν τις συνδέσεις µε πρόσωπα και καταστάσεις που θα ήταν πολύ δύσκολο να κάνει ο αστυνοµικός ερευνητής και βοηθούν στην αποκάλυψη της δράσης τους. Βασισµένοι σε αστυνοµικά δεδοµένα του αστυνοµικού τµήµατος του Tucson που βρίσκεται στην Αριζόνα των Η.Π.Α., οι Chen κ.α. (2003) κατάφεραν, µέσω του συνδυασµού εξόρυξης δεδοµένων (data mining) και ανάλυσης εγκληµατικών δικτύων (criminal network analysis), να εντοπίσουν δύο εγκληµατικές οργανώσεις, όπως φαίνεται στο παρακάτω σχήµα.
9
Γεωργιτσόπουλος, Ν. (27 Ιανουαρίου 2015). Εξόρυξη ∆εδοµένων: Μια επισκόπηση εφαρµογών στην Αστυνοµία (Data Mining: An overview of applications at Police). www.policenet.gr. ∆ιαθέσιµο σε: http://tinyurl.com/PoliceDataMining.
Σχήµα 3: Τα δυο εγκληµατικά δίκτυα. (Πηγή: Chen κ.ά., 2003)
Ανάλυση του 3ου Σχήµατος: (A) Το πρώτο εγκληµατικό δίκτυο αποτελούταν από 60 εγκληµατίες που ασχολούνταν µε ναρκωτικά. (B) Μια αλυσίδα (κόκκινη γραµµή) που ενώνει τα µέλη των υποοµάδων γίνεται ορατή µέσω της ανάλυσης υποοµάδων (clustering). Οι κύκλοι αντιπροσωπεύουν τις υποοµάδες που χαρακτηρίζονται από το όνοµα του αρχηγού της κάθε µιας, ενώ οι ευθείες γραµµές αντιπροσωπεύουν τις σχέσεις των υποοµάδων µεταξύ τους. (C) Το µοντέλο που δηµιουργήθηκε είναι ικανό επίσης να απεικονίσει την εσωτερική δοµή της επιλεγµένης υποοµάδας, αναγνωρίζοντας τα κεντρικά της µέλη και παρουσιάζοντας την ιεραρχία τους σε ένα ξεχωριστό πίνακα. (D) Το δεύτερο εγκληµατικό δίκτυο αποτελείται από 57 µέλη συµµορίας. (E) Η δοµή σε αυτό το δίκτυο έχει τη µορφή ακτινωτού αστέρα, σε αντίθεση µε το πρώτο που ήταν γραµµική. (F) Οι λεπτοµέρειες από µια επιλεγµένη υποοµάδα του δευτέρου εγκληµατικού δικτύου (Chen κ.ά., 2003). Η επιβεβαίωση και η επικύρωση (validation) των µοντέλων αυτών συνάγεται και από το γεγονός ότι αποτελέσµατα τέτοιων αναλύσεων αξιολογούνται από αστυνοµικούς ερευνητές που είναι ειδικοί και ασχολούνται µε εγκληµατικές οργανώσεις. Η δοµή, οι υποοµάδες και οι διασυνδέσεις των προσώπων µιας εγκληµατικής οργάνωσης που απεικονίζουν τα µοντέλα εξόρυξης δεδοµένων αντιστοιχούν µε τη πραγµατικότητα. Μάλιστα τις περισσότερες φορές οι αναλύσεις απεικονίζουν σωστά τα κεντρικά µέλη των διαφόρων «πυρήνων» δράσης µιας εγκληµατικής οργάνωσης και τη σύσταση των µελών του πυρήνα (Chen κ.ά., 2004). Το πιο σηµαντικό γεγονός που βοηθάει την αστυνοµία, η εξόρυξη δεδοµένων και η εφαρµογή της σε τέτοιες περιπτώσεις, είναι ότι αυξάνεται η παραγωγικότητα των αστυνοµικών ερευνητών και ανακαλύπτεται γνώση που για να δηµιουργηθεί χειρονακτικά θα απαιτούσε ώρες εργασίας (Chen κ.ά., 2004). Ο χρόνος αυτός µπορεί να αξιοποιηθεί πιο αποδοτικά σε άλλες ενέργειες. Επιπλέον γίνεται αντιληπτός ο τρόπος οργάνωσης, διάρθρωσης και επικοινωνίας µεταξύ 10
Γεωργιτσόπουλος, Ν. (27 Ιανουαρίου 2015). Εξόρυξη ∆εδοµένων: Μια επισκόπηση εφαρµογών στην Αστυνοµία (Data Mining: An overview of applications at Police). www.policenet.gr. ∆ιαθέσιµο σε: http://tinyurl.com/PoliceDataMining.
των υποοµάδων των εγκληµατικών οργανώσεων. Έτσι µπορούν να προλαµβάνονται εγκληµατικές πράξεις γρηγορότερα, αλλά και να σχεδιαστεί παραπέρα ο τρόπος εξάρθρωσης αυτών (Chen κ.ά., 2004). Ξέπλυµα Χρηµάτων-Φοροδιαφυγή Ο εντοπισµός ύποπτων δραστηριοτήτων µέσα από το αµέτρητο σύνολο καθηµερινών συναλλαγών σε τραπεζικές εργασίες αποτελεί ένα µεγάλο πρόβληµα. Η εξόρυξη δεδοµένων (data mining) σε αυτή τη περίπτωση αφορά µια διαδικασία εντοπισµού αποκλίνουσων συµπεριφορών (outliers analysis). Το ξέπλυµα βρώµικου χρήµατος είναι συναφής µε την έρευνα κατά της τροµοκρατίας, καθώς σχετίζεται µε το τρόπο χρηµατοδοτησής της. Από µελέτη που έγινε, διαπιστώθηκε ότι οι περισσότερες περιπτώσεις ξεπλύµατος αφορούσαν πολλά µικρά και διάσπαρτα χρηµατικά ποσά και όχι µεγάλα όπως θα περίµενε λογικά κάποιος (DeRosa, 2004). Τα µοντέλα εξόρυξης δεδοµένων που είναι βασισµένα σε αναγνώριση προτύπων (patternbased), και οι διαδικασίες εντοπισµού αποκλίνουσων συµπεριφορών (outliers analysis) βρίσκουν ευρεία εφαρµογή σε θέµατα ανακάλυψης περιπτώσεων νοµιµοποίησης εσόδων που προέρχονται από εγκληµατικές δραστηριότητες (ξέπλυµα χρήµατος). Τα µοντέλα εξόρυξης δεδοµένων βασισµένα σε αναγνώριση προτύπων (pattern-based) περιλαµβάνουν τον προσδιορισµό κάποιου µοντέλου πρόβλεψης (prediction) ή προτύπου συµπεριφοράς (association rules and patterns) και ψάχνουν για αυτό το µοτίβο σε διάφορα σύνολα δεδοµένων και βάσεις δεδοµένων. Αυτά τα µοντέλα µπορούν να δηµιουργηθούν είτε µέσω της εξόρυξης δεδοµένων, είτε µπορούν να αναγνωριστούν και να εισαχθούν από από ειδικούς στη γνώση πληροφοριών ή τεχνογνωσίας σχετικά µε το θέµα της νοµιµοποίησης εσόδων από εγκληµατικές δραστηριότητες. Η µέθοδος αυτή ψάχνει για αντίστοιχα περιστατικά που ταιριάζουν µε τα πρότυπα, που ταιριάζουν µε παράνοµες µεθόδους ξεπλύµατος χρήµατος (DeRosa, 2004). Μια µακροχρόνια χρήση τέτοιων µοντέλων, βασισµένη σε αναγνώριση προτύπων (patternbased) γίνεται από το Τµήµα Οικονοµικού Εγκλήµατος (Financial Crimes Enforcement NetworkFinCEN) του Υπουργείου Οικονοµικών των Η.Π.Α., για την ανίχνευση δραστηριοτήτων σχετικών µε το ξέπλυµα χρήµατος. Το FinCEN αναλύει βάσεις οικονοµικών δεδοµένων και προσδιορίζει τα πρότυπα ξεπλύµατος χρήµατος από προηγούµενες ήδη γνωστές περιπτώσεις νοµιµοποίησης εσόδων από εγκληµατικές δραστηριότητες (Senator, 1995). Για παράδειγµα, το ξέπλυµα χρήµατος συχνά συνεπάγεται ότι τα άτοµα εισάγουν µεγάλα χρηµατικά ποσά στο χρηµατοπιστωτικό σύστηµα σε µικρές δόσεις, υπό το πρόσχηµα µιας ήδη υπάρχουσας επιχείρησης (DeRosa, 2004). Στη συνέχεια, χρησιµοποιούν τα χρήµατα αυτά για να εισάγουν στις Η.Π.Α. υπερτιµηµένα προϊόντα, ώστε τα χρήµατα να ρέουν έξω από τις Η.Π.Α., προκειµένου να προσλάβουν την επιθυµητή νοµιµοφάνεια, να φαίνεται δηλαδή ή έστω να δίνουν την εντύπωση, ότι αποκτήθηκαν από νόµιµη αιτία ή ότι προέρχονται από νόµιµη πηγή (Ξανθάκος, 2007). Κανένα από αυτά τα βήµατα που περιγράφηκαν, προηγουµένως, αν δεν συνδεθούν, και παρατηρηθούν ανεξάρτητα µεταξύ τους, απαραίτητα δε θα ήταν ύποπτα ή δεν προδιαθέτουν για κάτι τέτοιο, αλλά ολόκληρο το µοτίβο είναι σύµφωνο µε πρακτικές ξεπλύµατος χρήµατος (DeRosa, 2004). Το FinCEN αναζητά αυτά τα µοτίβα στα δεδοµένα που υπάρχουν σε µια ποικιλία από βάσεις δεδοµένων και χρησιµοποιεί τις πληροφορίες που συλλέγει για την επιβολής της σχετικής νοµοθεσίας (Senator, 1995). Το σύστηµα εξόρυξης δεδοµένων που εφαρµόζεται στην αντίστοιχη ∆ηµόσια Οικονοµική Υπηρεσία των Η.Π.Α. (Internal Revenue Service-IRS) για τον εντοπισµό ατόµων υψηλού εισοδήµατος που σχετίζονται µε καταχρηστική φοροαπαλλαγή και φοροαποφυγή παρουσιάζει σηµαντικά θετικά αποτελέσµατα (DeBarr & Eyler-Walker, 2006). Οι κύριες γραµµές της έρευνας 11
Γεωργιτσόπουλος, Ν. (27 Ιανουαρίου 2015). Εξόρυξη ∆εδοµένων: Μια επισκόπηση εφαρµογών στην Αστυνοµία (Data Mining: An overview of applications at Police). www.policenet.gr. ∆ιαθέσιµο σε: http://tinyurl.com/PoliceDataMining.
περιλαµβάνουν την οπτικοποίηση των σχέσεων και την εξόρυξη γνώσης από δεδοµένα για τον εντοπισµό και την αξιολόγηση ενδεχοµένως καταχρηστικών πράξεων φοροδιαφυγής και φοροαποφυγής (DeBarr & Eyler-Walker, 2006). Ανακάλυψη Γεωγραφικής Θέσης Εγκληµάτων Η εξόρυξη δεδοµένων µπορεί να συνδυαστεί µε το παγκόσµιο σύστηµα εντοπισµού θέσης (Global Position System-GPS) και µε τα διάφορα Γεωγραφικά Συστήµατα Πληροφοριών (Geographical Information System-GIS) µε σκοπό να βοηθήσουν τον εντοπισµό µερών και θέσεων στο χάρτη που διαπράττονται εγκλήµατα. Οι Estivill-Castro και Lee (2001) δηµιούργησαν έναν αλγόριθµο που συνδέει τις διάφορες περιοχές του Βρετανικού χάρτη µε τα εγκλήµατα και τα περιστατικά που διαπράττονται σε κάθε περιοχή και το τρόπο µε τον οποίο αυτά συνδέονται. Αποτελεί δηλαδή µια γεωγραφική απεικόνιση της κάθε περιοχής που θα µπορούσε να βοηθήσει την αστυνοµία να λάβει αποφάσεις, για παράδειγµα να ενισχύσει τις περιπολίες ή να κατευθύνει τις έρευνες προς την ανακάλυψη των γενεσιουργών αιτιών αυτών των προβληµάτων. Παραδείγµατος χάρη, ένα τέτοιο µοντέλο είναι ικανό να ανακαλύπτει τα «καυτά σηµεία» (hot spots) µιας περιοχής, όπου θα υπάρχουν περισσότερες πιθανότητες να διαπραχθεί έγκληµα, έτσι µε αυτό τον τρόπο η αστυνοµία θα έχει περισσότερες πιθανότητες να το προλάβει. Ορισµένα µέρη µπορούν να προσφέρονται για τη διάπραξη εγκληµάτων. Στα ίδια πλαίσια οι Tabangin κ.ά. (2008) δηµιούργησαν έναν αλγόριθµο που συνδέει το έγκληµα, τη γεωγραφία και τη διαµόρφωση µιας περιοχής στη πόλη Baguio της Ιαπωνίας. Ως µεταβλητές χρησιµοποιήθηκαν το µέρος της διάπραξης του εγκλήµατος (από το αν είναι ανοικτή αγορά ή εµπορικό κέντρο, µέχρι διαµέρισµα) σε συνδυασµό µε τα διάφορα εγκλήµατα, όπως κλοπές, ληστείες, τραυµατισµούς κλπ. Τα αποτελέσµατα ήταν εκπληκτικά καθώς αποδείχτηκε ότι συγκεκριµένα εγκλήµατα διαπράττονται µόνο σε συγκεκριµένες περιοχές της πόλης. Η γεωγραφική απεικόνιση των διάφορων εγκληµάτων και περιστατικών γίνεται και από την Ελληνική Αστυνοµία µε το υποσύστηµα του Police on Line το οποίο ονοµάζεται «CrimeView». Ανακάλυψη Εγκληµατικών Προτύπων Στα ίδια πλαίσια περίπου, ο Shyam Varan Nath (2006) προσπαθεί να εντοπίσει εγκληµατικά πρότυπα τρόπου δράσης (modus operandi) καθώς, συµφώνα µε τον ίδιο το 10% των εγκληµατιών διαπράττουν το 50% των εγκληµάτων. Μέσα από τη δηµιουργία τέτοιών προτύπων η ανακάλυψη του εγκληµατία γίνεται πιο εύκολη. Ωστόσο δεν εξαλείφεται ο ανθρώπινος παράγοντας, αφού τα εγκληµατικά πρότυπα δεν αντικαθιστούν τον αστυνοµικό ερευνητή, αλλά τον βοηθούν στο έργο του. Άλλες τεχνικές εξόρυξης δεδοµένων µπορούν και συνδέουν πρόσωπα, οχήµατα, διευθύνσεις, αντικείµενα µέσα από τις διάφορες αστυνοµικές αναφορές που καταχωρούνται στις βάσεις δεδοµένων. Οι Chau κ.ά. (2002) προσπάθησαν να εξάγουν γνώση, όπως αυτά που αναφέρθηκαν προηγουµένως, µέσα από τις γραπτές αστυνοµικές αναφορές που συντάσσουν οι αστυνοµικοί που εκτελούν περιπολία µετά το τέλος της βάρδιας τους. Τα διάφορα ονόµατα των ατόµων που ελέχθησαν, οι διευθύνσεις, τα οχήµατα και άλλα δεδοµένα, χρησιµοποιήθηκαν ως µεταβλητές εισόδου. Η ανάλυση οµάδων (clustering) βοηθά ιδιαιτέρα σε αυτή τη περίπτωση. Τα αποτελέσµατα ήταν ενθουσιώδη, καθώς µέσα από τεχνικές εξόρυξης γνώσης επιτεύχθηκαν καλύτερα αποτελέσµατα συσχέτισης από αυτά που µπορεί να επιτύχει ένας αστυνοµικός ερευνητής. Τροχαία ατυχήµατα Ένας ακόµη τοµέας που βρίσκει εφαρµογή η εξόρυξη δεδοµένων είναι τα τροχαία ατυχήµατα και η τροχαία ασφάλεια. Οι Griselda κ.ά. (2012) µε τη χρήση δένδρων απόφασης και εξόρυξη κανόνων σχέσης διαµόρφωσαν ένα µοντέλο µε κατανοητή και ευκολονόητη µορφή για τους 12
Γεωργιτσόπουλος, Ν. (27 Ιανουαρίου 2015). Εξόρυξη ∆εδοµένων: Μια επισκόπηση εφαρµογών στην Αστυνοµία (Data Mining: An overview of applications at Police). www.policenet.gr. ∆ιαθέσιµο σε: http://tinyurl.com/PoliceDataMining.
παράγοντες που επιδρούν σε κάθε είδους τροχαία ατυχήµατα µελετώντας περιπτώσεις από τη Γρενάδα της Ισπανίας µέσα από 1801 ατυχήµατα και µε τη χρήση δεκαεπτά ποιοτικών και ποσοτικών µεταβλητών όπως το φύλλο, την ηλικία, η κατάσταση του οδοστρώµατος, την υπάρχουσα σήµανση, την ορατότητα, την αιτία και το είδος του ατυχήµατος. Το µοντέλο που δηµιουργήθηκε διαχώρισε τα τροχαία ατυχήµατα ανάλογα µε την αιτία που τα προκαλεί, και στη συνέχεια εξέτασε άλλους παράγοντες πετυχαίνοντας ακρίβεια επιτυχίας 54,3%. Συµπεράσµατα Με το πλήθος εφαρµογών που βρίσκει η εξόρυξη δεδοµένων, όπως φάνηκε σε προηγούµενες παραγράφους, είναι αδιαµφισβήτητα γεγονός ότι διαµορφώνει τα τελευταία χρόνια ένα πολύ σηµαντικό ρόλο, όσον αφορά την υποστήριξη και τη βοήθεια που παρέχει στους αστυνοµικούς για την αντιµετώπισης της εγκληµατικότητας και όχι µόνο. Οι αστυνοµικοί ερευνητές µε χρόνια εµπειρίας µπορεί συχνά να είναι σε θέση να αναλύσουν τις τάσεις της εγκληµατικότητας µε ακρίβεια, αλλά καθώς αυξάνεται η συχνότητα και η πολυπλοκότητα της εγκληµατικότητας, ανθρώπινα λάθη µπορούν να συµβούν, αυξάνοντας έτσι το χρόνο ανάλυσης και ερευνών. Έτσι οι εγκληµατίες έχουν περισσότερο χρόνο για να καταστρέψουν τις αποδείξεις και να αποφύγουν τη σύλληψη. Με την αύξηση της αποτελεσµατικότητας και τη µείωση των λαθών, των τεχνικών εξόρυξης δεδοµένων που βρίσκουν εφαρµογή σε θέµατα αντιµετώπισης της εγκληµατικότητας, µπορεί να διευκολύνεται το έργο της αστυνοµίας και να επιτραπεί στους αστυνοµικούς ερευνητές να διαθέσουν το χρόνο τους σε άλλες, πολυτιµότερες εργασίες. Όσο εντυπωσιακή (και ίσως και τροµακτική) η εξόρυξη δεδοµένων µπορεί να γίνεται, εξακολουθεί να βασίζεται σε ένα ισχυρό ανθρώπινο στοιχείο. Τα προϊόντα της εξόρυξης δεδοµένων, ενώ µπορεί να είναι πολύ ισχυρά εργαλεία και να βοηθούν τις διωκτικές αρχές στο έργο τους, δεν είναι αυτάρκης εφαρµογές. Για να είναι επιτυχής, η εξόρυξη δεδοµένων απαιτεί εξειδικευµένους τεχνικούς και ειδικούς αναλυτές που να είναι σε θέση να µπορούν να «χτίσουν» τα µοντέλα της ανάλυσης και να είναι σε θέση να ερµηνεύουν τα αποτελέσµατα που δηµιουργούνται. Κατά συνέπεια, οι περιορισµοί της εξόρυξης δεδοµένων είναι κατά κύριο λόγο η έλλειψη δεδοµένων ή εξειδικευµένου προσωπικού, παρά προβλήµατα που σχετίζονται µε την τεχνολογία (Jeffrey, 2007). Πηγές Πληροφόρησης-Βιβλιογραφία Brown, Ε., (1998). "The regional crime analysis program (RECAP): A Frame work for mining data to catch criminals," Πρακτικά συνεδρίου IEEE International Conference on Systems, Man, and Cybernetics. (3):2848-2853. Chau, M., Xu, J. & Chen, H. (2002). Extracting Meaningful Entities from Police Narrative Reports.Πρακτικά συνεδρίου Nat’l Conf. Digital Government Research, Digital Government Research, Digital Government Research Center. 1(1):271-275. Chen, H. & Xu, J. (Ιούνιος 2005). Criminal Network Analysis and Visualization: A Data Mining Perspective. Communications of the ACM (CACM). 48(6):101-107. Chen, H., Chung, W., Xu Jennifer, J., Wang, G., Qin, Y. & Chau, M. (Απρίλιος 2004). Crime Data Mining: A General Framework and Some Examples. IEEE Computer Society. 37(4):50-56. Chen, H., Zeng, D., Atabakhsh, H., Wyzga, W. & Schroeder, J. (2003). COPLINK: Managing law enforcement data and knowledge. Communications of the ACM. 46(1):28-34. DeBarr, D. & Eyler-Walker, Z. (Ιούνιος 2006). Closing the Gap: Automated Screening of Tax Returns to Identify Egregious Tax Shelters. SIGKDD Explorations. 8(1):11-16. DeRosa, M. (Μάρτιος 2004). Data Mining and Data Analysis for Counterterrorism. Washington, D.C., (Η.Π.Α.): Center for Strategic and International Studies. Elovici, Y., Kandel, A., Last, M. Shapira, B., & Zaafranny, O. (2004). Using Data Mining Techniques for Detecting Terror-Related Activities on the Web. Journal of Information Warfare. 3(1):17-29.
13
Γεωργιτσόπουλος, Ν. (27 Ιανουαρίου 2015). Εξόρυξη ∆εδοµένων: Μια επισκόπηση εφαρµογών στην Αστυνοµία (Data Mining: An overview of applications at Police). www.policenet.gr. ∆ιαθέσιµο σε: http://tinyurl.com/PoliceDataMining. Estivill-Castro, V. & Lee, I., (2001). Data Mining Techniques for Autonomous Exploration of Large Volumes of Georeferenced Crime Data. Πρακτικά συνεδρίου από το 6ο International Conference on GeoComputation που διεξήχθη στο Brisbane, Australia. Φορέας διεξαγωγής University of Queensland. Αυστραλία: David V. Pullar. Farzad, M. (2003). Syndromic Surveillance in Practice: New York City. Πρακτικά συνεδρίου Data Mining Roundtable που διεξήχθη σε Washington, D.C.. Φορέας διεξαγωγής CSIS. Frawley, W., Piatetsky-Shapiro, G. & Matheus, C. (1992). Knowledge Discovery in Databases: Overview. Association for the Advancement of Artificial Intelligence (AAAI) Magazine. 13(3):57-70.
An
Griseldaa, L., Juanb, O. & Joaquínc, A. (2012). Using Decision Trees to extract Decision Rules from Police Reports on Road Accidents. Procedia - Social and Behavioral Sciences. 53:106-114. Hand, D., Mannila, H. & Smyth, P. (2001). Principles of Data Mining. Cambridge, Massachusetts, ΗΠΑ: MIT Press. Jeffrey, S. (2007). Data Mining and Homeland Security: An Overview. Congress of the United States-Congressional Research Service. (Τόµ. RL31798, Αρ. 0704-0188). Washington,DC: The Library of Congress. Jonas, J. (Ιούλιος 2003). “Using Data to Detect and Preempt Bad Things from Happening”. Παρουσίαση στο CSIS Data Mining Roundtable, Washington, D.C., (Η.Π.Α.): Center for Strategic and International Studies. Kargupta, H., Liu, K. & Ryan, J. (2003). Privacy-Sensitive Distributed Data Mining from Multi-Party Data. Πρακτικά συνεδρίου από 1ο NSF/NIJ Symp. Intelligence and Security Informatics που διεξήχθη σε Tucson, AZ, USA.. LNCS 2665:336-342. Krebs, V. (2002). Mapping Networks of Terrorist Cells. CONNECTIONS. 24(3):43-52. Krishnamurthy, R. & Kumar, S. (∆εκέµβριος 2002). Survey of Data Mining Techniques on Crime Data Analysis. International Journal of Data Mining Techniques and Applications. 1(2):117-120. Monk, E. & Wagner, B. (2006). Concepts in Enterprise Resource Planning (Second Edition). Boston, MA, ΗΠΑ: Thomson Course Technology. Perez-Pena, R. (1 Απριλίου 2003). An Early Warning System for Diseases in New York. New York Times, σελίδες 45-46. Senator, T. (1995). The FinCEN Artificial Intelligence System: Identifying Potential Money Laundering from Reports of Large Cash Transactions. AI Magazine. 16(4):21-39. Shyam Varan, N. (2006). Crime Pattern Detection Using Data Mining. Πρακτικά συνεδρίου από το IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology Workshops που διεξήχθη σε Hong Kong. Φορέας διεξαγωγής IEEE Computer Society. Los Angeles ΗΠΑ: IEEE Computer Society. Tabangin, D. R., Flores, J. C. & Emperador, F. N., 2004. Implication to Urban Environmental Design: A Geographic Visualization and Data Mining Approach. World Academy of Science, Engineering and Technology. 24:16-24. Ηρειώτου, Μ., Νεσφυγέ, Λ. (Ιούλιος 2013). Καλλικράτης στην ΕΛ.ΑΣ. µε νέα τµήµατα και τράπεζα DNA. ΤΑ ΝΕΑ. ∆ιαθέσιµο σε: www.tanea.gr/PrintArticle/?article=5027630 (Ανακτήθηκε 7 Ιουλίου, 2013). Κύρκος, Ε. (2012). Εξόρυξη & Ανάλυση Λογιστικών ∆εδοµένων. Παραδόσεις µαθήµατος στο Τµήµα Λογιστικής & Χρηµατοοικονοµικής, Σχολή ∆ιοίκησης και Οικονοµίας Αλεξάνδρειο Τεχνολογικό Εκπαιδευτικό Ίδρυµα Θεσσαλονίκης. Ξανθάκος, Α. (2007). Αστυνοµία ∆ηµόσιας Ασφάλειας. Αθήνα: ιδίας έκδοσης. Τι είναι το Data Mining?. ∆ιαθέσιµο σε: http://www.datamining.gr/el/whatisdatamining.html (Ανακτήθηκε 19 Αυγούστου, 2014).
14