2012 Wat is Big Data?
[WAT IS BIG DATA?] Dit document geeft een antwoord op de vraag wat onder Big Data wordt verstaan en waar het verschilt met traditionele “small data”. Het geeft aan welke uitdagingen er zijn als het gaat over Big Data Management en wat de werkelijke toegevoegde waarde van Big Data is.
3 mei 2012
[WAT IS BIG DATA?]
Inhoudsopgave Introductie Big Data ...................................................................................... 3 Gaat Big Data Management verder dan de relationele database? ...... 4 Big Data; de uitdagingen in het verschiet! ............................................... 5
2
Jambo ConsultancyŠ
3 mei 2012
[WAT IS BIG DATA?]
Introductie Big Data Big Data doet momenteel haar intrede omdat er een transformatie gaande is van data transacties naar data interacties. Sinds de opmars in de jaren 1970 zijn relationele databases de norm voor het opslaan van bedrijfsgegevens. In een relationele database wordt data opgeslagen in goed gestructureerde tabellen. Voor elk stukje data is een plaats en vice versa. Gedurende vele jaren was dit prima want veruit de meerderheid van alle bedrijfsdata is zelf sterk gestructureerd: elk van de bestaande klanten heeft een datum waarop zij het eerste contact met een organisatie had, elke klant heeft een naam en ga zo maar door. Onlangs zien wij echter een toename van gegevens, zoals e-mail, sociaal netwerkverkeer, digitale beelden, output van sensoren, Radio Frequency Identification (RFID tags) en apparaten die gebruik maken van het Global Positioning System (GPS). In de nabije toekomst komt daar In Memory Systems bij. Deze data worden vaak veel minder formeel gestructureerd doorgegeven dan de gebruikelijke transactiegegevens. Voor veel mensen is het vooral deze nieuwe golf van data en informatie die nu bekend staat als "Big Data�. Bij Big Data is het in feite niet de hoeveelheid van de gegevens maar de grote diversiteit die van belang is. Veel van de Big Data is van nature "semi gestructureerd", wat simpelweg betekent dat de gegevens een aantal elementen omvatten die in hoge mate gestructureerd zijn en anderen veel minder. Neem bijvoorbeeld een e-mail. De data elementen, zoals de datum en tijd verstuurd en tijd en datum ontvangen zijn redelijk sterk gestructureerd maar de inhoud van de e-mail is ongestructureerde, vrije tekst. Deze gegevens zijn relatief eenvoudig te scannen. Zo kun je bijvoorbeeld alle e-mails die het woord 'agile' in het systeem bevatten vinden. Maar de echt nuttige informatie (informatie = data + interpretatie) is vaak kwalitatief en de betekenis dient achterhaalt te worden door het te lezen, te begrijpen en door het meten van de toon (kennis = informatie + begrip/wijsheid); is dit een boze e-mail of zijn de meest recente berichten op sociale netwerken voor of tegen mijn nieuwe productmarketing campagne..?
3
Jambo ConsultancyŠ
3 mei 2012
[WAT IS BIG DATA?]
Gaat Big Data Management verder dan de relationele database? De uitdaging van grotere hoeveelheden en diversiteit aan data is in de eerste plaats; 1) Hoe deze op te slaan en in de tweede plaats 2) Hoe deze te analyseren. Het antwoord op beide is waarschijnlijk "niet in een relationele database." Voor Big Data Management ligt het antwoord vaak in technologieën zoals zuilvormige databases, NoSQL-databases, Hadoop (opslag) en MapReduce (analyse) en In-Memory Systemen zoals SAP HANA(opslag&analyse). Dit zijn relatief nieuwe technologieën die niet als turn-key systemen geleverd worden maar grote investeringen vereisen. Als gevolg hiervan is dit slechts beschikbaar voor bedrijven waar de ROI de moeite van de investering waard is; bv Telekom bedrijven. Voor banken en bv patiëntgegevens of verkoopgegevens ligt deze nieuwe technologie misschien minder voor de hand. Daar waar het effectief wordt ingezet is bovenstaande Big Data technologie enorm succesvol en al een aantal mensen zijn op zoek naar duale opslagmechanismen waarin een relationele database en een semi gestructureerde data opslag synchroon samengaan. Zoals de naam al doet vermoeden zijn In-Memory analytische systemen gebaseerd op een ingebouwde chip als geheugen voor de data opslag. Dit in tegenstelling tot systemen waarbij sommige of alle gegevens worden geanalyseerd op een schijf. De In Memory Computing benadering kan aanzienlijk sneller omdat er geen fysieke schijf gelezen wordt bij het opvragen van de gegevens. Het verschil tussen de twee benaderingen is te verwaarlozen als het gaat om kleine data sets en eenvoudige programma's. Maar als bedrijven werken met grote data sets en complexe algoritmen en modellen, kan het verschil in reactietijd enkele minuten of zelfs uren zijn. Het verschil in Real-Time.
4
Jambo Consultancy©
3 mei 2012
[WAT IS BIG DATA?]
Big Data en het aannemen van "Open Data" principes De database is de motor van elk bedrijf. Databases liggen in het hart van zowel maatwerk als kant-en-klare bedrijfsbrede ERP applicaties. En terwijl de databases soms alleen worden gezien als een instrument voor het opslaan van informatie, bieden ze ook alle gewenste functionaliteit van CRM tot financiering. Het is nu juist dit laatste dat de toekomstige uitdaging voor IT-managers vormt als het gaat om het moderniseren van de database infrastructuur op een zodanige manier dat bedrijven agile worden of blijven. Databases zijn zo belangrijk maar ook zo strak gebonden aan bedrijfsprocessen, dat het veranderen of uitbreiden van de databases grote risico’s met zich meedraagt zoals het verstoren van de business. Ook is het niet altijd eenvoudig om te bepalen welke databases welke toepassingen ondersteunen of om de database en de toepassing van elkaar los te koppelen. Naast mensen, middelen en geld is informatie met Big Data eindelijk de vierde productie factor geworden. Waarde kan worden gecreëerd op basis van Big Data wanneer de informatie van deze data maar transparant is en in hoge frequentie wordt gegenereerd (real time). Met behulp van geavanceerde analyses verbetert de besluitvorming aanzienlijk en zal innovatie optreden met als resultaat de volgende generatie, nieuwe bedrijfsmodellen, producten en diensten. Overheden in Spanje en Engeland erkennen deze mogelijkheden van Big Data en zetten al een eerste stap door het adopteren van “Open Data” principes en het openbaar toegankelijk maken van de eigen databases. Ook voor veel meer bedrijven wordt de druk steeds groter om opnieuw te kijken naar hun eigen database infrastructuur zodat de eigen agility wordt bevorderd. Vooral daar waar een bedrijf een zware gebruiker van data en analyse is. Een verplichting om grotere hoeveelheden gegevens op te slaan zet druk op een aantal database architecturen, in het bijzonder op de oudere systemen die niet zijn ontworpen om grote datasets te verwerken. Mensen willen kunnen schakelen en ze willen verder gaan dan de bekende historische en voorspellende statistische analyses. Zij willen nu ook snel kunnen beschikken over kant-enklare real time analyses. Databases moeten daarom sneller om kunnen gaan met meer complexe data types. Een andere databasestrategie kan bijdragen aan deze snel veranderende wensen. De meer toekomstgerichte CEO zal met het oog op agility en het toepassen van Cloud Computing voor bedrijfstoepassingen een databasestrategie willen die daarbij aansluit.
5
Jambo Consultancy©
3 mei 2012
[WAT IS BIG DATA?]
Big Data; de uitdagingen in het verschiet! Dus, het goede nieuws is dat Big Data onderwerp van gesprek is geworden. Het slechte nieuws is dat Big Data onderwerp van gesprek is geworden. Dit laatste versterkt direct de roep om veiligheid en privacy of beter “Data Governance”. Er is een toenemende aandacht voor Data Governance en eigendomskwesties als gevolg van alomtegenwoordigheid van informatie. Het gaat, nu Big Data zijn intrede doet, minder over correcte data en meer over het gegevensbeleid voor zowel externen (klant- en leverancierdata) als ook van de interne financiële gegevens. Het is nu tijd om meer na te denken over regelgeving en de nakoming, compliance, hiervan. Hoe innovatiever je omgaat met klantgegevens, hoe meer je op de hoogte moet zijn van de regelgeving waarbinnen je opereert. De uitdaging van Data Governance bij Big Data is een onderwerp die voortdurende aandacht verdient. Een gebrek aan analytische vaardigheden is een ander punt van aandacht. Met zoveel organisaties die op zoek zijn naar mogelijkheden om hun Big Data analyse uit te breiden, bestaat er een groeiende vrees dat bedrijven moeite zullen hebben om de juiste combinatie van vaardigheden te vinden en te ontwikkelen. Een analytische mindset en programmeer vaardigheden is een zeldzame combinatie. Het eerste moet het winnen op de lange termijn, wat betekent dat analisten worden opgeleid om te programmeren. En dat is moeilijk. Het is duidelijk dat Big Data eraan komt. Dat is de huidige realiteit. Maar de werkelijke vraag is hoe er gebruik van te maken en Big Data om te zetten in business value. Big Data is veel minder een ICT onderwerp van gesprek en hoort daarom veel meer thuis op de vergadertafel van de CEO.
6
Jambo Consultancy©