DATA DON DER DAG #9 Rockstart Herengracht Amsterdam 08/ 10 / 15
ORGANISATOREN Mark van Rijmenam, Rob Dielemans en Rutger Wetzels
PARTNERS
GoDataDriven
MEDIA PARTNERS
2
Data Donderdag
PROGRAMMA KICK OFF ROB DIELEMANS
SPREKER 1 MAARTEN TOET Associate bij Station 10
SPREKER 2 FRISO VAN VOLLENHOVEN EN STIJN TONK GoDataDriven
SPREKER 3 WESSEL LUIJBEN Lead Data Science en Deep Learning Expert - Anchormen
STARTUP PITCH VLADIMIR NEDOVIC Oprichter Flavourspace
Editie #9
3
4
Data Donderdag
Editie #9
5
AAN HET WOORD RINKE KLEIN ENTINK
“Ik vind het heel interessant om te horen wat andere mensen doen met Big Data. Met name het eerste onderwerp
6
Data Donderdag
DENNIS VAN DEN BERG
“Hoewel ik me in het verleden vooral met systemen heb bezig gehouden, raak ik steeds meer geïnteresseerd in data. Daarom ben ik geïnteresseerd in Data Science, en dat is exact waar het vanavond over gaat.”
LENE BÖHNKE
“Ik werk bij een start-up in de gezondheidssector en daar is de grote vraag: hoe kan ik al deze bronnen vertalen naar een visualisatie die begrijpelijk is voor de massa? What can we learn from Big Data?” Editie #9
7
KICK OFF ROB DIELEMANS Managing director van GoDataDriven en medeoprichter Data Donderdag
8
Data Donderdag
“We organiseren deze meet-ups om jullie te laten zien wat de mogelijkheden zijn van Big Data.�
Editie #9
9
MAARTEN TOET
ASSOCIATE BIJ STATION 10 Data is hard, dat weten we allemaal. Hoe maken we die zacht? Hoe maken we data aantrekkelijk en sexy? Vroeger was het simpel in de media: iedereen was gefocust op contentproductie, er was een beperkt aantal kanalen en de bestaande mediabedrijven hadden een monopolie op bereik. Adverteerders kwamen via die bedrijven terecht bij hun doelgroepen. Maar de mediawereld is veranderd. Er zijn nieuwe kanalen en nieuwe partijen. Die nieuwe partijen bereiken dezelfde doelgroep, terwijl het aantal kanalen is toegenomen. Het monopolie is versnipperd; ook de adverteerders weten tegenwoordig heel goed hun doelgroepen te bereiken. Wil je als mediabedrijf blijven bestaan, dan moet je relevant worden voor de consument door gepersonaliseerde content aan te bieden aan gerichte doelgroepen. Die personalisering van content vraagt om een data gedreven aanpak, om het persoonlijk leren kennen van elke klant. Maar data is volgens de perceptie van mediabedrijven moeilijk, duur en niet sexy. Niet gek ook, redacties werken vanuit gevoel, terwijl data veel abstracter is. Hoe laat je dan toch een niet sexy onderwerp slagen?
Zes stappen Een dataproject slaagt pas als je een believer op board-niveau hebt. Dat is stap 1. Zo’n persoon formuleert een langetermijnplan en te realiseren doelstellingen, KPI’s. Hij of zij is een CxO
10
Data Donderdag
die ervoor staat dat een bedrijf data gedreven wordt, en die zowel de huidige situatie in beeld brengt en de gewenste situatie schetst. Stap 2: zorg voor een data driven cultuur. Je middle-management moet bezet worden ambassadeurs, aangevuld met fact-based marketeers. Waar bij Bol.com data al in de genen zit, is de situatie heel anders bij het NRC, bij De Volkskrant en de NOS. Neem die mensen aan, trek ze desnoods met de haren naar binnen. Zij zijn cruciaal voor jouw data driven cultuur. Een Data Scientist en een marketeer praten lastig met elkaar. Dus heb je mensen nodig die de twee aan elkaar kunnen knopen in het multidisciplinaire team waarin ze samenwerken (stap 3!). Pas bij wederzijds begrip kunnen er modellen gebouwd worden. Welke modellen dat zijn, wordt bepaald door business. Vervolgens zorg je voor snelle resultaten. Vergeet eindeloos grote projecten en vier elk resultaat dat je met minimale effort op basis van bestaande data weet te behalen. Hoewel je onmogelijk alle twijfel kunt wegnemen, zorg je met A-B-testen voor ondubbelzinnige resultaten. Zo overtuig je het management.
“Ik geloof in Data Driven Media. Millennials maken snel keuzes welke media ze per dag consumeren. Als je relevant wil zijn, zul je hen persoonlijk moeten raken.�
Editie #9
11
Met het management aan boord is het tijd om Intelligence binnen te halen. Slimme mensen maken slimme algoritmes, eigen algoritmes. Juist die eigen algoritmes helpen je onderscheidend te zijn van je concurrenten. Pas bij stap 6 ga je investeren in IT, in systemen en tools. Dat hoeven geen grote investeringen te zijn, want veel data is er al. Heel veel bedrijven beginnen bij stap 6 en werken zo terug. Dat is niet slim. Op die manier komt het management er nooit achter wat het bedrijf precies heeft aan een data driven cultuur. Dus knoop dit in je oren: IT is de sluitpost. Bewandel je eerst stap 1 tot en met 5, dan overtuig je mensen pas dat ze stap 6 moeten zetten.
12
Data Donderdag
Editie #9
13
FRISO VAN VOLLENHOVEN EN STIJN TONK GODATADRIVEN Data Scientist wordt ook wel “the hottest job of the 21st century” genoemd. Maar, wat houdt het vak nou werkelijk in? En is het echt zo moeilijk als iedereen beweert? Friso van Vollenhoven en Stijn Tonk leggen het werk van een Data Scientist uit in zo weinig mogelijk woorden, aan de hand van het voorbeeld van een webwinkel. Webwinkels spreken datawetenschappers aan met de vraag om de customer experience te verbeteren, om meer te verkopen en klanten vaker terug te laten komen. Daarbij komen de standaardvragen al gauw bovendrijven: kunnen we iets doen met aanbevelingen, met personalisatie? Maar waar het uiteindelijk om gaat is het optimaliseren van de conversie, bijvoorbeeld door de tijd te verkleinen die mensen nodig hebben om het product te vinden dat ze zoeken. Dus hoe eerder een webwinkel relevante producten toont, hoe groter de kans dat mensen blijven. Dan zegt de Data Scientist: laten we daar in real-time achter proberen te komen! Het begint met een test: welke jurk vind je mooier, de linker of de rechter? Op basis van dertig keuzes gaan we orde scheppen in de chaos van twaalfhonderd jurken. Geen klant bekijkt al die producten, dus moeten we er in vijf minuten achter komen welke jurk te klant wil. Dat begint met een clusteranalyse, oftewel met behulp van een algoritme data indelen in groepen op basis van uiterlijke
14
Data Donderdag
kenmerken. Zo komen effen zwarte jurken samen in één cluster, jurken met roodwitte prints in één cluster, jurken met korte mouwen in één cluster, enzovoorts. Tussen alle clusters wordt de afstand bepaald op basis van die kenmerken. Waar de klant een jurk ziet, ziet de Data Scientist een soep van getallen en codes.
Deep Learning Een tweede algoritme om de juiste jurk bij de juiste klant te krijgen is Deap Learning. Iedereen kent het concept, maar weinig mensen werken er mee. Momenteel zijn het vooral grote bedrijven als Facebook en Google die Deap Learning toepassen, omdat er ongelofelijk veel data voor nodig is. Maar er is een trucje. Deep Learning is gebaseerd op biologische neurale netwerken, die werken met een verzameling van verschillende lagen: neuronen. Elke stap haalt informatie uit de vorige stap en bouwt zo hiërarchisch kennis op. Die kennis wordt steeds abstracter: van pixels naar het herkennen van het concept ‘gezicht’ tot het herkennen van een specifiek kattengezicht. Zo’n netwerk kijkt hetzelfde naar een plaatje als ons brein doet. Het algoritme train je, leer je dingen herkennen. De conceptuele informatie die je daaruit haalt voed je vervolgens weer aan je cluster. De klant krijg een jurk te zien op basis van zijn of haar klantgedrag. Klaar is Kees, toch?
“Wie draagt hier wel eens een jurk?”
Editie #9
15
Multi Armed Bandits Nee, want deze vlieger gaat alleen op voor terugkerende gebruikers. Wanneer iemand voor het eerst jouw webshop bezoekt heb je nog geen benul van zijn of haar smaak. Het enige wat we dan redelijkerwijs kunnen zeggen is: ieder cluster heeft evenveel kans. Dus moeten we leren exploiteren wat we al weten. Dat is het derde algoritme in de jurkjes-case: Multi Armed Bandits. Multi Armed Bandits is gebaseerd op kansberekening. Het vertelt je: als je webshop twintig keer bezocht wordt, welke clusters maken de meeste kans om in de smaak te vallen en bekeken te worden? Daarom houden we van elk cluster bij hoe vaak deze wordt getoond én hoe vaak deze ‘wint’, oftewel hoe vaak er conversie optreedt. Clusters die een grotere kans hebben te winnen op basis van meer verzamelde data, komen sneller naar voren. Op basis van beperkte data de juiste jurk bij de juiste klant krijgen voor een zo hoog mogelijke conversie, dat is het werk van een Data Scientist in een notendop.
16
Data Donderdag
Editie #9
17
18
Data Donderdag
Editie #9
19
WESSEL LUIJBEN
LEAD DATA SCIENCE EN DEEP LEARNING EXPERT ANCHORMEN Interactieve data science track Welke klanten van mijn website gaan de sprong naar de concurrent maken? De Churn-methode helpt je die klanten op te sporen. De uitdaging van Data Science zit hem niet in het implementeren van een algoritme, maar in het in real-time aanspreken van de juiste algoritmes om antwoord op je vraag te vinden. In dit geval is de vraag: hoeveel klanten gaan mijn klantenbestand verlaten? Oftewel, wat is mijn Churn-rate? Er zijn meerdere redenen om naar Churn te kijken, maar de belangrijkste is: het levert geld op. Churn is een investering die zich binnen een paar maanden terugverdient. Denk aan RTL, denk aan NOS, denk aan de mediabedrijven die Maarten Toet noemde; zij zouden Churn moeten gebruiken. Heb je een beeld van klanten die mogelijk de sprong naar een concurrent gaan maken, dan kun je daarop inspelen. Geef de werknemers in je callcenter bijvoorbeeld een lijst met klanten die op basis van je analyse het meest waarschijnlijk zijn de jump te maken. Spreek hen aan met speciale aanbiedingen, focus daar je aandacht op. Een goed Churn-model bouw je op basis van drie belangrijke stappen: aanwezige data inzichtelijk maken, beginnen met een simpel model, en je performance
20
Data Donderdag
analyseren. Op basis van die analyse verbeter je je model en keer je terug naar stap 1. Voor dit proces heb je goede Data Scientists nodig. Een goede Data Scientist is iemand die het probleem herkent en daar een juist algoritme bij weet te vinden. Dat doet hij op basis van drie archetypen problemen: classificatie (is het A of is het niet A?), regressie (is het 1 of 10 of iets ertussenin?) en clustering (is mijn data in te delen in groepen?). Zulke archetypen zijn meestal niet exclusief; het is aan de Data Scientist om te juiste combinatie te herkennen en op basis daarvan een of meerdere algoritmes toe te passen.
Terug naar Churn Tijd om bovenstaande op een concrete simpele case toe te passen. Er is klantendata en je wilt weten welke klant gaat ontsnappen. Je begint met een simpel model: op welke regiocodes zijn de trouwste klanten te vinden? Trouw meet je bijvoorbeeld op basis van de hoeveelheid aankopen. Op basis van die twee inputs bereken je een coĂŤfficiĂŤnt van de kans dat iemand overstapt naar de concurrent. Wie een hoog coefficient heeft, moet aandacht krijgen. Vervolgens kijk je in hoeveel gevallen het geselecteerde algoritme de juiste voorspelling deed.
“Een echt goed Churn-model gebruikt al je data�
Editie #9
21
Door deze stappencyclus te herhalen leer je steeds beter welke attributen belangrijk zijn. In eerste instantie zijn dat de regiocode (je ziet meteen van welke gebieden je nog geen data hebt; tijd om op zoek te gaan!) en transaction count – verder heb je vooral veel onbruikbare data. Maar hoe vaker je de cyclus herhaalt, hoe meer manieren te vindt om de data naar jouw voordeel te gebruiken. De laatste stap: wanneer interpreteer je data als een zekere ja of nee? Je wilt een mate van zekerheid, je wilt weten of je je algoritmes kunt vertrouwen in de praktijk en de data kunt gebruiken om je aandacht inderdaad op specifieke klanten te gaan focussen. Dat doe je door decision rules op te stellen, die je natuurlijk weer opstelt op basis van een herhaling van stappen. Dat is Churn in een notendop.
22
Data Donderdag
Editie #9
23
STARTUP PITCH# VLADIMIR NEDOVIC
OPRICHTER FLAVOURSPACE Je koelkast weet wat je gaat eten morgen. Dankzij ‘food discovery engine’ Flavourspace helpen apparaten op basis van Big Data jou een maaltijd te kiezen, maken of bestellen. De mensen achter Flavourspace hebben twee passies: eten en technologie. Die passies combineert het team in een food discovery engine die ‘consumenten in staat stelt een diepere relatie te krijgen met eten’. Hoe? Door mensen gepersonaliseerde inspiratie te geven in de vorm van interactieve digitale recepten. Flavourspace combineert honderdduizenden recepten, voedingsinformatie, allergiegegevens en vertaalt die in data. Aan de andere kant verzamelt de engine preferenties en belemmering van de consument. Die twee kanten worden verbonden voor een gepersonaliseerd advies. Voorbeeldsituatie: je hebt een selderij, maar geen flauw idee wat voor gerecht je ermee gaat maken. Het op je koelkast of telefoon geïnstalleerde Flavourspace zoekt op basis van data naar de beste smaakcombinaties, en houdt daarbij rekening met je allergieën, je budget, wat je wel en niet lekker vindt, maar ook bijvoorbeeld het seizoen. Heb je vegetariërs te gast? Dan vervangt Flavourspace – ook nadat je een gerecht hebt gekozen – het vlees door een alternatief dat goed binnen het recept past. Aan de ene kant is Flavourspace Big Data als oplossing voor een dagelijks probleem van miljarden mensen; aan de andere kant een kans op geld verdienen. De data brengt de klant dichter bij het bedrijf door persoonlijke suggesties voor bijvoorbeeld
24
Data Donderdag
de online winkel van de Albert Heijn of restaurants met bezorgservice. Het businessmodel van Flavourspace gaat van licenties (denk retailers, bezorgservices, health-tracking-apps en koelkastproducenten) tot contextual advertising, tot directe data monetization. De data die Flavourspace verzamelt kan dienen voor marktonderzoek naar eetgewoontes, of simpelweg in de vorm van verkoop van data over smaak, voedingswaarde, allergieën en succesvolle combinaties van ingrediënten.
“Het probleem dat we oplossen: wat eten we vandaag?”
Editie #9
25
26
Data Donderdag
Editie #9
27
AAN HET WOORD MARLOU KAMPHUIS
“Vanuit mijn achtergrond in Predictive Analytics in het bankwezen ben ik hier vooral om te zien hoe ver bedrijven
28
Data Donderdag
ROB HOFSTRA
“Als student Data Scientist leer ik alle technieken, maar hier hoor ik welke technieken echt in de praktijk gebruikt worden.”
BERT KWANTEN
“Het valt me op dat voor verschillende toepassingen dezelfde technieken terugkomen. Dat zag je vanavond: van eten en jurkjes tot human resources.” Editie #9
29
LIVE STREAM Tijdens Data donderdag is er live gestreamd. Deze video zijn terug te kijken. Bekijk de video’s HIER
30
Data Donderdag
Editie #9
31
Kijk op www.datadonderdag.nl voor meer info of mail naar info@datadonderdag.nl
32
Data Donderdag
COLOFON Visuele Notulen Marijke Timmerman - Magazine Design Jeroen van Nerven- Editor Michiel Gardner- Live stream Arthur van Vliet- Teksten Amar Inderdjiet - Fotografie Simon Hagenaars - Illustratie Web: www.visuelenotulen.nl Mail: info@visuelenotulen.nl Tel: +31 6 30 07 76 75
Editie #9
33