DATA DON DER DAG #11 Beurs van Berlage Damrak Amsterdam 28/ 01 / 16
ORGANISATOREN Mark van Rijmenam, Rob Dielemans en Rutger Wetzels
PARTNERS
MEDIA PARTNERS
2
Data Donderdag
PROGRAMMA SPREKER 1 ERIK VAN HEESWIJK Cleverlions
SPREKER 2 TIMOTHY PRESCOTT Civis Analytics
SPREKER 3 MAURITS VAN DER GOES Student aan de TUDelft
Editie #11
3
4
Data Donderdag
Editie #11
5
ERIK VAN HEESWIJK MEDEOPRICHTER CLEVERLIONS De mediawereld is complex geworden. Een beetje mediamerk biedt 12 kanalen aan met 25 doelgroepen. Mediamerken hebben real-time data nodig voor hun strategie, om die doelgroepen te vinden. Daar zijn tools voor, denk aan Chartbeat en Google Analytics. Maar die tools hebben geen action ability. De gemiddelde redacteur vindt daardoor data heel erg saai en denkt bij zulke droge cijferoverzichten: wat moet ik daar mee doen? De tools sluiten niet aan bij de beleving van degene die ermee moet werken. CleverLions is gaan kijken naar de beschikbare tools. Die zijn allesbehalve makkelijk, herkenbaar en sexy. Maar data moet juist aan de voorkant verkocht worden. Routeplanners lopen daarin voorop. TomTom presenteert bijvoorbeeld al zijn ingewikkelde data in een toegankelijke en bruikbare voorkant. SmartOcto wil een paradigm shift met de TomTom-isering van media-analytics. Dat bekent: visualisaties die tot actie of een gesprek leiden, zo min mogelijk getallen, en behalve insights ook tips. Is de data niet uit te drukken in een gewone zin, dan is het niet bruikbaar. Het resultaat is SmartOcto, een verhaal gebaseerd dashboard. Het test niet: hoe goed doet mijn website het? Maar: bereiken mijn verhalen hun doel? Het analyseert real-time distributie en engagement zoals
6
Data Donderdag
Google Analytics dat doet, maar geeft zelf relevante suggesties, gebaseerd op mediaervaring. En ongelofelijk belangrijk: het is leuk. Hoe ziet dat eruit? SmartOcto heeft een dashboard dat alle verhalen met bijbehorende cijfers (op dit moment op basis van Google Analytics) automatisch binnenhaalt. Een grafiek laat zien waar zo’n verhaal leeft, waar het bestaat. Een andere grafiek toont de engagement. Nergens in de tool kom je tegen hoe de site het zelf doet. Wie écht nummers wil zien, kan exporteren naar Excel. En daar blijft het bij. Waar het echt om draait is dat SmartOcto het omzet in interpretaties. Het systeem zet de cijfers om in tips: gaat het goed op Facebook? Loopt het verhaal voor geen meter? Het denkt met je mee. Die conversatie betekent dat Cleverlions moet praten met de klant, want elke klant wil een andere visualisatie, andere tekst, andere KPI’s. Cleverlions werkt aan nieuwe mogelijkheden, zoals de Impact Radar die meet hoeveel moeite hoeveel opbrengst oplevert per doelgroep. Of een getimed overzicht dat klaarstaat vooraf aan de dagelijkse redactievergadering. Zo reduceert het systeem de complexe datawereld tot een werkbaar informatieoverzicht op maat.
“SmartOcto is sexing up the facts.”
Editie #11
7
8
Data Donderdag
Editie #11
9
TIMOTHY PRESCOTT APPLIED DATA SCIENCE PRACTICE LEAD BIJ CIVIS ANALYTICS Er werkten zo’n vierhonderd man tegelijkertijd in een open ruimte aan de campagne van Obama. Het analytics-team van Obama, 55 man sterk, had echter een eigen ruimte. Het was een geheim; niemand mocht weten dat er een budget van 1 miljard dollar beschikbaar was om via data-analyse de winkans van Obama te maximaliseren. Dat terwijl de campagne van top tot teen data driven was. Hoe kijkt het electoraat aan tegen de presidentiële kandidaat? Daar begon het mee. Het was een begin in een moeilijke situatie, met een hoge werkloosheid. Toch won Obama 9 van de 10 ‘swing states’, een uitzonderlijke prestatie voor een president die gaat voor herverkiezing. Dat kwam als eerste door de kwaliteit van de kandidaat zelf, maar even goed door de strategie en hoe deze werd gebouwd op analyse van beschikbare informatie. De zegetocht begon met het vergroten van het electoraat: wie mag stemmen maar doet dat nog niet? Na het vaststellen moesten juist die mensen overgehaald worden actief te worden en naar het stemhokje te gaan. Het gebruikte middel heet grassroots organizing: geen tv-spotjes, maar mond-tot-mond-reclame via 2,2 miljoen (!) vrijwilligers die in totaal 24 miljoen gesprekken hebben gevoerd met potentiële kiezers.
10
Data Donderdag
Die gesprekken waren niet met willekeurige mensen over willekeurige onderwerpen. Op basis van statistische modellen werden doelwitten op de korrel genomen met verschillende doelen: moeten zij overgehaald worden om te stemmen op Obama of om überhaupt te stemmen? Het data-science team zorgde er zo voor dat de vrijwilligers efficiënter hun werk konden doen, waardoor zij een impact konden hebben op de winkans van de president. Hoe groot is de kans dat iemand gaat stemmen? En hoe groot is de kans dat een persoon Obama steunt? Die twee factoren vormden samen een grid, op basis waarvan het team beslissingen maakte. En mensen werden een targeting score gegeven, variërend van avoid, weak target en strong target. Aan de andere kant was er de data van de peilingen. Die peilingdata vormde de basis voor het maken van beslissingen in de campagne zelf. Meten is weten. Of, in dit geval, winnen. De les die iedereen hieruit kan trekken is: probeert data niet op segment- maar op mensniveau te begrijpen. Dat kan alleen wanneer zoveel mogelijk databases met elkaar samenwerken. Al die data moet voor iedereen die het nodig heeft binnen je bedrijf beschikbaar zijn – andersom brengen zij ook weer nuttige data mee voor een completer beeld. De data ligt op straat, ook al kost het tijd om het op
“Waar houdt Obama zijn volgende speech? Die vraag beantwoordden we met data-analyse.”
Editie #11
11
de juiste manier te gebruiken. Alles bij elkaar betekent het dat je data-vragen uit de business moeten komen, niet vanuit je datateam: wat zijn de vragen waar je antwoord op wil? En zo kan ieder bedrijf een eigen geheim wapen hebben op weg naar de top.
12
Data Donderdag
Editie #11
13
14
Data Donderdag
Editie #11
15
MAURITS VAN DER GOES STUDENT AAN DE TUDELFT Wat is de overeenkomst tussen Tinder, Spotify, Google, Netflix en Amazon? Allemaal tonen ze gefilterde resultaten aan hun gebruikers op basis van hun gedrag en smaak, zonder dat gebruikers bewust zijn van hun filtergedrag. Dat gebeurt op basis van collaborative filtering. Oorspronkelijk, in de tijd van Tapestry, gaf je als gebruiker bij inkomende berichten aan of je ze interessant vond of niet. Zo maakte je een filter en vergaarde je een grote verzameling filters, op basis waarvan je gebruikersprofielen maakt. Anno nu zijn we een stuk verder met zulke recommender systems. Gebruikersprofielen blijven belangrijk, gecombineerd met historische data. Producten worden op basis van wat gebruikers bekijken aan elkaar gekoppeld. Zo vindt een overgang plaats van user-based, naar product-based collaborative filtering. Via algoritmes worden volgordes van relevantie gemaakt, die ervoor zorgen dat websites als Amazon orde kunnen scheppen in de miljoenen producten die zij aanbieden, geënt op de consument. Netflix doet hetzelfde: welke films heb jij gekeken? Welke films hebben andere gekeken? Waar zijn overeenkomsten? Dan heb je slechts een heel basaal gebruikersprofiel nodig. Stel de vraag: welke categorie films vind je leuk? Ben je fan van een acteur? Het systeem doet de rest,
16
Data Donderdag
na een bepaalde tijd van dataverzameling. Spotify is nog zo’n voorbeeld: via The Echonest zoekt het programma tot in het kleinste detail uit welke muziek welke gebruiker op welk moment via welke playlist luistert. Op basis daarvan kan Spotify door de grote vergaarbrak spitten en de juiste muzieksuggesties doen via Discover Weekly. Dan de vertaling naar hier. Part-up is een Nederlandse start-up die werkt als marktplaats voor werkteams, op basis van collaborative filtering. Het helpt werkgevers de juiste verzameling zzp’ers te vinden voor tijdelijke opdrachten, wat aansluit op de flexibele arbeidsmarkt. Potentiële werknemers zijn dataverzamelingen van projecten, woonplaats, skills, activiteit en meer. Op basis van collaboratieve data bepaalt het systeem een rating van de relatie van een potentiële werknemer tot een potentieel team.
“Een goed algoritme is cruciaal om de informatieoverload te kunnen filteren.�
Editie #11
17
Dat heeft zijn uitdagingen. Behalve de enorme hoeveelheid data die het gaat opleveren (enter: machine learning), moet Part-up rekening houden met data sparsity (hoe komen we over die cold start van data heen?), grey sheep (gebruikers die compleet afwijken van de rest), scalability (hoe groter je database, hoe sneller je tegen de limieten van het systeem aanloopt), shilling attacks (gebruikers die het systeem spelenderwijs saboteren via scores) en synonymy (limitaties van de computers die de systemen draaien).
18
Data Donderdag
Editie #11
19
20
Data Donderdag
Editie #11
21
RICHARD BASTIAANS
“Ik kom hier al een jaar. Zelf zit ik aan de visualisatiekant, dus voor mij was het eerste verhaal erg interessant. Die creatieve aanpak sprak me erg aan, ze denken niet op een standaard manier.” 22
Data Donderdag
MICHIEL VAN MENS
“Data Donderdag draait voor mij nog te veel om mensen die mij vertellen hoe ik commercie moet bedrijven. Ik wil mensen horen die vanuit een heel andere discipline iets doen, waardoor ik geïnspireerd raak.
ANNEMARIE DE JONG
“Erik van Heeswijk vertelde over redacteuren die niks met data kunnen, maar het wel moeten leren toepassen. Dan denk ik: wij moeten gaan linken.”
STEIN SAMSON
“Ik was hier vandaag voornamelijk om te horen over de dashboards en recommender systems. Over hoe je getallen concreet maakt.”
Editie #11
23
24
Data Donderdag
Editie #11
25
Kijk op www.datadonderdag.nl voor meer info of mail naar info@datadonderdag.nl We zien je graag op de volgende Data Donderdag! 12E EDITIE DATA DONDERDAG: 17 MAART 2016 http://www.meetup.com/DataDonderdag/
26
Data Donderdag
COLOFON Visuele Notulen Marijke Timmerman - Magazine Design Michelle van Loon - Editor Arthur van Vliet - Teksten Lize Kraan - Fotografie Simon Hagenaars - Illustratie Web: www.visuelenotulen.nl Mail: info@visuelenotulen.nl Tel: 026-2022178
Editie #11
27