Editie 86 definitief issuu

Page 1

Magazine voor studenten Actuariaat, Econometrie & Operationele Research Een publicatie van

Nr. 86 Volume 23 Februari 2015

AENORM BIG DATA EDITIE

Importing Human Capital: The Effect of a Foreign Football Coach | Trend Visualization on Twitter: What’s Hot and What’s Not? Interview Sander Klous | Verslag VSAE bestuur 2014-2015 | Interviews met werknemers van 3TEC en SAS

Trend Visualization onTwitter: What’s Hot and What’s Not? By Sandjaj Bhulai p. 36


Begin met vooruit te kijken Als starter ligt de wereld voor je open. Zeker bij APG. De functie waar je op binnenkomt, is een startpunt. Om te onderzoeken waar je kracht precies ligt, en waar je persoonlijke en vakmatige ontwikkeling je brengt. Doorstromen is vanzelfsprekend bij ons. Zowel opzij als omhoog. En als trainee krijg je ook nog een persoonlijke coach mee.

werkenbijapg.nl de grootste financiĂŤle dienstverlener in pensioen


Big Data

The convergence with big data offers ample opportunities for econometrics. Econometric modelling skills and people that master the econometric toolbox are already in high demand in the labour market. However there is more. External data often don’t come pre-packaged in numerical figures, but may also arrive in the form of tweets, video and audio streams, etc. Combining these with the more traditional econometric models requires different skillsets. Students will have to develop in-depth knowledge on data structuring and data management to become data savvy. Furthermore, supporting decision making with sophisticated econometric models that also incorporate external data sources requires boundary-crossing skills to explain outcomes to decision makers.Visualization is a powerful tool to help do this. The FEB aims to be at the forefront of these developments. A new Big Data track is introduced in the MSc Econometrics and in September we will launch the MBA Data Science & Business Analytics. In these programmes we try to maintain a critical, research driven stance because it seems unlikely that with enough data, the numbers will speak for themselves, as the proponents of Big Data often claim. Inferring what is going on and figuring out how to intervene for the better while solving at the same time all sorts of the multiple-comparisons problems represent great new challenges for our econometricians.

COLOFON Hoofdredactie MarcSchagen Jelle van Houdt Bas Koolstra Kasper van Vliet Redactie Jozef Battjes Fredie Haver Joris Bücker David Kranenburg Kevin Sipin Jowita Osinga Ruben Walschot Florian van der Peet Laura Ruis Oplage Jelle Schagen 700 Spierings Simone Ruben Spruit

De artikelen in dit blad zijn niet noodzakelijkerwijs de mening van het Oplage VSAE bestuur of de redactie. 800 Niets uit dit blad mag worden gedupliceerd De artikelen in zonder dit blad toestamming zijn niet van de VSAE. noodzakelijkerwijs de mening van het VSAE bestuur of de redactie. Niets uit dit blad mag worden Adverteerders gedupliceerd zonder toestemming Actuariaatcongres van de VSAE. DNB

Flow Traders KPMG Adverteerders Towers Watson 3TEC APG Design SAS United Watson Towers Creations, 2013

Designredactie Adres VSAE Creations, 2013 United Roetersstraat 11 Kamer E3.25 1018WBredactie Adres Amsterdam Tel. 020 - 5254134 VSAE Roetersstraat 11 Kamer E3.25 1018WB Amsterdam Tel. 020 - 5254134

VOORWOORD

Today we live in an infotope. Besides humans, millions of man-made artefacts containing microprocessors inhabit the earth. Millions of miles of optical fibre span the globe and all these devices are linked together with air waves. Yottabytes and soon even xonabytes in a large variety of data formats, types and structures, are streamed, transported, processed and stored in the networks. As a consequence big data has quickly become the next hype. The problem is that we don’t need more data, we need answers to business and economic policy challenges instead. With the proliferation of data the proportion an organisation can analyse is decreasing relative to the amount of data available. Therefore, organisations run the risk of getting more and more naïve over time. In addition, over 20 years ago Peter Drucker already noted that a focus on the corporate ICT function encourages degenerative tendencies. Because organisations struggle to get their internal systems working – those typically focus on budgets, costs, efficiency improvements, etc. – little time is left to analyse what is happening outside. Especially the data from external sources, such as for instance social media, have become abundant through all the man-made artefacts. If organisations would be able to incorporate this data in their decision making models they are likely to be far better off. Hence the challenge organisations face is to incorporate data from external sources into their decision making and planning.

KALENDER ALV BEROEPENDAGEN | 1| & 232FEB OKT BORREL | |8 4OKT ACTUARIAATCONGRES MRT POOLTOERNOOIGAME ECONOMETRIC | 14 | 31 OKT MRT - 2 APR ISP VSAE CASE | 29 | 2OKT APR - 3 NOV

Han van Dissel Dean Faculty of Economics and Business

3


Inhoudsopgave YOUSSEF EL BOUHASSANI NATIONALE DENKTANK

HET DEEP DATA INTERNET: RELEVANTIE EN VERANDERING

INTERVIEW MET SANDER KLOUS EERSTE BIG DATA PROFESSOR AAN DE UVA

INTERVIEW MET ANDRÉ MOLENAAR EN REIN MERTENS, SAS

UITWISSELING JELLE NEEFT LUND UNIVERSITY, ZWEDEN

ACTUARIAATCONGRES

COLUMN | PAGE 05

BIG DATA IN PRAKTIJK | PAGE 18

INTERVIEW | PAGE 06

BEDRIJFSINTERVIEW | PAGE 22

COMMISSIE UITGELICHT | PAGE 24

EXCHANGEVERSLAG | PAGE 09

PUZZELPAGINA NIEUW: SCHATTINGSVRAAG

INTERVIEW MET PAUL VAN OOSTEN, 3TEC

PUZZEL | PAGE 26

BEDRIJFSINTERVIEW | PAGE 12

VACATUREPAGINA

VACATURES | PAGE 27

VERSLAG VSAE BESTUUR 2014-2015 DOOR KASPER VAN VLIET

IMPORTING HUMAN CAPITAL: THE EFFECTS OF A FOREIGN FOOTBALL MANAGER

INHOUDSOPGAVE

BESTUURSVERSLAG | PAGE 14

VSAE ONDERZOEKT PRIVACY VSAE ONDERZOEK | PAGE 117

ECONOMETRICS MSC-LEVEL | PAGE 29

TREND VISUALIZATION ON TWITTER: WHAT’S HOT AND WHAT’S NOT? Magazine voor studenten Actuariaat, Econometrie & Operationele Research Volume 23 Februari 2015

ECONOMETRICS MSC-LEVEL | PAGE 36

Nr. 86

Een publicatie van

4


Column Door: Youssef el Bouhassani Een smartphone vol apps. Een Google Drive. Een Facebook account.Wie heeft deze dingen tegenwoordig niet? We willen allemaal meedoen aan de laatste hypes, gebruik maken van de nieuwste telefoons, gratis e-mailen en ga zo maar door. Maar voor niets gaat de zon op, toch?

e-mailaccount. Voordat je Whatsapp installeert of een Facebook account opent, kun je je afvragen of je het echt nodig hebt. En bij het installeren van een game kun je je afvragen of de makers echt je locatiegegevens, telefoonboek, browsegeschiedenis, creditcardgegevens, woonplaats en foto’s nodig hebben om je een simpel spelletje op je telefoon te laten spelen. Vaak is dat niet het geval. En toch accepteren we de voorwaarden om deze gegevens vrij te geven vaak wel.

Dankzij grote ontwikkelingen in de technologie is het tegenwoordig mogelijk om veel data te genereren en op te slaan. Wij als consumenten maken massaal gebruik van diensten zoals e-mail en social media, omdat ze handig en vaak gratis zijn. Wat we echter niet beseffen is dat we wel degelijk voor deze diensten betalen, maar dan met onze data. De data die wij genereren bevat inzichten over ons gedrag online. En voor veel bedrijven zijn deze inzichten goud waard, omdat ze ons hiermee gericht kunnen targeten met meer producten en diensten. Zodra we ons dit realiseren, worden we al snel wantrouwend tegenover de bedrijven die deze diensten aanbieden. Zo bleek uit onderzoek van de Nationale DenkTank dat 97% van de internetters Google gebruikt, maar dat tegelijkertijd 84% van de mensen Google niet vertrouwt met hun data. Dit weerhoudt ons er echter niet van toch gebruik te blijven maken van Google. Dat komt omdat we ons maar moeilijk een voorstelling kunnen maken van de hoeveelheid data die we genereren en de effecten die dit heeft. Die effecten worden pas zichtbaar op het moment dat we een dienst gebruiken, of als we een gerichte advertentie te zien krijgen. Het is dus belangrijk dat we ons bewust worden van welke datasporen we allemaal achterlaten. Bovendien moeten er spelregels komen voor het gebruik van Big Data. Deels ligt de verantwoordelijkheid hiervoor bij bedrijven. Die dienen transparant te zijn naar de gebruikers toe over welke data ze opslaan en met welke doeleinden. En dat hoeft helemaal niet ingewikkeld te zijn. De lange ingewikkelde privacy statements kunnen gevisualiseerd worden aan de hand van icoontjes uit de Datawijzer, één van de tien ideeën van de Nationale DenkTank 2014.

Youssef el Bouhassani heeft een master Aerospace Engineering afgerond aan de TU Delft, en is medeeigenaar van scheermerk Mr. Maroosh. In 2014 was hij deelnemer aan de Nationale DenkTank over Big Data.

Aan de andere kant moeten wij ons als gebruiker realiseren dat wij de keuze hebben om te kiezen voor diensten die passen bij onze wensen, en dat wij ons kunnen afvragen of het echt noodzakelijk is om een bepaalde dienst te gebruiken. Als je vaak vertrouwelijk informatie over de mail stuurt, gebruik dan een betaald

5

COLUMN

Wij als gebruikers moeten ons realiseren dat wij keuzevrijheid hebben: je kunt ook niet akkoord gaan met de voorwaarden en een app dus niet gebruiken. Door gebruik te maken van onze keuzevrijheid kunnen wij de markt van apps en online diensten zo divers mogelijk houden, en zelf invloed uitoefenen op de spelregels voor het gebruik van Big Data.


Interview met Sander Klous DOOR: JOWITA OSINGA & DAVID KRANENBURG

INTERVIEW SANDER KLOUS

Sander Klous is sinds mei 2014 de eerste hoogleraar in Big Data aan de UvA. Daarnaast is hij momenteel werkzaam bij KMPG Advisory, waar hij de leiding heeft over de Big Data Analyticsdienstverlening. David en Jowita gingen bij hem langs op het kantoor van KPMG om alles over de opkomende trend van Big Data te weten te komen. betreft Big Data analyse en kan als grondlegger gezien worden van de manier waarop Big Data tegenwoordig wordt gebruikt. Doordat de hoeveelheid aan data voor een nor male pc niet te verwerken is, is er speciale software nodig voor het analyseren van deze data. Daarnaast is het erg duur om data te bewaren, dus moet er een strikte selectie worden gemaakt van de data die je wilt behouden. Bij CERN heb ik me vooral bezig gehouden met het kijken naar welke gegevens bewaard moeten worden en waar deze gegevens opgeslagen moeten worden.

Welke studieachtergrond heeft u? Ik heb ooit, lang geleden, werktuigbouwkunde gestudeerd aan de HTS. Daarna ben ik begonnen bij de ontwerpafdeling van het Nationaal instituut voor hogere energie fysica (Nikhef). Ik heb me daar gespecialiseerd in meet- en regeltechniek en in analyse van systemen.Vervolgens ben ik doorgespecialiseerd in cryotechniek, oftewel het koelen van systemen en vacuĂźmtechniek. Na een aantal jaar ben ik door een hoogleraar overgehaald om aan de VU natuurkunde te gaan studeren. Dit beviel mij erg goed, deze studie heb ik binnen 2 jaar afgerond en daarna ben ik gepromoveerd in hoge-energiefysica.

Hoe bent u vervolgens bij KPMG terecht gekomen? Toen ik nog bij CERN werkzaam was, werd ik al Hoe kwam u voor het eerst in contact met Big Data? benaderd door KPMG. Ik had toen al een aantal Na mijn studie natuurkunde heb ik mij bezig ge- prijzen gewonnen, dus mijn naam was al enigszins houden met projecten rondom de deeltjesver- onder de aandacht gekomen. Op dat moment was sneller op CERN. Hier speelt het beschrijven van ik echter nog druk bezig met het onderzoek van natuurkundige processen een grote rol. Ik heb CERN. Zo’n 4 jaar later was de deeltjesversneller promotieonderzoek gedaan naar het verschil tus- klaar en werd ik opnieuw gevraagd door KPMG. sen materie en anti- materie, waarbij ik om moest Op dat moment zat KPMG in een interessangaan met een enorme hoeveelheid aan gegevens. te fase. Zij hadden KPMG Cambridge Technology Eigenlijk kan alles wat op CERN gedaan wordt, opgericht, wat qua activiteiten niet zo goed aangezien worden als bakermat voor Big Data. Het sloot bij de rest van KPMG. Ze waren op dat moinstituut heeft echt een revolutie in gang gezet wat ment aan het kijken hoe ze hun activiteiten beter

6


solidariteit en privacy. Pas dan kun je echt fundamentele veranderingen doorvoeren in de organisatie.

Hoe kan de ontwikkeling van Big Data samengaan met privacy? Wanneer we het hebben over privacy, dan komen we al snel op persoonsgegevens. Deze term is al Hoe heeft u uw Big Data kennis kunnen integreren een probleem op zich.Wat ziet iemand als een perbij KPMG? soonsgegeven? Welke informatie hebben we nodig Big Data werd een hype binnen de industrie, zo om iemand te identificeren? Het hele begrip van ook bij KPMG. Dit sloot goed aan bij mijn verleden persoonsgegeven is aan erosie onderhevig. Vaak is bij CERN. Ik heb daarom ook een aantal oud-colle- er meer informatie nodig dan alleen naam en achga’s van het CERN en Nikhef naar KPMG gehaald ternaam om een persoon te kunnen identificeren. om samen aan de slag te gaan met data analyse. Het koppelen van verschillende data geeft hierbij Maar de werkwijze en cultuur bij KPMG was een uitkomst, maar dit is vaak in strijd met privacy. erg anders dan wat ik voorheen gewend was: als Ik denk dat de principes en wetgeving die we tot Big Data groep wilden wij experimenteel bezig zijn, nu toe voor privacy hanteren, niet houdbaar zijn in in tegenstelling tot de rest van KPMG, dat gericht een wereld met uitgebreide data analyse. De wetwas op korte termijn resultaten. geving rondom privacy beperkt de mogelijkheden Dit was in het begin lastig, maar met Koningin- van Big Data op een verkeerde manier. Er wordt nu nedag 2013 hadden we onze doorbraak: we had- per element gekeken of iets een persoonsgegeven den een app gemaakt om de drukte van toerisme is, bijvoorbeeld: is een MAC adres een persoonste lokaliseren in Amsterdam, via gsm signalen. Dit gegeven. Het antwoord is: soms wel en soms niet. was een erg groot succes, waardoor onze afdeling Dat werkt dus niet. De wetgeving zou zich moeten meer vrijheid kreeg om te doen waar we goed in richten op de samenhang, bijvoorbeeld: hoe ingezijn, zonder constant gericht te zijn op korte ter- wikkeld is het om informatie naar een individueel mijn resultaten. persoon te herleiden door het te combineren met Nu is Big Data winstgevend geworden bij KPMG. andere data die binnen dezelfde omgeving beschikIk ben erg trots dat ik Big Data heb kunnen inte- baar is? Dat is veel relevanter dan de beoordeling greren binnen KPMG, alhoewel het een grote in- van individuele elementen. spanning is geweest. Bedrijven worden gestimuleerd om mee te gaan in de Big Data trend, aangezien klanten dit ook Hoe leidt Big Data analyse tot daadwerkelijke resulta- steeds meer van een bedrijf verwachten. Klanten ten bij KPMG? gaan graag voor gemak, en wanneer het ene bedrijf KPMG heeft natuurlijk altijd al aan data analyse ge- hen dit niet kan bieden, stappen ze over naar een daan; een accountant doet niets anders dan data andere aanbieder. Veel organisaties staan dus voor analyseren. Maar het gaat om de link leggen tussen een duivels dilemma: reputatieschade of concurmethodologie uit een onderzoekslab en de kennis rentieschade. van een bepaald vakgebied. Alleen dan kunnen dataresultaten goed worden vertaald. Hiervoor is sa- Wat heeft de ontwikkeling van Big Data voor gevolgen menwerking nodig tussen data experts en mensen voor de toekomst? met verstand van de juiste kennisgebieden. De ontwikkeling van Big Data raakt alles in de saVerder zijn er binnen het bedrijfsleven heel an- menleving, we kunnen namelijk alles preciezer uitdere aspecten belangrijk dan bij een natuurkundig rekenen en nauwkeuriger voorspellen. Hierdoor onderzoekslab; zoiets als privacy speelt bij de laat- zullen klassieke concepten, zoals verzekeringen, in ste geen rol. Daarom is het belangrijk om inzichten het geding komen. Op dit moment betalen mensen uit onderzoeken te kunnen toepassen op het be- een premie voor een bepaalde onzekerheid. Maar drijfsleven met de inachtneming van transparantie, wanneer deze onzekerheid verdwijnt, doordat er

7

INTERVIEW SANDER KLOUS SECTION

konden inrichten, en op welke onderwerpen ze zich zouden focussen. Ik kreeg de leiding over een deel van deze groep en kreeg de mogelijkheid om veel van de werkzaamheden vorm te geven. Dit klonk erg interessant, omdat ik op deze manier daadwerkelijk iets nieuws kon toevoegen aan het bedrijf.


SECTION INTERVIEW SANDER KLOUS

precies kan worden voorspeld wat de kans is dat iemand ziek wordt, verandert het hele principe van solidariteit. Bovendien zijn er minder mensen nodig doordat alles beter en efficiënter kan worden gedaan door de slimme systemen en de invoering van robotisering. Dit zal veel werkloosheid als gevolg hebben, wat de verdeling van welvaart aantast. Daarom moet er goed worden gekeken naar de rol die arbeid speelt in onze samenleving en moeten er nieuwe manieren komen om met de verdeling van welvaart om te gaan. Dit zal veel werkloosheid als gevolg hebben, wat de verdeling van welvaart aantast. Daarom moet er goed worden gekeken naar de rol die arbeid speelt in onze samenleving en moeten er nieuwe manieren komen om met de verdeling van welvaart om te gaan.

gedragen. We kijken daarbij naar transities in grote informatiesystemen, die vaak maatschappelijke aspecten in zich hebben, zoals het onderzoeken van paniek in de menigte. Dat menselijke aspect maakt wat mij betreft Big Data extra interessant voor studenten. Om de meetbaarheid van de maatschappij begrijpelijk te maken, zijn we momenteel bezig met het ontwikkelen van colleges over Mechanism Design. Dit is het omgekeerde van speltheorie. Je hebt de uitkomsten van een spel, en gaat op basis van die gewenste uitkomsten proberen de spelregels te ontwerpen. In grootschalige infosystemen kun je hierdoor tot nieuwe inzichten en beheersmogelijkhedenkomen. Wat maakt de richting Big Data binnen de Master Econometrie interessant? Ik kan me voorstellen dat Big Data door velen leuk gevonden zal worden, omdat het een analytische studie is, die tegelijkertijd een sterke link heeft met de maatschappij. Bovendien zijn de carrièreperspectieven ontzettend goed. Tot slot is Big Data ook interessant doordat op dit gebied de industrie en wetenschap naar elkaar toe aan het groeien zijn. Bedrijven merken dat data analisten erg goede academici moeten zijn en tegelijkertijd merkt de wetenschap dat de bedrijven beschikken over de meest interessante data. Dus beide partijen zoeken toenadering tot elkaar en worden zich ervan bewust dat samenwerken interessant is.

Zijn er op dit moment al concrete maatschappelijke veranderingen als gevolg van het gebruik van Big Data? Er zijn vooral al veel veranderingen te zien in de zorg. Door de mogelijkheid om menselijk DNA te analyseren, kunnen er persoonlijke medicijnen worden gemaakt en kunnen ziektes als bijvoorbeeld kanker worden bestreden. Daarnaast is de muziekindustrie al veranderd door de komst van toepassingen als iTunes en Spotify. Hetzelfde zien we binnen de taxi- en hotelbranche door het gebruik van mobiele taxi- apps als Uber en boekingssites als AirBnB. Een logische verwachting is dat veel andere industrieën zullen volgen. De mogelijkheden van Big Data zijn nu namelijk de wereld al op zijn kop aan het zetten.

Heeft u tot slot nog een boodschap voor onze lezers? Wees je vooral bewust van het feit dat de samenleving aan het veranderen is. Alles om ons heen is meetbaar geworden. Dit zorgt ervoor dat begrippen zoals privacy, solidariteit en transparantie een heel andere betekenis krijgen. Tegenwoordig zijn heel veel van onze dagelijkse bezigheden gelinkt aan Big Data, maar veel mensen zijn zich hier niet van bewust. Mensen richten zich voornamelijk op het gebruiksgemak van verschillende hulpmiddelen, zonder zich te realiseren dat ze in feite informatie aan het delen zijn. Het aangaan van de maatschappelijk discussie hierover is daarom cruciaal, omdat Big Data iets is dat iedereen raakt.

U bent sinds mei 2014 de eerste hoogleraar in Big Data aan de UvA. Wat houden uw werkzaamheden in? Tegenwoordig werkt de klassieke manier van data analyse niet meer. Het vinden van één heldere datadefinitie en inzetten op datakwaliteit is niet genoeg, aangezien de data waar wij over beschikken, niet meer onder onze controle is. Het is daarom van belang om data te kunnen combineren en kansberekeningen te maken. Dit is iets wat zich nog steeds ontzettend aan het ontwikkelen is en binnen de studie wordt hier veel naar gekeken. De doelstelling van data analyse is uiteindelijk dat we willen begrijpen hoe systemen en personen zich

8


Uitwisseling met Lund University, Zweden DOOR:

Het afgelopen half jaar heb ik doorgebracht in de Zweedse studentenstad Lund. Mijn bachelor had ik eigenlijk al afgerond, maar om toch nog wat buitenlandervaring op te doen besloot ik mijn diploma aanvraag nog even uit te stellen. Zo belandde ik op een regenachtige dag halverwege augustus in het uiterste zuiden van Zweden, net over de brug die Kopenhagen met Malmö verbindt. Een stad is eigenlijk niet het goede woord voor Lund, het is meer een groot dorp dat voornamelijk bewoond wordt door studenten. Wel een plek waar je je al heel snel thuis voelt; sfeervol, kleinschalig en heel gezellig.

koekhappen en spijkerpoepen. Daarnaast was er in de eerste twee weken een introductiecursus Zweeds, waar de eerste stappen om te integreren in de Zweedse samenleving konden worden gezet. Vooral een aantal Aziaten hadden nogal moeite met de uitspraak. Voor hen was je al snel een expert: “Wow, you’re so good!!! You should skip the first level”. Helaas kan ik niet zeggen dat ik de Zweedse taal beheers, want ook voor een Nederlander bleek het absoluut niet eenvoudig. Al lijkt het door melodisch te spreken al snel heel wat.

Aankomst De eerste weken bestonden hoofdzakelijk uit kennis maken: met de stad, de universiteit, verenigingen, de omgeving en vooral heel veel mensen. De universiteit had een uitgebreid introductieprogramma opgesteld dat al half augustus startte. Samen met een mentorgroepje, bestaande uit 30 internationale studenten en een aantal studenten uit Zweden, kon je onder andere deelnemen aan een sportdag en een treasure hunt. Deze mentorgroep was een goede eerste mogelijkheid om leuke mensen te leren kennen en gaf wat houvast in de eerste weken. Aangezien mijn mentorgroep zo gezellig was, zijn we eigenlijk het hele semester door blijven afspreken. Van een Zweeds kreeftenfeest tot een Hollandse feestavond , inclusief boerenkool,

Studentenverenigingen Het studentenleven in Lund speelt zich voornamelijk af in de ‘nations’. Een nation is een soort studentenvereniging en vrijwel elke student is lid van zo een vereniging. Het unieke is dat wanneer je van één van de dertien nations lid wordt, je ook naar alle activiteiten van de andere nations kan. Zo kan je elke dag bij verschillende nations voor een spotprijsje lunchen en in het weekend naar een brunch. En wat te denken van dagelijkse pubs, diners en nachtclubs. Een ideale plek om met je vrienden af te spreken. De nations zijn heel populair, al was het alleen al omdat het bier in ‘normale’ kroegen onbetaalbaar is. Naast genieten van alles wat de nations te bieden hebben, is het ook mogelijk om zelf actief bij te dragen

9

EXCHANGEVERSLAG SECTION

JELLE NEEFT


EXCHANGEVERSLAG SECTION

aan het voortbestaan van de nations. Zo heb ik een aantal keer als barman voor Lunds Nations nachtclub ‘Wonderland’ gewerkt. Je krijgt er geen cent voor, maar het is wel een leuke ervaring om samen met andere studenten de club te runnen. Als bedankje volgt de week erna een bedankfeest. Huisvesting Mijn kamer had ik van de universiteit toegewezen gekregen, waar ik erg blij mee was omdat er veel studenten naar Lund kwamen zonder een kamer te hebben. Het bevond zich in een groot studentencomplex (‘Parentesen’) nabij het centrum van de stad. Parentesen huisvestte vooral veel Zweden, zo bestond mijn corridor uit zeventien Zweden, twee Nederlanders en een Turk. Het complex stond bekend als de Zweedse feestlocatie en dat heb ik geweten. De eerste twee weken was het één gekkenhuis met elke avond dansende sjaars op het grasveld, maar toen na klachten van omwonenden de speakers werden afgepakt werd het een stukje rustiger. Een bijzonder feestje was de ‘tour de chambre’, waarin elke kamer in de corridor zijn eigen thema heeft, inclusief themadrankje. In het begin van de avond werd bepaald in welke volgorde de kamers bezocht werden, maar na een aantal drankjes was de chaos toch compleet. De meest creatieve kamer was zeker de Lion King kamer, geheel in stijl met bijbehorende muziek, bafiaan Rafiki en een waterpoel waaruit shotjes genomen moesten worden. Als afsluiting van het semester vond tenslotte een kerstdiner plaats, met traditionele Zweedse gerechten zoals de Zweedse gehaktballen. De Zweedse balletjes van de Ikea vallen hierbij in het niet kan ik vertellen. Zweedse gehaktballetjes zijn trouwens multifunctioneel, ik heb ze bij menig Zweed in de meest exotische gerechten verwerkt zien worden. Verschillen met Nederland De Zweedse samenleving lijkt relatief veel op de Nederlandse. Ik heb geen cultuurshock ervaren zoals je die ervaart als je naar een land in een ander werelddeel gaat.Toch zijn er wel degelijk een aantal opvallende zaken die verschillen, waarmee je in het dagelijks leven als student te maken krijgt. Te beginnen met de voorliefde voor wachtrijen in Zweden. Ik wil het graag zo zeggen: zelfs om een nummertje te krijgen voor in de wachtrij moet je

10


Studeren Natuurlijk werd er ook gestudeerd. Ik volgde twee vakken van de master in Statistiek; Data Mining and Visualization en Multivariate Analysis. Twee prima vakken, die een mooie aanvulling vormen op mijn bachelor. Waar de vakken aan de UvA vooral gefocust zijn op de theoretische aspecten van de methodes, werd in Lund veel aandacht besteed aan de meer praktische aspecten. Zo deed ik onder andere een marketing studie voor een winkelconcern en onderzocht ik data over prehistorische Thaise hondenbotten. Niet alleen de projecten zelf waren leerzaam, maar ook de samenwerking met studenten uit andere landen. Naast deze twee statistische vakken volgde ik nog twee vakken die minder in het econometrische straatje liggen. Swedish Economic Development en Population, Settlement and Economics Geography hadden weinig te doen met wiskundige modellen, maar daarom niet minder leuk. Ik kan je nu alles vertellen over het Zweedse welvaartsmodel, de ecologisch-dynamische westelijke haven van Malmö en landschapsrevoluties in de Zweedse geschiedenis. Hoogstwaarschijnlijk niet direct nuttige kennis, maar toch heb ik het één en ander ervan opgestoken. Interdisciplinaire kennis is tegenwoordig van waarde. Småland, Zuid-Zweden Zweden is een gigantisch groot land. Het strekt zich van noord naar zuid over meer dan 1500 kilometer uit. Dat het ook heel veelzijdig is heb ik zelf mogen ontdekken.Twee tripjes die ik zeker niet

vergeten zal zijn die naar het beboste Småland en het noordelijke Norrland. Begin oktober vertrok ik samen met een Duitse Italiaan, uit Zuid-Tirol, naar Småland om daar vier dagen te gaan hiken in de bossen. Nu zal Småland je misschien doen denken aan de ballenbak van de Ikea, maar het is dus ook een provincie in het zuiden van Zweden. Het echte Zweden gevoel overviel me hier en het zou me niet verbaasd hebben als Pippi Langkous hier leeft. Na een lange dag wandelen door de uitgestrekte herfstbossen, zonder ook maar één iemand tegen te komen, stond er elke keer weer een schattig falunrood hutje langs de route. De sleutel hing gewoon in het slot en er was genoeg hout aanwezig om de boel goed op te stoken. Graag een paar Zweedse kronen achter laten, dan was de natuurvereniging ook weer tevreden. Er zijn nog vier dagen over van de route die ik liep, dus ik geloof dat ik nog een keer terug moet. Lapland, Noord-Zweden Terwijl de winter in het zuidelijke Lund uitbleef, was het eind november in Noord-Zweden al een stuk kouder. Samen met een aantal vrienden zocht ik de sneeuw op door de trein te nemen naar Kiruna, een plaatsje boven de poolcirkel. In niet minder dan 22 uur werd het hele land doorkruist en bevond ik me opeens in de wondere wereld die Lapland heet. Het was een mooi avontuur met een hondenslee de omgeving te verkennen en op een sneeuwscooter met 90 kilometer per uur over de besneeuwde bevroren meren te crossen. Zoek je een alternatieve wintersport bestemming, dan is Lapland zeker een aanrader. Wel een beetje jammer dat de zon al om half twee onder gaat, maar met een beetje geluk (en dat had ik!) zie in je in de avond het Noorderlicht. De tijd vliegt voorbij Ik werd nog bezocht door een aantal vrienden, mijn zusje en mijn vriendin en zo werd het al snel eind december. Tijd om naar huis te gaan. Met een dubbel gevoel stapte ik het vliegtuig in en een uurtje later was ik al weer op Nederlandse bodem. Lund heeft een speciaal plekje in mijn hart gekregen. Ik zal zeker nog wel een keer terug gaan, maar hetzelfde zal het nooit meer zijn.

11

SECTION EXCHANGEVERSLAG

in een rij staan. Ongeduldig als ik ben heb ik me eerst een paar weken geërgerd, maar na verloop van tijd kwam de berusting. Een rij bleek soms nog best gezellig te zijn. Een oplossing is echter dichtbij; een kleine cursus wachttijdtheorie kan wonderen doen. Tweede verschil is het kopen van drank, wat nogal lastig wordt gemaakt door de overheid. Alleen in de door de staat gerunde winkels kun je alcohol boven de 3,5% kopen en de prijzen en openingstijden zijn niet om over naar huis te schrijven. Voordeel is dat een biertje op het Leidseplein nu weer spotgoedkoop lijkt. Echt minder gaan de Zweden er trouwens niet van drinken zo lijkt het. Speciale drankreisjes gaan naar Duitsland vanwaar de alcohol goedkoop wordt geïmporteerd.


Bedrijfsinterview 3TEC Interview met Paul van Oosten, Business Unit Manager at 3TEC. Zou je jezelf even kort kunnen voorstellen? Mijn naam is Paul van Oosten. Ik heb Bedrijfswiskunde en Informatica gestudeerd aan de Vrije Universiteit. Tegenwoordig heet deze studie Business Analytics. Ik heb al jaren ervaring in de data management en business intelligence. Big Data en business analytics komen nu op en ik vond het een mooi moment om daar nu in te stappen, omdat deze markt groeiende is. De directeur van 3TEC, Hans Verweij, ken ik al jaren en mede door zijn enthousiasme heb ik de keus gemaakt om bij 3TEC te gaan werken. Wat voor een bedrijf is 3TEC? 3TEC is een consultancy bedrijf dat gespecialiseerd is in business analytics middels BIG DATA technologieën.

BEDRIJFSINTERVIEW

Voor wie (welke bedrijven) werkt 3TEC? 3TEC richt zich op de top 500 bedrijven in Nederland, maar wil je weten voor welke bedrijven we al opdrachten hebben gedaan, bezoek dan onze website: www.3tec.nl. Wat is het ‘Third Platform’ en wat is het belang daarvan? Gartner definieert the Third Platform als de samensmelting en gemeenschappelijke onderlinge versterking van vier onafhankelijke trends: sociale interactie, mobiliteit, cloud en informatie. Na the First Platform, dat gebaseerd was op een mainframe infrastructuur en the Second Platform, ook wel Lan/Internet/Client Server en pc tijdperk genoemd kan the Third Platform gezien worden als een natuurlijke itteratie gebaseerd op de fundamenten van de eerste 2 platforms. Cloud, mobiel, big data en sociale interactie verandert de manier waarop bedrijven zaken doen. Bedrijven zullen een nieuwe visie moeten ontwikkelen om tot deze transformatie te kunnen komen. Een nieuwe strategie die het volledige

potentieel van de combinatie van deze technologieën kan benutten. Een succesvolle verandering vereist een nauwkeurige afstemming van alle bedrijfsonderdelen. Flexibiliteit, schaalbaarheid en slagvaardigheid zijn hierbij de sleutel tot succes. Wat onderscheidt 3TEC als bedrijf? 3TEC heeft de slimste mensen in dienst en richt zich zuiver en alleen op business analytics. We geloven niet in standaard oplossingen. Elk probleem vereist een specifieke aanpak. De term Big Data is hot, zie je dit als een trend of als iets blijvends? Big Data is nu misschien hot, net zoals Twitter hot was toen het een paar jaar geleden net begon. Business Intelligence kwam 15 jaar geleden ook nieuw op, maar is ook iets blijvends gebleken. De technische mogelijkheden zijn er nu om Big Data en business analytics in de praktijk uit te voeren. Bedrijven hebben nu dus de technische mogelijkheden, maar zullen wel de toepasbaarheid van Big Data moeten zien in hun eigen organisatie. Is het veelvuldig gebruik van Big Data een bedreiging voor de privacy van mensen? Als bedrijven Big Data en business analytics inzetten om bijvoorbeeld predictive maintenance van hun machinepark te integreren in hun bedrijfsprocessen, is er niet zo veel aan de hand. Anders is het natuurlijk als organisaties de data gebruiken om de consument te helpen bij het maken van een keuze:“Als u dit product leuk vindt, vindt u dit andere product ook leuk.” Maar Big Data is erg nuttig. Het kan helpen om criminaliteit en fraude op te sporen, om goedkope reizen te vinden, om dijkdoorbraken te voorkomen. Een statistisch model dat een verkeerde voorspelling doet voor een individueel persoon blijft natuurlijk lastig. Zeker als deze persoon daarmee uitgesloten wordt van bijvoorbeeld een verzekering.

12

Hoe kun je voorkomen dat deze privacy wordt aangetast? Bij elk Big Data vraagstuk zou je je altijd moeten afvragen in hoeverre dit de privacy aantast. Zo ja, anonimiseer de data en voorkom hiermee dat men zich zorgen maakt om de privacy. Welke toepassingen van econometrie worden er binnen 3TEC gebruikt? De Data Scientists maken statistische modellen en doen kwalitatieve analyses en zoeken zo patronen in de data. Vaak wordt gebruik gemaakt van machine learning. Over het algemeen kunnen onze data scientists ook uitstekend programmeren. Hoe is de werksfeer binnen 3TEC? Uitstekend. Omdat 3TEC niet groot is, is het een ons-kent-ons cultuur. Ondanks het feit dat we vaak bij klanten werken, zien we elkaar toch regelmatig op de maandelijkse kennissessie-avonden. Met kerst hadden we een kerstdiner samen met de partners. Naar wat voor studenten is 3TEC op zoek? Ambitieuze Data Scientists die mee willen bouwen aan het beste bedrijf in Nederland op het gebied van business analytics. Klopt het dat 3TEC van plan is komend jaar 12 mensen aan te nemen? Ja, dat klopt.We willen groeien, maar niet om het groeien zelf.We zoeken de beste Data Scientists, want we willen hét business analytics bedrijf in Nederland worden. Om dat te worden, hebben we enthousiaste en goede mensen nodig. Heb je nog vragen? Neem dan contact op via onderstaande gegevens! PAUL VAN OOSTEN p.van.oosten@3tec.nl


Hé, wakker worden!!!

Tijd om iets leuks te gaan doen. Zou het niet geweldig zijn om tegen je vrienden te kunnen zeggen dat je bij hét bedrijf in Nederland werkt als het gaat om business analytics? En zou het niet geweldig zijn om bij aansprekende klanten mooie projecten te doen? Als jij denkt dat je echt goed bent, mag je meebouwen aan een dynamische organisatie met grote ambities.

“Data scientist is het meest sexy beroep van de 21e eeuw.” 3TEC zoekt mensen die: - Het vermogen hebben om inzicht te krijgen in heterogene databronnen - Een business focus hebben - Kennis hebben van algebra, statistiek en algoritmen - Predictive analytics kunnen uitvoeren - Nieuwsgierig en leergierig zijn - Kunnen werken in teamverband Neem contact op met Hans Verweij: h.verweij@3tec.nl of 06 546 92 795.


De balans van het VSAE bestuur 2014

BESTUURSVERSLAG

Ongeveer dertien maanden geleden werden ondergetekende, Aletta, Nousjka en Glenn verkozen tot het tweëenvijftigste bestuur der VSAE, het begin van een lange en mooie samenwerking. Nu hun bestuursjaar erop zit blikt het bestuur 2014 nog één keer terug op een veelbewogen jaar bij de VSAE. Ervaringen worden besproken, meningen worden gegeven en de verschillende hoogtepunten passeren nogmaals de revue.

DOOR: KASPER VAN VLIET

Waar en wanneer begint het? Dat is de vraag die bij elke bestuurskandidaat of ‘‘kandi’’, zoals ze dat in Groningen zouden zeggen, opborrelt na de definitieve aanmelding voor het bestuur. Wat je precies te wachten staat, wordt eigenlijk pas gedurende het jaar zelf echt zichtbaar. Het traject is natuurlijk wel duidelijk: gesprekken, motivatie, curriculum vitae, alles komt aan bod. Dit geeft echter nog geen antwoord op bovenstaande vraag, want wanneer begint het nou écht? Ik zou zeggen, op het moment dat je aan tafel zit bij een pakkenverkoper en tot overeenstemming moet komen over wat je wilt als bestuur. Wat willen wij uitstralen? Welke kleur hoort daarbij? Willen we een rok of een broek? Allemaal dezelfde voering of juist niet? Bedenk jezelf dat de vier personen hier nogal verschillende ideeën over hadden en de discussie die dit heeft opgeleverd. Onze pakkenverkoper zei dan ook terecht: “Ik zal jullie even een half uurtje alleen laten om te overleggen.” Op dat moment begin je een beetje een idee te krijgen van hoe het bestuursjaar er uit zal komen te zien: et vier verschillende meningen uiteindelijk uitkomen op een oplossing waar je als geheel bestuur achter kunt staan. Al ver voordat de vereniging officieel van bestuur wisselt is het nieuwe bestuur al bezig. En nee, niet alleen met het uitzoeken van bestuurspakken, ook met het beleidsplan, voor diegenen die zich nu een beetje zorgen beginnen te maken. Een tweede ‘‘begin’’ is natuurlijk de eerste maandag van februari, om 09.00 uur op de VSAE kamer, je bent als bestuur officieel aan het jaar begonnen. Dat Glenn ons een week daarvoor pas had ingelicht dat hij de eerste week van het bestuursjaar in Shanghai zou doorbrengen, was slechts een kleinigheidje. Week 2 van het jaar brachten Aletta en ondergetekende door in Frankrijk (VSAE wintersport natuurlijk), dus de eerste keer dat wij met het voltallige bestuur op de VSAE kamer verschenen, was precies twee weken later. Mocht je ooit willen weten hoe de eerste twee weken van zo’n bestuursjaar zijn, vraag dit dan dus vooral aan Nousjka.

14


Van studeren naar besturen Van een tentamen Advanced Econometrics 2 op vrijdagmiddag naar de VSAE kamer op maandagochtend: een flinke verandering. We zijn het er allemaal mee eens dat het wel even wennen is: praktische oplossingen en organisatorische kwesties in plaats van schatters en modellen. De VSAE heeft een heel goede mix van studiegerelateerde activiteiten, inhoudelijke projecten en ontspannende evenementen. Een bestuursjaar bij deze vereniging is daarom ontzettend leerzaam stelt Glenn: “juist de softskills kun je ontwikkelen. Denk hierbij aan coachen, motiveren, leiding geven, communiceren en onderhandelen.” Nousjka voegt hier meteen aan toe: “je bent als team een jaar lang eindverantwoordelijk voor het gehele reilen en zeilen van de vereniging, best een uitdaging als je er zo over nadenkt.” Voor ons allemaal was het overigens wel een welkome overgang, eentje waar we aan toe waren om uiteenlopende redenen.

Het jaar 2014 Het eerste grote project dat op ons pad kwam was het Actuariaatcongres, in het EYE filmmuseum.Vol spanning stonden wij die ochtend op het pondje, nadenkend over wat deze dag zou gaan bieden. Gelukkig had de commissie zijn werk fantastisch gedaan: de dag verliep, op een paar missende badges na, vlekkeloos. Een goed begin wat betreft de projecten! Dat omroep MAX aanwezig was om wat shots te maken en interviews met de sprekers af te nemen, was een extra leuke bijkomstigheid. Al vrij snel daarna volgde de Econometric Game:

BESTUUR 2014 Kasper van Vliet Voorzitter Aletta Verberg Secretaris & Interne Zaken Nousjka de Lange Penningmeester & Commerciële Zaken

SECTION

SECTION BESTUURSVERSLAG

Glenn Taylor Commerciële Zaken & Vicevoorzitter

Glenn Taylor

Nousjka de Lange

15

Aletta Verberg

Kasper van Vliet


Van besturen naar studeren Ook deze overgang zal er eentje worden waar wij aan zullen moeten wennen. Varianties, tijdreeksen en dynamische modellen zullen weer onderdeel van het dagelijks leven worden. Desalniettemin zijn we allen vastberaden weer een goede start te maken. Ondergetekende zal zijn uiterste best doen om in een half jaar zijn Masterdiploma te behalen, wetend dat dit waarschijnlijk wel iets langer zal gaan duren. Noujska heeft plannen om in het buitenland te gaan studeren dus wellicht lezen jullie in ĂŠĂŠn van de komende edities van de Aenorm hoe zij het heeft gehad in de wereldstad Lissabon. Glenn geeft aan zijn Bachelor op korte termijn af te willen ronden en begint daar naar alle waarschijnlijkheid goed mee door Wiskundige Economie 2 binnen te tikken. Ook Aletta heeft de studie weer opgepakt in de bachelorfase.Waar wij allen precies terecht zullen komen is nog maar de vraag, maar dat we er wel enorm veel zin in hebben de studie weer op te pakken is duidelijk. Namens het gehele bestuur wil ik graag iedereen bedanken waar wij tijdens ons bestuursjaar hebben samengewerkt: bedrijven, de faculteit Economie en Bedrijfskunde en natuurlijk al onze (actieve) leden. Tot slot willen wij het nieuwe bestuur enorm veel succes wensen voor het komende jaar, wij zijn ervan overtuigd dat het weer een fantastisch VSAE jaar zal worden!

16

SECTION

BESTUURSVERSLAG

drie fantastische maar enorm slopende dagen. Je merkt gedurende de dagen voortdurend hoe dankbaar de buitenlandse studenten zijn voor alles wat je voor ze regelt. Zowel de Actuariaatcongres commissie als Econometric Game commissie, chapeau! In 2014 heeft de VSAE case tijdens de Econometric Game zijn intrede gedaan: masterstudenten werkten aan een ietwat versimpelde case en konden zo proeven aan de ervaring van de Econometric Game deelnemers. Tevens ontvingen zijn een sollicitatietraining. Al met al een heel leerzame dag die het potentieel van de VSAE case tentoonspreidde. Naast de Econometric Game en het Actuariaatcongres werden dit jaar de Beroependagen,het International Study Project en alle sociale evenementen enorm goed georganiseerd en bezocht. Dit leidt tot de conclusie dat, wat betreft de evenementen, 2014 een enorm succesvol jaar is geweest, waar zowel het bestuur als alle commissieleden enorm trots op mogen zijn. Uiteraard zijn er ook verbeterpunten op te noemen en is het extreem belangrijk dat er kritisch naar de opzet en organisatie van de evenementen gekeken blijft worden. Slechts op deze manier kunnen we ervoor zorgen dat de vereniging zich blijft ontwikkelen.


Wat denkt de VSAE over... Privacy DOOR

Dat Big Data tegenwoordig populair is valt uit alles af te leiden. Er start onder andere een nieuwe Big Data master, het onderwerp van de Nationale denktank dit jaar was Big Data en de eerste professor in de Big Data is uitgeroepen. Maar er is ook een andere kant van Big Data, namelijk de verminderende privacy. Hoe denkt de VSAE over het afplakken van je webcam of het plaatsen van facebookposts? Lees het hier!

reclame waar ze niets aan heeft. Opvallend is ook dat hoe meer mensen hun sociale leven online delen, hoe minder geld ze voor hun gegevens over hebben. Het is in ieder geval duidelijk dat vrouwen meer waarde hechten aan privacy dan mannen. Het is dan ook niet verbazingwekkend dat vrouwen 20% meer aan onderzoeken zouden meewerken als ze anoniem waren. Ook Milan doet liever anoniem mee aan een onderzoek. Hierbij is het echter wel een voorwaarde dat hij nog steeds kans maakt op die mooie prijs die met deelname valt te winnen en dat dit zijn winkans niet zal verminderen.

Niet alleen hebben vrouwen meer geld over voor hun online privacy, ook zijn ze op 50% minder verschillende online media actief dan Vrouwen hebben over het algemeen meer mannen. Overigens lijkt social media geen positief moeite met het plaatsen van foto’s door de VSAE effect te hebben op de studie. Waar studiepunten dan mannen. Slechts 20% procent van de mannen ontbreken wordt dit meestal gecompenseerd heeft hier namelijk problemen mee tegenover door een drukker online leven. bijna 50% van de vrouwen. Overigens vinden Vooral de meer ervaren studenten onder zowel de mannen als de vrouwen de censuur van ons voegen hun ouders liever niet toe op social het bestuur noodzakelijk. Op deze manier komt media. Verder is opvallend dat mensen met tinder alleen de meest sexy kant van alle leden online. hun ouders sterk vermijden op social media. We Vrouwen denken dat bedrijven meer geld over hopen maar dat deze groep hun ouders nooit hebben voor hun gegevens dan mannen denken, hoeven tegen te komen op tinder. Ruim 15% van €43,- meer om precies te zijn. In strijd met de de ondervraagden heeft toegegeven, weliswaar rest van de vrouwen heeft Esmee er niets voor met tegenzin, hun ouders als vriend te hebben. over om haar gegevens privé te houden. Ze heeft Toch enigszins zorgwekkend dat je je eigen online namelijk liever gepersonaliseerde reclame dan leven niet zelf mag bepalen.

“ Mannen zijn hierbij zowel het slachtoffer als de dader.”

17

SECTION VSAE ONDERZOEK

Bijna 90% van de VSAE’ers is het er gelukkig over eens dat Facebook niet je relatie officieel maakt. Gwen doet er nog een schepje boven op, en vindt het zielig als mensen Facebook als graadmeter voor hun relatie gebruiken. Echter zijn er ook tegenstanders die vinden dat je relatie pas officieel is als het op Facebook staat aangegeven. Deze groep bestaat uitsluitend uit mannen waarbij er zonder toestemming wel eens iets op Facebook is geplaatst. Ironisch dat juist die groep zo’n waarde hecht aan een Facebook melding. Bij bijna 50% van de leden is er overigens wel eens iets zonder toestemming op Facebook gepost. Mannen zijn hierbij meestal zowel het slachtoffer als de dader. Maar mensen met Twitter zijn het meest gehackt. Overigens is er duidelijk een groep mensen zichtbaar die selectiever met hun identiteit online omgaan. Bij deze groep is er nog nooit zonder toestemming iets op Facebook geplaatst en is de webcam afgeplakt. Ook zijn zij minder geamuseerd van de foto’s die door de VSAE op Facebook worden gepost. Bovendien hebben de mensen die dit vervelend vinden een minder druk leven online.

FLORIAN VAN DER PEET & SIMONE SPIERINGS


Het Deep Data Internet: Relevantie & Verandering DOOR:

Het internet is niet meer wat het is geweest. Dat is het al vaker niet meer geweest in haar betrekkelijk korte historie. Ook nu staan we weer aan de vooravond van een impactvolle verandering.

BOUDEWIJN ZEIJLMANS

BIG DATA IN PRAKTIJK SECTION

Dit artikel in de Aenorm is gelardeerd met een bovengemiddeld aantal plaatjes. Wij van NEWCRAFT weten als geen ander dat visuals cruciale ‘drivers’ zijn voor attentie en leesduur van studenten. Al helemaal als het artikel zo’n 2000 woorden bevat. Maar jullie kijken daar doorheen. Toch? Jullie herkennen ‘the devil in the details’. In de data, beter gezegd. We dagen je uit die duivel in de komende 1839 woorden te vinden. Iets minder dan twintig jaar geleden werd het internet toegankelijk voor ons, de massa. Met eenvoudige modems pruttelden de bits de huiskamer binnen. In de praktijk betekende dit dat we wat tekst konden bekijken of een simpel spelletje konden spelen. En mannen wachtten tientallen minuten met smart op een paar pikante plaatjes. Anno 2015 kunnen we niet eens meer fatsoenlijk werken als de internetverbinding het even niet doet. Dataverbindingen - gefaciliteerd door het internet vormen een levensader in zowel ons privé- als werk- of studieleven. We kijken het nieuws op een app, swipen scharrels op Tinder, inspireren elkaar op Instagram en als de afwasmachine rare geluiden geeft zoeken we een monteur op YouTube die in simpele taal uitlegt hoe de filterreiniging werkt. Iets kopen op internet is niet meer spannend, het is geen uitzondering meer. In tegenstelling tot het binnenlopen van een stenen winkel...

Kopen, kopen, kopen We laten ons online dagelijks inspireren, motiveren, verleiden en aanzetten tot koop. Voor aankopen boven de € 100 checken we of deze de toets der kritiek van ‘de massa’ of een (vaak zelfbenoemde) specialist kan doorstaan. Als het nodig is raadplegen we nog even ons netwerk via Twitter om hun mening of voorkeuren te vragen. We bekijken vaak de vergelijkingssites voor de rating van ons voorkeursproduct, ondanks groeiende twijfel aan de onafhankelijkheid van vergelijkingssites. En terecht. Het blijkt overigens dat negatieve beoordelingen onze keuzes radicaler beïnvloeden dan ultiem positieve. Internet is inmiddels dus een volwaardig onderdeel van ons sociale en commerciële leven. Om te overleven moeten bedrijven daar continu op inspelen, op inzetten, in mee bewegen, van leren, over leren.

18


Maar voor de meeste bedrijven is het een gekkenhuis: Apps, miljoenen sites, affiliate programma’s, banners, adwords, search engine optimalization, emailcampagnes en elke dag nieuws over een nieuwe frisse startup met een ingewikkeld concept dat de wereld schijnt te gaan veroveren.

Voor onze opdrachtgevers is efficiënte en effectieve online marketing & sales van levensbelang. Wij als klanten willen ons via een willekeurige mix aan devices en kanalen, 24 uur per dag, laten inspireren, ons oriënteren en kopen. We willen zeker geen lange brieven in onze brievenbus, maar slechts die informatie die noodzakelijk is om een volgende stap richting ons doel te kunnen zetten.

Met brede doelgroepen waarop met hagel wordt geschoten. En dat is begrijpelijk, maar niet verstandig. De huidige tooling op internet levert namelijk ontzettend veel data om ervaringen persoonlijk en interessant te maken. Consumenten worden van veel dingen gek op internet, maar in het bijzonder van 2 dingen: irritante reclame en het niet snel vinden wat je zocht op een website. Datakoppeling en -verrijking kan dit voorkomen! Het gedrag van consumenten leveren onze opdrachtgevers wekelijks vele miljoenen datapunten. Deze datapunten staan voor echte mensenacties op advertenties, maar ook op de websites van onze opdrachtgevers. In deze natuurlijk verkregen data zitten de echte interesses van de klanten van onze opdrachtgevers besloten. Ze bevatten de informatie die ons in staat stelt op het juiste moment relevante informatie te tonen. Op een plaats (kanaal of apparaat), in een vorm, op een toon die past bij een specifiek persoon. Hoe doen we dat? Door met de ruwe data aan de slag te gaan, door de juiste analyses te doen op het gehele data plaatje, door nauw samen te werken met marketeers, sitemanagers en media specialisten, door hypotheses op te stellen en deze te toetsen, door voorspellende (econometrie)modellen op deze data toe te passen, door de resultaten te evalueren en het model bij te stellen, door toe te werken naar een zelflerend systeem.

Van irritante reclame naar relevante ervaringen Dit jaar is het jaar waarop er voor het eerst wereldwijd meer geld zal worden uitgegeven aan online reclame dan aan televisie-reclame, zo’n 125 miljard. In 2009 was dit nog de helft en in 2007 nog maar een derde… Dit geeft aan hoe belangrijk internet als medium ondertussen is geworden. Maar veel van dat geld wordt nog besteed alsof het internet een massamedium is, net als televisiereclame.

Doordat we nauw samen werken met experts in onze organisatie en bij onze opdrachtgevers weten we beter waar we naar op zoek zijn. We prefereren de term Deep Data boven de aan inflatie onderhevige term Big Data, omdat we door onze kennis in staat zijn scherpere hypotheses te formuleren en direct gerichter en dieper in de data verificatie te vinden. Met de modellen die we ontwikkelen geven we groepen mensen minder reclame en anderen betere reclame. We geven sommige groepen die op de websites van onze opdrachtgevers komen een beetje andere pagina’s

19

BIG DATA IN PRAKTIJK SECTION

NEWCRAFT helpt bedrijven in deze snelle, complexe tijden waar alles continu ‘niet meer is wat het geweest is’.We kunnen helpen omdat we een bonte verzameling specialistische kennis hebben, omdat we snel en flexibel werken, maar vooral omdat we ons kunnen verplaatsen in de situatie en behoeftes van onze klanten en hun klanten. Op basis van data, aangevuld met gezond verstand en een hands-on mentaliteit. NEWCRAFT helpt grote bedrijven om online (pro)actief te zijn, maar bijvoorbeeld ook om te versnellen in besluitvorming, om shortcuts te realiseren rondom massieve it-systemen, en om markt-, klant- en prestatieinzicht te geven op basis van data. Naar onze meting is ‘toepasbaar inzicht’ dé sleutel om sneller, beter en gerichter aan klanten te geven waar ze om vragen. Uiteindelijk het ultieme doel van elke zichzelf respecterende commerciële onderneming.


dan andere groepen, omdat we kunnen voorspellen waar ze naar op zoek zijn.

We’re on a Mission, data don’t lie. De missie van NEWCRAFT is niet alleen om in real-time te voorspellen en daardoor te geven wat consumenten relevant vinden, maar ook en vooral om onze opdrachtgevers te helpen hun manier van werken zo in te richten dat ze dat ook doen! En begrijpelijkerwijs is dat niet 123 geregeld. Dat kost tijd, omdat het nieuw is, omdat er zo veel nieuwe ontwikkelingen zijn waarop geanticipeerd moet worden. Maar data don’t lie. Het is harde wetenschap. Het is aan ons, -en de onzen-, om onze opdrachtgevers mee te nemen in alles wat we elke dag, vaak met hen samen, leren en wat dat betekent voor hun business.

Real life example: Multi Brand Media Effectivity

BIG DATA IN PRAKTIJK SECTION

Stel je voor: Je bent een bedrijf dat verschillende merken voert in een brede markt. Het onderscheid zit ‘m niet primair in de basisdienstverlening, maar veel meer in de propositie/service niveaus en merkuitstraling die je aanbiedt. Al die verschillende merken voeren hun eigen beleid, op alle gebieden. Think about it…., do the math. En dan heb je NEWCRAFT en die zegt: “laten we alle online data van al die merken eens bij elkaar brengen en kijken wat we kunnen leren…”. We zijn begonnen met het verzamelen van de online data: Vele honderden miljoenen datapunten om chocola van te maken. Allemaal een beetje anders. Die zijn we gaan bewerken om er een enigszins consistent verhaal van te kunnen maken en appels met appels, peren met peren te kunnen vergelijken. Vervolgens zijn we onze eerste hypotheses gaan toetsen:

Het zal je niet verbazen dat na een aantal optimalisatieslagen de resultaten indrukwekkend waren (dit soort dingen gaat over veel geld): a) We toonden aan dat als ze in totaal 67% minder banners lieten zien, de sales gelijkbleven tov de periode dat (willekeurig) alle banners werden getoond. b) We waren in staat om groepen met merkvoorkeuren te ontwikkelen die 25 x vaker het product kochten dan de willekeurige (controle) groepen. c) Als bonus kwamen we erachter dat ook in algemene zin hypothese i) waar bleek te zijn. Individuen behoef je nooit meer dan x banners te tonen. De kans dat ze bij meer banners alsnog het product kopen was kleiner dan een percentage dat de kosten niet rechtvaardigde.

i. Als mensen na x banners geen product meer hebben gekocht, is de kans dat ze daarna nog het product gaan kopen kleiner dan y% ii. Als we de data goed analyseren en de juiste voorspellende modellen erop los laten, kunnen we met x% zekerheid voorspelen wat het merk van iemands voorkeur is; dus besparen op de banners van de andere merken en iemand efficiënter naar zijn voorkeur toe leiden. Dit is een bannervoorbeeld,maar dat wat we meten heeft impact op bijna alle geledingen van onze opdrachtgever. We praten, gebaseerd op feiten en onze analyses, over pricing van producten, over proposities, over impact van Above the Line marketing (Brand Communication, online en klassieke tv-reclames), over winkelsales, over eBussiness strategie, over optimalisaties binnen het online verkoopkanaal. Om er maar een paar te noemen. We helpen onze opdrachtgevers fact-based en datadriven te worden. De impact die we daarmee maken komt steeds hoger op de agenda, letterlijk en figuurlijk.

20


Juichverhaal

Maar veel belangrijker nog is de stap die de consument moet maken: Al lang geeft hij informatie over zichzelf, zonder precies te weten wat dat betekent. Hij gebruikt vele prachtige applicaties en sites zonder ervoor te betalen. Hij weet dat ‘ze vreselijk veel van me weten…’ Hij weet niet wat “ze er allemaal mee doen”. De essentie zal erin liggen of consumenten accepteren dat we meer gepersonaliseerde content zullen bieden op basis van Deep Data analyses, en dat ze dat ook vertrouwen: Dat wordt het spel van de komende jaren en dat spel moet adequaat, maar tegelijk empatisch worden gespeeld; Relevantie, maar binnen het vertrouwen dat we mogen verwachten te krijgen. De impact van deze personificatie zal groot zijn: Over een aantal jaren zullen weinig mensen meer precies dezelfde website kunnen bekijken, omdat ze andere mensen zijn. Als wij ons vak goed uitoefenen, vinden mensen dat normaal en voelen ze zich beter geserviced. NEWCRAFT geeft de komende jaren, samen met haar opdrachtgevers, vorm aan deze krachtige verandering. We zijn er trots op zo in de frontlinie te mogen spelen. Ben je er nog? We zitten op 1816 woorden.We hebben jouw generatie nodig om de veranderingen vorm te geven. Ben je getriggerd? Bel voor een kop koffie.

21

BOUDEWIJN ZEIJLMANS Toen Boudewijn begin 1992 zijn masters Natuurkunde in Leiden haalde wist hij volstrekt niet wat hij moest gaan doen. Hij begon bij een startup, die later Nederlands’ Eerste internet startup bleek te zijn: Lost Boys. Daarna investeerde hij in startende bedrijven en begon er zelf ook nog twee. Één daarvan is momenteel onderdeel van NEWCRAFT, waar hij nu talent ontwikkelt in de NEWCRAFT academy.

BIG DATA IN PRAKTIJK SECTION

Het klinkt allemaal prachtig en mooi. En aan de wetenschappelijke kant is dat ook zo. Maar enige bescheidenheid past, we staan pas aan het begin. Onze contacten met onder andere Google leren ons dat wij als bedrijf ver zijn, -ook internationaal-, maar we realiseren ons dat we pas aan het begin van de nieuwe belangrijke verandering staan. Onze opdrachtgevers zullen een grote ommezwaai moeten maken om de relevantie op het juiste moment, plaats, tijd en device te kunnen maken. Dat is de eerste stap die we al aan het nemen zijn.


Bedrijfsinterview SAS Jowita en Florian zijn bij SAS langs geweest voor een interview met André Molenaar en Rein Mertens. André is Solutions Consultant en Rein is Senior Business Solutions Manager.

BEDRIJFSINTERVIEW SECTION

Kunnen jullie iets over jezelf vertellen? André: Ik werk al meer dan 20 jaar bij diverse bedrijven die zich bezighouden met Data Warehousing en Business Intelligence. Momenteel ben ik al anderhalf jaar werkzaam bij SAS. Mijn functie houdt zich bezig met presales, oftewel het verkopen van software. Daarnaast ondersteunen we de technische kant van de verkoop. Ik heb veel contact met klanten in de fase waarbij de software in gebruik wordt genomen. Rein: Inmiddels ben ik al bijna 20 jaar werkzaam bij SAS. Op dit moment ben ik teamleider van de presales afdeling. Ik hou me bezig met het probleem van de klant en hoe SAS hierbij kan helpen. Wat zijn de voornaamste werkzaamheden van SAS? André: SAS staat voor Statistical Analytical Software. We gebruiken gegevens om op een slimme manier problemen van de klant op te lossen en systemen te optimaliseren. Rein: Tegenwoordig is alleen het toepassen van analytics niet genoeg! De data die we analyseren, verwerken we tot resultaten, die vervolgens op een makkelijke manier moeten worden gerapporteerd naar de klant. Het ondersteunen van dit hele proces, “van bron tot browser”, is een unique selling point van SAS. Door alles samen te voegen worden tijd en de kosten bespaard. Daarnaast hebben wij ook kennis en ervaring wat betreft diverse markten, omdat we hier al content voor hebben en over een geschikt data model beschikken. André: Tot slot is het belangrijk om de taal van de klant te spreken, oftewel de manier waarop je de

klant benadert. Het is van belang dat de klant het probleem begrijpt. Wat maakt SAS een interessante werkgever? Rein: Tegenwoordig wordt het beroep Data Scientist als the most sexy job van deze eeuw gezien doordat dit vakgebied steeds belangrijker wordt. Daarnaast is SAS vorig jaar benoemd tot de beste werkgever volgens het Great Place to Work onderzoek. Dit komt onder andere door de manier van communiceren binnen het bedrijf en naar de klanten toe.

sociale netwerken kan bijvoorbeeld voorspeld worden welke klanten mogelijk gaan verdwijnen en hier kan een bedrijf haar tarieven op aanpassen.

SAS biedt het gratis programma SAS University Edition aan. Waarom zouden studenten dit moeten downloaden? Rein: Het programma van SAS onderscheidt zich voornamelijk in de mogelijkheden in data manipulatie. André: Klopt, als de data die je tot je beschikking hebt nog niet precies goed is voor je onderzoek, dan biedt SAS de ideale uitkomst. Met andere Hoe komt het dat Big Data steeds statische software wordt het lastig belangrijker wordt en hoe speelt SAS deze data goed te verwerken. hier op in? Rein: Daarnaast is SAS University André: Allereerst, er is steeds Edition erg makkelijk in gebruik. meer data beschikbaar door Er zijn namelijk veel voorbeelden bijvoorbeeld de komst van social aanwezig, net zoals het aantal media en smartphones. Vroeger templates van codes. Bovendien is werd dit allemaal opgeslagen het programma ook via de browser in databases. Maar met de te benaderen. toenemende hoeveelheid, is dit Tot slot, kunnen resultaten ook te duur geworden. SAS heeft hier direct gerapporteerd worden in een oplossing voor gevonden in de ditzelfde programma en gedeeld vorm van Hadoop: dit programma worden met anderen. Je kunt dus zorgt ervoor dat meer kleine je hele onderzoek van data analyse machines samen kunnen werken en tot rapport in 1 programma maken. kunnen dienen als grote database Ook als je later gaat werken als of verwerkingsprogramma. Met de Data Scientist komt de kennis van komst van Hadoop is het goedkoper SAS software erg van pas, aangezien geworden om data gewoonweg te grote bedrijven in Nederland dit nu bewaren in plaats van uit te zoeken al veel gebruiken. welke data later van pas kan komen. André: Genoeg redenen om te downloaden dus! Wat biedt Big Data voor mogelijkheden voor de toekomst? Mocht je nog vragen hebben, neem André: Als we kijken naar wat dan gerust contact op! Big Data de klanten van SAS kan ANDRÉ MOLENAAR brengen en hoe SAS hen hierbij andre.molenaar@sas.com kan helpen, kun je bijvoorbeeld denken aan het behouden van REIN MERTENS oude en het aantrekken van nieuwe rein.mertens@sas.com klanten van een bedrijf. Door het gebruik van alle klantgegevens en

22


SAS ANALYTICS ®

For the next generation of analytics leaders.

Exclusively for Professors and Students • Faster access to SAS software • New options at no cost. • More ways to connect with fellow SAS analytics users in academia. Ready to learn more and be a part of the U? Join our community!

sas.com/analyticsu

© 2014 SAS Institute Inc. All rights reserved. S132758US.1014


Commissie uitgelicht... De AC-commissie 4 maart 2015 vindt alweer de vijftiende editie van het jaarlijkse actuariaatcongres (het AC) plaats. Dit jaar komen studenten, actuarissen en andere geïnteresseerden bijeen in het Koninklijk Instituut van de Tropen voor het congres met als thema ‘Grenzen Vervagen’. De commissie belooft een interessant en vooral ook progressief congres. Elk jaar wordt het georganiseerd door een nieuw team van de VSAE. Dit jaar bestaat het team uit Mark Verhagen (voorzitter), Nousjka de Lange (coördinator), Mumtaz Shafiq, Joris Bücker, Liselotte Siteur, Mark Verschuren en Laurens Voogd. Wij willen natuurlijk alles weten over dit veelbelovende team en hebben de commissie eens de nodige vragen gesteld.

DOOR: LAURA RUIS & JOWITA OSINGA

COMMISSIE UITGELICHT SECTION

Hoe gaat het met de voorbereidingen?

Nousjka: Perfect! De sprekers en de sponsoren zijn rond, nu alleen nog de puntjes op de i. Laurens: Mega. Mark Verschuren: Drama. Liselotte: Er zijn veel piekmomenten geweest, nu gaat het allemaal zijn gangetje.

Waarom zouden wij naar het AC moeten komen?

Joris: Het wordt deze keer interessant voor iedereen.Vooral door het meer visionaire aspect van het congres. Het wordt tastbaarder, minder gedetailleerd en de onderwerpen die voorbij komen zullen de komende jaren nog vaak in het nieuws te vinden zijn. Mumtaz: De borrel na afloop... Haha, nee het wordt echt een super congres met goede sprekers en hopelijk zijn we na het congres een stapje dichter bij het oplossen van het pensioenprobleem. Mark Verhagen: Omdat het een perfect excuus is om die long-over-due inhaalslag van de studie nog een dagje uit te stellen met een quasi studiegerelateerd excuus.

Van alle dingen die jullie hebben bereikt, waar ben je het meest trots op?

Liselotte: Het format. We proberen met de interactieve sessies één concept van meerdere kanten te belichten met behulp van verschillende sprekers. We hopen dat het publiek samen met de spreker echt een stap in de toekomst gaat zetten. Mark Verhagen: Consensus over de kleur jurk voor de vrouwen. Joris: De commissiefoto, toch wel een prestatie met de juiste stropdassen en jurken.

24


Wat ging er mis bij het uitzoeken van de jurkjes?

Liselotte: Een Mark waarschijnlijk. Grootste kans inhoudelijk toch wel Verschuren, maar als dagvoorzitter of discussieleider eerder Verhagen.

Mark Verhagen: We hebben de reikwijdte van de kleur groen drastisch onderschat. Laurens: Iets met de lengte? Ik sluit me tijdens dit soort punten in de vergadering meestal mentaal af. Mark Verschuren: Nousjka, dat ging er mis.

Is het organiseren van het AC wat je ervan verwachtte?

Laurens: Ja, hoewel het met vlagen veel van je vraagt, is het vooralsnog een succes en goed te doen naast een dubbel MSc programma. Daarnaast is er ook tijd en ruimte voor een gezellig drankje en “diepgaande gesprekken”. Liselotte: Er komt toch meer bij kijken. Je hebt eigenlijk bijna volledige invloed op de inhoud met z’n allen en dat had ik me niet gerealiseerd.

Wie is er altijd te laat op de vergaderingen?

Mumtaz: Dat CEOs en bestuurders van bedrijven ook gewoon normale mensen zijn die tijd voor je vrijmaken om deel te nemen aan zo’n congres, hetzij als spreker, hetzij als schrijver van een artikel. Ze hebben passie voor hun vak en doen graag mee. Liselotte: Pas een ja aannemen als het zwart op wit staat. Laurens: De spin.

Op welke spreker verheugen jullie je het meest?

Liselotte: De discussie. Hopen dat ons format gaat werken en er daadwerkelijk ook iets nuttigs uit gaan komen. Dus niet echt een spreker maar het eindproduct. Hoe het verhaal van alle sprekers samen gaat komen. Joris: Martijn Vos; dat wordt mogelijk een trigger voor een heel andere kijk op pensioenen. Mark Verhagen: Jeroen Breen’s introductie, de man is de man.

Nousjka: De voorzitter en Laurens. Liselotte: Laurens kwam een keer aanhollen toen wij al klaar waren, hij is zeker nooit de eerste die aanwezig is. Joris: Laurens. Laurens: Tijd is relatief.

Welk commissielid zal later zelf spreken op het AC?

Laurens: Nadat Mark Verhagen een spin gerealiseerd heeft in de zoenboom van de VSAE zal hij meer tijd hebben om zich te focussen op spreken op het AC. Mark Verschuren probeert hetzelfde maar dat heeft nog geen ‘pootjes’ in aarde.. Mumtaz: Beide Marken zullen wel spreken op het AC in de toekomst. Joris: Mark Verhagen, over een of ander obscuur pensioenproduct dat hij over 5 jaar gaat uitvinden.

25

Zijn er nog leuke dingen die je zou willen vertellen over de commissie?

Liselotte: Niks ‘gewoon econometrie of actuariaat’. Mark Verschuren met verstand van Geneeskunde, Joris van maffe talen, Laurens van Informatica en Economie, en Mark Verhagen met zijn culturele kennis. Alleen de dames weten zich ongeveer aan het studieprogramma te houden. Veel succes aan de commissie van 2016 om onze diversiteit te overtreffen!

COMMISSIE UITGELICHT SECTION

Wat is het belangrijkste dat jullie hebben geleerd tijdens je commissietijd?


VACATURES Alle vacatures zijn terug te vinden op vsae.nl/carriere/vacatures

Junior Consultant Retirement

Als Junior Consultant zal je werken met een aantal van de beste adviseurs binnen de branche. Tegelijkertijd ontwikkel je de nieuwste en meest geavanceerde technische kennis en vaardigheden. Je zal vanaf het begin af aan werken aan opdrachten voor echte klanten, waarbij niet alleen een beroep wordt gedaan op je creativiteit, maar ook jouw capaciteit om data te analyseren, hier conclusies uit te trekken en resultaten te presenteren.

Bedrijf Towers Watson Opleidingsniveau afgeronde studie actuariaat, econometrie of wiskunde. Werkervaring Regio, plaats Verschillende locaties in NL

Big Data Marketinganalist

Ben je scherpzinnig en ondernemend en deel je onze kijk op klanten én bankieren? En wil je de beste marketing analytics-specialist worden, ook van de toekomst? Als Big data Marketinganalist analyseer je wat klanten aantrekkelijk en belangrijk vinden, en creëer je daarmee inzicht in hun gedrag en behoeften. Die inzichten vertaal je door naar concrete ideeën over hoe we onze klantbediening kunnen verbeteren. De kansen die jij ziet, zetten we om in actie en resultaat.

VACATURES

Junior Consultant Business Intelligence

Bedrijf ABN AMRO Opleidingsniveau Afgeronde WO studie, kennis van

Actuarieel Analist

Econometrie/statistiek Regio, plaats Amsterdam

Trainee Econometrist/Data Scientist

Onze klanten hebben te maken met

Heb jij passie voor Pensioen? Vind jij

As

de Big Data revolutie waarbij uit steeds

het leuk om vernieuwend bezig te

Scientist you’ll work in the data sciene

meer bronnen van data zoals transacties,

zijn om het verschil te gaan maken

team together with medior and senior

CRM,

en

in de Pensioenmarkt? Als Actuarieel

Econometrists to distilling insights from

crowdsourcing mogelijke interessante

Analist bij team Pricing binnen Pricing

data from various sources, with the

inzichten te halen zijn. Jij helpt in

en Product Hedging ben je o.a. mede

ultimate goal of translating these into

Business Intelligence projecten om

verantwoordelijk voor ontwikkelen van

concrete improvement actions, which

waarde te halen uit data. Door onder

de allernieuwste pensioenproducten en

impact the online business objectives of

andere het realiseren van geavanceerde

voor de pricing van alle producten en

our clients. There are various possibilities

visualisaties,

individuele (mid)corporate contracten.

for pre-bachelor, pre-master and master

sensors,

social

strakke

media

management

dashboards en grote data warehouses.

Bedrijf Deloitte Opleidingsniveau WO Regio, plaats Amsterdam

a

Trainee

Econometrist/Data

positions.

Bedrijf Nationale-Nederlanden Opleidingsniveau WO Regio, plaats Rotterdam .

26

Bedrijf Newcraft Opleidingsniveau (Pre) Master level Regio, plaats Amsterdam


Puzzelpagina PUZZEL AENORM 86 Op deze pagina is een uitdagende puzzel te vinden. Oplossingen kunnen tot en met 22 maart 2015 worden ingeleverd. Dit kan in de VSAE kamer (E3.25-E3.27), per mail via aenorm@vsae.nl onder vermelding van “Aenorm puzzel 86� of per post naar de VSAE t.a.v. Aenorm puzzel 86. Roetersstraat 11, 1018 WB Amsterdam, Nederland. Uit de correct ingezonden oplossingen zal een winnaar worden gekozen op basis van het antwoord op de schattingsvraag.

OPLOSSING PUZZEL AENORM 85

SCHATTINGSVRAAG NIEUW: in deze editie van de Aenorm hebben we een schattingsvraag om een voorbeeld te geven van vragen die op een sollicitatie gesteld kunnen worden. Probeer door logisch redeneren tot een antwoord te komen. Stel: De totale wereldbevolking is verzameld over de gehele oppervlakte van het IJmeer. Als je met alle mensen over de oppervlakte van het IJmeer een menselijke toren moet bouwen, hoe hoog wordt de toren dan?

27

PUZZEL

Hiernaast staat de oplossing van de puzzel uit de vorige editie van de Aenorm. De winnaar van de vorige puzzel is Laura Menting! Gefeliciteerd. Er ligt een bioscoopbon op je te wachten in de VSAE kamer.


Importing Human Capital: The Effects of a Foreign Football Manager on Seasonal Results Alexander Schram presents his Master thesis on the effects of hiring a foreing football manager on club perfomance, which he wrote under supervision of dr. Hans van Ophem. Alexander is currently working at Hypercube Business Innovation.

Trend Visualization on Twitter: What’s Hot and What’s Not? In this article, Sandjai Bhulai presents his study on the visual representation of so called trending topics on Twitter to maximize the information towards the users in the most effective way.


Importing Human Capital: The Effects of a Foreign Football Manager on Seasonal Results BY: ALEXANDER SCHRAM

1. Introduction In modern organizations, managers are responsible for the day-to-day running of business. In this way, managers play a crucial role in organizational success or failure. However, measuring the quality of a manager’s work can be difficult. There are several reasons underlying this lack of empirical evidence on managerial quality: (1) private firms are not required to reveal internal data, and (2) many organizations are complex entities, where it is difficult to isolate the influence of a manager on organizational performance.An exception to this observation is the sports industry, which offers a more suitable environment to investigate manager quality. First, data are widely available on the output (results) of the manager’s work. Second, shirking seems unlikely in the sports industry, since club owners and directors are able to observe the production process every time a match is played, whereas this process might be much more complex in other industries. Finally, in most sports, the number of managers is limited (often to only one) and responsibilities are clearly defined, which simplifies the isolation of any particular manager’s output. All this leads to a relatively clear measurement of managerial performance, and therefore to higher chance of being sacked after poor performance. In turn, this lowers the opportunity to shirk. Third, firms in sports (clubs) are identical in several aspects: they produce the same output, compete under the same rules, and so on. They only differ in size, for which one can control in statistical analyses, and have different owners and managers. This paper contributes to the literature by investigating the effect of appointing a foreign football manager on seasonal results in European football. In theory, organizations only import employees from abroad if it increases human capital, which in turn increases performance. The choice for a foreign employee is costly (Bauer and Kunze, 2004). First, obtaining a working permit could cause difficulties, although this is not likely to be the case in European football since most managers are from

29

MSC-LEVEL | ECONOMETRICS SPECIALTY

This empirical study investigates the effects of hiring a foreign football manager on club performance. We investigate the effects on seasonal results using both a fixed effects OLS and a random effects ordered probit model. Ignoring the omitted variables bias, we find evidence that foreign managers have a positive effect on performance.This effect disappears, however, once the panel structure in the data is taken into account. We do find that, conditional on performance, the probability of getting the sack is higher for foreign managers than for local managers using a random effects probit model.


countries within the European Union. However, there are more specific difficulties, such as language problems and socio-cultural differences. For these reasons, organizations are likely to only hire foreign workers if their qualifications outweigh these issues. Highly skilled workers tend to be costly, and importing a foreign manager is no exception. Therefore we expect that a club will only appoint a foreign manager if he is expected to significantly increase club performance. Note that we consider the case where a club starts the season with a foreign manager. Thus the number of points and final league ranking are attributed to starting the season with a foreign or domestic manager, even though the manager may have been fired during the season.

Recommended for readers|of| XXx-level MSC-LEVEL SPECIALTY | SPECIALTY | NL MSC-LE VEL ECONO METRICS

2. Data and variables Data is collected from http://www.transfermarkt.de/. League results are collected for 24 countries for the seasons 2005-06 until 2013-14 for winter leagues and 2006 until 2013 for summer leagues. For each of the seasons, we also collected information on the manager(s) and players of the clubs. Combining these with league results leads to our final dataset of 2,956 observations.

2.2 Explanatory variables The most important explanatory variable in this study is the dummy variable foreign indicating whether or not the manager is from abroad. There are quite some differences between countries in our dataset when it comes to the percentage of clubs starting the season with a foreign manager. For instance, the percentage of foreign managers is far below the European average of 20.6% in Croatia (3.4%), the Czech Republic (3.3%), Italy (7.2%) and the Netherlands (7.9%), while in countries such as Greece (48.1%) and Russia (42.5%) almost half of the managers is from abroad. Notice that a manager who works at a club for several seasons is counted for each season he starts. For instance, Arsene Wenger was the manager of FC Arsenal in every season in our dataset, which means Wenger is observed nine times. Also, it is important to note that for these numbers, managers from England, Northern-Ireland, Scotland and Wales (Great Britain) are considered as domestic in each of those countries. The percentage of foreign managers is reasonably stable across seasons for winter leagues. For summer leagues, there appears to be a decline in the percentage of foreign managers after the 2010 campaign.

2.1 Dependent variables The first dependent variable under consideration is a dummy variable sack which equals zero if the manager who started the season also finished it and one otherwise. Since a manager who under performs is likely to be sacked by the board and successful managers are assumed to at least finish the season before considering a move to another (bigger) club, we assume that all managers that leave before the end of the season have been sacked. Both for domestic and foreign managers, the percentage of sacked managers is close to 50%, with the percentage of sacked foreign managers being slightly higher. Second, we measure performance by results per season. We take two measures of team performance: (1) the total number of points earned during the season and (2) the position of the club in the final ranking of the league. Since every season takes on its own course, the total number of points does not always reflect the same rate of success. For instance, when Martin Jol managed to collect 85 points in the 2009-10 Dutch Eredivisie campaign, AFC Ajax finished second behind FC Twente (86 points). In all four seasons thereafter, manager Frank de Boer was able to become champion with fewer than 85 points. This shows that final league ranking may be a better measure of success than the total number of points earned. Obviously, the final league rank of a team is correlated with the total number of points earned. Since a lower number of points yields a lower final league ranking, the correlation is negative (-0.8086).

Table 1: Descriptive statistics of the explanatory variables

In addition to the dummy variable foreign, this paper considers the following explanatory variables. Besides the nationality of each manager, we also know his age. Almost all managers in football start their managing career after a career as a player. A playing career normally ends somewhere around the age of 35, followed by a short period as youth- or assistant trainer during which courses must be followed at the nation’s football association. Table 1 shows the descriptive statistics of age, which are in line with this career path. We use age as a proxy for experience and expect experience of the manager to have a positive effect on performance. To control for the different size of clubs, we need a proxy for each club’s financial status. Since data on finances in football are not widely available, we consider the aggregate market value, as given by Transfermarkt. This market value is the sum of the market values of the players in every season. The market value of a player is determined by various factors: performance, expected transfer sum, medial focus on the player and talent status. Based on these factors, the experts

30


3. Model specifications Many of the models used in this study are extensively described in Cameron and Trivedi (2005). Estimation of the models is done using Stata. For all our dependent variables (sack, points and position), we first estimate the coefficients of our explanatory variables by standard OLS. One potential problem with an OLS approach is the possibility of correlated errors, which would violate standard assumptions for the model. In our case, errors might be correlated between observations of the same club and observations from the same league.This is dealt with in Section 3.4. Furthermore, OLS is not appropriate in our case since the nature of the data calls for more sophisticated methods.

1

3.1Random effects probit For binary outcome data the dependent variable y takes one of two values. In our case, manager i gets the sack in season t with probability and gets to keep his job with probability 1- :

Because our data has both a cross-sectional and a temporal structure we also use the natural extension of the probit model for panel data: the random effects probit model. We consider

where is the standard normal cdf. The random effects MLE assumes that the individual effects are normally distributed, with Using random effects we assume that the individual specific effects are uncorrelated with the explanatory variables. It maximizes the panel-level likelihood with respect to and (1) where is the standard normal cdf. There is no closed-form solution to the log-likelihood of model (1), but Stata is able to compute it numerically. Unfortunately, no fixed effects probit estimator exists, as discussed by Greene, Han and Schmidt (2002). Fixed effects might be more appropriate, since the fixed effect assumption is that the individual specific effects are correlated with the explanatory variables, which in our case could be true. For instance, the total market value of the selection could be correlated with the financial capabilities of a club.

3.2 Fixed Effects By observing changes in the dependent variable over time, it is possible to control for the omitted variable bias without observing all relevant variables. This controls for omitted variables that differ between cases but are constant over time, known as fixed effects. Our fixed effects model is given by

(2) where the individual-specific effects measure unobserved heterogeneity that are possibly correlated with the regressors. The fixed effects esimator is

With Zidane scoring the winning goal in the final against Bayer Leverkusen.

31

Recommended for readers |of| XXx-level MSC-LEVEL ECONOMETRICS MSC-LEVEL SPECIALTY | SPECIALTY | NL

of Transfermarkt continuously discuss market values of nearly all professional football players around the world. Since football is the core business of a club, we assume that most clubs’ main investments aim at strengthening the squad and thus increasing the market value of the selection. For better interpretation, we use total market value divided by 1,000,000 as a control variable and of course we expect the market value to have a positive impact on performance. We also include the variance of the market value of the players in each selection. This allows us to investigate whether or not a club is better off investing in a few highly valued players or in a selection of players of roughly the same value. This issue is fiercely debated by many experts. For example, Real Madrid’s president Florentino Perez introduced a transfer strategy called Zidanes y Pavones when he first took control of the club in 2000. The strategy was to sign one major superstar per year (for instance Zinedine Zidane in 2001) and promote youth players to fill up the remainder of the selection (Francisco Pavon was also added in 2001). Initially the Zidanes y Pavones strategy was successful, with Real winning the Spanish Primera Division in 200001 and 2002-03 and claiming the UEFA Champions League in 2001-021. However, subsequent seasons showed limited success on the pitch, with Real failing to win any trophy for three seasons after the 2002-03 campaign. We also control for the average age of the players. Since most managers will try to find a balance between experienced players and youngsters, the distribution is peaked around the average of 24.4, as can be seen in Table 1. Including this variable will show whether it is beneficial for a club to have an above average age of the selection or not. We also include the variance of the age of the players to see if clubs are better off with a balanced or unbalanced selection with regards to the age of the players. In football, it is generally believed that a selection should consist of a mix of talented (younger) and experienced (older) players, which suggests a positive relationship between this variance and team performance.


estimated by subtracting the time-averaged model from the original model. The estimator is given by

where is the standard normal cdf. Again, there is no closed-form solution to the likelihood function, but Stata computes it numerically using a C-point GaussHermite quadrature approximation.

3.4 (Non-nested) Two-way clustering which can be estimated by OLS. We are mainly interested in the coefficients of . Interpretation of the estimated coefficients is similar to OLS. Model (2) incorporates possible correlation of the errors at the club level, but again we also cluster the errors at a league level (see Section 3.4).

Recommended for readers |of| XXx-level MSC-LEVEL SPECIALTY | SPECIALTY | NL MSC-LEVEL ECONOMETRICS

3.3 Random effects ordered probit Lastly, one could argue that the final league ranking is a natural ordering of alternatives, which calls for a model that takes into account this ordering, such as a random effects ordered probit model. We estimate the coefficients of our explanatory variable position using a panel data approach by including random effects in the ordered probit model. For a detailed study of the random effects ordered probit model, see Crouchley and Boes (1995). The starting point of the model is

where is not observed, the added random effects are independent and identically distributed N(0; 2) and errors uit are independent of i. We do observe position, which is given by :

where the ’s represent the thresholds. We can derive the probability of observing outcome j for response as

where is the standard normal cdf. The random effects MLE is very similar to our random effects probit model given in Section 3.1, but now we maximize the panel-level log-likelihood with respect to , and thresholds :

In order to conduct accurate statistical inference, it is important to estimate the standard errors correctly, as argued by Cameron, Gelbach and Miller (2011). The main potential problem is the possibility of correlated errors. Our data asks for two-way clustering since errors are likely to be non-independent at both acrosssection level and a temporal level: non-independent over both clubs and seasons per league. For leagues, points (and thus position) are always gathered at the expense of another club in the same league, hence errors will be correlated within leagues. Each observation belongs to his own group of observations per club and to a group of clubs in the same season per league For our two-way clustering, the variance estimator uses those elements of with where the and the observation share a cluster in one or both of the dimensions. Now we can estimate

where is an N x N indicator matrix with entry equal to one if the ith and jth observation share a cluster and zero otherwise. Since Stata allows one to calculate cluster-robust standard errors for oneway clustering, we use the following decomposition of taken from Cameron, Gelbach and Miller (2001): , where is an N x N indicator matrix with ijth entry equal to one if the ith and jth observation belong to the same cluster an N x N indicator matrix with entry equal to one if the and observation belong to the same cluster , and is an N x N indicator matrix with entry equal to one if the and observation belong to the same cluster and the same cluster and zero otherwise. Now we get

Which leads to

(

)

our two-way cluster-robust variance matrix. Stata is able to compute all three elements of our cluster-robust variance matrix given by seperately.

32


4.1Probability of getting the sack First we estimate whether the probability of getting the sack is different for foreign managers than for domestic managers. Results are given in Table 2. Insignificant coefficients of seasonal dummies are not given in the table, but are included in the models. Note that the standard errors are robust since we clustered over clubs.

Wenger (born in Strasbourg, France). Wenger is the manager of (the London-based team) FC Arsenal for all nine seasons in our data. Figure 1 shows the probability of Arsene Wenger getting the sack for each season of the English Premiership. It shows both the actual estimated probability (Wenger is a foreign manager) and the hypothetical estimated probability (if Wenger had been a domestic manager). It shows that in each of the seasons, the probability of losing his job is higher for Wenger the foreigner.

Figure 1: The probability of FC Arsenal’s manager Arsene Wenger getting the sack per season.

4.2 Dependent variable points

Table 2: Estimation results on dependent variable sack

The sign of the coefficient for is as expected in both models: more points decreases the probability of getting red. Remarkably, the market value of the selection plays no significant role in our OLS model, while it is highly significant and positive in our RE probit model, where the sign is as expected: a higher market value of the selection seems to lead to a higher probability of getting the sack conditional on the number of points. More importantly, our results show that foreign managers are more likely to be fired. Note that in the RE probit model, the interpretation of the coefficients is not as straightforward as in standard OLS. Although we can interpret the sign and significance of a coefficient the same way, we cannot directly interpret its magnitude. However, we can predict the probability of a manager getting the sack conditional on the number of points earned that season. To illustrate the fragile position of a foreign manager, we highlight the case of Arsene

The second dependent variable we consider is the number of points earned during the regular season. As can be seen in Table 3, the OLS coefficient of foreign is positive, but insignificant (95% confidence interval [-0.707 ; 2.987]). As expected, the age of the manager shows an increasing relationship with points, although small (0.061) and also insignificant. Raising the average age of the selection by one year has a negative effect of approximately one point. Of course, this does not suggest that a club should lower the average age of the players indefinitely. It only suggests that a club is better off with a below average age of the selection. The variance of age is insignificant, so the OLS model provides no evidence to support the idea that a selection should consist of a mixture of talented and experienced players. Increasing the market value of the selection by 1,000,000, which can be done by both training the current players and buying new ones, gives an expected increase of 0.138 points.

33

Recommended for readers of| XXx-level MSC-LEVEL SPECIALTY | SPECIALTY | NL MSC-LEVEL | ECONOMETRICS

4 Results


MSC-LEVEL | ECONOMETRICS SPECIALTY | SPECIALTY | NL Recommended for readers of XXx-level

Table 3: Estimation results on dependent variable points

Lastly, the variance of the market value plays a highly significant role. The effect seems small, but since the variance of the market value in a selection is very large, the coefficient strongly suggests that increasing the variance of the market value of the selection has a significant negative effect on performance. Therefore, it appears that a club is better off investing in an evenly balanced selection when it comes to player values. Second, we use the panel structure of the data to estimate the coefficients using our fixed effects model. The sign of foreign has changed but remains insignificant. The same holds for age manager. Remarkable is the change in sign of age selection from negative to positive: apparently, an above average age of the players improves the performance instead of lowering it. The sign and significance of Var [age selection] shows that increasing the variance of the age of the players in the selection has a negative effect on points. Hence clubs are better off with a selection where players are roughly the same age, which contradicts common belief that a selection should contain of a mixture of talented and experienced players. Surprisingly, both the total market value and its variance do not have a significant effect. The coeffcient of market value however still suggests a positive effect and only slightly misses the 10% significance (p-value of 0.103) mark. A careful reader notices the loss of 94 observations, which were dropped because they are singleton groups.

of a club. Note that the lower the league ranking, the higher the sporting performance (champions are number 1). Therefore, the model suggests that starting the season with a foreign manager results in a better league ranking of 0.931 positions. The model further suggests that foreign managers who start the season are expected to finish approximately one place higher in the final league ranking. Both the variance of the market value and the age of the players are insignificant. All other explanatory variables are highly significant and show the same relationship to performance as they did in Section 4.2: a positive effect of the age of the manager, a negative impact of higher average age of the selection and, of course, a positive impact of the total market value of the selection. In the RE ordered probit model, only the total market value and the variance of the age of the players in the selection prove to have significant effects on the final league ranking. Therefore, the model teaches us that starting the season with a foreign manager does not have the desired effect on final league ranking while investing in the market value of your selection is key in being successful. Again, the results show that a higher variance of the age of the players in a selection has a negative effect on performance: a club is better off with a selection balanced in age than having a mixture of talented and experienced players. All in all, our analyses show that modeling the data correctly is crucial in estimating the effect of a foreign manager on performance.

4.3 Dependent variable position As can be seen in Table 4, OLS shows a significant negative effect of foreign on the final league ranking

Table 4: Estimation results on dependent variable position

34


References Bauer, T. K. and Kunze, A. (2004). The demand for high-skilled workers and immigration policy. Technical report, IZA Discussion paper series. Boes, S. (2007). Three essays on the econometric analysis of discrete dependent variables. Universitat Zurich, Zurich. Cameron, A. C., Gelbach, J. B., and Miller, D. L. (2011). Robust inference with multiway clustering. Journal of Business & Economic Statistics, 29(2). Cameron, A. C. and Trivedi, P. K. (2005). Microeconometrics: methods and applications. Cambridge university press. Crouchley, R. (1995). A random effects model for ordered categorical data, Journal of the American Statistical Association, 90(430), 489-498. Greene,W., Han, C., and Schmidt, P. (2002). The bias of the fixed effects estimator in nonlinear models. Unpublished manuscript, 1-31.

35

ABOUT THE AUTHOR Alexander Schram Alexander Schram recently left the UvA with a Masters degree in Econometrics. Currently, Alexander is working as a Business Analyst at Hypercube Business Innovation, an independent consultancy firm specialized in public transportation and sports. This article summarizes part of his master thesis, which he wrote under the supervision of dr. Hans van Ophem.

Recommended for readers of XXx-level

This empirical study shows the importance of taking into account an often ignored phenomenon in econometric analysis: the omitted variables bias. We investigate the effect of foreign managers on the seasonal results of a club. If we ignore the existence of the bias, we find evidence that foreign managers have a positive effect on both the number of points and the final league ranking. However, once we use the panel structure of the data to correct for omitted variables, these effects disappear. We find that characteristics of the selection such as total market value, average age and the variance of the age of the players are more important to succeed than managers attributes such as his nationality and age. This study does not offer insights as to whether foreign managers are better able to improve players quality than domestic managers are, which will reflect in the total market value of the selection and hence increase performance. Further research must be done to exploit this possibility. One result that stands even after incorporating the panel structure of the data is that the probability of getting the sack (conditional on the number of points) is higher for foreign managers. This result shows that clubs do not take into account the fact that appointing a foreign manager is costly in deciding whether or not to fire the manager. It seems that board members follow economic theory and consider the costs of appointing a foreign manager as sunk costs when deciding on whether or not to fire him.

MSC-LEVEL | ECONOMETRICS SPECIALTY | SPECIALTY | NL

5 Conclusions


Recommended for readers of XXx-level

MSC-LEVEL | ECONOMETRICS | SPECIALTY | NL

Trend Visualization on Twitter: What’s Hot and What’s Not? BY:

Twitter is a social networking service in which users can create short messages related to a wide variety of subjects. Certain subjects are highlighted by Twitter as the most popular subjects and are known as trending topics. In this paper, we study the visual representation of these trending topics to maximize the information toward the users in the most effective way. For this purpose, we present a new visual representation of the trending topics based on dynamic squarified treemaps. In order to use this visual representation, one needs to determine (preferably forecast) the speed at which tweets on a particular subject are posted and one needs to detect acceleration. Moreover, one needs efficient ways to relate topics to each other when necessary, so that clusters of related trending topics are formed to be more informative about a particular subject. We will outline the methodologies for determining the speed and acceleration, and for clustering. We show that the visualization using dynamic squarified treemaps has many benefits over other visualization techniques.

SANDJAI BHULAI, PETER KAMPSTRA, LIDEWIJ KOOIMAN, AND GER KOOLE

Keywords: microblogging; Twitter; trend detection; clustering; visualization; dynamic squarified treemaps. I. Introduction

Twitter, a popular microblogging service, has seen a lot of growth since it launched in 2006 and commands more than 140 active million users with 340 million messages (tweets) per day as of March 2012 [1]. Twitter users write tweets about any topic within the 140-character limit and follow others to receive their tweets. An important characteristic of Twitter is its real-time nature. For example, when a major event occurs, people disseminate tweets over the network related to the event, which enables detection of the event promptly by observing the tweets. The popular events and subjects are also known as trending topics, and their detection helps us to better understand what is happening in the world. The visualization of trending topics is an important research question, since the representation of

the trending topics has a significant impact on the interpretation of the topics by the user. This visualization can be done simply by providing a list of topics, as Twitter does (see [2] and Figure 1). However, this representation suffers from a number of drawbacks that prevent the user in assessing the importance of the topic correctly. First, although the list is ordered from the most popular topic to the least popular topic, one cannot infer the importance of each topic relative to the other topics. Second, a list also does not convey the dynamics in the trend, e.g., is the topic still trending to become more popular or is a different topic growing more popular? Third, it could very well be that several topics on the list are related to each other and should be grouped into a coherent set of topics. For example, it is not clear on the outset that topics 3 and 9 in Figure 1 are related to each other. This group of topics could

36


Figure 2. Twitscoop dynamic tag cloud.

Figure 1. Trending topics on Twitter, recorded on 20 March 2012.

A dynamic tag cloud addresses the first two of the three shortcomings of lists to some extent. The importance of each topic is displayed by the font size in the tag cloud. The dynamics of the trend can be implemented by a dynamic tag cloud in which the text size grows or shrinks. However, the last shortcoming for addressing topics that are related to each other is more difficult. In this case, one needs to cluster trending topics into coherent groups and visualize them, e.g., through semantics [7, 8]. In order to visualize these clusters, one could use a Treemap [9] or a Squarified Treemap [10, 11]. A treemap displays hierarchical data as a set of nested rectangles. In this paper, we propose a Dynamic Squarified Treemap (see Figures 6 and 7) to overcome all three aforementioned shortcomings. The importance of a topic can now be correlated to the size of a rectangle. The color of the rectangle can be used to identify if the topic is trending upwards, downwards or remains at its popularity. The rectangle itself can harbor multiple topics so that clusters can be visually represented in an appealing manner. In order to use this visual

Our contribution in this paper is threefold. First, we have a different perspective than most other works (e.g., as compared to [11], which is the only paper related to our work).We are focused on upcoming topics that will become a trend instead of a complete online overview of topics. The visualization of these topics is performed dynamically in which color, size, and animation carry additional information. Second, we develop algorithms to quickly determine the importance of topics using new smoothing methods based on little input data. Third, we show that for our purposes simple online clustering techniques perform sufficiently well. The rest of the paper is structured as follows. In Section II, we outline the methodology to determine the input parameters for the dynamic squarified treemaps. In Section III, we explain how the dynamic aspect of squarified treemaps is more informative than other visualization methods. We conclude the paper with some additional remarks in Section IV.

II. Methodologies In this section, we outline the methodology to determine the speed of tweets and the acceleration. These two parameters will serve as input parameters for the dynamic squarified treemap to generate a visualization of the trending topics. We first start with the twitter speed of a specific topic. For this purpose, we use the trending topics as posted by Twitter on 20 March 2012; see Figure 1. To illustrate our techniques, we focus on the tweets in hashtag #PrayforMexico.This hashtag was a trending topic at that time as a result of an earthquake in Mexico. The data derived from this hashtag consists of tweets with a time stamp (with seconds as accuracy). Based on this data, the absolute

37

MSC-LEVEL | ECONOMETRICS | SPECIALTY | NL

representation, we need to define how to choose the importance (which is directly related to the number of tweets per second on the topic) and how to choose the color (which is directly related to the acceleration or deceleration of the number of tweets per second).

Recommended for readers of XXx-level

provide more semantics to users than a single topic alone. A popular method to visualize trending topics is a tag cloud (see Figure 2). However, the research on the effectiveness of this visualization technique is not conclusive. Sometimes, a simple list ordered by frequency may work better in practice than fancy sequential or spatial tag clouds [3]. In other research (e.g., [4]) an alphabetically ordered list performed best with variations in font size (a bigger font for more important topics worked better). Some results show that font size and font weight have stronger visual effects than intensity, number of characters, or tag area. However, when several visual properties are manipulated at once, there is no single property that stands out above the others according to [5]. Hearst and Rosner [6] even argues that “the limited research on the usefulness of tag clouds for understanding information and for other information processing tasks suggests that they are (unsurprisingly) inferior to a more standard alphabetical listing.�


Recommended for readers of XXx-level

MSC-LEVEL | ECONOMETRICS | SPECIALTY | NL

Figure 3. Absolute number of tweets for #PrayforMexico on 20 March 2012.

Figure 4. The number of tweets per second for different values of k (history) for #PrayforMexico on 20 March 2012.

number of tweets over the day is given in Figure 3. One can see that around 7.30pm the number of tweets rapidly increases due to the earthquake. A. Speed of Tweets Let us for ease of notation focus on a stream of tweets on a particular subject for which the twitter speed needs to be determined. Let us denote the time stamp of the i-th tweet with The speed can in principle be determined by a simple moving average, e.g., when tweet i arrives, the speed vi can be determined by for some k that determines how much history is included. There are two significant drawbacks to such a method. First, for high volume tweets (in particular, for popular topics), many tweets have the same time stamp. Thus, it could be that so that vi is not well-defined due to division by zero. Second, such an approach looks back at the history and has little predictive power. To alleviate the drawback of the moving average, we first determine the interarrival times . When tweet i is recorded, it could be that there are already several tweets that have the same time stamp (this is the case when ai = 0). This number is given by zi = | { k | ti = tk } |. Hence, we adjust the time stamp of the tweets by spreading them uniformly over the past second. Thus, we transform ai to a’i by

Next, we apply exponential smoothing with parameter 0≤ ≤1 on the new interarrival times to derive a new time series bi given by starting with b1 = a’1. Since the resulting time series can still be too volatile, we apply a double smoothing by taking the average over the past k values of the time series bi. Thus, the speed vi (in tweets per second) is then given by

Our algorithm thus has two parameters that can be chosen freely. We have the first smoothing parameter that is used in the exponential smoothing, and we have the second smoothing parameter k that uses k tweets from history. In Figure 4, we can see the graph of the tweets from #PrayforMexico for various values of k. The parameter is set to 0.8, which seems to work best for various examples in our setting. We can see that a value of k=0, the case in which no history

38


is taken into account, is rather volatile and does not produce stable results. The values of k=10 and k=20 provide more stable results and are much smoother than the graph for k=0. B. Acceleration of Tweets The acceleration of tweets is basically a derivative of the speed of the tweets. We calculate the acceleration of the tweets for each minute. Let t be the start of a minute and t+1 the start of the next minute. Let be the index of the last tweet before the end of the minute, thus = max{i | ti < t+1}. Denote by the first tweet in that minute, or if there are not any, the one before that.Thus = max{min{i | t ≤ ti< t )}, -1}.The acceleration wt is then computed by

Note that the definition closely reflects the regular definition of a derivative. However, we account for the fact that there can be no tweets in a particular minute. This is taken care by the way the variables and are defined. Furthermore, we also account for the fact that

all tweets in the minute can have the same time stamp. Therefore, we use the adjusted timestamps a’i instead of ai. In Figure 5, we can see the graph of the acceleration of the number of tweets per second for different values of k (the history that is used to determine vi). As in the case of the calculation of the speed, we conclude that k=0 (not using any history at all) results in volatile accelerations that are not preferred. Since the graph of speeds when using k=10 is still very bursty, the acceleration shows large fluctuations that are not in accordance with one’s intuition (see, e.g., the timestamps around 7.42pm). The graph with k=20, however, seems to perform well in this case, and in other cases as well. We can clearly see that the acceleration is picked up at 7.32pm, which corresponds to a real surge in the absolute number of tweets. Thus, this is precisely the moment at which one would like to detect this trend. Hence, in the rest of the paper, our algorithms run with =0.8 and k=20. III. Dynamic Squarified Treemaps In the previous section, we have identified the major ingredients for building a squarified treemap. First, we

Table I. Clustering based on comparison of tweet lists.

39

Recommended for readers of XXx-level

Figure 6. Numerical results.

MSC-LEVEL | ECONOMETRICS | SPECIALTY | NL

Figure 5. The acceleration of the number of tweets per second for different values of k (history) for #PrayforMexico on 20 March 2012.


Recommended for readers of XXx-level

MSC-LEVEL | ECONOMETRICS | SPECIALTY | NL

Table II. Clustering based on the cosine similarity index.

have determined the variable vi, which represents the twitter speed in tweets per second on a particular topic. Second, we have identified the acceleration wt of the number of tweets for the same topic. Based on this information, we build rectangles for each topic of which the relative areas correspond to the relative speeds of each topic. On top of that, each rectangle is colorcoded from green to white to red, based on a positive to neutral to negative acceleration. This gives rise to a representation as depicted in Figure 6a. The numbers in parentheses represent vi. This representation solves many of the issues tied to lists (see Figure 1) and tag clouds (see Figure 2). In this section, we improve the visual representation by clustering related topics. A. Clustering topics The clustering of tweets is not an easy process. Standard algorithms, such as K-means clustering [12], are slow. Therefore, most algorithms usually work iteratively. For speed, a single assignment is usually used in the literature (e.g., [13, 14]). A simple way to cluster tweets is by using a cosine similarity as defined in [15]. In this algorithm, the term frequency and inverse document frequency (TF-IDF) [16] can be used as a weighing scheme. A more involved method to cluster tweets is the Latent Dirichlet Allocation (LDA) [17], which can be used to track topics over time [18]. The clustering that is obtained by this method is better than when using TFIDF [19] (while a combination works best). However, LDA is not perfect for Twitter because tweets are limited in size [20]. Methods based on non-negative Matrix Factorization [21] could be an alternative to TF-IDF and LDA (from [22]). Some experimentation has already been performed in [23] on a small dataset. One can also think of mixture models [24, 25], which were developed for producing recommendations, for clustering tweets.

B. Clustering based on tweet list comparison As a first clustering algorithm, we adopt a very simple but efficient clustering algorithm. For each topic a, at time t, we keep a list la of the last 100 tweets counting back from time t. Our similarity metric for topic a and topic b is defined as the number of times that both terms a and b appear in the lists la and lb. If the similarity metric is above the threshold of 0.15, then the two topics are clustered, and clustering continues until no more tokens can be added to the cluster.Table I displays the results of this clustering. In the results we can see that ‘#PrayforMexico’ and ‘Earthquake in Mexico’ are clustered. C. Clustering based on the cosine similarity index We also adopt the cosine similarity [26] to cluster the tweets. The cosine similarity of two topics a and b is a measure of similarity, defined by

where the vector fa (and fb) is the frequency list of terms that appear in the list la (and lb). The cosine similarity is bounded between 0 and 1 since both fa and fb are nonnegative.The name of the similarity index is derived from the interpretation of the cosine of the angle between the two vectors. Hence, similar vectors (with an angle close to zero) have a high cosine similarity, whereas vectors that are not similar (with an angle close to π/2) have a low cosine similarity. If the similarity metric is above the threshold of 0.30, then the two topics are clustered. Table II displays the results of this clustering. In the results we can see that ‘#PrayforMexico’ and ‘Earthquake in Mexico’ are in one cluster. In addition, ‘#temblor’, ‘Azcapotzalco’, ‘Sismo de 7.8’, ‘Niñas de 13 y 14’, and ‘Marcelo Lagos’ form one cluster, as well as

Figure 7. The transitions in the dynamic squarified treemap.

40


References

[1] Wikipedia, “Twitter,” URL: en.wikipedia.org/ wiki/Twitter. [2]

Twitter, URL: www.twitter.com.

[3] A.W. Rivadeneira, D.M. Gruen, M.J. Muller, and D.R. Millen, “Getting our head in the clouds: toward evaluation studies of tagclouds,” in Proc. of the SIGCHI Conf. on Human factors in computing systems, 2007, pp. 995-998. [4] M. Halvey and M. Keane, “An assessment of tag

[5] S. Bateman, C. Gutwin, and M. Nacenta,“Seeing things in the clouds: the effect of visual features on tag cloud selections,” in Proc. of the 19th ACM Conf. on Hypertext and hypermedia, New York, NY, USA, 2008, pp. 193-202. [6] M. Hearst and D. Rosner, “Tag clouds: Data analysis tool or social signaller?” in Hawaii Intl. Conf. on System Sciences, Proc. of the 41st Annual}. IEEE, 2008, pp. 160-160. [7] L. Di Caro, K.S. Candan, and M.L. Sapino, “Using tagflake for condensing navigable tag hierarchies from tag clouds,” in Proc. of the 14th ACM SIGKDD Intl. Conf. on Knowledge Discovery and Data Mining. New York, NY, USA: ACM, 2008, pp. 1069-1072. [8] C. Cattuto, D. Benz, A. Hotho, and G. Stumme, “Semantic grounding of tag relatedness in social bookmarking systems,” in Proc. of the 7th Intl. Conf. on The Semantic Web, ser. ISWC ‘08. Berlin: SpringerVerlag, 2008, pp. 615-631. [9] B. Shneiderman and M. Wattenberg, “Ordered treemap layouts,” in Proc. of the IEEE Symp. on Information Visualization 2001 (INFOVIS’01), Washington, DC, USA, 2001, pp. 73-. [10] M. Bruls, K. Huizing, and J. van Wijk,“Squarified treemaps,” in Proc. of the Joint Eurographics and IEEE TCVG Symp. on Visualization. Citeseer, 2000, pp. 33-42. [11] D.Archambault, D. Greene, P. Cunningham, and N. Hurley, “Themecrowds: multiresolution summaries of Twitter usage,” in Proc. of the 3rd Intl. Workshop on Search and mining user-generated contents}. ACM, 2011, pp. 77-84. [12] A. Karandikar, “Clustering short status messages: A topic model based approach,” Master’s thesis, Faculty of the Graduate School of the University of Maryland, 2010. [13] H.~Becker, M. Naaman, and L. Gravano, “Beyond trending topics: Real-world event identification on Twitter,” in Proc. of the 5th Intl. AAAI Conf. on Weblogs and Social Media, 2011. [14] J. Sankaranarayanan, H. Samet, B. E. Teitler, M.D. Lieberman, and J. Sperling, “Twitterstand: news in tweets,” in Proc. of the 17th ACM SIGSPATIAL Intl. Conf. on Advances in Geographic Information Systems, 2009, pp. 42-51.

41

MSC-LEVEL | ECONOMETRICS | SPECIALTY | NL

IV. Conclusion and future work In this paper, we have discussed the dynamic squarified treemap for visually representing the trending topics on Twitter. The main ingredients for this graph are the speed of tweets and the acceleration of them. We have developed algorithms to calculate both of them. Moreover, we have discussed a simple clustering algorithm to deal with grouping related topics in online twitter streams. The final representation in a dynamic squarified treemap fills the gaps that are present in list and tag cloud representations. Hence, the dynamic squarified treemap forms a powerful visual tool to visualize trending topics. The analysis in this paper has been done on the trending topics based on the list provided by Twitter. However, we are currently working on a system in which we monitor a sample of the twitter stream and detect trending topics ourselves. The system calculates the speed and acceleration every second and updates the screen accordingly. Based on the size and rate of growth of a cluster of words / topics the dynamic squarified treemap serves as an early warning system for trends.

presentation techniques,” in Proc. of the 16th Intl. Conf. on World Wide Web. ACM, 2007, pp. 1313-1314.

Recommended for readers of XXx-level

‘John Elway’ and ‘Pat Bowlen’. Observe that the two largest clusters are actually about the same subject, but in two different languages. A human observer would either put these into one cluster or into two. In fact, our clustering algorithm almost puts these into one cluster, with a cosine similarity of 0.30. Figure 6b shows the squarified treemap for the clustered topics. It is clear that this representation is even better than Figure 6a. From the clusters is becomes clear that ‘Azcapotzalco’ is related to the earthquake in Mexico, although this was not clear before. Figure 7 depicts the dynamic part of the squarified treemaps. Using jQuery [27], the tiles in the treemap transition to their new size and position based on the newly calculated speed and acceleration values. This dynamic part has the appealing feature that one can directly identify visually the emerging and receding topic. The dynamic clustered squarified treemap resolves the three issues that were mentioned as problems with lists and tag clouds. Experiments with test persons seem to suggest that the dynamic squarified treemap is an effective method for the display of dynamic data from Twitter.


[15] G. Kumaran and J. Allan, “Text classification and named entities for new event detection,” in Proc. of the 27th Annual Intl. ACM SIGIR Conf. on Research and development in information retrieval, 2004, pp. 297-304.

[26] P.-N. Tan, M. Steinbach, and V. Kumar. “Introduction to Data Mining,” Addison-Wesley, 2005, Chapter 8. [27]

jQuery, URL: jquery.com.

[16] G. Salton and C. Buckley, “Term-weighting approaches in automatic text retrieval,” Inf. Process. Mngmnt, vol. 24, pp. 513-523, August 1988. [17] D.M. Blei, A.Y. Ng, and M.I. Jordan, “Latent dirichlet allocation,” J. Mach. Learn. Res., vol. 3, pp. 9931022, 2003. [18] D. Knights, M.C. Mozer, and N. Nicolov, “Detecting topic drift with compound topic models,” in Proc. of the Fourth Intl. AAAI Conf. on Weblogs and Social Media, 2009.

MSC-LEVEL | ECONOMETRICS

[19] D. Ramage, S. Dumais, and D. Liebling, “Characterizing microblogs with topic models,” in Proc. of the Fourth Intl. AAAI Conf. on Weblogs and Social Media, 2010. [20] K.D. Rosa, R. Shah, B. Lin, A. Gershman, and R. Frederking, “Topical clustering of tweets,” in Proc. of the ACM SIGIR 3rd Workshop on Social Web Search and Mining, 2011. [21] D.D. Lee and H.S. Seung,“Learning the parts of objects by non-negative matrix factorization,” Nature, vol. 401, no. 6755, pp. 788-791, Oct. 1999. [22] S.P. Kasiviswanathan, P. Melville, A. Banerjee, and V. Sindhwani, “Emerging topic detection using dictionary learning,” in 20th ACM Conf. on Info. and Knowledge Mngmnt, 2011. [23] A. Saha and V. Sindhwani, “Learning evolving and emerging topics in social media: a dynamic NMF approach with temporal regularization,” in Proc. of the Fifth ACM Intl. Conf. on Web search and data mining, 2012, pp. 693-702. [24] J. Kleinberg and M. Sandler, “Using mixture models for collaborative filtering,” in Proc. of the ThirtySixth Annual ACM Symp. on Theory of computing, 2004, pp. 569-578. [25] S. Morinaga and K. Yamanishi, “Tracking dynamics of topic trends using a finite mixture model,” in Proc. of the Tenth ACM SIGKDD Intl. Conf. on Knowledge discovery and data mining, New York, NY, USA, 2004, pp. 811-816.

42

ABOUT THE AUTHOR Sandjai Bhulai Sandjai Bhulai is associate professor at the faculty for Exact Sciences at the Vrije Universiteit Amsterdam. He is involved with the Business Analytics track and co-founder of the Amsterdam Center for Business Analytics (acba.nl), an interdisciplinary research institute focused on big data and business analytics.


Like AENORM www.facebook.com/aenorm.vsae


Hi, I’m

Anthony I work at Towers Watson, and today I did something extraordinary.

yourexpectations. You’ve nearly completed your degree, and you’re ready for what’s next: a job that will inspire you, make you think and put your skills to the best use. But don’t you really want more than that? Go beyond your expectations at Towers Watson.

QR Code goes here

If you join us, you’ll often be challenged to do something extraordinary. From the start, you’ll team with senior associates to learn on the job and interact with clients on projects that help improve their business. And along the way, you’ll be in charge of your own career, working with your manager to decide what’s next and how to get there. Sound good? Then plan to Go Beyond at Towers Watson.

Towers Watson. A global company with a singular focus on our clients.

Benefits Risk and Financial Services Talent and Rewards Exchange Solutions towerswatson.com


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.