MANAGEMENT & KARRIERE
Aus- und Weiterbildung
Computerworld 9/5. Juni 2015 www.computerworld.ch
37
Data Scientist ein neuer Beruf Leute, die wissen, wie man riesige Datenmengen intelligent nutzt, sind sehr gefragt. Das neue Berufsbild heisst Data Scientist. Wie wird man das und was muss man dafür können? VON JAN VOM BROCKE & BERND SCHENK
U
nsere vernetzte Welt produziert täglich eine riesige Datenmenge. Nach einer Schätzung von IDC werden Ende 2015 acht Zettabyte an Daten in unseren IT-Systemen gespeichert sein – sechsmal mehr als vor fünf Jahren und sechzigmal mehr als noch vor zehn Jahren. Laut IBM entstanden 90 Prozent aller jemals generierten Daten in den letzten zwei Jahren. Und damit sind wirklich alle Daten über die gesamte Menschheitsgeschichte hinweg gemeint, digitale und analoge. Die wachsende Datenflut stellt uns einerseits vor komplexe technische Herausforderungen. Andererseits werden diese Daten, und insbesondere die Analysemöglichkeiten dieser Daten, unser Leben revolutionieren. Entsprechend faszinierend sind die Karrieremöglichkei-
ten von passend ausgebildeten Datenexperten. Tom Davenport, ein bekannter Managementguru, bezeichnet den Data Scientist kurzum als «the sexiest job of the 21st century». Dieser Beitrag soll zeigen, was Data Science ist und welche Qualifikationsprofile sich damit für Studierende verbinden. Wir erklären den
Masterstudiengang Information Systems Neu: ab Wintersemester 2015/2016 mit der Vertiefung Data Science Studiendauer: 2 Jahre, 120 ECTS Max. Studierendenzahl: 35 pro Jahr Kontakt & Information: Dr. Bernd Schenk, www.uni.li/bernd.schenk
Begriff Data Science, zeigen Beispiele aus dem Alltag eines Data Scientists und diskutieren Studienmöglichkeiten für den neuen, attraktiven Karriereweg. DATA SCIENCE – WAS IST DAS? Der Begriff Data Science bezeichnet die Extrahierung von Wissen aus Daten. Dazu bedienen sich Data Scientists der Mittel von Statistik und Informatik; Methoden wie Machine Learning und Werkzeuge wie NoSQL-Datenbanken gehören zum Standardrepertoire. Obwohl Data Science aktuell als neuer Begriff wahrgenommen wird, hat ihn der Informatikpionier Peter Naur bereits vor über 40 Jahren verwendet – als Synonym für Computer Science. Im heutigen Zeitalter von Big Data wird jedoch von einem Data Scientist weit mehr – und vor allem anderes –
BILD: ISTOCKPHOTO.COM/PETER BOOTH
36
erwartet als von einem traditionellen Informatiker. Die hohen Erwartungen an Data Science erklären sich einerseits durch neue technische Möglichkeiten. Zu nennen sind hier etwa moderne Algorithmen zur Datenanalyse, aber auch Rechenleistungen, die heute enorm zugenommen haben und Datenanalysen in Echtzeit erlauben. Der noch wichtigere Grund für die hohe wirtschaftliche und gesellschaftliche Relevanz von Data Science ist aber wohl die Verfügbarkeit von Daten. Immer mehr Dinge des alltäglichen Lebens sind mit Sensorik ausgestattet und sammeln Daten über ihre Nutzung und ihr Umfeld. Das Auto sammelt Daten über Verkehrsteilnehmer und vermeidet so Unfälle, das Haus untersucht unser Wohnverhalten und spart so Strom, das Armband überwacht unseren Gesundheitszustand und rettet so möglicherweise Leben.
Schon 2008 waren erstmals mehr Geräte als Menschen im Internet und diese Entwicklung schreitet sehr rasch voran. Heute sind bereits Prototypen unbemannter Fahrzeuge im Strassenverkehr im Einsatz. KONKURRENZVORTEIL Tom Davenport erklärte bereits 2006, dass das systematische Sammeln von unternehmensinternen und -externen Daten und deren statistische Analyse eine neue Art von Konkurrenzvorteil darstellt. Nicht umsonst werden Daten als das neue Öl bezeichnet. Die Fähigkeit, relevante Daten systematisch und umfassend zu sammeln, verarbeiten, verstehen, visualisieren, analysieren und zu kommunizieren – um schliesslich Wissen daraus zu generieren –, wird eine der wichtigsten Qualifikationen in den kommenden
Jahrzehnten sein. Auch Googles Chefökonom, Hal Varian, prognostizierte 2009, dass die Analyse von Daten einmal als «sexy job» wahrgenommen werden wird (McKinsey, 2009). Dies gilt heute mehr denn je. Wie das konkret aussieht, verdeutlichen folgende zwei reale Beispiele bekannt gewordener Anwendungsfälle. BEISPIEL: NEUE INDIKATOREN FINDEN Einzelhandelsunternehmen sammeln und analysieren schon seit Jahrzehnten grosse Datenmengen, um daraus relevantes Wissen über Prof. Dr. Jan vom Brocke leitet das Institut für Wirtschaftsinformatik der Universität Liechtenstein Dr. Bernd Schenk ist Studiengangsverantwortlicher des Masters Information Systems am Institut für Wirtschaftsinformatik www.uni.li/mis
MANAGEMENT & KARRIERE
Aus- und Weiterbildung
Computerworld 9/5. Juni 2015 www.computerworld.ch
37
Data Scientist ein neuer Beruf Leute, die wissen, wie man riesige Datenmengen intelligent nutzt, sind sehr gefragt. Das neue Berufsbild heisst Data Scientist. Wie wird man das und was muss man dafür können? VON JAN VOM BROCKE & BERND SCHENK
U
nsere vernetzte Welt produziert täglich eine riesige Datenmenge. Nach einer Schätzung von IDC werden Ende 2015 acht Zettabyte an Daten in unseren IT-Systemen gespeichert sein – sechsmal mehr als vor fünf Jahren und sechzigmal mehr als noch vor zehn Jahren. Laut IBM entstanden 90 Prozent aller jemals generierten Daten in den letzten zwei Jahren. Und damit sind wirklich alle Daten über die gesamte Menschheitsgeschichte hinweg gemeint, digitale und analoge. Die wachsende Datenflut stellt uns einerseits vor komplexe technische Herausforderungen. Andererseits werden diese Daten, und insbesondere die Analysemöglichkeiten dieser Daten, unser Leben revolutionieren. Entsprechend faszinierend sind die Karrieremöglichkei-
ten von passend ausgebildeten Datenexperten. Tom Davenport, ein bekannter Managementguru, bezeichnet den Data Scientist kurzum als «the sexiest job of the 21st century». Dieser Beitrag soll zeigen, was Data Science ist und welche Qualifikationsprofile sich damit für Studierende verbinden. Wir erklären den
Masterstudiengang Information Systems Neu: ab Wintersemester 2015/2016 mit der Vertiefung Data Science Studiendauer: 2 Jahre, 120 ECTS Max. Studierendenzahl: 35 pro Jahr Kontakt & Information: Dr. Bernd Schenk, www.uni.li/bernd.schenk
Begriff Data Science, zeigen Beispiele aus dem Alltag eines Data Scientists und diskutieren Studienmöglichkeiten für den neuen, attraktiven Karriereweg. DATA SCIENCE – WAS IST DAS? Der Begriff Data Science bezeichnet die Extrahierung von Wissen aus Daten. Dazu bedienen sich Data Scientists der Mittel von Statistik und Informatik; Methoden wie Machine Learning und Werkzeuge wie NoSQL-Datenbanken gehören zum Standardrepertoire. Obwohl Data Science aktuell als neuer Begriff wahrgenommen wird, hat ihn der Informatikpionier Peter Naur bereits vor über 40 Jahren verwendet – als Synonym für Computer Science. Im heutigen Zeitalter von Big Data wird jedoch von einem Data Scientist weit mehr – und vor allem anderes –
BILD: ISTOCKPHOTO.COM/PETER BOOTH
36
erwartet als von einem traditionellen Informatiker. Die hohen Erwartungen an Data Science erklären sich einerseits durch neue technische Möglichkeiten. Zu nennen sind hier etwa moderne Algorithmen zur Datenanalyse, aber auch Rechenleistungen, die heute enorm zugenommen haben und Datenanalysen in Echtzeit erlauben. Der noch wichtigere Grund für die hohe wirtschaftliche und gesellschaftliche Relevanz von Data Science ist aber wohl die Verfügbarkeit von Daten. Immer mehr Dinge des alltäglichen Lebens sind mit Sensorik ausgestattet und sammeln Daten über ihre Nutzung und ihr Umfeld. Das Auto sammelt Daten über Verkehrsteilnehmer und vermeidet so Unfälle, das Haus untersucht unser Wohnverhalten und spart so Strom, das Armband überwacht unseren Gesundheitszustand und rettet so möglicherweise Leben.
Schon 2008 waren erstmals mehr Geräte als Menschen im Internet und diese Entwicklung schreitet sehr rasch voran. Heute sind bereits Prototypen unbemannter Fahrzeuge im Strassenverkehr im Einsatz. KONKURRENZVORTEIL Tom Davenport erklärte bereits 2006, dass das systematische Sammeln von unternehmensinternen und -externen Daten und deren statistische Analyse eine neue Art von Konkurrenzvorteil darstellt. Nicht umsonst werden Daten als das neue Öl bezeichnet. Die Fähigkeit, relevante Daten systematisch und umfassend zu sammeln, verarbeiten, verstehen, visualisieren, analysieren und zu kommunizieren – um schliesslich Wissen daraus zu generieren –, wird eine der wichtigsten Qualifikationen in den kommenden
Jahrzehnten sein. Auch Googles Chefökonom, Hal Varian, prognostizierte 2009, dass die Analyse von Daten einmal als «sexy job» wahrgenommen werden wird (McKinsey, 2009). Dies gilt heute mehr denn je. Wie das konkret aussieht, verdeutlichen folgende zwei reale Beispiele bekannt gewordener Anwendungsfälle. BEISPIEL: NEUE INDIKATOREN FINDEN Einzelhandelsunternehmen sammeln und analysieren schon seit Jahrzehnten grosse Datenmengen, um daraus relevantes Wissen über Prof. Dr. Jan vom Brocke leitet das Institut für Wirtschaftsinformatik der Universität Liechtenstein Dr. Bernd Schenk ist Studiengangsverantwortlicher des Masters Information Systems am Institut für Wirtschaftsinformatik www.uni.li/mis
MANAGEMENT & KARRIERE
Aus- und Weiterbildung
«Die Fähigkeit, aus Daten Wissen zu generieren, wird eine der wichtigsten Qualifikationen in den kommenden Jahrzehnten sein» Jan vom Brocke
Kunden zu extrahieren. 2012 bekam die USamerikanische Handelskette Target besondere Aufmerksamkeit in der Presse, als bekannt wurde, dass das Unternehmen Daten von Kassenbons und Loyalty-Karten auswertet, um schwangere Frauen zu identifizieren. Target hatte zuerst das Einkaufsverhalten aller Kunden mit dem Verhalten von Frauen verglichen, von denen der Detailhändler wusste, dass sie schwanger sind. Daraus konnten Variablen abgeleitet werden, die zuverlässig eine für Target noch unbekannte Schwangerschaft anzeigten – zum Beispiel häufiger Kauf von duftfreier Seife in Kombination mit bestimmten Nahrungs-
ergänzungsmitteln wie Kalzium, Magnesium oder Zink. Bekannt wurde diese Praktik, als sich ein Vater in Minneapolis beim Manager des lokalen Target-Geschäfts darüber beschwerte, dass seine junge Tochter gezielt Coupons für Babyartikel zugesendet bekommt. Einige Tage später entschuldigte sich der Vater bei Target, nachdem seine Tochter ihm beichtete, dass sie tatsächlich schwanger war. STARBUCKS: RESONANZ SOFORT ERFASSEN Immer mehr Kunden tauschen sich in sozialen Netzwerken über ihre Erfahrungen mit Produkten und Dienstleistungen aus. Die Kaffeehaus-
Anforderungsprofil an Data Scientists
Machine Learning
Hacking Skills
Math & Statistics Knowledge
Data Science Danger Zone
Traditional Research
Substantive Expertise QUELLE: DREW CONWAY
38
Data Science als Schnittmenge verschiedener Skills: Programmierkenntnisse, Statistik/Mathematik und jeweilige Fachkenntnisse
kette Starbucks wertet solche Beiträge und Kommentare systematisch aus, um Erkenntnisse über Kundenpräferenzen zu gewinnen. Am Tag der Einführung einer neuen Kaffeesorte überwachte Starbucks Blogs von Kaffeeliebhabern und Posts auf Twitter, da befürchtet wurde, dass der Kaffee zu bitter sein könnte. Schon nach wenigen Stunden fanden die Analysten heraus, dass der Geschmack grossen Anklang fand, aber die Kunden den Preis als zu hoch empfanden. Starbucks reagierte sofort mit einer Preissenkung und bis zum Abend verschwanden alle negativen Kommentare. Hätte Starbucks Kundenmeinungen über Geschmack und Preis auf herkömmlichem Weg gesammelt und analysiert, beispielsweise mittels Fokusgruppen, wären Wochen vergangen, bis Erklärungen für schlechte Absatzzahlen gefunden worden wären. GEFORDERTE KOMPETENZEN Die obigen Beispiele zeigen, dass vielfältige Datenquellen und Analyseverfahren genutzt werden können, um das wirtschaftliche Potential von Data Science auszuschöpfen. Bislang gibt es aber nur wenige wissenschaftliche Arbeiten, die sich systematisch mit den Kompetenzanforderungen im Bereich Data Science auseinandergesetzt haben. Anforderungsprofile werden häufig in anekdotischer Form beschrieben und diskutiert. So beschreiben Davenport und Patil (2012) den Data Scientist als «Mischung aus Daten-Hacker, Analyst, Kommunikationsexperte und vertrauenswürdigem Berater»; laut Jeff Hammerbacher, Gründer des ersten Data Science Teams bei Facebook, ist die Fachperson in der Lage, so unterschiedliche Dinge wie eine Multistage Processing Pipeline in Python, eine Regressionsanalyse von Beispieldaten mit R oder einen Algorithmus für einen datenintensiven Dienst in Hadoop zu kreieren. Darüber hinaus sollte er die Resultate anderen Mitarbeitern kommunizieren können. Eine viel beachtete Systematisierung von Data Science Skills ist das Venn-Diagramm von Drew Conway (vgl. Grafik l.), das drei Kompetenzbereiche unterscheidet. Den ersten Bereich bilden die Hacking Skills, also Programmierkenntnisse. Hierzu gehört insbesondere die Fähigkeit, Daten automatisiert im Web zu sammeln oder aus anderen IT-Systemen zu extrahieren sowie das Säubern, Formatieren und Transformieren von Datensätzen. Sobald Daten in geeigneter Qualität vorliegen, gilt es, Erkenntnisse daraus zu ziehen. Dazu werden mathematische und statistische Kenntnisse (Math & Statistics Knowledge) benötigt; das heisst, die Beherrschung statistischer Standardverfahren wie linearer Regressionen und Varianzanalyse, aber auch fortgeschrittene Verfahren wie Visualisierung und Text Mining werden vorausgesetzt. Den dritten Bereich ma-
Computerworld 9/5. Juni 2015 www.computerworld.ch
chen solide Fachkenntnisse (Substantive Expertise) aus, die je nach Anwendungsfeld (z. B. Marketing, Finanzen, Supply Chain Management) variieren. Die Vereinigung aller drei Kompetenzbereiche zeichnen einen Data Scientist aus. AUSBILDUNG Die Karrieremöglichkeiten sind höchst attraktiv, das Kompetenzprofil aber auch breit gefächert. Wie können also Studierende von der Entwicklung profitieren und sich in ihrem Studium im Bereich Data Science qualifizieren? Für den ersten Überblick stehen Bildungsmöglichkeiten online zur Verfügung. Insbesondere mit dem Aufkommen von MOOCs (Massive Open Online Courses) wächst auch das Ausbildungsangebot für Data Scientists rasch. Plattformen wie Coursera (www. coursera.com), Udacity (www.udacity.com), oder auch edX (www.edx.org) bieten verschiedenste Online-Kurse zum Erlernen der mathematischen und technischen Kenntnisse an: «The Data Scientist’s Toolbox», «Statistical Inference», «Machine Learning», «Mining Massive Datasets» oder auch «Data Visualization» sind nur einige exemplarisch aufgelistete Angebote. Diese Kurse sind zwar als Einstieg in die Materie sehr empfehlenswert, erreichen aber selten die Tiefe einer universitären Ausbildung zum Data Scientist. Das liegt insbesondere daran, dass über das technische Grundwissen hinaus auch Erfahrungswissen in der Datensammlung, Analyse und Ergebnisinterpretation erforderlich ist. Zudem sind die Abschlüsse dieser MOOCs nicht zertifiziert und es bleibt abzuwarten, inwieweit Arbeitgeber solche Programme anerkennen. Dennoch sind Online-Kurse zu Beginn empfehlenswert, zumal sie auch kostengünstig sind und maximale Flexibilität beim Lernen bieten. Universitäten und Fachhochschulen haben den Bedarf an einem ganzheitlichen Data-Science-Ausbildungsangebot erkannt und so entstehen derzeit erste Spezialisierungen. Da ein Data Scientist nicht nur technisches Know-how aufweisen muss, werden die meisten universitären Ausbildungen im deutschsprachigen Raum als Schwerpunkt oder Vertiefung in einem bereits etablierten fachspezifischen Studium angeboten. Wirtschaftsinformatik-Studiengänge sind prädestinierte Grundstudien für eine solche Vertiefung, da hier die Grundlagen der InANZEIGE
Leistung für Ihre IT
39
«Die Karrieremöglichkeiten des Data Scientist sind höchst attraktiv, das Kompetenzprofil aber auch breit gefächert» Bernd Schenk
formatik, aber auch der Betriebswirtschaft bereits vermittelt werden. Die Kombination dieser Fähigkeiten mit einer fundierten Ausbildung in Mathematik und Statistik bildet den Schlüssel zum Erfolg eines jeden Data Scientists. KARRIEREMÖGLICHKEITEN Data Scientists erwartet eine vielversprechende Zukunft. Mehr und mehr Unternehmen sehen den zusätzlichen Nutzen in der ausgeklügelten Analyse ihrer Datenbestände. Aktuelle Trends, wie beispielsweise der Wandel zur Industrie 4.0 (Informatisierung der Fertigungstechnik) in Kombination mit dem Internet der Dinge, sind ein deutliches Indiz dafür. Dieses Potenzial lässt sich grundsätzlich auf drei verschiedenen Karrierepfaden ausschöpfen: als betriebsinterner Data Scientist, als Berater oder als Unternehmer.
Da die Disziplin noch jung ist, sind betriebsinterne Data Scientists bislang fast nur in Grosskonzernen oder Software-Häusern zu finden. Dabei geht es hauptsächlich um die Umsetzung interner Data-Science-Projekte oder um die Entwicklung von Data Products, die an die Kunden weiterverkauft werden. Da das Ergebnis solcher Data-Science-Projekte oft nicht genau vorhersehbar ist, greifen kleine oder mittelständische Unternehmen gerne zu externen Beratern, um konkrete Aufgabenstellungen umzusetzen. Zu guter Letzt birgt der rasante technologische Wandel auch das Potenzial, mit einem neuen Produkt zur innovativen Analyse von Daten den Schritt in die Selbstständigkeit zu wagen und damit erfolgreich zu sein. Egal, welcher Pfad eingeschlagen wird, eines ist sicher: Der Beruf des Data Scientists ist vielfältig und sehr sexy!
Weiterführende Informationen IBM: What is big data? Bei Angabe der Personalien bietet IBM hier unter anderem das E-Book «Big Data Beyond the Hype» zum Download an www-01.ibm.com/software/data/ bigdata/what-is-big-data.html The Digital Universe Study: Seit 2007 jährlich durchgeführte IDC-Studie im Auftrag von EMC. Mit Zahlen zum weltweiten Datenwachstum, zahlreichen Infografiken und Reports als PDF www.emc.com/leadership/digitaluniverse/index.htm Tom Davenport: Autor zahlreicher Fachbücher und mehrerer Hundert Artikel in Publikationen wie Harvard Business Review, MIT Sloan Management Review und
Financial Times. Sein neustes Buch, «Big Data at work», ist auch auf Deutsch erschienen www.tomdavenport.com Drew Conway: Langjähriger Experte auf dem Gebiet der Data Science. Die Website enthält unter anderem einen Blog und Videos seiner Vorträge www.drewconway.com Hal Varian: Der Chefökonom von Google mit einem längeren Beitrag bei McKinsey www.mckinsey.com/insights/innovation/hal_varian_on_how_the_web_ challenges_managers Gil Press: A Very Short History Of Data Science www.forbes.com/sites/ gilpress/2013/05/28/a-very-shorthistory-of-data-science
MANAGEMENT & KARRIERE
Aus- und Weiterbildung
«Die Fähigkeit, aus Daten Wissen zu generieren, wird eine der wichtigsten Qualifikationen in den kommenden Jahrzehnten sein» Jan vom Brocke
Kunden zu extrahieren. 2012 bekam die USamerikanische Handelskette Target besondere Aufmerksamkeit in der Presse, als bekannt wurde, dass das Unternehmen Daten von Kassenbons und Loyalty-Karten auswertet, um schwangere Frauen zu identifizieren. Target hatte zuerst das Einkaufsverhalten aller Kunden mit dem Verhalten von Frauen verglichen, von denen der Detailhändler wusste, dass sie schwanger sind. Daraus konnten Variablen abgeleitet werden, die zuverlässig eine für Target noch unbekannte Schwangerschaft anzeigten – zum Beispiel häufiger Kauf von duftfreier Seife in Kombination mit bestimmten Nahrungs-
ergänzungsmitteln wie Kalzium, Magnesium oder Zink. Bekannt wurde diese Praktik, als sich ein Vater in Minneapolis beim Manager des lokalen Target-Geschäfts darüber beschwerte, dass seine junge Tochter gezielt Coupons für Babyartikel zugesendet bekommt. Einige Tage später entschuldigte sich der Vater bei Target, nachdem seine Tochter ihm beichtete, dass sie tatsächlich schwanger war. STARBUCKS: RESONANZ SOFORT ERFASSEN Immer mehr Kunden tauschen sich in sozialen Netzwerken über ihre Erfahrungen mit Produkten und Dienstleistungen aus. Die Kaffeehaus-
Anforderungsprofil an Data Scientists
Machine Learning
Hacking Skills
Math & Statistics Knowledge
Data Science Danger Zone
Traditional Research
Substantive Expertise QUELLE: DREW CONWAY
38
Data Science als Schnittmenge verschiedener Skills: Programmierkenntnisse, Statistik/Mathematik und jeweilige Fachkenntnisse
kette Starbucks wertet solche Beiträge und Kommentare systematisch aus, um Erkenntnisse über Kundenpräferenzen zu gewinnen. Am Tag der Einführung einer neuen Kaffeesorte überwachte Starbucks Blogs von Kaffeeliebhabern und Posts auf Twitter, da befürchtet wurde, dass der Kaffee zu bitter sein könnte. Schon nach wenigen Stunden fanden die Analysten heraus, dass der Geschmack grossen Anklang fand, aber die Kunden den Preis als zu hoch empfanden. Starbucks reagierte sofort mit einer Preissenkung und bis zum Abend verschwanden alle negativen Kommentare. Hätte Starbucks Kundenmeinungen über Geschmack und Preis auf herkömmlichem Weg gesammelt und analysiert, beispielsweise mittels Fokusgruppen, wären Wochen vergangen, bis Erklärungen für schlechte Absatzzahlen gefunden worden wären. GEFORDERTE KOMPETENZEN Die obigen Beispiele zeigen, dass vielfältige Datenquellen und Analyseverfahren genutzt werden können, um das wirtschaftliche Potential von Data Science auszuschöpfen. Bislang gibt es aber nur wenige wissenschaftliche Arbeiten, die sich systematisch mit den Kompetenzanforderungen im Bereich Data Science auseinandergesetzt haben. Anforderungsprofile werden häufig in anekdotischer Form beschrieben und diskutiert. So beschreiben Davenport und Patil (2012) den Data Scientist als «Mischung aus Daten-Hacker, Analyst, Kommunikationsexperte und vertrauenswürdigem Berater»; laut Jeff Hammerbacher, Gründer des ersten Data Science Teams bei Facebook, ist die Fachperson in der Lage, so unterschiedliche Dinge wie eine Multistage Processing Pipeline in Python, eine Regressionsanalyse von Beispieldaten mit R oder einen Algorithmus für einen datenintensiven Dienst in Hadoop zu kreieren. Darüber hinaus sollte er die Resultate anderen Mitarbeitern kommunizieren können. Eine viel beachtete Systematisierung von Data Science Skills ist das Venn-Diagramm von Drew Conway (vgl. Grafik l.), das drei Kompetenzbereiche unterscheidet. Den ersten Bereich bilden die Hacking Skills, also Programmierkenntnisse. Hierzu gehört insbesondere die Fähigkeit, Daten automatisiert im Web zu sammeln oder aus anderen IT-Systemen zu extrahieren sowie das Säubern, Formatieren und Transformieren von Datensätzen. Sobald Daten in geeigneter Qualität vorliegen, gilt es, Erkenntnisse daraus zu ziehen. Dazu werden mathematische und statistische Kenntnisse (Math & Statistics Knowledge) benötigt; das heisst, die Beherrschung statistischer Standardverfahren wie linearer Regressionen und Varianzanalyse, aber auch fortgeschrittene Verfahren wie Visualisierung und Text Mining werden vorausgesetzt. Den dritten Bereich ma-
Computerworld 9/5. Juni 2015 www.computerworld.ch
chen solide Fachkenntnisse (Substantive Expertise) aus, die je nach Anwendungsfeld (z. B. Marketing, Finanzen, Supply Chain Management) variieren. Die Vereinigung aller drei Kompetenzbereiche zeichnen einen Data Scientist aus. AUSBILDUNG Die Karrieremöglichkeiten sind höchst attraktiv, das Kompetenzprofil aber auch breit gefächert. Wie können also Studierende von der Entwicklung profitieren und sich in ihrem Studium im Bereich Data Science qualifizieren? Für den ersten Überblick stehen Bildungsmöglichkeiten online zur Verfügung. Insbesondere mit dem Aufkommen von MOOCs (Massive Open Online Courses) wächst auch das Ausbildungsangebot für Data Scientists rasch. Plattformen wie Coursera (www. coursera.com), Udacity (www.udacity.com), oder auch edX (www.edx.org) bieten verschiedenste Online-Kurse zum Erlernen der mathematischen und technischen Kenntnisse an: «The Data Scientist’s Toolbox», «Statistical Inference», «Machine Learning», «Mining Massive Datasets» oder auch «Data Visualization» sind nur einige exemplarisch aufgelistete Angebote. Diese Kurse sind zwar als Einstieg in die Materie sehr empfehlenswert, erreichen aber selten die Tiefe einer universitären Ausbildung zum Data Scientist. Das liegt insbesondere daran, dass über das technische Grundwissen hinaus auch Erfahrungswissen in der Datensammlung, Analyse und Ergebnisinterpretation erforderlich ist. Zudem sind die Abschlüsse dieser MOOCs nicht zertifiziert und es bleibt abzuwarten, inwieweit Arbeitgeber solche Programme anerkennen. Dennoch sind Online-Kurse zu Beginn empfehlenswert, zumal sie auch kostengünstig sind und maximale Flexibilität beim Lernen bieten. Universitäten und Fachhochschulen haben den Bedarf an einem ganzheitlichen Data-Science-Ausbildungsangebot erkannt und so entstehen derzeit erste Spezialisierungen. Da ein Data Scientist nicht nur technisches Know-how aufweisen muss, werden die meisten universitären Ausbildungen im deutschsprachigen Raum als Schwerpunkt oder Vertiefung in einem bereits etablierten fachspezifischen Studium angeboten. Wirtschaftsinformatik-Studiengänge sind prädestinierte Grundstudien für eine solche Vertiefung, da hier die Grundlagen der InANZEIGE
Leistung für Ihre IT
39
«Die Karrieremöglichkeiten des Data Scientist sind höchst attraktiv, das Kompetenzprofil aber auch breit gefächert» Bernd Schenk
formatik, aber auch der Betriebswirtschaft bereits vermittelt werden. Die Kombination dieser Fähigkeiten mit einer fundierten Ausbildung in Mathematik und Statistik bildet den Schlüssel zum Erfolg eines jeden Data Scientists. KARRIEREMÖGLICHKEITEN Data Scientists erwartet eine vielversprechende Zukunft. Mehr und mehr Unternehmen sehen den zusätzlichen Nutzen in der ausgeklügelten Analyse ihrer Datenbestände. Aktuelle Trends, wie beispielsweise der Wandel zur Industrie 4.0 (Informatisierung der Fertigungstechnik) in Kombination mit dem Internet der Dinge, sind ein deutliches Indiz dafür. Dieses Potenzial lässt sich grundsätzlich auf drei verschiedenen Karrierepfaden ausschöpfen: als betriebsinterner Data Scientist, als Berater oder als Unternehmer.
Da die Disziplin noch jung ist, sind betriebsinterne Data Scientists bislang fast nur in Grosskonzernen oder Software-Häusern zu finden. Dabei geht es hauptsächlich um die Umsetzung interner Data-Science-Projekte oder um die Entwicklung von Data Products, die an die Kunden weiterverkauft werden. Da das Ergebnis solcher Data-Science-Projekte oft nicht genau vorhersehbar ist, greifen kleine oder mittelständische Unternehmen gerne zu externen Beratern, um konkrete Aufgabenstellungen umzusetzen. Zu guter Letzt birgt der rasante technologische Wandel auch das Potenzial, mit einem neuen Produkt zur innovativen Analyse von Daten den Schritt in die Selbstständigkeit zu wagen und damit erfolgreich zu sein. Egal, welcher Pfad eingeschlagen wird, eines ist sicher: Der Beruf des Data Scientists ist vielfältig und sehr sexy!
Weiterführende Informationen IBM: What is big data? Bei Angabe der Personalien bietet IBM hier unter anderem das E-Book «Big Data Beyond the Hype» zum Download an www-01.ibm.com/software/data/ bigdata/what-is-big-data.html The Digital Universe Study: Seit 2007 jährlich durchgeführte IDC-Studie im Auftrag von EMC. Mit Zahlen zum weltweiten Datenwachstum, zahlreichen Infografiken und Reports als PDF www.emc.com/leadership/digitaluniverse/index.htm Tom Davenport: Autor zahlreicher Fachbücher und mehrerer Hundert Artikel in Publikationen wie Harvard Business Review, MIT Sloan Management Review und
Financial Times. Sein neustes Buch, «Big Data at work», ist auch auf Deutsch erschienen www.tomdavenport.com Drew Conway: Langjähriger Experte auf dem Gebiet der Data Science. Die Website enthält unter anderem einen Blog und Videos seiner Vorträge www.drewconway.com Hal Varian: Der Chefökonom von Google mit einem längeren Beitrag bei McKinsey www.mckinsey.com/insights/innovation/hal_varian_on_how_the_web_ challenges_managers Gil Press: A Very Short History Of Data Science www.forbes.com/sites/ gilpress/2013/05/28/a-very-shorthistory-of-data-science