Linked Data: Über den Wert verlinkter Daten im Zeitalter von Big Data „Big Data“ ist das aktuelle Zauberwort in der IT, um das sich zahlreiche Konferenzen, Bücher und Projekte drehen. Doch ist es die Größe alleine, die zählt? Wie man die ‚wahren Werte‘ aus der Datenflut filtern kann, darüber berichtet Andreas Blumauer, CEO der Semantic Web Company (Wien), in diesem Beitrag. IBM, Gartner & Co. berichten seit Monaten über die exponentiell anwachsende Datenflut, die über uns im professionellen, aber auch privaten Umfeld hereinzubrechen droht. Was einerseits wie eine Gefahr wirkt, bietet auch neue Möglichkeiten, aus Daten wertvolles Wissen extrahieren zu können, so jedenfalls lautet das Versprechen. Die aufkeimende Goldschürferstimmung ist also zweischneidig: Wer mit „Big Data“ umzugehen weiß, kann sich immer größere Wettbewerbsvorteile verschaffen, wer diesen Zug verpasst, wird rasch zum „Opfer“ degradiert werden und ist am Ende nur noch ein Datensatz im Report des Mitbewerbers. „Alle Modelle sind falsch, manche jedoch nützlich“ Dieses Zitat vom britischen Statistiker George Box unterstreicht die Grundannahme der Big Data Proponenten: Musste man sich in all den Jahren vor der „Petabyte-Ära“ noch auf Kausalmodelle stützen, um z.B. herauszufinden, welche Verpackung die höchsten Umsätze generieren wird, so
wollen Google & Co. Prognosen wie diese nun einfach durch Korrelationen ersetzen. Nun wird Korrelation zwar öfters mit Kausalität verwechselt (wer von uns kennt nicht jene Zeitungsartikel, die davon berichten, dass „größere Leute mehr verdienen“ oder dass „Rauchen der Intelligenz schadet“), jedoch bietet die schier unvorstellbare Menge an Suchanfragen bei Google eine ausreichend gute Grundlage, um aufkeimende Grippewellen mit derselben Güte hervorsagen zu können wie die offiziellen Gesundheitsbehörden1. Menschliche entschlüsseln
Verhaltensmuster
Menschliches Verhalten vorhersagen zu können und personalisierte Empfehlungsdienste auf Basis großer Datenmengen anbieten zu können - dies sind Kerndisziplinen im Zeitalter von Big Data und spätestens seit Amazon´s „Kunden, die X gekauft haben, interessieren sich auch für Y“ bei Internetnutzern hinlänglich bekannt. Die zugrundeliegenden Methoden aber werden immer ausgefeilter und genauer. So bietet der US-Internetdienst hunch.com einen universell einsetzbaren „Taste-Graph“ an, der für nahezu alle Themen und Produktgruppen personalisierte Empfehlungen abgeben kann. Mit Hilfe von 48 Prozessoren und 1 Terabyte RAM wird jenes Regelwerk laufend verfeinert, das zu immer präziseren, persönlichen Empfehlungen führt. Dieses Regelwerk besteht aus großteils scheinbar unbedeutenden Faktoren, wie z.B. dem bevorzugten 1
Google Flu Trends: http://www.google.org/flutrends/about/how.html
Reifegrad von Bananen. Aufgrund solcher persönlicher Präferenzen von insgesamt über 500 Millionen Usern können Filmtipps oder Hinweise bei anstehenden Kaufentscheidungen für jeden einzelnen ermittelt werden, und zwar auf Basis simpler Korrelationsberechnungen. Die Resultate haben jedenfalls den Internetriesen eBay überzeugt, der hunch.com Ende 2011 für 80 Millionen USDollar übernommen hat. Wer das Service austesten will, kann mit seinem Twitteroder Facebook-Account hunch in wenigen Schritten unter http://hunch.com/goodies/ „trainieren“. Daten verlinken als Basis für neues Wissen Nun ist es intuitiv verständlich, dass Daten, die verknüpft sind, einen höheren Wert haben. Sie können in unterschiedliche Kontexte gestellt werden, und bilden somit die Vorstufe zu entscheidungsrelevantem Wissen. Die Methoden, Daten zu verknüpfen, sind jedoch höchst unterschiedlich, dazu drei Beispiele: Facebook ist es gelungen, mit seinem „Like“-Button milliardenfach User mit Webseiten und damit mit Inhaltskategorien zu verknüpfen; für jeden Facebook-User kann also mit hoher Treffsicherheit ein Interessensprofil errechnet werden, was u.a. die Basis für personalisierte Werbung bildet Google´s Knowledge Graph verknüpft auf Basis einer gigantischen Wissensdatenbank Suchanfragen mit „Dingen“ wie Personen, Orten oder Events. Wer auf Google.com nach „Wiener Sängerknaben“ sucht, erhält neuerdings nicht nur Weblinks, sondern
auch spezifische Informationen über Musiktitel, verwandte Suchanfragen und die nächsten Auftritte des österreichischen Aushängeschildes Auf Basis von „Linked Data“ Standards des W3C2 existiert eine Sammlung von nunmehr über 500 verlinkten Datensätzen, die in Summe über 2 Milliarden Fakten beinhalten, darunter geographische, naturwissenschaftliche oder medien-relevante Informationen3. Unternehmen wie BBC, Pfizer, Volkswagen oder Vodafone verwenden diese strukturierten Datenquellen, um interne Daten damit zu verlinken und anzureichern. Das langersehnte Semantic Web ist also wahr geworden. Gerade die letzten beiden Beispiele zeigen, dass statistisch berechnete Korrelationen alleine vor allem dann nicht mehr ausreichen, wenn die Materie komplexer wird: Um z.B. Fragen aus dem biomedizinischen Bereich beantworten zu können, müssen zusätzlich zu ‚Big Data‘ Methoden, Zusammenhänge zwischen Proteinen, Molekülinteraktionen und Medikamenten zur Verfügung gestellt werden. Dafür bildet das Semantic Web (= ‚Web of Data‘) eine reichhaltige Quelle. Web of Data: Ein gigantisches PuzzleSpiel für Wissensarbeiter Arbeitsabläufe in wissensintensive Industrien wie Pharma oder IT erinnern an ein Puzzelspiel: Neues Wissen entsteht oft durch das ‚richtige‘ Zusammenfügen bereits vorhandener Daten und Fakten. Wissensarbeiter müssen dies jedoch fast immer manuell durchführen. Einzig ‚Data Warehouses‘ oder ‚Enterprise 2
http://www.w3.org/standards/semanticweb/data 3 http://stats.lod2.eu/
Suchmaschinen‘ sind Automatismen, die diese zeitund kostenintensiven Tätigkeiten unterstützen. Zudem finden wissensintensive Tätigkeiten zumeist verteilt und in kollaborativer Weise statt: Standort-, Abteilungs- und Disziplinenübergreifend. Die Taktik, Daten physisch und vor allem organisatorisch zu zentralisieren, um sie so integrieren zu können, greift daher zu kurz. Im ‚Web of Data‘ funktioniert Datenintegration fundamental anders als bei klassischen ETL-Prozessen: Datensätze werden dezentral mittels Standard-APIs verfügbar gemacht und können verweisen gezielt aufeinander (‚Hyperdata‘). Mit einfachen, HTTP-basierten Abfragen können Daten aus verschiedenen Töpfen gezielt und ‚on-the-fly‘ zusammengefügt werden.
Das „Web of Data“ bietet in Kombination mit „Big Data“ Methoden eine hervorragende Basis, um große Datenmengen beherrschbar zu machen und somit Daten, den Rohstoff des 21. Jahrunderts in wertvolles Wissen umzumünzen.
Über den Autor
In diesem Sinne bedeutet ‚Big Data‘ nicht einfach nur, aus großen Datensilos noch größere zu erzeugen, sondern Daten intelligent und gezielt auf globalem Maßstab integrieren zu können. Fazit: Auf dem Weg zum ‚Web of Data‘ Wie so oft breiten sich Innovationen ausgehend vom offenen Web als nächste große IT-Trends aus - hinein in das Enterprise-Umfeld.
Andreas Blumauer ist Wirtschaftsinformatiker und beschäftigt sich seit über 10 Jahren mit dem „Semantic Web“ und „Linked Data“. Als CEO der Semantic Web Company (http://www.semantic-web.at/) unterstützt er Global 500 Unternehmen bei der Umsetzung von Big DataStrategien, speziell beim Einsatz semantischer Technologien.