Linked Data: Über den Wert verlinkter Daten im Zeitalter von Big Data „Big Data“ ist das aktuelle Zauberwort in der IT, um das sich zahlreiche Konferenzen, Bücher und Projekte drehen. Doch ist es die Größe alleine, die zählt? Wie man die ‚wahren Werte‘ aus der Datenflut filtern kann, darüber berichtet Andreas Blumauer, CEO der Semantic Web Company (Wien), in diesem Beitrag. IBM, Gartner & Co. berichten seit Monaten über die exponentiell anwachsende Datenflut, die über uns im professionellen, aber auch privaten Umfeld hereinzubrechen droht. Was einerseits wie eine Gefahr wirkt, bietet auch neue Möglichkeiten, aus Daten wertvolles Wissen extrahieren zu können, so jedenfalls lautet das Versprechen. Die aufkeimende Goldschürferstimmung ist also zweischneidig: Wer mit „Big Data“ umzugehen weiß, kann sich immer größere Wettbewerbsvorteile verschaffen, wer diesen Zug verpasst, wird rasch zum „Opfer“ degradiert werden und ist am Ende nur noch ein Datensatz im Report des Mitbewerbers. „Alle Modelle sind falsch, manche jedoch nützlich“ Dieses Zitat vom britischen Statistiker George Box unterstreicht die Grundannahme der Big Data Proponenten: Musste man sich in all den Jahren vor der „Petabyte-Ära“ noch auf Kausalmodelle stützen, um z.B. herauszufinden, welche Verpackung die höchsten Umsätze generieren wird, so
wollen Google & Co. Prognosen wie diese nun einfach durch Korrelationen ersetzen. Nun wird Korrelation zwar öfters mit Kausalität verwechselt (wer von uns kennt nicht jene Zeitungsartikel, die davon berichten, dass „größere Leute mehr verdienen“ oder dass „Rauchen der Intelligenz schadet“), jedoch bietet die schier unvorstellbare Menge an Suchanfragen bei Google eine ausreichend gute Grundlage, um aufkeimende Grippewellen mit derselben Güte hervorsagen zu können wie die offiziellen Gesundheitsbehörden1. Menschliche entschlüsseln
Verhaltensmuster
Menschliches Verhalten vorhersagen zu können und personalisierte Empfehlungsdienste auf Basis großer Datenmengen anbieten zu können - dies sind Kerndisziplinen im Zeitalter von Big Data und spätestens seit Amazon´s „Kunden, die X gekauft haben, interessieren sich auch für Y“ bei Internetnutzern hinlänglich bekannt. Die zugrundeliegenden Methoden aber werden immer ausgefeilter und genauer. So bietet der US-Internetdienst hunch.com einen universell einsetzbaren „Taste-Graph“ an, der für nahezu alle Themen und Produktgruppen personalisierte Empfehlungen abgeben kann. Mit Hilfe von 48 Prozessoren und 1 Terabyte RAM wird jenes Regelwerk laufend verfeinert, das zu immer präziseren, persönlichen Empfehlungen führt. Dieses Regelwerk besteht aus großteils scheinbar unbedeutenden Faktoren, wie z.B. dem bevorzugten 1
Google Flu Trends: http://www.google.org/flutrends/about/how.html