6 minute read
Die Fallstricke der Statistik Fake News mit exakten Zahlen
from Denkraum 7
Wenn die Grillen zirpen, geht die Sonne unter
Lieschen Müller aus Bayern hat zwei Leidenschaften. Zum einen isst sie für ihr Leben gerne Schokolade. Sie und ihr Mann Hubert haben obendrein einen nicht unwesentlichen Anteil ihres Vermögens in die Schweizer Schokoladenfabrik „Schokohimmel“ investiert. Lieschens zweites Steckenpferd sind Statistiken, die sie in vielen ihrer Zeitschriften findet. Zahlen lügen schließlich nicht.
Advertisement
von Christine Klein
Erst vor Kurzem wurde sie in ihrer Meinung bestätigt, dass sie sich doch der Treue ihres Huberts sicher sein kann. Denn ein Meinungsforschungsinstitut befragte in den deutschen Bundesländern verheiratete Männer nach ihren außerehelichen Beziehungen. Und danach geht nur etwa jeder zehnte Bayer fremd! Hubsi also sicher nicht.
Seitensprünge von 100
11
Bayern 12
Baden-Württemberg 14
Saarland 16
Schleswig-Holstein 17
Hessen 18
Rheinland-Pfalz 19
Bremen 19
Nordrhein-Westfalen 21
Niedersachsen 21
Sachsen-Anhalt 22
Sachsen 24
Brandenburg 27
Thüringen 32
Mecklenburg-Vorpommern 33
Berlin
Doch eines Tages findet sich in der Zeitschrift „Annemarie“ folgende Statistik: Eine Studie aus dem Jahr 2014 beschreibt die relative Senkung des Risikos, an Diabetes zu erkranken, indem man sich mit Mittelmeerkost ernährt, mit 30 Prozent.
Lieschen kommt ins Grübeln – verzichtet sie fortan auf ihre Schokolade und isst stattdessen Fisch und Gemüse, hätte sie ja ein deutlich geringeres Diabetesrisiko.
Als sie gerade eine gegrillte Dorade mit Zucchini und Paprika zubereitet, kommt Hubert mit der nächsten Hiobsbotschaft: Das Börsenmagazin „Fette Gewinne“ zeigt die folgenden Grafiken zum Unternehmen Schokohimmel, in das sie so viel Geld investiert haben.
Wachstumsdynamik der Firma Schokohimmel
1984 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 00 01 02 03 04 05 20 10 0 -10 -20 -30 -40 -50 in Tsd. EUR
in Tsd. EUR
180
150
120
90
60
30
1984 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 00 01 02 03 04 05 0
Die einst dynamische Umsatzentwicklung ist offensichtlich in eine kritische Phase gekommen. Die Umsätze brechen dramatisch ein, die Firma steckt in großen Schwierigkeiten. Wie gut, dass sie das noch halbwegs rechtzeitig erkannt haben. Also sofort diese Aktien abstoßen!
Nichts ist, wie es mal war bei den Müllers. Ihr Geld liegt mit mickrigen Zinsen auf einem Tagesgeldkonto, ständig gibt es Fisch und Gemüse. Selbst ihre Ehe scheint nicht mehr ganz so glücklich zu laufen, Hubert kann schließlich nicht dauernd Fisch essen. Doch dann sieht Lieschen Müller bei einem Arztbesuch diese Statistik aus dem renommierten New England Journal of Medicine:
Nobel Laureates per 10 Million Population 35
30
Correlation between Countries’ Annual Per Capita Chocolate Consumption and the Number of Nobel Laureates per 10 Million Population
r = 0.791 P < 0.0001
Sweden Switzerland
25
20
Denmark Norway Austria
United Kingdom
15
10
5
0
China Japan Brazil Portugal Greece Spain Canada
Australia Italy Poland Ireland The Netherlands Finland France
United States Belgium Germany
0 5 10 Chocolate Consumption (kg/yr/capita) 15
Also gibt es einen direkten Zusammenhang zwischen Schokoladenkonsum und der Anzahl der Nobelpreisträger in einem Land! Je mehr Schokolade, desto intelligenter die Menschen – so steht es in einer seriösen Fachzeitschrift. Sie kauft sofort zehn Tafeln Schokohimmel und verzehrt sie noch am gleichen Tag. Das scheint sogar zu wirken. Voll geistigem Elan eilt sie in die Stadtbibliothek und leiht ein Grundlagenwerk zur Statistik aus. Schon das erste Kapitel ist eine Offenbarung. Denn dort steht: „Ohne Kenntnis der Grundwerte ist die relative Veränderung aussagelos.“
I. Relative und absolute Werte Plötzlich wird ihr vieles klar, denn jetzt zeigt sich: Die absoluten Zahlen untermauern die Empfehlung Mittelmeerkost bei Weitem nicht so stark. Ernährt man sich „klassisch“ (also auch mit Schokolade), hat man ein Risiko von 8,8 Prozent, an Diabetes zu erkranken. Ernährt man sich mit Mittelmeerkost, liegt das Risiko bei 6,9 Prozent. Eine Differenz von gerade mal 1,9 Prozentpunkten.
Der Artikel hat die Werte komplett falsch interpretiert. Eine relative Senkung des Diabetesrisikos um 30 Prozent durch mediterrane Kost gibt keinerlei Auskunft über konkrete Zahlen. Es fehlen jegliche Basiswerte. In der Tat ist das Risiko, an Diabetes zu erkranken, bei 100 Personen mit normaler Kost nur um zwei Personen erhöht. Ein schwaches Argument.
Ähnlich sieht es mit den verheerenden Zahlen der Firma Schokohimmel aus. (1) Sinkende Wachstumsdynamik (Grafik 2 auf Seite 26) – also die Veränderung der Veränderung – ist mathematisch die zweite Ableitung (2)Sinkende Jahresumsätze im Vergleich zum Vorjahr (Grafik 3 auf Seite 26) – ist mathematisch die erste Ableitung Beide Kurven haben keine Basisfunktion. Die Darstellung der relativen Veränderung ohne Kenntnis der Grundwerte ist aussagelos. Schnell recherchiert Lieschen Müller im Internet und findet die beruhigende Antwort:
2500 in Tsd. EUR
2000
1500
1000
500
1984 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 00 01 02 03 04 05 0
Die richtige Interpretation, erkennbar an der Grundfunktion, die die absoluten Zahlen darstellt, zeigt, dass die Firma seit 1984 starke Umsatzsteigerungen erwirtschaften konnte. Dieses starke Wachstum hat sich lediglich über die Jahre etwas abgeschwächt. Kein Grund zur Sorge, Familie Müller kann ihr Geld also wieder in Schokohimmel investieren.
Freudig wartet Lieschen auf ihren Gatten Hubert, um ihm die guten Neuigkeiten mitteilen zu können. Doch merkwürdigerweise kommt dieser nicht zur erwarteten Zeit nach Hause. Also beginnt sie mit dem zweiten Kapitel in ihrem Statistik-Buch:
II. Manipulation durch Weglassen „Keine Angabe“ bedeutet keine Information? Aber kann man das denn einfach weglassen? Folgende Grafik schnürt Lieschen die Kehle zusammen:
Außereheliche Beziehungen
66 54
Bayern 23 11 Baden-Württemberg 12 34
ja 35
51
Saarland 14 60
Schleswig-Holstein 16 24
nein 39 38 58
44
Hessen 17 44
Rheinland-Pfalz 18
Bremen 19 23
keine Antwort 59
Nordrhein-Westfalen 19 22 48
31
Niedersachsen 21 32
47
Sachsen-Anhalt 21 41 49 36
37
Sachsen 22 27
Brandenburg 24 37
Thüringen 27 50
18
Mecklenburg-Vorpommern 32 25 42
Berlin 33
Sie dachte, nur jeder zehnte Bayer gehe fremd, niemals ihr Hubsi. Aber 66 von 100 Bayern haben überhaupt keine Antwort gegeben – anteilsmäßig auch noch die meisten von allen Bundesländern! Was hatten die zu verbergen? Und zu welcher Gruppe gehört jetzt ihr Hubsi?
Voller Wut wartet Lieschen auf Hubert, um ihn zur Rede zu stellen. Doch er kommt einfach nicht. Also beginnt sie, Ka pitel 3 im Statistik-Buch zu lesen: es, dass genau dieses Phänomen, eben die unsaubere Trennung von Korrelation (Zusammenhang) und Kausalität (Wirkung), eines der häufigsten Ursachen von Fehlinterpretationen darstellt. Für diese sogenannten Scheinkorrelationen gibt es viele lustige Bespiele, wie die Seite „Spurious Correlations“ (http://www.tylervigen.com/spurious-correlations) vorführt. In Zeiten von Big Data werden es sicherlich immer mehr, denn dank der riesigen Datenmengen lassen sich immer mehr Korrelationen finden.
Kritisch werden diese Scheinkorrelationen, wenn sie kausal in Bezug gesetzt werden und als Argumentationsbasis dienen. So wie beim Schokoladenkonsum und den Nobelpreisträgern.
33 Pfund
Käsekonsum pro Kopf korreliert mit Todesfällen durch Verheddern in Bettlaken
Tote 800
31,5
30 600
400
28,5
2000 2001
Käsekonsum 2002 2003 2004 2005
Tod durch Bettlaken 2006 2007 2008 200
2009
Das gibt Lieschen Müller den Rest. Ist sie etwa doch nicht intelligenter geworden? Erschöpft schläft sie über ihrem Buch ein.
Hubert kommt von seinem Stelldichein nach Hause und findet seine Frau mit dem aufgeschlagenen Statistik-Buch schlafend vor. Er überfliegt die gelesenen Seiten und schnell wird ihm klar, dass sie ihm auf die Schliche gekommen ist. Verzweifelt sucht er nach einer guten Ausrede. Er liest das vierte Kapitel:
IV. Stichprobenumfang Repräsentativität – meist als „repräsentative Stichprobe“ oder „repräsentative Befragung“ bezeichnet – ist die Charakteristik bestimmter Datenerhebungen, die es ermöglicht, aus einer kleinen Stichprobe Aussagen über eine wesentlich größere Menge (= Grundgesamtheit) treffen zu können.
Diese Berechnung sieht sehr kompliziert aus, doch seine Hoffnung, die Signifikanz der belastenden Studie durch die verwendete kleine Stichprobe zu entkräften, spornt ihn an.
Tatsächlich findet er eine Lösung: Deutschlandweit wurden lediglich 1.367 Männer befragt. 15,76 Prozent der männlichen Bevölkerung lebt in Bayern, das sind 6.438.508 Männer. Unter der Annahme, dass die Umfrage anteilig auf die Bevölkerungszahl aufgeteilt wurde, müssten in Bayern gerade mal 214 Männer befragt worden sein. Nach dem Statistikbuch folgt daraus eine Fehlertoleranz von über 10 Prozent.