6 minute read

Die Fallstricke der Statistik Fake News mit exakten Zahlen

Wenn die Grillen zirpen, geht die Sonne unter

Lieschen Müller aus Bayern hat zwei Leidenschaften. Zum einen isst sie für ihr Leben gerne Schokolade. Sie und ihr Mann Hubert haben obendrein einen nicht unwesentlichen Anteil ihres Vermögens in die Schweizer Schokoladenfabrik „Schokohimmel“ investiert. Lieschens zweites Steckenpferd sind Statistiken, die sie in vielen ihrer Zeitschriften findet. Zahlen lügen schließlich nicht.

Advertisement

von Christine Klein

Erst vor Kurzem wurde sie in ihrer Meinung bestätigt, dass sie sich doch der Treue ihres Huberts sicher sein kann. Denn ein Meinungsforschungsinstitut befragte in den deutschen Bundesländern verheiratete Männer nach ihren außerehelichen Beziehungen. Und danach geht nur etwa jeder zehnte Bayer fremd! Hubsi also sicher nicht.

Seitensprünge von 100

11

Bayern 12

Baden-Württemberg 14

Saarland 16

Schleswig-Holstein 17

Hessen 18

Rheinland-Pfalz 19

Bremen 19

Nordrhein-Westfalen 21

Niedersachsen 21

Sachsen-Anhalt 22

Sachsen 24

Brandenburg 27

Thüringen 32

Mecklenburg-Vorpommern 33

Berlin

Doch eines Tages findet sich in der Zeitschrift „Annemarie“ folgende Statistik: Eine Studie aus dem Jahr 2014 beschreibt die relative Senkung des Risikos, an Diabetes zu erkranken, indem man sich mit Mittelmeerkost ernährt, mit 30 Prozent.

Lieschen kommt ins Grübeln – verzichtet sie fortan auf ihre Schokolade und isst stattdessen Fisch und Gemüse, hätte sie ja ein deutlich geringeres Diabetesrisiko.

Als sie gerade eine gegrillte Dorade mit Zucchini und Paprika zubereitet, kommt Hubert mit der nächsten Hiobsbotschaft: Das Börsenmagazin „Fette Gewinne“ zeigt die folgenden Grafiken zum Unternehmen Schokohimmel, in das sie so viel Geld investiert haben.

Wachstumsdynamik der Firma Schokohimmel

1984 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 00 01 02 03 04 05 20 10 0 -10 -20 -30 -40 -50 in Tsd. EUR

Veränderung des Jahresumsatzes im Vergleich zum Vorjahr

in Tsd. EUR

180

150

120

90

60

30

1984 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 00 01 02 03 04 05 0

Die einst dynamische Umsatzentwicklung ist offensichtlich in eine kritische Phase gekommen. Die Umsätze brechen dramatisch ein, die Firma steckt in großen Schwierigkeiten. Wie gut, dass sie das noch halbwegs rechtzeitig erkannt haben. Also sofort diese Aktien abstoßen!

Nichts ist, wie es mal war bei den Müllers. Ihr Geld liegt mit mickrigen Zinsen auf einem Tagesgeldkonto, ständig gibt es Fisch und Gemüse. Selbst ihre Ehe scheint nicht mehr ganz so glücklich zu laufen, Hubert kann schließlich nicht dauernd Fisch essen. Doch dann sieht Lieschen Müller bei einem Arztbesuch diese Statistik aus dem renommierten New England Journal of Medicine:

Nobel Laureates per 10 Million Population 35

30

Correlation between Countries’ Annual Per Capita Chocolate Consumption and the Number of Nobel Laureates per 10 Million Population

r = 0.791 P < 0.0001

Sweden Switzerland

25

20

Denmark Norway Austria

United Kingdom

15

10

5

0

China Japan Brazil Portugal Greece Spain Canada

Australia Italy Poland Ireland The Netherlands Finland France

United States Belgium Germany

0 5 10 Chocolate Consumption (kg/yr/capita) 15

Also gibt es einen direkten Zusammenhang zwischen Schokoladenkonsum und der Anzahl der Nobelpreisträger in einem Land! Je mehr Schokolade, desto intelligenter die Menschen – so steht es in einer seriösen Fachzeitschrift. Sie kauft sofort zehn Tafeln Schokohimmel und verzehrt sie noch am gleichen Tag. Das scheint sogar zu wirken. Voll geistigem Elan eilt sie in die Stadtbibliothek und leiht ein Grundlagenwerk zur Statistik aus. Schon das erste Kapitel ist eine Offenbarung. Denn dort steht: „Ohne Kenntnis der Grundwerte ist die relative Veränderung aussagelos.“

I. Relative und absolute Werte Plötzlich wird ihr vieles klar, denn jetzt zeigt sich: Die absoluten Zahlen untermauern die Empfehlung Mittelmeerkost bei Weitem nicht so stark. Ernährt man sich „klassisch“ (also auch mit Schokolade), hat man ein Risiko von 8,8 Prozent, an Diabetes zu erkranken. Ernährt man sich mit Mittelmeerkost, liegt das Risiko bei 6,9 Prozent. Eine Differenz von gerade mal 1,9 Prozentpunkten.

Der Artikel hat die Werte komplett falsch interpretiert. Eine relative Senkung des Diabetesrisikos um 30 Prozent durch mediterrane Kost gibt keinerlei Auskunft über konkrete Zahlen. Es fehlen jegliche Basiswerte. In der Tat ist das Risiko, an Diabetes zu erkranken, bei 100 Personen mit normaler Kost nur um zwei Personen erhöht. Ein schwaches Argument.

Ähnlich sieht es mit den verheerenden Zahlen der Firma Schokohimmel aus. (1) Sinkende Wachstumsdynamik (Grafik 2 auf Seite 26) – also die Veränderung der Veränderung – ist mathematisch die zweite Ableitung (2)Sinkende Jahresumsätze im Vergleich zum Vorjahr (Grafik 3 auf Seite 26) – ist mathematisch die erste Ableitung Beide Kurven haben keine Basisfunktion. Die Darstellung der relativen Veränderung ohne Kenntnis der Grundwerte ist aussagelos. Schnell recherchiert Lieschen Müller im Internet und findet die beruhigende Antwort:

2500 in Tsd. EUR

Die Basisfunktion: Umsatzentwicklung der Firma Schokohimmel

2000

1500

1000

500

1984 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 00 01 02 03 04 05 0

Die richtige Interpretation, erkennbar an der Grundfunktion, die die absoluten Zahlen darstellt, zeigt, dass die Firma seit 1984 starke Umsatzsteigerungen erwirtschaften konnte. Dieses starke Wachstum hat sich lediglich über die Jahre etwas abgeschwächt. Kein Grund zur Sorge, Familie Müller kann ihr Geld also wieder in Schokohimmel investieren.

Freudig wartet Lieschen auf ihren Gatten Hubert, um ihm die guten Neuigkeiten mitteilen zu können. Doch merkwürdigerweise kommt dieser nicht zur erwarteten Zeit nach Hause. Also beginnt sie mit dem zweiten Kapitel in ihrem Statistik-Buch:

II. Manipulation durch Weglassen „Keine Angabe“ bedeutet keine Information? Aber kann man das denn einfach weglassen? Folgende Grafik schnürt Lieschen die Kehle zusammen:

Außereheliche Beziehungen

66 54

Bayern 23 11 Baden-Württemberg 12 34

ja 35

51

Saarland 14 60

Schleswig-Holstein 16 24

nein 39 38 58

44

Hessen 17 44

Rheinland-Pfalz 18

Bremen 19 23

keine Antwort 59

Nordrhein-Westfalen 19 22 48

31

Niedersachsen 21 32

47

Sachsen-Anhalt 21 41 49 36

37

Sachsen 22 27

Brandenburg 24 37

Thüringen 27 50

18

Mecklenburg-Vorpommern 32 25 42

Berlin 33

Sie dachte, nur jeder zehnte Bayer gehe fremd, niemals ihr Hubsi. Aber 66 von 100 Bayern haben überhaupt keine Antwort gegeben – anteilsmäßig auch noch die meisten von allen Bundesländern! Was hatten die zu verbergen? Und zu welcher Gruppe gehört jetzt ihr Hubsi?

Voller Wut wartet Lieschen auf Hubert, um ihn zur Rede zu stellen. Doch er kommt einfach nicht. Also beginnt sie, Ka pitel 3 im Statistik-Buch zu lesen: es, dass genau dieses Phänomen, eben die unsaubere Trennung von Korrelation (Zusammenhang) und Kausalität (Wirkung), eines der häufigsten Ursachen von Fehlinterpretationen darstellt. Für diese sogenannten Scheinkorrelationen gibt es viele lustige Bespiele, wie die Seite „Spurious Correlations“ (http://www.tylervigen.com/spurious-correlations) vorführt. In Zeiten von Big Data werden es sicherlich immer mehr, denn dank der riesigen Datenmengen lassen sich immer mehr Korrelationen finden.

Kritisch werden diese Scheinkorrelationen, wenn sie kausal in Bezug gesetzt werden und als Argumentationsbasis dienen. So wie beim Schokoladenkonsum und den Nobelpreisträgern.

33 Pfund

Käsekonsum pro Kopf korreliert mit Todesfällen durch Verheddern in Bettlaken

Tote 800

31,5

30 600

400

28,5

2000 2001

Käsekonsum 2002 2003 2004 2005

Tod durch Bettlaken 2006 2007 2008 200

2009

Das gibt Lieschen Müller den Rest. Ist sie etwa doch nicht intelligenter geworden? Erschöpft schläft sie über ihrem Buch ein.

Hubert kommt von seinem Stelldichein nach Hause und findet seine Frau mit dem aufgeschlagenen Statistik-Buch schlafend vor. Er überfliegt die gelesenen Seiten und schnell wird ihm klar, dass sie ihm auf die Schliche gekommen ist. Verzweifelt sucht er nach einer guten Ausrede. Er liest das vierte Kapitel:

IV. Stichprobenumfang Repräsentativität – meist als „repräsentative Stichprobe“ oder „repräsentative Befragung“ bezeichnet – ist die Charakteristik bestimmter Datenerhebungen, die es ermöglicht, aus einer kleinen Stichprobe Aussagen über eine wesentlich größere Menge (= Grundgesamtheit) treffen zu können.

Diese Berechnung sieht sehr kompliziert aus, doch seine Hoffnung, die Signifikanz der belastenden Studie durch die verwendete kleine Stichprobe zu entkräften, spornt ihn an.

Tatsächlich findet er eine Lösung: Deutschlandweit wurden lediglich 1.367 Männer befragt. 15,76 Prozent der männlichen Bevölkerung lebt in Bayern, das sind 6.438.508 Männer. Unter der Annahme, dass die Umfrage anteilig auf die Bevölkerungszahl aufgeteilt wurde, müssten in Bayern gerade mal 214 Männer befragt worden sein. Nach dem Statistikbuch folgt daraus eine Fehlertoleranz von über 10 Prozent.

This article is from: