In der Wissenschaft sind Studien, die in Fachzeitschriften veröffentlicht wurden, das wichtigste Kommunikationsmittel. Was nicht in einem der vielen tausend Fachmagazine veröffentlicht wurde, existiert für die Wissenschaftswelt praktisch nicht. Die Tatsache, dass eine Studie in einem Fachjournal abgedruckt ist, bedeutet aber nicht automatisch, dass die Ergebnisse auch belastbar sind. Viele Studien sind schlichtweg unbrauchbar oder zumindest zweifelhaft.
An diesen Schwächen kann man wissenschaftlich zweifelhafte Studien, insbesondere aus dem Bereich Gesundheit und Ernährung, erkennen:
Die Stichprobe ist nicht repräsentativ
Regelmäßig melden Krankenkassen mehr Magersüchtige, Burn-out-Fälle oder Depressive. Doch die Versicherungen erfassen nur die Diagnostizierten und Behandelten – nicht die Erkrankten. Denn wenn die nicht zum Arzt gehen oder der die Krankheit nicht erkennt, tauchen sie in der Kassenstatistik auch nicht auf. Dadurch entstehen letztlich regelmäßig Schein-Epidemien.
So gibt es beispielsweise in Deutschland keine Zunahme der Depressionen, wie repräsentative Untersuchungen des Robert Koch-Instituts belegen. Die AOK Niedersachsen aber verzeichnete binnen zehn Jahren eine Zunahme von Depressionsfällen unter ihren Versicherten von 12 auf 16 Prozent, also um ein Drittel. Solche Beobachtungen werden dann gerne mit stressigeren Arbeitsbedingungen erklärt. Aber wahrscheinlich verbirgt sich dahinter etwas Erfreuliches: Mehr Betroffenen begeben sich in Behandlung.
Die Stichprobe ist zu klein
Nehmen wir an, Sie hegen den Verdacht, dass Männer im Durchschnitt schwerer sind als Frauen. Wie viele Frauen und Männer müssen Sie auf die Waage stellen, um den Gewichtunterschied tatsächlich zu finden, sagen wir mit einer Wahrscheinlichkeit von 80 Prozent? Sie brauchen 46 Frauen und 46 Männer – und das für einen relativ offensichtlichen Unterschied.
Wissenschaftlerinnen und Wissenschaftler haben es oft mit viel subtileren Unterschieden zu tun. Doch auch sie haben lange unterschätzt, wie viele Fälle sie tatsächlich brauchen und tun es oft heute noch. Das ist beispielsweise in der Hirnforschung ein großes Problem. Dort kommen sehr teure Geräte zum Einsatz und entsprechend kostspielig sind die Hirn-Scans. Daher bleibt es in Studien oft bei wenigen Probanden. Statistik-Spezialisten empfehlen mindestens 50 Probanden pro Gruppe, bei einem einfachen Gruppenvergleich also 100 Teilnehmer – es sei denn, der untersuchte Unterschied ist – wie beim Gewichtsunterschied zwischen Männern und Frauen – bekanntermaßen groß.
Was man eigentlich herausfinden will, wird gar nicht gemessen
Verlängert das neue Medikament wirklich wie erhofft das Leben? Um diese Frage zu beantworten, müsste man oft Jahre oder Jahrzehnte warten. So viel Zeit haben Forscher meist nicht, die Pharmaindustrie schon gar nicht. Also werden Laborwerte des Patienten untersucht, die Auskunft über seine Gesundheit geben sollen. Aber auch wenn das Medikament die verbessert, heißt das nicht, dass der Kranke am Ende wirklich gesundet oder gar länger lebt.
Das gleiche Problem stellt sich auch anderswo. In der Schule wird oft früh über die Gefahren von Drogen aufgeklärt. Trinken, rauchen, schlucken und spritzen die Jugendlichen deshalb weniger, wenn sie das entsprechende Alter erreichen? Auch da müsste man Jahre warten, die Jugendlichen dann befragen und hoffen, dass sie ehrliche Antworten geben. Viele Verantwortliche erkundigen sich lieber gleich nach der Unterrichtseinheit, ob die Schüler jetzt mehr über Drogen wissen und ob sie welche zu nehmen gedenken. So gefragt, fallen die Antworten natürlich oft aus wie gewünscht. Aber das allein hilft nichts.
Es wird nicht bewiesen, dass das eine wirklich das andere verursacht
An Wochenenden in Kliniken aufgenommene Patienten sterben öfter als andere. Gängige Erklärung: Da sind weniger Ärzte und Schwestern im Einsatz. Aber das ist womöglich nicht der Grund, wie 2017 eine Studie in der renommierten Medizin-Zeitschrift „The Lancet“ berichtete, am Beispiel von Notaufnahmen in vier Uni-Kliniken von Oxford. Wie viel medizinisches Personal Dienst hatte, spielte keine Rolle.
Entscheidend war vielmehr der Zustand der Patienten. Offenbar kommen am Wochenende andere Patienten in die Notaufnahme – vielleicht, weil dann nur eingeliefert wird, wenn der Fall wirklich ernst ist. Der vermeintlich simple Zusammenhang zwischen dem Tag der Einlieferung und den Überlebenschancen wird also durch einen leicht zu übersehenden anderen Einfluss verzerrt, in diesem Fall dem Gesundheitszustand der Patienten. So ist es oft.
Zahllose Bestseller legen nahe, dass Heiraten glücklich macht. Tatsächlich sind Verheiratete im Schnitt glücklicher (wenn auch nur im Durchschnitt). Doch das könnte auch daran liegen, dass ohnehin glücklichere Menschen eher heiraten – beispielsweise, weil sie leichter jemanden finden als Trauerklöße.
Die Ergebnisse sind nicht signifikant oder nicht relevant
Wenn ein Wissenschaftler Pech hat, findet er keinen Unterschied zwischen den untersuchten Gruppen und damit keinen Effekt – obwohl es ihn in Wirklichkeit gibt, beispielsweise weil er zufällig besonders leichte Männer und eher schwere Frauen erwischt hat. Oder er findet durch Zufall einen Unterschied, den es eigentlich nicht gibt.
Um sich dagegen abzusichern, machen Forscher statistische Tests und erklären beispielsweise: Das Ergebnis ist auf dem 5-%-Niveau signifikant. Das heißt, statistisch liegt die Wahrscheinlichkeit bei 5 Prozent, dass ein Effekt gefunden wurde, obwohl er in Wirklichkeit nicht existiert. 5 Prozent bedeutet in der Praxis allerdings nicht viel, weil Forscher mit verschiedenen Tricks die meisten Untersuchungsergebnisse auf dieses Niveau heben können. Als Psychologen hundert Studien wiederholten, bestätigten sich gerade mal 18 Prozent der Ergebnisse mit diesem Signifikanz-Niveau. Studien, die ursprünglich auf dem 1-Promille-Niveau signifikant waren, ließen sich dagegen in 63 Prozent der Fälle erfolgreich wiederholen.
Doch selbst statistisch signifikante Effekte sind im Alltag nicht unbedingt relevant. Die gängigen Medikamente gegen Alzheimer beispielsweise zeigen in Studien signifikante Erfolge. Nur sind diese Erfolge leider so gering, dass die Mittel in der Praxis den meisten Kranken nicht wirklich helfen. Über den tatsächlichen Nutzen sagt die oft in Studien angegebene Effektstärke mehr aus. Eine Effektstärke von mindestens 0,5 gilt als mittelstark, ab 0,8 liegt ein großer Effekt vor. Medikamente und Psychotherapie gegen Depressionen beispielsweise bringen es auf Effektstärken von etwa 0,4 und verfügen damit nur über eine bescheidene Wirksamkeit.
Wie einfach es allerdings ist, mit schlecht durchgeführten Studien trotzdem in Fachveröffentlichungen zu landen, zeigt diese Dokumentation der WDR-Wissenschaftsredaktion: