Betreibt die Ökonomie «Bullshit-Forschung»?

Dieser Artikel erschien am 27. Juli 2023 als Meinungsbeitrag in der NZZ.

Mathias Binswanger hält offenbar wenig von der Psychologie. Man könne «den grössten Teil der Forschung in der Psychologie einfach vergessen», schreibt der Ökonom in einem Kommentar in der NZZ. Zu diesem Fazit kommt er unter anderem, weil in der Psychologie eine sogenannte «Reproduzierbarkeitskrise» herrsche, viele publizierte Ergebnisse also nicht oder nur teilweise bestätigt werden könnten.

Doch die Steine, die Binswanger wirft, drohen sein eigenes Glashaus zu zerschmettern. Denn die Diskussionen über die Reproduzierbarkeit von Forschungsergebnissen betreffen nicht nur die Psychologie, sondern eine Reihe von wissenschaftlichen Disziplinen – darunter auch die Wirtschaftswissenschaften. So wurde jüngst bei 180 ökonomischen Publikationen untersucht, ob sich die Ergebnisse darin reproduzieren liessen. Den Studienautoren gelang das in nur gut 38% der Fälle.

Die «Reproduzierbarkeitskrise»

Eine Krise der Reproduzierbarkeit wird schon seit längerem beschworen. Vor bald zwanzig Jahren veröffentlichte der Mediziner John Ioannidis einen einflussreichen Artikel mit dem provokativen Titel «Warum die meisten publizierten Forschungsergebnisse falsch sind». Das mag erschreckend klingen, doch Ioannidis hat bloss mittels statistischer Berechnungen daran erinnert, dass ein einzelnes Experiment allein nicht ausreicht, um verlässliche Evidenz zu schaffen.

Denn in den empirischen Wissenschaften werden die meisten Ergebnisse mit statistischen Methoden ausgewertet. Diese können dabei helfen, zu entscheiden, ob das, was man experimentell gemessen hat, mit dem übereinstimmt, was man theoretisch erwarten würde. Doch solche Entscheidungen sind mit einer bestimmten Fehlerwahrscheinlichkeit verbunden, die sich nur reduzieren lässt, wenn man eine wissenschaftliche Hypothese mehrmals und von vielen verschiedenen Seiten unter die Lupe nimmt. «Strenges Testen» nennt das die Statistikphilosophin Deborah Mayo.

Ein Jahrzehnt nach Ioannidis' Artikel folgten die Ergebnisse grossangelegter Reproduzierbarkeitsprojekte, die empirische Evidenz für die theoretische Kritik lieferten: Ob Psychologie, Ökonomie, experimentelle Philosophie, Sozialwissenschaften allgemein, Biomedizin oder Chemie, in zahlreichen Wissenschaften mehrten sich die Zeichen, dass die Ergebnisse in wissenschaftlichen Publikationen bisweilen nicht so verlässlich waren, wie man sich das gewünscht hätte.

Eine Studie in der Krebsforschung schaffte es zum Beispiel bloss, knapp die Hälfte der untersuchten Effekte erfolgreich zu replizieren. Nach Binswangers Massstäben müsste man das alles pauschal als «Bullshit-Forschung» betiteln.

Hürden für die Reproduzierbarkeit

Woran die Reproduzierbarkeit von Studien scheitert, kann jedoch vielfältige Gründe haben. Das beginnt schon damit, dass sich noch kein klarer Konsens herausgebildet hat, was als «erfolgreich reproduziert» gilt. Reicht es, wenn der verwendete statistische Test zweimal ein signifikantes Ergebnis anzeigt? Muss die Effektgrösse gleich gross sein? Reicht eine Reproduktion durch dasselbe Forschungsteam, oder braucht es mehrere Wiederholungen verschiedener Teams? Je nachdem, welche Kriterien man anlegt, fällt die Rate der erfolgreich reproduzierten Ergebnisse mal höher, mal tiefer aus.

Dennoch gibt es bei gewissen Fragen einen Konsens darüber, welche Voraussetzungen es braucht, um Reproduzierbarkeit zu ermöglichen. Ein wesentliches Problem liegt beispielsweise im fehlenden Zugang zu den Rohdaten, was eine unabhängige Überprüfung erschwert und somit Betrug erleichtert. Auch wenn detaillierte Informationen zum experimentellen Aufbau, zu den technischen Spezifikationen von Geräten oder zur statistischen Auswertung fehlen, lässt sich eine Studie kaum wiederholen. Und schliesslich gibt es eine Reihe von Verzerrungen und Fehlern bei der statistischen Planung und Auswertung von Experimenten, welche die Reproduzierbarkeit erschweren.

Drei Vorschläge um Reproduzierbarkeit zu fördern

Die Universität Zürich hat deswegen schon vor einigen Jahren das «Center for Reproducible Science» gegründet, um Reproduzierbarkeit fächerübergreifend zu fördern. Ansätze dafür gibt es viele. Hier deshalb nur drei Vorschläge:

Erstens sollten bei der Planung, Durchführung und Auswertung von empirischen Studien Statistiker mit einbezogen werden. Zu oft werden diese erst nach Abschluss eines Experiments zu Rate gezogen.

Zweitens sollten wissenschaftliche Studie vor der Durchführung mit einem experimentellen Protokoll registriert werden, mit detaillierten Angaben zum Versuchsziel, zur Methodik und zu den erhofften Erkenntnissen. Warum diese Angaben nicht auch nutzen, um nach Abschluss der Studie die Reproduzierbarkeit zu vereinfachen? So liesse sich in regelmässigen Abständen überprüfen, wo allenfalls Verbesserungen vorgenommen werden könnten.

Drittens sollten wissenschaftliche Daten und Software, auf denen die Auswertungen von Studienergebnissen beruhen, frei und offen zugänglich sein. So gäbe es – ob in Psychologie, Ökonomie oder Biomedizin – wohl weniger «Bullshit-Forschung».

Autor*innen

Autor*in

Servan Luciano Grüninger

Präsidium, Fundraising

Servan Grüninger ist Mitgründer und Präsident von Reatch. Er hat sein Studium mit Politikwissenschaften und Recht begonnen und mit Biostatistik und Computational Science abgeschlossen. Zurzeit doktoriert er am Institut für Mathematik der Universität Zürich in Biostatistik. Weitere Informationen: www.servangrueninger.ch.

Die Beiträge auf dem Reatch-Blog geben die persönliche Meinung der Autor*innen wieder und entsprechen nicht zwingend derjenigen von Reatch oder seiner Mitglieder.