Ernährungsstudien: Steiniger Weg zur Evidenz

Markante Schlagzeilen der neuesten Ernährungsempfehlungen finden sich täglich in Lifestyle-Magazinen und auf Social-Media-Plattformen. Das Hintergrundwissen zur Beurteilung der Ernährungsstudien hinter diesen Schlagzeilen fehlt aber häufig. Warum ist die Beantwortung ernährungswissenschaftlicher Fragestellungen so schwierig? Und wie kommen überhaupt wissenschaftlich fundierte Ernährungsempfehlungen zustande? Von Friederike Schmidt. 

Das Grundproblem der Ernährungsstudien

Ernährungsempfehlungen scheinen ziemlich sprunghaft: Ständig ändern sie sich! Mal werden Eier aufgrund ihres Cholesteringehalts verteufelt, mal heißt es, ihr regelmäßiger Verzehr sei sogar vorteilhaft. „Rotwein ist gesund fürs Herz“ – „Rotwein ist doch nicht gut fürs Herz!“. Was stimmt denn nun? Der Vorwurf, offizielle Ernährungsempfehlungen würden sich andauernd ändern, hängt allerdings nicht mit der Unfähigkeit der Ernährungswissenschaftler*innen zusammen, sondern mit der Herausforderung, wirklich belastbare Aussagen zu treffen. 

Mediziner*innen und Naturwissenschaftler*innen suchen zur Beantwortung von Forschungsfragen nach methodisch hochwertigen Beweisen. Denn nur verlässliche und unabhängige Ergebnisse erlauben die Ableitung konkreter Handlungsempfehlungen. In der Regel stützen sie sich dabei auf die Ergebnisse sog. klinischer Studien, in denen Maßnahmen an Menschen untersucht werden. Man spricht dann von evidenzbasierter Medizin. Bei der Bearbeitung ernährungswissenschaftlicher und -medizinischer Fragestellungen ist belastbare Evidenz jedoch Mangelware; klinische Studien im klassischen Sinne sind in diesem Forschungsfeld aus methodischen Gründen nämlich kaum möglich. 

Diese Problematik sowie die sich daraus ergebenden Herausforderungen wurden in den letzten Jahren in der Fachcommunity intensiv diskutiert. Das Ergebnis waren Instrumente, mit denen die Qualität von Ernährungsstudien besser beurteilt werden kann. Während Ernährungsempfehlungen in der Vergangenheit in der Tat selten evidenzbasiert waren, hat sich die Datenlage bis heute stetig verbessert. 

Aufgrund dieses wissenschaftlichen Fortschritts konnten zahlreiche veraltete Ernährungsempfehlungen zwischenzeitlich widerlegt werden – auch dies erklärt, warum „die Ernährungswissenschaft” heute etwas Anderes sagt als vor einigen Jahrzehnten.

Zufallsverteilt und verblindet? Schwierig.

Doch trotz Qualitätssteigerungen sucht man in der Ernährungsforschung fast immer vergeblich nach randomisiert-kontrollierten Studien, wie wir sie sonst aus der klinischen Forschung kennen. Woran liegt das? Bei diesem „Goldstandard“ medizinischer Studien wird meist eine einzige chemische Substanz in einer bestimmten Dosierung getestet. Proband*innen in der sogenannten Interventionsgruppe erhalten die zu untersuchende Substanz, Proband*innen in der Kontrollgruppe erhalten ein unwirksames Placebo oder eine andere Therapie. Alle Teilnehmer*innen der Studie werden zufällig auf die Gruppen verteilt („randomisiert”), und sie sind „verblindet” – das heißt, niemand weiß, ob er/sie die zu testende Substanz oder die Kontrollsubstanz erhält. Auf diese Weise lässt sich gut feststellen, welche gesundheitlichen Wirkungen eine Substanz hat.

Über solch ein Studiendesign lassen sich typische ernährungswissenschaftliche Fragen jedoch fast nie beantworten. Nehmen wir zum Beispiel die Fragestellung, ob regelmäßiger Fischkonsum das Demenzrisiko senkt. Bereits der Einsatz eines adäquaten Placebos ist unmöglich (Wie sollte z. B. der „Placebofisch” aussehen?). Das heißt, die Proband*innen sehen natürlich, ob sie Fisch oder ein anderes Lebensmittel erhalten, und dieses Wissen verfälscht das Ergebnis. Ein weiteres Problem: Durch eine zufällige Zuordnung der Proband*innen zu den Studiengruppen (Randomisierung) würde die Einhaltung der vorgeschriebenen Therapie wahrscheinlich ernüchternd ausfallen – wer möchte schon jahrelang dreimal in der Woche Fisch essen, obwohl er keinen Fisch mag?

Darüber hinaus handelt es sich bei Lebensmitteln um chemisch hochkomplexe und -variable Gemische, die sich nicht einmal näherungsweise standardisieren lassen. Selbst wenn man die Intervention in diesem Beispiel kontrolliert auf zwei Fisch-Portionen pro Woche festlegen könnte, hingen die Zusammensetzung und damit die gesundheitlichen Wirkungen der Mahlzeit von etlichen Faktoren ab: Fanggebiet, Lagerung und Verarbeitung des Fisches beeinflussen die aufgenommenen Nährstoffe ebenso wie die häusliche Zubereitung und die servierten Beilagen. 

Das heißt: Die bekannten Methoden zur Standardisierung der Intervention, wie etwa die Gabe einer genau definierten Dosis eines unter immer gleichen Bedingungen und nach stets identischer Rezeptur hergestellten Arzneimittels, lassen sich für ernährungswissenschaftliche Studien nur schwer anwenden.

Äpfel sind keine Birnen  

Aber das ist noch nicht alles: Bereits in üblichen klinischen Studien ist es eine große Herausforderung, zwei Gruppen möglichst ähnlich zu gestalten. Das ist aber Voraussetzung, um die Effekte überhaupt vergleichen zu können. Wenn in einer Untersuchungsgruppe überwiegend ältere Frauen sind, in der anderen Untersuchungsgruppe aber überwiegend jüngere Männer, dann kann das die Ergebnisse der Untersuchung verzerren.

Der Ernährungsstatus einer Person hängt von derart vielen Faktoren ab, dass es nahezu unmöglich ist, eine sehr gute Gruppenvergleichbarkeit zu erzielen. Um die Effekte der Behandlung jedoch auf die getestete Behandlung zurückführen zu können und nicht auf das unterschiedliche Körpergewicht, die Körperzusammensetzung, das Alter oder die verschiedenen Geschlechter, sind vergleichbare Gruppen eine fundamentale Voraussetzung. Andernfalls vergleicht man bekanntermaßen Äpfel mit Birnen.

Die notwendige Dauer der Ernährungsintervention verstärkt die möglichen Störeffekte ungleicher Gruppen zusätzlich: In aller Regel muss die Intervention Jahre (bis Jahrzehnte) andauern, damit wirklich starke Effekte zu sehen sind. Außerhalb von Laborbedingungen ist es jedoch praktisch unmöglich, alle übrigen Einflussgrößen über einen derart langen Zeitraum nicht zu verändern. Viel zu dynamisch sind Einflussfaktoren wie die Gesamternährung der Proband*innen, die körperliche Aktivität, das soziale Umfeld, Krankheiten und viele weitere.

Das alles klingt ziemlich ernüchternd: Wie ist es angesichts solch einer Gemengelage überhaupt möglich, zu irgendeiner Form ernährungswissenschaftlicher Evidenz zu kommen? Worauf basieren die Ernährungsempfehlungen der Fachgesellschaften wie der Deutschen Gesellschaft für Ernährung (DGE) oder dem Bundezentrum für Ernährung (BZfE)?

Beobachtungsstudien liefern nur die Hypothese!

Da es nur sehr selten funktioniert, ernährungswissenschaftliche Fragen in Form von zufallsverteilten, verblindeten und placebokontrollierten Studien zu beantworten, muss es andere Wege geben, um von Hypothesen zu Ernährungsempfehlungen zu gelangen. Grundlage dieser Hypothesenbildung sind meist ernährungsepidemiologische Beobachtungsstudien.

Das heißt: Durch die Anwendung epidemiologischer Methoden fällt erstmals auf, dass es einen statistischen Zusammenhang zwischen bestimmten Ernährungsweisen und gesundheitsbezogenen Parametern gibt.

Ein höherer Kaffeekonsum korreliert beispielsweise mit einer reduzierten Häufigkeit von Leberkrebs, eine höhere Fruchtzuckerzufuhr mit einem erhöhten Gichtrisiko usw. Dies ist meist bereits der Zeitpunkt, an dem eine entsprechende Pressemitteilung durch die Medien geht; Schlagzeilen à la „Kaffee verhindert Leberkrebs“ oder „Obst führt zu Gicht“ machen die Runde. Dass es sich bei den jeweiligen Erkenntnissen allein um statistische Korrelationen, nicht aber um den Nachweis kausaler Zusammenhänge handelt, wird fast immer ignoriert.

Man kann das gut mit Windrädern vergleichen: Es gibt eine Korrelation zwischen Wind und dem Drehen von Windrädern – immer wenn Wind weht, dreht sich das Windrad. Über die Kausalität, also die Art des Zusammenhangs, sagt diese Beobachtung nämlich erstmal wenig aus. Offensichtlich wäre es Unsinn, aufgrund dieser Beobachtung zu sagen: „Die Windräder verursachen den Wind.” Genauso ist es aber auch mit dem Kaffeebeispiel: Nur weil Menschen, die viel Kaffee trinken, seltener an Leberkrebs erkranken, heißt das nicht automatisch, dass dieser positive Effekt wirklich auf den Kaffee zurückzuführen ist.

Sind solche epidemiologischen Studien damit völlig überflüssig? Mitnichten! Schließlich sind sie der erste Schritt zur Ableitung von Hypothesen, die es gilt, weiter zu untersuchen.

Das menschliche Gehirn ist perfekt darin, Zusammenhänge zu erkennen, wo gar keine sind. Hier: Die statistische Korrelation zwischen dem Schokoladenkonsum in verschiedenen Ländern und der Anzahl der Nobelpreisträger im jeweiligen Land. Je mehr Schokolade gegessen wird, desto mehr Nobelpreisträger gibt es. Aber: Korrelation (statischer Zusammenhang) ist keine Kausalität (Ursache-Wirkungs-Zusammenhang). Quelle: Messerli FH (2012).

Eine einzelne Studie macht noch keinen Beweis.

Leitet man aus solchen Beobachtungen beispielsweise die Hypothese „Kaffeekonsum schützt vor Leberkrebs“ ab, würde man zur Überprüfung zunächst weitere epidemiologische Studien durchführen – mit anderen Personengruppen, Altersklassen, Ethnien usw. Häufen sich Hinweise auf ein Zutreffen der Hypothese, wird sie mit den verfügbaren experimentellen Methoden überprüft: in Zellversuchen (in vitro), in Tierversuchen (in vivo) und in prospektiven Beobachtungsstudien. Das heißt, bis zu einer Ernährungsempfehlung müssen ziemlich viele Prüfungen und Studienformen durchlaufen werden:

  • Plausibilität: Wäre ein kausaler Zusammenhang zwischen den Wirkungen von Kaffee-Inhaltsstoffen und einem reduzierten Leberkrebsrisiko plausibel, wenn man den aktuellen Stand des physiologischen und biochemischen Wissens einbezieht? 
  • Zellversuche und Organoide: Bestätigt sich die Hypothese in Zellversuchen, wenn man Kaffeeextrakte an menschlichen Zellen und an Organoiden (künstlichen Organmodellen) testet?
  • Tierexperimente: Welche Ergebnisse liefern Tierversuche mit verschiedenen Tierarten, Anwendungsdauern, Dosierungen und Messparametern? 
  • Prospektive Beobachtungsstudien: Bestätigt sich die Hypothese in humanen prospektiven Beobachtungsstudien? 
  • Interventionsstudien: Gibt es Hinweise aus kurzfristigen humanen Interventionsstudien, in denen zwar keine klinischen Endpunkte, aber andere relevante Parameter (z. B. Leberenzyme oder andere molekulare Biomarker) bestimmt werden? 
  • Vorhersagbare Dosis-Wirkungsbeziehungen: Zeigen sich sowohl im Tierversuch als auch in Humanstudien mathematisch vorhersagbare Dosis-Wirkungsbeziehungen? Das heißt: Je mehr von Lebensmittel X, desto stärker auch der biologische Effekt Y? Oder sind die Ergebnisse unabhängig von der Dosis (was sehr auf einen Zufallsbefund hindeuten würde)?
  • Quasi-Randomisierung: In welche Richtung weisen die quasi-randomisierten Mendelschen Analysen auf Basis genetischer Daten?

Metaanalysen: Der Schlüssel zur Ernährungsempfehlung.

Hat man all diese Experimente und Studien über Jahre (bzw. teilweise Jahrzehnte!) durchgeführt und die bereits verfügbare Literatur gesichtet, folgt eine systematische Auswertung, die sogenannte Metaanalyse. Dabei werden alle Erkenntnisse veröffentlichter Studien systematisch zusammengetragen, ausgewertet und miteinander verrechnet. Zeigen sich hierbei robuste und übereinstimmende Ergebnisse, ist dies ein sehr starkes Indiz für einen ursächlichen Zusammenhang. Damit liegt die Basis für Ernährungsempfehlungen vor – und zwar auch ohne die Bestätigung in randomisiert-kontrollierten Studien. Auf diese Weise kann man Beweiskraft (Evidenz) erzeugen, ohne eine randomisiert-kontrollierte Studie durchzuführen.

Übrigens gibt es ein Instrument, um die Qualität ernährungswissenschaftlicher Studien schnell prüfen zu können – und zwar mit dem sog. NutriGrade-System, das von Wissenschaftler*innen des Deutschen Instituts für Ernährungsforschung (DIfE) in Potsdam entwickelt wurde. Es dient der unkomplizierten Einschätzung von ernährungswissenschaftlichen Studien und berücksichtigt gleichzeitig die spezifischen Anforderungen der Ernährungsforschung.

Ernährungsempfehlungen aus der Gesamtschau der Daten

Ein gutes Beispiel dafür, wie es in der Medizin auch ohne randomisiert-kontrollierte Studien Beweise für kausale Effekte geben kann, ist der Zusammenhang von Tabakrauch und Lungenkrebs. Niemand hat Menschen zufällig in Raucher und Nichtraucher eingeteilt, über Jahrzehnte eingesperrt und gemessen, wie sich die Lungenkrebshäufigkeiten bei ansonsten völlig identischen Lebensbedingungen unterscheiden. Trotzdem liefern alle Daten zusammen ein schlüssiges Bild zum ursächlichen Einfluss von Tabakrauch auf die Entstehung von Lungenkrebs. Daran ändern auch einige wenige Kettenraucher, die bei bester Gesundheit sehr alt werden nichts – oder dass es umgekehrt Nichtraucher gibt, die an Lungenkrebs erkranken.

Oder, um den Rahmen noch größer zu machen: Würde Sie beim Sprung aus dem Flugzeug auf einen Fallschirm verzichten, weil die Wirksamkeit eines Fallschirms bisher noch nie in randomisiert-kontrollierten Studien bewiesen wurde?

Die Ernährungswissenschaft hat heute bessere Datengrundlagen und statistische Methoden als jemals zuvor. Epidemiologische Beobachtungsstudien sind ein wichtiger Teil davon – aber das Gesamtbild entsteht erst in der Gesamtschau aller Daten.

3 Kommentare

  1. Hat mir sehr gut gefallen! Es ist so wichtig, dass Ernährungsfachkräfte dieses Wissen verinnerlichen und in ihrem Patient*innen-Kontakt wertschätzend einbringen können. Das ist unsere Expertise, um uns von selbsternannten Expert*innen abheben zu können 🙂

    Herzlichen Dank!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert