Die Klimabilanz von KI-Chats
Matthias Koschnitzke

gorodenkoff/iStock
ChatGPT und andere textbasierte KI-Anwendungen antworten geduldig auf verschiedenste Fragen. Obwohl sie ähnliche Ergebnisse erzielen, sind einige der zugrundeliegenden KI-Modelle jedoch aufwendiger als andere. So zeigt eine neue Studie, dass sich deren Energieverbrauch und damit verbundene Emissionen im direkten Vergleich deutlich unterscheiden. Wie Forschende in der Fachzeitschrift „Frontiers in Communication“ berichten, ist dafür ausschlaggebend, wie groß ein Modell ist und ob es beim Antworten „mitdenkt“.
Die Basis für textbasierte KI-Anwendungen sind sogenannte Large Language Models, kurz LLMs. Sie lernen anhand riesiger Textdaten, das wahrscheinlichste nächste Wort auf eine Eingabe vorherzusagen. Dadurch kann man sich mit ihnen schriftlich unterhalten, fast wie in einem echten Gespräch. Die Modelle sind mathematisch aufwendig und erfordern viel Rechenleistung. Damit tragen sie zum zunehmenden Stromverbrauch und Kohlendioxid-, kurz CO2-Emissionen bei, die Künstliche Intelligenz verursacht. Wie hoch der Beitrag einzelner Modelle ist, war bisher jedoch nicht bekannt.
Deshalb haben Maximilian Dauner und Gudrun Socher von der Hochschule für angewandte Wissenschaften München frei zugängliche LLMs miteinander verglichen. Mit einem standardisierten Katalog aus 1000 Fragen testeten sie die Modelle und werteten aus, wie korrekt deren Antworten waren. Dabei erfassten sie auch den Stromverbrauch und berechneten anhand eines global gemittelten Faktors die CO2-Emissionen, die dadurch entstehen.
Selbstgespräche der KI brauchen mehr Energie
Wie sich zeigte, benötigten einige KI-Modelle deutlich mehr Strom als andere, um den gesamten Fragenkatalog zu beantworten: Dem entsprechen Emissionen zwischen 28 und etwa 2000 g Kohlendioxid. Zum Vergleich: Damit würde das energieintensivste Modell für 300 000 Antworten so viel CO2 erzeugen wie ein Flug von London nach New York.
Dass die Werte so weit auseinanderliegen, liegt daran, wie LLMs funktionieren: Sie werden anhand von Textdaten trainiert und leiten daraus sogenannte Parameter ab – in den getesteten Modellen waren das zwischen 7 und 70 Milliarden. Nutzt man ein Modell, zerlegt es Texte in kleine Spracheinheiten und berechnet mithilfe der Parameter, welche Wörter für die Antwort am besten zusammenpassen. Bei manchen LLMs findet vor der Antwort eine Schlussfolgerungsphase statt, das sogenannte „Reasoning“: Das Modell führt eine Art inneren Dialog, als ob es laut nachdenkt. Dieses Reasoning, mehr Parameter und längere Antworten sind Hauptfaktoren für höheren Energiebedarf und entsprechend mehr Emissionen.
Ausführliche Antworten nicht immer besser
Ein höherer Energiebedarf hat allerdings nicht unbedingt korrektere Antworten zur Folge. Zwar antwortete das energieintensivste Modell zu 80 % korrekt und damit mehr als doppelt so häufig wie das sparsamste Modell; die meisten richtigen Antworten gab jedoch ein Modell, das bei den Emissionen mit 1340 g CO2 im Mittelfeld lag. Selbst bei relativ akkuraten, schlussfolgernden Modellen haben sich die Emissionen um den Faktor 50 unterschieden. Auch die ausführlicheren Antworten einiger Modelle erwiesen sich nicht unbedingt als korrekter. Sprachmodelle sollten also buchstäblich lernen, sich kurz zu fassen, so Dauner und Socher. Bislang fällt das besonders Modellen mit einer Schlussfolgerungsphase schwer.
Für noch größere Sprachmodelle mit hunderten Milliarden Parametern wie ChatGPT lassen sich aus den Ergebnissen jedoch keine Schlüsse ziehen, da diese nicht frei zugänglich sind. Eine detaillierte Abschätzung der Emissionen dieser Modelle müsste zudem berücksichtigen, wo und wie die jeweiligen Server der KI-Anwendungen betrieben werden.
Quelle: https://www.weltderphysik.de/gebiet/technik/nachrichten/2025/kuenstliche-intelligenz-die-klimabilanz-von-ki-chats/