Green AI oder „sparsame KI“ als neue Zielgröße?

Sparsam erfolgreich mit Green AI: Effiziente Rechenzentren machen KI effektiv? - Die Frage nach den Umweltauswirkungen von KI ist komplexer, als es zunächst scheint. — Effiziente Rechenzentren machen KI effektiv? – Die Frage nach den Umweltauswirkungen von KI ist komplexer, als es zunächst scheint.

Von der Kraftprotzerei zur Effizienzrevolution? Eine Entwicklung, die an historische Technologiesprünge erinnert – und die KI demokratisieren könnte.

Neben dem nun folgenden Blick mit der grünen Brille auf KI, ergibt sich die Frage nach der Auswirkung von KI auf Wissensarbeit. Dies thematisiere ich in „KI verändert die Kostenstruktur der Wissensarbeit“ in einem separaten Artikel.

Vermutlich lag es an den scheinbar unbegrenzten Rechenkapazitäten der Cloud-Giganten, dass sich Anfang der 2010er-Jahre kein Mensch über Energieverbräuche von 150 Wattstunden pro KI-Anfrage aufregte. Eine Kilowattstunde Rechenzentrum-Strom kostete gerade mal 3 bis 4 Cent, als AlexNet 2012 die erste Bilderkennungs-Revolution startete und Deep Learning zum neuen Goldstandard der Informatik machte. Rund zwölf Jahre später, im Herbst 2024, liegt der Verbrauch bei modernen Modellen unter 5 Wattstunden – bei zehnfach besserer Leistung. Was dazwischen geschah, ist mehr als nur eine technische Erfolgsgeschichte. Es ist ein Lehrstück darüber, wie Innovation unter Druck entsteht, wie Skalierungswahn an seine Grenzen stößt, und wie letztlich die Notwendigkeit zur Effizienz eine ganze Technologie demokratisiert.

Bei dieser Recherche bin ich auf einen historisch spannenden Artikel gestoßen, der mich sehr an die aktuelle Diskussion zu ressourcenschonender KI, Green AI, erinnerte. Im Jahr 2022 gab es eine ähnliche Diskussion zur Ressourcennutzung bei Kryptowährungen. Herr Prof. Buhl, bei dem ich vor vielen Jahren FIM studierte, äußerte sich 2022 im Deutschlandfunk zu der Frage „Droht der Stromkollaps durchs Internet?“. Besonders spannend empfinde ich die Tatsache, dass in dem gerade einmal drei Jahre alten Artikel, KI weniger zentral besprochen wurde. Im Jahr 2025 sieht das anders aus: „Kryptowährungen und KI“, nennt das Bundesministerium für Wirtschaft und Energie im Juli 2025 in einem Satz und fordert, „sollen auch deshalb zukünftig deutlich energieeffizienter gestaltet werden.“ ¹ Diesem Thema möchte ich mich nach meinem Beitrag bei BigData-Insider „Effizienzsteigerung durch KI“ (2024) und ersten Überlegungen im September 2025 „KI-Evolution durch Spezialisierung“ zudem, motiviert von dem Artikel „Boring is good“ ² erneut widmen.

Die verschwenderischen Anfangsjahre: Als niemand hinschaute

Die frühen Jahre des Deep Learning waren geprägt von einer bemerkenswerten Sorglosigkeit. AlexNet, das 2012 den ImageNet-Wettbewerb gewann und damit eine neue Ära einläutete, benötigte etwa 240 GPU-Stunden zum Trainieren – nach heutigen Maßstäben lächerlich wenig, damals aber bereits ein beachtlicher Aufwand. Das Netzwerk arbeitete mit vollständiger 32-Bit-Gleitkomma-Präzision, jedes der 60 Millionen Parameter war mit jedem anderen über dichte Verbindungsschichten verknüpft. Es war, als würde man einen Motor konstruieren, bei dem jeder Zylinder mit jedem anderen kommunizieren muss – ineffizient, aber funktional.

Hinweis: Die provokante Aussage der verschwenderischen Anfangsjahre gilt nicht für die frühen Ansätze zur Optimierung der Forschung, sondern für den Einsatz von großen Sprachmodellen in der Wirtschaft, wie A review of state-of-the-art techniques for large language model compression aufzeigt.

Doch niemand scherte sich um Effizienz oder noch wichtiger Effektivität. Die Devise lautete: Bigger is better. Mehr Layer, mehr Parameter, mehr Daten, mehr Rechenleistung. Das Paradigma funktionierte verblüffend gut. VGG-16 (2014) brachte es auf 138 Millionen Parameter, ResNet-152 (2015) auf über 60 Millionen, und jedes neue Modell übertrumpfte das vorherige. Die Kosten? Nebensache? Google, Facebook, Amazon und Microsoft verfügten über scheinbar grenzenlose Ressourcen und Nvidia produziert 30 kg schwere Superchips ³. Ein einzelnes Forscherteam konnte wochenlang ein halbes Rechenzentrum für sich beanspruchen, ohne dass jemand nach dem Stromverbrauch fragte.

Effiziente Rechenzentren machen KI effektiv?

Viele Jahre war die Rechnung einfach: Die Geschäftsmodelle der Tech-Konzerne generierten so viel Geld, dass die Stromkosten für KI-Forschung statistisches Rauschen waren. Man investierte in größere Rechenzentren, in spezialisierte Hardware, in mehr Kühlsysteme – aber kaum in Effizienz. Warum auch? Moore’s Law würde es schon richten, dachte man. Jede neue Chipgeneration bot mehr Rechenleistung bei gleichem Energieverbrauch. Das Problem würde sich von selbst lösen. Hierzu muss man erwähnen, dass Anbieter wie Hetzner hervorragende Arbeit im Hinblick auf Energieeffizienz geleistet haben und eine Power Usage Effectiveness (PUE) von 1,13 im Betrieb erreichen ⁴. Dies ist Weltspitze und effizienter als die meisten Anlagen von Microsoft ⁵. Ob Eigenentwicklung wie bei Hetzner ⁶ oder geteiltes Wissen wie im Open Compute Project⁷, der Fokus auf Effizienz nimmt zu und ist durch das Energieeffizienzgesetz (EnEfg) sogar rechtlich verankert. Auch wenn manches Konzept, wie Server als U-Boot im Meer zu versenken, (zumindest von Microsoft) nicht weiter verfolgt wird (Projekt Natick ⁸) oder auch die heiße Phase der Berichterstattung in den Jahren 2018 bis 2020 über Tauch- bzw. Immersionskühlung abkühlte ⁹, wuchs das Bestreben nach mehr Rechenleistung aus Energie zu schöpfen. Andere Projekte wie die Verlegung von Rechenlast nach Wind und Sonne ¹⁰ sind pragmatisch, aber spannend.

Nach Angaben des Bundesministeriums für Wirtschaft und Energie umfasst die Gesamtleistung aller Rechenzentren im Jahr 2024 ca. 2.730 MW.¹¹ Das entspricht etwa der installierten Photovoltaikleistung des Bundeslandes Thüringen.¹² Ab Juli 2026 dürfen nach dem EnEfG nur noch Rechenzentren mit einer Power Usage Effectiveness von 1,2 in Betrieb genommen werden. ¹³

Jedoch ist die Kennzahl PUE, die auch von dem EnEfG verwendet wird, fundamental irreführend benannt, weil es ausschließlich die Effizienz der Infrastruktur misst – also wie viel Energie für Kühlung, Beleuchtung und andere Overhead-Systeme nötig ist – aber überhaupt nichts darüber aussagt, ob die eigentliche Rechenressource effektiv genutzt wird. Ein Rechenzentrum mit PUE 1,2 könnte voller Server stehen, die zu 95% im Leerlauf sind, überdimensionierte KI-Modelle für triviale Aufgaben verwenden oder sinnlose Berechnungen durchführen – und der PUE-Wert wäre trotzdem »exzellent«. Die Metrik beantwortet nur „Wie viel Energie verschwenden wir zwischen Steckdose und Rechenleistung?“, nicht aber „Wird die Rechenleistung sinnvoll eingesetzt?“. Es ist wie wenn man die Spritverbrauch-Effizienz eines Autos misst, aber ignoriert, ob der Fahrer ziellos im Kreis fährt oder sinnvolle Strecken zurücklegt.

Der Name „Power Usage Effectiveness“ suggeriert, dass es um die Wirksamkeit des Energieeinsatzes geht – also ob die investierte Energie tatsächlich etwas Nützliches bewirkt. In Wahrheit misst PUE aber nur die technische Effizienz der Energieverteilung. Echte Effektivität würde bedeuten: „Erreichen wir unsere Rechenziele mit minimalem Energieaufwand?“ Das würde Metriken wie nützliche Operationen pro Watt oder noch besser: „nützliche Server-Arbeit pro Energieeinheit“ erfordern. Ein präziserer Name wäre „Power Distribution Efficiency“ oder „Infrastructure Overhead Ratio“ – denn PUE sagt letztlich nur, wie gut man Strom vom Eingang bis zur IT-Hardware transportiert, nicht ob diese Hardware dann auch etwas Sinnvolles damit anstellt. Es ist eine notwendige, aber bei weitem nicht hinreichende Metrik für echte Energieeffizienz im Rechenzentrum.

Das Transformer-Dilemma: Wenn Fortschritt zum Fluch wird

Dann kam 2017 der Durchbruch, der die KI-Welt revolutionieren sollte – und zugleich das Effizienzproblem auf die Spitze trieb. „Attention is All You Need“ lautete der Titel des Papers, das die Transformer-Architektur vorstellte. Endlich konnte man längere Kontexte verarbeiten, Zusammenhänge über größere Distanzen erkennen, komplexere Sprachmodelle trainieren. BERT, GPT, T5 – eine Familie immer leistungsfähigerer Modelle entstand.

Aber die Transformer-Architektur hatte einen fatalen Haken: Ihre Komplexität wuchs quadratisch mit der Länge der Eingabe. Ein Text mit doppelter Länge benötigte nicht doppelt, sondern viermal so viel Rechenleistung. Und die Modelle wurden nicht nur länger in ihrem Kontext, sondern vor allem: größer. GPT-2 (2019) brachte es auf 1,5 Milliarden Parameter, GPT-3 (2020) auf 175 Milliarden. Das Training von GPT-3 verschlang schätzungsweise 1.287 Megawattstunden Strom – genug, um 120 amerikanische Haushalte ein ganzes Jahr lang zu versorgen.

Plötzlich sprach niemand mehr von „einfach noch ein paar Parameter hinzufügen“, um die KI besser zu machen. Die Kosten können schnell explodieren. Ein einzelner Trainingslauf von GPT-3 kostete geschätzte 4,6 Millionen Dollar¹⁴. Aber mehr noch: Die Umweltbilanz wurde zum Problem. Jedes große Modell pustete hunderte Tonnen CO₂ in die Atmosphäre. Forscher an Universitäten konnten sich solche Experimente nicht mehr leisten. Die KI-Forschung drohte zu einem exklusiven Club der Tech-Giganten zu werden.

Von 2018 bis 2022 herrschte, was man rückblickend als „Stagnationsphase“ bezeichnen könnte. Ja, die Modelle wurden besser – aber nur, weil sie größer wurden. Der Energieverbrauch pro Leistungseinheit stagnierte oder stieg sogar. Es war, als hätte die gesamte Industrie vergessen, dass es auch einen anderen Weg geben könnte, aber der Fokus lag komplett auf Skalierung, nicht auf Effizienz.

Die ersten Gegenbewegungen: Als die Rebellen aufstanden

Doch nicht alle machten mit beim Größenwahn. Vereinzelte Forschergruppen, oft an weniger finanzstarken Institutionen, begannen bereits früh, nach Alternativen zu suchen. Pruning – das Entfernen unwichtiger Verbindungen aus trainierten Netzwerken – war einer der ersten Ansätze. Die Idee: Ein Netz mit 100 Millionen Parametern enthält meist massive Redundanz. Viele Verbindungen tragen kaum zur Leistung bei. Warum sie nicht einfach weglassen?

Schon 2015 zeigten Han et al., dass man neuronale Netze auf 10-20% ihrer ursprünglichen Größe reduzieren kann, ohne nennenswerte Leistungseinbußen. Die Ersparnis: 30-50% weniger Speicher und Rechenzeit. Aber der Ansatz hatte einen Haken: Man musste erst das große Modell trainieren, um dann zu entscheiden, was man weglassen konnte. Es war eine nachgelagerte Optimierung, keine fundamentale Lösung.

Parallel dazu entwickelte sich Knowledge Distillation: Kleine Modelle sollten von großen „Lehrern“ lernen. DistilBERT (2019) erreichte 97% der BERT-Leistung bei nur 40% der Größe. TinyBERT ging noch weiter. Aber auch hier: Die großen Modelle mussten erst existieren, bevor man die kleinen trainieren konnte. Die Grundfrage blieb unbeantwortet: Warum eigentlich immer größer?

Den ersten echten Paradigmenwechsel brachte die Quantisierung. Die Idee war so simpel wie radikal: Warum 32 Bit pro Parameter verwenden, wenn 8 Bit – oder sogar weniger – ausreichen? Im Jahr 2018 zeigten mehrere Forschungsgruppen, dass INT8-Quantisierung kaum Qualitätsverluste verursacht, aber den Speicherbedarf auf ein Viertel reduziert. Plötzlich passten Modelle in GPUs, die vorher verteilt werden mussten. Die Inferenz wurde 2-4x schneller.

Ab 2022 beschleunigte sich die Entwicklung dramatisch. Die Erkenntnis setzte sich durch, dass man nicht nur an Symptomen herumdoktern, sondern die Grundarchitekturen überdenken musste. Mehrere parallele Entwicklungslinien entstanden, jede mit eigenem Ansatz, jede mit beeindruckenden Resultaten.

Was wäre, wenn man nicht alle Parameter für jede Berechnung aktivieren müsste? Diese Frage führte zu Mixture of Experts (MoE) Architekturen. Die Idee: Ein Modell besteht aus vielen spezialisierten Subnetzen – den „Experten“. Für jede Anfrage wird nur ein kleiner Teil davon aktiviert, ein Router entscheidet dynamisch, welche Experten gebraucht werden.

Switch Transformer (2021) war der Durchbruch: 1,6 Billionen Parameter, aber nur 10-20% davon aktiv pro Anfrage. Das Ergebnis: Ein Modell so groß wie GPT-3, aber 85% weniger Rechenaufwand bei der Nutzung. Mistral AI perfektionierte den Ansatz mit Mixtral 8x7B: Acht Experten-Modelle mit je 7 Milliarden Parametern, aber nur zwei aktiv pro Token. Die Leistung eines 47-Milliarden-Parameter-Modells bei dem Verbrauch eines 14-Milliarden-Modells.

Der Präzisions-Ansatz: KI mit weniger Freiraum

Parallel dazu radikalisierte sich die Quantisierung. 8 Bit waren gestern, 4 Bit wurden getestet, und dann kam BitNet¹⁵: 1-Bit-Gewichte. Jeder Parameter nur noch -1, 0 oder +1. Unmöglich, hieß es zunächst. Zu wenig Information, zu große Informationsverluste. Doch Microsoft Research bewies 2024 das Gegenteil¹⁶: BitNet-Modelle erreichten vergleichbare Leistung zu konventionellen Netzen – bei 71% weniger Speicherbedarf und geschätzten 90% weniger Energieverbrauch. Diese neuen Architekturen exisitieren und sind nicht nur Wunsch.¹⁷

Die Implikationen waren spürbar. Ein 7-Milliarden-Parameter-Modell, das vorher 14 GB Speicher brauchte, passte plötzlich in 875 MB. Was früher nur im Rechenzentrum lief, konnte jetzt auf einem Smartphone arbeiten. Ein fundamentaler Wechsel, der den Zusammenhang zwischen Modellgröße und Ressourcenbedarf auf den Kopf stellt. Doch auch das Modell BitNet b1.58 hat Grenzen ¹⁸.

Das quadratische Wachstum der Transformer-Attention blieb das Kernproblem. Doch 2023 begann sich auch hier die Front aufzulösen. Flash Attention zeigte, dass man durch geschicktes Memory-Management die gleichen Berechnungen 3-5x schneller durchführen kann. Grouped Query Attention reduzierte die Anzahl der Attention-Köpfe ohne Qualitätsverlust – weitere 30% Zeitersparnis.

Aber die radikalste Frage lautete: Braucht man Transformer überhaupt? Mamba (2023) und RWKV experimentierten mit State Space Models und rekurrenten Architekturen, die linear statt quadratisch skalieren. Die Ergebnisse waren gemischt – bei kurzen Sequenzen oft schlechter, bei sehr langen Kontexten (100.000+ Tokens) deutlich überlegen. Die Debatte ist noch nicht entschieden, aber klar ist: Alternativen existieren.

Autophagie: Wenn KI an ihren eigenen Outputs erstickt

Während die KI-Welt über effizientere Architekturen und Quantisierung debattiert, wächst im Hintergrund ein Problem heran, das fundamentaler sein könnte als alle technischen Optimierungen: die Qualität der Trainingsdaten selbst. Die Forschungsgruppe um Richard Baraniuk an der Rice University hat diesem Phänomen einen passenden Namen gegeben: Model Autophagy Disorder (MAD) – in Anlehnung an BSE, die Rinderseuche, die entstand, weil Kühe mit den Überresten ihrer Artgenossen gefüttert wurden. In der KI-Welt bedeutet das: Modelle werden zunehmend mit Daten trainiert, die von anderen KI-Modellen generiert wurden – mit verheerenden Folgen.

Die Studie zeigt: Ohne ausreichend frische, echte Daten in jeder Trainingsgeneration sind künftige generative Modelle dazu verdammt, in Qualität oder Vielfalt progressiv abzunehmen. Nach nur wenigen Generationen können Modelle irreparabel korrumpiert werden. Was bei der ersten Generation noch lesbare Ziffern produziert, wird bis zur 20. Generation zu unleserlichem Gekritzel. Das Fatale: Wenn eine neue KI-Generation auf diesen „statistisch vereinfachten“ Daten trainiert wird, wird die nächste Generation noch einfacher – und so weiter, bis nur noch Nonsens übrig bleibt.

Das Forschungsinstitut Epoch AI schätzt, dass große Sprachmodelle zwischen 2026 und 2032 die verfügbaren, von Menschen generierten öffentlichen Daten aufgebraucht haben werden. Das Internet – diese scheinbar unerschöpfliche Quelle von Trainingsmaterial – hat ein Ablaufdatum. Und je mehr KI-generierte Inhalte sich dort ansammeln, desto schwieriger wird es, echte menschliche Daten zu identifizieren und zu kuratieren. Mehr als 35% der weltweit führenden 1.000 Websites blockieren inzwischen OpenAIs Web-Scraper, und rund 25% der Daten aus qualitativ hochwertigen Quellen wurden aus den großen Trainingsdatensätzen ausgeschlossen.

Die Antwort der Industrie auf dieses Dilemma ist paradox: Noch mehr synthetische Daten. Gartner prognostiziert, dass bis 2024 bereits 60% aller Daten, die in KI-Projekten verwendet werden, synthetisch generiert sein werden. Das klingt nach einer eleganten Lösung – schließlich kann man künstlich genau die Daten erzeugen, die man braucht, in beliebiger Menge, ohne Datenschutzprobleme oder Copyright-Fragen. Doch hier liegt der Teufel im Detail.

Qualität durch Kuration der Daten, nicht durch Quantität

Die Lösung liegt nicht in mehr Daten, sondern in besseren Daten ¹⁹. Ein Modell mit nur 3,8 Milliarden Parametern erreichte 2024 Leistungswerte, die zuvor nur mit 540 Milliarden Parametern möglich waren – nicht durch mehr Training, sondern durch bessere Datenselektion. Dieser Paradigmenwechsel von Quantität zu Qualität vollzieht sich gerade an mehreren Fronten:

Automatisierte Datenkuration macht manuelle Prozesse überflüssig. Forscher von Meta, INRIA und Google haben eine Technik entwickelt, die große Datensätze automatisch kuratiert und dabei gleichzeitig Diversität und Balance sicherstellt. Die Methode nutzt hierarchisches k-means-Clustering, um Daten gleichmäßig über verschiedene Konzepte zu verteilen – ähnlich wie ein erfahrener Bibliothekar, der dafür sorgt, dass die Sammlung ausgewogen ist. Die Ergebnisse zeigen, dass auf automatisch kuratierten Datensätzen trainierte Modelle jene übertreffen, die auf unkuratierten Daten trainiert wurden – und mit manuell kuratierten Daten gleichauf oder besser sind.

Curriculum Learning – die Idee, Modelle mit zunehmend schwierigeren Beispielen zu trainieren – hat sich als überraschend effektiv erwiesen. Ähnlich wie Menschen und Tiere von einfachen zu komplexen Aufgaben fortschreiten, lernen KI-Modelle schneller und erreichen bessere Ergebnisse, wenn sie nicht von Anfang an mit den schwierigsten Fällen konfrontiert werden. Ein Modell, das erst lernt, gerade Straßen zu befahren, bevor es sich mit dichtem Stadtverkehr auseinandersetzen muss, konvergiert schneller und stabiler. Microsoft nutzt beispielsweise „Agentic Flows“ mit seinem Orca-AgentInstruct-System, um maßgeschneiderte Datensätze aus Rohdaten zu generieren, die Modelle gezielt zu bestimmten Fähigkeiten führen.

Synthetische Daten mit Sicherheitsnetz können funktionieren – aber nur unter strikten Bedingungen. Forscher betonen: Synthetische Daten müssen gründlich überprüft, kuratiert und gefiltert werden, idealerweise kombiniert mit frischen, echten Daten. Die KI-Autophagie-Studie²⁰ (PDF) zeigt: Mit ausreichend frischen Echtdaten in jeder Generation lässt sich der KI-Autophagie-Effekt verzögern oder sogar verhindern. Es geht also nicht um „entweder-oder“, sondern um das richtige Mischungsverhältnis und ständige Validierung gegen Ground Truth.

Spezialisierte Kuratoren-Modelle entstehen als neue Kategorie von KI-Systemen. Unternehmen wie Collinear AI entwickeln kleine, spezialisierte „Kurator“-Modelle mit 450 Millionen bis 3 Milliarden Parametern, die gezielt die Qualität von Trainingsdaten bewerten. Diese Modelle prüfen nicht nur auf Korrektheit, sondern auch auf Reasoning-Qualität, Kohärenz und Instruktionstreue. Anders als heuristische Filter verstehen sie semantische Qualitätsdimensionen und treffen intelligente Auswahlentscheidungen. Das Ergebnis: drastisch reduzierte Trainingskosten bei gleichbleibender oder besserer Modellleistung.

Diese Ansätze haben gemeinsam, dass sie Effizienz nicht primär durch kleinere Modelle oder weniger Bits erreichen, sondern durch klügere Datennutzung. Ein Modell, das auf sorgfältig kuratierten 100 Milliarden Tokens trainiert wird, kann ein Modell übertreffen, das auf schlecht kuratierten 1.000 Milliarden Tokens trainiert wurde – bei einem Zehntel der Rechenkosten. Die DataComp for Language Models (DCLM) Initiative hat gezeigt, dass Datenkuration oft wichtiger ist als Modellgröße: Ein 7-Milliarden-Parameter-Modell auf optimal kuratierten Daten erreichte 64 % Genauigkeit auf MMLU-Benchmarks – vergleichbar mit wesentlich größeren Modellen auf schlechteren Daten. ²¹

Die Ironie der aktuellen Situation ist offensichtlich: Während die Tech-Giganten Milliarden in größere Rechenzentren und exotische Quantisierungstechniken investieren, könnte der größte Hebel zur Effizienzsteigerung in etwas liegen, das viel profaner klingt – in der Qualität dessen, womit wir unsere Modelle füttern. Wie es Hubert Dreyfus bereits vor 50 Jahren formulierte: „Unser Risiko ist nicht das Aufkommen superintelligenter Computer, sondern subintelligenter Menschen“. Übertragen auf die KI-Ära könnte man sagen: Unser Risiko ist nicht das Aufkommen superintelligenter Modelle, sondern subintelligente Trainingsdaten – und Modelle, die an ihrer eigenen mediokren Output ersticken.

Input-Reduktion: Weniger reinschicken statt mehr verarbeiten

Während die einen daran arbeiten, Architekturen effizienter zu machen oder Daten kuratieren, verfolgt eine andere Fraktion einen noch pragmatischeren Ansatz: Schick dem Modell einfach weniger Daten. Was trivial klingt, entpuppt sich als hochwirksamer Hebel – und eine der am meisten unterschätzten Effizienzstrategien der letzten Jahre. Token-Oriented Object Notation (TOON) ²² und Prompt-Kompression à la LLMLingua zeigen, dass man nicht am Modell schrauben muss, wenn man stattdessen die Art und Weise ändert, wie man mit ihm kommuniziert.

TOON adressiert ein Problem, das sich in scheinbar jedem LLM-Projekt versteckt: JSON ist für Menschen und Maschinen gleichermaßen lesbar, aber token-ineffizient bis zur Verschwendung. Jede geschweifte Klammer, jedes Anführungszeichen, jeder Doppelpunkt kostet Tokens. Bei tabellarischen Daten – dem Sweet Spot von LLM-Anwendungen – wiederholt JSON dieselben Schlüssel hundert- oder tausendmal. TOON macht Schluss damit: Es deklariert Feldnamen einmal im Header, streamt dann nur noch die Werte. Das Ergebnis sind 30-60% weniger Tokens bei gleicher Information – und interessanterweise sogar bessere Genauigkeit (73,9% vs. 69,7% bei JSON in Benchmarks), vermutlich weil weniger syntaktisches Rauschen die eigentliche Information verwässert.

Parallel dazu geht LLMLingua ²³ von Microsoft Research noch radikaler vor: Es komprimiert Prompts nicht durch geschicktes Formatieren, sondern durch intelligentes Weglassen. Ein kleines Sprachmodell (etwa GPT2-small oder LLaMA-7B) identifiziert unwichtige Tokens und entfernt sie – der komprimierte Prompt ist für Menschen schwer lesbar, für LLMs aber hocheffektiv. Die Zahlen sind beeindruckend: bis zu 20-fache Kompression bei nur 1,5 Prozentpunkten Leistungsverlust. LongLLMLingua, die Weiterentwicklung für lange Kontexte, verbessert sogar die Performance in RAG-Systemen um 21,4% bei nur einem Viertel der Tokens. Das liegt daran, dass Prompt-Kompression das berüchtigte „Lost in the Middle“-Problem entschärft – wenn der relevante Kontext zu lang wird, übersehen Modelle wichtige Informationen in der Mitte. Komprimierte Prompts konzentrieren sich aufs Wesentliche.

Die Kombination beider Ansätze – strukturelle Effizienz durch TOON plus semantische Kompression durch LLMLingua – könnte Input-Kosten um 70-80% senken, ohne dass man am Modell selbst etwas ändern muss. Für RAG-Systeme, die Dokumente aus Datenbanken abrufen und an LLMs senden, ist das revolutionär: Statt 100 Dokumente mit je 1.000 Tokens (100k Tokens gesamt) zu schicken, formatiert man sie erst in TOON (60k Tokens) und komprimiert dann mit LLMLingua (15-20k Tokens). Eine fünffache Reduktion, die sich direkt in Kosten und Latenz niederschlägt.

Die Kombination macht’s: Der Stand 2025

Das Bemerkenswerte der aktuellen Entwicklung ist, dass nicht eine Technologie dominiert, sondern die intelligente Kombination mehrerer Ansätze. Llama 3.1 von Meta kombiniert Grouped Query Attention mit aggressiver Quantisierung und optimiertem Training. Mistral setzt auf MoE plus Flash Attention. Gemini von Google nutzt multimodale Architekturen mit variablen Präzisionsstufen.

Das Ergebnis ist verblüffend: Llama 3.1 mit 8 Milliarden Parametern erreicht auf vielen Benchmarks die Leistung von GPT-3 mit 175 Milliarden Parametern – bei einem 22-fachen Größenvorteil. Der Energieverbrauch pro Anfrage liegt schätzungsweise bei 3-5 Wattstunden, verglichen mit geschätzten 80-100 Wh bei GPT-3.

Aber wie genau weiß man das eigentlich? Hier beginnt das Problem. Wir wissen nicht, ob es wirklich 3 Wh sind oder vielleicht 0,3 Wh. Die Unternehmen veröffentlichen keine genauen Zahlen. Wir diskutieren über Größenordnungen, nicht über präzise Werte.

Analysten von Epoch AI haben neuere Schätzungen vorgelegt, die von nur 0,3 Wh pro Anfrage bei modernen Modellen ausgehen – zehnmal weniger als die gängigen Annahmen. Wenn das stimmt, wäre der Fortschritt noch dramatischer. Ein einzelne ChatGPT-Anfrage würde weniger Energie verbrauchen als fünf Minuten Laptop-Betrieb oder eine Minute mit einer 60-Watt-Glühbirne.

Die Demokratisierung: Vom Rechenzentrum aufs Handy

Die Effizienzgewinne haben eine Folge, die über reine Umweltbilanzen hinausgeht: Sie demokratisieren KI. Was 2020 noch exklusive Domäne von Google, OpenAI und Microsoft war, läuft heute auf Consumer-Hardware. Llama 3.1 8B funktioniert auf einem modernen Laptop. Mistral 7B läuft auf einem iPhone 15 Pro. Whisper, das Spracherkennungsmodell von OpenAI, arbeitet in Echtzeit auf Edge-Geräten.

Diese Entwicklung ist revolutionär. Plötzlich brauchen Entwickler keinen Cloud-Zugang mehr, um mit State-of-the-Art-KI zu experimentieren. Forscher an Universitäten können wieder mitspielen. Start-ups müssen keine Millionen für API-Calls bezahlen. Die Innovationsgeschwindigkeit explodiert, weil Tausende statt Dutzende an der Technologie arbeiten können.

2020 hätte ich Ihnen gesagt, dass fortgeschrittene KI ein Oligopol der Tech-Giganten bleiben wird. Im Jahr 2024 sage ich: Open Source gewinnt, weil die Effizienzgewinne die Hardwarebarriere zertrümmert haben. Das ist eine fundamentale Machtverschiebung.

Aber es gibt auch eine Kehrseite. Google schließt Verträge über Mini-Atomkraftwerke ab ²⁴, um seine Rechenzentren zu versorgen. Microsoft reaktiviert den Atomreaktor von Three Mile Island. OpenAI plant angeblich ein Rechenzentrum mit 5 Gigawatt Leistung – so viel wie fünf große Kraftwerke. xAI von Elon Musk betreibt 100.000 spezialisierte KI-Chips gleichzeitig, mit einem Energiebedarf von 70 Megawatt allein für die Berechnungen.

Das Jevons-Paradox: Wenn Effizienz zum Bumerang wird

Hier zeigt sich das klassische Jevons-Paradox: Wird eine Ressource effizienter nutzbar, steigt oft ihr Gesamtverbrauch, weil sie häufiger eingesetzt wird. Effizientere Dampfmaschinen im 19. Jahrhundert führten nicht zu weniger, sondern zu mehr Kohlekonsum. Sparsamere Autos führen zu mehr Fahrkilometern. Und effizientere KI-Modelle führen zu… mehr KI-Nutzung.

Die McKinsey-Studie vom November 2024 prognostiziert, dass sich der Stromverbrauch europäischer Rechenzentren bis 2030 verdreifachen wird – trotz aller Effizienzgewinne (Tagesschau.de ²⁵). Von derzeit 50 Terawattstunden im Jahr 2024 auf über 150 Terawattstunden. Das entspricht fünf Prozent des gesamten europäischen Stromverbrauchs. Der Grund: KI wird in immer mehr Anwendungen eingesetzt. Jedes Smartphone, jeder Laptop, jede Smartwatch, jedes Auto bekommt KI-Features. Die Bildgenerierung explodiert, Videomodelle entstehen, Multimodalität wird Standard.

Wir sparen 90% Energie pro Anfrage und steigern die Anzahl der Anfragen um Faktor 1000. Netto steigt der Verbrauch. Das ist das Dilemma der Effizienzrevolution: Sie löst nicht das Problem, sie verschiebt es nur.

Hinzu kommt das Transparenzproblem. Während bei PKW der Realverbrauch inzwischen halbwegs transparent kommuniziert wird, herrscht bei KI-Modellen völlige Intransparenz. OpenAI, Google, Anthropic – keiner veröffentlicht genaue Zahlen. Forscher sind auf Schätzungen angewiesen, die um Größenordnungen variieren. Das ist ein massives Problem für jede Debatte. Wie sollen wir über Klimaauswirkungen diskutieren, wenn wir die Basisdaten nicht haben?

Der CO₂-Fußabdruck: Wer trägt die Verantwortung?

Die Frage nach den Umweltauswirkungen von KI ist komplexer, als es zunächst scheint. Hannah Ritchie hat vorgerechnet, dass ein durchschnittlicher Nutzer, der täglich 10 ChatGPT-Anfragen stellt, seinen jährlichen CO₂-Fußabdruck um etwa 11 Kilogramm erhöht – bei angenommenen 3 Gramm CO₂ pro Anfrage. Eine ausführliche Abwägung zur Höhe des Fußabdrucks nimmt Hanna Ritchie auf Basis der Analysen von Andy Masley vor. ²⁶

Das ist 0,16% des britischen Durchschnitts, 0,07% des amerikanischen. Weniger als ein Burger pro Monat, weniger als eine einzige Autofahrt zum Supermarkt. Zum Vergleich: Marianne Wolff, Umweltexpertin des VerbraucherService Bayern, gibt im Jahr 2019 an, dass eine E-Mail zehn Gramm CO₂ verbraucht. ²⁷ An dieser Stelle möchte ich erwähnen, dass diverse Berechnungen zum CO₂-Fußabdruck existieren ²⁸. Ich nenne diese Zahlen als Richtwert, nicht als richtigen Wert. Die granulare Berechnung könnten nur die Konzerne bestätigen, die diese KI-Leistungen erstellen. Diese berichten ihren Fußabdruck jedoch meist zu grob, als dass man diesen auf einzelne Interaktionen mit der Software herunterrechnen könnte.

Eine vergleichbare Schwankungsbreite zeigt sich auch beim Streaming, bei dem der Fußabdruck zwischen 55 Gramm und 175 Gramm angegeben wird, je nachdem, ob man nur das reine Streaming berücksichtigt oder auch die Produktionskosten. ²⁹ Zum Vergleich: Ein Passagier verursacht bei einem Kilometer per Flug oder Auto grob etwa 200 Gramm CO₂. ³⁰

Verbraucher am Ende der Produktionskette haben einen viel geringeren Handlungsspielraum, abgesehen vom Konsumverzicht. Das Hilfe-Center von Netflix zeigt dies sehr eindrücklich und rät Streamenden zum Dimmen von Lampen, kleineren Bildschirmen oder zur Verwendung von recycelten Geräten.³¹ Dies entbehrt nicht der Verantwortlichkeit, zeigt jedoch den Handlungsspielraum am Ende der Kette digitaler Dienstleistungen.³²

Aber diese Individualbetrachtung greift zu kurz. Die Klimadebatte zeigt: Die reichsten 10% der Weltbevölkerung verursachen fast 50% der globalen Emissionen. Das reichste 1% allein 16,9 % – so viel wie die ärmsten 50% (3,8 Milliarden Menschen) zusammen. Und diese Superreichen investieren ihr Kapital weiterhin vor allem in fossile Industrien.

Übertragen auf KI bedeutet das: Es geht nicht darum, ob Sie oder ich zehn Anfragen am Tag stellen. Es geht darum, dass Meta 350.000 H100-GPUs kauft, jede mit 700 Watt Leistung. Es geht darum, dass OpenAI Rechenzentren plant, deren Energiebedarf dem eines Kleinstaats entspricht. Es geht um strukturelle Fragen, nicht um individuelles Verhalten.

„Die Lösung der Klimakrise ist eng verknüpft mit einer ökonomischen Machtfrage“³³, heißt es in einer Deutschlandfunk-Analyse vom November 2025. Das gilt auch für KI. Solange die großen Konzerne weiter skalieren, ohne für die Umweltkosten zur Rechenschaft gezogen zu werden, bleibt alle Effizienz Kosmetik.

Der Ausblick: Wohin geht die Reise?

Technisch sind die nächsten Schritte absehbar, aber an dieser Stelle kann ich nur spekulieren. Mehrere Entwicklungslinien zeichnen sich ab:

Kurzfristig (2025-2027): Die Kombination bekannter Techniken wird perfektioniert. Multimodale Modelle erreichen die Effizienz heutiger Text-Modelle. On-Device-AI wird Standard. Sub-1-Wh-Anfragen werden zur Norm, möglicherweise sogar Sub-0,1-Wh bei einfachen Tasks. Das Training großer Modelle könnte unter 1 Megawattstunde fallen – zwei Größenordnungen unter GPT-3.

Mittelfristig (2027-2030): Neue Hardware-Paradigmen setzen sich durch. Neuromorphe Chips, die biologische Gehirne nachahmen, könnten weitere Größenordnungen an Effizienz bringen. Analog Computing für KI, bei dem Berechnungen durch physikalische Prozesse statt digitale Logik durchgeführt werden, erreicht Marktreife. In-Memory-Computing eliminiert den teuersten Engpass: Datentransfer zwischen Speicher und Prozessor.

Langfristig (2030+): Völlig neue Paradigmen werden denkbar. Quantum Machine Learning, photonische Prozessoren, DNA-Computing – alles noch Grundlagenforschung, aber mit dem Potenzial für revolutionäre Effizienzsprünge. Möglicherweise erreichen wir ein Niveau, bei dem die Energiekosten für KI-Inferenz vernachlässigbar werden – ähnlich wie heute niemand mehr über den Stromverbrauch einer Google-Suche nachdenkt.

Aber – und das ist das große Aber – all diese Effizienzgewinne könnten zunichte gemacht werden, wenn die Modelle weiter exponentiell wachsen. GPT-5, Gemini Ultra, Claude Opus – die nächste Generation wird vermutlich wieder größer. Multimodale Video-Modelle verbrauchen Größenordnungen mehr als Text. Embodied AI in Robotern benötigt Echtzeitverarbeitung mit hoher Energiedichte.

Kommentar: Die Effizienz-Illusion

Zwölf Jahre KI-Geschichte haben uns eines gelehrt: Technologischer Fortschritt folgt keiner linearen Logik. Die Narrative vom exponentiellen Wachstum, von den „Scaling Laws“, die angeblich unausweichlich zu immer besserer KI führen – sie haben sich vielleicht als Illusion erwiesen.

Ja, größere Modelle wurden besser. Aber der Preis war astronomisch, die Umweltkosten bestehen, und die Demokratisierung der Technologie geriet in Gefahr. Dass wir heute wieder über Effizienz sprechen, über schlanke Modelle, über Hardware-Vielfalt statt Monopol der Hyperscaler – das ist kein natürlicher Entwicklungsschritt. Es ist das Ergebnis von Gegendruck: Forscher, die keine Millionenbudgets hatten. Umweltaktivisten, die auf CO₂-Bilanzen pochten. Open-Source-Communities, die zeigten, dass es auch anders geht.

BitNet, Mixture of Experts, Flash Attention – das sind keine inkrementellen Verbesserungen. Das sind Paradigmenwechsel, geboren aus der Not, die Ressourcenverschwendung zu beenden. Sie zeigen, dass die vermeintlichen Naturgesetze des Scaling nur so lange galten, wie niemand sie hinterfragte.

Aber der eigentliche Test kommt erst noch. Werden die Effizienzgewinne tatsächlich für Demokratisierung genutzt? Oder nur, um noch größere Modelle zu trainieren, die noch mehr Strom fressen? Die Antwort hängt nicht von der Technologie ab, sondern von uns – von politischen Entscheidungen, von regulatorischem Druck, von der Frage, wem die KI-Revolution nützen soll.

Die Geschichte der Technik ist voll von solchen Momenten. Die Dampfmaschine hätte Arbeit erleichtern können – sie führte zur Ausbeutung der Arbeiterklasse. Das Internet hätte Wissen demokratisieren können – es schuf neue Monopole. KI steht jetzt an diesem Scheideweg.

Die Effizienzrevolution ist real. Sie ist beeindruckend. Aber sie ist nicht die Lösung. Sie ist nur ein Werkzeug – und wie jedes Werkzeug kommt es darauf an, wer es wie nutzt. Die Frage ist nicht, ob wir von 100 Wh auf 1 Wh kommen. Die Frage ist, ob wir dann eine Million Mal mehr Anfragen stellen – oder ob wir die Technologie tatsächlich so einsetzen, dass alle davon profitieren.

Die nächsten fünf Jahre werden zeigen, welchen Weg wir einschlagen. Aktuell spricht wenig dafür, dass die Tech-Giganten freiwillig auf Skalierung verzichten. Google, Microsoft, Amazon – sie alle bauen ihre Infrastruktur massiv aus, kaufen Atomkraftwerke, planen Rechenzentren in Gigawatt-Dimensionen. Die Verlockung des exponentiellen Wachstums ist zu groß, der Wettbewerbsdruck zu intensiv.

Nutzen wir die Effizienzgewinne für Demokratisierung – also bessere Modelle für alle auf günstiger Hardware? Oder verbrauchen wir sie für immer größere Modelle mit marginal besserer Leistung? Das ist keine technische Frage, sondern eine gesellschaftliche.

Aber vielleicht – und das ist mehr als nur Wunschdenken – könnte die Open-Source-Bewegung den entscheidenden Unterschied machen. Llama, Mistral, Falcon: Sie beweisen, dass man konkurrenzfähige Modelle ohne Oligopol-Ressourcen bauen kann. Sie zeigen, dass Effizienz nicht nur eine Notlösung für die Armen ist, sondern ein Wettbewerbsvorteil. Und sie demonstrieren, dass Innovation nicht aus Milliarden-Dollar-Budgets kommt, sondern aus Kreativität unter Beschränkungen.

Die wahre Revolution wäre nicht, wenn KI-Modelle noch effizienter werden. Die wahre Revolution wäre, wenn diese Effizienz nicht als Rechtfertigung für noch mehr Konsum dient, sondern als Chance für echte Demokratisierung. Wenn in fünf Jahren nicht OpenAI und Google die Agenda bestimmen, sondern tausende Entwickler weltweit ihre eigenen Modelle trainieren und einsetzen können. Auf ihrer Hardware. Mit ihrer Energie. Für ihre Zwecke.

Das wäre die Effizienzrevolution, die es wert wäre, gefeiert zu werden. Alles andere ist nur eine neue Iteration des alten Spiels: Effizienzgewinne, die letztlich nur dazu dienen, das System noch größer, noch hungriger, noch zentralisierter zu machen.