Vorwort

  • Der Rückgang der Modellpreise ist ein Mythos: Günstiger werden diejenigen alten Modelle, die niemand mehr nutzt; die Nutzer zahlen stets für das stärkste „Flaggschiff“.
  • Das wahre Kostenloch ist nicht der Token-Preis, sondern die Evolution der AI-Fähigkeiten: Je komplexer die Aufgaben, desto unkontrollierbarer der Verbrauch, was dazu führt, dass das feste Abonnementmodell „zerstört“ wird.
  • Das AI-Abonnementmodell ist ein „Gefangenendilemma“: Wenn du nach Verbrauch bezahlst, verlierst du den Markt; entscheidest du dich für die Flatrate, verlierst du die Zukunft.
  • Es gibt nur zwei Auswege, um der „Geldverbrennungs“-Bürde zu entkommen: Entweder baust du eine „Schutzmauer“ mit hohen Umstellungskosten, die Unternehmenskunden bindet; oder du integrierst vertikal, behandelst AI als verlustbringendes Lockangebot und verdienst an der Infrastruktur im Hintergrund.

Weiterführende Lektüre

Die wahren Kosten von Token steigen rasant

„Die Kosten von Sprachmodellen werden um das Zehnfache sinken“ – eine Falschmeldung, die die AI-Abonnements nicht retten kann

image.png

Stell dir vor, du hast ein Unternehmen gegründet und weißt genau, dass die Verbraucher maximal 20 Dollar pro Monat zu zahlen bereit sind. Du denkst dir, kein Problem, das ist die typische VC-Strategie – Kostenorientierte Preisgestaltung, Gewinne opfern, um zu wachsen. Du hast alle Kennzahlen aufgestellt, wie Customer Acquisition Cost (CAC) und Customer Lifetime Value (LTV). Aber nun kommt der interessante Teil: Du siehst das weit verbreitete a16z-Diagramm, das zeigt, dass die Kosten für große Sprachmodelle (LLMs) jährlich um das Zehnfache sinken.

Quelle a16z

Also überlegst du: Heute erreiche ich mit einem Preis von 20 Dollar/Monat den Break-even, und wenn die Modellkosten im nächsten Jahr um das Zehnfache sinken, wird meine Gewinnmarge auf 90 % steigen. Verluste sind nur vorübergehend, Gewinne sind unvermeidlich.

Diese Logik ist so einfach, dass selbst ein VC-Assistent sie verstehen kann:

  • Im ersten Jahr: Mit 20 Dollar/Monat das Gleichgewicht erreichen
  • Im zweiten Jahr: Aufgrund sinkender Kosten eine Gewinnmarge von 90 % erzielen
  • Im dritten Jahr: Jachten kaufen

Diese Strategie ist nachvollziehbar: „Die Kosten für die Inferenz großer Sprachmodelle sinken alle 6 Monate um das Dreifache, also müssen wir es auch schaffen.“

Aber 18 Monate später ist die Gewinnmarge immer noch historisch negativ… Das Windsurf-Projekt ist bereits zerbrochen und sogar Claude Code musste diese Woche das ursprüngliche unbegrenzte Abonnement für 200 Dollar/Monat einstellen.

Das Unternehmen blutet weiterhin. Die Modellkosten sind tatsächlich gesunken – die Kosten von GPT-3.5 sind auf ein Zehntel gefallen. Aber aus irgendeinem Grund ist die Gewinnmarge schlechter geworden, nicht besser.

Hier gibt es ein Problem.

Veraltete Modelle sind wie Zeitungen von gestern

Der Preis von GPT-3.5 liegt bei einem Zehntel des früheren Preises. Aber es ist auch so unbeachtet wie ein Klapphandy auf einer iPhone-Produktankündigung.

Wenn ein neues Modell als Spitzenmodell (SOTA) veröffentlicht wird, wandern 99 % der Nachfrage sofort zu ihm. Die Verbraucher haben dieselben Erwartungen an die Produkte, die sie nutzen.

Lass uns einen Blick auf die tatsächliche Preishistorie der führenden Modelle werfen, die zu jedem bestimmten Zeitpunkt 99 % der Nachfrage abdecken:

Quelle iaiuse.com

Was fällt dir auf?

  • Als GPT-4 zum Preis von 60 Dollar eingeführt wurde, wählten alle GPT-4, obwohl der Preis von GPT-3.5 (das vorherige Spitzenmodell) um das 26-fache gesenkt wurde.
  • Als Claude 3 Opus zum Preis von 60 Dollar auf den Markt kam, wandten sich die Leute trotz des gesenkten Preises von GPT-4 ebenfalls Claude zu.

Die Kosten sind zwar um das Zehnfache gesunken, aber nur für alte Modelle, deren Leistung mit dem Commodore 64 von einst vergleichbar ist.

Das führt uns zur ersten tödlichen Schwäche der Strategie „Die Kosten werden sinken“: Die Marktnachfrage existiert nur für „das stärkste Sprachmodell“, Punkt. Und die Kosten für das stärkste Modell sind immer ungefähr gleich, da sie die Kosten der aktuellen Inferenztechnik widerspiegeln.

Zu sagen, dass ein 1995er Honda Civic jetzt günstig ist, ist völlig am Thema vorbei. Ja, das spezifische Auto ist günstiger geworden, aber der Listenpreis eines 2025er Toyota Camry liegt bei 30.000 Dollar.

Wenn du AI benutzt – sei es zum Programmieren, Schreiben oder Nachdenken – suchst du immer nach der höchsten Qualität. Niemand öffnet Claude und denkt sich: „Ich kann auch die schlechtere Version verwenden, um meinem Chef Geld zu sparen.“ Wir sind von Natur aus gierig nach Kognition. Wir wollen das beste „Gehirn“ bekommen, vor allem, wenn auf der anderen Seite unsere wertvolle Zeit steht.

Der Geldverbrauch der Modelle übersteigt deine Vorstellungskraft

„Na gut, das klingt doch machbar, oder? Wir müssen nur immer die Gewinnschwelle halten, nicht wahr?“

Oh, mein naiver Freund.

Obwohl die Kosten pro Token für jede Generation führender Modelle nicht gestiegen sind, ist etwas noch Schlimmeres geschehen: Die Menge an Tokens, die sie verbrauchen, hat explosionsartige Zuwachsraten erreicht.

Früher benötigte ChatGPT nur einen Satz, um auf eine einfache Frage zu antworten. Heute benötigt die Funktion „Tiefenstudie“ 3 Minuten für die Planung, 20 Minuten fürs Lesen und dann 5 Minuten, um dir einen Bericht neu zu schreiben, während Opus 3 sogar 20 Minuten für eine Antwort auf „Hallo“ benötigt.

Durch die explosionsartige Entwicklung von Reinforcement Learning (RL) und test-time computing gibt es ein niemandes vorhersehbARES Ergebnis: Die Länge der Aufgaben, die AI bewältigen kann, verdoppelt sich alle sechs Monate. Aufgaben, die früher 1.000 Tokens zurücklieferten, liefern jetzt 100.000.

Quelle METR

Wenn du diesen Trend extrapolierst, wird die mathematische Berechnung ziemlich verrückt:

Heute kostet eine 20-minütige „Tiefenstudie“ etwa 1 Dollar. Bis 2027 werden wir Agenten haben, die ununterbrochen 24 Stunden lang laufen können, ohne „abzudriften“… und zusammen mit den stabilen Preisen der führenden Modelle? Das bedeutet, dass die Kosten für einen einzelnen Lauf auf bis zu 72 Dollar ansteigen können. Täglich, pro Nutzer. Und das sogar mit der Möglichkeit, mehrere Asynchron zu betreiben.

Sobald wir Agenten in der Lage sind, 24 Stunden lang asynchron zu arbeiten, werden wir nicht nur einen Befehl geben und auf eine Rückmeldung warten. Wir werden sie in großen Mengen planen. Eine gesamte Flotte von AI-Arbeitern, die Probleme parallel bearbeiten und Tokens verbrennen, als wären wir zurück im Internet-Boom der 90er Jahre.

Offensichtlich – das muss ich betonen – reicht das monatliche Abonnement von 20 Dollar nicht einmal aus, um einen Nutzer zu unterstützen, der täglich eine 1-Dollar-Tiefenstudie durchführt. Aber genau das ist die Zukunft, auf die wir zusteuern. Jeder Fortschritt in den Fähigkeiten des Modells bedeutet, dass sie bedeutend mehr Rechenressourcen verbrauchen können.

Das ist so, als hättest du einen effizienteren Motor gebaut und dann die Einsparungen genutzt, um einen übergroßen Lkw zu bauen. Ja, mit jedem Gallone Stern kannst du weiter fahren, aber die Gesamtmenge an verbrauchtem Benzin ist um den Faktor 50 gestiegen.

Das ist der grundlegende Grund, warum Windsurf durch „Kostenpressung“ in Not geraten ist – ebenso wie jede Startup-Firma mit einem Geschäftsmodell, das auf „festen Gebühren + hohem Tokenverbrauch“ basiert.

Anthropics tapferer Versuch, sich gegen „Kostenpressung“ abzusichern

Claude Codes Experiment mit unbegrenzten Abonnements ist der raffinierteste Versuch, den wir gesehen haben, um dieser Sturmfront zu begegnen. Sie haben sich alle Mühe gegeben, aber letztendlich sind sie dennoch gescheitert.

Ihr Ansatz war jedoch wirklich klug:

1. Preis um das Zehnfache erhöhen

Während Cursor 20 Dollar/Monat berechnet, setzen sie den Preis auf 200 Dollar/Monat. Vor dem Verbluten mehr finanziellen Spielraum schaffen.

2. Modelle automatisch gemäß der Last skalieren

In Zeiten hoher Belastung wechseln sie von Opus (75 Dollar pro Million Tokens) zu Sonnet (15 Dollar pro Million Tokens). Haiku optimiert das Lesetagebuch. Das ist ähnlich wie AWS-Auto-Scaling, nur auf das „Gehirn“ ausgerichtet.

Sie haben ziemlich sicher dieses Verhalten direkt in die Gewichte der Modelle integriert, eine Paradigmenwechsel, den wir in Zukunft häufiger sehen werden.

3. Bearbeitungsaufgaben auf die Maschinen der Nutzer auslagern

Warum selbst ein Sandbox starten, wenn die Nutzer bereits über ungenutzte CPUs verfügen?

Doch trotz all dieser ingenieurtechnischen Raffinessen wächst die Tokenverschwendung weiterhin charttechnisch an.

Quelle Vibreank

10 Milliarden. 10 Milliarden Tokens. Das sind der Äquivalent von 12.500 Exemplaren von „Krieg und Frieden“. In einem Monat.

Wie ist das möglich? Wie kann man selbst bei einer Laufzeit von 10 Minuten 10 Milliarden Tokens verbrauchen?

Es stellte sich heraus, dass 10-20 Minuten Durchlaufzeit genau ausreicht, damit die Menschen die Nützlichkeit von „for-Schleifen“ entdecken. Verwende Tokenverbrauch und die Online-Zeit der Nutzer entkoppeln, übernehmen die physikalischen Gesetze das Ganze. Gib Claude eine Aufgabe, lass sie ihre Arbeit überprüfen, umstrukturieren, optimieren und den Prozess wiederholen, bis das Unternehmen bankrott ist.

Die Nutzer wurden zu Meistern der API-Planung und erleben, wie sie mit Anthropic’s Geld ein 24/7-Code-Umwandlungs-Engine betreiben. Der Übergang von Konversation zu Agenten geschah über Nacht. Der Verbrauch ist um das 1.000-fache gestiegen. Das ist ein Phasenwechsel und kein gradueller Prozess.

Daher hat Anthropic das unbegrenzte Abonnement eingestellt. Sie hätten 2.000 Dollar/Monat versuchen können, aber die Lektion war nicht, dass sie nicht genug verlangen, sondern dass in dieser neuen Welt kein Abonnementmodell unbegrenzte Nutzung anbieten kann.

Der Schlüssel ist: In dieser neuen Welt existiert kein tragfähiger fester Abopreis.

Diese Rechnung lässt sich fundamentally nicht aufstellen.

Das Gefangenendilemma aller anderen

Das versetzt alle anderen Unternehmen in ein unlösbares Dilemma.

Jedes AI-Unternehmen weiß, dass nutzungsabhängige Preise sie retten könnten. Sie wissen auch, dass dies sie umbringen würde. Wenn du verantwortungsbewusst 0,01 Dollar pro 1.000 Tokens in Rechnung stellst, bietet dein mit VC investiertes Konkurrenzunternehmen indes unbegrenzte Dienste für 20 Dollar/Monat an.

Wo wirst du also denken, dass die Nutzer hingehen?

Ein typisches Gefangenendilemma:

  • Alle zahlen nach Verbrauch → Nachhaltigkeit der Branche
  • Alle zahlen nach festen Sätzen → Wettlauf ins Bankrott
  • Du zahlst nach Verbrauch, andere nach festen Sätzen → Du stirbst allein
  • Du zahlst nach festen Sätzen, andere zahlen nach Verbrauch → Du gewinnst (und stirbst später)

Deshalb haben sich alle dafür entschieden, zu „verraten“. Alle subventionieren die heavy user. Alle zeigen ihre „Hockey-Stick“-Wachstumsdiagramme. Am Ende geben alle ein „wichtiges Preismodell-Update“ bekannt.

Cursor, Lovable, Replit – sie verstehen alle diese Rechnungen. Sie haben sich für das Wachstum heute, den Gewinn von morgen und die Insolvenz letztendlich entschieden, aber das ist ein Problem für den nächsten CEO.

Ehrlich gesagt? Das könnte der richtige Ansatz sein. In einem Landnahme-Wettbewerb ist Marktanteil wichtiger als Gewinnmargen. Solange die VCs weiterhin bereit sind, Schecks auszustellen, um die schlechten Unit Economics zu subventionieren…

Frag Jasper, was passiert, wenn die Musik aufhört.

Wie kann man verhindern, dass man „zwangsverkauft“ wird?

Gibt es einen Ausweg aus dieser „Kostenpressung“ von Token?

Kürzlich gab es Gerüchte, dass Cognition sich mit einer Bewertung von 15 Milliarden Dollar finanzieren möchte, während ihr veröffentlichter jährlicher wiederkehrender Umsatz (ARR) nicht einmal 100 Millionen Dollar betrug (ich schätze, näher an 50 Millionen Dollar). Das sieht im Vergleich zu Cursor, die mit einem ARR von 500 Millionen Dollar eine Bewertung von 10 Milliarden Dollar erzielen möchten, stark aus. Einnahmen sind mehr als achtmal so hoch, die Bewertung beträgt aber nur zwei Drittel. Was wissen die VCs, was wir nicht über die Geheimnisse von Cognition wissen? Es handelt sich um AI-Agenten, die Code schreiben. Hat Cognition den Ausweg aus diesem Teufelskreis gefunden? (Ich werde nächstes Mal ausführlicher darüber sprechen)

Es gibt drei Auswege:

1. Von Anfang an nach Verbrauch abrechnen

Keine Subventionen. Kein „zuerst Nutzer gewinnen, dann monetarisieren“. Nur ein ehrliches Wirtschaftsmodell. Theoretisch klingt das wunderbar.

Aber das Problem ist, zeig mir ein explosiv wachsendes, nach Nutzung abrechnendes Konsumenten-AI-Unternehmen. Verbraucher hassen verbrauchsabhängige Preise. Sie zahlen lieber mehr für eine Flatrate, als eine unerwartete Rechnung zu erhalten. Jeder erfolgreiche Verbraucherdienst – Netflix, Spotify, ChatGPT – hat feste Preise. Sobald du ein Messgerät hinzufügst, stirbt das Wachstum.

2. Extrem hohe Umstellungskosten ⇒ Hohe Gewinnmargen

Darin liegt Devin’s Fokus. Kürzlich kündigten sie eine Kooperation mit Citigroup und Goldman Sachs an, um jeweils 40.000 Softwareingenieuren von diesen beiden Unternehmen Devin bereitzustellen. Bei 20 Dollar pro Monat ist das ein Projekt im Wert von 10 Millionen Dollar. Aber die Frage ist, willst du 10 Millionen Dollar ARR von Goldman Sachs oder lieber 500 Millionen Dollar ARR von professionellen Entwicklern?

Die Antwort ist offensichtlich: Ein 6-monatiger Implementierungszyklus, Compliance-Überprüfung, Sicherheitsprüfung und aufwendiger Beschaffungsprozess bedeuten, dass die Einnahmen von Goldman Sachs zwar schwer zu gewinnen sind, aber einmal gewonnen, niemals verloren gehen. Du musst nur dann diese Vertragsabschlüsse tätigen, wenn der einzige Entscheidungsträger bei der Bank seinen Ruf auf das Spiel setzt– und dann stellen alle sicher, dass das Projekt erfolgreich ist.

Das ist auch der Grund, warum die größten Softwareunternehmen nach diesen Kunden, die „System-of-Record“ (wie CRM/ERP/EHRs) verkaufen,go sind sind. Sie können Gewinnmargen von 80-90 % erzielen, weil Kunden, die schwer zu verlieren sind, unempfindlich gegenüber den Preisen sind.

Wenn Wettbewerber auftauchen, bist du bereits tief in die Bürokratie eingetaucht, und das Wechseln des Anbieters erfordert einen weiteren 6-monatigen Verkaufszyklus. Das bedeutet nicht, dass du nicht weg kannst, sondern dass deine CFO lieber stirbt, als einen weiteren Anbieter zu bewerten.

3. Vertikale Integration ⇒ Gewinne aus Infrastruktur

Das ist der Ansatz von Replit: Die Codierungsagenten sind mit Anwendungs-Hosting, Datenbankmanagement, Bereitstellungsmonitoring und Logging-Diensten gebündelt. Bei jedem Token macht man Verluste, aber man erfasst Werte in allen anderen Aspekten des Tech-Stacks, die für die nächste Entwicklungsgeneration bereitgestellt werden… du kannst den Grad der vertikalen Integration von Replit erkennen.

Quelle mattppal

Behandelt AI als verlustbringendes Lockangebot, um den Umsatz jener Dienstleistungen zu steigern, die mit AWS konkurrieren. Du verkaufst nicht die Inferenzkraft, sondern alles andere, die Inferenz ist nur deine Marketingausgabe.

Die Genialität dabei ist, dass die Codierung von Natur aus eine Nachfrage für Hosting schafft. Jede Anwendung muss lokal betrieben werden. Jede Datenbank muss verwaltet werden. Jede Bereitstellung muss überwacht werden. Während OpenAI und Anthropic im Preiskampf um Inferenzdienste kämpfen, bis zu null Gewinn, hast du alles andere im Griff.

Die Unternehmen, die weiterhin das Spiel „feste Sätze und Wachstum um jeden Preis“ spielen? Sie sind alle lebenden Toten. Nur ihre teuren Beerdigungen sind für das vierte Quartal geplant.

Wohin führt der Weg?

Ich sehe immer Gründer, die auf die Aussage „Nächstes Jahr werden die Modelle um das Zehnfache günstiger!“ zeigen, als hätten sie einen Lebensretter gefunden. Klar werden sie das. Aber deine Nutzererwartungen an die Modelle steigen um das 20-fache. Dieses Tor entfernt sich schnell von dir.

Erinnerst du dich an Windsurf? Sie fanden keinen Ausweg, da Cursor Druck auf ihre Gewinn- und Verlustrechnung ausübte. Selbst Anthropic mit der weltweit am vertikalsten integrierten Anwendungsschicht konnte ein unbegrenztes Abonnementmodell nicht aufrechterhalten.

Obwohl die Zusammenfassung von „Leverage Beta ist alles, was du brauchst“ – also „Vorsprung ist besser als extrem klug“ - nach wie vor korrekt ist, bedeutet ein planloser Vorsprung einfach, dass du nur schneller zum Grab als alle anderen erreichst. Hier gibt es keinen Google, das einen negativen Gewinnbetrieb mit 2,4 Milliarden Dollar unterstützt. Auch kein „Wir finden später eine Lösung“, denn „später“ bedeutet, dass deine AWS-Rechnung höher als deine Gesamteinnahmen sein wird.

Wie also kannst du in dieser Welt ein Unternehmen aufbauen? Die kurze Antwort lautet, werde ein „neues Cloud-Unternehmen“ (neocloud) – auch das ist der Titel meines nächsten Artikels.

Aber immerhin, die Modelle werden nächstes Jahr um das Zehnfache günstiger, oder?