“"20 Dollar per month" dödar AI-företag. Token-priser är en illusion; det som verkligen kostar är din girighet -- Lär dig AI långsamt 164“
Inledande ord
- Att sänka modellpriser är en falsk premiss: Det som sänks är gamla modeller som ingen använder; användarna betalar alltid för den starkaste “nya flaggskeppet”.
- Den verkliga kostnadsfällan är inte token-priset utan utvecklingen av AI-förmågor: Ju mer komplexa uppgifterna blir, desto mer okontrollerat ökar förbrukningen; en fast månadsavgift kommer förr eller senare att ”kollapsa”.
- AI-prenumerationsmodellen är en “fångarnas dilemma”: Väljer du att betala per användning kommer du förlora marknaden; väljer du fast månadspris förlorar du framtiden.
- Det finns endast två sätt att bryta cykeln av “pengar som brinner”: Antingen bygger du en “skyddsmur” med höga omställningskostnader så att företagskunderna inte kan lämna; eller så gör du vertikal integration och använder AI som en förlustbringande lockvara för att tjäna pengar på infrastruktursidan.
Fördjupad läsning
- 【Token-nyheter】Varför debiteras AI-tjänster per token? En djupdykning
- 【Lättförståeligt】7B, 70B, 175B? Vad betyder AI-modellens parametrar och hur väljer företag rätt stor modell?
- Tokens blir dyrare
De verkliga kostnaderna för token skjuter i höjden
“Kostnaden för språkmodeller kommer att sjunka med 10 gånger” är nonsens och räddar inte AI-prenumerationer under “kostnadspress”
Föreställ dig att du startar ett företag och vet att konsumenterna högst vill betala 20 dollar i månaden. Du tänker, inga problem, det här är typisk VC-taktik – debitera baserat på kostnad, offra vinst för tillväxt. Du har räknat på alla nyckeltal som kundanskaffningskostnad (CAC) och kundlivstidsvärde (LTV). Men så ser du den berömda a16z-grafiken som visar att kostnaderna för stora språkmodeller (LLM) sjunker med 10 gånger varje år.
Så du räknar ut: Idag gör jag break-even med 20 dollar i månaden; om modellkostnaden sjunker med 10 gånger nästa år, kommer mina vinstmarginaler att skjuta i höjden till 90 %. Förlusten är bara tillfällig, vinst är oundviklig.
Detta resonemang är så enkelt att till och med en VC-assistent kan förstå:
- År ett: Nå break-even med 20 dollar/mån.
- År två: När kostnaden för beräkningar sjunker med 10 gånger, nå 90 % vinstmarginal.
- År tre: Börja köpa yachter.
Denna strategi verkar rimlig: “Kostnaden för stora språkmodeller sjunker med tre gånger var sjätte månad, så vi kan vara med!”
Men 18 månader senare är vinstmarginalen fortfarande historiskt negativ… Windsurf-projektet har redan fallit samman och till och med Claude Code tvingades denna vecka avbryta den ursprungliga 200 dollar/månad-ovillkorliga plan.
Företaget fortsätter att blöda pengar. Modellerna har blivit billigare – kostnaden för GPT-3.5 är 10 gånger lägre än tidigare. Men av någon anledning har vinstmarginalen blivit sämre istället för bättre.
Här finns uppenbarligen ett problem.
Utdaterade modeller, som gamla tidningar
Kostnaden för GPT-3.5 är en tiondel av vad den var tidigare. Men liksom viktelefoner från en iPhone-lansering, är den helt ointressant.
När en ny modell lanseras som branschens toppmodell (SOTA), kommer 99 % av efterfrågan omedelbart att flytta till den. Konsumenterna har samma förväntningar på de produkter de använder.
Låt oss se på den faktiska prishistoriken för några av de ledande modeller som vid vilken tidpunkt som helst har stått för 99 % av efterfrågan:
Lägg märke till något?
- När GPT-4 lanserades för 60 dollar, trots att GPT-3.5 (den tidigare toppmodellen) var 26 gånger billigare, valde alla att använda GPT-4.
- När Claude 3 Opus lanserades för 60 dollar, trots att GPT-4 hade sänkts i pris, vände folk sig ändå till Claude.
Att kostnaderna sjunker med 10 gånger är verkligt, men endast för gamla modeller som är jämförbara med antik datorvara som Commodore 64.
Så därför är den första fatala bristen med strategin “kostnaderna kommer att sjunka”: Marknadens efterfrågan existerar bara för “den starkaste språkmodellen”, punkt. Och kostnaden för den starkaste modellen är alltid ungefär densamma, eftersom det återspeglar de gränser som dagens teknologier för resonans kan erbjuda.
Att peka på en 1995 Honda Civic och säga “den bilen är mycket billigare nu!” är helt enkelt fel. Ja, den specifika bilen har blivit billigare, men den föreslagna detaljhandeln för en 2025 Toyota Camry är fortfarande 30 000 dollar.
När du använder AI – vare sig det är programmering, skrivande eller tänkande – strävar du alltid efter den högsta kvaliteten. Ingen öppnar Claude och tänker: “Jag kanske ska använda den sämre versionen för att spara lite pengar för min chef.” Vi är av naturen giriga i vår kognition. Vi vill ha det bästa “hjärnan” som vi kan få, särskilt när det handlar om vår värdefulla tid.
Världen av modellers bränning, överraskar dig
“Okej, men det här verkar som något vi kan hantera, eller hur? Vi kan bara försöka hålla oss på break-even alla tider?”
Åh, kära barn av naivitet.
Även om enhetskostnaden för varje framstående models token inte har blivit dyrare, har något mycket värre inträffat: antalet tokens som de förbrukar har växt exponentiellt.
Tidigare var ChatGPT:s svar på en enkel fråga också en enkel mening. Nu kräver “djup forskning”-funktionen 3 minuter för planering, 20 minuter för läsning och ytterligare 5 minuter för att skriva om en rapport, och Opus 3 kan till och med tillbringa 20 minuter för att svara på en enkel “hej”.
Explosionen av förstärkningsinlärning (RL) och test-tidsberäkningar har lett till en oväntad följd: längden på uppgifterna som AI kan utföra fördubblas var sjätte månad. Uppgifter som tidigare gav tillbaka 1000 tokens kan nu ge 100 000.
När du extrapolerar den här trenden, blir de matematiska beräkningarna galna:
Idag kostar en 20-minuters “djup forskning” cirka 1 dollar. År 2027 kommer vi att ha autonoma agenter som kan köra konstant i 24 timmar utan att “avvika” … och när vi kombinerar detta med stabila priser för de främsta modellerna? Det betyder att en engångsdrift kan kosta så mycket som 72 dollar. Varje dag per användare. Och dessutom kan flera agenter köras asynkront.
När vi kan distribuera agenter så att de arbetar asynkront 24 timmar dygnets arbete, kommer vi inte bara att ge dem en uppgift och vänta på en återkoppling. Vi kommer att schemalägga dem i bulk. En hel flotta av AI-arbetare som parallellt löser problem, förbrukar tokens som om det var 1999 års it-bubbla.
Uppenbarligen – jag måste betona detta – kan en månadskostnad på 20 dollar inte ens stödja en användare i att genomföra en enda 1 dollar djup forskning varje dag. Men det är exakt den framtid vi närmar oss. Varje förbättring av modellens kapabiliteter innebär att de meningsfullt kan förbruka mer beräkningsresurser.
Det är som att du byggde en mer bränslesnål motor, men använde de besparade bränsleeffektiviteten till att bygga en gigantisk lastbil. Visst, du kan köra längre på varje gallon bränsle, men den totala mängden bränsle du förbrukar blir 50 gånger mer.
Detta är den grundläggande orsaken till att Windsurf tvingades bli “kostnadspressad” till konkurs – och den situation som alla startups med “fast avgift för prenumeration + hög intensiv tokenförbrukning” står inför.
Anthropics modiga försök att hantera “kostnadspress”
Claude Codes experiment med oändliga abonnemang är det mest eleganta försöket vi sett för att hantera denna storm. De gjorde sitt yttersta, men blev till slut överväldigade.
Deras strategi var faktiskt mycket smart:
1. Prissätta 10 gånger högre
När Cursor debiterade 20 dollar/månad, satte de priset till 200 dollar/månad. Innan de började blöda pengar lämnade de sig själv mer buffert.
2. Automatiskt anpassa modellen baserat på belastning
När uppgifterna vad tyngre, växlade de från Opus ($75/miljon token) till Sonnet ($15/miljon token). Använd Haiku för att optimera läsa uppdrag. Det liknar AWS:s automatiska skalning, men riktar sig mot “hjärnan”.
De kunde nästan säkert ha inbyggt detta beteende direkt i modellens vikter, vilket kan vara en paradigmatisk förändring vi kommer att se mer av i framtiden.
3. Lasta arbetsuppgifter till användarens maskin
När användare har överbliven CPU, varför då köra egna instanser?
Men trots alla dessa ingenjörslösningar fortsatte tokenförbrukningen att öka som en supernova.
10 miljarder. 10 miljarder tokens. Motsvarande 12 500 exemplar av “Krig och Fred”. Inom en månad.
Hur är det ens möjligt? Hur kan en person förbruka 10 miljarder tokens med bara 10 minuters körning?
Det visar sig att en 10-20 minuters körning är precis tillräckligt för att folk ska börja uppfatta “for loop”-begreppet. När du avkopplar tokenförbrukningen från användarens inaktiva tid i applikationen, börjar de fysiska lagarna ta över. Ge Claude en uppgift att kontrollera sitt arbete, omstrukturera, optimera och sedan upprepa processen tills företaget går i konkurs.
Användarna blir mästare på att schemalägga API:er, vilket gör att de får en 24/7 kodöversättningsmotor på Anthropics bekostnad. Den snabba övergången från chatt till agent har skett över en natt. Förbrukningen har ökat 1000 gånger. Det här är en fasövergång, inte en gradvis förändring.
Så Anthropic avskaffade sitt oändliga abonnemang. De skulle kunna pröva med 2000 dollar/månad, men lärdomen är inte att de debiterar för lite, utan att i denna nya värld kan ingen abonnemangsmodell erbjuda oändlig användning.
Nyckeln var: Det finns ingen praktisk fast abonnemangsavgift i denna nya värld.
Matematiken går inte ihop längre.
Den oförrättade fångarnas dilemma för alla andra
Detta har lett varje AI-företag in i en olöslig knipa.
Varje AI-företag vet att en betalning per användning kan rädda dem. De vet också att det kommer att döda dem. När du ansvarsfullt debiterar $0,01/1 k tokens erbjuder din VC-stödda konkurrent oändliga tjänster för 20 dollar/månad.
Gissa var användarna kommer att gå?
Det klassiska fångarnas dilemmat:
- Alla betalar per användning → hållbarhet i branschen
- Alla betalar fasta priser → risk för masskonkurser
- Du betalar per användning, andra betalar fasta priser → du går i konkurs
- Du betalar fasta priser, andra betalar per användning → du vinner (och går i konkurs senare)
Så alla väljer “förräderi”. Alla subventionerar tunga användare. Alla visar upp “hockeyklubb”-formade tillväxtkurvor. I slutändan kommer alla att annonsera “viktiga prisanpassningar”.
Cursor, Lovable, Replit – de förstår läxan. De valde dagens tillväxt, morgondagens vinster och slutligen konkurs, men det är en fråga för nästa CEO.
Säga vad man vill? Det kan nog vara rätt. I en marknadsledarprocess är marknadsandelar viktigare än vinstmarginaler. Så länge VC:erna fortsätter att skriva ut checkar för att dölja usla enhetsekonomiska resultat…
Fråga bara Jasper vad som händer när musiken tystnar.
Hur undviker vi att bli “tvångssålda”?
Finns det en möjlighet att vi kan undvika “kostnadspress” på token?
Det har nyligen ryktats om att Cognition är på väg att finansiera med en värdering på 15 miljarder dollar, medan deras rapporterade årliga återkommande intäkter (ARR) knappt är 100 miljoner dollar (jag gissar att det ligger närmare 50 miljoner dollar). Detta står i kontrast till Cursor som finansierade med en värdering på 10 miljarder dollar baserat på 500 miljoner dollar i ARR. Intäkterna är över åtta gånger högre, men värderingen är bara två tredjedelar. Vad är det VC:erna vet som vi inte vet om Cognition? De är alla kodande AI-agenter. Har Cognition hittat sätt att bryta den dödliga spiralen? (Jag återkommer till det ämnet nästa gång).
Det finns tre möjliga vägar:
1. Betalning per användning från första dagen
Ingen subventionering. Ingen “få användare först, monetisera senare”. Endast ett ärligt ekonomiskt modell. Teoretiskt låter det fantastiskt.
Men problemet är, visa mig ett kraftigt växande konsumentinriktat AI-företag som debiterar per användning. Konsumenter hatar mätning av kostnad. De föredrar att betala mer för ett oändligt abonnemang än att få en oväntad räkning. Varje framgångsrik konsumentprenumerationstjänst – Netflix, Spotify, ChatGPT – har en fast avgift. Så fort du lägger till en mätare, dör tillväxten.
2. Höga omställningskostnader ⇒ Höga vinster
Detta är Devin fokuserar på helhjärtat. De annonserade nyligen ett samarbete med Citibank och Goldman Sachs för att installera Devin för 40 000 av deras programvaruingenjörer vardera. Vid 20 dollar/månad är det ett 10-miljoners projekt. Men frågan är: Vill du hellre ha 10 miljoner dollar i ARR från Goldman Sachs, eller 500 miljoner dollar i ARR från professionella utvecklare?
Svaret är uppenbart: Den sexmånaders implementeringstiden, efterlevnadskontrollerna, säkerhetsrevisionerna och den byråkratiska upphandlingsprocessen innebär att även om intäkterna från Goldman Sachs är svåra att få, när du väl har dem är de ouppnåeliga att förlora. Du måste få avtalet om den enda beslutsfattaren i banken vill satsa sitt rykte på dig – och då är alla beredda att göra sitt yttersta för att göra projektet framgångsrikt.
Det är också varför, förutom enorma molntjänstleverantörer, är de största mjukvaruföretagen de som säljer “registreringssystem” (System-of-Record) till den här typen av kunder (såsom CRM / ERP / EHR). De uppnår också 80-90 % vinstmarginaler, eftersom ju svårare en kund är att lämna, desto mindre är de priskänsliga.
När konkurrenterna dyker upp, är du redan djupt förankrad i deras byråkratiska system, och att byta leverantör kräver ytterligare en sexmånaders försäljningscykel. Det handlar inte om att du inte kan lämna, utan om att din CFO hellre dör än att genomlida en ny leverantörsbedömning.
3. Vertikal integration ⇒ Tjäna pengar på infrastrukturen
Detta är vad Replit gör: De kombinerar kodgenererande agenter med tjänster för applikationsvärdskap, databasadministration, distributionsövervakning och loggning. De kan förlora på varje token, men fånga värde på varje annat lager av teknikstacken de erbjuder till den nya generationen av utvecklare… Ju mer man ser hur vertikalt integrerade Replit är, ju tydligare blir det.
Använd AI som en förlustbringande dragkraft för att driva konsumtionen av tjänster som kan konkurrera med AWS. Du säljer inte resonansförmåga, utan allt annat; resonans är bara dina marknadsföringskostnader.
Hela tanksystemet här är att kodgenerering naturligt skapa behov av värdtjänster. Varje applikation behöver plats att köra. Varje databas behöver hantering. Varje distribution behöver övervakning. Låt OpenAI och Anthropic slåss på prissidan av resonanstjänster, sänka till nollvinst, medan du har allt annat.
De som fortfarande spelar spelet “fast avgift till varje pris” är zombier. Deras dyra begravningar planeras bara i fjärde kvartalet.
Vad ligger framför oss?
Jag ser ofta grundare pekar på siffror som säger “modellerna kommer att bli 10 gånger billigare nästa år!” och tycks se det som en livlina. Visst, de kommer att bli billigare. Men dina användares förväntningar på modellerna får också en ökning på 20 gånger. Den bollens mål rör sig snabbt ifrån dig.
Kommer du ihåg Windsurf? På grund av Cursor påtryckningar på deras resultaträkning kunde de inte hitta en utväg. Även den mest vertikalt integrerade applikationsnivån globalt, Anthropic, kan inte få en obegränsad abonnemangsmodell att fungera.
Även om sammanfattningen av “leverage beta is all you need” – ”att vara först är bättre än att vara smart” – fortfarande är korrekt, innebär en oförberedd snabbstart bara att du anländer riskabelt tidigt till graven. Det finns inga Google-checkar för förlustföretag på 2,4 miljarder dollar. Och ingen “vi får ta itu med det senare”, för “sen” betyder att dina AWS-kostnader kommer att överskrida dina totala intäkter.
Så, hur bygger man ett företag i denna värld? Det korta svaret är att bli en “ny moln” (neocloud) – vilket också är titeln på min nästa artikel.
Men visst, modeller kommer att bli 10 gånger billigare nästa år, eller hur?