2026-05-035 min läsning

Verklighetskontrollen med 25 000 uppgifter

Verklighetskontrollen med 25 000 uppgifter. Endogenitetsparadoxen: Varför struktur dödar prestanda. Var populära ramverk går fel.

orchestrationLLMagents

Forskare i framkanten har precis demolerat konventionell visdom om multi-agentsystem. Dochkina et al. testade 8 olika LLM:er över 25 000 uppgifter, skalande från 4 till 256 agenter under alla tänkbara koordinationsprotokoll—från rigida CrewAI-liknande hierarkier till fullständig anarki [1].

Resultaten avslöjar vad byggare misstänkte: förutbestämda roller och rigida ramverk presterar konsekvent sämre. Självorganiserande team med minimal struktur slår strukturerade tillvägagångssätt med upp till 14% på komplexa resonemang.

Studien testade allt från GPT-4o till Claude 3.5 och Llama-3.1, mätte prestanda över paralleliserbara uppgifter (forskningssyntes, dataanalys) och sekventiella arbetsflöden (kodgenerering, dokumentskapande). Mönstret höll över modeller och skalor.

Men här kommer kruxet: varken maximal kontroll eller maximal kaos vinner. Den optimala punkten ligger i vad forskare kallar "minimal struktur"—precis tillräckligt med struktur för att kapabla LLM:er ska kunna självorganisera sig, utan overhead från förutbestämda hierarkier.

Endogenitetsparadoxen: Varför struktur dödar prestanda

Kärnfyndet utmanar allt vi trodde vi visste om AI-koordination. Forskare upptäckte "endogenitetsparadoxen": varken maximal extern kontroll eller maximal agentautonomi ger optimala resultat [1].

Tänk på det som nordisk arbetskultur. De mest produktiva teamen är inte mikromanagerade hierarkier eller fullständiga fritt-för-alla. De är grupper av kapabla människor med tydliga mål och minimal byråkrati. LLM:er, visar det sig, följer liknande mönster.

Rigida ramverk misslyckas eftersom de förhindrar anpassning. När du förutbestämmer en "analytiker"-roll till en agent, låser du den till den funktionen även när uppgiften kräver annan expertis. Självorganiserande team allokerar dynamiskt roller baserat på faktisk kapacitet och kontext.

Datan är tydlig: självorganiserande team uppnår 17-22% högre framgångsfrekvens på paralleliserbara uppgifter. Men de presterar sämre på strikt sekventiellt arbete utan lätt routing—vilket bekräftar att kontext, inte ideologi, bör driva arkitektursbeslut.

Var populära ramverk går fel

Studien benchmarkade specifikt mot populära ramverk som CrewAI och LangGraph. Resultaten är inte vackra för det strukturerade tillvägagångssättet.

"Bag of agents"-arkitekturer ökar felfrekvensen med 17 gånger på grund av koordinationsoverhead [6]. När varje agent behöver kolla med varje annan agent exploderar kommunikationskostnaderna snabbare än kapaciteten skalar. Det är mardrömmen från distribuerade system igen.

Samtidigt blir myten "fler agenter ger bättre resultat" grundligt motbevisad. Googles och DeepMinds skalningsstudier bekräftar att overhead dominerar bortom 8-16 agenter utan emergent organisation [3]. De flesta produktionsarbetsbelastningar når avtagande avkastning mycket tidigare.

Den praktiska lärdomen för byggare: börja med single-agent sequential (SAS) för de flesta uppgifter. Skala bara till multi-agent när du har äkta parallellism och koordinationsfördelarna överväger overheadkostnaderna.

Detta speglar vad vi ser i mjukvaruteam. Att lägga till utvecklare till ett sent projekt gör det senare, men rätt teamstruktur kan låsa upp äkta parallellt arbete. Samma principer gäller för AI-agenter.

Byggarens handbok: När och hur man självorganiserar

Baserat på forskningen och vår egen produktionserfarenhet, här är det praktiska ramverket:

Börja enkelt: Single-agent-system hanterar 80% av affärsuppgifter effektivt. Sträck dig inte efter multi-agent förrän du har nått tydliga single-agent-gränser.

Identifiera äkta parallellism: Självorganiserande team excellerar när uppgifter genuint kan köras parallellt—forskningssyntes, dataanalys över flera källor, innehållsgenerering för olika målgrupper. De kämpar med inherent sekventiellt arbete som steg-för-steg-debugging.

Använd minimal struktur: Istället för förutbestämda roller, ge tydliga mål och låt kapabla LLM:er självorganisera sig. Tänk "bygg en marknadsanalys" snarare än "agent A forskar, agent B analyserar, agent C skriver."

Implementera lätt routing: För blandade arbetsbelastningar, använd system som BiRouter [5] som dynamiskt kan besluta mellan single-agent och multi-agent-tillvägagångssätt baserat på uppgiftskarakteristika.

Mjukvaruingenjörstillämpningarna är särskilt övertygande. Lyu et al. demonstrerade självorganiserande LLM-team som speglar mänskliga utvecklingssquads, uppnådde 20% snabbare iterationscykler för kontinuerlig deployment [2]. Dessa system utvecklar naturligt specialisering—vissa agenter graviterar mot testning, andra mot dokumentation—utan rigida rolltilldelningar.

Verkliga bevis: Från kod till organisationer

Implikationerna sträcker sig bortom mjukvara. Självorganiserande AI-team framträder som en ny organisatorisk primitiv, särskilt inom kunskapsarbete.

Byggare som självorganiserar sig med handbok mitt i nordisk skog

Nordiska företag är tidiga adoptörer eftersom den kulturella passformen är naturlig. Platta hierarkier, autonoma team och förtroendebaserad koordination stämmer perfekt överens med självorganiserande AI-system. När din mänskliga organisation redan minimerar byråkrati känns det självklart att utvidga den principen till AI.

Ett mönster vi ser: framgångsrika AI-implementationer speglar framgångsrika mänskliga teamstrukturer. Företag med rigida hierarkier kämpar med självorganiserande AI eftersom de fortsätter att försöka påtvinga mänskliga organisationsscheman på system som fungerar annorlunda.

Forskningen bekräftar denna intuition. Expertkommentarer noterar att "LLM:er spontant utvecklar hjärnliknande lager" när de tillåts självorganisera sig [8]. Dessa emergenta strukturer överträffar ofta designade hierarkier eftersom de anpassar sig till faktiska informationsflöden snarare än teoretiska organisationsscheman.

Implikationerna efter kod

Denna forskning pekar mot en fundamental förändring i hur vi tänker på AI-system. När kod blir gratis flyttas flaskhalsen till omdöme—och omdöme inkluderar att veta när man ska påtvinga struktur kontra när man ska låta emergens ta över.

Traditionell mjukvaruingenjörskonst betonade kontroll och förutsägbarhet. Du designade system, definierade gränssnitt och hanterade komplexitet genom abstraktionslager. Multi-agent-ramverk följer denna handbok: definiera roller, skapa kommunikationsprotokoll, hantera tillståndsövergångar.

Men LLM:er fungerar mer som biologiska system. De är kapabla till emergent koordination som ofta överträffar designade strukturer. Byggarens jobb skiftar från orkestrering till kalibrering—att sätta rätt förutsättningar för emergens snarare än att mikromanagera varje interaktion.

Detta har djupgående implikationer för hur vi bygger AI-produkter. Istället för komplexa ramverk behöver vi adaptiva system som kan skala koordination dynamiskt. Istället för förutbestämda arbetsflöden behöver vi miljöer där AI-agenter kan upptäcka optimala samarbetsmönster.

Den nordiska fördelen här är kulturell. Samhällen byggda på förtroende och minimal hierarki är naturligt bättre på att designa AI-system som utnyttjar emergens snarare än att bekämpa den.

Framtiden för AI-organisationer

Framåtblickande representerar självorganiserande AI-team mer än en teknisk optimering. De är en förhandsvisning av hur AI-nativa organisationer kan fungera.

Endogena organisationer—där struktur framträder från kapacitet snarare än påtvingad hierarki—kan bli standard för AI-förstärkt arbete. Mänskliga chefer skulle fokusera på att sätta mål och upprätthålla kultur, medan AI-team självorganiserar sig kring specifika leveranser.

Forskningen antyder att vi redan ser denna övergång. De mest effektiva AI-implementationerna replikerar inte mänskliga organisationsmönster; de upptäcker nya som är optimerade för AI-kapaciteter.

För byggare betyder detta att designa för emergens snarare än kontroll. Ramverken som vinner blir de som ger precis tillräckligt med struktur för självorganisation samtidigt som de håller sig undan naturliga koordinationsmönster.

Den post-kod-eran handlar inte bara om AI som skriver mjukvara. Det handlar om AI som upptäcker nya sätt att organisera arbete självt. Och bevisen antyder att minimal struktur, inte maximal kontroll, låser upp den potentialen.

Källor

https://arxiv.org/abs/2603.28990
https://arxiv.org/abs/2603.25928
https://arxiv.org/abs/2510.05174
https://arxiv.org/abs/2602.01011
https://arxiv.org/abs/2512.00740
https://towardsdatascience.com/why-your-multi-agent-system-is-failing-escaping-the-17x-error-trap-of-the-bag-of-agents
https://ai.gopubby.com/your-multi-agent-framework-is-an-anti-pattern-25-000-tasks-prove-that-pre-assigned-roles-make-ai-e6ea31736ebd
https://x.com/awagents/status/2039437848030347310

Vill du gå djupare?

Vi utforskar frontlinjen för AI-byggd mjukvara genom att faktiskt bygga den. Se vad vi jobbar med.

Se våra projekt