25.000-Opgave Realitetscheck
25.000-Opgave Realitetscheck. Endogenitetsparadokset: Hvorfor Struktur Dræber Performance. Hvor Populære Frameworks Fejler.
25.000-Opgave Realitetscheck
Forskere på forkant har netop demoleret konventionel visdom om multi-agent systemer. Dochkina et al. testede 8 forskellige LLM'er på tværs af 25.000 opgaver, skalerede fra 4 til 256 agenter under alle tænkelige koordinationsprotokoller—fra rigide CrewAI-stil hierarkier til komplet anarki [1].
Resultaterne afslører hvad bygherrer havde mistanke om: forudtildelte roller og rigide frameworks præsterer konsekvent dårligere. Selvorganiserende teams med minimal stilladsering slår strukturerede tilgange med op til 14% på komplekse ræsonneringsopgaver.
Studiet testede alt fra GPT-4o til Claude 3.5 og Llama-3.1, målte performance på tværs af paralleliserbare opgaver (forskningssyntese, dataanalyse) og sekventielle workflows (kodegenerering, dokumentoprettelse). Mønsteret holdt på tværs af modeller og skalaer.
Men her er pointen: hverken maksimal kontrol eller maksimalt kaos vinder. Sweet spot'et ligger i det forskere kalder "minimal stilladsering"—lige nok struktur til at dygtige LLM'er kan selvorganisere, uden overhead fra forudbestemte hierarkier.
Endogenitetsparadokset: Hvorfor Struktur Dræber Performance
Kernefundet udfordrer alt hvad vi troede vi vidste om AI-koordination. Forskere opdagede "endogenitetsparadokset": hverken maksimal ekstern kontrol eller maksimal agent-autonomi producerer optimale resultater [1].
Tænk på det som nordisk arbejdskultur. De mest produktive teams er ikke mikromanagede hierarkier eller komplette free-for-alls. De er grupper af dygtige mennesker med klare mål og minimal bureaukrati. LLM'er, viser det sig, følger lignende mønstre.
Rigide frameworks fejler fordi de forhindrer tilpasning. Når du forudtildeler en "analytiker" rolle til en agent, låser du den fast i den funktion selv når opgaven kræver anden ekspertise. Selvorganiserende teams allokerer dynamisk roller baseret på faktisk kapacitet og kontekst.
Dataene er skarpe: selvorganiserende teams opnår 17-22% højere succesrater på paralleliserbare opgaver. Men de underpræsterer på strengt sekventielt arbejde uden let routing—bekræfter at kontekst, ikke ideologi, bør drive arkitekturbeslutninger.
Hvor Populære Frameworks Fejler
Studiet benchmarkede specifikt mod populære frameworks som CrewAI og LangGraph. Resultaterne er ikke pæne for den strukturerede tilgang.
"Bag of agents" arkitekturer øger fejlrater med 17x på grund af koordinationsoverhead [6]. Når hver agent skal tjekke med alle andre agenter, eksploderer kommunikationsomkostninger hurtigere end kapacitet skalerer. Det er distributed systems mareridt igen.
Samtidig bliver "flere agenter lig bedre resultater" myten grundigt afkræftet. Google og DeepMind skaleringstudier bekræfter at overhead dominerer ud over 8-16 agenter uden emergent organisation [3]. De fleste produktionsworkloads rammer aftagende afkast meget tidligere.
Den praktiske lære for bygherrer: start med single-agent sequential (SAS) for de fleste opgaver. Skaler kun til multi-agent når du har ægte parallelisme og koordinationsfordelene opvejer overhead-omkostningerne.
Dette afspejler hvad vi ser i softwareteams. At tilføje udviklere til et forsinket projekt gør det mere forsinket, men den rigtige teamstruktur kan låse op for ægte parallelt arbejde. De samme principper gælder for AI-agenter.
Bygherrens Playbook: Hvornår og Hvordan Man Selvorganiserer
Baseret på forskningen og vores egen produktionserfaring, her er det praktiske framework:

Start Simpelt: Single-agent systemer håndterer 80% af forretningsopgaver effektivt. Grib ikke efter multi-agent før du har ramt klare single-agent grænser.
Identificer Sand Parallelisme: Selvorganiserende teams excellerer når opgaver virkelig kan køre parallelt—forskningssyntese, dataanalyse på tværs af flere kilder, indholdsproduktion til forskellige målgrupper. De kæmper med iboende sekventielt arbejde som step-by-step debugging.
Brug Minimal Stilladsering: I stedet for forudtildelte roller, giv klare mål og lad dygtige LLM'er selvorganisere. Tænk "byg en markedsanalyse" snarere end "agent A researcher, agent B analyserer, agent C skriver."
Implementer Let Routing: For blandede workloads, brug systemer som BiRouter [5] der dynamisk kan beslutte mellem single-agent og multi-agent tilgange baseret på opgavekarakteristika.
Softwareudviklingsapplikationerne er særligt overbevisende. Lyu et al. demonstrerede selvorganiserende LLM-teams der afspejler menneskelige udviklingssquads, opnåede 20% hurtigere iterationscyklusser for kontinuerlig deployment [2]. Disse systemer udvikler naturligt specialisering—nogle agenter graviterer mod testing, andre mod dokumentation—uden rigide rolletildelinger.
Virkelige Beviser: Fra Kode til Organisationer
Implikationerne strækker sig ud over software. Selvorganiserende AI-teams fremstår som et nyt organisatorisk primitiv, især i videnarbejde.
Nordiske virksomheder er early adopters fordi det kulturelle fit er naturligt. Flade hierarkier, autonome teams og tillidsbaseret koordination stemmer perfekt overens med selvorganiserende AI-systemer. Når din menneskelige organisation allerede minimerer bureaukrati, føles det oplagt at udvide det princip til AI.
Et mønster vi ser: succesfulde AI-implementeringer afspejler succesfulde menneskelige teamstrukturer. Virksomheder med rigide hierarkier kæmper med selvorganiserende AI fordi de bliver ved med at forsøge at påtvinge menneskelige organisationsdiagrammer på systemer der fungerer anderledes.
Forskningen bekræfter denne intuition. Ekspertkommentarer bemærker at "LLM'er spontant udvikler hjernelignende lag" når de får lov til at selvorganisere [8]. Disse emergente strukturer overgår ofte designede hierarkier fordi de tilpasser sig faktiske informationsstrømme snarere end teoretiske org charts.
Post-Kode Implikationerne
Denne forskning peger mod et fundamentalt skift i hvordan vi tænker om AI-systemer. Når kode bliver gratis, flytter flaskehalsen til dømmekraft—og dømmekraft inkluderer at vide hvornår man skal påtvinge struktur versus hvornår man skal lade emergence tage over.
Traditionel softwareudvikling understregede kontrol og forudsigelighed. Du designede systemer, definerede interfaces og managede kompleksitet gennem abstraktionslag. Multi-agent frameworks følger denne playbook: definer roller, skab kommunikationsprotokoller, manage state transitions.
Men LLM'er opererer mere som biologiske systemer. De er i stand til emergent koordination der ofte overgår designede strukturer. Bygherrens job skifter fra orkestrering til kalibrering—at sætte de rigtige betingelser for emergence snarere end at mikromanage hver interaktion.
Dette har dybe implikationer for hvordan vi bygger AI-produkter. I stedet for komplekse frameworks har vi brug for adaptive systemer der kan skalere koordination dynamisk. I stedet for forudbestemte workflows har vi brug for miljøer hvor AI-agenter kan opdage optimale samarbejdsmønstre.
Den nordiske fordel her er kulturel. Samfund bygget på tillid og minimal hierarki er naturligt bedre til at designe AI-systemer der udnytter emergence snarere end at bekæmpe det.
Fremtiden for AI-Organisationer
Fremadskuende repræsenterer selvorganiserende AI-teams mere end en teknisk optimering. De er et preview af hvordan AI-native organisationer måske opererer.
Endogene organisationer—hvor struktur fremstår fra kapacitet snarere end påtvunget hierarki—kunne blive standard for AI-forstærket arbejde. Menneskelige managere ville fokusere på at sætte mål og vedligeholde kultur, mens AI-teams selvorganiserer omkring specifikke leverancer.
Forskningen antyder at vi allerede ser denne overgang. De mest effektive AI-implementeringer replikerer ikke menneskelige organisatoriske mønstre; de opdager nye optimeret til AI-kapaciteter.
For bygherrer betyder dette at designe for emergence snarere end kontrol. De frameworks der vinder vil være dem der giver lige nok struktur til selvorganisation mens de holder sig væk fra naturlige koordinationsmønstre.
Post-kode æraen handler ikke kun om AI der skriver software. Det handler om AI der opdager nye måder at organisere selve arbejdet på. Og beviserne antyder at minimal struktur, ikke maksimal kontrol, låser op for det potentiale.
Kilder
- https://arxiv.org/abs/2603.28990
- https://arxiv.org/abs/2603.25928
- https://arxiv.org/abs/2510.05174
- https://arxiv.org/abs/2602.01011
- https://arxiv.org/abs/2512.00740
- https://towardsdatascience.com/why-your-multi-agent-system-is-failing-escaping-the-17x-error-trap-of-the-bag-of-agents
- https://ai.gopubby.com/your-multi-agent-framework-is-an-anti-pattern-25-000-tasks-prove-that-pre-assigned-roles-make-ai-e6ea31736ebd
- https://x.com/awagents/status/2039437848030347310
Vil du gå dybere?
Vi udforsker fronten af AI-bygget software ved faktisk at bygge den. Se hvad vi arbejder på.