Up North AIUp North
Tilbake til innsikt
5 min lesning

25 000-oppgavers realitetssjekk

25 000-oppgavers realitetssjekk. Endogenitetsparadokset: Hvorfor struktur dreper ytelse. Der populære rammeverk går galt.

orchestrationLLMagents
Share

25 000-oppgavers realitetssjekk

Forskere på frontlinjen har nettopp demolert konvensjonell visdom om multi-agentsystemer. Dochkina et al. testet 8 forskjellige LLM-er på tvers av 25 000 oppgaver, skalerte fra 4 til 256 agenter under alle tenkelige koordinasjonsprotokoller—fra rigide CrewAI-lignende hierarkier til fullstendig anarki [1].

Resultatene avslører det byggere mistenkte: forhåndstildelte roller og rigide rammeverk presterer konsekvent dårligere. Selvorganiserende team med minimal støttestruktur slår strukturerte tilnærminger med opptil 14% på komplekse resonnementoppgaver.

Studien testet alt fra GPT-4o til Claude 3.5 og Llama-3.1, og målte ytelse på tvers av paralleliserbare oppgaver (forskningssyntese, dataanalyse) og sekvensielle arbeidsflyter (kodegenerering, dokumentoppretting). Mønsteret holdt på tvers av modeller og skalaer.

Men her kommer det interessante: verken maksimal kontroll eller maksimalt kaos vinner. Det optimale punktet ligger i det forskerne kaller "minimal støttestruktur"—akkurat nok struktur for at dyktige LLM-er kan selvorganisere, uten overhead fra forhåndsbestemte hierarkier.

Endogenitetsparadokset: Hvorfor struktur dreper ytelse

Kjernefunnet utfordrer alt vi trodde vi visste om AI-koordinasjon. Forskerne oppdaget "endogenitetsparadokset": verken maksimal ekstern kontroll eller maksimal agentautonomi gir optimale resultater [1].

Tenk på det som nordisk arbeidskultur. De mest produktive teamene er ikke mikrostyrte hierarkier eller fullstendige frie-for-alle. De er grupper av dyktige mennesker med klare mål og minimal byråkrati. LLM-er, viser det seg, følger lignende mønstre.

Rigide rammeverk feiler fordi de forhindrer tilpasning. Når du forhåndstildeler en "analytiker"-rolle til en agent, låser du den til den funksjonen selv når oppgaven krever annen ekspertise. Selvorganiserende team allokerer roller dynamisk basert på faktisk kapasitet og kontekst.

Dataene er tydelige: selvorganiserende team oppnår 17-22% høyere suksessrater på paralleliserbare oppgaver. Men de presterer dårligere på strengt sekvensielt arbeid uten lett ruting—noe som bekrefter at kontekst, ikke ideologi, bør drive arkitekturbeslutninger.

Der populære rammeverk går galt

Studien benchmarket spesifikt mot populære rammeverk som CrewAI og LangGraph. Resultatene er ikke pene for den strukturerte tilnærmingen.

"Bag of agents"-arkitekturer øker feilrater med 17x på grunn av koordinasjonsoverhead [6]. Når hver agent må sjekke med hver andre agent, eksploderer kommunikasjonskostnadene raskere enn kapasiteten skalerer. Det er marerittet fra distribuerte systemer på nytt.

I mellomtiden blir myten "flere agenter gir bedre resultater" grundig avkreftet. Google og DeepMind-skaleringsstudier bekrefter at overhead dominerer utover 8-16 agenter uten emergent organisering [3]. De fleste produksjonsarbeidsbelastninger treffer avtagende avkastning mye tidligere.

Den praktiske lærdommen for byggere: start med single-agent sequential (SAS) for de fleste oppgaver. Skaler kun til multi-agent når du har ekte parallellisme og koordinasjonsfordelene oppveier overhead-kostnadene.

Dette speiler det vi ser i programvareteam. Å legge til utviklere i et forsinket prosjekt gjør det mer forsinket, men riktig teamstruktur kan låse opp ekte parallelt arbeid. De samme prinsippene gjelder for AI-agenter.

Byggerens spillebok: Når og hvordan selvorganisere

Basert på forskningen og vår egen produksjonserfaring, her er det praktiske rammeverket:

Byggere som selvorganiserer med spillebok midt i nordisk skog

Start enkelt: Single-agent-systemer håndterer 80% av forretningsoppgaver effektivt. Ikke gå for multi-agent før du har truffet klare single-agent-grenser.

Identifiser ekte parallellisme: Selvorganiserende team utmerker seg når oppgaver genuint kan kjøres parallelt—forskningssyntese, dataanalyse på tvers av flere kilder, innholdsgenerering for forskjellige målgrupper. De sliter med iboende sekvensielt arbeid som trinn-for-trinn debugging.

Bruk minimal støttestruktur: I stedet for forhåndstildelte roller, gi klare mål og la dyktige LLM-er selvorganisere. Tenk "bygg en markedsanalyse" heller enn "agent A forsker, agent B analyserer, agent C skriver."

Implementer lett ruting: For blandede arbeidsbelastninger, bruk systemer som BiRouter [5] som dynamisk kan bestemme mellom single-agent og multi-agent-tilnærminger basert på oppgavekarakteristikker.

Programvareutviklingsapplikasjonene er spesielt overbevisende. Lyu et al. demonstrerte selvorganiserende LLM-team som speiler menneskelige utviklingsgrupper, og oppnådde 20% raskere iterasjonssykluser for kontinuerlig deployment [2]. Disse systemene utvikler naturlig spesialisering—noen agenter graviterer mot testing, andre mot dokumentasjon—uten rigide rolletildelinger.

Virkelige bevis: Fra kode til organisasjoner

Implikasjonene strekker seg utover programvare. Selvorganiserende AI-team fremstår som en ny organisatorisk primitiv, spesielt i kunnskapsarbeid.

Nordiske selskaper er tidlige adoptere fordi den kulturelle tilpasningen er naturlig. Flate hierarkier, autonome team og tillitsbasert koordinasjon stemmer perfekt overens med selvorganiserende AI-systemer. Når din menneskelige organisasjon allerede minimerer byråkrati, føles det å utvide dette prinsippet til AI åpenbart.

Et mønster vi ser: vellykkede AI-implementeringer speiler vellykkede menneskelige teamstrukturer. Selskaper med rigide hierarkier sliter med selvorganiserende AI fordi de fortsetter å prøve å pålegge menneskelige organisasjonskart på systemer som fungerer annerledes.

Forskningen bekrefter denne intuisjonen. Ekspertkommentarer bemerker at "LLM-er spontant utvikler hjernelignende lag" når de får lov til å selvorganisere [8]. Disse emergente strukturene overgår ofte designede hierarkier fordi de tilpasser seg faktiske informasjonsflyter heller enn teoretiske organisasjonskart.

Implikasjonene etter kode-æraen

Denne forskningen peker mot et fundamentalt skifte i hvordan vi tenker om AI-systemer. Når kode blir gratis, flytter flaskehalsen seg til dømmekraft—og dømmekraft inkluderer å vite når man skal pålegge struktur versus når man skal la emergens ta over.

Tradisjonell programvareutvikling la vekt på kontroll og forutsigbarhet. Du designet systemer, definerte grensesnitt og håndterte kompleksitet gjennom abstraksjonslag. Multi-agent-rammeverk følger denne spilleboken: definer roller, opprett kommunikasjonsprotokoller, håndter tilstandsoverganger.

Men LLM-er opererer mer som biologiske systemer. De er i stand til emergent koordinasjon som ofte overgår designede strukturer. Byggerens jobb skifter fra orkestrering til kalibrering—å sette de rette betingelsene for emergens heller enn å mikrostyre hver interaksjon.

Dette har dype implikasjoner for hvordan vi bygger AI-produkter. I stedet for komplekse rammeverk trenger vi adaptive systemer som kan skalere koordinasjon dynamisk. I stedet for forhåndsbestemte arbeidsflyter trenger vi miljøer der AI-agenter kan oppdage optimale samarbeidsmønstre.

Den nordiske fordelen her er kulturell. Samfunn bygget på tillit og minimalt hierarki er naturlig bedre til å designe AI-systemer som utnytter emergens heller enn å kjempe mot det.

Fremtiden for AI-organisasjoner

Fremover representerer selvorganiserende AI-team mer enn en teknisk optimalisering. De er en forhåndsvisning av hvordan AI-native organisasjoner kan operere.

Endogene organisasjoner—der struktur fremstår fra kapasitet heller enn pålagt hierarki—kan bli standarden for AI-forsterket arbeid. Menneskelige ledere ville fokusere på å sette mål og opprettholde kultur, mens AI-team selvorganiserer rundt spesifikke leveranser.

Forskningen antyder at vi allerede ser denne overgangen. De mest effektive AI-implementeringene replikerer ikke menneskelige organisasjonsmønstre; de oppdager nye som er optimalisert for AI-kapasiteter.

For byggere betyr dette å designe for emergens heller enn kontroll. Rammeverkene som vinner vil være de som gir akkurat nok struktur for selvorganisering mens de holder seg unna naturlige koordinasjonsmønstre.

Post-kode-æraen handler ikke bare om at AI skriver programvare. Det handler om at AI oppdager nye måter å organisere arbeid på. Og bevisene antyder at minimal struktur, ikke maksimal kontroll, låser opp dette potensialet.

Kilder

  1. https://arxiv.org/abs/2603.28990
  2. https://arxiv.org/abs/2603.25928
  3. https://arxiv.org/abs/2510.05174
  4. https://arxiv.org/abs/2602.01011
  5. https://arxiv.org/abs/2512.00740
  6. https://towardsdatascience.com/why-your-multi-agent-system-is-failing-escaping-the-17x-error-trap-of-the-bag-of-agents
  7. https://ai.gopubby.com/your-multi-agent-framework-is-an-anti-pattern-25-000-tasks-prove-that-pre-assigned-roles-make-ai-e6ea31736ebd
  8. https://x.com/awagents/status/2039437848030347310

Vil du gå dypere?

Vi utforsker fronten av AI-bygd programvare ved å faktisk bygge den. Se hva vi jobber med.