Krisen inom Multi-Agent-koordination
Krisen inom Multi-Agent-koordination. CAID: Mjukvaruutvecklingsprimitiver för AI-team. Siffrorna: Varför koordination slår beräkningskraft.
Krisen inom Multi-Agent-koordination
Nuvarande multi-agent-metoder är pinsamt primitiva. De flesta system förlitar sig på prompt-baserad koordination: "Agent A, du hanterar frontend. Agent B, jobba med backend. Försök att inte förstöra varandras kod." Detta fungerar ungefär så bra som man kan förvänta sig.
Problemen förvärras snabbt. Agenter saknar verklig isolering, så en agents ändringar kan korrumpera en annans kontext. Kommunikation sker genom ostrukturerat naturligt språk, vilket skapar telefon-leken-förvrängningar. Det finns inget systematiskt sätt att hantera konflikter eller säkerställa integrationskvalitet. Resultatet är ofta sämre än single-agent-prestanda, trots 3-5x högre API-kostnader [1].
CMU:s forskarteam, lett av forskare som studerar automatisering av mjukvaruutveckling, identifierade kärnproblemet: multi-agent-system behöver samma koordinationsprimitiver som gör mänskliga mjukvaruteam funktionella. Lösningen är inte bättre prompts eller smartare routing—det är git-nativ orkestrering som speglar beprövade utvecklingsarbetsflöden.
CAID: Mjukvaruutvecklingsprimitiver för AI-team
CAID fungerar genom att dekomponera komplexa uppgifter till beroendegrafer, sedan delegera isolerade deluppgifter till specialistagenter som arbetar parallellt i git worktrees. Tänk på det som att tillämpa Scrum-metodik på AI-agenter, men med disciplinen från versionshanteringssystem.
Så här utvecklas arbetsflödet:
Uppgiftsdekomposition: En manager-agent analyserar den inkommande förfrågan och bygger en beroendegraff av deluppgifter. Istället för vaga naturligt språk-instruktioner skapar detta strukturerade, testbara arbetsenheter med tydliga gränssnitt och framgångskriterier.
Isolerad delegering: Varje deluppgift tilldelas en ingenjörsagent som arbetar i sitt eget git worktree. Detta ger verklig isolering—agenter kan inte av misstag skriva över varandras ändringar eller korrumpera delat tillstånd. Isoleringen är hård, inte mjuk—ingen mängd prompting kan ersätta faktisk filsystemseparation [1].
Asynkron exekvering: Agenter arbetar parallellt på oberoende deluppgifter, med beroendegrafen som säkerställer korrekt sekvensering. Detta speglar hur mänskliga team hanterar komplexa funktioner: frontend- och backend-utvecklare arbetar samtidigt, sedan integrerar vid definierade kontrollpunkter.
Självverifiering: Varje agent kör tester och validerar sitt eget arbete innan inlämning. Detta fångar uppenbara fel tidigt och minskar integrationsbördan på manager-agenten.
Git-nativ integration: Manager-agenten hanterar sammanslagningar med standard git-arbetsflöden, med konfliktlösning och slutlig validering. Detta utnyttjar decennier av verktyg och bästa praxis från mänsklig mjukvaruutveckling.
Siffrorna: Varför koordination slår beräkningskraft
Prestandaförbättringarna är slående, särskilt för komplexa uppgifter som kräver uthålligt resonemang över flera domäner.
På PaperBench (reproducera maskininlärningsartiklar från beskrivningar) levererade CAID massiva förbättringar över modellnivåer:
- Claude 4.5: 57,2% → 63,3% (+26,7% relativt)
- MiniMax 2.5: 10,4% → 36,7% (+253% relativt)
- Svagare modeller såg de största förbättringarna, med 3,5x relativ förbättring i genomsnitt [2]
På Commit0-Lite (implementera funktioner i Python-bibliotek som tinydb) var förbättringarna mer blygsamma men konsekventa:
- Claude 4.5: 53,1% → 59,1% (+14,3% relativt)
- Mönstret höll över olika modellfamiljer och storlekar [1]
Isoleringsmekanismen visade sig kritisk. Hård git worktree-isolering uppnådde 63,3% noggrannhet, medan mjuk instruktionsbaserad isolering bara klarade 55,5%—faktiskt sämre än single-agent-baslinjer. Detta antyder att verklig koordination kräver infrastruktur, inte bara prompting [1].
Kostnaderna ökade 3-5x på grund av parallell agentexekvering, men det finns ingen körtidsförbättring eftersom git-sammanslagningar sker sekventiellt. Värdeerbjudandet är noggrannhet och tillförlitlighet, inte hastighet.
Byggarens handbok: Implementera git-nativ orkestrering
För team som är redo att implementera dessa mönster framkommer flera praktiska principer från forskningen och tidiga produktionsdistributioner.
Börja med beroendemappning. Innan du startar flera agenter, investera i verktyg för uppgiftsdekomposition. JSON-strukturerade kommunikationsprotokoll fungerar bättre än naturligt språk för koordination. CMU-teamet fann att underhålla en AGENTS.md-fil som dokumenterar vanliga mönster och fellägen förbättrade framgångsfrekvensen med 4% [3].
Optimera för maximalt 3-5 agenter. Fler agenter förbättrar inte prestandan linjärt—koordinationsoverhead växer kvadratiskt. Redis-forskning bekräftar att koordinationskostnader negerar parallellismfördelar om de inte hanteras noggrant [5].
Designa för verifiering, inte perfektion. Varje agent bör validera sitt eget arbete med tester och kontroller innan inlämning. Manager-agenten kan fokusera på integration snarare än att felsöka individuella komponenter.
Använd beprövade verktyg där det är möjligt. Git worktrees ger stridstestad isolering. Befintliga CI/CD-pipelines kan hantera validering och testning. Verktyg som Conductor och Claude Code Web växer fram för att hantera orkestreringslogistik [3].
Finjustera manager-ingenjör-balansen. Vissa team drar nytta av att ingenjörsagenter gör självverifiering; andra behöver manager-agenter för att granska allt arbete. Detta beror på uppgiftskomplexitet och modellkapaciteter.
Fallstudie: Från papper till produktion
PaperBench-resultaten illustrerar varför koordination betyder mer än rå modellintelligens. Att reproducera ML-artiklar kräver uthålligt resonemang över flera domäner: förstå matematiska koncept, implementera algoritmer, felsöka kod och validera resultat.

Enskilda agenter, även kraftfulla som Claude 4.5, kämpar med denna komplexitet. De kanske lyckas med algoritmimplementationen men missar subtila förbehandlingssteg. Eller så får de matematiken rätt men introducerar buggar under kodöversättning.
CAID:s beroendegraff-metod bryter ner pappersreproduktion i naturliga deluppgifter: litteraturöversikt, matematisk analys, implementation, testning och validering. Varje agent kan fokusera på sin specialitet medan managern säkerställer korrekt integration.
Den 26,7% förbättringen på Claude 4.5 representerar skillnaden mellan "fungerar ibland" och "fungerar tillförlitligt" för komplexa mjukvaruutvecklingsuppgifter. Det är tröskeln där AI-kodningsassistans blir genuint användbar för produktionsteam.
Orkestreringsstack: Vad kommer härnäst
CAID-forskningen pekar mot en bredare förskjutning i AI-utvecklingsinfrastruktur. Precis som mänskliga mjukvaruteam utvecklades från cowboy-kodning till moderna DevOps-praxis behöver AI-agentteam systematiska koordinationsprimitiver.
AgentOrchestra och liknande ramverk växer fram för att tillhandahålla hierarkisk uppgiftsexekvering och adaptiv planering [6]. Dessa verktyg behandlar orkestrering som en förstklassig ingenjörsdisciplin, inte en eftertanke.
Nästa våg kommer troligen att inkludera:
- Standardiserade agentkommunikationsprotokoll (bortom JSON)
- Beroendemedveten uppgiftsschemaläggning med automatisk parallellisering
- Integrationstestramverk designade för multi-agent-arbetsflöden
- Observabilitetsverktyg för felsökning av koordinationsfel
Nordiska företag, med sin starka mjukvaruutvecklingskultur, är välpositionerade för att leda denna övergång. Betoningen på systematiska processer och kvalitetsingenjörskonst stämmer naturligt överens med git-nativa orkestreringssprinciper.
När AI bygger mjukvaran: Koordinationsrevolutionen
Den djupare insikten från CAID-forskningen handlar inte bara om bättre multi-agent-system—det handlar om vad som förändras när AI blir den primära mjukvarubyggaren snarare än en kodningsassistent.
Mänskliga utvecklingsteam utvecklade sofistikerade koordinationsmekanismer eftersom mjukvarukomplexitet kräver det. När AI-agenter tar på sig större delar av utvecklingslivscykeln kommer de att behöva lika sofistikerad koordination. Kodgenerering håller på att bli en råvara; orkestrering är den nya differentiatorn.
Denna förskjutning har djupgående implikationer för hur vi tänker på AI-utvecklingsverktyg. Istället för att optimera för single-agent-prestanda på isolerade uppgifter behöver vi infrastruktur som möjliggör tillförlitligt samarbete mellan specialiserade AI-system.
De team som först behärskar detta koordinationslager kommer att bygga AI-produkter som är kvalitativt annorlunda—inte bara snabbare eller billigare, utan kapabla till uthålligt resonemang över komplexa domäner som enskilda agenter inte kan hantera.
CAID bevisar att vägen framåt inte är kraftfullare modeller eller smarta prompts. Det är att tillämpa beprövad ingenjörsdisciplin på AI-system. Kod är gratis. Koordination är det inte.
Källor
- https://arxiv.org/abs/2603.21489
- https://bemiagent.com/agents/caid-what-cmu-learned-about-making-multiple-agents-code-together-without-breaking-everything
- https://addyosmani.com/blog/code-agent-orchestra
- https://www.linkedin.com/posts/omarsar_new-research-from-cmu-bookmark-this-one-activity-7444393288272379905-enu3
- https://redis.io/blog/multi-agent-systems-coordinated-ai
- https://arxiv.org/abs/2506.12508
- https://medium.com/design-bootcamp/running-multiple-ai-agents-at-once-using-git-worktrees-57759e001d7a
Vill du gå djupare?
Vi utforskar frontlinjen för AI-byggd mjukvara genom att faktiskt bygga den. Se vad vi jobbar med.