Up North AIUp North
Tilbage til indsigt
5 min læsning

Agyn-arkitekturen: Produktions Multi-Agent Gjort Rigtigt

Agyn-arkitekturen: Produktions Multi-Agent Gjort Rigtigt. CAID: Git-Native Async Delegering Der Skalerer. Orkestreringsmønstre Der Faktisk Virker.

orchestrationLLMagentsinfrastructure
Share

Agyn-arkitekturen: Produktions Multi-Agent Gjort Rigtigt

Agyn optimerede ikke for SWE-bench. De byggede en produktionsplatform til autonom software engineering og testede den derefter på benchmark'et som validering. Resultatet: #1 performance blandt GPT-5-klasse modeller, der overgår single-agent systemer som OpenHands med 7,2% absolut. [2]

Deres hemmelighed er ikke bedre modeller—det er bedre organisation. Agyn-systemet deployerer fire specialiserede agenter: Manager (opgavenedbrydning), Researcher (kodebase-analyse), Engineer (implementering), og Reviewer (kvalitetskontrol). [1] Hver agent opererer i isolerede sandkasser med definerede ansvarsområder og struktureret kommunikation gennem GitHub-primitiver.

Manager-agenten modtager et GitHub-issue og skaber en projektplan med underopgaver. Researcher-agenten analyserer kodebasen, identificerer relevante filer og dokumenterer den kontekst, der er nødvendig for implementering. Engineer-agenten skriver kode baseret på forskningen og skaber commits og pull requests. Reviewer-agenten undersøger ændringerne, kører tests og enten godkender eller anmoder om ændringer.

Det der får dette til at virke er infrastrukturen, ikke bare rollerne. Hver agent har isolerede eksekveringsmiljøer, der forhindrer én agents fejl i at kaskadere til andre. Kommunikation sker gennem strukturerede GitHub-artefakter—pull requests, commits og kodekommentarer—snarere end flygtige chat-beskeder. Kontekst bliver opsummeret og sendt mellem agenter ved hjælp af definerede interfaces, ikke ad-hoc prompting.

Agyn-teamet fandt ud af, at "replikering af teamstruktur, metodologi og kommunikation er et kraftfuldt paradigme for autonom software engineering, og at fremtidig fremgang måske afhænger lige så meget af organisatorisk design og agent-infrastruktur som af modelforbedringer." [1] Denne indsigt går imod den fremherskende visdom om, at større modeller løser alt.

CAID: Git-Native Async Delegering Der Skalerer

Mens Agyn beviser, at multi-agent orkestrering virker i produktion, viser CMU's CAID (Centralized Asynchronous Isolated Delegation) framework, hvordan man bygger det fra første principper. CAID opnår 26,7% absolut forbedring på PaperBench og 14,3% på Python-biblioteksopgaver ved at forankre multi-agent koordination i software engineering-primitiver. [4]

CAID-arkitekturen centrerer sig om en manager-agent, der delegerer opgaver til flere engineer-agenter, der arbejder asynkront i isolerede git worktrees. Hver engineer-agent får sit eget arbejdsområde—en separat git-branch med sit eget dependency-miljø—hvilket eliminerer konflikter og muliggør parallelt arbejde. [3]

Sådan fungerer det i praksis: Manageren modtager en kompleks opgave som "implementer OAuth2-autentificering med rate limiting." Den opdeler dette i underopgaver: opret database-skema, implementer auth-middleware, tilføj rate limiting-logik, skriv tests, opdater dokumentation. Hver underopgave bliver tildelt en engineer-agent i sit eget git worktree.

Engineers arbejder asynkront og laver commits til deres isolerede branches. Når en engineer fuldfører sin underopgave, gennemgår manageren ændringerne og enten merger dem eller anmoder om ændringer. Afhængigheder mellem underopgaver håndteres gennem git merge-processen—hvis auth-middleware afhænger af database-skemaet, sker den merge først.

CAID-repositoriet leverer en komplet implementering med Docker-arbejdsområder, LiteLLM-support til flere modeludbydere og modulære opgave-interfaces. [4] Du kan køre det lokalt med uv sync og miljøvariabler til dine model-API-nøgler. Kodebasen demonstrerer praktiske mønstre: arbejdsområde-isolation, dependency-management, opgavenedbrydning og resultatsammenlægning.

Orkestreringsmønstre Der Faktisk Virker

Både Agyn og CAID lykkes, fordi de implementerer et lille sæt af beviste designmønstre. Gevinsterne kommer ikke fra prompt engineering eller model fine-tuning—de kommer fra arkitektoniske beslutninger, der spejler, hvordan menneskelige engineering-teams faktisk arbejder. [6]

Isolerede eksekveringsmiljøer forhindrer agent-fejl i at kaskadere. Når én agent ødelægger bygget eller korrumperer tilstand, fortsætter andre agenter med at arbejde i deres egne sandkasser. Denne fejlisolation er kritisk for pålidelighed i produktionssystemer.

Eksplicitte rolledefinitioner giver hver agent klare ansvarsområder og succeskritierier. Agyn Researcher skriver ikke kode; den analyserer kodebaser og dokumenterer fund. Engineer træffer ikke arkitektoniske beslutninger; den implementerer baseret på forskning og krav. Disse grænser forhindrer rolleforvirring og forbedrer outputkvaliteten.

Struktureret kommunikation gennem GitHub-artefakter skaber vedvarende, gennemgåelige optegnelser af agent-beslutninger. I modsætning til chat-baseret koordination giver pull requests og kodekommentarer kontekst, der vedvarer på tværs af agent-sessioner og kan gennemgås af menneskelige udviklere.

Konteksthåndtering for langvarige opgaver løser problemet med agent-hukommelsesbegrænsninger. I stedet for at proppe hele kodebaser ind i kontekstvinduer opsummerer agenter deres fund og sender strukturerede data gennem definerede interfaces. Agyn Researcher skaber dokumentation, som Engineer kan referere til uden at genanalysere kodebasen.

Disse mønstre virker, fordi "software engineering er en kollaborativ proces. Arbejde opdeles på tværs af roller, koordination sker gennem delte artefakter, og fremskridt opstår gennem iteration og gennemgang." [6] AI-systemer, der respekterer disse realiteter, overgår dem, der behandler kodning som en solo-aktivitet.

Byggerens Implementeringsguide

Klar til at deploye multi-agent orkestrering? Start med open-source fundamenterne og byg op til produktionsmønstre.

Til eksperimentering, klon CAID-repositoriet og kør eksemplerne. [4] Opsætningen kræver Python 3.11+, Docker til arbejdsområde-isolation og API-nøgler til dine foretrukne sprogmodeller. Repositoriet inkluderer opgaver til papir-reproduktion og Python-biblioteksudvikling, der demonstrerer kernmønstrene.

Til produktionsdeployment, studer Agyn-platformsarkitekturen. [5] Selvom deres fulde platform ikke er open-source, dokumenterer deres blog de vigtige designbeslutninger: agent-rolledefinitioner, sandbox-isolationsstrategier, GitHub-integrationsmønstre og konteksthåndteringstilgange.

Fokuser på git-native workflows fra starten. Begge succesfulde systemer forankrer deres orkestrering i software engineering-primitiver—branches, commits, merges, pull requests. Dette er ikke bare for kompatibilitet med eksisterende værktøjer; det er fordi disse primitiver indkoder årtiers læring om, hvordan man koordinerer komplekse softwareændringer.

Mål det der betyder noget: end-to-end opgavefuldførelse, ikke agent-chatkvalitet. SWE-bench benchmark'et tester, om agenter faktisk kan rette rigtige GitHub-issues, ikke om deres ræsonnement lyder plausibelt. Byg dit evalueringsharness, før du bygger dine agenter.

Start med snævre domæner, hvor du kan definere klare succeskritierier. Både Agyn og CAID virker, fordi de tackler veldefinerede software engineering-opgaver med målbare resultater. Prøv ikke at bygge et generelt AI-team; byg et specialiseret team til dit specifikke use case.

Case Studies: Multi-Agent Teams i Virkeligheden

Forskningsartiklerne leverer benchmarks, men hvad med deployment i den virkelige verden? Tidlige adoptanter ser praktiske gevinster på tværs af forskellige typer software engineering-arbejde.

Hold af byggere der udforsker og samarbejder i nordisk vildmark

API-integrationsopgaver fungerer særligt godt for multi-agent systemer. Én agent forsker i mål-API-dokumentationen og skaber integrationsspecifikationer. En anden agent implementerer klientkoden baseret på disse specifikationer. En tredje agent skriver omfattende tests og håndterer fejltilfælde. Isolationen forhindrer API rate limiting i at blokere andre arbejdsstrømme.

Legacy kodebase-modernisering drager fordel af den forskungstunge tilgang. Researcher-agenter kan analysere forældede dependencies og dokumentere migrationsstier uden at røre produktionskode. Engineer-agenter kan implementere ændringer i isolerede branches. Reviewer-agenter kan validere, at nye implementeringer opretholder adfærdskompatibilitet.

Dokumentationsgenerering viser de kollaborative fordele. Én agent analyserer kodestruktur og identificerer udokumenterede funktioner. En anden agent skriver initial dokumentation baseret på kodeanalyse. En tredje agent gennemgår dokumentationen for nøjagtighed og fuldstændighed og krydshenviser med faktiske brugsmønstre i kodebasen.

Den fælles tråd: opgaver, der drager fordel af specialisering og parallelt arbejde, ser de største gevinster fra multi-agent orkestrering. Solo-agenter kæmper med kontekstskift mellem forskning, implementering og gennemgang. Specialiserede agenter opretholder fokus og producerer højere kvalitetsoutput i deres domæner.

Hvad Ændrer Sig Når AI Bygger Softwaren

Skiftet fra solo-agenter til AI-teams repræsenterer mere end en trinvis forbedring i kodningsautomatisering. Det er fremkomsten af AI-systemer, der kan håndtere den fulde kompleksitet af software engineering: forskning, arkitektur, implementering, test og gennemgang. [1]

Dette ændrer økonomien i softwareudvikling på måder, vi kun lige begynder at forstå. Når AI-teams pålideligt kan rette GitHub-issues og implementere funktioner, skifter flaskehalsen fra at skrive kode til at definere krav og træffe arkitektoniske beslutninger. Kode bliver gratis; dømmekraft bliver alt.

For nordiske tech-virksomheder, der allerede fører an i AI-adoption, repræsenterer dette en betydelig konkurrencefordel. Evnen til at deploye AI-teams til rutine software engineering-opgaver frigør menneskelige udviklere til at fokusere på produktstrategi, brugeroplevelse og forretningslogik. Det er automatisering, der forstærker menneskelige kapaciteter snarere end at erstatte dem.

Men implikationerne går dybere. Multi-agent orkestreringsmønstre, der virker for software engineering, vil sandsynligvis virke for andet komplekst, kollaborativt vidensarbejde. De samme principper—rollespecialisering, isoleret eksekvering, struktureret kommunikation, konteksthåndtering—gælder for forskning, analyse, indholdsoprettelse og strategisk planlægning.

De byggere, der mestrer disse orkestreringsmønstre i dag, vil forme, hvordan AI-systemer tackler komplekse problemer i morgen. Spørgsmålet er ikke, om AI vil automatisere software engineering—systemer som Agyn og CAID beviser, at det allerede sker. Spørgsmålet er, om du vil bygge dømmekraften til at orkestrere disse kapaciteter effektivt.

Post-kode-æraen betyder ikke ingen mere programmering. Det betyder, at programmering bliver en højere-niveau aktivitet: design af AI-teams, definition af deres interaktioner og sikring af, at deres output tjener menneskelige mål. Fremtiden tilhører dem, der kan arkitektere intelligens, ikke bare anvende den.

Kilder

  1. https://arxiv.org/abs/2602.01465
  2. https://agyn.io/blog/we-tested-ai-team-swe-bench-verified
  3. https://arxiv.org/abs/2603.21489
  4. https://github.com/JiayiGeng/CAID
  5. https://agyn.io/blog
  6. https://agyn.io/blog/multi-agent-orchestration-patterns-that-actually-work
  7. https://www.swebench.com/

Vil du gå dybere?

Vi udforsker fronten af AI-bygget software ved faktisk at bygge den. Se hvad vi arbejder på.