Up North AIUp North
Tilbake til innsikt
5 min lesning

Agyn-arkitekturen: Produksjon Multi-Agent Gjort Riktig

Agyn-arkitekturen: Produksjon Multi-Agent Gjort Riktig. CAID: Git-Native Asynkron Delegering Som Skalerer. Orkestreringsmønstre Som Faktisk Fungerer.

orchestrationLLMagentsinfrastructure
Share

Agyn-arkitekturen: Produksjon Multi-Agent Gjort Riktig

Agyn optimaliserte ikke for SWE-bench. De bygde en produksjonsplattform for autonom programvareutvikling, og testet den deretter på benchmarket som validering. Resultatet: #1 ytelse blant GPT-5-klasse modeller, som overgår enkelt-agent systemer som OpenHands med 7,2% absolutt. [2]

Deres hemmelighet er ikke bedre modeller—det er bedre organisering. Agyn-systemet deployerer fire spesialiserte agenter: Manager (oppgaveoppbryting), Researcher (kodebase-analyse), Engineer (implementering), og Reviewer (kvalitetskontroll). [1] Hver agent opererer i isolerte sandkasser med definerte ansvarsområder og strukturert kommunikasjon gjennom GitHub-primitiver.

Manager-agenten mottar en GitHub-issue og lager en prosjektplan med deloppgaver. Researcher-agenten analyserer kodebasen, identifiserer relevante filer, og dokumenterer konteksten som trengs for implementering. Engineer-agenten skriver kode basert på forskningen, og lager commits og pull requests. Reviewer-agenten undersøker endringene, kjører tester, og enten godkjenner eller ber om modifikasjoner.

Det som får dette til å fungere er infrastrukturen, ikke bare rollene. Hver agent har isolerte kjøringsmiljøer, som forhindrer at en agents feil kaskaderer til andre. Kommunikasjon skjer gjennom strukturerte GitHub-artefakter—pull requests, commits, og kodekommentarer—heller enn flyktige chat-meldinger. Kontekst blir oppsummert og overført mellom agenter ved hjelp av definerte grensesnitt, ikke ad-hoc prompting.

Agyn-teamet fant at "å replikere teamstruktur, metodikk og kommunikasjon er et kraftig paradigme for autonom programvareutvikling, og at fremtidig fremgang kan avhenge like mye av organisasjonsdesign og agent-infrastruktur som av modellforbedringer." [1] Denne innsikten går imot den rådende visdommen om at større modeller løser alt.

CAID: Git-Native Asynkron Delegering Som Skalerer

Mens Agyn beviser at multi-agent orkestrering fungerer i produksjon, viser CMUs CAID (Centralized Asynchronous Isolated Delegation) rammeverk hvordan man bygger det fra grunnprinsippene. CAID oppnår 26,7% absolutt forbedring på PaperBench og 14,3% på Python-bibliotekoppgaver ved å forankre multi-agent koordinering i programvareutviklingsprimitiver. [4]

CAID-arkitekturen sentrerer rundt en manager-agent som delegerer oppgaver til flere engineer-agenter som jobber asynkront i isolerte git worktrees. Hver engineer-agent får sitt eget arbeidsområde—en separat git-gren med sitt eget avhengighetsmiljø—som eliminerer konflikter og muliggjør parallelt arbeid. [3]

Slik fungerer det i praksis: Manageren mottar en kompleks oppgave som "implementer OAuth2-autentisering med rate limiting." Den bryter dette ned i deloppgaver: lag databaseskjema, implementer auth middleware, legg til rate limiting-logikk, skriv tester, oppdater dokumentasjon. Hver deloppgave blir tildelt en engineer-agent i sitt eget git worktree.

Engineerne jobber asynkront og lager commits til sine isolerte grener. Når en engineer fullfører sin deloppgave, gjennomgår manageren endringene og enten merger dem eller ber om modifikasjoner. Avhengigheter mellom deloppgaver håndteres gjennom git merge-prosessen—hvis auth middleware avhenger av databaseskjemaet, skjer den mergen først.

CAID-repositoryet tilbyr en komplett implementering med Docker-arbeidsområder, LiteLLM-støtte for flere modelleverandører, og modulære oppgavegrensesnitt. [4] Du kan kjøre det lokalt med uv sync og miljøvariabler for dine modell-API-nøkler. Kodebasen demonstrerer praktiske mønstre: arbeidsområdeisolering, avhengighetshåndtering, oppgaveoppbryting og resultatsamling.

Orkestreringsmønstre Som Faktisk Fungerer

Både Agyn og CAID lykkes fordi de implementerer et lite sett med beviste designmønstre. Gevinstene kommer ikke fra prompt engineering eller modellfintuning—de kommer fra arkitektoniske beslutninger som speiler hvordan menneskelige utviklingsteam faktisk jobber. [6]

Isolerte kjøringsmiljøer forhindrer at agentfeil kaskaderer. Når en agent ødelegger bygget eller korrumperer tilstand, fortsetter andre agenter å jobbe i sine egne sandkasser. Denne feilisoleringen er kritisk for pålitelighet i produksjonssystemer.

Eksplisitte rolledefinisjoner gir hver agent klare ansvarsområder og suksesskriterier. Agyn Researcher skriver ikke kode; den analyserer kodebaser og dokumenterer funn. Engineer tar ikke arkitektoniske beslutninger; den implementerer basert på forskning og krav. Disse grensene forhindrer rolleforvirring og forbedrer utdatakvalitet.

Strukturert kommunikasjon gjennom GitHub-artefakter skaper vedvarende, gjennomgåelige registre av agentbeslutninger. I motsetning til chat-basert koordinering, gir pull requests og kodekommentarer kontekst som vedvarer på tvers av agentsesjoner og kan gjennomgås av menneskelige utviklere.

Konteksthåndtering for langvarige oppgaver løser problemet med agenthukommelsesbegrensninger. I stedet for å proppe hele kodebaser inn i kontekstvinduer, oppsummerer agenter sine funn og overfører strukturerte data gjennom definerte grensesnitt. Agyn Researcher lager dokumentasjon som Engineer kan referere til uten å re-analysere kodebasen.

Disse mønstrene fungerer fordi "programvareutvikling er en samarbeidsprosess. Arbeid deles på tvers av roller, koordinering skjer gjennom delte artefakter, og fremgang oppstår gjennom iterasjon og gjennomgang." [6] AI-systemer som respekterer disse realitetene overgår de som behandler koding som en soloaktivitet.

Byggerens Implementeringsguide

Klar til å deploye multi-agent orkestrering? Start med open-source grunnlagene og bygg opp til produksjonsmønstre.

For eksperimentering, klon CAID-repositoryet og kjør eksemplene. [4] Oppsettet krever Python 3.11+, Docker for arbeidsområdeisolering, og API-nøkler for dine foretrukne språkmodeller. Repositoryet inkluderer oppgaver for papirreproduksjon og Python-bibliotekutvikling som demonstrerer kjernemønstrene.

For produksjonsdeployering, studer Agyn-plattformens arkitektur. [5] Selv om deres fulle plattform ikke er open-source, dokumenterer bloggen deres de viktigste designbeslutningene: agentrolledefinisjoner, sandkasseisoleringsstrategier, GitHub-integreringsmønstre og konteksthåndteringsmetoder.

Fokuser på git-native arbeidsflyter fra starten. Begge vellykkede systemer forankrer sin orkestrering i programvareutviklingsprimitiver—grener, commits, merges, pull requests. Dette er ikke bare for kompatibilitet med eksisterende verktøy; det er fordi disse primitivene koder tiår med læring om hvordan man koordinerer komplekse programvareendringer.

Mål det som betyr noe: ende-til-ende oppgavefullføring, ikke agentkvalitet. SWE-bench benchmarket tester om agenter faktisk kan fikse ekte GitHub-issues, ikke om deres resonnering høres plausibelt ut. Bygg din evalueringsramme før du bygger dine agenter.

Start med smale domener hvor du kan definere klare suksesskriterier. Både Agyn og CAID fungerer fordi de takler veldefinerte programvareutviklingsoppgaver med målbare utfall. Ikke prøv å bygge et generelt AI-team; bygg et spesialisert team for din spesifikke brukscase.

Casestudier: Multi-Agent Team i Virkeligheten

Forskningsartiklene gir benchmarks, men hva med virkelig deployment? Tidlige adoptere ser praktiske gevinster på tvers av forskjellige typer programvareutviklingsarbeid.

Team av byggere som utforsker og samarbeider i nordisk villmark

API-integreringsoppgaver fungerer spesielt godt for multi-agent systemer. En agent forsker på mål-API dokumentasjon og lager integreringsspesifikasjoner. En annen agent implementerer klientkoden basert på disse spesifikasjonene. En tredje agent skriver omfattende tester og håndterer feilcaser. Isoleringen forhindrer at API rate limiting blokkerer andre arbeidsstrømmer.

Legacy kodebase modernisering drar nytte av den forskertunge tilnærmingen. Researcher-agenter kan analysere utdaterte avhengigheter og dokumentere migreringsstier uten å røre produksjonskode. Engineer-agenter kan implementere endringer i isolerte grener. Reviewer-agenter kan validere at nye implementeringer opprettholder atferdskompatibilitet.

Dokumentasjonsgenerering viser frem de samarbeidsmessige fordelene. En agent analyserer kodestruktur og identifiserer udokumenterte funksjoner. En annen agent skriver initial dokumentasjon basert på kodeanalyse. En tredje agent gjennomgår dokumentasjonen for nøyaktighet og fullstendighet, kryssrefererer med faktiske bruksmønstre i kodebasen.

Den felles tråden: oppgaver som drar nytte av spesialisering og parallelt arbeid ser de største gevinstene fra multi-agent orkestrering. Solo-agenter sliter med kontekstbytte mellom forskning, implementering og gjennomgang. Spesialiserte agenter opprettholder fokus og produserer høyere kvalitet utdata i sine domener.

Hva Endres Når AI Bygger Programvaren

Skiftet fra solo-agenter til AI-team representerer mer enn en inkrementell forbedring i kodingsautomatisering. Det er fremveksten av AI-systemer som kan håndtere den fulle kompleksiteten av programvareutvikling: forskning, arkitektur, implementering, testing og gjennomgang. [1]

Dette endrer økonomien i programvareutvikling på måter vi bare begynner å forstå. Når AI-team pålitelig kan fikse GitHub-issues og implementere funksjoner, skifter flaskehalsen fra å skrive kode til å definere krav og ta arkitektoniske beslutninger. Kode blir gratis; dømmekraft blir alt.

For nordiske teknologiselskaper som allerede leder innen AI-adopsjon, representerer dette en betydelig konkurransefordel. Evnen til å deploye AI-team for rutinemessige programvareutviklingsoppgaver frigjør menneskelige utviklere til å fokusere på produktstrategi, brukeropplevelse og forretningslogikk. Det er automatisering som forsterker menneskelige evner heller enn å erstatte dem.

Men implikasjonene går dypere. Multi-agent orkestreringsmønstre som fungerer for programvareutvikling vil sannsynligvis fungere for annet komplekst, samarbeidende kunnskapsarbeid. De samme prinsippene—rollespesialisering, isolert utførelse, strukturert kommunikasjon, konteksthåndtering—gjelder for forskning, analyse, innholdsskaping og strategisk planlegging.

Byggerne som mestrer disse orkestreringsmønstrene i dag vil forme hvordan AI-systemer takler komplekse problemer i morgen. Spørsmålet er ikke om AI vil automatisere programvareutvikling—systemer som Agyn og CAID beviser at det allerede skjer. Spørsmålet er om du vil bygge dømmekraften til å orkestrere disse evnene effektivt.

Post-kode-æraen betyr ikke ingen mer programmering. Det betyr at programmering blir en høyere-nivå aktivitet: å designe AI-team, definere deres interaksjoner, og sikre at deres utdata tjener menneskelige mål. Fremtiden tilhører de som kan arkitektere intelligens, ikke bare anvende den.

Kilder

  1. https://arxiv.org/abs/2602.01465
  2. https://agyn.io/blog/we-tested-ai-team-swe-bench-verified
  3. https://arxiv.org/abs/2603.21489
  4. https://github.com/JiayiGeng/CAID
  5. https://agyn.io/blog
  6. https://agyn.io/blog/multi-agent-orchestration-patterns-that-actually-work
  7. https://www.swebench.com/

Vil du gå dypere?

Vi utforsker fronten av AI-bygd programvare ved å faktisk bygge den. Se hva vi jobber med.