Up North AIUp North
Takaisin näkemyksiin
5 min lukuaika

Moniagenttikoordinaation kriisi

Moniagenttikoordinaation kriisi. CAID: Ohjelmistokehityksen primitiivit AI-tiimeille. Luvut: Miksi koordinaatio voittaa laskentatehon.

orchestrationagentsinfrastructure
Share

Moniagenttikoordinaation kriisi

Nykyiset moniagenttilähestymistavat ovat häpeällisen primitiivisiä. Useimmat järjestelmät luottavat prompt-pohjaiseen koordinaatioon: "Agentti A, hoida frontend. Agentti B, työskentele backendin parissa. Yrittäkää olla rikkomatta toistenne koodia." Tämä toimii suunnilleen niin hyvin kuin voisi odottaakin.

Ongelmat kasaantuvat nopeasti. Agenteilta puuttuu todellinen eristys, joten yhden agentin muutokset voivat korruptoida toisen kontekstin. Kommunikaatio tapahtuu jäsentymättömän luonnollisen kielen kautta, mikä luo puhelimen-laululeikki-tyyppisiä vääristymiä. Ei ole systemaattista tapaa käsitellä konflikteja tai varmistaa integraation laatua. Tulos on usein huonompi kuin yhden agentin suorituskyky, huolimatta 3-5x korkeammista API-kustannuksista [1].

CMU:n tutkimustiimi, jota johtavat ohjelmistokehityksen automaatiota tutkivat tutkijat, tunnisti ydinongelman: moniagenttijärjestelmät tarvitsevat samat koordinaatioprimitiivit, jotka tekevät ihmisten ohjelmistotiimeistä toimivia. Ratkaisu ei ole paremmat promptit tai älykkäämpi reititys—se on git-natiivi orkestrointi, joka peilaa todettuja kehitystyönkulkuja.

CAID: Ohjelmistokehityksen primitiivit AI-tiimeille

CAID toimii hajottamalla monimutkaiset tehtävät riippuvuuskaavioiksi ja delegoimalla sitten eristetyt alitehtävät erikoistuneille agenteille, jotka työskentelevät rinnakkaisissa git-työpuissa. Ajattele sitä Scrum-metodologian soveltamisena AI-agentteihin, mutta versionhallintajärjestelmien kurinalaisuudella.

Työnkulku etenee seuraavasti:

Tehtävien hajotus: Manageri-agentti analysoi saapuvan pyynnön ja rakentaa alitehtävien riippuvuuskaavion. Epämääräisten luonnollisen kielen ohjeiden sijaan tämä luo jäsenneltyjä, testattavia työyksiköitä selkeillä rajapinnoilla ja onnistumiskriteerillä.

Eristetty delegointi: Jokainen alitehtävä osoitetaan insinööri-agentille, joka työskentelee omassa git-työpuussaan. Tämä tarjoaa todellisen eristyksen—agentit eivät voi vahingossa ylikirjoittaa toistensa muutoksia tai korruptoida jaettua tilaa. Eristys on kovaa, ei pehmeää—mikään määrä promptausta ei voi korvata todellista tiedostojärjestelmän erottelua [1].

Asynkroninen suoritus: Agentit työskentelevät rinnakkain riippumattomien alitehtävien parissa, riippuvuuskaavion varmistamassa oikean järjestyksen. Tämä peilaa sitä, miten ihmistiimit käsittelevät monimutkaisia ominaisuuksia: frontend- ja backend-kehittäjät työskentelevät samanaikaisesti ja integroivat sitten määritellyissä tarkistuspisteissä.

Itsevarmennus: Jokainen agentti suorittaa testit ja validoi oman työnsä ennen lähettämistä. Tämä kiinnittää ilmeiset virheet varhain ja vähentää integraatiotaakkaa manageri-agentilta.

Git-natiivi integraatio: Manageri-agentti käsittelee yhdistämiset käyttäen tavanomaisia git-työnkulkuja, konfliktien ratkaisulla ja lopullisella validoinnilla. Tämä hyödyntää vuosikymmenten työkaluja ja parhaita käytäntöjä ihmisten ohjelmistokehityksestä.

Luvut: Miksi koordinaatio voittaa laskentatehon

Suorituskyvyn parannukset ovat silmiinpistäviä, erityisesti monimutkaisissa tehtävissä, jotka vaativat jatkuvaa päättelyä useiden alueiden yli.

PaperBench-testissä (koneoppimisartikkelien toistaminen kuvauksista) CAID tuotti massiivisia parannuksia kaikissa mallitasoissa:

  • Claude 4.5: 57.2% → 63.3% (+26.7% suhteellisesti)
  • MiniMax 2.5: 10.4% → 36.7% (+253% suhteellisesti)
  • Heikommat mallit näkivät suurimmat parannukset, keskimäärin 3.5x suhteellinen parannus [2]

Commit0-Lite-testissä (ominaisuuksien toteuttaminen Python-kirjastoissa kuten tinydb) parannukset olivat vaatimattomampia mutta johdonmukaisia:

  • Claude 4.5: 53.1% → 59.1% (+14.3% suhteellisesti)
  • Malli piti paikkansa eri malliperheissä ja -kokoissa [1]

Eristysmekanismi osoittautui kriittiseksi. Kova git-työpuu-eristys saavutti 63.3% tarkkuuden, kun taas pehmeä ohjeisiin perustuva eristys onnistui vain 55.5%:iin—itse asiassa huonommin kuin yhden agentin perusviivat. Tämä viittaa siihen, että todellinen koordinaatio vaatii infrastruktuuria, ei vain promptausta [1].

Kustannukset kasvoivat 3-5x rinnakkaisen agenttisuorituksen vuoksi, mutta suoritusaikaa ei nopeudu, koska git-yhdistämiset tapahtuvat peräkkäin. Arvolupaus on tarkkuus ja luotettavuus, ei nopeus.

Rakentajan pelikirja: Git-natiivin orkestroinnin toteuttaminen

Tiimeille, jotka ovat valmiita toteuttamaan näitä malleja, tutkimuksesta ja varhaisista tuotantokäyttöönotoista nousee esiin useita käytännön periaatteita.

Aloita riippuvuuskartotuksesta. Ennen useiden agenttien käynnistämistä, investoi tehtävien hajotustyökaluihin. JSON-jäsennellyt kommunikaatioprotokollat toimivat paremmin kuin luonnollinen kieli koordinaatiossa. CMU:n tiimi havaitsi, että AGENTS.md-tiedoston ylläpito, joka dokumentoi yleisiä malleja ja vikatiloja, paransi onnistumisprosentteja 4% [3].

Optimoi maksimissaan 3-5 agentille. Useammat agentit eivät paranna suorituskykyä lineaarisesti—koordinaatiokustannukset kasvavat neliöllisesti. Redis-tutkimus vahvistaa, että koordinaatiokustannukset kumoavat rinnakkaisuuden hyödyt, ellei niitä hallita huolellisesti [5].

Suunnittele varmennusta, ei täydellisyyttä varten. Jokaisen agentin tulisi validoida oma työnsä testeillä ja tarkistuksilla ennen lähettämistä. Manageri-agentti voi keskittyä integraatioon yksittäisten komponenttien debuggauksen sijaan.

Käytä todettuja työkaluja mahdollisuuksien mukaan. Git-työpuut tarjoavat taistelussa testattua eristystä. Olemassa olevat CI/CD-putket voivat käsitellä validoinnin ja testauksen. Työkalut kuten Conductor ja Claude Code Web ovat nousemassa käsittelemään orkestrointilogistiikkaa [3].

Säädä manageri-insinööri-tasapainoa. Jotkut tiimit hyötyvät siitä, että insinööri-agentit tekevät itsevarmentamisen; toiset tarvitsevat manageri-agentteja tarkistamaan kaiken työn. Tämä riippuu tehtävän monimutkaisuudesta ja mallin kyvyistä.

Tapaustutkimus: Paperista tuotantoon

PaperBench-tulokset havainnollistavat, miksi koordinaatio on tärkeämpää kuin raaka mallien älykkyys. ML-artikkelien toistaminen vaatii jatkuvaa päättelyä useiden alueiden yli: matemaattisten käsitteiden ymmärtäminen, algoritmien toteuttaminen, koodin debuggaus ja tulosten validointi.

Insinööri luonnostelee ohjelmistokaaviota pohjoismaisessa työpajassa kun tiimi rakentaa tuotantorakennetta ulkona

Yksittäiset agentit, jopa tehokkaat kuten Claude 4.5, kamppailevat tämän monimutkaisuuden kanssa. Ne saattavat onnistua algoritmin toteutuksessa mutta missata hienovaraisia esikäsittelyvaiheita. Tai ne saavat matematiikan oikein mutta tuovat bugeja koodikäännöksen aikana.

CAID:n riippuvuuskaavio-lähestymistapa hajottaa artikkelien toistamisen luonnollisiin alitehtäviin: kirjallisuuskatsaus, matemaattinen analyysi, toteutus, testaus ja validointi. Jokainen agentti voi keskittyä erikoisalaansa managerin varmistamassa oikean integraation.

26.7%:n parannus Claude 4.5:ssä edustaa eroa "joskus toimii" ja "luotettavasti toimii" välillä monimutkaisissa ohjelmistokehitystehtävissä. Se on kynnys, jossa AI-koodausapu tulee aidosti hyödylliseksi tuotantotiimeille.

Orkestrointipino: Mitä seuraavaksi

CAID-tutkimus osoittaa laajempaan muutokseen AI-kehitysinfrastruktuurissa. Aivan kuten ihmisten ohjelmistotiimit kehittyivät cowboy-koodauksesta nykyaikaisiin DevOps-käytäntöihin, AI-agenttitiimit tarvitsevat systemaattisia koordinaatioprimitiivejä.

AgentOrchestra ja vastaavat kehykset ovat nousemassa tarjoamaan hierarkkista tehtävien suoritusta ja adaptiivista suunnittelua [6]. Nämä työkalut käsittelevät orkestrointia ensimmäisen luokan insinöörikurina, eivät jälkiajatuksena.

Seuraava aalto sisältää todennäköisesti:

  • Standardoidut agenttien kommunikaatioprotokollat (JSON:n lisäksi)
  • Riippuvuustietoinen tehtävien ajoitus automaattisella rinnakkaistamisella
  • Integraatiotestikehykset moniagentti-työnkulkuihin suunniteltuina
  • Havaittavuustyökalut koordinaatiovikojen debuggaukseen

Pohjoismaiset yritykset, vahvan ohjelmistokehityskulttuurinsa ansiosta, ovat hyvässä asemassa johtamaan tätä siirtymää. Systemaattisten prosessien ja laatuinsinööritoiminnan painotus sopii luonnollisesti git-natiivin orkestroinnin periaatteisiin.

Kun AI rakentaa ohjelmiston: Koordinaatiovallankumous

CAID-tutkimuksen syvempi oivallus ei koske vain parempia moniagenttijärjestelmiä—se koskee sitä, mikä muuttuu, kun AI:sta tulee ensisijainen ohjelmistorakentaja koodausavustajan sijaan.

Ihmiskehitystiimit kehittivät kehittyneitä koordinaatiomekanismeja, koska ohjelmiston monimutkaisuus vaatii sitä. Kun AI-agentit ottavat suurempia osia kehityselinkaaresta, ne tarvitsevat yhtä kehittyneitä koordinaatiota. Koodin generointi on kommoditoitumassa; orkestrointi on uusi erottava tekijä.

Tällä muutoksella on syvällisiä vaikutuksia siihen, miten ajattelemme AI-kehitystyökaluja. Sen sijaan, että optimoisimme yhden agentin suorituskykyä eristetyissä tehtävissä, tarvitsemme infrastruktuuria, joka mahdollistaa luotettavan yhteistyön erikoistuneiden AI-järjestelmien välillä.

Tiimit, jotka hallitsevat tämän koordinaatiokerroksen ensimmäisinä, rakentavat AI-tuotteita, jotka ovat laadullisesti erilaisia—eivät vain nopeampia tai halvempia, vaan kykenevät jatkuvaan päättelyyn monimutkaisilla alueilla, joita yksittäiset agentit eivät pysty käsittelemään.

CAID todistaa, että tie eteenpäin ei ole tehokkaampia malleja tai nokkelampia prompteja. Se on todettua insinöörikuria sovellettuna AI-järjestelmiin. Koodi on ilmaista. Koordinaatio ei ole.

Lähteet

  1. https://arxiv.org/abs/2603.21489
  2. https://bemiagent.com/agents/caid-what-cmu-learned-about-making-multiple-agents-code-together-without-breaking-everything
  3. https://addyosmani.com/blog/code-agent-orchestra
  4. https://www.linkedin.com/posts/omarsar_new-research-from-cmu-bookmark-this-one-activity-7444393288272379905-enu3
  5. https://redis.io/blog/multi-agent-systems-coordinated-ai
  6. https://arxiv.org/abs/2506.12508
  7. https://medium.com/design-bootcamp/running-multiple-ai-agents-at-once-using-git-worktrees-57759e001d7a

Haluatko syventyä?

Tutkimme tekoälyllä rakennetun ohjelmiston eturintamaa itse rakentamalla. Katso mihin olemme paneutuneet.