2026-02-245 min lukuaika

Tutkimuksen sisällä: Arkkitehtuurit, benchmarkit ja shokeeraavat tulokset

Tutkimuksen sisällä: Arkkitehtuurit, benchmarkit ja shokeeraavat tulokset. Kolme skaalauslakia: Ennakoitavissa olevia kuvioita agenttien parvissa.

orchestrationsafetyagentsMCPA2A

Tutkimuksen sisällä: Arkkitehtuurit, benchmarkit ja shokeeraavat tulokset

Tutkimus testasi viisi arkkitehtuuria—Single-Agent System (SAS), Independent, Centralized, Decentralized ja Hybrid—käyttäen rajamallien kaltaisia malleja kuten GPT-5, Gemini-2.5 ja Claude 4.5 neljällä benchmarkilla: Finance-Agent (taloudellinen päättely), BrowseComp-Plus (verkkonavigointi), PlanCraft (jatkumo- tai peräkkäissuunnittelu) ja Workbench (työkalujen käyttö).[2]

Tässä suorituskyvyn erojen nopeakuvaaja verrattuna SAS-perustasoon:

| Benchmark | Paras moniagentin parannus | Huonoin heikentymä | Paras arkkitehtuuri | |--------------------|----------------------------|--------------------|------------------------| | Finance-Agent | +80.9% | -17% | Centralized | | BrowseComp-Plus | +9.2% | -12% | Decentralized | | PlanCraft | Ei sovellettavissa | -39 % –70 % | Ei mitään (kaikki huonompia) | | Workbench | +15% | -25% | Hybrid |

Taulukko: Keskeiset suorituskyvyn muutokset Google/MIT-tutkimuksesta. Keskitetty loistaa rinnakkaisissa tehtävissä; kaikki variantit epäonnistuvat peräkkäisissä.[1]

Keskitetyt rakenteet (hub-and-spoke, jossa orkestroija delegoi alatehtäviä kuten tulorakenteita tai kustannuserittelyjä) hallitsivat rinnakkaisia työkuormia. Finance-Agentissa agentit jakoivat analyysin – markkinatrendit toiselle, kilpailijat toiselle – tuottaen yhdistettyjä oivalluksia tiiviin koordinoinnin ansiosta.[4] Sen sijaan peräkkäiset tehtävät kuten PlanCraft kärsivät viestintäylikuormituksesta, pirstaloivat päättelyä kiinteiden token-rajojen sisällä ja nostivat kierroslukuja n^1.724:llä agenttien skaalautuessa.[2]

Virheprosentit kertoivat synkemmän tarinan: itsenäinen agentit vahvistivat virheitä 17,2-kertaiseksi, kun taas keskitetyt topologiat rajoittivat sen 4,4-kertaiseksi validointiporttien avulla – toimien sisäänrakennettuna turvallisuusominaisuutena.[3] "Moniagenttijärjestelmät eivät ole yleispätevä ratkaisu – ne voivat joko merkittävästi parantaa tai odottamatta heikentää suorituskykyä", toteaa Google Researchin blogi.[1]

Kolme skaalauslakia: Ennakoitavissa olevia kuvioita agenttien parvissa

Tutkimus tiivisti havainnot kolmeen skaalauslakiin, joita tukivat ennustemallit (R²=0.513), jotka ennustavat optimaaliset arkkitehtuurit 87 %:lle tuntemattomista tehtävistä syötteillä kuten työkalujen määrä ja hajotettavuus.[2]

Laki 1: Työkalu-koordinaatio-kauppa (β=-0.330, p<0.001). Moniagentit kompastuvat työkalupainotteisiin tehtäviin; ylikuormitus räjähtää työkalujen kasvaessa, iskenyt tiimeihin kovemmin kuin sooloagentteihin. Workbenchissä ylimääräiset koordinaatiotokenit laimensivat keskittymistä, rangaisten keskittäntymättömiä rakenteita eniten.[5]

Laki 2: Ominaisuussaturaatio (β=-0.408, p<0.001). Jos yksittäinen agenttisi perustaso ylittää 45 % tarkkuuden, agenttien lisääminen tuottaa väheneviä tai negatiivisia tuottoja. Miksi? Vahvat soolot饱和 jo; tiimit lisäävät vain kohinaa. "Älä heitä hyviä agenteja huonojen perään", varoittaa Holistic AI.[6]

Laki 3: Topologia-riippuvainen virheiden vahvistuminen. Virheet leviävät ketjureaktiossa vertaisverkkoihin perustuvissa keskittäntymättömissä järjestelmissä mutta pysyvät kurissa keskitetyissä. MIT-tutkijat kutsuvat arkkitehtuuria "turvallisuusominaisuudeksi", joka rajoittaa leviämistä valvontakerrosten kautta.[3]

Pääasiallinen oppi: Käytä ennustemallia aikaisin. Anna syötteeksi tehtävän hajotettavuus (rinnakkainen vs. peräkkäinen) ja perustason suorituskyky simuloidaksesi ROI:n – välttäen 515 %:n token-paisumista epäsuhtauksissa.

Yrityskauppa: Keskitetty teho vs. keskittäntymätön joustavuus

Neuvotteluhuoneissa valinta tiivistyy tehtävän topologiaan. Rinnakkaiskelpoiset työnkulut – kuten talousdashboard, joka yhdistää tulojen ennusteita, kustannustarkastuksia ja markkaskannointeja – huutavat keskitettyä orkestrointia. Tässä MCP-protokollat loistavat, jakaen kontekstia hubin kautta siloisten estämiseksi, aivan kuten Up North AI:n pohjoismaisille pankeille suunnittelemat ESG-raporttien analyysit eri lainkäyttöalueilla.[1]

Käytännön esimerkki: Fortune 500 -yritys pilotoi agentteja kvartaalitulojen esikatsauksiin. Yksittäinen agentti osuu 42 %:n tarkkuuteen; keskitetty tiimi hyppää 72 %:iin (+80.9 %), kun orkestroija validioi alatehtäviä reaaliajassa.[4] Vaihda peräkkäiseen logistiikkasuunnitteluun (PlanCraft-tyyliin), ja suorituskyky romahtaa 39–70 % – "valtavat määrät", Fortune mukaan – loputtomien luovutusten syöessä ajatuksenketjua.[4]

Keskittäntymätön (A2A-vertaisviestintä) voittaa (+9.2 %) dynaamisissa ympäristöissä kuten verkkonavigoinnissa, jossa agentit sopeutuvat yhteistyössä pullonkaulojen ilman.[2] Silti virheet vahvistuvat 17-kertaiseksi itsenäisissä, ROI-tappajana vaatimuksille raskaille toimille. Hybrid? Keskinkertainen, mutta hyödyllinen sekakuormille.

Roheva ansa: Ylikuormitus skaalautuu yli線isesti. Yritykset sivuuttavat tämän omalla vastuullaan – kierrosluku ~n^1.724 tarkoittaa, että 10 agenttia voi vaatia 50-kertaista vuorovaikutusta, piikaten viivettä ja kustannuksia.

Käytännön opas: Vankkojen moniagenttijärjestelmien rakentaminen

Varusta tiimisi tällä päätöksenteon kehyksellä:

Arvioi hajotettavuus: Rinnakkainen (esim. analytiikka)? Mene keskitettyyn/MCP:hen. Peräkkäinen/dynaaminen? Testaa keskittäntymätöntä/A2A:ta tai pysy SAS:ssa.
Perustaso ensin: Jos yksittäinen agentti >45 %, optimoi se – tiimiä ei tarvita.
Pilotoi mittareilla: Seuraa virheiden vahvistumista (<5x), token-tehokkuutta (<200 % ylikuormitus) ja tehtävän onnistumista osajoukoilla. Käytä tutkimuksen mallia ennusteisiin.
Orkestroida fiksusti: Toteuta validointisilmukat keskitettyihin hubbeihin; rajoita työkalut 3–5:een per agentti.

Esimerkki: Ruotsalainen valmistusjohtaja ottaa käyttöön toimitusketjun triaasiin. Perustason SAS: 38 % rinnakkaisissa häiriöskannauksissa. Keskitetty MCP-parvi: +65 %, nappaa huomiotta jättämiä toimittajien riskejä delegoitujen tarkistusten kautta. Pilotit vahvistettu A/B-testeillä, skaalautuen tuotantoon EU AI Act -suojausten alla.

Pääasiallinen oppi: Aloita pienestä, mittaa ortogonaalisesti. Evaluaatio omilla benchmarkeilla, jotka heijastavat työnkulkujasi – talous pankeille, suunnittelu logistiikalle – ei leikkitehtävillä.

Pohjoismainen etu: EU-yhteensopiva agenttien orkestrointi kestävään skaalaukseen

Pohjoismaiset yritykset kuten Volvo tai Nokia johtavat AI-omaksumista, mutta EU AI Act vaatii jäljitettävyyttä ja riskien lievennystä. Keskitetyt topologiat sopivat täydellisesti: virheiden sisältö auditoitavien lokien kautta tukee korkeariskiluokituksia (esim. talous).[3]

Ammattilaiset suunnittelevat EU-yhteensopivia agenttijärjestelmiä Pohjoismaisessa mökissä fjordinäköalalla

Up North AI räätälöi tämän ruotsalaisille/suomalaisille yrityksille – agenttityövoiman suunnittelu yhdistää Google/MIT-lait MCP/A2A:n kanssa, varmistaen luottamusarvioinnit saturaatioriskien liputtamiseksi. Suomalaiset teleoperaattorit käyttävät keskittäntymätöntä A2A:ta verkkohäiriöiden metsästyksessä (+9 % parannuksia), keskitettyä MCP:tä laskutusauditoinneissa (81 % rinnakkaisparannus) – kaikki tulosharjoiteltu 10x tuottavuudelle ilman sääntely sakkoja.

"Koordinaation edut ovat tehtäväriippuvaisia", paperi toteaa.[2] Pohjoismaiden yhteistyökulttuurissa tämä tarkoittaa hybridipilotteja: laatu- & luottamusarvioinnit käyttöönoton edellä, tuottaen yhteensopivia parviparvia, jotka ylittävät USA:n vastineet, jotka kärsivät läpinäkyvyyden puutteesta.

Tuomio hypen sijaan: Tulosten insinööritoiminta agenttien aikakaudella

Moniagentti-AI ei ole pistoke-ja-pelaa – se on tuomiointipainotteista. Google/MIT-lait kumovat "skaalaa sokeasti" -myytin, varustaen johtajat 81 %:n buustereilla siellä missä ne lasketaan ja väistämällä 70 %:n pommit. Liitä tämä strategiaan: Auditoi perustasot, valitse topologiat ennustemallien kautta ja orkestroida MCP/A2A:lla vankkoihin työnkulkuihin.

Up North AI:ssa elämme iskulauseen mukaan: "Code is free. Judgment isn't." Pohjoismaiset yritykset, jotka skaalaavat agentteja, voittavat suunnittelulla – tuottaen luotettavia, korkean ROI:n järjestelmiä, jotka ovat yhteensopivia EU-sääntöjen kanssa ja taistelukokeiltuja yritystavoitteissa. Tulevaisuus kuuluu niille, jotka skaalaavat fiksusti, ei vain suuresti.

Lähteet

https://research.google/blog/towards-a-science-of-scaling-agent-systems-when-and-why-agent-systems-work
https://arxiv.org/abs/2512.08296
https://www.media.mit.edu/projects/towards-a-science-of-scaling-agent-systems-when-and-why-agent-systems-work/overview
https://fortune.com/2025/12/16/google-researchers-ai-agents-multi-agent-getting-them-to-work
https://evoailabs.medium.com/stop-blindly-scaling-agents-a-reality-check-from-google-mit-0cebc5127b1e
https://www.holisticai.com/blog/dont-throw-good-agents-after-bad

Haluatko syventyä?

Tutkimme tekoälyllä rakennetun ohjelmiston eturintamaa itse rakentamalla. Katso mihin olemme paneutuneet.

Katso projektimme