2026-02-245 min lesning

Innblikk i studien: Arkitekturer, benchmarks og sjokkerende resultater

Innblikk i studien: Arkitekturer, benchmarks og sjokkerende resultater. De tre skaleringlovene: Forutsigbare mønstre i agent-svermer.

orchestrationsafetyagentsMCPA2A

Innblikk i studien: Arkitekturer, benchmarks og sjokkerende resultater

Forskningen testet fem arkitekturer—Single-Agent System (SAS), Independent, Centralized, Decentralized og Hybrid—ved bruk av grensemodeller som GPT-5, Gemini-2.5 og Claude 4.5 på fire benchmarks: Finance-Agent (finansielt resonnering), BrowseComp-Plus (nettlesing), PlanCraft (sekvensiell planlegging) og Workbench (verktøybruk).[2]

Her er et utdrag av ytelsesforskjeller mot SAS-baselinen:

| Benchmark | Beste multi-agent forbedring | Verste forverring | Beste arkitektur | |--------------------|------------------------------|-------------------|---------------------| | Finance-Agent | +80.9% | -17% | Centralized | | BrowseComp-Plus | +9.2% | -12% | Decentralized | | PlanCraft | N/A | -39% til -70%| Ingen (alle dårligere) | | Workbench | +15% | -25% | Hybrid |

Tabell: Viktige ytelsesendringer fra Google/MIT-studien. Sentralisert utmerker seg på parallelle oppgaver; alle varianter presterer dårlig på sekvensielle.[1]

Sentraliserte oppsett (hub-and-spoke, med en orkestrator som delegerer underoppgaver som inntektsutvikling eller kostnadsoppdeling) dominerte parallelle arbeidsbelastninger. I Finance-Agent delte agentene analysen—markedsutvikling til én, konkurrenter til en annen—og ga sammensatte innsikter under tett koordinering.[4] Omvendt led sekvensielle oppgaver som PlanCraft under kommunikasjonskostnader, som fragmenterte resonneringen innenfor faste token-budsjetter og økte antall runder med n^1.724 når antall agenter skalerte.[2]

Feilratene fortalte en mørkere historie: Uavhengige agenter forsterket feil 17,2 ganger, mens sentraliserte topologier begrenset det til 4,4 ganger via valideringsporter—som fungerte som en innebygd sikkerhetsfunksjon.[3] «Multi-agentsystemer er ikke en universell løsning—de kan enten betydelig forbedre eller uventet forverre ytelsen,» bemerkes det i Google Research-bloggen.[1]

De tre skaleringlovene: Forutsigbare mønstre i agent-svermer

Studien destillerte innsikter i tre skaleringlover, støttet av prediktive modeller (R²=0.513) som forutsier optimale arkitekturer for 87 % av ukjente oppgaver basert på inndata som antall verktøy og dekomponeringbarhet.[2]

Lov 1: Verktøy-koordineringskompromiss (β=-0.330, p<0,001). Multi-agenter svikter på verktøytunge oppgaver; kostnadene eksploderer når verktøyene multipliseres, og rammer team hardere enn solo-agenter. I Workbench fortynnet ekstra koordineringstokener fokuset og straffet desentraliserte oppsett mest.[5]

Lov 2: Kapasitetsmetning (β=-0.408, p<0,001). Hvis enkeltagent-baselinen din overstiger 45 % nøyaktighet, gir tillegg av agenter avtagende eller negative avkastninger. Hvorfor? Sterke solo-agenter metner allerede; team legger bare til støy. «Ikke kast gode agenter etter dårlige,» advarer Holistic AI.[6]

Lov 3: Topologiavhengig feilforsterkning. Feil kaskader i peer-to-peer desentraliserte systemer, men begrenses i sentraliserte. MIT-forskere kaller arkitektur en «sikkerhetsfunksjon» som begrenser spredning gjennom tilsynslag.[3]

Hovedpoeng: Bruk den prediktive modellen tidlig. Inndata oppgavens dekomponeringbarhet (parallell vs. sekvensiell) og baseline-ytelse for å simulere ROI—unngå 515 % token-oppblåsing ved feiltreff.

Bedriftsavveininger: Sentralisert kraft vs. desentralisert fleksibilitet

I styresaler koker valget ned til oppgavestopologi. Parallelliserbare arbeidsflyter—som et finansdashboard som aggregerer inntektsprognoser, kostnadsrevisjoner og markedsanalyser—roper etter sentralisert orkestrering. Her skinner MCP-protokoller, som deler kontekst via en hub for å unngå silotenkning, akkurat som Up North AIs design for nordiske banker som analyserer ESG-rapporter på tvers av jurisdiksjoner.[1]

Eksempel fra virkeligheten: Et Fortune 500-selskap tester agenter for kvartalsvise resultatforhåndsvisninger. Enkeltagent når 42 % nøyaktighet; sentralisert team hopper til 72 % (+80,9 %), siden orkestratoren validerer underoppgaver i sanntid.[4] Men bytt til sekvensiell logistikplanlegging (PlanCraft-stil), og ytelsen stuper 39–70 %—«enormt mye», ifølge Fortune—på grunn av endeløse håndover som eroderer tankekjeden.[4]

Desentralisert (A2A peer-kommunikasjon) slår seg løs (+9,2 %) på dynamiske miljøer som nettlesing, der agenter tilpasser seg samarbeidsbasert uten flaskehals.[2] Likevel forsterkes feil 17 ganger i uavhengige oppsett, en ROI-dreper for compliance-tunge operasjoner. Hybrid? Middels, men nyttig for blandede belastninger.

Viktig fallgruve: Kostnadene skalerer superlineært. Bedrifter ignorerer dette på egen risiko—antall runder ~n^1.724 betyr at 10 agenter kan kreve 50 ganger flere interaksjoner, noe som øker latens og kostnader.

Praktisk veiledning: Bygge robuste multi-agentsystemer

Rust opp teamene dine med dette beslutningsrammeverket:

Vurder dekomponeringbarhet: Parallell (f.eks. analyser)? Gå for sentralisert/MCP. Sekvensiell/dynamisk? Test desentralisert/A2A eller hold deg til SAS.
Baseline først: Hvis enkeltagent >45 %, optimaliser den—ingen team nødvendig.
Pilottest med målinger: Spor feilforsterkning (<5x), token-effektivitet (<200 % kostnadsøkning) og oppgavesuksess på delsett. Bruk studiens modell for prediksjoner.
Orkestrer smart: Implementer valideringsløkker i sentraliserte huber; begrens verktøy til 3–5 per agent.

Eksempel: En svensk produksjons-VP ruller ut for triagering av forsyningskjeden. Baseline SAS: 38 % på parallelle forstyrrelsesanalyser. Sentralisert MCP-sverm: +65 %, fanger oversette leverandørrisikoer via delegert sjekk. Piloter bekreftet via A/B-tester, skalerbar til produksjon under EU AI Act-sikringer.

Hovedpoeng: Start lite, mål orthogonal. Evaluer på egne benchmarks som speiler arbeidsflytene dine—finans for banker, planlegging for logistikk—ikke lekeoppgaver.

Nordisk fordel: EU-kompatibel agent-orkestrering for bærekraftig skalering

Nordiske selskaper som Volvo eller Nokia leder AI-adopsjonen, men EU AI Act krever sporing og risikoredusering. Sentraliserte topologier passer perfekt: feilbegrensning via auditerbare logger støtter høyrisikoklassifiseringer (f.eks. finans).[3]

Profesjonelle som utarbeider strategi for EU-kompatible agentsystemer i en nordisk hytte med utsikt over fjorden

Up North AI tilpasser dette for svenske/finske bedrifter—agent-arbeidskraftdesign smelter sammen Google/MIT-lover med MCP/A2A, og sikrer tillitsvurderinger som flagger metningsrisikoer. Finske teleselskaper bruker for eksempel desentralisert A2A for jakt på nettverksavvik (+9 % gevinst), sentralisert MCP for faktureringsrevisjoner (81 % parallell forbedring)—alt resultatorientert for 10x produktivitet uten regulatoriske bøter.

«Koordineringsfordelene er oppgaveavhengige,» heter det i artikkelen.[2] I nordisk samarbeids-kultur betyr dette hybride piloter: kvalitets- og tillitsvurderinger før utrulling, som gir compliant svermer som overgår amerikanske motparter belastet av manglende åpenhet.

Bedømmelse fremfor hype: Ingeniørresultater i agenttiden

Multi-agent AI er ikke plug-and-play—det er bedømmelsesintensivt. Google/MIT-lovene avkrefter «skaler blindt»-myten, og utstyrer ledere til å rulle ut 81 % forsterkere der det teller og unngå 70 % bomber. Knytt dette til strategi: Auditér baselines, velg topologier via prediktive modeller, og orkestrer med MCP/A2A for robuste arbeidsflyter.

Hos Up North AI lever vi slagordet: «Kode er gratis. Bedømmelse er det ikke.» Nordiske bedrifter som skalerer agenter vinner ved design—de leverer pålitelige, høyt ROI-systemer i samsvar med EU-regler og testet på bedriftsnivå. Fremtiden tilhører de som skalerer smart, ikke bare stort.

Kilder

https://research.google/blog/towards-a-science-of-scaling-agent-systems-when-and-why-agent-systems-work
https://arxiv.org/abs/2512.08296
https://www.media.mit.edu/projects/towards-a-science-of-scaling-agent-systems-when-and-why-agent-systems-work/overview
https://fortune.com/2025/12/16/google-researchers-ai-agents-multi-agent-getting-them-to-work
https://evoailabs.medium.com/stop-blindly-scaling-agents-a-reality-check-from-google-mit-0cebc5127b1e
https://www.holisticai.com/blog/dont-throw-good-agents-after-bad

Vil du gå dypere?

Vi utforsker fronten av AI-bygd programvare ved å faktisk bygge den. Se hva vi jobber med.

Se prosjektene våre