2026-02-245 mín lesning

Inni í rannsókninni: Gerðir, viðmið og skelfilegir niðurstöður

Inni í rannsókninni: Gerðir, viðmið og skelfilegir niðurstöður. Þrjú stækkunarlögmál: Fyrirsjáanleg mynstur í umboðsmaðasveitum.

orchestrationsafetyagentsMCPA2A

Inni í rannsókninni: Gerðir, viðmið og skelfilegir niðurstöður

Rannsóknin prófaði fimm gerðir—Einstaklingsumboðsmaðarkerfi (SAS), Óháð, Miðstýrt, Dreifstýrt og Blandað—með notkun leiðandi líkanna eins og GPT-5, Gemini-2.5 og Claude 4.5 á fjórum viðmiðum: Finance-Agent (fjármálahugsun), BrowseComp-Plus (vefskoðun), PlanCraft (raðrænt skipulag) og Workbench (verkfæranotkun).[2]

Hér er skyndimynd af frammistöðubreytingum miðað við SAS-grunnlínu:

| Viðmið | Besti fjölumboðsbæting | Versti niðurskurður | Leiðandi gerð | |--------------------|------------------------|---------------------|-------------------| | Finance-Agent | +80.9% | -17% | Miðstýrt | | BrowseComp-Plus | +9.2% | -12% | Dreifstýrt | | PlanCraft | Ekki hægt | -39% til -70% | Engin (öll verri)| | Workbench | +15% | -25% | Bland |

*Tafla: Helstu frammistöðubreytingar úr Google/MIT rannsókn. Miðstýrt brillear á sambíndandi verkefnum; allar gerðir mistekst á raðrænum.[1]

Miðstýrðar uppsetningar (miðpunktur-og-útsendur, með stjórnanda sem skiptir undirverkefnum eins og tekjuþróun eða kostnaðargreiningar) ríktu yfir sambíndandi vinnuslóðum. Í Finance-Agent klofnuðu umboðsmenn greiningu—markaðsþróun til eins, samkeppnisaðila til annars—og gáfu sameinaðar innsýn undir strangri samstýringu.[4] Að öðju leyti leiddu raðræn verkefni eins og PlanCraft til samstarfsyfirbyggingar, sem klofnuðu hugsun innan fasts token-fjárhags og hækkuðu ferlatíðni um n^1.724 þegar umboðsmenn stæddu.[2]

Villuhlutföll sögðu myrkari sögu: Óháð umboðsmenn margfalduðu mistök 17,2x, en miðstýrðar uppbyggingar takmarkuðu það við 4,4x með staðfestingargáttum—sem starfa sem innbyggt öryggisatriði.[3] „Fjölumboðsmannakerfi eru ekki alhæf lausn—þau geta annaðhvort stórlega aukið eða óvænt lækkað frammistöðu,“ segir Google Research blogg.[1]

Þrjú stækkunarlögmál: Fyrirsjáanleg mynstur í umboðsmaðasveitum

Rannsóknin dró saman innsýn í þrjú stækkunarlögmál, studd spádómum líkönum (R²=0.513) sem spá fyrir um bestu gerðir fyrir 87% óseyddra verkefna með inntökum eins og fjölda verkfæra og skiptanleika.[2]

Lögmál 1: Viðskipti verkfæra- og samstýringar (β=-0.330, p<0.001). Fjölumboðsmenn mistekst á verkfæratunglum verkefnum; yfirbygging sprengur þegar verkfæri fjölga, og slær lið harder en einn umboðsmaður. Í Workbench þynntu auknar samstýringartokens athygli, og refsóðu dreifstýrðar uppsetningar mest.[5]

Lögmál 2: Metnun getu (β=-0.408, p<0.001). Ef einstaklingsumboðsmaður grunnur fer yfir 45% nákvæmni, gefur bæting umboðsmanna minnkandi eða neikvæða ávöxtun. Af hverju? Sterkir einstaklingar eru þegar mettaðir; lið bæta bara hávaða. „Kastið ekki góðum umboðsmönnum eftir slæmum,“ varar Holistic AI.[6]

Lögmál 3: Villumagnun tengd uppbyggingu. Villur hrundu í jafningja-til-jafningja dreifstýrðum kerfum en halda sig í miðstýrðum. MIT-rannsakendur kalla gerð „öryggisatriði,“ sem takmarkar dreifingu gegnum eftirlitslög.[3]

Niðurstaða: Notið spádómalíkansins snemma. Setjið inn verkefniskiptanleika (sambíndandi vs. raðrænt) og grunnframmistöðu til að líkja eftir ROI—og forðist 515% tokenþenslu á ósamstæðum.

Fyrirtækjakaupmennskur: Miðstýrður kraftur gegn dreifðri sveigjanleika

Í stjórnarsalnum dreifist valið niður í verkefnauppbyggingu. Sambíndandi vinnuslóðir—eins og fjármála-skjáborð sem safnar tekjuútlitum, kostnaðarskoðunum og markaðsskönunum—kalla á miðstýrda samstýringu. Hér skín MCP-samningar, deila samhengi gegnum miðpunkt til að koma í veg fyrir einangrun, líkt og hönnun Up North AI fyrir norræn bönk sem greina ESG-skýrslur yfir lögsagnarumdæmi.[1]

Raunverulegt dæmi: Fortune 500-fyrirtæki prófar umboðsmenn fyrir forkynnir ársreikningum. Einstaklingsumboðsmaður nær 42% nákvæmni; miðstýrt lið stekkur í 72% (+80.9%), þar sem stjórnandinn staðfestir undirverkefni í rauntíma.[4] En skiptið yfir í raðrænt flutningsskipulag (PlanCraft-stíl), og frammistöðu hrappar 39-70%—„gríðarlegar upphæðir,“ samkvæmt Fortune—vegna endalausra handaframsendinga sem eyða keðjuhugsun.[4]

Dreifstýrt (A2A jafningja-samskipti) kemst yfir (+9.2%) á dynamic umhverfum eins og vefskoðun, þar sem umboðsmenn laga sig saman án flöskuháls.[2] En villur margfaldast 17x í óháðum, ROI-drepar fyrir samþykktarþungar aðgerðir. Bland? Miðlungs, en gagnlegt fyrir blandaðar álagur.

Djarft fallagildra: Yfirbygging stækkar oflínulega. Fyrirtæki hunsa þetta á eigin áhættu—ferlatíðni ~n^1.724 þýðir að 10 umboðsmenn gætu krafist 50x samskipta, sem hækkar seinkan og kostnað.

Hagnýt leiðsögn: Bygging traustra fjölumboðsmannakerfa

Væpnið lið ykkar með þessu ákvarðanarramma:

Metið skiptanleika: Sambíndandi (t.d. greiningar)? Farðu miðstýrt/MCP. Raðrænt/dynamískt? Prófið dreifstýrt/A2A eða haltu við SAS.
Grunnlínu fyrst: Ef einstaklingsumboðsmaður >45%, bætið það—ekkert lið þarf.
Prófið með mælikvarðum: Fylgist með villumagnun (<5x), token-virkni (<200% yfirbygging) og verkefnavillu á undirhlutum. Notið líkanið úr rannsókninni fyrir spár.
Stjórnið snilldarlega: Útfærið staðfestingarlykkjur í miðstýrðum miðpunktum; takmarkið verkfæri við 3-5 á umboðsmað.

Dæmi: Sænskur framkvæmdastjóri í iðnaði settir upp fyrir flutningskeðjuflokkun. Grunn SAS: 38% á sambíndandi truflunarskönunum. Miðstýrð MCP-sveit: +65%, greip yfirheyrda birgðarhættu gegnum útvistaðar athugunir. Prófanir staðfestar með A/B-prófunum, stækkað í framleiðslu undir EU AI Act varnarkerfum.

Niðurstaða: Byrjið lítið, mælið lóðrétt. Prófið á sérsniðnum viðmiðum sem endurspegla vinnuslóðir ykkar—fjármál fyrir bönka, skipulag fyrir flutninga—ekki leikfangaverkefni.

Norrænt yfirburði: EU-samþykkt umboðsmaðasamstýring fyrir sjálfbæra stækkun

Norræn fyrirtæki eins og Volvo eða Nokia leiða AI-tekt, en EU AI Act krefst rekjanleika og áhættuminnkun. Miðstýrðar uppbyggingar passa fullkomlega: villuhald gegnum endurskoðanlegar skrár styður hááhættuflokkun (t.d. fjármál).[3]

Up North AI sérsniður þetta fyrir sænsk/finnsk fyrirtæki—hönnun umboðsmaðavinnuafls sameinar Google/MIT-lögmál við MCP/A2A, og tryggir traustsskoðanir sem merkja metnunarhættur. Finnskir fjarskiptar nota dreifstýrt A2A fyrir nettruflanaveiðar (+9% bætingar), miðstýrt MCP fyrir reikningsskoðanir (81% sambíndandi aukning)—allt útkomu-hannað fyrir 10x framleiðni án reglufjárstraff.

„Samstýringargagn eru verkefnisfullaf,“ segir greinin.[2] Í norrænni samstarfsmenningu þýðir þetta blandaðar prófanir: gæði- og traustsskoðanir fyrir útgefðu, sem gefa samþykktar sveitur sem yfirburða bandarískum samkeppinautum þungbúnum ógegnsæi.

Dómur yfir uppblæstri: Hönnun útkoma í umboðsmaðartímanum

Fjölumboðs-AI er ekki tengið-og-spila—það er dómþungt. Google/MIT-lögmálin afsanna „stækkaðu blint“ goðsögnina, vopna leiðtoga til að setja upp 81% bætingar þar sem þær skipta máli og forðast 70% sprengjur. Tengið þetta við stefnu: Skoðið grunnlínu, veljið uppbyggingar gegnum spádómalíkön og stjórnið með MCP/A2A fyrir traust vinnuslóðir.

Hjá Up North AI endurspeglum við slagorðið: „Kóði er ókeypis. Dómur er það ekki.“ Norræn fyrirtæki sem stækka umboðsmenn vinna með hönnun—bæta traustum, há-ROI kerfum samþykktum EU-reglum og prófuðum á fyrirtækjahættum. Framtíðin tilheyrir þeim sem stækka snjallt, ekki bara stórt.

Heimildir

https://research.google/blog/towards-a-science-of-scaling-agent-systems-when-and-why-agent-systems-work
https://arxiv.org/abs/2512.08296
https://www.media.mit.edu/projects/towards-a-science-of-scaling-agent-systems-when-and-why-agent-systems-work/overview
https://fortune.com/2025/12/16/google-researchers-ai-agents-multi-agent-getting-them-to-work
https://evoailabs.medium.com/stop-blindly-scaling-agents-a-reality-check-from-google-mit-0cebc5127b1e
https://www.holisticai.com/blog/dont-throw-good-agents-after-bad

Viltu kafa dýpra?

Við hjálpum fyrirtækjum að breyta gervigreindaráætlun í virk kerfi. Tölum saman um þínar aðstæður.

Hefja samtal