NVIDIA Dynamo parandab voogesitust agentide töövoogude jaoks
Luisa Crawford 08. mai 2026, 16:34
NVIDIA Dynamo tutvustab uusi tööriistu kiiremate ja täpsemate agentide töövoogude jaoks, parandades tokenite voogesitust ja tööriistakutsete käsitlemist.
NVIDIA on avaldanud olulisi uuendusi oma Dynamo platvormis, mille eesmärk on optimeerida agentide töövoogusid täiustatud voogesituse, parsimise ja tööriistakutsete käsitlusega. Need uuendused keskenduvad vastusspeedi ja täpsuse parandamisele rakendustes, mis toetuvad mitmekordsetele interaktsioonidele, näiteks koodimisassistentidele ja muudele AI-põhistele tööriistadele.
Üheks olulisemaks uuenemiseks on voogesitava tööriistakutse saatmine. See uus funktsioon võimaldab tööriistakutsete täitmist kohe pärast nende dekodeerimist, ilma et tuleb oodata täieliku vastuse pöörde lõppemist. See muudatus kiirendab kasutajate jaoks aega esimese tokeni saamiseni (TTFT) ning kaotab ebamajanduslikkuse agentide töövoogudes, kus põhjendamine ja tööriista vastused on segatud.
Jõudluse parandus põhjustatud küsimuste stabiilsusest
Üheks põhialaseks paranduseks on küsimuste stabiilsus ja KV-cache taaskasutamine. Eemaldades seanssispetsiifilised sissejuhatused, näiteks Anthropic’i arvepidamise päised, tagab Dynamo ühtlase tokenite eesliitide kasutamise erinevates seanssides. See muudatus vähendas TTFT-d NVIDIA testides peaaegu viis korda – süsteemis, kus kasutati 52 000 tokenit pikkust küsimust, vähenes see 912 ms-lt 169 ms-ni.
Arendajate jaoks on stabiilsete eesliitide säilitamine oluline, kui suuri ja keerukaid küsimusi töödeldakse mitmes kasutajaseanssis. Need optimeerimised on eriti väärtuslikud agentide mudelite jaoks, näiteks Claude Code ja Codex, mille puhul on funktsioneerimiseks olulised täpsed ja korduvad interaktsioonid.
Täiustatud parsimine keerukamate interaktsioonide jaoks
Dynamo on ka täiustanud oma põhjendus- ja tööriistakutsete parsereid, eraldades need taaskasutatavateks mooduliteks. See võimaldab arendajatel saavutada parema kooskõla parsitud väljundite ja harnessi nõuetega. Uuendused lahendavad pikaaegset probleemi, kus varasem põhjendus jäeti kas kõrvale või oli vigaselt vormistatud mitmekordsete interaktsioonide ajal. Agentide töövoogudes, kus põhjendus selgitab tööriistakutsete järjestust, on struktureeritud põhjenduse säilitamine kriitiliselt oluline.
Näiteks demonstreeris NVIDIA, kuidas nüüd selle Nemotron-3-Super-120B mudel suudab efektiivsemalt töödelda segatud põhjendusi ja tööriistakutseid, tagades, et iga põhjendussegment jääb õigesti seotuks vastava tööriistategevusega. See takistab probleeme, kus põhjendus oli varem valesti rühmitatud ja kontekst läks kaduma.
Voogesitusviis ja tööriistakutsete saatmine
Teine oluline parandus on võimalus voogesitada tokeniseeritud vastuseid samal ajal, kui tööriistakutseid saadetakse kõrvalkanali kaudu. Varasemalt salvestati tööriistakutsed vastuse lõppeni, mis viibis täitmise. Uue sisestatava voogesituse ja saatmisvõimalusega saavad tööriistakutsed täitmiseks koheselt pärast nende parsimist, oluliselt parandades reaalajas rakenduste vastusspeedi.
NVIDIA illustreeris seda ajaskaala võrdlusega, mis näitab, kuidas Dynamo nüüd parsib ja voogesitab tööriistakutseid vastuse keskel, võimaldades kohe täitmist. See ümberehitus vähendab harnessi poolel olevat keerukust ja tagab sujuva integratsiooni kohandatud süsteemidega.
Parandatud API-kokkusobivus
Uuendused parandavad ka Dynamo kokkusobivust Anthropic Messages API-ga, mis on kriitiliselt oluline tööriistade jaoks nagu Claude Code ja OpenClaw. Parandused hõlmavad õiget tokenite loendamist voogesituse alguses ja võimalust teenindada mudeli metaandmete lõpp-punkte, mis toob Dynamo lähemale nativaalsele tagaosalisele võrdväärsusele.
Codex-i kasutajate jaoks on parandatud ka kokkusobivust OpenAI Responses API-ga. NVIDIA on lahendanud välimiste päringute töötlemisel tekkida võinud väljade säilitamise probleemid, tagades, et Codex-ile iseloomulikud funktsioonid – näiteks põhjenduste kokkuvõtted ja tööriistakutsete lühendamine – on toetatud ilma jõudluse halvenemiseta.
Mis edasi
Tulevikus teeb NVIDIA osa Dynamo teenindusstackist saadaval modulaarsete komponentidena, sealhulgas protokoll-, parser- ja tokenizer-crated. See modulaarsus võimaldab arendajatel luua kohandatud harnessid või laiendada olemasolevaid ilma Dynamo tuumafunktsioonide duplitseerimiseta.
Need uuendused seab Dynamo juhtivaks lahenduseks agentide töökoormuste jaoks, võimaldades tõhusamaid ja täpsemi mitmekordseid interaktsioone laia valdkonna rakendustes. Arendajate ja ettevõtete jaoks, kes toetuvad AI-põhistele tööriistadele, pakuvad need täiendused usaldusväärsemat ja kõrgema jõudlusega infrastruktuuri ülesannete jaoks nagu koodimine, andmeanalüüs ja palju muud.
Pildi allikas: Shutterstock- nvidia
- ai tools
- agentic workflows
- token streaming








