Robotické rameno interagujúce s objektmi pomocou modelu videnia, jazyka a akcie AI
RT-2Modely videnia, jazyka a akcieAI v robotikeRiadenie robotovTeleoperácia

RT-2: Ako modely videnia, jazyka a akcie prenášajú webové znalosti do riadenia robotov

Tím AY-RobotsDecember 27, 202512

Objavte, ako model videnia, jazyka a akcie RT-2 od spoločnosti Google revolucionalizuje riadenie robotov prenosom webových znalostí do fyzických akcií. Získajte informácie o jeho architektúre, tréningových metódach, vznikajúcich schopnostiach a dôsledkoch pre robotické spoločnosti a operátorov, vrátane integrácie s teleoperáciou pre efektívny tréning AI.

Pochopenie modelu RT-2 pre videnie, jazyk a akciu

RT-2 rozširuje modely videnia a jazyka tým, že zahŕňa výstupy akcií ako tokeny, čo umožňuje komplexnú predikciu robotických akcií z vizuálnych a textových vstupov. Táto Architektúra VLA považuje robotické akcie za súčasť slovníka jazykového modelu, čo umožňuje bezproblémovú integráciu priestorov videnia, jazyka a akcie. RT-2: Modely videnia, jazyka a akcie prenášajú webové znalosti do ro

Vo svojom jadre RT-2 využíva architektúry založené na transformeroch, ako sú PaLM-540B alebo PaLI-X, v kombinácii s vizuálnymi kodérmi ako ViT na spracovanie obrazových vstupov. Spoločným dolaďovaním na dátových súboroch webového rozsahu spolu s dátami o robotických trajektóriách zo zdrojov ako Bridge alebo RoboNet, RT-2 prenáša internetové znalosti do fyzického riadenia robota. Táto metóda dosahuje pozoruhodnú generalizáciu, pričom benchmarky ukazujú viac ako 2-násobné zlepšenie v manipulácii s nepoznanými objektmi a prostrediami v porovnaní s RT-1. RT-2: Modely videnia, jazyka a akcie prenášajú webové znalosti do ro

Sila akcií ako tokenov v RT-2

Škálovanie tréningu vašich robotov s globálnymi operátormi

Pripojte svojich robotov k našej celosvetovej sieti. Získajte zber dát 24/7 s ultra nízkou latenciou.

Začať

Prístup Akcie ako tokeny v RT-2 je revolučný. Reprezentovaním akcií robota – ako sú rýchlosti kĺbov alebo pozície koncových efektorov – ako tokenov v slovníku jazykového modelu, RT-2 umožňuje bezproblémový prenos vedomostí z webu do fyzického riadenia. To zvyšuje škálovateľnosť pre nasadenie viacerých robotov, čo je ideálne pre robotické spoločnosti, ktoré chcú optimalizovať svoje flotily. Uzemnené dekódovanie: Vedenie generovania textu uzemnenými modelmi

Napríklad, prostredníctvom promptovania reťazca myšlienok, RT-2 zlepšuje uvažovanie pre komplexné úlohy, čo umožňuje robotom vykonávať nové akcie, ktoré neboli v tréningových dátach. To je obzvlášť výhodné pre Tréning AI pre robotické úlohy , kde vznikajúce schopnosti, ako je pochopenie sémantických vzťahov z webových dát, môžu viesť k improvizovaným riešeniam. Open X-Embodiment: Súbory dát pre robotické učenie a modely RT-X

Ako ukázali demonštrácie, RT-2 dokáže spracovať inštrukcie zahŕňajúce nepoznané objekty, pričom využíva predtrénované znalosti z rozsiahlych internetových dátových súborov. To znižuje potrebu rozsiahlych dát špecifických pre úlohu, čo potenciálne znižuje náklady na zber dát až o 90 % pre začínajúce robotické firmy. RT-X: Open X-Embodiment Models

Vznikajúce schopnosti a aplikácie v reálnom svete

undefined: pred vs po virtuálnom inscenovaní

Jedným z najzaujímavejších aspektov RT-2 sú jeho Vznikajúce schopnosti v robotike. Tie zahŕňajú viacstupňové uvažovanie, ako napríklad improvizované používanie nástrojov alebo pochopenie sémantických konceptov ako „vyhynutý dinosaurus“ na identifikáciu hračky. Takéto schopnosti vyplývajú z tréningu modelu na rôznorodých webových dátach, čo umožňuje robotom zovšeobecňovať na nové prostredia. Nová AI od Google DeepMind dokáže ovládať roboty

V praxi RT-2 preukazuje robustnosť s úspešnosťou až 80 % pri náročných úlohách. Pre operátorov robotiky to znamená zlepšenú produktivitu v priemyselných prostrediach, pričom poznatky ukazujú 2-3-násobné zvýšenie miery dokončenia úloh. Okrem toho, znížením závislosti od ľudskej teleoperácie pri tréningu, modely VLA ako RT-2 zlepšujú efektivitu a znižujú prevádzkové náklady. Google DeepMind predstavuje RT-2, transformačný AI model pre roboty

  1. Krok 1: Predtrénujte na textoch a obrázkoch z webu pre široké znalosti.
  2. Krok 2: Spoločne dolaďte s robotickými súbormi údajov ako Bridge pre integráciu akcií.
  3. Krok 3: Nasadzujte v reálnych scenároch pre testovanie nových zručností.

Tieto schopnosti tiež zvyšujú návratnosť investícií pri nasadení robotickej AI , keďže roboty sa prispôsobujú dynamickým prostrediam, prinášajúc návratnosť do 6-12 mesiacov vďaka zníženým poruchám hardvéru a zvýšenej prispôsobivosti. Výzva na reťazec myšlienok vyvoláva uvažovanie vo veľkých jazykových M

Efektívnosť dát a tréningové metódy

Začnite zbierať tréningové dáta pre roboty už dnes

Naši vyškolení operátori ovládajú vašich robotov na diaľku. Vysoko kvalitné demonštrácie pre vaše modely AI.

Vyskúšajte zadarmo

Tréning RT-2 využíva rozsiahle predtrénovanie na internetových dátach, doladené s robotickými súbormi dát. Toto Efektívnosť dát v modeloch VLA minimalizuje potrebu drahej teleoperácie v reálnom svete, podporujúc efektívny zber dát prostredníctvom web scraping-u a simulácie.

AspektRT-1RT-2
Zlepšenie generalizácieZákladná úroveňViac ako 2x
Miera úspešnosti pri nových úlohách~40%Až 80%
Potenciál zníženia dátŠtandardAž 90%

Pre robotické spoločnosti to znamená škálovateľný tréning AI, kde malé súbory dát špecifické pre roboty postačujú na doladenie, čo ponúka rýchlu návratnosť investícií prostredníctvom rýchleho prototypovania.

Integrácia teleoperácie s RT-2 pre optimálne výsledky

Zatiaľ čo RT-2 znižuje potrebu rozsiahlych dát, teleoperácia zostáva kľúčová pre vysokokvalitné robotické súbory dát. Platformy ako AY-Robots poskytujú Osvedčené postupy teleoperácie robotov, spájajúc roboty s globálnou sieťou operátorov pre zber dát 24/7.

Operátori môžu získať konkurencieschopné sadzby prostredníctvom Potenciál zárobku pri zbere robotických dát, zatiaľ čo spoločnosti profitujú z praktických pracovných postupov, ktoré integrujú teleoperáciu s modelmi AI ako RT-2.

Nástroje ako Robotický operačný systém (ROS) a platformy na označovanie dát ako Scale AI zlepšujú túto integráciu, zabezpečujúc dátovú efektivitu a robustnosť modelu.

Obmedzenia a budúce smery

nedefinované: pred vs po virtuálnom inscenovaní

Potrebujete viac tréningových dát pre vašich robotov?

Profesionálna teleoperačná platforma pre robotický výskum a vývoj AI. Platba za hodinu.

Pozrieť cenník

Napriek svojim silným stránkam má RT-2 obmedzenia, vrátane závislosti od vysokokvalitných robotických dát a výziev pri dlhodobých úlohách bez explicitného plánovania. Budúca práca môže zahŕňať moduly z modelov ako Inner Monologue pre lepšie plánovanie.

Napriek tomu RT-2 otvára cestu pre Škálovateľný tréning robotickej AI, najmä v kombinácii s teleoperáciou pre neustále zdokonaľovanie dát.

Analýza návratnosti investícií pre nasadenie robotiky

Investovanie do modelov VLA ako RT-2 môže priniesť značné výnosy. Umožnením zovšeobecnenia na nepoznané prostredia znižuje náklady na preškolenie a zlepšuje efektivitu úloh.

MetrikaTradičné modelyRT-2 VLA
Časová os návratnosti investícií12-24 mesiacov6-12 mesiacov
Zvýšenie miery dokončenia úloh1x2-3x
Zníženie nákladov na zber dátMinimálneAž 90%

Pre startupy to znamená rýchlejšiu iteráciu a nasadenie, podporované nástrojmi pre Teleoperáciu a integráciu AI .

Záver: Budúcnosť riadenia robotov s RT-2

Automatické prepnutie pri zlyhaní, nulové prestoje

Ak sa operátor odpojí, okamžite prevezme kontrolu iný. Váš robot nikdy neprestane zbierať dáta.

Zistiť viac

Schopnosť RT-2 prenášať webové znalosti do riadenia robotov znamená novú éru v robotike. So svojou architektúrou VLA, akciami ako tokenmi a novými schopnosťami ponúka výskumníkom v robotike, AI inžinierom, spoločnostiam a operátorom výkonné nástroje pre inovácie.

V AY-Robots sme nadšení z integrácie RT-2 s našou teleoperačnou platformou, aby sme vám pomohli dosiahnuť Praktické pracovné postupy pre operátorov robotov. Začnite optimalizovať svoju robotickú AI už dnes.

Pochopenie architektúry VLA v RT-2

nedefinované: pred vs po virtuálnom inscenovaní

Architektúra VLA, alebo model Videnie-Jazyk-Akcia, predstavuje prelomový prístup v robotickej AI. Vo svojom jadre RT-2 integruje spracovanie videnia a jazyka s generovaním akcií, čo umožňuje robotom interpretovať a konať na základe komplexných inštrukcií odvodených z dát webového rozsahu. Táto architektúra stavia na predchádzajúcich modeloch ako PaLM-E, čo umožňuje bezproblémový prenos vedomostí z rozsiahlych internetových dátových súborov do riadenia robotov v reálnom svete.

Jednou z kľúčových inovácií v architektúre VLA je zjednotenie senzorických vstupov. Vizuálne dáta z kamier sú spracovávané spolu s popismi v prirodzenom jazyku, čím sa vytvárajú vykonateľné výstupy. Táto multimodálna integrácia zvyšuje schopnosť modelu zvládať rôznorodé úlohy bez rozsiahleho tréningu špecifického pre danú úlohu, ako je podrobne uvedené v blogovom príspevku DeepMind o RT-2.

  • Fúzia vizuálnych transformátorov pre porozumenie obrazu
  • Jazykové modely pre sémantické uvažovanie
  • Akčné tokenizéry, ktoré mapujú predikcie na pohyby robota
  • Škálovateľné tréningové pipeline využívajúce webové znalosti

Akcie ako tokeny: Kľúčový mechanizmus

Prístup „akcie ako tokeny“ je kľúčový pre funkčnosť RT-2. Namiesto toho, aby RT-2 považoval akcie za samostatné entity, kóduje ich ako tokeny v slovníku jazykového modelu. To umožňuje modelu predpovedať sekvencie akcií rovnakým spôsobom, ako generuje text, ako je preskúmané v pôvodnom článku o RT-2.

Táto metóda uľahčuje vznikajúce schopnosti v robotike tým, že umožňuje robotom vykonávať nové úlohy, na ktoré neboli explicitne trénované. Napríklad reťazenie jednoduchých akcií naučených z webových dát môže viesť ku komplexnému správaniu, ako je triedenie objektov na základe abstraktných popisov.

FunkciaRT-1RT-2
Tréningové dátaPredovšetkým robotické demonštrácieWebové vizuálno-jazykové dáta + robotické dáta
Reprezentácia akciíDiskrétne akcieAkcie ako tokeny v jazykovom priestore
GeneralizáciaObmedzené na známe úlohyVznikajúce schopnosti pre neznáme scenáre
EfektívnosťVysoké nároky na dátaZlepšená dátová efektívnosť

Výhody pre riadenie robotov

Implementácia akcií ako tokenov zlepšuje riadenie robotov na základe webových znalostí, čo umožňuje AI čerpať z miliárd online príkladov. Táto paradigma prenosového učenia je kľúčová pre tréning AI pre robotické úlohy, znižujúc čas a náklady spojené s tradičnými metódami.

Vznikajúce schopnosti a aplikácie v reálnom svete

RT-2 demonštruje vznikajúce schopnosti, kde model prejavuje zručnosti nad rámec svojich tréningových dát. Napríklad, dokáže uvažovať o možnostiach objektov alebo reťaziť myšlienky pre viacstupňové plánovanie, inšpirované technikami v promptovanie reťazca myšlienok.

Tieto schopnosti otvárajú dvere praktickým aplikáciám, vrátane integrácie s teleoperačnými systémami. Kombináciou AI s ľudským dohľadom môžu operátori dosiahnuť vyššiu návratnosť investícií (ROI) pri nasadení robotickej AI prostredníctvom efektívneho vykonávania úloh.

  1. Zbierajte rôznorodé súbory dát prostredníctvom platforiem ako
  2. .
  3. Trénujte modely pomocou škálovateľných frameworkov z
  4. .
  5. Integrujte teleoperáciu pre jemné doladenie, dodržiavajúc osvedčené postupy v robotickej teleoperácii.
  6. Nasadiť v reálnych scenároch na meranie výkonu a ROI.

Pochopenie architektúry VLA v RT-2

Architektúra VLA (Vision-Language-Action) v RT-2 predstavuje významný skok v riadení robotov z webových znalostí. Integráciou vizuálnych a jazykových modelov s akčnými výstupmi umožňuje RT-2 robotom interpretovať a konať podľa komplexných inštrukcií odvodených z rozsiahlych internetových dát. Táto architektúra stavia na predchodcoch ako PaLM-E a Inner Monologue modeloch, čo umožňuje bezproblémový prenos znalostí.

Vo svojom jadre, VLA architecture spracováva vizuálne vstupy spolu s výzvami v prirodzenom jazyku na generovanie tokenizovaných akcií. Tento actions-as-tokens prístup považuje pohyby robota za súčasť slovníka jazykového modelu, čím zlepšuje scalable robot AI training.

Vznikajúce schopnosti v robotike s RT-2

RT-2 predstavuje emergent capabilities in robotics ktoré vznikajú tréningom na dátových súboroch webového rozsahu. Patria sem uvažovanie typu „reťazec myšlienok“ pre úlohy ako triedenie objektov podľa farby alebo veľkosti, ako je preskúmané v Chain of Thought Prompting. Roboty sa teraz dokážu zovšeobecniť na nepoznané scenáre, čím zlepšujú data efficiency in VLA models.

  • Zlepšené rozpoznávanie objektov z webových obrázkov, čím sa znižuje potreba špecializovaných tréningových dát.
  • Vznikajúce viacstupňové plánovanie, ktoré robotom umožňuje zvládať nové úlohy bez explicitného programovania.
  • Zvýšená bezpečnosť prostredníctvom rozhodovania založeného na jazyku, minimalizujúca chyby v dynamických prostrediach.

Integrácia RT-2 s teleoperáciou a integráciou AI umožňuje operátorom vzdialene viesť roboty, zatiaľ čo sa model učí v reálnom čase. Osvedčené postupy z modelov RT-X zdôrazňujú efektívny zber dát, čím posilňujú tréningové dáta AI pre roboty.

ROI v nasadení robotickej AI

Nasadenie RT-2 ponúka značnú návratnosť investícií v nasadení robotickej AI znížením nákladov na manuálne programovanie. Podľa MIT Technology Review, organizácie môžu dosiahnuť až o 50 % rýchlejšiu adaptáciu úloh, čo sa premieta do vyššej produktivity.

AspektVýhody RT-2Porovnanie s RT-1
Tréningové dátaVizuálno-jazykové dáta v rozsahu webuObmedzené na datasety špecifické pre roboty
Generovanie akciíAkcie ako tokeny pre plynulé ovládanieDiskrétne akčné priestory
Vznikajúce schopnostiUvažovanie reťazca myšlienokZákladné vykonávanie úloh
Potenciál ROIVysoký, so škálovateľným nasadenímMierny, vyžaduje viac teleoperácie

Pre tých, ktorí sa venujú osvedčeným postupom v robotickej teleoperácii, RT-2 sa integruje s nástrojmi ako Bridge Dataset pre efektívne pracovné postupy. To nielen zefektívňuje operácie, ale otvára aj potenciál zárobku pri zbere robotických dát prostredníctvom úloh teleoperácie na voľnej nohe.

Praktické pracovné postupy pre operátorov robotov

Operátori môžu využívať nástroje pre teleoperáciu ako sú tie z RoboNet na zber vysokokvalitných dát. Typický pracovný postup zahŕňa počiatočné teleoperačné sedenia nasledované jemným doladením AI, ako je podrobne opísané v RT-2 study.

  1. Nastavte teleoperačné rozhranie s kompatibilným hardvérom.
  2. Zbierajte rôznorodé akčné dáta v rôznych prostrediach.
  3. Jemne dolaďte model VLA pomocou zozbieraných dátových sád.
  4. Nasadiť a monitorovať pre vznikajúce schopnosti.

Tento prístup zabezpečuje praktické pracovné postupy pre operátorov robotov , maximalizuje efektivitu a je v súlade s vizuálno-jazykovými modelmi pre riadenie robotov pokrokmi.

Videos

Ready for high-quality robotics data?

AY-Robots connects your robots to skilled operators worldwide.

Get Started