En robotarm som samhandler med objekter ved hjelp av AI vision-language-action-modell
RT-2Vision-Language-Action-modellerRobotikk AIRobotkontrollTeleoperasjon

RT-2: Hvordan Vision-Language-Action-modeller overfører webkunnskap til robotkontroll

AY-Robots TeamOctober 15, 202312

Oppdag hvordan Googles RT-2 Vision-Language-Action-modell revolusjonerer robotkontroll ved å overføre webkunnskap til fysiske handlinger. Lær om dens arkitektur, treningsmetoder, fremvoksende evner og implikasjoner for robotikkbedrifter og operatører, inkludert integrasjon med teleoperasjon for effektiv AI-trening.

Forstå RT-2 Vision-Language-Action-modellen

RT-2 utvider vision-language-modeller ved å inkludere handlingsutdata som tokens, noe som muliggjør prediksjon av robotiske handlinger fra visuelle og tekstlige innganger fra ende til annen. Denne VLA-arkitekturen behandler robothandlinger som en del av språkmodellens vokabular, noe som muliggjør sømløs integrering av syn, språk og handlingsrom. RT-2: Vision-Language-Action-modeller overfører webkunnskap til Ro

I kjernen bruker RT-2 transformatorbaserte arkitekturer, som PaLM-540B eller PaLI-X, kombinert med synskodere som ViT for behandling av bildeinnganger. Ved å samfinjustere på web-skala datasett sammen med robotbane data fra kilder som Bridge eller RoboNet, overfører RT-2 internettkunnskap til fysisk robotkontroll. Denne metoden oppnår bemerkelsesverdig generalisering, med benchmarks som viser over 2x forbedring i håndtering av usynlige objekter og miljøer sammenlignet med RT-1. RT-2: Vision-Language-Action-modeller overfører webkunnskap til Ro

Kraften i handlinger-som-tokens i RT-2

Skaler robottreningen din med globale operatører

Koble robotene dine til vårt verdensomspennende nettverk. Få 24/7 datainnsamling med ultralav latens.

Kom i gang

Tilnærmingen Handlinger-som-tokens i RT-2 er revolusjonerende. Ved å representere robothandlinger – som leddhastigheter eller endeeffektorposisjoner – som tokens i språkmodellens vokabular, tillater RT-2 sømløs overføring av web-skala kunnskap til fysisk kontroll. Dette forbedrer skalerbarheten for multi-robot distribusjoner, noe som gjør det ideelt for robotikkbedrifter som ønsker å optimalisere sine flåter. Grounded Decoding: Guiding Text Generation with Grounded Models

For eksempel, gjennom chain-of-thought prompting, forbedrer RT-2 resonnement for komplekse oppgaver, slik at roboter kan utføre nye handlinger som ikke er sett i treningsdata. Dette er spesielt gunstig for AI-trening for robotikkoppgaver , der fremvoksende evner som å forstå semantiske forhold fra webdata kan føre til improviserte løsninger. Open X-Embodiment: Robotiske læringsdatasett og RT-X-modeller

Som vist i demonstrasjoner, kan RT-2 håndtere instruksjoner som involverer usynlige objekter, og utnytte forhåndstrent kunnskap fra store internettdatasett. Dette reduserer behovet for omfattende oppgavespesifikke data, og kan potensielt redusere datainnsamlingskostnadene med opptil 90 % for robotikk-startups. RT-X: Open X-Embodiment-modeller

Fremvoksende evner og virkelige applikasjoner

undefined: før vs etter virtuell iscenesettelse

En av de mest spennende aspektene ved RT-2 er dens Fremvoksende evner innen robotikk. Disse inkluderer resonnement i flere trinn, for eksempel å bruke verktøy improvisatorisk eller forstå semantiske konsepter som 'utdødd dinosaur' for å identifisere et leketøy. Slike evner stammer fra modellens trening på forskjellige webdata, slik at roboter kan generalisere til nye miljøer. Google DeepMinds nye AI kan kontrollere roboter

I praktiske termer demonstrerer RT-2 robusthet med suksessrater på opptil 80 % på utfordrende oppgaver. For robotikkoperatører betyr dette forbedret produktivitet i industrielle omgivelser, med innsikt som viser en 2-3x økning i oppgavefullføringsrater. Videre, ved å redusere avhengigheten av menneskelig teleoperasjon for trening, forbedrer VLA-modeller som RT-2 effektiviteten og senker driftskostnadene. Google DeepMind avduker RT-2, en transformativ AI-modell for robot

  1. Trinn 1: Forhåndstren på web-skala tekst og bilder for bred kunnskap.
  2. Trinn 2: Samfinjuster med robotdatasett som Bridge for handlingsintegrering.
  3. Trinn 3: Distribuer i virkelige scenarier for testing av fremvoksende ferdigheter.

Disse evnene øker også ROI i robotikk AI-distribusjon , ettersom roboter tilpasser seg dynamiske miljøer, og gir avkastning innen 6-12 måneder gjennom reduserte maskinvarefeil og forbedret tilpasningsevne. Chain of Thought Prompting Elicits Reasoning in Large Language M

Dataeffektivitet og treningsmetoder

Begynn å samle inn robottreningsdata i dag

Våre trente operatører kontrollerer robotene dine eksternt. Demonstrasjoner av høy kvalitet for dine AI-modeller.

Prøv gratis

RT-2s trening utnytter storskala forhåndstrening på internettdata, finjustert med robotdatasett. Denne Dataeffektivitet i VLA-modeller minimerer behovet for kostbar teleoperasjon i den virkelige verden, og støtter effektiv datainnsamling via webskraping og simulering.

AspektRT-1RT-2
GeneraliseringsforbedringBaselineOver 2x
Suksessrate på nye oppgaver~40%Opptil 80%
Potensial for datareduksjonStandardOpptil 90%

For robotikkbedrifter betyr dette skalerbar AI-trening, der små robotspesifikke datasett er tilstrekkelig for finjustering, og gir rask ROI gjennom rask prototyping.

Integrering av teleoperasjon med RT-2 for optimale resultater

Mens RT-2 reduserer behovet for omfattende data, er teleoperasjon fortsatt avgjørende for robotdatasett av høy kvalitet. Plattformer som AY-Robots tilbyr Beste praksis for robotteleoperasjon , og kobler roboter til et globalt nettverk av operatører for 24/7 datainnsamling.

Operatører kan tjene konkurransedyktige priser gjennom Inntjeningspotensial i robotdatainnsamling , mens selskaper drar nytte av praktiske arbeidsflyter som integrerer teleoperasjon med AI-modeller som RT-2.

Verktøy som Robot Operating System (ROS) og datamerkingsplattformer som Scale AI forbedrer denne integrasjonen, og sikrer dataeffektivitet og modellrobusthet.

Begrensninger og fremtidige retninger

undefined: før vs etter virtuell iscenesettelse

Trenger du mer treningsdata for robotene dine?

Profesjonell teleoperasjonsplattform for robotikkforskning og AI-utvikling. Betal per time.

Se priser

Til tross for sine styrker har RT-2 begrensninger, inkludert avhengighet av robotdata av høy kvalitet og utfordringer i langhorisontoppgaver uten eksplisitt planlegging. Fremtidig arbeid kan inkludere moduler fra modeller som Indre monolog for bedre planlegging.

Likevel baner RT-2 vei for Skalerbar robot AI-trening , spesielt når det kombineres med teleoperasjon for kontinuerlig dataforbedring.

ROI-analyse for robotikkdistribusjoner

Investering i VLA-modeller som RT-2 kan gi betydelig avkastning. Ved å muliggjøre generalisering til usynlige miljøer, reduserer det omkostningene ved omskolering og forbedrer oppgaveeffektiviteten.

MetriskTradisjonelle modellerRT-2 VLA
ROI-tidslinje12-24 måneder6-12 måneder
Økning i oppgavefullføringsrate1x2-3x
Reduksjon av datainnsamlingskostnaderMinimalOpptil 90%

For startups betyr dette raskere iterasjon og distribusjon, støttet av verktøy for Teleoperasjon og AI-integrasjon .

Konklusjon: Fremtiden for robotkontroll med RT-2

Automatisk failover, null nedetid

Hvis en operatør kobler fra, tar en annen over umiddelbart. Roboten din slutter aldri å samle inn data.

Lær mer

RT-2s evne til å overføre webkunnskap til robotkontroll markerer en ny æra innen robotikk. Med sin VLA-arkitektur, handlinger-som-tokens og fremvoksende evner, tilbyr den robotikkforskere, AI-ingeniører, selskaper og operatører kraftige verktøy for innovasjon.

Hos AY-Robots er vi begeistret for å integrere RT-2 med vår teleoperasjonsplattform for å hjelpe deg med å oppnå Praktiske arbeidsflyter for robotoperatører . Begynn å optimalisere robotikk-AI-en din i dag.

Forstå VLA-arkitektur i RT-2

undefined: før vs etter virtuell iscenesettelse

VLA-arkitekturen, eller Vision-Language-Action-modellen, representerer en banebrytende tilnærming innen robotikk AI. I kjernen integrerer RT-2 syns- og språkbehandling med handlingsgenerering, slik at roboter kan tolke og handle på komplekse instruksjoner avledet fra web-skala data. Denne arkitekturen bygger på tidligere modeller som PaLM-E, som muliggjør sømløs overføring av kunnskap fra store internettdatasett til robotkontroll i den virkelige verden.

En viktig innovasjon i VLA-arkitekturen er foreningen av sensoriske innganger. Synsdata fra kameraer behandles sammen med naturlige språkbeskrivelser, og produserer handlingsrettede utdata. Denne multimodale integrasjonen forbedrer modellens evne til å håndtere forskjellige oppgaver uten omfattende oppgavespesifikk trening, som beskrevet i DeepMind-blogginnlegget om RT-2.

  • Fusjon av synstransformatorer for bildeforståelse
  • Språkmodeller for semantisk resonnement
  • Handlingstokenisatorer som kartlegger prediksjoner til robotbevegelser
  • Skalerbare treningsrørledninger som utnytter webkunnskap

Ved å bruke denne arkitekturen oppnår RT-2 overlegen ytelse i generalisering, noe som gjør den ideell for skalerbar robot AI-trening. Forskere har bemerket at slike modeller reduserer behovet for manuell datainnsamling, og dermed forbedrer dataeffektiviteten i VLA-modeller.

Handlinger-som-tokens: En kjernemekanisme

Tilnærmingen handlinger-som-tokens er sentral for RT-2s funksjonalitet. I stedet for å behandle handlinger som separate enheter, koder RT-2 dem som tokens i språkmodellens vokabular. Dette gjør at modellen kan forutsi sekvenser av handlinger på samme måte som den genererer tekst, som utforsket i den originale RT-2-artikkelen.

Denne metoden letter fremvoksende evner innen robotikk ved å gjøre det mulig for roboter å utføre nye oppgaver som ikke er eksplisitt trent for. For eksempel kan kjedet enkle handlinger lært fra webdata føre til kompleks atferd, for eksempel å sortere objekter basert på abstrakte beskrivelser.

FunksjonRT-1RT-2
TreningsdataHovedsakelig robotdemonstrasjonerWeb-skala syn-språkdata + robotdata
HandlingsrepresentasjonDiskrete handlingerHandlinger-som-tokens i språkområdet
GeneraliseringBegrenset til sett oppgaverFremvoksende evner for usette scenarier
EffektivitetHøye datakravForbedret dataeffektivitet

Fordeler for robotkontroll

Implementering av handlinger-som-tokens forbedrer robotkontroll fra webkunnskap, slik at AI kan trekke fra milliarder av online eksempler. Dette overføringslæringsparadigmet er avgjørende for AI-trening for robotikkoppgaver, og reduserer tiden og kostnadene forbundet med tradisjonelle metoder.

Fremvoksende evner og virkelige applikasjoner

RT-2 demonstrerer fremvoksende evner, der modellen viser ferdigheter utover treningsdataene sine. For eksempel kan den resonnere om objektaffordanser eller kjede tanker for planlegging i flere trinn, inspirert av teknikker i chain-of-thought prompting.

Disse evnene åpner dører for praktiske applikasjoner, inkludert integrasjon med teleoperasjonssystemer. Ved å kombinere AI med menneskelig tilsyn kan operatører oppnå høyere ROI i robotikk AI-distribusjon gjennom effektiv oppgaveutførelse.

  1. Samle inn forskjellige datasett via plattformer som
  2. .
  3. Tren modeller ved hjelp av skalerbare rammeverk fra
  4. .
  5. Integrer teleoperasjon for finjustering, etter beste praksis innen robotteleoperasjon.
  6. Distribuer i virkelige scenarier for å måle ytelse og ROI.

Forstå VLA-arkitektur i RT-2

VLA-arkitekturen (Vision-Language-Action) i RT-2 representerer et betydelig sprang i robotkontroll fra webkunnskap. Ved å integrere syns- og språkmodeller med handlingsutdata, gjør RT-2 det mulig for roboter å tolke og handle på komplekse instruksjoner avledet fra store internettdata. Denne arkitekturen bygger på forgjengere som PaLM-E og Indre monolog modeller, som muliggjør sømløs overføring av kunnskap.

I kjernen behandler VLA-arkitekturen visuelle innganger sammen med naturlige språkprompter for å generere tokeniserte handlinger. Denne handlinger-som-tokens tilnærmingen behandler robotbevegelser som en del av språkmodellens vokabular, og forbedrer skalerbar robot AI-trening.

Fremvoksende evner innen robotikk med RT-2

RT-2 viser frem fremvoksende evner innen robotikk som oppstår fra trening på web-skala datasett. Disse inkluderer chain-of-thought resonnement for oppgaver som å sortere objekter etter farge eller størrelse, som utforsket i Chain of Thought Prompting. Roboter kan nå generalisere til usette scenarier, og forbedre dataeffektivitet i VLA-modeller.

  • Forbedret objektgjenkjenning fra webbilder, noe som reduserer behovet for spesialiserte treningsdata.
  • Fremvoksende planlegging i flere trinn, slik at roboter kan håndtere nye oppgaver uten eksplisitt programmering.
  • Forbedret sikkerhet gjennom språkbasert beslutningstaking, noe som minimerer feil i dynamiske miljøer.

Integrering av RT-2 med teleoperasjon og AI-integrasjon lar operatører veilede roboter eksternt mens modellen lærer i sanntid. Beste praksis fra RT-X-modeller understreker effektiv datainnsamling, og øker AI-treningsdata for roboter.

ROI i robotikk AI-distribusjon

Distribusjon av RT-2 gir betydelig ROI i robotikk AI-distribusjon ved å redusere manuelle programmeringskostnader. Ifølge MIT Technology Review, kan organisasjoner oppnå opptil 50 % raskere oppgavetilpasning, noe som oversettes til høyere produktivitet.

AspektRT-2-fordelerSammenligning med RT-1
TreningsdataWeb-skala syn-språkdataBegrenset til robotspesifikke datasett
HandlingsgenereringHandlinger-som-tokens for flytende kontrollDiskrete handlingsrom
Fremvoksende ferdigheterChain-of-thought resonnementGrunnleggende oppgaveutførelse
ROI-potensialHøy, med skalerbar distribusjonModerat, krever mer teleoperasjon

For de som er i beste praksis for robotteleoperasjon , integreres RT-2 med verktøy som Bridge Dataset for effektive arbeidsflyter. Dette effektiviserer ikke bare driften, men åpner også for inntjeningspotensial i robotdatainnsamling gjennom frilans teleoperasjonsroller.

Praktiske arbeidsflyter for robotoperatører

Operatører kan utnytte verktøy for teleoperasjon som de fra RoboNet for å samle inn data av høy kvalitet. En typisk arbeidsflyt involverer innledende teleoperasjonsøkter etterfulgt av AI-finjustering, som beskrevet i RT-2-studie.

  1. Sett opp teleoperasjonsgrensesnittet med kompatibel maskinvare.
  2. Samle inn forskjellige handlingsdata i varierte miljøer.
  3. Finjuster VLA-modellen ved hjelp av innsamlede datasett.
  4. Distribuer og overvåk for fremvoksende evner.

Denne tilnærmingen sikrer praktiske arbeidsflyter for robotoperatører , maksimerer effektiviteten og justerer seg etter syn-språkmodeller for robotkontroll fremskritt.

Videos

Ready for high-quality robotics data?

AY-Robots connects your robots to skilled operators worldwide.

Get Started