
Temukan bagaimana Model Visi-Bahasa-Aksi RT-2 Google merevolusi kontrol robot dengan mentransfer pengetahuan web ke tindakan fisik. Pelajari tentang arsitekturnya, metode pelatihan, kemampuan yang muncul, dan implikasinya bagi perusahaan dan operator robotika, termasuk integrasi dengan teleoperasi untuk pelatihan AI yang efisien.
Memahami Model Visi-Bahasa-Aksi RT-2
RT-2 memperluas model visi-bahasa dengan menggabungkan keluaran tindakan sebagai token, memungkinkan prediksi tindakan robot secara end-to-end dari input visual dan tekstual. Arsitektur VLA ini memperlakukan tindakan robot sebagai bagian dari kosakata model bahasa, memungkinkan integrasi ruang visi, bahasa, dan tindakan yang mulus. RT-2: Model Visi-Bahasa-Aksi Mentransfer Pengetahuan Web ke Ro
Intinya, RT-2 menggunakan arsitektur berbasis transformer, seperti PaLM-540B atau PaLI-X, dikombinasikan dengan encoder visi seperti ViT untuk memproses input gambar. Dengan melakukan co-fine-tuning pada dataset skala web bersama dengan data lintasan robot dari sumber seperti Bridge atau RoboNet, RT-2 mentransfer pengetahuan internet ke kontrol robot fisik. Metode ini mencapai generalisasi yang luar biasa, dengan tolok ukur menunjukkan peningkatan lebih dari 2x dalam menangani objek dan lingkungan yang belum pernah dilihat dibandingkan dengan RT-1. RT-2: Model Visi-Bahasa-Aksi Mentransfer Pengetahuan Web ke Ro
Kekuatan Actions-as-Tokens di RT-2
Skalakan pelatihan robot Anda dengan operator global
Hubungkan robot Anda ke jaringan global kami. Dapatkan pengumpulan data 24/7 dengan latensi sangat rendah.
MulaiPendekatan Actions-as-Tokens di RT-2 sangat revolusioner. Dengan merepresentasikan tindakan robot—seperti kecepatan sambungan atau posisi end-effector—sebagai token dalam kosakata model bahasa, RT-2 memungkinkan transfer pengetahuan skala web yang mulus ke kontrol fisik. Ini meningkatkan skalabilitas untuk penerapan multi-robot, menjadikannya ideal untuk perusahaan robotika yang ingin mengoptimalkan armada mereka. Grounded Decoding: Guiding Text Generation with Grounded Models
Misalnya, melalui prompting rantai-pikiran, RT-2 meningkatkan penalaran untuk tugas-tugas kompleks, memungkinkan robot untuk melakukan tindakan baru yang belum pernah dilihat dalam data pelatihan. Ini sangat bermanfaat untuk Pelatihan AI untuk Tugas Robotik , di mana kemampuan yang muncul seperti memahami hubungan semantik dari data web dapat mengarah pada solusi improvisasi. Open X-Embodiment: Robotic Learning Datasets and RT-X Models
Seperti yang ditunjukkan dalam demonstrasi, RT-2 dapat menangani instruksi yang melibatkan objek yang belum pernah dilihat, memanfaatkan pengetahuan yang telah dilatih sebelumnya dari dataset internet yang luas. Ini mengurangi kebutuhan akan data khusus tugas yang ekstensif, yang berpotensi memangkas biaya pengumpulan data hingga 90% untuk startup robotika. RT-X: Open X-Embodiment Models
Kemampuan yang Muncul dan Aplikasi Dunia Nyata

Salah satu aspek RT-2 yang paling menarik adalah Kemampuan yang Muncul dalam Robotika. Ini termasuk penalaran multi-langkah, seperti menggunakan alat secara improvisasi atau memahami konsep semantik seperti 'dinosaurus yang punah' untuk mengidentifikasi mainan. Kemampuan seperti itu berasal dari pelatihan model pada data web yang beragam, memungkinkan robot untuk melakukan generalisasi ke lingkungan baru. AI baru Google DeepMind dapat mengendalikan robot
Dalam istilah praktis, RT-2 menunjukkan ketahanan dengan tingkat keberhasilan hingga 80% pada tugas-tugas yang menantang. Bagi operator robotika, ini berarti peningkatan produktivitas dalam pengaturan industri, dengan wawasan yang menunjukkan peningkatan 2-3x dalam tingkat penyelesaian tugas. Selain itu, dengan mengurangi ketergantungan pada teleoperasi manusia untuk pelatihan, model VLA seperti RT-2 meningkatkan efisiensi dan menurunkan biaya operasional. Google DeepMind meluncurkan RT-2 model AI transformatif untuk robot
- Langkah 1: Pra-latih pada teks dan gambar skala web untuk pengetahuan yang luas.
- Langkah 2: Co-fine-tune dengan dataset robotik seperti Bridge untuk integrasi tindakan.
- Langkah 3: Terapkan dalam skenario dunia nyata untuk pengujian keterampilan yang muncul.
Kemampuan ini juga meningkatkan ROI dalam Penerapan AI Robotika , karena robot beradaptasi dengan lingkungan dinamis, menghasilkan pengembalian dalam 6-12 bulan melalui pengurangan kegagalan perangkat keras dan peningkatan kemampuan beradaptasi. Chain of Thought Prompting Elicits Reasoning in Large Language M
Efisiensi Data dan Metode Pelatihan
Mulai kumpulkan data pelatihan robot hari ini
Operator terlatih kami mengendalikan robot Anda dari jarak jauh. Demonstrasi berkualitas tinggi untuk model AI Anda.
Coba GratisPelatihan RT-2 memanfaatkan pra-pelatihan skala besar pada data internet, yang disesuaikan dengan dataset robotik. Efisiensi Data dalam Model VLA ini meminimalkan kebutuhan akan teleoperasi dunia nyata yang mahal, mendukung pengumpulan data yang efisien melalui web scraping dan simulasi.
| Aspek | RT-1 | RT-2 |
|---|---|---|
| Peningkatan Generalisasi | Baseline | Lebih dari 2x |
| Tingkat Keberhasilan pada Tugas Baru | ~40% | Hingga 80% |
| Potensi Pengurangan Data | Standar | Hingga 90% |
Bagi perusahaan robotika, ini berarti pelatihan AI yang skalabel, di mana dataset khusus robot kecil sudah cukup untuk fine-tuning, menawarkan ROI cepat melalui pembuatan prototipe yang cepat.
Mengintegrasikan Teleoperasi dengan RT-2 untuk Hasil Optimal
Meskipun RT-2 mengurangi kebutuhan akan data yang ekstensif, teleoperasi tetap penting untuk dataset robotik berkualitas tinggi. Platform seperti AY-Robots menyediakan Praktik Terbaik Teleoperasi Robot , menghubungkan robot ke jaringan operator global untuk pengumpulan data 24/7.
Operator dapat memperoleh tarif yang kompetitif melalui Potensi Penghasilan dalam Pengumpulan Data Robot , sementara perusahaan mendapat manfaat dari alur kerja praktis yang mengintegrasikan teleoperasi dengan model AI seperti RT-2.
Alat seperti Robot Operating System (ROS) dan platform pelabelan data seperti Scale AI meningkatkan integrasi ini, memastikan efisiensi data dan ketahanan model.
Keterbatasan dan Arah Masa Depan

Butuh lebih banyak data pelatihan untuk robot Anda?
Platform teleoperasi profesional untuk penelitian robotika dan pengembangan AI. Bayar per jam.
Lihat HargaTerlepas dari kekuatannya, RT-2 memiliki keterbatasan, termasuk ketergantungan pada data robotik berkualitas tinggi dan tantangan dalam tugas-tugas jangka panjang tanpa perencanaan eksplisit. Pekerjaan di masa depan dapat menggabungkan modul dari model seperti Inner Monologue untuk perencanaan yang lebih baik.
Namun demikian, RT-2 membuka jalan bagi Pelatihan AI Robot Skalabel , terutama ketika dikombinasikan dengan teleoperasi untuk penyempurnaan data yang berkelanjutan.
Analisis ROI untuk Penerapan Robotika
Berinvestasi dalam model VLA seperti RT-2 dapat menghasilkan pengembalian yang signifikan. Dengan memungkinkan generalisasi ke lingkungan yang belum pernah dilihat, ini memotong biaya pelatihan ulang dan meningkatkan efisiensi tugas.
| Metrik | Model Tradisional | RT-2 VLA |
|---|---|---|
| Garis Waktu ROI | 12-24 bulan | 6-12 bulan |
| Peningkatan Tingkat Penyelesaian Tugas | 1x | 2-3x |
| Pengurangan Biaya Pengumpulan Data | Minimal | Hingga 90% |
Untuk startup, ini berarti iterasi dan penerapan yang lebih cepat, didukung oleh alat untuk Teleoperasi dan Integrasi AI .
Kesimpulan: Masa Depan Kontrol Robot dengan RT-2
Failover otomatis, tanpa downtime
Jika seorang operator terputus, yang lain mengambil alih secara instan. Robot Anda tidak pernah berhenti mengumpulkan data.
Pelajari Lebih LanjutKemampuan RT-2 untuk mentransfer pengetahuan web ke kontrol robot menandai era baru dalam robotika. Dengan arsitektur VLA, actions-as-tokens, dan kemampuan yang muncul, ia menawarkan alat yang ampuh bagi para peneliti robotika, insinyur AI, perusahaan, dan operator untuk berinovasi.
Di AY-Robots, kami sangat senang mengintegrasikan RT-2 dengan platform teleoperasi kami untuk membantu Anda mencapai Alur Kerja Praktis untuk Operator Robot . Mulai optimalkan AI robotika Anda hari ini.
Memahami Arsitektur VLA di RT-2

Arsitektur VLA, atau model Visi-Bahasa-Aksi, mewakili pendekatan terobosan dalam AI robotika. Intinya, RT-2 mengintegrasikan visi dan pemrosesan bahasa dengan pembuatan tindakan, memungkinkan robot untuk menafsirkan dan bertindak berdasarkan instruksi kompleks yang berasal dari data skala web. Arsitektur ini dibangun di atas model sebelumnya seperti PaLM-E, memungkinkan transfer pengetahuan yang mulus dari dataset internet yang luas ke kontrol robot dunia nyata.
Salah satu inovasi utama dalam arsitektur VLA adalah penyatuan input sensorik. Data visi dari kamera diproses bersama deskripsi bahasa alami, menghasilkan output yang dapat ditindaklanjuti. Integrasi multimodal ini meningkatkan kemampuan model untuk menangani beragam tugas tanpa pelatihan khusus tugas yang ekstensif, seperti yang dijelaskan secara rinci dalam posting blog DeepMind tentang RT-2.
- Fusi transformer visi untuk pemahaman gambar
- Model bahasa untuk penalaran semantik
- Tokenizer tindakan yang memetakan prediksi ke gerakan robot
- Pipeline pelatihan yang skalabel memanfaatkan pengetahuan web
Dengan menggunakan arsitektur ini, RT-2 mencapai kinerja superior dalam generalisasi, menjadikannya ideal untuk pelatihan AI robot yang skalabel. Para peneliti telah mencatat bahwa model semacam itu mengurangi kebutuhan akan pengumpulan data manual, sehingga meningkatkan efisiensi data dalam model VLA.
Actions-as-Tokens: Mekanisme Inti
Pendekatan actions-as-tokens sangat penting untuk fungsionalitas RT-2. Alih-alih memperlakukan tindakan sebagai entitas terpisah, RT-2 menyandikannya sebagai token dalam kosakata model bahasa. Ini memungkinkan model untuk memprediksi urutan tindakan dengan cara yang sama seperti menghasilkan teks, seperti yang dieksplorasi dalam makalah RT-2 asli.
Metode ini memfasilitasi kemampuan yang muncul dalam robotika dengan memungkinkan robot untuk melakukan tugas-tugas baru yang tidak dilatih secara eksplisit. Misalnya, merangkai tindakan sederhana yang dipelajari dari data web dapat mengarah pada perilaku kompleks, seperti menyortir objek berdasarkan deskripsi abstrak.
| Fitur | RT-1 | RT-2 |
|---|---|---|
| Data Pelatihan | Terutama demonstrasi robot | Data visi-bahasa skala web + data robot |
| Representasi Tindakan | Tindakan diskrit | Actions-as-tokens dalam ruang bahasa |
| Generalisasi | Terbatas pada tugas yang terlihat | Kemampuan yang muncul untuk skenario yang belum pernah dilihat |
| Efisiensi | Persyaratan data tinggi | Peningkatan efisiensi data |
Manfaat untuk Kontrol Robot
Menerapkan actions-as-tokens meningkatkan kontrol robot dari pengetahuan web, memungkinkan AI untuk mengambil dari miliaran contoh online. Paradigma transfer learning ini sangat penting untuk pelatihan AI untuk tugas robotik, mengurangi waktu dan biaya yang terkait dengan metode tradisional.
Kemampuan yang Muncul dan Aplikasi Dunia Nyata
RT-2 menunjukkan kemampuan yang muncul, di mana model menunjukkan keterampilan di luar data pelatihannya. Misalnya, ia dapat bernalar tentang affordance objek atau merangkai pikiran untuk perencanaan multi-langkah, yang terinspirasi oleh teknik dalam prompting rantai-pikiran.
Kemampuan ini membuka pintu untuk aplikasi praktis, termasuk integrasi dengan sistem teleoperasi. Dengan menggabungkan AI dengan pengawasan manusia, operator dapat mencapai ROI yang lebih tinggi dalam penerapan AI robotika melalui eksekusi tugas yang efisien.
- Kumpulkan dataset yang beragam melalui platform seperti
- .
- Latih model menggunakan kerangka kerja yang skalabel dari
- .
- Integrasikan teleoperasi untuk fine-tuning, ikuti praktik terbaik dalam teleoperasi robot.
- Terapkan dalam skenario dunia nyata untuk mengukur kinerja dan ROI.
Memahami Arsitektur VLA di RT-2
Arsitektur VLA (Visi-Bahasa-Aksi) di RT-2 mewakili lompatan signifikan dalam kontrol robot dari pengetahuan web. Dengan mengintegrasikan model visi dan bahasa dengan output tindakan, RT-2 memungkinkan robot untuk menafsirkan dan bertindak berdasarkan instruksi kompleks yang berasal dari data internet yang luas. Arsitektur ini dibangun di atas pendahulunya seperti PaLM-E dan Inner Monologue model, memungkinkan transfer pengetahuan yang mulus.
Intinya, arsitektur VLA memproses input visual bersama dengan prompt bahasa alami untuk menghasilkan tindakan yang di-tokenisasi. Pendekatan actions-as-tokens ini memperlakukan gerakan robot sebagai bagian dari kosakata model bahasa, meningkatkan pelatihan AI robot yang skalabel.
Kemampuan yang Muncul dalam Robotika dengan RT-2
RT-2 menampilkan kemampuan yang muncul dalam robotika yang timbul dari pelatihan pada dataset skala web. Ini termasuk penalaran rantai-pikiran untuk tugas-tugas seperti menyortir objek berdasarkan warna atau ukuran, seperti yang dieksplorasi dalam Chain of Thought Prompting. Robot sekarang dapat melakukan generalisasi ke skenario yang belum pernah dilihat, meningkatkan efisiensi data dalam model VLA.
- Peningkatan pengenalan objek dari gambar web, mengurangi kebutuhan akan data pelatihan khusus.
- Perencanaan multi-langkah yang muncul, memungkinkan robot untuk menangani tugas-tugas baru tanpa pemrograman eksplisit.
- Peningkatan keamanan melalui pengambilan keputusan berbasis bahasa, meminimalkan kesalahan di lingkungan dinamis.
Mengintegrasikan RT-2 dengan teleoperasi dan integrasi AI memungkinkan operator untuk memandu robot dari jarak jauh sementara model belajar secara real-time. Praktik terbaik dari model RT-X menekankan pengumpulan data yang efisien, meningkatkan data pelatihan AI untuk robot.
ROI dalam Penerapan AI Robotika
Menerapkan RT-2 menawarkan ROI yang substansial dalam penerapan AI robotika dengan mengurangi biaya pemrograman manual. Menurut MIT Technology Review, organisasi dapat mencapai adaptasi tugas hingga 50% lebih cepat, yang diterjemahkan ke produktivitas yang lebih tinggi.
| Aspek | Manfaat RT-2 | Perbandingan dengan RT-1 |
|---|---|---|
| Data Pelatihan | Data visi-bahasa skala web | Terbatas pada dataset khusus robot |
| Pembuatan Tindakan | Actions-as-tokens untuk kontrol fluida | Ruang tindakan diskrit |
| Keterampilan yang Muncul | Penalaran rantai-pikiran | Eksekusi tugas dasar |
| Potensi ROI | Tinggi, dengan penerapan yang skalabel | Sedang, membutuhkan lebih banyak teleoperasi |
Bagi mereka yang berada di praktik terbaik teleoperasi robot , RT-2 terintegrasi dengan alat seperti Bridge Dataset untuk alur kerja yang efisien. Ini tidak hanya menyederhanakan operasi tetapi juga membuka potensi penghasilan dalam pengumpulan data robot melalui peran teleoperasi lepas.
Alur Kerja Praktis untuk Operator Robot
Operator dapat memanfaatkan alat untuk teleoperasi seperti yang dari RoboNet untuk mengumpulkan data berkualitas tinggi. Alur kerja tipikal melibatkan sesi teleoperasi awal diikuti oleh fine-tuning AI, seperti yang dijelaskan secara rinci dalam studi RT-2.
- Siapkan antarmuka teleoperasi dengan perangkat keras yang kompatibel.
- Kumpulkan data tindakan yang beragam di lingkungan yang bervariasi.
- Fine-tune model VLA menggunakan dataset yang dikumpulkan.
- Terapkan dan pantau untuk kemampuan yang muncul.
Pendekatan ini memastikan alur kerja praktis untuk operator robot , memaksimalkan efisiensi dan selaras dengan model visi-bahasa untuk kemajuan kontrol robot.
Sources
- RT-2: Model Visi-Bahasa-Aksi Mentransfer Pengetahuan Web ke Kontrol Robotik
- RT-2: Model baru menerjemahkan visi dan bahasa ke dalam tindakan
- RT-1: Robotics Transformer untuk Kontrol Dunia Nyata dalam Skala
- Lakukan Seperti yang Saya Bisa, Bukan Seperti yang Saya Katakan: Mendasarkan Bahasa dalam Affordance Robotik
- PaLM-E: Model Bahasa Multimodal yang Diwujudkan
- RT-2: Model Visi-Bahasa-Aksi Mentransfer Pengetahuan Web ke Kontrol Robotik
- Model visi-bahasa untuk kontrol robot
- Grounded Decoding: Memandu Pembuatan Teks dengan Model Grounded
- Open X-Embodiment: Dataset Pembelajaran Robotik dan Model RT-X
- RT-X: Model X-Embodiment Terbuka
- AI baru Google DeepMind dapat mengendalikan robot
- Google DeepMind meluncurkan RT-2, model AI transformatif untuk robot
- Inner Monologue: Penalaran yang Diwujudkan melalui Perencanaan dengan Model Bahasa
- Chain of Thought Prompting Elicits Reasoning in Large Language Models
- Bridge Dataset untuk Manipulasi Robotik
- RoboNet: Pembelajaran Multi-Robot Skala Besar
- Model Visi-Bahasa dalam Robotika: Survei
- Transformer dalam Robotika: Tinjauan
- Menskalakan Pembelajaran Robot dengan Pengalaman yang Dibayangkan Secara Semantik
- RT-2 Google: Memajukan Kecerdasan Robotik
- Otomatisasi Pengumpulan Data Robot untuk Wawasan Bisnis
Videos
Sources
- RT-2: Model Visi-Bahasa-Aksi Mentransfer Pengetahuan Web ke Kontrol Robotik
- RT-2: Model baru menerjemahkan visi dan bahasa ke dalam tindakan
- RT-1: Robotics Transformer untuk Kontrol Dunia Nyata dalam Skala
- Lakukan Seperti yang Saya Bisa, Bukan Seperti yang Saya Katakan: Mendasarkan Bahasa dalam Affordance Robotik
- PaLM-E: Model Bahasa Multimodal yang Diwujudkan
- RT-2: Model Visi-Bahasa-Aksi Mentransfer Pengetahuan Web ke Kontrol Robotik
- Model visi-bahasa untuk kontrol robot
- Grounded Decoding: Memandu Pembuatan Teks dengan Model Grounded
- Open X-Embodiment: Dataset Pembelajaran Robotik dan Model RT-X
- RT-X: Model X-Embodiment Terbuka
- AI baru Google DeepMind dapat mengendalikan robot
- Google DeepMind meluncurkan RT-2, model AI transformatif untuk robot
- Inner Monologue: Penalaran yang Diwujudkan melalui Perencanaan dengan Model Bahasa
- Chain of Thought Prompting Elicits Reasoning in Large Language Models
- Bridge Dataset untuk Manipulasi Robotik
- RoboNet: Pembelajaran Multi-Robot Skala Besar
- Model Visi-Bahasa dalam Robotika: Survei
- Transformer dalam Robotika: Tinjauan
- Menskalakan Pembelajaran Robot dengan Pengalaman yang Dibayangkan Secara Semantik
- RT-2 Google: Memajukan Kecerdasan Robotik
- Otomatisasi Pengumpulan Data Robot untuk Wawasan Bisnis
Ready for high-quality robotics data?
AY-Robots connects your robots to skilled operators worldwide.
Get Started