How is pricing calculated?

Pricing is based on the hourly rate of operators in your selected region. You only pay for the time operators spend controlling your robots.

What robots are supported?

We support 9+ robot arms including SO-100, Koch, Franka FR3, Franka Panda, WidowX 250, ViperX 300, ViperX 300s, and ALOHA.

What is the latency for teleoperation?

Our platform provides ultra-low latency of 30-70ms worldwide, enabling real-time responsive robot control.

RT-2: Bagaimana Model Visi-Bahasa-Aksi Mentransfer Pengetahuan Web ke Kontrol Robot

Temukan bagaimana Model Visi-Bahasa-Aksi RT-2 Google merevolusi kontrol robot dengan mentransfer pengetahuan web ke tindakan fisik. Pelajari tentang arsitekturnya, metode pelatihan, kemampuan yang muncul, dan implikasinya bagi perusahaan dan operator robotika, termasuk integrasi dengan teleoperasi untuk pelatihan AI yang efisien.

Memahami Model Visi-Bahasa-Aksi RT-2

RT-2 memperluas model visi-bahasa dengan menggabungkan keluaran tindakan sebagai token, memungkinkan prediksi tindakan robot secara end-to-end dari input visual dan tekstual. Arsitektur VLA ini memperlakukan tindakan robot sebagai bagian dari kosakata model bahasa, memungkinkan integrasi ruang visi, bahasa, dan tindakan yang mulus. RT-2: Model Visi-Bahasa-Aksi Mentransfer Pengetahuan Web ke Ro

Intinya, RT-2 menggunakan arsitektur berbasis transformer, seperti PaLM-540B atau PaLI-X, dikombinasikan dengan encoder visi seperti ViT untuk memproses input gambar. Dengan melakukan co-fine-tuning pada dataset skala web bersama dengan data lintasan robot dari sumber seperti Bridge atau RoboNet, RT-2 mentransfer pengetahuan internet ke kontrol robot fisik. Metode ini mencapai generalisasi yang luar biasa, dengan tolok ukur menunjukkan peningkatan lebih dari 2x dalam menangani objek dan lingkungan yang belum pernah dilihat dibandingkan dengan RT-1. RT-2: Model Visi-Bahasa-Aksi Mentransfer Pengetahuan Web ke Ro

Kekuatan Actions-as-Tokens di RT-2

Skalakan pelatihan robot Anda dengan operator global

Hubungkan robot Anda ke jaringan global kami. Dapatkan pengumpulan data 24/7 dengan latensi sangat rendah.

Mulai

Pendekatan Actions-as-Tokens di RT-2 sangat revolusioner. Dengan merepresentasikan tindakan robot—seperti kecepatan sambungan atau posisi end-effector—sebagai token dalam kosakata model bahasa, RT-2 memungkinkan transfer pengetahuan skala web yang mulus ke kontrol fisik. Ini meningkatkan skalabilitas untuk penerapan multi-robot, menjadikannya ideal untuk perusahaan robotika yang ingin mengoptimalkan armada mereka. Grounded Decoding: Guiding Text Generation with Grounded Models

Misalnya, melalui prompting rantai-pikiran, RT-2 meningkatkan penalaran untuk tugas-tugas kompleks, memungkinkan robot untuk melakukan tindakan baru yang belum pernah dilihat dalam data pelatihan. Ini sangat bermanfaat untuk Pelatihan AI untuk Tugas Robotik , di mana kemampuan yang muncul seperti memahami hubungan semantik dari data web dapat mengarah pada solusi improvisasi. Open X-Embodiment: Robotic Learning Datasets and RT-X Models

Seperti yang ditunjukkan dalam demonstrasi, RT-2 dapat menangani instruksi yang melibatkan objek yang belum pernah dilihat, memanfaatkan pengetahuan yang telah dilatih sebelumnya dari dataset internet yang luas. Ini mengurangi kebutuhan akan data khusus tugas yang ekstensif, yang berpotensi memangkas biaya pengumpulan data hingga 90% untuk startup robotika. RT-X: Open X-Embodiment Models

Kemampuan yang Muncul dan Aplikasi Dunia Nyata

undefined: sebelum vs sesudah virtual staging

Salah satu aspek RT-2 yang paling menarik adalah Kemampuan yang Muncul dalam Robotika. Ini termasuk penalaran multi-langkah, seperti menggunakan alat secara improvisasi atau memahami konsep semantik seperti 'dinosaurus yang punah' untuk mengidentifikasi mainan. Kemampuan seperti itu berasal dari pelatihan model pada data web yang beragam, memungkinkan robot untuk melakukan generalisasi ke lingkungan baru. AI baru Google DeepMind dapat mengendalikan robot

Dalam istilah praktis, RT-2 menunjukkan ketahanan dengan tingkat keberhasilan hingga 80% pada tugas-tugas yang menantang. Bagi operator robotika, ini berarti peningkatan produktivitas dalam pengaturan industri, dengan wawasan yang menunjukkan peningkatan 2-3x dalam tingkat penyelesaian tugas. Selain itu, dengan mengurangi ketergantungan pada teleoperasi manusia untuk pelatihan, model VLA seperti RT-2 meningkatkan efisiensi dan menurunkan biaya operasional. Google DeepMind meluncurkan RT-2 model AI transformatif untuk robot

Langkah 1: Pra-latih pada teks dan gambar skala web untuk pengetahuan yang luas.
Langkah 2: Co-fine-tune dengan dataset robotik seperti Bridge untuk integrasi tindakan.
Langkah 3: Terapkan dalam skenario dunia nyata untuk pengujian keterampilan yang muncul.

Kemampuan ini juga meningkatkan ROI dalam Penerapan AI Robotika , karena robot beradaptasi dengan lingkungan dinamis, menghasilkan pengembalian dalam 6-12 bulan melalui pengurangan kegagalan perangkat keras dan peningkatan kemampuan beradaptasi. Chain of Thought Prompting Elicits Reasoning in Large Language M

Efisiensi Data dan Metode Pelatihan

Mulai kumpulkan data pelatihan robot hari ini

Operator terlatih kami mengendalikan robot Anda dari jarak jauh. Demonstrasi berkualitas tinggi untuk model AI Anda.

Coba Gratis

Pelatihan RT-2 memanfaatkan pra-pelatihan skala besar pada data internet, yang disesuaikan dengan dataset robotik. Efisiensi Data dalam Model VLA ini meminimalkan kebutuhan akan teleoperasi dunia nyata yang mahal, mendukung pengumpulan data yang efisien melalui web scraping dan simulasi.

Aspek	RT-1	RT-2
Peningkatan Generalisasi	Baseline	Lebih dari 2x
Tingkat Keberhasilan pada Tugas Baru	~40%	Hingga 80%
Potensi Pengurangan Data	Standar	Hingga 90%

Bagi perusahaan robotika, ini berarti pelatihan AI yang skalabel, di mana dataset khusus robot kecil sudah cukup untuk fine-tuning, menawarkan ROI cepat melalui pembuatan prototipe yang cepat.

Mengintegrasikan Teleoperasi dengan RT-2 untuk Hasil Optimal

Meskipun RT-2 mengurangi kebutuhan akan data yang ekstensif, teleoperasi tetap penting untuk dataset robotik berkualitas tinggi. Platform seperti AY-Robots menyediakan Praktik Terbaik Teleoperasi Robot , menghubungkan robot ke jaringan operator global untuk pengumpulan data 24/7.

Operator dapat memperoleh tarif yang kompetitif melalui Potensi Penghasilan dalam Pengumpulan Data Robot , sementara perusahaan mendapat manfaat dari alur kerja praktis yang mengintegrasikan teleoperasi dengan model AI seperti RT-2.

Alat seperti Robot Operating System (ROS) dan platform pelabelan data seperti Scale AI meningkatkan integrasi ini, memastikan efisiensi data dan ketahanan model.

Keterbatasan dan Arah Masa Depan

Butuh lebih banyak data pelatihan untuk robot Anda?

Platform teleoperasi profesional untuk penelitian robotika dan pengembangan AI. Bayar per jam.

Lihat Harga

Terlepas dari kekuatannya, RT-2 memiliki keterbatasan, termasuk ketergantungan pada data robotik berkualitas tinggi dan tantangan dalam tugas-tugas jangka panjang tanpa perencanaan eksplisit. Pekerjaan di masa depan dapat menggabungkan modul dari model seperti Inner Monologue untuk perencanaan yang lebih baik.

Namun demikian, RT-2 membuka jalan bagi Pelatihan AI Robot Skalabel , terutama ketika dikombinasikan dengan teleoperasi untuk penyempurnaan data yang berkelanjutan.

Analisis ROI untuk Penerapan Robotika

Berinvestasi dalam model VLA seperti RT-2 dapat menghasilkan pengembalian yang signifikan. Dengan memungkinkan generalisasi ke lingkungan yang belum pernah dilihat, ini memotong biaya pelatihan ulang dan meningkatkan efisiensi tugas.

Metrik	Model Tradisional	RT-2 VLA
Garis Waktu ROI	12-24 bulan	6-12 bulan
Peningkatan Tingkat Penyelesaian Tugas	1x	2-3x
Pengurangan Biaya Pengumpulan Data	Minimal	Hingga 90%

Untuk startup, ini berarti iterasi dan penerapan yang lebih cepat, didukung oleh alat untuk Teleoperasi dan Integrasi AI .

Kesimpulan: Masa Depan Kontrol Robot dengan RT-2

Failover otomatis, tanpa downtime

Jika seorang operator terputus, yang lain mengambil alih secara instan. Robot Anda tidak pernah berhenti mengumpulkan data.

Pelajari Lebih Lanjut

Kemampuan RT-2 untuk mentransfer pengetahuan web ke kontrol robot menandai era baru dalam robotika. Dengan arsitektur VLA, actions-as-tokens, dan kemampuan yang muncul, ia menawarkan alat yang ampuh bagi para peneliti robotika, insinyur AI, perusahaan, dan operator untuk berinovasi.

Di AY-Robots, kami sangat senang mengintegrasikan RT-2 dengan platform teleoperasi kami untuk membantu Anda mencapai Alur Kerja Praktis untuk Operator Robot . Mulai optimalkan AI robotika Anda hari ini.

Memahami Arsitektur VLA di RT-2

Arsitektur VLA, atau model Visi-Bahasa-Aksi, mewakili pendekatan terobosan dalam AI robotika. Intinya, RT-2 mengintegrasikan visi dan pemrosesan bahasa dengan pembuatan tindakan, memungkinkan robot untuk menafsirkan dan bertindak berdasarkan instruksi kompleks yang berasal dari data skala web. Arsitektur ini dibangun di atas model sebelumnya seperti PaLM-E, memungkinkan transfer pengetahuan yang mulus dari dataset internet yang luas ke kontrol robot dunia nyata.

Salah satu inovasi utama dalam arsitektur VLA adalah penyatuan input sensorik. Data visi dari kamera diproses bersama deskripsi bahasa alami, menghasilkan output yang dapat ditindaklanjuti. Integrasi multimodal ini meningkatkan kemampuan model untuk menangani beragam tugas tanpa pelatihan khusus tugas yang ekstensif, seperti yang dijelaskan secara rinci dalam posting blog DeepMind tentang RT-2.

Fusi transformer visi untuk pemahaman gambar
Model bahasa untuk penalaran semantik
Tokenizer tindakan yang memetakan prediksi ke gerakan robot
Pipeline pelatihan yang skalabel memanfaatkan pengetahuan web

Dengan menggunakan arsitektur ini, RT-2 mencapai kinerja superior dalam generalisasi, menjadikannya ideal untuk pelatihan AI robot yang skalabel. Para peneliti telah mencatat bahwa model semacam itu mengurangi kebutuhan akan pengumpulan data manual, sehingga meningkatkan efisiensi data dalam model VLA.

Actions-as-Tokens: Mekanisme Inti

Pendekatan actions-as-tokens sangat penting untuk fungsionalitas RT-2. Alih-alih memperlakukan tindakan sebagai entitas terpisah, RT-2 menyandikannya sebagai token dalam kosakata model bahasa. Ini memungkinkan model untuk memprediksi urutan tindakan dengan cara yang sama seperti menghasilkan teks, seperti yang dieksplorasi dalam makalah RT-2 asli.

Metode ini memfasilitasi kemampuan yang muncul dalam robotika dengan memungkinkan robot untuk melakukan tugas-tugas baru yang tidak dilatih secara eksplisit. Misalnya, merangkai tindakan sederhana yang dipelajari dari data web dapat mengarah pada perilaku kompleks, seperti menyortir objek berdasarkan deskripsi abstrak.

Fitur	RT-1	RT-2
Data Pelatihan	Terutama demonstrasi robot	Data visi-bahasa skala web + data robot
Representasi Tindakan	Tindakan diskrit	Actions-as-tokens dalam ruang bahasa
Generalisasi	Terbatas pada tugas yang terlihat	Kemampuan yang muncul untuk skenario yang belum pernah dilihat
Efisiensi	Persyaratan data tinggi	Peningkatan efisiensi data

Manfaat untuk Kontrol Robot

Menerapkan actions-as-tokens meningkatkan kontrol robot dari pengetahuan web, memungkinkan AI untuk mengambil dari miliaran contoh online. Paradigma transfer learning ini sangat penting untuk pelatihan AI untuk tugas robotik, mengurangi waktu dan biaya yang terkait dengan metode tradisional.

Kemampuan yang Muncul dan Aplikasi Dunia Nyata

RT-2 menunjukkan kemampuan yang muncul, di mana model menunjukkan keterampilan di luar data pelatihannya. Misalnya, ia dapat bernalar tentang affordance objek atau merangkai pikiran untuk perencanaan multi-langkah, yang terinspirasi oleh teknik dalam prompting rantai-pikiran.

Kemampuan ini membuka pintu untuk aplikasi praktis, termasuk integrasi dengan sistem teleoperasi. Dengan menggabungkan AI dengan pengawasan manusia, operator dapat mencapai ROI yang lebih tinggi dalam penerapan AI robotika melalui eksekusi tugas yang efisien.

Kumpulkan dataset yang beragam melalui platform seperti
.
Latih model menggunakan kerangka kerja yang skalabel dari
.
Integrasikan teleoperasi untuk fine-tuning, ikuti praktik terbaik dalam teleoperasi robot.
Terapkan dalam skenario dunia nyata untuk mengukur kinerja dan ROI.

Memahami Arsitektur VLA di RT-2

Arsitektur VLA (Visi-Bahasa-Aksi) di RT-2 mewakili lompatan signifikan dalam kontrol robot dari pengetahuan web. Dengan mengintegrasikan model visi dan bahasa dengan output tindakan, RT-2 memungkinkan robot untuk menafsirkan dan bertindak berdasarkan instruksi kompleks yang berasal dari data internet yang luas. Arsitektur ini dibangun di atas pendahulunya seperti PaLM-E dan Inner Monologue model, memungkinkan transfer pengetahuan yang mulus.

Intinya, arsitektur VLA memproses input visual bersama dengan prompt bahasa alami untuk menghasilkan tindakan yang di-tokenisasi. Pendekatan actions-as-tokens ini memperlakukan gerakan robot sebagai bagian dari kosakata model bahasa, meningkatkan pelatihan AI robot yang skalabel.

Kemampuan yang Muncul dalam Robotika dengan RT-2

RT-2 menampilkan kemampuan yang muncul dalam robotika yang timbul dari pelatihan pada dataset skala web. Ini termasuk penalaran rantai-pikiran untuk tugas-tugas seperti menyortir objek berdasarkan warna atau ukuran, seperti yang dieksplorasi dalam Chain of Thought Prompting. Robot sekarang dapat melakukan generalisasi ke skenario yang belum pernah dilihat, meningkatkan efisiensi data dalam model VLA.

Peningkatan pengenalan objek dari gambar web, mengurangi kebutuhan akan data pelatihan khusus.
Perencanaan multi-langkah yang muncul, memungkinkan robot untuk menangani tugas-tugas baru tanpa pemrograman eksplisit.
Peningkatan keamanan melalui pengambilan keputusan berbasis bahasa, meminimalkan kesalahan di lingkungan dinamis.

Mengintegrasikan RT-2 dengan teleoperasi dan integrasi AI memungkinkan operator untuk memandu robot dari jarak jauh sementara model belajar secara real-time. Praktik terbaik dari model RT-X menekankan pengumpulan data yang efisien, meningkatkan data pelatihan AI untuk robot.

ROI dalam Penerapan AI Robotika

Menerapkan RT-2 menawarkan ROI yang substansial dalam penerapan AI robotika dengan mengurangi biaya pemrograman manual. Menurut MIT Technology Review, organisasi dapat mencapai adaptasi tugas hingga 50% lebih cepat, yang diterjemahkan ke produktivitas yang lebih tinggi.

Aspek	Manfaat RT-2	Perbandingan dengan RT-1
Data Pelatihan	Data visi-bahasa skala web	Terbatas pada dataset khusus robot
Pembuatan Tindakan	Actions-as-tokens untuk kontrol fluida	Ruang tindakan diskrit
Keterampilan yang Muncul	Penalaran rantai-pikiran	Eksekusi tugas dasar
Potensi ROI	Tinggi, dengan penerapan yang skalabel	Sedang, membutuhkan lebih banyak teleoperasi

Bagi mereka yang berada di praktik terbaik teleoperasi robot , RT-2 terintegrasi dengan alat seperti Bridge Dataset untuk alur kerja yang efisien. Ini tidak hanya menyederhanakan operasi tetapi juga membuka potensi penghasilan dalam pengumpulan data robot melalui peran teleoperasi lepas.

Alur Kerja Praktis untuk Operator Robot

Operator dapat memanfaatkan alat untuk teleoperasi seperti yang dari RoboNet untuk mengumpulkan data berkualitas tinggi. Alur kerja tipikal melibatkan sesi teleoperasi awal diikuti oleh fine-tuning AI, seperti yang dijelaskan secara rinci dalam studi RT-2.

Siapkan antarmuka teleoperasi dengan perangkat keras yang kompatibel.
Kumpulkan data tindakan yang beragam di lingkungan yang bervariasi.
Fine-tune model VLA menggunakan dataset yang dikumpulkan.
Terapkan dan pantau untuk kemampuan yang muncul.

Pendekatan ini memastikan alur kerja praktis untuk operator robot , memaksimalkan efisiensi dan selaras dengan model visi-bahasa untuk kemajuan kontrol robot.

RT-2: Bagaimana Model Visi-Bahasa-Aksi Mentransfer Pengetahuan Web ke Kontrol Robot

Memahami Model Visi-Bahasa-Aksi RT-2

Kekuatan Actions-as-Tokens di RT-2

Skalakan pelatihan robot Anda dengan operator global

Kemampuan yang Muncul dan Aplikasi Dunia Nyata

Efisiensi Data dan Metode Pelatihan

Mulai kumpulkan data pelatihan robot hari ini

Mengintegrasikan Teleoperasi dengan RT-2 untuk Hasil Optimal

Keterbatasan dan Arah Masa Depan

Butuh lebih banyak data pelatihan untuk robot Anda?

Analisis ROI untuk Penerapan Robotika

Kesimpulan: Masa Depan Kontrol Robot dengan RT-2

Failover otomatis, tanpa downtime

Memahami Arsitektur VLA di RT-2

Actions-as-Tokens: Mekanisme Inti

Manfaat untuk Kontrol Robot

Kemampuan yang Muncul dan Aplikasi Dunia Nyata

Memahami Arsitektur VLA di RT-2

Kemampuan yang Muncul dalam Robotika dengan RT-2

ROI dalam Penerapan AI Robotika

Alur Kerja Praktis untuk Operator Robot

Sources

Videos

Sources

Ready for high-quality robotics data?