
Дізнайтеся, як модель зору-мови-дії RT-2 від Google революціонізує керування роботами, переносячи веб-знання у фізичні дії. Ознайомтеся з її архітектурою, методами навчання, новими можливостями та наслідками для робототехнічних компаній та операторів, включаючи інтеграцію з телеоперацією для ефективного навчання ШІ.
Розуміння моделі RT-2: Зір-Мова-Дія
RT-2 розширює візуально-мовні моделі, включаючи вихідні дії як токени, що дозволяє наскрізне прогнозування роботизованих дій на основі візуальних та текстових вхідних даних. Ця Архітектура VLA розглядає дії робота як частину словника мовної моделі, забезпечуючи безперешкодну інтеграцію просторів зору, мови та дії. RT-2: Моделі Зір-Мова-Дія Передають Веб-Знання Робототехніці
По суті, RT-2 використовує архітектури на основі трансформерів, такі як PaLM-540B або PaLI-X, у поєднанні з візуальними кодувальниками, такими як ViT, для обробки вхідних зображень. Шляхом спільного доналаштування на веб-масштабних наборах даних разом з даними траєкторій роботів з таких джерел, як Bridge або RoboNet, RT-2 передає інтернет-знання для фізичного керування роботами. Цей метод досягає чудової узагальненості, причому бенчмарки показують більш ніж 2-кратне покращення в обробці невідомих об'єктів та середовищ порівняно з RT-1. RT-2: Моделі Зір-Мова-Дія Передають Веб-Знання Робототехніці
Сила дій як токенів у RT-2
Масштабуйте навчання своїх роботів за допомогою глобальних операторів
Підключіть своїх роботів до нашої всесвітньої мережі. Отримуйте цілодобовий збір даних з наднизькою затримкою.
ПочатиПідхід Дії-як-токени у RT-2 є революційним. Представляючи дії робота — такі як швидкості суглобів або позиції кінцевого ефектора — як токени у словнику мовної моделі, RT-2 забезпечує безперешкодну передачу знань веб-масштабу до фізичного керування. Це підвищує масштабованість для розгортання кількох роботів, що робить його ідеальним для робототехнічних компаній, які прагнуть оптимізувати свої флотилії. Grounded Decoding: Guiding Text Generation with Grounded Models
Наприклад, за допомогою підказок "ланцюжка думок" RT-2 покращує міркування для складних завдань, дозволяючи роботам виконувати нові дії, не бачені в навчальних даних. Це особливо корисно для AI Training for Robotic Tasks, де нові можливості, такі як розуміння семантичних зв'язків з веб-даних, можуть призвести до імпровізованих рішень. Open X-Embodiment: Robotic Learning Datasets and RT-X Models
Як показано на демонстраціях, RT-2 може обробляти інструкції, що стосуються небачених об'єктів, використовуючи попередньо навчені знання з величезних інтернет-наборів даних. Це зменшує потребу у великих даних, специфічних для завдання, потенційно скорочуючи витрати на збір даних до 90% для стартапів у галузі робототехніки. RT-X: Відкриті моделі X-втілення
Нові можливості та реальні застосування

Одним з найцікавіших аспектів RT-2 є його Нові можливості в робототехніці. Вони включають багатоетапне міркування, наприклад, імпровізоване використання інструментів або розуміння семантичних концепцій, таких як «вимерлий динозавр», для ідентифікації іграшки. Такі здібності походять від навчання моделі на різноманітних веб-даних, що дозволяє роботам узагальнювати до нових середовищ. Новий ШІ Google DeepMind може керувати роботами
На практиці RT-2 демонструє надійність з показниками успішності до 80% у складних завданнях. Для операторів робототехніки це означає підвищену продуктивність у промислових умовах, причому дані показують 2-3-кратне збільшення швидкості виконання завдань. Крім того, зменшуючи залежність від людського телеуправління для навчання, моделі VLA, такі як RT-2, підвищують ефективність та знижують експлуатаційні витрати. Google DeepMind представляє RT-2 — трансформаційну модель ШІ для роботів
- Крок 1: Попереднє навчання на веб-масштабних текстах та зображеннях для широких знань.
- Крок 2: Спільне доналаштування з роботизованими наборами даних, такими як Bridge, для інтеграції дій.
- Крок 3: Розгортання в реальних сценаріях для тестування нових навичок.
Ці можливості також підвищують рентабельність інвестицій у розгортання ШІ в робототехніці , оскільки роботи адаптуються до динамічного середовища, приносячи прибуток протягом 6-12 місяців завдяки зменшенню апаратних збоїв та підвищеній адаптивності. Ланцюжок думок у підказках викликає міркування у великих мовних моделях
Ефективність даних та методи навчання
Почніть збирати дані для навчання роботів сьогодні
Наші навчені оператори дистанційно керують вашими роботами. Високоякісні демонстрації для ваших моделей ШІ.
Спробувати безкоштовноНавчання RT-2 використовує великомасштабне попереднє навчання на інтернет-даних, доопрацьоване з використанням наборів даних робототехніки. Це Ефективність даних у моделях VLA, мінімізує потребу в дорогій телеоперації в реальному світі, підтримуючи ефективний збір даних за допомогою веб-скрейпінгу та симуляції.
| Аспект | RT-1 | RT-2 |
|---|---|---|
| Покращення узагальнення | Базовий рівень | Більше ніж у 2 рази |
| Рівень успіху в нових завданнях | ~40% | До 80% |
| Потенціал зменшення даних | Стандартний | До 90% |
Для робототехнічних компаній це означає масштабоване навчання ШІ, де невеликих наборів даних, специфічних для роботів, достатньо для тонкого налаштування, що забезпечує швидку окупність інвестицій завдяки швидкому прототипуванню.
Інтеграція телеоперації з RT-2 для оптимальних результатів
Хоча RT-2 зменшує потребу у великих обсягах даних, телеоперація залишається вирішальною для високоякісних наборів даних робототехніки. Такі платформи, як AY-Robots, надають Найкращі практики телеоперації роботів, підключаючи роботів до глобальної мережі операторів для цілодобового збору даних.
Оператори можуть заробляти конкурентні ставки завдяки Потенціал заробітку у зборі даних для роботів, тоді як компанії отримують вигоду від практичних робочих процесів, які інтегрують телеоперацію з моделями ШІ, такими як RT-2.
Обмеження та майбутні напрямки

Потрібно більше даних для навчання ваших роботів?
Професійна платформа для телеоперації для досліджень у робототехніці та розробки ШІ. Оплата погодинна.
Переглянути ціниНезважаючи на свої сильні сторони, RT-2 має обмеження, зокрема залежність від високоякісних роботизованих даних та труднощі у виконанні довгострокових завдань без явного планування. Майбутня робота може включати модулі з таких моделей, як Inner Monologue для кращого планування.
Тим не менш, RT-2 відкриває шлях для Масштабоване навчання ШІ для роботів, особливо в поєднанні з телеоперацією для постійного уточнення даних.
Аналіз рентабельності інвестицій для розгортання робототехніки
Інвестиції в моделі VLA, такі як RT-2, можуть принести значні прибутки. Забезпечуючи узагальнення до невідомих середовищ, це зменшує витрати на перенавчання та підвищує ефективність завдань.
| Метрика | Традиційні моделі | RT-2 VLA |
|---|---|---|
| Терміни окупності інвестицій | 12-24 місяці | 6-12 місяців |
| Збільшення показника виконання завдань | 1x | 2-3x |
| Зменшення витрат на збір даних | Мінімальне | До 90% |
Для стартапів це означає швидшу ітерацію та розгортання, підтримане інструментами для Телеоперації та інтеграції ШІ .
Висновок: Майбутнє керування роботами з RT-2
Автоматичне перемикання при відмові, нульовий час простою
Якщо оператор відключається, інший миттєво переймає керування. Ваш робот ніколи не припиняє збирати дані.
Дізнатися більшеЗдатність RT-2 передавати веб-знання для керування роботами знаменує нову еру в робототехніці. Завдяки своїй архітектурі VLA, діям як токенам та можливостям, що виникають, він пропонує дослідникам робототехніки, інженерам ШІ, компаніям та операторам потужні інструменти для інновацій.
У AY-Robots ми раді інтегрувати RT-2 з нашою платформою телеоперації, щоб допомогти вам досягти Практичних робочих процесів для операторів роботів. Почніть оптимізувати свій ШІ для робототехніки вже сьогодні.
Розуміння архітектури VLA в RT-2

Архітектура VLA, або модель «Зір-Мова-Дія», представляє новаторський підхід у робототехнічному ШІ. В основі RT-2 лежить інтеграція обробки зору та мови з генерацією дій, що дозволяє роботам інтерпретувати та діяти відповідно до складних інструкцій, отриманих з веб-масштабних даних. Ця архітектура базується на попередніх моделях, таких як PaLM-E, забезпечуючи безперешкодну передачу знань з величезних інтернет-наборів даних до реального керування роботами.
Однією з ключових інновацій в архітектурі VLA є уніфікація сенсорних входів. Візуальні дані з камер обробляються разом з описами природною мовою, створюючи дієві результати. Ця мультимодальна інтеграція покращує здатність моделі виконувати різноманітні завдання без інтенсивного навчання для конкретних завдань, як детально описано в дописі в блозі DeepMind про RT-2.
- Злиття візуальних трансформерів для розуміння зображень
- Мовні моделі для семантичного міркування
- Токенізатори дій, які відображають передбачення на рухи роботів
- Масштабовані конвеєри навчання, що використовують веб-знання
Застосовуючи цю архітектуру, RT-2 досягає чудової продуктивності в узагальненні, що робить її ідеальною для масштабованого навчання роботів ШІ. Дослідники відзначили, що такі моделі зменшують потребу в ручному зборі даних, тим самим покращуючи ефективність даних у моделях VLA.
Дії як токени: Основний механізм
Підхід «дії як токени» є ключовим для функціональності RT-2. Замість того, щоб розглядати дії як окремі сутності, RT-2 кодує їх як токени у словнику мовної моделі. Це дозволяє моделі передбачати послідовності дій так само, як вона генерує текст, як досліджено в оригінальній статті про RT-2.
Цей метод сприяє появі нових можливостей у робототехніці, дозволяючи роботам виконувати нові завдання, для яких вони не були спеціально навчені. Наприклад, об'єднання простих дій, отриманих з веб-даних, може призвести до складної поведінки, такої як сортування об'єктів на основі абстрактних описів.
| Характеристика | RT-1 | RT-2 |
|---|---|---|
| Навчальні дані | Переважно демонстрації роботів | Масштабні візуально-мовні дані + дані роботів |
| Представлення дій | Дискретні дії | Дії як токени в мовному просторі |
| Узагальнення | Обмежено відомими завданнями | Нові можливості для непередбачених сценаріїв |
| Ефективність | Високі вимоги до даних | Покращена ефективність даних |
Переваги для керування роботами
Впровадження дій як токенів покращує керування роботами за допомогою веб-знань, дозволяючи ШІ використовувати мільярди онлайн-прикладів. Ця парадигма трансферного навчання є вирішальною для тренування ШІ для роботизованих завдань, зменшуючи час і витрати, пов'язані з традиційними методами.
Нові можливості та застосування в реальному світі
Ці можливості відкривають двері для практичних застосувань, включаючи інтеграцію з системами телеоперації. Поєднуючи ШІ з людським наглядом, оператори можуть досягти вищого ROI при розгортанні ШІ в робототехніці завдяки ефективному виконанню завдань.
- Збирайте різноманітні набори даних через такі платформи, як
- .
- Навчайте моделі, використовуючи масштабовані фреймворки від
- .
- Інтегруйте телеоперацію для тонкого налаштування, дотримуючись найкращих практик у телеоперації роботів.
- Розгортайте в реальних сценаріях для вимірювання продуктивності та ROI.
Розуміння архітектури VLA в RT-2
Архітектура VLA (Vision-Language-Action) в RT-2 є значним кроком у керуванні роботами на основі веб-знань. Інтегруючи моделі зору та мови з виходами дій, RT-2 дозволяє роботам інтерпретувати та діяти відповідно до складних інструкцій, отриманих з величезних обсягів інтернет-даних. Ця архітектура базується на попередниках, таких як PaLM-E та Inner Monologue моделі, що дозволяє безперешкодно передавати знання.
В основі своїй, VLA architecture обробляє візуальні вхідні дані разом із підказками природною мовою для генерації токенізованих дій. Цей actions-as-tokens підхід розглядає рухи робота як частину словника мовної моделі, покращуючи масштабоване навчання роботів ШІ.
Нові можливості в робототехніці з RT-2
RT-2 демонструє нові можливості в робототехніці, які виникають внаслідок навчання на веб-масштабних наборах даних. Вони включають міркування за принципом ланцюжка думок для таких завдань, як сортування об'єктів за кольором або розміром, як досліджено в Chain of Thought Prompting. Роботи тепер можуть узагальнювати до непередбачених сценаріїв, покращуючи ефективність даних у моделях VLA.
- Покращене розпізнавання об'єктів із веб-зображень, що зменшує потребу в спеціалізованих даних для навчання.
- Нове багатоетапне планування, що дозволяє роботам виконувати нові завдання без явного програмування.
- Підвищена безпека завдяки прийняттю рішень на основі мови, мінімізуючи помилки в динамічних середовищах.
Інтеграція RT-2 з телеоперацією та інтеграцією ШІ дозволяє операторам віддалено керувати роботами, поки модель навчається в реальному часі. Найкращі практики з моделей RT-X наголошують на ефективному зборі даних, що сприяє збільшенню даних для навчання ШІ для роботів.
Рентабельність інвестицій у розгортання ШІ для робототехніки
Розгортання RT-2 забезпечує значну рентабельність інвестицій у розгортання ШІ для робототехніки за рахунок скорочення витрат на ручне програмування. За даними MIT Technology Review, організації можуть досягти до 50% швидшої адаптації завдань, що призводить до підвищення продуктивності.
| Аспект | Переваги RT-2 | Порівняння з RT-1 |
|---|---|---|
| Дані для навчання | Масштабні візуально-мовні дані | Обмежено наборами даних, специфічними для роботів |
| Генерація дій | Дії як токени для плавного керування | Дискретні простори дій |
| Набуті навички | Міркування за принципом ланцюга думок | Базове виконання завдань |
| Потенціал рентабельності інвестицій | Високий, з масштабованим розгортанням | Помірний, вимагає більше телеоперації |
Для тих, хто займається найкращими практиками телеоперації роботів, RT-2 інтегрується з такими інструментами, як Bridge Dataset для ефективних робочих процесів. Це не тільки оптимізує операції, але й відкриває потенціал заробітку на зборі даних роботів через фріланс-ролі телеоператорів.
Практичні робочі процеси для операторів роботів
Оператори можуть використовувати інструменти для телеоперації, такі як ті, що походять від RoboNet для збору високоякісних даних. Типовий робочий процес включає початкові сесії телеоперації, за якими слідує точне налаштування ШІ, як детально описано в RT-2 study.
- Налаштуйте інтерфейс телеоперації із сумісним обладнанням.
- Збирайте різноманітні дані про дії в різних середовищах.
- Точно налаштуйте модель VLA, використовуючи зібрані набори даних.
- Розгортайте та відстежуйте нові можливості.
Цей підхід забезпечує практичні робочі процеси для операторів роботів , максимізуючи ефективність та узгоджуючись з візуально-мовними моделями для керування роботами досягненнями.
Sources
- RT-2: Візуально-мовні моделі дії переносять веб-знання в роботизоване керування
- RT-2: Нова модель перетворює зір і мову в дію
- RT-1: Робототехнічний трансформер для великомасштабного керування в реальному світі
- Роби, як я можу, а не як я кажу: Обґрунтування мови в роботизованих можливостях
- PaLM-E: Втілена мультимодальна мовна модель
- RT-2: Візуально-мовні моделі дії переносять веб-знання в роботизоване керування
- Візуально-мовні моделі для керування роботами
- Обґрунтоване декодування: Керування генерацією тексту за допомогою обґрунтованих моделей
- Open X-Embodiment: Набори даних для навчання роботів та моделі RT-X
- RT-X: Моделі Open X-Embodiment
- Новий ШІ Google DeepMind може керувати роботами
- Google DeepMind представляє RT-2, трансформаційну модель ШІ для роботів
- Внутрішній монолог: Втілене міркування через планування за допомогою мовних моделей
- Підказки "Ланцюжок думок" викликають міркування у великих мовних моделях
- Набір даних Bridge для роботизованих маніпуляцій
- RoboNet: Великомасштабне навчання кількох роботів
- Візуально-мовні моделі в робототехніці: Огляд
- Трансформери в робототехніці: Огляд
- Масштабування навчання роботів за допомогою семантично уявного досвіду
- RT-2 від Google: Розвиток роботизованого інтелекту
- Автоматизація збору даних роботами для бізнес-аналітики
Videos
Sources
- RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
- RT-2: New model translates vision and language into action
- RT-1: Robotics Transformer for Real-World Control at Scale
- Do As I Can, Not As I Say: Grounding Language in Robotic Affordances
- PaLM-E: An Embodied Multimodal Language Model
- RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
- Vision-language models for robot control
- Grounded Decoding: Guiding Text Generation with Grounded Models
- Open X-Embodiment: Robotic Learning Datasets and RT-X Models
- RT-X: Open X-Embodiment Models
- Google DeepMind’s new AI can control robots
- Google DeepMind unveils RT-2, a transformative AI model for robots
- Inner Monologue: Embodied Reasoning through Planning with Language Models
- Chain of Thought Prompting Elicits Reasoning in Large Language Models
- Bridge Dataset for Robotic Manipulation
- RoboNet: Large-Scale Multi-Robot Learning
- Vision-Language Models in Robotics: A Survey
- Transformers in Robotics: A Review
- Scaling Robot Learning with Semantically Imagined Experience
- Google's RT-2: Advancing Robotic Intelligence
- Automation of Robot Data Collection for Business Insights
Ready for high-quality robotics data?
AY-Robots connects your robots to skilled operators worldwide.
Get Started