Một cánh tay robot tương tác với các đối tượng bằng mô hình ngôn ngữ-hành động thị giác AI
RT-2Mô hình Ngôn ngữ-Hành động Thị giácAI RoboticsĐiều khiển RobotĐiều khiển từ xa

RT-2: Cách Mô Hình Ngôn Ngữ-Hành Động Thị Giác Chuyển Kiến Thức Web Sang Điều Khiển Robot

Nhóm AY-RobotsOctober 15, 202312

Khám phá cách Mô hình Ngôn ngữ-Hành động Thị giác RT-2 của Google cách mạng hóa việc điều khiển robot bằng cách chuyển kiến thức web sang các hành động vật lý. Tìm hiểu về kiến trúc, phương pháp đào tạo, khả năng mới nổi và ý nghĩa của nó đối với các công ty và nhà khai thác robot, bao gồm tích hợp với điều khiển từ xa để đào tạo AI hiệu quả.

Tìm hiểu về Mô hình Ngôn ngữ-Hành động Thị giác RT-2

RT-2 mở rộng các mô hình ngôn ngữ thị giác bằng cách kết hợp các đầu ra hành động dưới dạng mã thông báo, cho phép dự đoán đầu cuối các hành động robot từ đầu vào trực quan và văn bản. Kiến trúc VLA coi các hành động của robot như một phần của từ vựng của mô hình ngôn ngữ, cho phép tích hợp liền mạch các không gian thị giác, ngôn ngữ và hành động. RT-2: Mô hình Ngôn ngữ-Hành động Thị giác Chuyển Kiến thức Web sang Ro

Về cốt lõi, RT-2 sử dụng các kiến trúc dựa trên biến đổi, chẳng hạn như PaLM-540B hoặc PaLI-X, kết hợp với bộ mã hóa thị giác như ViT để xử lý đầu vào hình ảnh. Bằng cách tinh chỉnh đồng thời trên các tập dữ liệu quy mô web cùng với dữ liệu quỹ đạo robot từ các nguồn như Bridge hoặc RoboNet, RT-2 chuyển kiến thức internet sang điều khiển robot vật lý. Phương pháp này đạt được khả năng khái quát hóa đáng kể, với các điểm chuẩn cho thấy cải thiện hơn 2 lần trong việc xử lý các đối tượng và môi trường chưa từng thấy so với RT-1. RT-2: Mô hình Ngôn ngữ-Hành động Thị giác Chuyển Kiến thức Web sang Ro

Sức mạnh của Hành động dưới dạng Mã thông báo trong RT-2

Mở rộng quy mô đào tạo robot của bạn với các nhà khai thác toàn cầu

Kết nối robot của bạn với mạng lưới toàn cầu của chúng tôi. Nhận thu thập dữ liệu 24/7 với độ trễ cực thấp.

Bắt đầu

Cách tiếp cận Hành động dưới dạng Mã thông báo trong RT-2 là mang tính cách mạng. Bằng cách biểu diễn các hành động của robot—chẳng hạn như vận tốc khớp hoặc vị trí bộ phận cuối—dưới dạng mã thông báo trong từ vựng của mô hình ngôn ngữ, RT-2 cho phép chuyển liền mạch kiến thức quy mô web sang điều khiển vật lý. Điều này tăng cường khả năng mở rộng cho việc triển khai nhiều robot, khiến nó trở nên lý tưởng cho các công ty robot muốn tối ưu hóa đội xe của họ. Giải mã Có cơ sở: Hướng dẫn Tạo Văn bản bằng Mô hình Có cơ sở

Ví dụ: thông qua lời nhắc chuỗi suy nghĩ, RT-2 tăng cường khả năng suy luận cho các tác vụ phức tạp, cho phép robot thực hiện các hành động mới chưa từng thấy trong dữ liệu đào tạo. Điều này đặc biệt có lợi cho Đào tạo AI cho Nhiệm vụ Robot , nơi các khả năng mới nổi như hiểu các mối quan hệ ngữ nghĩa từ dữ liệu web có thể dẫn đến các giải pháp ngẫu hứng. X-Hiện thân Mở: Tập dữ liệu Học tập Robot và Mô hình RT-X

Như đã thấy trong các bản trình diễn, RT-2 có thể xử lý các hướng dẫn liên quan đến các đối tượng chưa từng thấy, tận dụng kiến thức được đào tạo trước từ các tập dữ liệu internet rộng lớn. Điều này làm giảm nhu cầu về dữ liệu dành riêng cho tác vụ mở rộng, có khả năng cắt giảm chi phí thu thập dữ liệu tới 90% cho các công ty khởi nghiệp về robot. RT-X: Mô hình X-Hiện thân Mở

Khả năng Mới nổi và Ứng dụng Thực tế

không xác định: trước và sau khi dàn dựng ảo

Một trong những khía cạnh thú vị nhất của RT-2 là Khả năng Mới nổi trong Robotics. Chúng bao gồm suy luận nhiều bước, chẳng hạn như sử dụng các công cụ một cách ngẫu hứng hoặc nắm bắt các khái niệm ngữ nghĩa như 'khủng long tuyệt chủng' để xác định một món đồ chơi. Những khả năng như vậy bắt nguồn từ quá trình đào tạo của mô hình trên dữ liệu web đa dạng, cho phép robot khái quát hóa sang các môi trường mới. AI mới của Google DeepMind có thể điều khiển robot

Về mặt thực tế, RT-2 thể hiện sự mạnh mẽ với tỷ lệ thành công lên đến 80% đối với các tác vụ đầy thách thức. Đối với các nhà khai thác robot, điều này có nghĩa là cải thiện năng suất trong môi trường công nghiệp, với những hiểu biết cho thấy mức tăng 2-3 lần về tỷ lệ hoàn thành tác vụ. Hơn nữa, bằng cách giảm sự phụ thuộc vào điều khiển từ xa của con người để đào tạo, các mô hình VLA như RT-2 cải thiện hiệu quả và giảm chi phí vận hành. Google DeepMind ra mắt RT-2, một mô hình AI biến đổi cho robot

  1. Bước 1: Đào tạo trước trên văn bản và hình ảnh quy mô web để có kiến thức rộng.
  2. Bước 2: Tinh chỉnh đồng thời với các tập dữ liệu robot như Bridge để tích hợp hành động.
  3. Bước 3: Triển khai trong các tình huống thực tế để kiểm tra kỹ năng mới nổi.

Những khả năng này cũng thúc đẩy ROI trong Triển khai AI Robotics , khi robot thích ứng với môi trường động, mang lại lợi nhuận trong vòng 6-12 tháng thông qua việc giảm lỗi phần cứng và tăng cường khả năng thích ứng. Lời nhắc Chuỗi Suy nghĩ Khơi gợi Suy luận trong Ngôn ngữ Lớn M

Hiệu quả Dữ liệu và Phương pháp Đào tạo

Bắt đầu thu thập dữ liệu đào tạo robot ngay hôm nay

Các nhà khai thác được đào tạo của chúng tôi điều khiển robot của bạn từ xa. Các bản trình diễn chất lượng cao cho các mô hình AI của bạn.

Dùng thử miễn phí

Quá trình đào tạo của RT-2 tận dụng quá trình đào tạo trước quy mô lớn trên dữ liệu internet, được tinh chỉnh với các tập dữ liệu robot. Hiệu quả Dữ liệu trong Mô hình VLA giảm thiểu nhu cầu điều khiển từ xa thực tế tốn kém, hỗ trợ thu thập dữ liệu hiệu quả thông qua cạo web và mô phỏng.

Khía cạnhRT-1RT-2
Cải thiện Khái quát hóaĐường cơ sởHơn 2 lần
Tỷ lệ Thành công trên các Tác vụ Mới~40%Lên đến 80%
Tiềm năng Giảm Dữ liệuTiêu chuẩnLên đến 90%

Đối với các công ty robot, điều này chuyển thành đào tạo AI có thể mở rộng, trong đó các tập dữ liệu dành riêng cho robot nhỏ là đủ để tinh chỉnh, mang lại ROI nhanh chóng thông qua tạo mẫu nhanh.

Tích hợp Điều khiển từ xa với RT-2 để có Kết quả Tối ưu

Mặc dù RT-2 giảm nhu cầu về dữ liệu mở rộng, nhưng điều khiển từ xa vẫn rất quan trọng đối với các tập dữ liệu robot chất lượng cao. Các nền tảng như AY-Robots cung cấp Các phương pháp hay nhất về Điều khiển từ xa Robot , kết nối robot với mạng lưới toàn cầu các nhà khai thác để thu thập dữ liệu 24/7.

Các nhà khai thác có thể kiếm được mức giá cạnh tranh thông qua Tiềm năng Kiếm tiền trong Thu thập Dữ liệu Robot , trong khi các công ty được hưởng lợi từ các quy trình làm việc thực tế tích hợp điều khiển từ xa với các mô hình AI như RT-2.

Các công cụ như Hệ điều hành Robot (ROS) và các nền tảng gắn nhãn dữ liệu như Scale AI tăng cường sự tích hợp này, đảm bảo hiệu quả dữ liệu và tính mạnh mẽ của mô hình.

Hạn chế và Hướng đi Tương lai

không xác định: trước và sau khi dàn dựng ảo

Cần thêm dữ liệu đào tạo cho robot của bạn?

Nền tảng điều khiển từ xa chuyên nghiệp cho nghiên cứu robot và phát triển AI. Trả tiền theo giờ.

Xem Giá

Bất chấp những điểm mạnh của nó, RT-2 có những hạn chế, bao gồm sự phụ thuộc vào dữ liệu robot chất lượng cao và những thách thức trong các tác vụ đường chân trời dài mà không có kế hoạch rõ ràng. Công việc trong tương lai có thể kết hợp các mô-đun từ các mô hình như Độc thoại Bên trong để lập kế hoạch tốt hơn.

Tuy nhiên, RT-2 mở đường cho Đào tạo AI Robot Có thể mở rộng , đặc biệt khi kết hợp với điều khiển từ xa để tinh chỉnh dữ liệu liên tục.

Phân tích ROI cho Triển khai Robotics

Đầu tư vào các mô hình VLA như RT-2 có thể mang lại lợi nhuận đáng kể. Bằng cách cho phép khái quát hóa sang các môi trường chưa từng thấy, nó cắt giảm chi phí đào tạo lại và cải thiện hiệu quả tác vụ.

Số liệuMô hình Truyền thốngRT-2 VLA
Dòng thời gian ROI12-24 tháng6-12 tháng
Tăng Tỷ lệ Hoàn thành Tác vụ1x2-3x
Giảm Chi phí Thu thập Dữ liệuTối thiểuLên đến 90%

Đối với các công ty khởi nghiệp, điều này có nghĩa là lặp lại và triển khai nhanh hơn, được hỗ trợ bởi các công cụ cho Điều khiển từ xa và Tích hợp AI .

Kết luận: Tương lai của Điều khiển Robot với RT-2

Chuyển đổi dự phòng tự động, không thời gian chết

Nếu một nhà khai thác ngắt kết nối, một nhà khai thác khác sẽ tiếp quản ngay lập tức. Robot của bạn không bao giờ ngừng thu thập dữ liệu.

Tìm hiểu thêm

Khả năng của RT-2 trong việc chuyển kiến thức web sang điều khiển robot đánh dấu một kỷ nguyên mới trong lĩnh vực robot. Với kiến trúc VLA, hành động dưới dạng mã thông báo và khả năng mới nổi, nó cung cấp cho các nhà nghiên cứu robot, kỹ sư AI, công ty và nhà khai thác các công cụ mạnh mẽ để đổi mới.

Tại AY-Robots, chúng tôi rất vui mừng được tích hợp RT-2 với nền tảng điều khiển từ xa của mình để giúp bạn đạt được Quy trình làm việc Thực tế cho Nhà khai thác Robot . Bắt đầu tối ưu hóa AI robot của bạn ngay hôm nay.

Tìm hiểu về Kiến trúc VLA trong RT-2

không xác định: trước và sau khi dàn dựng ảo

Kiến trúc VLA, hay mô hình Ngôn ngữ-Hành động Thị giác, đại diện cho một cách tiếp cận đột phá trong AI robot. Về cốt lõi, RT-2 tích hợp xử lý thị giác và ngôn ngữ với tạo hành động, cho phép robot diễn giải và hành động theo các hướng dẫn phức tạp có nguồn gốc từ dữ liệu quy mô web. Kiến trúc này xây dựng dựa trên các mô hình trước đó như PaLM-E, cho phép chuyển liền mạch kiến thức từ các tập dữ liệu internet rộng lớn sang điều khiển robot thực tế.

Một đổi mới quan trọng trong kiến trúc VLA là sự thống nhất của các đầu vào cảm giác. Dữ liệu thị giác từ máy ảnh được xử lý cùng với các mô tả ngôn ngữ tự nhiên, tạo ra các đầu ra có thể hành động. Sự tích hợp đa phương thức này tăng cường khả năng của mô hình trong việc xử lý các tác vụ đa dạng mà không cần đào tạo dành riêng cho tác vụ mở rộng, như được trình bày chi tiết trong bài đăng trên blog DeepMind về RT-2.

  • Hợp nhất các biến đổi thị giác để hiểu hình ảnh
  • Mô hình ngôn ngữ để suy luận ngữ nghĩa
  • Bộ mã hóa hành động ánh xạ các dự đoán sang chuyển động của robot
  • Quy trình đào tạo có thể mở rộng tận dụng kiến thức web

Bằng cách sử dụng kiến trúc này, RT-2 đạt được hiệu suất vượt trội trong khái quát hóa, khiến nó trở nên lý tưởng cho đào tạo AI robot có thể mở rộng. Các nhà nghiên cứu đã lưu ý rằng các mô hình như vậy làm giảm nhu cầu thu thập dữ liệu thủ công, do đó cải thiện hiệu quả dữ liệu trong các mô hình VLA.

Hành động dưới dạng Mã thông báo: Một Cơ chế Cốt lõi

Cách tiếp cận hành động dưới dạng mã thông báo là then chốt đối với chức năng của RT-2. Thay vì coi các hành động là các thực thể riêng biệt, RT-2 mã hóa chúng dưới dạng mã thông báo trong từ vựng của mô hình ngôn ngữ. Điều này cho phép mô hình dự đoán các chuỗi hành động theo cách tương tự như tạo văn bản, như đã khám phá trong bài báo RT-2 gốc.

Phương pháp này tạo điều kiện cho các khả năng mới nổi trong robot bằng cách cho phép robot thực hiện các tác vụ mới không được đào tạo rõ ràng. Ví dụ: xâu chuỗi các hành động đơn giản học được từ dữ liệu web có thể dẫn đến các hành vi phức tạp, chẳng hạn như sắp xếp các đối tượng dựa trên các mô tả trừu tượng.

Tính năngRT-1RT-2
Dữ liệu Đào tạoChủ yếu là các bản trình diễn robotDữ liệu ngôn ngữ thị giác quy mô web + dữ liệu robot
Biểu diễn Hành độngHành động rời rạcHành động dưới dạng mã thông báo trong không gian ngôn ngữ
Khái quát hóaGiới hạn trong các tác vụ đã thấyKhả năng mới nổi cho các kịch bản chưa từng thấy
Hiệu quảYêu cầu dữ liệu caoCải thiện hiệu quả dữ liệu

Lợi ích cho Điều khiển Robot

Việc triển khai hành động dưới dạng mã thông báo tăng cường khả năng điều khiển robot từ kiến thức web, cho phép AI rút ra từ hàng tỷ ví dụ trực tuyến. Mô hình học chuyển giao này rất quan trọng đối với đào tạo AI cho các tác vụ robot, giảm thời gian và chi phí liên quan đến các phương pháp truyền thống.

Khả năng Mới nổi và Ứng dụng Thực tế

RT-2 thể hiện các khả năng mới nổi, trong đó mô hình thể hiện các kỹ năng vượt xa dữ liệu đào tạo của nó. Ví dụ: nó có thể suy luận về khả năng chi trả đối tượng hoặc chuỗi suy nghĩ để lập kế hoạch nhiều bước, lấy cảm hứng từ các kỹ thuật trong lời nhắc chuỗi suy nghĩ.

Những khả năng này mở ra cánh cửa cho các ứng dụng thực tế, bao gồm tích hợp với các hệ thống điều khiển từ xa. Bằng cách kết hợp AI với sự giám sát của con người, các nhà khai thác có thể đạt được ROI cao hơn trong triển khai AI robot thông qua thực hiện tác vụ hiệu quả.

  1. Thu thập các tập dữ liệu đa dạng thông qua các nền tảng như
  2. .
  3. Đào tạo các mô hình bằng cách sử dụng các khung có thể mở rộng từ
  4. .
  5. Tích hợp điều khiển từ xa để tinh chỉnh, tuân theo các phương pháp hay nhất trong điều khiển từ xa robot.
  6. Triển khai trong các kịch bản thực tế để đo lường hiệu suất và ROI.

Tìm hiểu về Kiến trúc VLA trong RT-2

Kiến trúc VLA (Ngôn ngữ-Hành động Thị giác) trong RT-2 đại diện cho một bước tiến đáng kể trong điều khiển robot từ kiến thức web. Bằng cách tích hợp các mô hình thị giác và ngôn ngữ với đầu ra hành động, RT-2 cho phép robot diễn giải và hành động theo các hướng dẫn phức tạp có nguồn gốc từ dữ liệu internet rộng lớn. Kiến trúc này xây dựng dựa trên những người tiền nhiệm như PaLM-EĐộc thoại Bên trong các mô hình, cho phép chuyển liền mạch kiến thức.

Về cốt lõi, kiến trúc VLA xử lý đầu vào trực quan cùng với lời nhắc ngôn ngữ tự nhiên để tạo ra các hành động được mã hóa. hành động dưới dạng mã thông báo cách tiếp cận coi các chuyển động của robot như một phần của từ vựng của mô hình ngôn ngữ, tăng cường đào tạo AI robot có thể mở rộng.

Khả năng Mới nổi trong Robotics với RT-2

RT-2 giới thiệu khả năng mới nổi trong robot phát sinh từ quá trình đào tạo trên các tập dữ liệu quy mô web. Chúng bao gồm suy luận chuỗi suy nghĩ cho các tác vụ như sắp xếp các đối tượng theo màu sắc hoặc kích thước, như đã khám phá trong Lời nhắc Chuỗi Suy nghĩ. Robot giờ đây có thể khái quát hóa sang các kịch bản chưa từng thấy, cải thiện hiệu quả dữ liệu trong các mô hình VLA.

  • Cải thiện khả năng nhận dạng đối tượng từ hình ảnh web, giảm nhu cầu về dữ liệu đào tạo chuyên dụng.
  • Lập kế hoạch nhiều bước mới nổi, cho phép robot xử lý các tác vụ mới mà không cần lập trình rõ ràng.
  • Nâng cao độ an toàn thông qua việc ra quyết định dựa trên ngôn ngữ, giảm thiểu lỗi trong môi trường động.

Tích hợp RT-2 với điều khiển từ xa và tích hợp AI cho phép các nhà khai thác hướng dẫn robot từ xa trong khi mô hình học hỏi trong thời gian thực. Các phương pháp hay nhất từ Mô hình RT-X nhấn mạnh thu thập dữ liệu hiệu quả, thúc đẩy dữ liệu đào tạo AI cho robot.

ROI trong Triển khai AI Robotics

Triển khai RT-2 mang lại ROI đáng kể trong triển khai AI robot bằng cách cắt giảm chi phí lập trình thủ công. Theo MIT Technology Review, các tổ chức có thể đạt được khả năng thích ứng tác vụ nhanh hơn tới 50%, chuyển thành năng suất cao hơn.

Khía cạnhLợi ích RT-2So sánh với RT-1
Dữ liệu Đào tạoDữ liệu ngôn ngữ thị giác quy mô webGiới hạn trong các tập dữ liệu dành riêng cho robot
Tạo Hành độngHành động dưới dạng mã thông báo để điều khiển linh hoạtKhông gian hành động rời rạc
Kỹ năng Mới nổiSuy luận chuỗi suy nghĩThực hiện tác vụ cơ bản
Tiềm năng ROICao, với triển khai có thể mở rộngVừa phải, yêu cầu điều khiển từ xa nhiều hơn

Đối với những người trong các phương pháp hay nhất về điều khiển từ xa robot , RT-2 tích hợp với các công cụ như Tập dữ liệu Bridge cho quy trình làm việc hiệu quả. Điều này không chỉ hợp lý hóa các hoạt động mà còn mở ra tiềm năng kiếm tiền trong thu thập dữ liệu robot thông qua các vai trò điều khiển từ xa tự do.

Quy trình làm việc Thực tế cho Nhà khai thác Robot

Các nhà khai thác có thể tận dụng công cụ cho điều khiển từ xa chẳng hạn như các công cụ từ RoboNet để thu thập dữ liệu chất lượng cao. Một quy trình làm việc điển hình bao gồm các phiên điều khiển từ xa ban đầu, sau đó là tinh chỉnh AI, như được trình bày chi tiết trong nghiên cứu RT-2.

  1. Thiết lập giao diện điều khiển từ xa với phần cứng tương thích.
  2. Thu thập dữ liệu hành động đa dạng trong các môi trường khác nhau.
  3. Tinh chỉnh mô hình VLA bằng cách sử dụng các tập dữ liệu đã thu thập.
  4. Triển khai và giám sát các khả năng mới nổi.

Cách tiếp cận này đảm bảo quy trình làm việc thực tế cho các nhà khai thác robot , tối đa hóa hiệu quả và phù hợp với mô hình ngôn ngữ thị giác để điều khiển robot những tiến bộ.

Sources

Videos

Ready for high-quality robotics data?

AY-Robots connects your robots to skilled operators worldwide.

Get Started