Microsoft ra mắt Rho-alpha: Biên giới mới của mô hình Thị giác-Ngôn ngữ-Hành động cho Robot
Mô hình vision-language-action Rho-alpha là mô hình AI đổi mới của Microsoft dành cho робот học, nâng cao năng lực của robot với khả năng tích hợp cảm biến và phản hồi từ con người.
Microsoft đã chính thức giới thiệu mô hình trí tuệ nhân tạo đột phá dành cho robot, mang tên Rho-alpha. Được phát triển từ dòng mô hình thị giác-ngôn ngữ Phi thành công, Rho-alpha đánh dấu một bước tiến đáng kể trong lĩnh vực Trí tuệ nhân tạo hiện thân. Mô hình mới này được xếp vào nhóm mô hình Thị giác-Ngôn ngữ-Hành động, nhưng các nhóm nội bộ của Microsoft thường gọi nó là "Thị giác-Ngôn ngữ-Hành động plus" vì khả năng cảm nhận mở rộng vượt ra ngoài dữ liệu hình ảnh truyền thống.
Cốt lõi đổi mới của Rho-alpha nằm ở khả năng chuyển đổi trực tiếp các chỉ dẫn ngôn ngữ tự nhiên phức tạp thành tín hiệu điều khiển chính xác cho phần cứng robot. Hiện tại, mô hình đang được đánh giá nghiêm ngặt trên các hệ thống hai tay và các nền tảng robot hình người. Khác với các thế hệ Trí tuệ nhân tạo robot trước đây vốn chủ yếu dựa vào đầu vào thị giác, Rho-alpha tích hợp cảm biến xúc giác tiên tiến. Điều này cho phép robot "cảm nhận" môi trường xung quanh, giúp chúng thực hiện các tác vụ đòi hỏi tiếp xúc cao như lắp các linh kiện điện tử nhỏ hoặc xử lý những vật thể tinh tế với sự khéo léo như con người.
Để đạt được mức hiệu năng này, Microsoft đã sử dụng một quy trình đồng huấn luyện tinh vi. Mô hình được huấn luyện bằng sự kết hợp giữa các minh họa vật lý trong thế giới thực, dữ liệu tổng hợp độ trung thực cao được tạo ra qua NVIDIA Isaac Simulation trên Azure, và các bộ dữ liệu hỏi-đáp thị giác quy mô web. Hơn nữa, phần "plus" trong Vision-Language-Action plus thể hiện việc bổ sung các vòng phản hồi từ con người. Người vận hành có thể cung cấp phản hồi điều chỉnh thông qua điều khiển từ xa, cho phép Rho-alpha liên tục cải thiện hiệu suất trong quá trình triển khai thực tế.
Trong thời gian tới, Microsoft dự định mở rộng bộ cảm biến của mô hình để bao gồm cảm biến lực, qua đó tiếp tục thu hẹp khoảng cách giữa trí tuệ mô phỏng và thực thi vật lý. Các thông số kỹ thuật cùng một bài báo nghiên cứu toàn diện dự kiến sẽ được công bố trong những tháng tới, cung cấp cho cộng đồng nhà phát triển toàn cầu những hiểu biết sâu hơn về công nghệ mang tính chuyển đổi này.