Microsoftは、ロボティクス向けの画期的な人工知能モデル「Rho-alpha」を正式に発表しました。これは、視覚と言語を組み合わせた成功したPhiシリーズに由来するもので、Embodied Artificial Intelligenceの分野における大きな飛躍を示しています。この新しいモデルはVision-Language-Actionモデルに分類されますが、従来の視覚データを超えた拡張された知覚能力を持つことから、Microsoftの社内チームではしばしば「Vision-Language-Action plus」と呼ばれています。
Rho-alphaの中核的な革新は、複雑な自然言語による指示をロボットハードウェア向けの精密な制御信号に直接翻訳できる点にあります。現在、このモデルはデュアルアームシステムやヒューマノイドロボットプラットフォーム上で厳格な評価が行われています。従来のロボットAIが主に視覚入力に依存していたのに対し、Rho-alphaは高度な触覚センシングを統合しています。これによりロボットは環境を「感じる」ことができ、小型電子部品の挿入や繊細な物体の取り扱いなど、接触を伴う作業を人間のような器用さで実行できるようになります。
この水準の性能を達成するために、Microsoftは高度な共同学習パイプラインを利用しました。モデルは実世界での物理的デモ、高精細な合成データ(Azure上のNVIDIA Isaac Simulationで生成)、およびウェブ規模の視覚的質問応答データセットの組み合わせを用いて訓練されました。さらに、Vision-Language-Action plusの「plus」は人間からのフィードバックループの導入を意味します。オペレーターはテレオペレーションを通じて修正フィードバックを提供でき、Rho-alphaは実際の運用中に継続的に性能を改善していきます。
将来に向けて、Microsoftは感覚セットに力覚センシングを追加する計画を持ち、シミュレーション上の知能と物理的実行とのギャップをさらに縮小しようとしています。技術仕様と包括的な研究論文は今後数か月以内に公開される予定であり、グローバルな開発者コミュニティにこの変革的技術へのより深い洞察を提供することが期待されています。