Robotic systems interacting with technology in the Microsoft lab, showcasing Rho-alpha vision-language-action model.

Microsoft 推出 Rho-alpha:机器人视觉—语言—动作模型的下一前沿

Rho-alpha vision-language-action model is Microsoft’s innovative AI model for robotics, enhancing robotic capabilities with sensory integration and human feedback.
SK hynix 在2025年受人工智能内存热潮推动创下历史新高 Reading Microsoft 推出 Rho-alpha:机器人视觉—语言—动作模型的下一前沿 1 minute Next 打破寿命瓶颈:Nippon Kojundo 在锌电池领域的突破
Microsoft 已正式推出其用于机器人技术的开创性人工智能模型 Rho-alpha。该模型源自成功的 Phi 系列视觉-语言模型,代表了具身人工智能领域的重大飞跃。该新模型被归类为视觉-语言-动作(Vision-Language-Action)模型,但 Microsoft 内部团队常称其为“Vision-Language-Action plus”,以强调其超越传统视觉数据的扩展感知能力。
Rho-alpha 的核心创新在于能够将复杂的自然语言指令直接转化为对机器人硬件的精确控制信号。目前,该模型正在对双臂系统和类人机器人平台进行严格评估。与此前主要依赖视觉输入的机器人人工智能版本不同,Rho-alpha 集成了先进的触觉传感,使机器人能够“感知”环境,从而执行诸如插入小型电子元件或以类人灵巧度处理易损物体等接触密集型任务。
为实现这一性能水平,Microsoft 使用了复杂的联合训练流水线。该模型通过结合真实世界的物理示范、在 Azure 上通过 NVIDIA Isaac Simulation 生成的高保真合成数据以及大规模网络视觉问答数据集进行训练。此外,“plus”在 Vision-Language-Action plus 中还意味着包含了人类反馈环路。人工操作员可以通过遥操作提供纠正性反馈,使 Rho-alpha 在实际部署中持续改进其性能。
展望未来,Microsoft 计划将模型的传感套件扩展到包括力传感,进一步缩小模拟智能与物理执行之间的差距。技术规格和全面的研究论文预计将在未来几个月发布,为全球开发者社区提供对这一变革性技术的更深入见解。