Apr, 2025

NORA: 一种用于具身任务的小型开源通用视觉语言动作模型

TL;DR本研究解决了现有视觉语言动作模型在视觉编码中的局限,导致任务执行失败的问题。文章提出了NORA模型,通过减少计算开销并保持强大的任务表现,利用Qwen-2.5-VL-3B多模态模型增强视觉推理和动作定位。实验结果表明,NORA在任务性能上超越了现有的大型VLA模型,成为实时机器人自主性的更实用解决方案。