BriefGPT.xyz
Ask
alpha
关键词
embodied video understanding
搜索结果 - 1
AlanaVLM:一种用于视角视频理解的多模态具身 AI 基础模型
通过三个主要贡献,我们提出了能够与人类高效协作的 AI 个人助手的机器人或穿戴设备部署需要体现理解。为了填补当前视觉 - 语言模型在第三人视角视频上的研究的空白,我们引入了以自我中心感知经验为特定的视角视频字幕和问题回答任务训练视觉 - 语
→
PDF
17 days ago
Prev
Next