BriefGPT.xyz
Ask
alpha
关键词
navigation capabilities
搜索结果 - 1
ICCV
在 3D 环境中探索与描述:基于身体感知的视觉字幕生成
当前的视觉说明模型假设图像是完整呈现场景的完美捕捉,然而在真实世界场景中一个图像可能没有提供良好的视角,从而限制了对细粒度场景的理解。为了克服这一限制,我们提出了一项名为 “实体说明” 的新任务,将视觉说明模型与导航能力相结合,使其能够主动
→
PDF
a year ago
Prev
Next