BriefGPT.xyz
Ask
alpha
关键词
zero-shot navigation
搜索结果 - 3
零射击视觉语言导航中的思考、交互和行动框架
利用大型语言模型和 Thinking Interacting and Action 框架,本研究提出了一种用于零样本导航的导航代理,该方法提高了基于大型语言模型的代理导航的性能,并在 Room-to-Room 数据集上优于某些基于监督学习的
→
PDF
4 months ago
将知识图谱与视觉感知对齐,进行物体目标导航
提出了一种将知识图谱与视觉感知对齐的方法,通过连续建模场景结构和利用视觉 - 语言预训练来实现更准确和一致的场景描述,从而提供了非凡的零样本导航能力。
PDF
4 months ago
GPT-4V 在仙境中:用于零封注册手机 GUI 导航的大型多模态模型
使用基于 GPT-4V 的 MM-Navigator 代理,通过先进的屏幕解析、动作推理和精确的动作定位能力,在智能手机图形用户界面(GUI)导航任务中实现了零射击导航,并在 iOS 和 Android 上展示了优异的性能。
PDF
8 months ago
Prev
Next