研究在家庭、办公室和远程场景中执行自然语言指令的模型,探讨基于 Bisk-2016 数据集语言和空间世界表示学习的源块分类和目标位置回归的新型模型,CNN 和双重注意力模型用于计算世界块和指令短语之间的对齐,深度比较了两种推理方法并取得了最新的业内最佳效果。
Jul, 2017
本研究的目标是针对空间问题回答,在一个多模态人机交互的流程中,使用视觉系统、语音输入输出系统、基于图像解释的对话管理器和 3D 空间建模,进而实现语义解释、约束求解和视觉解析等组件的整合。该系统能够将空间问题映射为逻辑问题,使用图式表示方法实现对话管理,并得到与人类感知相一致的空间问题答案。
Nov, 2019
本文提出了一个系统,用于生成和理解机器人交互设置中的动态和静态空间关系。机器人使用涵盖如 “跨越” 和 “在前面” 等空间关系的英语短语描述移动方块的环境。我们在机器人之间进行了系统评估,展示了该系统可以稳健处理视觉感知错误、语言遗漏和不符合语法的话语。
Jul, 2016
本文提出了一个在模拟环境中进行空间推理的模型,使用强化学习和广义值迭代方法进行训练,取得了目标定位误差减少 45% 的成果。模型以指令文本为引导,学习世界的表示,对语言和环境进行联合推理,实现了本地邻域与对应词汇的精准对齐,同时处理指令中的全局参照。
采用预训练语言模型生成行动计划是一种很有前途的研究策略,本文提出了一种新的方法,将语言模型与强化学习相结合,用于在类似 Minecraft 的环境中按照自然语言指令构建对象,在 IGLU 2022 竞赛中形成了强化学习基线。
Nov, 2022
提出了一种空间语言模型用于 3D 视觉定位问题,使用基于 Transformer 的架构将空间嵌入和 DistilBert 的语言嵌入结合起来进行目标对象预测,能够在 ReferIt3D 提出的数据集上表现出竞争性,可以被应用于机器人等领域的视觉任务中。
Jul, 2021
基于 2D 迷宫世界,通过虚拟代理学习语言的模型,将语言的生成与理解与其他计算流程分离,从而成功地解决新单词出现的问题。模型可以解释人类可理解的中间输出结果,大幅优于其他五种比较方法。
Jan, 2018
该研究通过大型语言模型(LLMs)探索了空间规划和自然语言界面与导航的交叉问题。我们关注的是遵循与传统机器人指令不同、更类似于自然对话的相对复杂的指令。与先前的大多数工作不同的是,我们研究了对话交互中的隐式指令。通过利用 3D 模拟器 AI2Thor 在规模上创建复杂且可重复的场景,并通过为 40 种对象类型增加复杂的语言查询来扩充它。我们证明了通过使用 LLM 将用户交互解释为场景中对象列表的上下文,机器人能够更好地解析描述性语言查询。
Jul, 2023
通过和计算机交互完成任务,以语言游戏的方式,人类可以在不知道什么是语言的情况下学习语言,为建立自适应的自然语言接口打下基础,使用组合性而避免使用同义词有助于任务表现,从零开始快速学习语义解析模型,并进一步加速的学习计算机策略,以适应成功的玩家。
Jun, 2016
本研究提出了 VLMaps,一种将 3D 物理世界重建与预训练的视觉语言特征直接融合的空间地图表示,其能够通过大型语言模型将自然语言命令直接转化为空间导航目标。VLMaps 能够在不需要额外标注数据的情况下自主构建,并且可以与多种类型的机器人共享,能够进行导航的同时生成新的障碍物地图。实验表明,VLMaps 可以支持人类语言含义更丰富的导航指令。
Oct, 2022