从词向量到行为:形态学有助于让机器理解语言
本研究提出了深度递归动作-目标基础网络(DRAGGN)用于任务的基础和执行,其处理输入的任何类别的自然语言,并且通用于未见过的环境,在仿真机器人的实验中取得成功,这使我们更接近于为人机交互实现稳健的自然语言理解。
Jul, 2017
该研究提出了一种名为广义接地图 (G^3) 的框架,它通过将自然语言命令的语言分析结构动态地映射到概率图模型中,实现了语言与感知特征的有效关联。该方法能够处理语言多样性,提高了可扩展性和准确性,使机器人能够学习词汇,并根据学习到的词汇跟随未经训练的用户所发出的自然语言命令。
Nov, 2017
该论文介绍了一种将自然语言命令翻译成离散机器人动作的方法,并使用澄清对话共同改进语言解析和概念基础。将这个代理程序训练和评估在亚马逊的 Mechanical Turk平台上的虚拟环境,并在真实环境中将学习到的代理迁移到物理机器人平台进行演示。
Mar, 2019
本文提出了一种基于自然语言的灵活性极高的人机协作接口,将大型语言模型(BERT和CLIP)的优势与轨迹信息相结合,通过多模态注意力变换实现对用户命令的编码,并将其与轨迹信息相结合。在包含机器人轨迹的数据集上进行模仿学习,并将轨迹生成过程视为序列预测问题,通过仿真轨迹实验和真实机器人实验验证了该系统的效果优异,并证明了自然语言接口在人机协作中的优越性。
Mar, 2022
我们提出了一种新方法,利用通过具身模拟收集的代理经验来将情境化词向量与对象表示相关联,并使用相似性学习来比较不同对象类型之间的相似性,显示出不同转换器模型的嵌入空间的特性,以及用于嵌入对象令牌向量比用于嵌入动词和属性令牌向量更有帮助。
May, 2023
通过基于自由能原理的预测编码和主动推理框架,将视觉、本体感知和语言集成到一个受脑启发的神经网络模型中,通过多种模拟实验及机械臂的测试,研究表明,在增加任务组合的变异性时,对于学习未知的动词-名词组合的泛化能力得到了显著提升,这归因于语言潜在状态空间中的自组织组合结构被感觉运动学习显著影响,视觉注意和工作记忆对于准确生成视动序列以实现语言表示目标具有重要作用,这些结果推进了我们对通过语言和感觉运动经验相互作用发展组合性机制的理解。
Mar, 2024
我们提出了一种名为 LC(学习型潜在代码桥接) 的新方法,用于在层次控制中克服自然语言的限制,并实现端到端微调,以在需要推理和多步行为的任务中优于仅使用纯语言作为接口层的基线。
May, 2024
大型语言模型和机器人之间的映射,从语言和手动定义的意义形式表征到语言和高维向量空间之间的映射,有利于理解语言、限制学习问题规模以及提供解释性和正式安全性保证。将语言和感知数据嵌入高维空间可以避免手动指定的象征性结构,但需要更多的数据和计算进行训练,具备更广泛的适用性。本文讨论了每种方法的好处和权衡,并提供了实现两者最佳效果的未来工作方向。
May, 2024