从词向量到行为：形态学有助于让机器理解语言

Aug, 2019

从词向量到行为：形态学有助于让机器理解语言

Word2vec to behavior: morphology facilitates the grounding of language in machines

David Matthews, Sam Kriegman, Collin Cappelle, Josh Bongard

TL;DR该研究通过使用语义相似的 word2vec 编码指令来训练机器人，从而使其能够恰当地回应自然语言命令。研究者还表明，机器人的机械结构可以促进或阻碍其在行动、语言和结构之间的关联。

Abstract

Enabling machines to respond appropriately to natural language commands could greatly expand the number of people to whom they could be of service. Recently, advances in neural network-trained word embeddings hav

发现论文，激发创造

两个DRAGGN的故事：一种混合方法解释以行动和目标为导向的指令

本研究提出了深度递归动作-目标基础网络（DRAGGN）用于任务的基础和执行，其处理输入的任何类别的自然语言，并且通用于未见过的环境，在仿真机器人的实验中取得成功，这使我们更接近于为人机交互实现稳健的自然语言理解。

Jul, 2017

广义接地图: 一种理解接地命令的概率框架

该研究提出了一种名为广义接地图 (G^3) 的框架，它通过将自然语言命令的语言分析结构动态地映射到概率图模型中，实现了语言与感知特征的有效关联。该方法能够处理语言多样性，提高了可扩展性和准确性，使机器人能够学习词汇，并根据学习到的词汇跟随未经训练的用户所发出的自然语言命令。

Nov, 2017

通过人机对话改善基于场景的自然语言理解

该论文介绍了一种将自然语言命令翻译成离散机器人动作的方法，并使用澄清对话共同改进语言解析和概念基础。将这个代理程序训练和评估在亚马逊的 Mechanical Turk平台上的虚拟环境,并在真实环境中将学习到的代理迁移到物理机器人平台进行演示。

Mar, 2019

使用自然语言命令重塑机器人轨迹: 多模态数据对齐的变压器研究

本文提出了一种基于自然语言的灵活性极高的人机协作接口，将大型语言模型(BERT和CLIP)的优势与轨迹信息相结合，通过多模态注意力变换实现对用户命令的编码，并将其与轨迹信息相结合。在包含机器人轨迹的数据集上进行模仿学习，并将轨迹生成过程视为序列预测问题，通过仿真轨迹实验和真实机器人实验验证了该系统的效果优异，并证明了自然语言接口在人机协作中的优越性。

Mar, 2022

以行动示范为导向，而非口头指示：将自然语言融入机器人可用性

利用预训练技能约束自然语言模型以便进行真实世界的物理执行，从而实现语言驱动机器人。

Apr, 2022

在具身模拟中通过相似性学习基于概念的词汇的内涵和区分

我们提出了一种新方法，利用通过具身模拟收集的代理经验来将情境化词向量与对象表示相关联，并使用相似性学习来比较不同对象类型之间的相似性，显示出不同转换器模型的嵌入空间的特性，以及用于嵌入对象令牌向量比用于嵌入动词和属性令牌向量更有帮助。

May, 2023

通过机器人的交互学习语言和行动发展组成性和泛化能力

通过基于自由能原理的预测编码和主动推理框架，将视觉、本体感知和语言集成到一个受脑启发的神经网络模型中，通过多种模拟实验及机械臂的测试，研究表明，在增加任务组合的变异性时，对于学习未知的动词-名词组合的泛化能力得到了显著提升，这归因于语言潜在状态空间中的自组织组合结构被感觉运动学习显著影响，视觉注意和工作记忆对于准确生成视动序列以实现语言表示目标具有重要作用，这些结果推进了我们对通过语言和感觉运动经验相互作用发展组合性机制的理解。

Mar, 2024

从LLMs到行动: 潜在代码作为层次机器人控制中的桥梁

我们提出了一种名为 LC(学习型潜在代码桥接) 的新方法，用于在层次控制中克服自然语言的限制，并实现端到端微调，以在需要推理和多步行为的任务中优于仅使用纯语言作为接口层的基线。

May, 2024

机器人语言连接的调查: 符号与嵌入之间的权衡

大型语言模型和机器人之间的映射，从语言和手动定义的意义形式表征到语言和高维向量空间之间的映射，有利于理解语言、限制学习问题规模以及提供解释性和正式安全性保证。将语言和感知数据嵌入高维空间可以避免手动指定的象征性结构，但需要更多的数据和计算进行训练，具备更广泛的适用性。本文讨论了每种方法的好处和权衡，并提供了实现两者最佳效果的未来工作方向。

May, 2024

在行动中联系多模态大型语言模型

通过研究行为空间适配器，我们发现多模态大型语言模型在融入多种方法并处理连续行为和离散行为时可以获得最佳性能。

Jun, 2024