基于神经符号方法的交互指令跟随模型的物体和指令变化鲁棒性改进

MMOct, 2021

基于神经符号方法的交互指令跟随模型的物体和指令变化鲁棒性改进

Improving the Robustness to Variations of Objects and Instructions with a Neuro-Symbolic Approach for Interactive Instruction Following

PDF

Kazutoshi Shinoda, Yuki Takezawa, Masahiro Suzuki, Yusuke Iwasawa, Yutaka Matsuo

TL;DR通过提出神经符号化方法，将高级符号特征用作中间表征，来解决自然语言指令和第一视角视觉映射到与 3D 环境中对象进行交互的操作序列时神经网络特征提取对小的改变过于敏感而未能适应测试集中未见过的属性和指令的问题。在 ALFRED 基准测试的子任务评估中，我们的实验结果表明，和端到端的神经模型相比，我们的方法在切换对象、拿起对象和切片对象的成功率等未知环境下的交互任务中显着优于前者 9 点，46 点和 74 点。

Abstract

An interactive instruction following task has been proposed as a benchmark for learning to map natural language instructions and first-person vision into sequences of actions to interact with objects in 3d environments<

interactive instruction following task neuro-symbolic approach alfred benchmark end-to-end neural model 3d environments

发现论文，激发创造

学习神经符号程序用于语言引导机器人操控

通过一种模块化结构，使用符号推理构造深度物体中心推理模型，从而训练出一种可以执行机器人操作的模型，此模型具有优秀的通用性和端到端的可训练性。

Nov, 2022

放眼全局、再次解读：提高交互式指令跟随任务的性能

本文提出了一个基于多种新思想的新方法，通过两阶段指令解析和基于当前指令的分层注意力应用提供了准确的导航预测，从多个自我为中心的视角提取必要信息，可以以较高的精度在 ALFRED 挑战中胜出且取得了远高于以前相关研究的准确率。

Jun, 2021

通过多跳指令进行图像操作 -- 新数据集和弱监督的神经符号化方法

本篇研究提出一种名为 NeuroSIM 的系统，使用基于领域特定语言 (DSL) 的符号程序将自然语言文本转化为图像操作，实现多模态空间的复杂推理，仅需要视觉问题回答（VQA）的标注数据即可。实验证明，该系统在图像操作方面表现出与已有的监督式数据基准相媲美或胜过的结果。

May, 2023

pix2rule: 端到端的神经符号规则学习

本文提出了一种完整的神经符号方法，用于以端到端的方式将图像处理为对象，并在学习关系和逻辑规则方面。主要贡献是以可微分层为基础，从而可以通过剪枝和阈值确定符号关系和规则。我们使用两个数据集进行模型评估：符号规则学习的子图同构任务和学习对象，关系和规则的复合关系的图像分类域。结果表明，该模型超越最先进的符号学习者并优于深度关系神经网络架构。

Jun, 2021

通过指导提升结构化探索实现物体导航

本文提出了一种层次化学习方法，包括高层的规划和记忆以及低层的房间导航和物品寻找，通过简单的合成语言为代理提供指令，同时使用另一个目标评估模块将指令映射到视觉观察中。在一个动态可配置的家庭环境中验证了该方法的有效性。

Nov, 2022

教会我学习的方法：一种面向用户中心的神经符号学习对于机器人手术系统的综述

近期机器学习模型的进展使得机器人能够在感知非符号化级别上识别物体 (例如，通过传感器融合和自然语言理解)。然而，这些主要的黑盒学习模型仍然缺乏解释性和可转移性，需要大量数据和计算需求。一种替代方案是通过混合神经符号学习方法和专家反馈 (即人在循环学习) 来教授机器人感知非符号化和概念符号化两个级别。本研究提出了这种以用户为中心的混合学习范式的概念，重点关注外科机器人手术情境。虽然最近的研究主要关注非机器人和一些通用机器人领域的混合学习，但鲜有研究专注于外科机器人。我们调查了相关研究，同时着重人在循环外科机器人系统。这项评估强调了自主外科机器人的最突出解决方案，以及外科医生在与这些系统交互时面临的挑战。最后，我们构想了通过来自专家外科医生的隐式和显式反馈进行在线学徒式学习来解决这些挑战的可能途径。

Jul, 2023

自适应的以用户为中心的神经符号学习对自主系统进行多模态交互

通过深度学习使自主系统能够在感知的亚符号方式下逐渐理解对象及其环境，执行对象检测、传感器数据融合和语言理解任务。为了实现强大的人工智能，我们需要考虑人类提供的显式教学和通过观察人类行为获得的隐式教学，同时设计多模态输入和输出能力的系统以支持隐式和显式交互模型。我们提出了几个假设和设计指南，并通过相关工作的一个用例来实现这个目标。

Sep, 2023

REVERIE: 远程实体视觉室内指称表达

本文提出了一个包含自然语言描述复杂机器人任务的数据集，以期提高机器人与人类之间的互动能力，在使用多个现实图像中的可见物体来回应多方面的指令方面进行各种复杂任务的能力是解决这一挑战的关键。我们测试了多种最先进的视觉和语言导航，以及指涉表达模型来验证这项新任务的难度，但他们中没有一个显示出有希望的结果。我们还提出了一种新颖的交互式导航 - 指针模型，为该任务提供了强有力的基线。该模型在未见测试集上表现最佳，但与人类表现相比仍有很大的改进空间。

Apr, 2019

通过符号世界知识从自我中心视角定位活动对象

通过学习任务指令的对象信息、利用对象的动作前后条件和描述性知识，我们提出了一种改进短语定位模型的方法，通过大型语言模型来提取动作 - 对象知识，并设计了一种对象短语和符号知识的联合推理技术，实验证明我们的方法在各项指标上都取得了显著的改善。

Oct, 2023

多模态指令中的符号基础

本文提出了一种方法来处理跨模态输入的原始流，以产生物体的细分并与高级概念相关联，以学习用户的颜色和形状的概念，并表明该模型可以从少量的物理演示中推广到识别新单词的物理指示。

Jun, 2017