LEBP -- 语言期望与绑定策略：一种面向身体视觉与语言交互任务学习代理的双流框架

Mar, 2022

LEBP -- 语言期望与绑定策略：一种面向身体视觉与语言交互任务学习代理的双流框架

LEBP -- Language Expectation & Binding Policy: A Two-Stream Framework for Embodied Vision-and-Language Interaction Task Learning Agents

PDF

Haoyu Liu, Yang Liu, Hongkai He, Hangfang Yang

TL;DR本文提出了 LEBP 模块，用于沟通自然语言指令和智能机器人动作的绑定。我们的实验结果表明，该方法在完成 ALFRED 项目的日常家务任务时与最先进的方法相当，并且可以避免由从可见场景到非可见场景的巨大衰减。

Abstract

People always desire an embodied agent that can perform a task by understanding language instruction. Moreover, they also want to monitor and expect agents to understand commands the way they expected. But, how to build such an →

embodied agent natural language instruction lebp vision-and-language interaction daily household tasks

发现论文，激发创造

语言瓶颈下的政策学习

现代 AI 系统如自动驾驶汽车和游戏代理实现了超人类的表现，但是通常缺乏类似人类的特征，如泛化能力、可解释性和人机互操作性。我们通过受到人类语言和决策之间丰富交互的启发，引入了 Policy Learning with a Language Bottleneck（PLLB）框架，使 AI 代理能够生成捕捉其最有回报行为背后策略的语言规则。通过在双人通信游戏、解迷任务和两个图像重构任务中展示，PLLB 代理不仅能够学习更可解释和具有泛化性的行为，而且还可以与人类用户共享所学规则，实现更有效的人机协调。

May, 2024

通过问答学习实体视觉导航和任务完成

该研究提出一种名为 ELBA 的模型，以增强具有互动人类能力的代理，通过问答实现动态获取附加信息，以提高任务完成性能，并在 TEACH 视觉对话导航和任务完成数据集上进行了评估。

Feb, 2023

ALP：面向感知的动作感知学习

本文提出了一种基于行为感知的具有身体的学习框架，该框架通过结合强化学习和反向动力学预测目标来将行动信息纳入表示学习中，主动探索复杂的 3D 环境，从而学习可推广的任务不可知表示，并收集下游训练数据，以目标检测和语义分割任务为例，证明了该方法在视觉模型基准测试中的优势表现，并表明通过在更贴近环境和任务的实时数据上进行训练，我们的方法比在 ImageNet 等固定数据集上预训练的模型更具有鲁棒性。

Jun, 2023

基于视觉理解规划的语言模型无需视觉输入推断详细计划

本文研究了如何将自然语言指令转化为虚拟环境中可行的多步骤行动序列，通过实证表明，结合一定的视觉信息和上下文语境，GPT-2 模型能够成功地生成金标准语句执行序列，为基于语言的虚拟代理提供了强大的视觉语义规划模块。

Sep, 2020

AlphaBlock：机器人操纵中视觉语言推理的具身微调

提出了一个学习机器人操纵任务高级认知能力的新框架，使用语言模型构建 AlphaBlock 数据集，自动采集综合高级多步文本计划和配对观察序列，使用多模式的闭环计划模型自回归生成计划，从而实现对机器人的精细操作。实验结果表明，该方法显著提高了成功率。

May, 2023

如今是否已经到达目的地？学习跟随具身教学中的定位

本研究针对 “Embodied instruction following” 的挑战性问题，利用 ALFRED 基准测试，通过引入多个视角和培训模型预测空间关系的方式来解决目标定位和语言指令接地等关键难点，同时通过引入预训练的物体检测模块来提高语言接地，实验证明我们的方法可以超越基线模型性能。

Jan, 2021

具身 BERT：一种用于具身、语言引导的视觉任务完成的 Transformer 模型

EmBERT 是一种基于 transformer 的模型，具有语言指导的目的完成能力。它是第一个能够成功处理 ALFRED 的历史记录、多模态的长时间跨度的 transformer 模型，同时也是第一个在 ALFRED 中使用对象导航目标的模型。

Aug, 2021

放眼全局、再次解读：提高交互式指令跟随任务的性能

本文提出了一个基于多种新思想的新方法，通过两阶段指令解析和基于当前指令的分层注意力应用提供了准确的导航预测，从多个自我为中心的视角提取必要信息，可以以较高的精度在 ALFRED 挑战中胜出且取得了远高于以前相关研究的准确率。

Jun, 2021

大型语言模型用于具体任务的可拓展性策略

通过大型语言模型 (LLM) 以及强化学习技术，我们开发了一种名为 LLaRP 的方法，使得 LLM 可以作为具有推广性的策略应用于具体视觉任务中，能够忽略任务指令的复杂改写并生成新的最佳行为，在未见过的任务中达到了其他常见的学习基线或零样本 LLM 应用的 1.7 倍成功率，并发布了一个名为 “Language Rearrangement” 的新基准测试数据集，用于研究基于语言、多任务和具体化 AI 问题。

Oct, 2023

从网络上图像文本对入手，提升视觉语言导航能力

本文提出了 VLN-BERT 模型，使用从网页中收集的图像 - 文本对进行预训练，将其与具有相似领域的含路径语言训练数据相结合，取得了 4 个百分点的成功率提升，并得出每个阶段都非常有效，结合后具有更进一步的协同作用。

Apr, 2020