用于任务导向的语言基础建模的门控注意力架构

AAAIJun, 2017

用于任务导向的语言基础建模的门控注意力架构

Gated-Attention Architectures for Task-Oriented Language Grounding

Devendra Singh Chaplot, Kanthashree Mysore Sathyendra, Rama Kumar Pasumarthi, Dheeraj Rajagopal, Ruslan Salakhutdinov

TL;DR提出一种基于端到端可训练神经网络架构，用于在 3D 环境中执行自然语言指令的任务导向语言接地问题，并使用带门控的注意力机制来组合图像和文本表示，并学习执行任务的策略。在一个新的基于 3D 游戏引擎的环境中展示了该模型在未见过的指令和环境下的有效性。

Abstract

To perform tasks specified by natural language instructions, autonomous agents need to extract semantically meaningful representations of language and map it to visual elements and actions in the environment. This problem is called task-oriented language grounding. We propose an end-to

task-oriented language grounding neural architecture gated-attention mechanism reinforcement learning 3d game engine

发现论文，激发创造

任务导向接地的动态注意力网络

本文提出了一种新的动态注意力网络架构，用于文本和视觉表示的高效多模态融合，从而实现自然语言指令下机器人对环境的理解和控制，模型通过 LSTM 实现动态关注，基于任务的接地和增强学习控制中取得了良好效果。

Oct, 2019

在二维环境中的交互式基于语境的语言习得和推理

基于 2D 迷宫世界，通过虚拟代理学习语言的模型，将语言的生成与理解与其他计算流程分离，从而成功地解决新单词出现的问题。模型可以解释人类可理解的中间输出结果，大幅优于其他五种比较方法。

Jan, 2018

在模拟的 3D 世界中的基于场景语言学习

通过增强和无监督学习，训练具备最少先验知识的机器人在仿真 3D 环境中理解自然语言指令，将语言符号与周围物理环境的感知表示和相关的行动序列联系起来，实现语言含义的压缩和提取，从而揭示出关于语言基于感知概念的本质和潜力。

Jun, 2017

LanGWM: 语言引导的世界模型

通过语言为鲁棒的动作选择增强状态抽象技术，利用语言为基础的视觉特征来改进强化学习中的世界模型学习，提高对于复杂任务中的视觉控制的推广性。

Nov, 2023

增强型用户界面指令基础：走向通用的用户界面任务自动化 API

建立了一个多模态模型用于将自然语言指令与给定的 UI 屏幕截图联系起来，作为通用的 UI 任务自动执行器，并通过强化学习算法对其进行加强，实验结果表明，该模型在 UI 任务自动化方面表现优异，显示出作为通用 UI 任务自动化 API 的潜力。

Oct, 2023

通过基于实景的学习掌握语言结构

本文提出了基于语言结构的机器学习任务，并通过三种方案展示了其潜力和可行性，包括通过视觉基现学习语法结构，通过执行感知方法映射句子到语义结构，并通过跨语言词对齐和子结构投影方法改进零样本跨语言依赖分析的性能。

Jun, 2024

多模态机器翻译的视觉注意力基础神经模型

我们介绍了一种新颖的多模式机器翻译模型，利用平行的视觉和文本信息。该模型通过视觉注意力锚定机制链接视觉和文本语义，并实现共享的视觉 - 语言嵌入和翻译器的联合优化，取得了在 Multi30K 和 Ambiguous COCO 数据集上有竞争力的最新结果。我们还收集了一个新的多语言多模态产品描述数据集来模拟真实的国际在线购物场景。在这个数据集上，我们的视觉注意力锚定模型以大幅度优于其他方法的表现脱颖而出。

Aug, 2018

AttnGrounder：使用注意力与汽车交互

提出一个名为 Attention Grounder（AttnGrounder）的单阶段端到端可训练模型，用于视觉定位任务。通过使用视觉文本注意力模块，该模型能够在给定自然语言文本查询的基础上，与图像中的每个区域相关联来构建区域依赖的文本表示。此外，借助视觉文本注意力模块，我们生成围绕所指物体的注意力蒙版，以提高模型的定位能力。模型在 Talk2Car 数据集上进行了评估，并显示与现有方法相比，改进了 3.26％。

Sep, 2020

基于接地模型指导机器人控制的文本生成

本论文提出了一种利用大型语言模型进行机器人交互的方法，用于解决理解语义知识和实现机器人任务之间的矛盾问题，其中引入了基于概率过滤的策略来采用语言模型和基于物理环境的模型两者的优势，通过指导解码策略可以实现复杂的机器人长视程任务。

Mar, 2023

用于答案定位的句子注意力模块

提出了一种名为 “Sentence Attention Block” 的新型建筑模块，通过明确建模图像特征图与句子嵌入之间的相互依赖关系，重新校准了通道级图像特征图，以过滤基于句子嵌入的不相关特征图通道，进而实现了目前最先进准确度的提高。

Sep, 2023