文本游戏中的指令跟随学习

Nov, 2022

Learning to Follow Instructions in Text-Based Games

Mathieu Tuli, Andrew C. Li, Pashootan Vaezipoor, Toryn Q. Klassen, Scott Sanner...

TL;DR研究文本游戏在强化学习环境下的指令正确率，设计使用 Linear Temporal Logic 结构化语言支持时间上下文语义的指令，通过文字游戏的实验验证该结构化语言指令的有效性和优越性。

Abstract

text-based games present a unique class of sequential decision making problem in which agents interact with a partially observable, simulated environment via actions and observations conveyed through natural language. Such observations typically include instructions that, in a

text-based games reinforcement learning temporal logic instruction following natural language processing

发现论文，激发创造

LTL2Action：将 LTL 指令泛化到多任务 RL 中

本论文研究了在多任务环境下，通过使用线性时间逻辑（LTL），结合深度强化学习（RL）实现对代理人进行指令跟随的教学。为了提高效率，论文提出了一种与特定环境无关的 LTL 预训练方案，并在离散及连续领域实验中展示了该方法的优越性。

Feb, 2021

通过从文本的迁移学习进行深度强化学习的人类指令遵循

通过使用预先训练的文本语言模型（BERT），我们提出了一种简单的方法来训练使用深度 RL 的指令跟踪代理，以适应自然人指令，从而在人类给出自然指令的情况下，实现从合成模板命令到指令的零 - shot 传输。

May, 2020

感知世界：针对基于文本游戏的问题引导强化学习

本研究探讨了深度强化学习在文本游戏中的应用，提出了通过引入知觉模块以及使用两阶段训练框架来提高样本效率，从而解决了应用 DRL 的两个主要挑战。实验结果表明，提出的方法显着提高了性能和样本效率，并且对复合错误和数据有限的预训练表现出鲁棒性。

Mar, 2022

使用深度强化学习的基于文本游戏的语言理解

本文探讨了基于文本的游戏控制策略的学习方法。该方法使用深度强化学习框架，联合学习游戏状态表示和行动策略。通过把文本转化为向量，能够更好地捕捉游戏状态的语义表示。实验结果表明，我们提出的方法显著优于传统基于词袋模型的方法。

Jun, 2015

基于文本的 RL 代理与常识知识：新挑战、环境和基准

本文研究了 RL 智能体如何在具备通识知识的情况下进行决策。通过设计新的基于文本的游戏环境，实现了一种感知建模的系统，同时，也为该环境提出了多个基线 RL 智能体，这些智能体能通过动态检索 ConceptNet 中相关的通识知识，实现了更好的表现。

Oct, 2020

应用于交互小说的深度强化学习算法改进

本文研究利用深度强化学习算法可玩具有组合性、稀疏奖励、有部分可观察性的文本游戏。提出了基于累积奖励的上下文化机制，缓解了部分可观测性，研究了可行动作的不同方法，并在一系列不同难度的文本游戏和 Zork 游戏中进行了实证研究，结果表明这些技术提高了基于文本游戏的深度强化学习代理的性能。

Nov, 2019

基于探索的基于文本游戏的语言学习

本文介绍一种采用探索和模仿学习的代理程序，能够在玩基于文本的电脑游戏时表现出最先进的性能。该方法使用 Go-Explore 探索方法以及模仿学习策略去训练模型，实现了更高效的解决文本游戏和更强的泛化能力。

Jan, 2020

基于文本游戏的语言扩展

本文探讨了使用基于深度强化学习的代理人在多个基于文本的游戏中进行学习，并通过策略蒸馏方法扩展其词汇，并将文本游戏用作测试平台以更详细地分析和理解策略蒸馏方法的应用。

May, 2018

在文本游戏中计数以探索和泛化

本论文提出了一种带有片段式探索机制的循环强化学习代理，在文本游戏环境中发现良好策略。我们在一系列生成的文本游戏中展示了有希望的结果，游戏难度各异，目标是在一系列房间的末尾收集硬币。与以往的文本强化学习方法相比，我们发现我们的代理学习到可以泛化到更难的未见过游戏的策略。

Jun, 2018

基于自然语言启发的强化学习综述

提出了将自然语言理解与强化学习紧密结合的想法，并对现有技术及未来研究方向进行了调研。

Jun, 2019