文本游戏中的指令跟随学习
本论文研究了在多任务环境下,通过使用线性时间逻辑(LTL),结合深度强化学习(RL)实现对代理人进行指令跟随的教学。为了提高效率,论文提出了一种与特定环境无关的 LTL 预训练方案,并在离散及连续领域实验中展示了该方法的优越性。
Feb, 2021
通过使用预先训练的文本语言模型(BERT),我们提出了一种简单的方法来训练使用深度 RL 的指令跟踪代理,以适应自然人指令,从而在人类给出自然指令的情况下,实现从合成模板命令到指令的零 - shot 传输。
May, 2020
本研究探讨了深度强化学习在文本游戏中的应用,提出了通过引入知觉模块以及使用两阶段训练框架来提高样本效率,从而解决了应用 DRL 的两个主要挑战。实验结果表明,提出的方法显着提高了性能和样本效率,并且对复合错误和数据有限的预训练表现出鲁棒性。
Mar, 2022
本文探讨了基于文本的游戏控制策略的学习方法。该方法使用深度强化学习框架,联合学习游戏状态表示和行动策略。通过把文本转化为向量,能够更好地捕捉游戏状态的语义表示。实验结果表明,我们提出的方法显著优于传统基于词袋模型的方法。
Jun, 2015
本文研究了 RL 智能体如何在具备通识知识的情况下进行决策。通过设计新的基于文本的游戏环境,实现了一种感知建模的系统,同时,也为该环境提出了多个基线 RL 智能体,这些智能体能通过动态检索 ConceptNet 中相关的通识知识,实现了更好的表现。
Oct, 2020
本文研究利用深度强化学习算法可玩具有组合性、稀疏奖励、有部分可观察性的文本游戏。提出了基于累积奖励的上下文化机制,缓解了部分可观测性,研究了可行动作的不同方法,并在一系列不同难度的文本游戏和 Zork 游戏中进行了实证研究,结果表明这些技术提高了基于文本游戏的深度强化学习代理的性能。
Nov, 2019
本文介绍一种采用探索和模仿学习的代理程序,能够在玩基于文本的电脑游戏时表现出最先进的性能。该方法使用 Go-Explore 探索方法以及模仿学习策略去训练模型,实现了更高效的解决文本游戏和更强的泛化能力。
Jan, 2020
本文探讨了使用基于深度强化学习的代理人在多个基于文本的游戏中进行学习,并通过策略蒸馏方法扩展其词汇,并将文本游戏用作测试平台以更详细地分析和理解策略蒸馏方法的应用。
May, 2018
本论文提出了一种带有片段式探索机制的循环强化学习代理,在文本游戏环境中发现良好策略。我们在一系列生成的文本游戏中展示了有希望的结果,游戏难度各异,目标是在一系列房间的末尾收集硬币。与以往的文本强化学习方法相比,我们发现我们的代理学习到可以泛化到更难的未见过游戏的策略。
Jun, 2018