基于文本游戏的上下文相关观测值修剪引导的自适应 Q 学习

EMNLPSep, 2020

基于文本游戏的上下文相关观测值修剪引导的自适应 Q 学习

Bootstrapped Q-learning with Context Relevant Observation Pruning to Generalize in Text-based Games

Subhajit Chaudhury, Daiki Kimura, Kartik Talamadupula, Michiaki Tatsubori, Asim Munawar...

TL;DR提出了一种基于 RL 的 CREST 方法，通过去除观测文本中的无关词汇来提高 RL 在 Text-Based Games 中的泛化性能，实验表明该方法可以使用更少的训练数据来解决新的游戏。

Abstract

We show that reinforcement learning (RL) methods for solving text-based games (TBGs) often fail to generalize on unseen games, especially in small data regimes. To address this issue, we propose Context Relevant

reinforcement learning text-based games generalization crest observation truncation

发现论文，激发创造

在文本游戏中计数以探索和泛化

本论文提出了一种带有片段式探索机制的循环强化学习代理，在文本游戏环境中发现良好策略。我们在一系列生成的文本游戏中展示了有希望的结果，游戏难度各异，目标是在一系列房间的末尾收集硬币。与以往的文本强化学习方法相比，我们发现我们的代理学习到可以泛化到更难的未见过游戏的策略。

Jun, 2018

基于案例推理的文本强化学习通用性改善技术

本文提出了一种基于基于案例推理的通用方法来训练代理和实现训练分布之外的泛化，与现有文献中的 TBG 中任何现有的政策神经代理结合使用。实验表明，所提出的方法不断改进现有方法，在广泛使用的环境中获得了新的最先进结果。

Oct, 2021

感知世界：针对基于文本游戏的问题引导强化学习

本研究探讨了深度强化学习在文本游戏中的应用，提出了通过引入知觉模块以及使用两阶段训练框架来提高样本效率，从而解决了应用 DRL 的两个主要挑战。实验结果表明，提出的方法显着提高了性能和样本效率，并且对复合错误和数据有限的预训练表现出鲁棒性。

Mar, 2022

使用深度强化学习的基于文本游戏的语言理解

本文探讨了基于文本的游戏控制策略的学习方法。该方法使用深度强化学习框架，联合学习游戏状态表示和行动策略。通过把文本转化为向量，能够更好地捕捉游戏状态的语义表示。实验结果表明，我们提出的方法显著优于传统基于词袋模型的方法。

Jun, 2015

基于文本的 RL 代理与常识知识：新挑战、环境和基准

本文研究了 RL 智能体如何在具备通识知识的情况下进行决策。通过设计新的基于文本的游戏环境，实现了一种感知建模的系统，同时，也为该环境提出了多个基线 RL 智能体，这些智能体能通过动态检索 ConceptNet 中相关的通识知识，实现了更好的表现。

Oct, 2020

应用于交互小说的深度强化学习算法改进

本文研究利用深度强化学习算法可玩具有组合性、稀疏奖励、有部分可观察性的文本游戏。提出了基于累积奖励的上下文化机制，缓解了部分可观测性，研究了可行动作的不同方法，并在一系列不同难度的文本游戏和 Zork 游戏中进行了实证研究，结果表明这些技术提高了基于文本游戏的深度强化学习代理的性能。

Nov, 2019

Beholder 的眼睛：基于文本的强化学习智能体的关系泛化改进

本文通过使用 TEXT-BASED GAMES，提出了一种新的学习方法，利用视觉图像与文本信息相结合，提高了强化学习智能体的性能及其对于世界中物体及其关系的理解，从而提高了其通用性。

Jun, 2021

CROP: 基于紧凑重塑观察处理的分布偏移鲁棒性强化学习

本文提出 Compact Reshaped Observation Processing (CROP) 方法，通过减少用于策略优化的状态信息来提高数据效率和泛化能力，为完全可观测的观察和行动空间制定了三个 CROP，并在分布式安全格网世界中进行了实证展示。同时，与两个不同大小的程序生成的迷宫进行了基准比较，表明了 CROP 的改进。

Apr, 2023

如何避免被 Grue 吞噬：构建探索策略应对文本世界

我们介绍了 Q*Bert 和 MC!Q*BERT 两个代理，在自然语言状态 - 动作空间中通过回答问题构建知识图谱来提高样本效率，并通过探索策略和内在动机检测瓶颈来有效探索空间，在九个文本游戏中超越了当前最先进的方法，包括 Zork 游戏。

Jun, 2020

推断行为特定的上下文在强化学习中提升零样本泛化能力

本文中，我们在强化学习中解决了零样本泛化的挑战，通过理解和利用环境的上下文线索，将上下文表示的学习与策略学习相结合，提出了一种算法。我们的算法在各种模拟域中展示了改进的泛化能力，在零样本情境中优于先前的上下文学习技术。通过同时学习策略和上下文，我们的方法获得了特定行为的上下文表示，在未知环境中实现了适应，并在实现跨不同真实世界任务的强化学习系统上取得了进展。

Apr, 2024