自然语言动作空间的图形约束强化学习

ICLRJan, 2020

自然语言动作空间的图形约束强化学习

Graph Constrained Reinforcement Learning for Natural Language Action Spaces

Prithviraj Ammanabrolu, Matthew Hausknecht

TL;DR本文介绍了 KG-A2C 代理，它通过构建动态知识图谱并使用基于模板的行动空间来生成动作，解决了在大规模组合自然语言行动空间中扩展强化学习代理以应对自然语言理解、部分可观察性和行动生成挑战的问题；从广泛的 IF 游戏结果来看，KG-A2C 优于当前的 IF 代理，尽管行动空间尺寸呈指数级增长。

Abstract

interactive fiction games are text-based simulations in which an agent interacts with the world purely through natural language. They are ideal environments for studying how to extend reinforcement learning agent

interactive fiction games reinforcement learning natural language understanding knowledge graph combinatorially-large text-based action spaces

发现论文，激发创造

基于文本游戏的自然语言动作空间的最小化方法

该研究重思了文本游戏里针对动作空间探索的挑战并提出了一种基于可接受动作的训练方法和一个不需要任何语言 / 知识模型的基于文本的 actor-critic 智能体，相比使用了语言 / 知识模型的强基线和最先进的智能体，我们的方法在 10 个 Jericho 游戏中表现更好，强调了设计轻便，用新视角有效地利用环境信息足以探索超大的行动空间。

May, 2023

基于图形的深度强化学习玩文本冒险游戏

本文介绍了一种基于深度强化学习的架构，将游戏状态表示为知识图谱，通过剪枝动作空间和转移学习等技术实现了更高效的探索和学习，通过测试表明，此技术可在 TextWorld 平台上更快地学习控制策略。

Dec, 2018

互动文本游戏的知识增强代理

该文提出了一种通过注入领域知识的方式来改善基于文本游戏中的智能代理的实现过程，并考虑了多种不同的注入策略，包括知识图谱和输入编码策略的增强，实验结果在 ScienceWorld 文本游戏环境中得到证明。

May, 2023

使用知识图谱进行深度强化学习的迁移学习

该研究探讨了使用知识图谱作为域知识传输的表示来训练文本冒险游戏中的强化学习智能体的方法，测试其在多个游戏上的迁移学习能力，结果表明这种方法能够更快地学习高质量的控制策略。

Aug, 2019

应用于交互小说的深度强化学习算法改进

本文研究利用深度强化学习算法可玩具有组合性、稀疏奖励、有部分可观察性的文本游戏。提出了基于累积奖励的上下文化机制，缓解了部分可观测性，研究了可行动作的不同方法，并在一系列不同难度的文本游戏和 Zork 游戏中进行了实证研究，结果表明这些技术提高了基于文本游戏的深度强化学习代理的性能。

Nov, 2019

使用自然语言行动空间的深度强化学习

本文介绍了一种新的强化学习体系架构，它是专门设计用于处理自然语言状态和动作空间，适用于文本类型游戏。该体系架构称为深度强化相关网络（DRRN），可以将动作和状态空间表示为独立的嵌入向量，并通过交互函数与 Q 函数一起拟合以实现强化学习。在两个受欢迎的文本游戏上对 DRRN 进行评估，表现优于其他深度 Q 学习体系架构。对具有不同措辞的动作描述进行的实验表明，该模型在提取意义而非仅仅是记忆文本串方面表现出色。

Nov, 2015

利用强化学习在图表示上进行对话代理的知识获取

我们开发了一个人工智能代理，通过与其他代理进行对话来积极增加其知识库，并通过识别新的集成信念周围的图模式来生成对话响应，我们展示了在交互中可以使用强化学习来学习选择有效的图形模式，而无需依赖明确的用户反馈，并在这一背景下，我们的研究证明了利用用户作为信息来源的可行性。

Jun, 2024

基于探索的基于文本游戏的语言学习

本文介绍一种采用探索和模仿学习的代理程序，能够在玩基于文本的电脑游戏时表现出最先进的性能。该方法使用 Go-Explore 探索方法以及模仿学习策略去训练模型，实现了更高效的解决文本游戏和更强的泛化能力。

Jan, 2020

将常识世界模型注入图谱知识

本文研究在一个开放式世界的文本冒险游戏中生成叙事的设定，使用游戏状态的图形表示来训练模型，可以消耗和输出基于图形的表示和自然语言描述和动作。通过结合众包和模拟游戏玩法构建一组大量的任务和复杂的动作数据集来构建这样的模型，发现通过在图形上下文和目标上训练可以改善动作叙述模型的一致性，即使在测试时没有图形。这在自动指标和人类评估中都得到了证明。我们计划公开代码、新一组任务和最佳表现模型。

Jan, 2023

扩大行动空间

使用课程学习和跨行动空间的迁移学习来加速强化学习，通过限制其初始行动空间，同时为多个行动空间估算最优值函数，并高效地将数据、价值估计和状态表示从限制的行动空间转移到完整任务上，成功应用于复杂的大规模 StarCraft 微管理任务和控制任务中。

Jun, 2019