使用自然语言行动空间的深度强化学习

ACLNov, 2015

使用自然语言行动空间的深度强化学习

Deep Reinforcement Learning with a Natural Language Action Space

Ji He, Jianshu Chen, Xiaodong He, Jianfeng Gao, Lihong Li...

TL;DR本文介绍了一种新的强化学习体系架构，它是专门设计用于处理自然语言状态和动作空间，适用于文本类型游戏。该体系架构称为深度强化相关网络（DRRN），可以将动作和状态空间表示为独立的嵌入向量，并通过交互函数与 Q 函数一起拟合以实现强化学习。在两个受欢迎的文本游戏上对 DRRN 进行评估，表现优于其他深度 Q 学习体系架构。对具有不同措辞的动作描述进行的实验表明，该模型在提取意义而非仅仅是记忆文本串方面表现出色。

Abstract

This paper introduces a novel architecture for reinforcement learning with deep neural networks designed to handle state and action spaces characterized by →

reinforcement learning deep neural networks natural language text-based games drrn

发现论文，激发创造

使用深度强化学习的基于文本游戏的语言理解

本文探讨了基于文本的游戏控制策略的学习方法。该方法使用深度强化学习框架，联合学习游戏状态表示和行动策略。通过把文本转化为向量，能够更好地捕捉游戏状态的语义表示。实验结果表明，我们提出的方法显著优于传统基于词袋模型的方法。

Jun, 2015

基于图形的深度强化学习玩文本冒险游戏

本文介绍了一种基于深度强化学习的架构，将游戏状态表示为知识图谱，通过剪枝动作空间和转移学习等技术实现了更高效的探索和学习，通过测试表明，此技术可在 TextWorld 平台上更快地学习控制策略。

Dec, 2018

感知世界：针对基于文本游戏的问题引导强化学习

本研究探讨了深度强化学习在文本游戏中的应用，提出了通过引入知觉模块以及使用两阶段训练框架来提高样本效率，从而解决了应用 DRL 的两个主要挑战。实验结果表明，提出的方法显着提高了性能和样本效率，并且对复合错误和数据有限的预训练表现出鲁棒性。

Mar, 2022

深度强化学习下面向对话状态跟踪和管理的端到端学习

该论文提出了一个基于 Deep Recurrent Q-Networks 变体的端到端对话系统框架，使用强化学习与监督学习的混合算法，在 20 Questions 游戏模拟器上的实验结果表明，该模型优于基线模型，并学习了潜在对话状态的分布式表示。

Jun, 2016

应用于交互小说的深度强化学习算法改进

本文研究利用深度强化学习算法可玩具有组合性、稀疏奖励、有部分可观察性的文本游戏。提出了基于累积奖励的上下文化机制，缓解了部分可观测性，研究了可行动作的不同方法，并在一系列不同难度的文本游戏和 Zork 游戏中进行了实证研究，结果表明这些技术提高了基于文本游戏的深度强化学习代理的性能。

Nov, 2019

自然语言强化学习

强化学习和自然语言表示相结合的自然语言强化学习 (NLRL) 框架在解决样本效率低、解释性差、稀疏监督信号等问题方面表现出了显著的能力。通过在自然语言空间重新定义强化学习的概念和原则，以及结合大型语言模型的先进技术如 GPT-4 的实现方式，NLRL 在标签驱动的 MDPs 上的初步实验证明了该框架的有效性、效率以及可解释性。

Feb, 2024

深度强化学习生成文本

提出了一种基于深度强化学习（Deep Q-Network, DQN）的序列到序列学习中，通过迭代的方式对输出序列进行解码的新型模式，旨在使解码器优先处理较为容易的序列部分，然后再处理较为困难的部分。

Oct, 2015

参数化深度 Q-Networks 学习：离散 - 连续混合动作空间增强学习

在本文中，我们提出了一种带参数的深度 Q 网络（P-DQN）框架，用于处理混合行动空间，此算法无需任何逼近或者弛豫，充分发挥 DQN 和 DDPG 精神，并且在 RoboCup 足球和王者荣耀游戏中的仿真实验证明了我们方法的有效性。

Oct, 2018

关于提高 POMDP 上深度强化学习的方法

提出了 Action-specific Deep Recurrent Q-Network (ADRQN) 的新体系结构，该体系结构使用 LSTM 层来学习潜在状态，以增强在多个部分可观察领域的学习性能，包括 Atari 游戏。

Apr, 2018

动作的自然语言

Act2Vec 是一种通用的框架，用于学习基于上下文的强化学习中的行动表示，在此基础上，该文章针对三个领域 (绘画任务、高维导航任务和星际争霸 2) 进行了可视化和测试，并展示了先前环境知识如何从示范中提取并注入到编码自然兼容行为的行动向量表示中，最终优化了 Q 值函数的近似。

Feb, 2019