深度强化学习生成文本

NIPSOct, 2015

Generating Text with Deep Reinforcement Learning

Hongyu Guo

TL;DR提出了一种基于深度强化学习（Deep Q-Network, DQN）的序列到序列学习中，通过迭代的方式对输出序列进行解码的新型模式，旨在使解码器优先处理较为容易的序列部分，然后再处理较为困难的部分。

Abstract

We introduce a novel schema for sequence to sequence learning with a Deep Q-Network (DQN), which decodes the output sequence iteratively. The aim here is to enable the decoder to first tackle easier portions of the sequences, and then turn to cope with difficult parts. Specifically, in

deep q-network sequence to sequence lstm reinforcement learning sentence decoding

发现论文，激发创造

可理解的基于上下文的文本游戏

本文提出了将位置和语法定向结构从文本中提取并使用快速卷积神经网络编码为状态的方法，并以通用和实用的方式增强奖励信号，以加快计算机智能体训练速度和提高其质量。

May, 2019

基于深度强化学习的序列到序列模型

本文介绍最近相结合的 seq2seq，深度神经网络和加强学习模型，考虑如何在决策制定的 RL 方法中利用序列到序列模型的长期记忆能力来解决复杂的问题，提出并探讨 RL 方法解决序列到序列模型领域常见的曝光偏差而且在训练与测试的指标上也不一致的两个问题，并提供了大多数 RL 模型的源代码以支持抽象文本摘要的复杂任务。

May, 2018

神经网络序列到序列学习

本文提出了一种基于深度神经网络（DNN）的序列学习方法，使用多层长短时记忆（LSTM）解码目标序列并展现了其在英法翻译任务中优于传统短语模型翻译的成果，同时还发现调整源语句中单词的顺序可以有利于优化问题的解决。

Sep, 2014

基于深度强化学习的自动源代码摘要改进

本文提出一种基于 Actor-Critic 模型和抽象语法树的深度强化学习框架，用于代码摘要。该模型在训练时采用 BLEU 指标进行奖励，实验证明该模型在真实世界数据集上的表现优于一些最先进的方法。

Nov, 2018

基于深度强化学习从文本中提取动作序列

本文运用基于深度强化学习的 Q-networks 模型，以自然语言文本为基础，从中无限制提取行动序列，通过在线实验与现有技术进行比较，证明了本方法的有效性。

Mar, 2018

使用自然语言行动空间的深度强化学习

本文介绍了一种新的强化学习体系架构，它是专门设计用于处理自然语言状态和动作空间，适用于文本类型游戏。该体系架构称为深度强化相关网络（DRRN），可以将动作和状态空间表示为独立的嵌入向量，并通过交互函数与 Q 函数一起拟合以实现强化学习。在两个受欢迎的文本游戏上对 DRRN 进行评估，表现优于其他深度 Q 学习体系架构。对具有不同措辞的动作描述进行的实验表明，该模型在提取意义而非仅仅是记忆文本串方面表现出色。

Nov, 2015

决策变压器：通过序列建模的强化学习

本文基于序列建模思路，提出一种将强化学习抽象为序列建模问题的框架，使用 Transformer 架构和相关的语言建模技术（如 GPT-x 和 BERT）来解决增强学习任务，其中提出的 Decision Transformer 模型可以通过自回归模型来输出未来的动作并获得预期回报，其性能在 Atari、OpenAI Gym 和 Key-to-Door 等实验中达到了业界领先水平。

Jun, 2021

使用 RNN 编码器 - 解码器学习短语表示，用于统计机器翻译

本文提出了一种名为 RNN Encoder-Decoder 的神经网络模型，该模型由两个循环神经网络（RNN）组成，它将符号序列编码成固定长度的向量表示，并将该表示解码成另一个符号序列，并通过联合训练编码器和解码器来优化目标序列的条件概率，然后将该模型生成的条件概率应用于现有的对数线性模型中，从而提高统计机器翻译系统的性能，并且该模型能够学习到一种语义和句法上有意义的语言短语表示。

Jun, 2014

未来成功学习解码

介绍了一种简单的、通用的策略，通过插值算法将 MLE-based 令牌生成策略的演员与能够估计所需属性的价值函数批判家结合来修改神经解码器的行为，从而生成具有特定属性（例如，预定长度的序列）的输出。该方法不仅能处理序列长度和后向概率等多种无法通过标准神经序列解码器处理的属性，而且在优化 BLEU 或 ROUGE 得分时能够持续改善概括性摘要和机器翻译。

Jan, 2017

生成式深度神经网络在对话中的应用：简要综述

该研究探讨了基于深度神经网络的自动生成响应的模型，着重讨论了结构松散的任务，如基于单词级别的对话响应生成，并提出了基于生成的编码器 - 解码器神经网络架构的新模型，以增强对话的长期历史纪录、建模对话中的不确定性和歧义性、生成具有高级组合结构的响应。

Nov, 2016