基于深度强化学习的序列到序列模型

May, 2018

基于深度强化学习的序列到序列模型

Deep Reinforcement Learning For Sequence to Sequence Models

Yaser Keneshloo, Tian Shi, Naren Ramakrishnan, Chandan K. Reddy

TL;DR本文介绍最近相结合的 seq2seq，深度神经网络和加强学习模型，考虑如何在决策制定的 RL 方法中利用序列到序列模型的长期记忆能力来解决复杂的问题，提出并探讨 RL 方法解决序列到序列模型领域常见的曝光偏差而且在训练与测试的指标上也不一致的两个问题，并提供了大多数 RL 模型的源代码以支持抽象文本摘要的复杂任务。

Abstract

In recent times, sequence-to-sequence (seq2seq) models have gained a lot of popularity and provide state-of-the-art performance in a wide variety of tasks such as machine translation, headline generation, text summarization, speech to text conversion, and image caption generation. The underlying framework for all these models is usually a →

sequence-to-sequence models deep neural network reinforcement learning exposure bias abstractive text summarization

发现论文，激发创造

深度强化学习生成文本

提出了一种基于深度强化学习（Deep Q-Network, DQN）的序列到序列学习中，通过迭代的方式对输出序列进行解码的新型模式，旨在使解码器优先处理较为容易的序列部分，然后再处理较为困难的部分。

Oct, 2015

序列到序列学习作为 Beam-Search 优化

该研究介绍了一种基于全局序列评分学习的 Sequence-to-Sequence (seq2seq) 模型和波束搜索训练方案，通过避免局部训练的传统偏差问题，统一训练损失和测试时间使用，并保留 seq2seq 的有效训练方法。在单词排序、解析和机器翻译三个不同的序列到序列任务中，该系统优于基于注意力的 seq2seq 系统高度优化的系统和其他基准线。

Jun, 2016

深度强化学习模型用于摘要生成

提出了一种基于编码器 - 解码器和 RNN 的自注意力神经网络模型，通过组合监督和强化学习来训练和生成连贯性和可读性更强的长文摘要，与目前最先进模型相比，在 CNN / Daily Mail 数据集上取得了 41.16 的 ROUGE-1 得分，并且人工评估表明我们的模型产生了更高质量的摘要。

May, 2017

离线强化学习问题的序列建模方法

本文介绍了如何使用序列建模来解决强化学习问题，使用 Transformer 架构来建模轨迹上的分布，并改造了波束搜索作为规划算法，在长时间序列预测、模仿学习、目标条件下的强化学习和离线强化学习等方面展示了该方法的灵活性和高效性，同时将该方法与基于模型的算法相结合，使其在稀疏奖励、长时间序列任务中表现为最先进的计划器。

Jun, 2021

生成式深度神经网络在对话中的应用：简要综述

该研究探讨了基于深度神经网络的自动生成响应的模型，着重讨论了结构松散的任务，如基于单词级别的对话响应生成，并提出了基于生成的编码器 - 解码器神经网络架构的新模型，以增强对话的长期历史纪录、建模对话中的不确定性和歧义性、生成具有高级组合结构的响应。

Nov, 2016

序列到序列模型的神经摘要文本概括

本研究从网络结构、训练策略和摘要生成算法三个方面全面综述了不同的 seq2seq 模型用于文本摘要生成的研究，并提出了一个名为 NATS 的开源工具包进行研究，对 CNN / Daily Mail 数据集进行了广泛的实验检验，在 Newsroom 和 Bytecup 数据集上测试了两个模型。

Dec, 2018

序列转序列模型中更好的解码和语言模型集成

该研究分析了一个基于注意力机制的序列到序列语音识别系统，提出了解决其预测过于自信和产生不完整转录的问题的实用解决方案，并在没有语言模型的情况下，其词错误率为 10.6％，与 trigram 语言模型一起达到了 6.7％的词错误率。

Dec, 2016

基于注意力神经网络的图到序列学习

本论文提出了一种新颖的通用端对端图到序列神经编解码模型，该模型使用改进的基于图神经网络的聚合策略产生节点和图嵌入，引入了注意机制，实现了更好地处理大型图，并在多项任务中取得了最先进的性能，显著优于现有的图神经网络、Seq2Seq 和 Tree2Seq 模型。

Apr, 2018

Cseq2seq: 循环序列到序列学习

本文提出循环序列到序列学习（Cseq2seq）来解决传统序列到序列学习（seq2seq）在编码源序列时无法处理源序列和目标序列结构一一对应的问题，并通过实验证明 Cseq2seq 实现了显著和稳定的性能提升。

Jul, 2016

多语言序列到序列语音识别：架构，转移学习和语言建模

本文提出使用多语言数据建立先前模型，结合迁移学习的方法，通过在 10 个 BABEL 语言中训练 seq2seq 模型来改进音频识别，同时在解码时加入循环神经网络语言模型 (RNNLM) 来进一步提高模型的表现，实验结果表明，将先前的多语言模型应用于 4 种其他 BABEL 语言可以有效提高识别的准确度，并且加入 RNNLM 辅助也可以带来显著的性能提升。

Oct, 2018