序列到序列学习作为 Beam-Search 优化

EMNLPJun, 2016

序列到序列学习作为 Beam-Search 优化

Sequence-to-Sequence Learning as Beam-Search Optimization

Sam Wiseman, Alexander M. Rush

TL;DR该研究介绍了一种基于全局序列评分学习的 Sequence-to-Sequence (seq2seq) 模型和波束搜索训练方案，通过避免局部训练的传统偏差问题，统一训练损失和测试时间使用，并保留 seq2seq 的有效训练方法。在单词排序、解析和机器翻译三个不同的序列到序列任务中，该系统优于基于注意力的 seq2seq 系统高度优化的系统和其他基准线。

Abstract

sequence-to-sequence (seq2seq) modeling has rapidly become an important general-purpose nlp tool that has proven effective for many text-generation and sequence-labeling tasks. Seq2seq builds on deep

sequence-to-sequence nlp neural language modeling beam-search training machine translation

发现论文，激发创造

基于深度强化学习的序列到序列模型

本文介绍最近相结合的 seq2seq，深度神经网络和加强学习模型，考虑如何在决策制定的 RL 方法中利用序列到序列模型的长期记忆能力来解决复杂的问题，提出并探讨 RL 方法解决序列到序列模型领域常见的曝光偏差而且在训练与测试的指标上也不一致的两个问题，并提供了大多数 RL 模型的源代码以支持抽象文本摘要的复杂任务。

May, 2018

序列到序列模型的神经摘要文本概括

本研究从网络结构、训练策略和摘要生成算法三个方面全面综述了不同的 seq2seq 模型用于文本摘要生成的研究，并提出了一个名为 NATS 的开源工具包进行研究，对 CNN / Daily Mail 数据集进行了广泛的实验检验，在 Newsroom 和 Bytecup 数据集上测试了两个模型。

Dec, 2018

序列转序列模型中更好的解码和语言模型集成

该研究分析了一个基于注意力机制的序列到序列语音识别系统，提出了解决其预测过于自信和产生不完整转录的问题的实用解决方案，并在没有语言模型的情况下，其词错误率为 10.6％，与 trigram 语言模型一起达到了 6.7％的词错误率。

Dec, 2016

多语言序列到序列语音识别：架构，转移学习和语言建模

本文提出使用多语言数据建立先前模型，结合迁移学习的方法，通过在 10 个 BABEL 语言中训练 seq2seq 模型来改进音频识别，同时在解码时加入循环神经网络语言模型 (RNNLM) 来进一步提高模型的表现，实验结果表明，将先前的多语言模型应用于 4 种其他 BABEL 语言可以有效提高识别的准确度，并且加入 RNNLM 辅助也可以带来显著的性能提升。

Oct, 2018

基于注意力神经网络的图到序列学习

本论文提出了一种新颖的通用端对端图到序列神经编解码模型，该模型使用改进的基于图神经网络的聚合策略产生节点和图嵌入，引入了注意机制，实现了更好地处理大型图，并在多项任务中取得了最先进的性能，显著优于现有的图神经网络、Seq2Seq 和 Tree2Seq 模型。

Apr, 2018

对等学习中的序列到序列模型：一个实用应用

探索使用基于 LSTM 单元的序列到序列 (Seq2Seq) 模型在点对点学习环境下的自动语音识别 (ASR) 任务的适用性，通过两种不同的点对点学习方法模拟代理学习过程，并使用两个不同的 ASR 数据集评估其性能。研究发现在集中式训练环境中，使用缩小版 Deep Speech 2 模型的单个模型在 UserLibri 数据集上训练时，识别误差率 (Word Error Rate, WER) 为 84%，在 LJ Speech 数据集上训练时为 38%。然而，通过 55 个代理进行点对点学习，并使用 UserLibri 数据集和 LJ Speech 数据集进行训练时，WER 在 UserLibri 数据集上的范围为 87% 至 92%，在 LJ Speech 数据集上的范围为 52% 至 56%。结果表明，在分散式训练环境中使用 Seq2Seq 模型是可行的，尽管识别误差率 (WER) 稍高于集中式训练方法。

May, 2024

序列到序列模型对结构泛化的困难

通过实验证明，Seq2Seq 模型在英语句法分析、语义分析和文本之间的转换任务中，普遍存在推广的普适性较低的问题，但是在建立了语言知识的神经符号模型中，这些限制往往可以克服。

Oct, 2022

利用深度学习架构增强上下文理解的神经序列到序列模型与注意力的应用于抽象文本摘要

该研究提出了一个新颖的抽象式单文档文本摘要框架，融合了结构、语义和基于神经网络的方法，通过结合机器学习和基于知识的技术实现了一种统一的方法。实验证明了该框架在处理罕见和未登录词方面的显著改进，优于现有的深度学习技术。

Apr, 2024

循环神经网络中的序列级别训练

提出了一种新的序列级训练算法，使自然语言处理应用程序使用的语言模型在生成文本时更加强大和高效。这种方法能够直接优化在测试期间使用的指标，并且在三个不同的任务中，我们的方法优于其他几种基准方法。同时，在其他基准方法使用波束搜索时，我们的方法也具有竞争力，而且速度快几倍。

Nov, 2015

神经网络序列到序列学习

本文提出了一种基于深度神经网络（DNN）的序列学习方法，使用多层长短时记忆（LSTM）解码目标序列并展现了其在英法翻译任务中优于传统短语模型翻译的成果，同时还发现调整源语句中单词的顺序可以有利于优化问题的解决。

Sep, 2014