编码增强的序列到序列预训练模型用于语言理解与生成
本文提出了一种通用的无监督学习方法,用于改善序列到序列模型(seq2seq)的准确性;其主要是通过使用两个语言模型的预训练权重对 seq2seq 模型的 encoder 和 decoder 进行初始化,并使用标记数据进行微调,最后将其应用于机器翻译和抽象概述中。研究结果表明,预训练可以提高 seq2seq 模型的泛化性能,进而取得了 WMT 英德翻译任务的最新的最佳 BLEU 分数,其人工评估结果也得到有力佐证。
Nov, 2016
该研究分析了一个基于注意力机制的序列到序列语音识别系统,提出了解决其预测过于自信和产生不完整转录的问题的实用解决方案,并在没有语言模型的情况下,其词错误率为 10.6%,与 trigram 语言模型一起达到了 6.7%的词错误率。
Dec, 2016
我们提出了一种统一的解码干预框架,利用外部评论家来评估逐步生成的令牌的适当性,并在动态影响下一个令牌的选择。通过在英语和中文数据集上进行广泛实验,我们的框架始终优于强基准线,并达到与最先进方法相媲美的结果。
Oct, 2023
本文介绍了一个序列到序列微调工具 s2s-ft,采用预训练的双向 Transformer 进行条件生成任务,实现了三种序列到序列微调算法,替代计算昂贵的传统方法,实验结果表明,在多项抽象概括和问题生成基准测试中,s2s-ft 实现了强大的性能,并支持单语和多语自然语言生成任务。
Oct, 2021
本文主要研究了 Seq2Seq 预训练在神经机器翻译上的影响,发现 Seq2Seq 预训练可提高翻译多样性,但由于与 NMT 微调存在差异,限制了翻译质量和模型稳健性,进一步提出了域内预训练和输入适应策略可以缓解这些问题。实验结果显示,我们的方法可以一致地提高 Seq2Seq 预训练的翻译性能和模型稳健性。
Mar, 2022
本篇论文系统研究了利用包含解码技术的序列到序列模型(Sequence-to-Sequence,简称 S2S)开展的语音识别、命名实体识别、组成性和依赖分析等任务。作者设计和评估了三种不同的线性化模式及相对应的约束解码模式,进行了实验比较,结果表明,使用本文方法的 S2S 模型优于其他采用外部资源的 S2S 方法,并得到了优异的性能。
Feb, 2023
该文研究了使用数据增强的序列到序列预训练在句子重写方面的应用。在使用增强数据和金标准数据训练序列到序列模型时,我们采用分阶段训练方法。实验结果表明,该方法显著提高了句子重写任务的性能,并在 GEC 和 FST 上达到了最先进的结果。
Sep, 2019
该研究介绍了一种基于全局序列评分学习的 Sequence-to-Sequence (seq2seq) 模型和波束搜索训练方案,通过避免局部训练的传统偏差问题,统一训练损失和测试时间使用,并保留 seq2seq 的有效训练方法。在单词排序、解析和机器翻译三个不同的序列到序列任务中,该系统优于基于注意力的 seq2seq 系统高度优化的系统和其他基准线。
Jun, 2016
本文介绍了一种基于序列 - 序列 - 序列自编码器 (SEQ^3) 的神经网络模型用于非监督抽象句子压缩,利用预训练语言模型作为潜变量的先验,结合连续的松弛机制使模型可优化,避免了对平行文本摘要对的依赖,实现了在基准数据集上取得了诱人的结果。
Apr, 2019
本文提出循环序列到序列学习(Cseq2seq)来解决传统序列到序列学习(seq2seq)在编码源序列时无法处理源序列和目标序列结构一一对应的问题,并通过实验证明 Cseq2seq 实现了显著和稳定的性能提升。
Jul, 2016