序列到序列混合模型用于多样化机器翻译
本文提出了两种新的无监督联合多模态学习表示方法 ——Seq2Seq 模态翻译模型和分层 Seq2Seq 模态翻译模型,并通过 CMU-MOSI 数据集的多模态情感分析实验证明此方法优于基线模型在二模态情感分析方面的 F1 分值提升达 12 个百分点。
Jul, 2018
该研究提出了一种简单的数据增强方法 SeqMix,用于鼓励神经模型针对序列问题的组合行为,该方法可以使神经网络捕获自然语言中的组合特征,旨在提高机器翻译和语义分析等任务的性能。
Nov, 2020
该研究介绍了一种基于全局序列评分学习的 Sequence-to-Sequence (seq2seq) 模型和波束搜索训练方案,通过避免局部训练的传统偏差问题,统一训练损失和测试时间使用,并保留 seq2seq 的有效训练方法。在单词排序、解析和机器翻译三个不同的序列到序列任务中,该系统优于基于注意力的 seq2seq 系统高度优化的系统和其他基准线。
Jun, 2016
对序列到序列方法进行的纠错实验中发现,基于字符的模型通常比基于单词的模型和通过卷积编码子单词信息的模型更有效,并且将输出数据建模为一系列差异可提高效果,而我们最强的序列到序列模型比最强的基于短语的统计机器翻译模型在数据相同的情况下得分提高了 6 M2 点(0.5 GLEU)。此外,在标准 CoNLL-2014 设置的数据环境中,我们证明了建模(并调整)差异可以使用更简单的模型和 / 或比以前的序列到序列方法少得多的数据获得类似或更好的 M2 得分。
Jul, 2017
本研究旨在探究多语言大规模序列到序列模型 (seq2seq),其中包括噪声处理和因果语言建模 (CLM) 的混合预训练模型,对于几个任务比解码器模型更具备有效的学习能力。我们在训练了一个 200 亿参数的 Alexa 教师模型( AlexaTM 20B)后,发现它在一次性概述任务和机器翻译任务上的性能比一个 540B 的 PaLM 解码器模型更好,并且特别适用于低资源语言。AlexaTM 20B 还可以在零次见示下,胜过 GPT3 (175B) 并在 XNLI、XCOPA、Paws-X 和 XWinograd 等多语言任务中提供最先进的性能。总的来说,我们的研究结果表明,seq2seq 模型是一个强大的替代解码器模型的大规模语言模型 (LLM) 的选择。
Aug, 2022
本文提出使用多语言数据建立先前模型,结合迁移学习的方法,通过在 10 个 BABEL 语言中训练 seq2seq 模型来改进音频识别,同时在解码时加入循环神经网络语言模型 (RNNLM) 来进一步提高模型的表现,实验结果表明,将先前的多语言模型应用于 4 种其他 BABEL 语言可以有效提高识别的准确度,并且加入 RNNLM 辅助也可以带来显著的性能提升。
Oct, 2018
该研究分析了一个基于注意力机制的序列到序列语音识别系统,提出了解决其预测过于自信和产生不完整转录的问题的实用解决方案,并在没有语言模型的情况下,其词错误率为 10.6%,与 trigram 语言模型一起达到了 6.7%的词错误率。
Dec, 2016
本研究从网络结构、训练策略和摘要生成算法三个方面全面综述了不同的 seq2seq 模型用于文本摘要生成的研究,并提出了一个名为 NATS 的开源工具包进行研究,对 CNN / Daily Mail 数据集进行了广泛的实验检验,在 Newsroom 和 Bytecup 数据集上测试了两个模型。
Dec, 2018
本文介绍了一种基于序列 - 序列 - 序列自编码器 (SEQ^3) 的神经网络模型用于非监督抽象句子压缩,利用预训练语言模型作为潜变量的先验,结合连续的松弛机制使模型可优化,避免了对平行文本摘要对的依赖,实现了在基准数据集上取得了诱人的结果。
Apr, 2019
本文研究序列到序列 (seq2seq) 建模在机器翻译 (MT) 中的最新方法,提出了一种新的 RNN 模型 (RNMT+), 并且通过分析每种常见 seq2seq 架构的特点,设计出了一些混合架构来综合它们的优点,实验结果表明,混合架构进一步提高了 MT 的翻译性能。
Apr, 2018