本文提出了一种通用的无监督学习方法,用于改善序列到序列模型(seq2seq)的准确性;其主要是通过使用两个语言模型的预训练权重对 seq2seq 模型的 encoder 和 decoder 进行初始化,并使用标记数据进行微调,最后将其应用于机器翻译和抽象概述中。研究结果表明,预训练可以提高 seq2seq 模型的泛化性能,进而取得了 WMT 英德翻译任务的最新的最佳 BLEU 分数,其人工评估结果也得到有力佐证。
Nov, 2016
本文探讨了一种半监督的方法,通过添加双向语言模型的预训练上下文嵌入到 NLP 系统中用于序列标注任务,相比其他转移学习或添加标记数据和任务特定词典的方法,在命名实体识别和块分割等任务上实现了最先进的结果。
Apr, 2017
本文提出课程学习策略,用于训练循环神经网络,以尽量减小实际工作场景中训练和推理之间的差异,如在 MSCOCO 图片注释挑战赛中实测有效。
Jun, 2015
本文对于近三十年来产生和实践了重要的循环神经网络(RNN),LSTM 和 BRNN 等模型的研究进行综述,旨在提供一个自成体系的最前沿阐述和历史视角,并引用了相关研究文献。
May, 2015
本文提出了一种基于深度神经网络(DNN)的序列学习方法,使用多层长短时记忆(LSTM)解码目标序列并展现了其在英法翻译任务中优于传统短语模型翻译的成果,同时还发现调整源语句中单词的顺序可以有利于优化问题的解决。
Sep, 2014
本文介绍了一种基于序列 - 序列 - 序列自编码器 (SEQ^3) 的神经网络模型用于非监督抽象句子压缩,利用预训练语言模型作为潜变量的先验,结合连续的松弛机制使模型可优化,避免了对平行文本摘要对的依赖,实现了在基准数据集上取得了诱人的结果。
Apr, 2019
本研究论文表明长短时记忆循环神经网络可以用于通过逐个预测数据点来生成具有长距离结构的复杂序列。该方法通过文本和在线手写(其中数据为实值)进行演示,然后通过允许网络对文本序列进行条件预测,将其扩展到手写合成。结果系统能够以各种风格生成高度逼真的草书手写。
Aug, 2013
本研究通过提出一种基于卷积自编码的序列到序列的方法,解决了长文本序列编码与解码时 RNN 存在的问题,同时具有良好的重构和校正能力,适用于自然语言处理中众多应用。在半监督文本分类和摘要生成任务中的定量评估表明,该方法可以更好地利用长篇未标注的文本数据。
Aug, 2017
本论文综述了自监督预训练技术及其在序列迁移学习框架中的应用,包括自监督学习和迁移学习的分类体系、设计跨不同领域的预训练任务的突出方法以及近期趋势和未来研究方向。
Jul, 2020
本文利用一种序列到序列自编码器模型以无监督的方式学习长度可变的 DNA 序列的固定维度的潜在表示,并在监督学习的拼接位点分类任务中进行了定量和定性评估。实验表明,此类表示法可用作通常相关的任务中的特征或先验,并且采用的模型归因技术获得的序列特征对分类精度有显著影响。
Jun, 2019