本研究首次尝试使用 BERT、GPT-2 和 BART 等公开可用的预训练模型生成完整且语义连贯的音乐曲谱,实验结果表明使用预训练检查点在文本到音乐生成任务中具有显著改进。
Nov, 2022
本文提出了一种通用的无监督学习方法,用于改善序列到序列模型(seq2seq)的准确性;其主要是通过使用两个语言模型的预训练权重对 seq2seq 模型的 encoder 和 decoder 进行初始化,并使用标记数据进行微调,最后将其应用于机器翻译和抽象概述中。研究结果表明,预训练可以提高 seq2seq 模型的泛化性能,进而取得了 WMT 英德翻译任务的最新的最佳 BLEU 分数,其人工评估结果也得到有力佐证。
Nov, 2016
本研究探究了预先在自然语言处理上训练的 transformer 模型是否可以在最小化调整下进行泛化以适用于其他模式,并研究其在数字计算、视觉和蛋白质折叠预测等序列分类任务上的优化性能。结果表明,预训练模型对非语言下游任务的性能和计算效率都有积极作用。
Mar, 2021
本文探讨了一种半监督的方法,通过添加双向语言模型的预训练上下文嵌入到 NLP 系统中用于序列标注任务,相比其他转移学习或添加标记数据和任务特定词典的方法,在命名实体识别和块分割等任务上实现了最先进的结果。
Apr, 2017
本文提出了一种基于预训练的编码器 - 解码器框架,使用 BERT 编码输入序列来生成输出序列,采用 Transformer-based 解码器生成草稿输出序列,并将其与原始输入序列结合使用,使用 BERT 生成的草稿表示来预测遮罩位置的优化单词,进而在文本摘要任务上实现了最新的技术水平。
Feb, 2019
本文研究了利用 Transformer 模型的注意机制为下游任务生成半导体行业中的故障分析三元组(FATs)。发现使用 1.5B 参数进行训练的 GPT2 模型在 ROUGE 上的表现显著优于 BERT、BART 和 GPT3 等其他 Transformer 模型,在人类评估和结构化 FAT 数据方面引入了 Levenshstein 顺序评估度量(LESE)。
Oct, 2022
本文研究了将预训练的语言模型表征集成到序列到序列模型中的不同策略,并将其应用于神经机器翻译和抽象摘要。实验证明,加入编码器网络的预训练表示是最有效的,可以在减慢推理速度仅 14%的情况下获得高达 5.3 BLEU 的增益,并且即使有数百万个句对可用时,仍然可以观察到改进。最后,在 CNN / DailyMail 的完整文本版本上,我们达到了最新的研究成果。
Mar, 2019
本文研究了不同类型的基于 Transformer 的预训练模型(如 GPT-2,BERT 和 BART),并探索了在数据增强方面,如何在文本序列之前添加类标签提供了一种简单而有效的条件方法,预先训练的 Seq2Seq 模型在低资源环境下胜过了其他数据增强方法,在数据分布和类标签信息保存方面也进行了探讨。
Mar, 2020
通过使用预先在自然语言或图像数据上进行训练的 Transformer 模型,并通过最小修改进行微调,我们在时序预测任务上评估了 Frozen Pretrained Transformer (FPT) 的效果,并发现其性能在跨模态时序预测任务中可以与同模态微调相媲美甚至处于最前沿状态。
Feb, 2023
本研究探索了使用双向和自回归转换器 (BART) 作为通用预训练编码器 - 解码器模型的实用性,以解决语法错误纠正问题中需要长时间预训练的问题,并发现单语和多语言 BART 模型在语法错误纠正方面取得了很高的表现。
May, 2020