本文提出了一种方法,利用大型预训练模型和多样的现有语料库,解决低资源抽象摘要化问题,在各种写作风格和形式的摘要语料库上实验证明,我们的方法仅使用 0.7%的可训练参数与以前的工作相比,在低资源情况下实现了 6 个语料库的最新技术水平。
Feb, 2021
本文分析生成模型的训练动态,特别是聚焦于总结的方面,并研究了不同阶段的训练过程中模型学到的东西,通过简单的训练修正可以实现不同目标,比如提高事实性和提高抽象程度。
Oct, 2021
生物医学摘要需要大规模数据集以训练文本生成。通过我们的研究,我们发现,虽然迁移学习是解决这一挑战的一个可行选择,但在一个 BioASQ 摘要任务中,域内预训练并不总是带来优势。我们确定了一种适合的模型架构,并使用它展示了一个通用领域预训练,并在 BioASQ 摘要任务的背景下进行任务特定的微调的好处,从而实现了一种新的三步微调方法,只需使用一千个域内示例即可。我们的结果表明,在某些特定领域的生物医学文本生成任务中,没有进行领域特定预训练的大规模语言模型可能具有明显优势。
Jul, 2023
本论文提出了在数据集特定方式下通过对预训练模型进行微调以实现摘要生成的新型通用方法 - WikiTransfer,并使用循环全球翻译的数据扩增和正则化来提高性能,最终在 CNN-DailyMail 数据集上取得了最先进的性能
Oct, 2020
本研究提出一种通用预训练语言模型的常识知识转移框架,通过从神经常识知识模型中提取框架通用文本中的常识知识并利用两个自监督目标对模型进行改进,使其更好地传递到需要常识推理的下游任务中并取得显著改善。
Jun, 2023
本文研究自然语言表示、模型压缩技术、预训练、微调和知识蒸馏等方面的互动关系,提出了一种简单而有效的预训练蒸馏算法,分析了模型大小和无标记任务数据属性对其的影响。
Aug, 2019
本文研究了预先训练语言模型在下游任务中表现卓越的特定特质,包括匹配预训练集和下游任务的词汇统计信息、明确依赖关系和隐式依赖的长度等。实验证明,在预先训练数据的明确依赖关系中加入后,模型的下游性能显著提高。我们发现预先训练模型是有可能在下游任务中学习到虚假的相关性。即使语言模型没有预先在自然语言上进行训练,只要其能够模拟序列中的令牌依赖关系,仍然可以在某些语言任务中获得迁移能力。
Sep, 2021
本文探讨了自然语言处理中的迁移学习技术,提出了一个统一的框架来解决所有基于文本的问题,比较了预训练目标、架构、数据集等因素对于各种语言理解任务的影响,并通过实验与新数据集达到了最先进的结果,并共享了数据集、预训练模型和代码,以促进未来的 NLP 迁移学习研究。
Oct, 2019
本文提出一种使用预训练和迁移学习处理数据生成文本任务的方法,该方法包括知识驱动的预训练模型和针对各种任务生成文本的微调模型,其在少样本情况下性能优异,验证了其强大的泛化能力。
该论文提出了一种新颖的信息化机器学习方法,建议在先前的知识上进行预训练,这可以加快学习过程,提高泛化能力,增加模型的鲁棒性,并且可以将语义知识转移至深层次特征。
May, 2022