本文旨在探究将自然语言处理大规模语言模型 fine-tuning 应用于其他任务是否有效,通过在三大问题领域(文本分类、问题回答、序列标注)的 33 个 NLP 任务上的数据验证,结果显示 transfer learning 在数据稀缺情况下更为有效,在源任务数据较少或与目标任务差异较大的情况下仍能提高性能,同时提出了可以预测给定目标任务最具可转移性源任务的任务嵌入,并验证其在数据大小、源和目标之间的有效性。最终的结果显示源数据大小、任务和领域的相似性和任务的复杂性在决定转移性方面起着关键作用。
May, 2020
通过数据操纵和语法分析引导的一系列预训练步骤(课程),在源任务与目标任务分布漂移时实现进一步逐步适应,相较于其他已知的预训练方法,在 MultiWoZ 任务方面取得了显著的改进。
Aug, 2023
通过转移学习,可以提高病历记录去识别的最新技术在有限标记数据集上的性能。
May, 2017
研究发现大部分神经网络模型在自然语言推理任务中无法很好地泛化,即使假设相同或相似,基准测试集得分很高的模型也很难在其他基准测试集上表现良好。此外,使用大型预训练语言模型有助于转移学习。当前自然语言推理数据集的涵盖范围不足以覆盖不同推理细节。
Oct, 2018
本文研究使用预训练语言模型的转移学习、领域特定术语扩展词汇表以及利用未标记数据结构创造辅助合成任务等方法,在 IT 领域的三个任务中,采用逐步应用的策略在预先训练的 Roberta-large LM 上显示出显着的性能提升。
Oct, 2020
本研究系统评估了基于 BERT 的神经排序模型在五个英语数据集中的迁移能力,发现使用伪标签训练可以产生与迁移学习相媲美或更好的模型,但需要改进少样本训练的稳定性和 / 或有效性。
Mar, 2021
该文章介绍了近期在自然语言处理中提高模型性能所用的三种方法:更加复杂的语言模型、更大的语料库和并行计算,总结了一些最近两年新增的大型预训练语言模型,并探讨了新架构与资源所带来的影响,以此为起点提供了一些方便可复制的研究结果。
Jan, 2020
本论文研究多语言命名实体识别问题,提出用多语言数据训练模型,并在单语言数据上进行微调,通过参数共享和微调提高多语言模型的性能。
本次调查主要介绍自然语言处理领域中最近迁移学习的发展和不同的迁移学习方法分类的分类学。
本文提出一种方案,使用几个样本训练的神经网络和多语言 Transformer 基础模型之间协同作用的跨语言转移,以改进跨语言学习的性能,实验结果表明,我们的方法能够显著提高跨低资源语言与高资源语言之间的转移学习性能,进一步的结果证明了 meta-learning 的能力。
Jul, 2022