句子编码任务的课程迁移学习

Aug, 2023

Curricular Transfer Learning for Sentence Encoded Tasks

Jader Martins Camboim de Sá, Matheus Ferraroni Sanches, Rafael Roque de Souza, Júlio Cesar dos Reis, Leandro Aparecido Villas

TL;DR通过数据操纵和语法分析引导的一系列预训练步骤（课程），在源任务与目标任务分布漂移时实现进一步逐步适应，相较于其他已知的预训练方法，在 MultiWoZ 任务方面取得了显著的改进。

Abstract

fine-tuning language models in a downstream task is the standard approach for many state-of-the-art methodologies in the field of

fine-tuning language models downstream task nlp data hacking

发现论文，激发创造

低资源领域适应的多阶段预训练

本文研究使用预训练语言模型的转移学习、领域特定术语扩展词汇表以及利用未标记数据结构创造辅助合成任务等方法，在 IT 领域的三个任务中，采用逐步应用的策略在预先训练的 Roberta-large LM 上显示出显着的性能提升。

Oct, 2020

基于课程的迁移学习：实现端到端口语理解和领域可移植性

利用端到端无需繁琐操作的口语理解技术，采用基于课程学习（curriculum learning）原理的迁移学习（transfer learning）策略，结合外域数据来构建全神经元架构。本方法在对法语 MEDIA 和 PORTMEDIA 录音数据的实验中表现优异，相比于传统的基于 ASR、POS 标注、词形还原、组块均取器等自然语言处理工具的多管齐下方法，本方法无需进行繁琐的词性、语法处理即可轻松达成目的，同时具备优秀的领域泛化能力。

Jun, 2019

语言建模的课程学习

本研究探讨了使用语言学课程学习法对语言模型预训练的效果，并且在 GLUE 基准测试中评估了转移性能，结果显示我们并未找到令人信服的证据表明课程学习方法可以改善语言模型训练。

Aug, 2021

定时多任务学习：从句法到翻译

提出了一种神经编码器 - 解码器机器翻译模型框架，该模型开始交替学习语法和翻译，逐渐将重点放在翻译上，实现了在相对较大的平行语料库（WMT14 英语到德语）和低资源（WIT 德语到英语）设置中的 BLEU 得分显着提高。

Apr, 2018

跨语言中间微调改进对话状态跟踪

该论文提出了一种在预训练多语言模型之间进行跨语言传递学习的方法，通过中间微调预训练的多语言模型，使其适用于不同但相关的数据和 / 或任务，以提高对话系统的性能。

Sep, 2021

零样本问答的任务迁移和领域自适应

使用有标记的源域数据进行监督预训练，来降低特定领域下游任务的样本复杂性，相结合的任务转移和领域适应来微调无标签的目标任务的预训练模型，并在 4 个领域的特定领域阅读理解任务中超越领域自适应预训练模型的零 - shot 表现。

Jun, 2022

探索和预测 NLP 任务的可转移性

本文旨在探究将自然语言处理大规模语言模型 fine-tuning 应用于其他任务是否有效，通过在三大问题领域（文本分类、问题回答、序列标注）的 33 个 NLP 任务上的数据验证，结果显示 transfer learning 在数据稀缺情况下更为有效，在源任务数据较少或与目标任务差异较大的情况下仍能提高性能，同时提出了可以预测给定目标任务最具可转移性源任务的任务嵌入，并验证其在数据大小、源和目标之间的有效性。最终的结果显示源数据大小、任务和领域的相似性和任务的复杂性在决定转移性方面起着关键作用。

May, 2020

端到端语音翻译课程预训练

本研究提出了一个基于课程学习的预训练方法，旨在通过逐步增加难度的课程来加强编码器的语音特征提取能力，实现端到端的语音翻译，实验结果表明，该方法在 En-De 和 En-Fr 语音翻译基准测试中取得了显著的改进。

Apr, 2020

对话理解中基于数据效率的数据集内任务迁移探索

本研究探讨了在对话领域中，基于顺序迁移学习的多少目标任务训练数据会对模型性能和数据效率产生何种影响。研究结果表明，在许多情况下，与没有迁移学习的相同模型相比，目标任务的训练数据大小对顺序迁移学习的表现几乎没有影响。这一出人意料的结果可能是灾难性遗忘效应的影响，进一步的工作需要研究如何避免这种遗忘。

Oct, 2022

迁移学习对深度自然语言处理模型中语言知识的影响？

本文研究对先前已经预训练好的 Bert、RoBERTa 和 XLNet 等神经语言模型通过微调来改进下游自然语言处理任务的表现，并使用层级和神经元级别的诊断分类器来检查这些模型的语言知识的学习方式，发现这些模型对于不同的任务有不同的语言知识保留或遗忘方式，这种模式在三个模型中都有所不同。

May, 2021