本研究通过研究不同领域和任务的分类模型,验证了在特定领域和任务上进行二次预训练(领域自适应和任务自适应预训练)可以显著提高性能,同时也发现多阶段适应预训练在任务表现上取得了大幅提升。
Apr, 2020
本文研究使用预训练语言模型的转移学习、领域特定术语扩展词汇表以及利用未标记数据结构创造辅助合成任务等方法,在 IT 领域的三个任务中,采用逐步应用的策略在预先训练的 Roberta-large LM 上显示出显着的性能提升。
Oct, 2020
使用有标记的源域数据进行监督预训练,来降低特定领域下游任务的样本复杂性,相结合的任务转移和领域适应来微调无标签的目标任务的预训练模型,并在 4 个领域的特定领域阅读理解任务中超越领域自适应预训练模型的零 - shot 表现。
Jun, 2022
本文通过编制全面的生物医学 NLP 基准测试集,证明了在丰富的未标记文本的领域中,从头开始针对特定领域的预训练语言模型相对于持续预训练通用领域语言模型,能够显著提高生物医学 NLP 任务的效果,并发现一些常用做法不必要。我们为社区发布了我们的最新预训练和任务特定模型,并创建了一个包含我们的 BLURB 基准测试的排行榜。
Jul, 2020
这项研究介绍了建立在预测令牌语义相似度的新型训练目标,通过避免单个正确预测的假设,可以减轻域自适应中的灾难性遗忘,同时保持适应质量,并且计算成本几乎可以忽略不计。
Nov, 2022
本文通过整合多个人机对话数据集,结合用户和系统记号改良预训练模型,提出了对话任务 BERT(TOD-BERT)模型,并通过四个对话应用领域的实验验证,表明 TOD-BERT 在意图识别、对话状态跟踪、对话行为预测、响应选择等方面超过了强对话模型 BERT,并且具有更强的少量数据学习能力。
该论文研究了用于学习对话上下文表示的各种无监督预训练目标,提出了两种新的对话上下文编码器预训练方法,并对总共四种方法进行了检验,结果在 MultiWoz 数据集上表现出明显的性能提升,并且进一步评估表明我们的预训练目标不仅能够带来更好的性能,而且模型的收敛效果更好,更具有域通用性,减少了对数据的需要。
Jun, 2019
本篇论文探讨了临床对话任务中自动化提取相关信息的挑战,提出了使用领域特定的语言预训练方法以提高对话理解的性能,结合具体的人类对话交互方式设计样本生成策略,实验结果表明该方法在低资源训练情况下取得良好表现。
本研究基于双向编码器转换器 (BERT) 作为强大的预训练语言模型,针对多轮检索式对话系统中的响应选择问题,提出了一种高效的基于领域特定语料库的后训练方法,发现后训练能帮助模型训练出具有更好上下文表示能力的单词,实验结果显示该方法在两个回答选择基准数据集上达到了新的最优状态(Ubuntu Corpus V1,Advising Corpus),R@1 性能提高了 5.9%和 6%。
Aug, 2019
研究发现,为了适应特定领域的无标签数据,引入进一步的预训练阶段可以带来积极影响,不同的下游任务需要适当的先前任务作为进一步的预训练任务来弥合任务公式差距,并针对多个任务导向的对话下游任务设计各种任务以提高其性能。
Sep, 2021