预训练语言模型中的无监督域聚类
本文针对神经机器翻译中的无监督领域自适应问题,提出一种跨语料库数据选择方法,通过对多语言 BERT 进行对比学习,实现源语言和目标语言之间的表示对齐,从而实现零样本领域分类器的可转移性,并且通过联合学习翻译任务和领域区分任务来适应新领域。我们在五个不同的领域和三种语言对的神经机器翻译上进行了跨语料库数据选择方法的评估,并在 COVID-19 疫情实时翻译中进行了应用验证, 实验结果表明,我们提出的方法相对于基线方法的 BLEU 指标得分提高了 1.5 个百分点。
Sep, 2021
本篇综述针对最近的研究进展,对不需要标记目标领域数据的神经无监督领域自适应技术进行了概述,包括从传统非神经方法到预训练模型迁移的方法,并揭示了自然语言处理任务类型中存在的偏见问题以及未来的研究方向,特别是面向 NLP 的超分布通用化需求。
May, 2020
本文探讨了语音表示的自监督学习,其中更富含挑战的是那些预训练数据的领域与微调和测试数据的领域不同的情形,试验结果表明在预训练过程中加入目标领域的数据可以显著提高性能。
Apr, 2021
本文研究使用预训练语言模型的转移学习、领域特定术语扩展词汇表以及利用未标记数据结构创造辅助合成任务等方法,在 IT 领域的三个任务中,采用逐步应用的策略在预先训练的 Roberta-large LM 上显示出显着的性能提升。
Oct, 2020
衡量和减少大型语言模型训练过程中产生的碳排放量对于绿色人工智能至关重要。我们提出了一种领域自适应数据选择方法 - TextGram,能够有效地从大规模语料库中选择关键数据,并展示了该策略在文本分类任务中相对于其他选择方法的优势。
Apr, 2024
本文提出了域检测作为一项新的自然语言处理任务,介绍了编码器 - 检测器框架结合多实例学习的域检测模型,并应用于不同粒度、语言和体裁的文本中,展示了域检测在文本摘要中的潜力。
Jul, 2019
本研究通过研究不同领域和任务的分类模型,验证了在特定领域和任务上进行二次预训练(领域自适应和任务自适应预训练)可以显著提高性能,同时也发现多阶段适应预训练在任务表现上取得了大幅提升。
Apr, 2020
比较了使用大型语言模型生成查询和基于规则的方法进行合成注释来进行神经信息检索,结果表明大型语言模型在所有情景中的性能优于基于规则的方法,而无监督领域适应相对于零样本方式应用监督信息检索系统是有效的。
Oct, 2023
本文提出了一种用于自动提取领域特定特征和领域不变特征的无监督特征分解方法,并利用互信息估计将交叉语言表示计算所述的跨领域和跨语言(CLCD)设置分解为领域不变和领域特定部分,实验结果表明,我们提出的方法在 CLCD 设置中取得了显著的性能提升。
Nov, 2020