自然语言任务中的多域主动学习

Feb, 2022

Active Learning Over Multiple Domains in Natural Language Tasks

Shayne Longpre, Julia Reisler, Edward Greg Huang, Yi Lu, Andrew Frank...

TL;DR该研究对带有多个数据来源的领域转移进行了详尽的调查，发现了一些有效的方法并提出了一种新的有效方法 DAL-E，并探讨了选定的示例和域具有的特性。

Abstract

Studies of active learning traditionally assume the target and source data stem from a single domain. However, in realistic applications, practitioners often require active learning with multiple sources of out-o

active learning domain shift detection multi-domain sampling question answering sentiment analysis

发现论文，激发创造

利用基于主动学习的改进策略优化多域性能

本篇论文介绍了一种基于主动学习的多领域性能提升框架，首先利用初始标记数据对基础模型进行训练，然后迭代地选择最具信息量的样本进行标记，以改进模型性能。该方法在图像分类、情感分析和物体识别等多领域数据集上进行了评估，并表现出超越基准方法，并在几个数据集上取得了最先进的性能。同时表明了本方法非常高效，比其他主动学习方法需要明显较少的标记样本，是一种实用且有效的多领域性能提升解决方案。

Apr, 2023

域对抗主动学习用于领域泛化分类

该研究提出了一种领域对抗主动学习算法（DAAL），用于领域泛化任务中的分类任务，在减少数据资源的情况下实现强大的泛化能力，从而降低领域泛化任务中的数据标注成本。

Mar, 2024

图像分类的多领域主动学习基准测试

多域主动学习基准展示了在大规模真实世界数据集上，传统的单域主动学习策略在多域场景中往往比随机选择效果更差。我们还引入了一个新颖的基于地理域的大规模图像数据集 CLIP-GeoYFCC，与现有基于风格的域数据集有所不同。对我们的基准的分析表明，所有的多域策略都存在显著的权衡，没有一种策略能在所有数据集或所有度量指标上表现优秀，强调了未来研究的需求。

Dec, 2023

复合主动学习：具备理论保证的多域主动学习

该研究提出了一种名为复合主动学习（CAL）的通用方法，用于多领域主动学习（AL）中，以解决忽略不同领域之间相似性以及处理不同领域之间数据分布变化的问题，并在理论和实证结果上显示出优于现有方法的性能。

Feb, 2024

自然语言推理的多源主动学习研究

通过对多种数据源进行实验，本文显示了四种常见主动学习策略在自然语言推理任务上往往比随机选择无效，因为不确定性策略会获取到集体离群值，即难以学习的实例，这些实例会阻碍学习和泛化。然而，当弃置集体离群值后，策略的有效性得以恢复并且明显优于随机选择。同时，本文发现不同数据源之间的离群值具有不同形式，在不同难度级别的测试数据中不同策略的表现存在差异。

Feb, 2023

自然语言理解中新领域的主动学习

本文提出了一种名为 Majority-CRF 的算法，通过使用分类模型的集成来指导选取相关的话语，以及序列标注模型来帮助优先选择信息量大的示例，进行主动学习，实验结果表明，与随机采样相比，本算法在相同的注释预算下可以实现 6.6％-9％的相对误差率降低，并且与其他主动学习方法相比，取得了显著的改进，此外，在六个新领域进行人机交互的案例研究表明，本文提出的算法在现有的 NLU 系统上取得了 4.6％-9％的改进。

Oct, 2018

基于扰动的双阶段多领域主动学习

本研究提出了一种新颖的基于扰动的两阶段多域主动学习（P2S-MDAL）方法，它包括分配域的预算、建立多样性选择的区域，并进一步用于选择每个区域中最具交叉域影响力的样本。在三个现实世界数据集上进行的实验表明，与传统的 AL 策略相比，该方法具有优越的性能。

Jun, 2023

多域情感分析的数据选择策略

本文介绍了一个关于在情感分析中领域适应的研究。我们对领域相似度度量进行了广泛的研究，提出了新的表示方法、度量方法和数据选择。在推文和评论的大规模多领域适应设置中，我们评估了所提出的方法，并证明了它们一致地优于强随机和平衡的基线方法，而我们的选择策略优于实例级选择，并在大型评论语料库上获得了最佳分数。

Feb, 2017

迈向更可靠的迁移学习

本文提出了一种新的多源传递学习方法，它结合了源目标相似性和不同可靠性源之间的关系，并提出了一个综合的主动传递学习框架，包括分布匹配和不确定性采样，在合成和真实数据集上进行了广泛的实验，表明其在多项基准测试中优于其他现有模型。

Jul, 2018

从头开始的域自适应

提出了一种新的学习方式：从头开始进行领域自适应，以便在隐私保护的情况下将 NLP 扩展到敏感领域。研究比较了几种方法，包括数据选择和领域自适应算法以及主动学习方法，在情感分析和命名实体识别等两个 NLP 任务上进行了验证，结果表明结合上述方法可以缓解领域差距并进一步提高结果。

Sep, 2022