面向主观 NLP 任务的标注者中心主动学习

Apr, 2024

面向主观 NLP 任务的标注者中心主动学习

Annotator-Centric Active Learning for Subjective NLP Tasks

Michiel van der Meer, Neele Falk, Pradeep K. Murukannaiah, Enrico Liscio

TL;DR利用主观自然语言处理任务进行准确的人类判断的关键是在注释过程中纳入广泛的视角。引入了注释者中心主动学习策略 (ACAL)，结合数据采样和注释者选择策略，旨在高效地近似获取人类判断的全面多样性，并使用注释者中心度量评估模型性能。对于七个主观自然语言处理任务进行了多种注释者选择策略的实验，同时采用了传统和新颖的以人为中心的评估指标。结果表明，ACAL 提高了数据效率并在注释者中心度量评估中表现出色，但其成功仍取决于足够大而多样的注释者样本池的可用性。

Abstract

To accurately capture the variability in human judgments for subjective NLP tasks, incorporating a wide range of perspectives in the annotation process is crucial. active learning (AL) addresses the high costs of

active learning annotator-centric active learning human judgments subjective nlp tasks annotator selection strategy

发现论文，激发创造

大型语言模型的自动学习方法

使用大型语言模型（GPT-3.5 和 GPT-4）进行标注，研究了主动学习中减少标注成本和采样效率的方法。采用混合注释策略，将可能标注错误的样本与人工注释相结合，可以在 AG 新闻和腐烂的番茄等数据集上取得与人工注释相似甚至更好的结果，证明了大型语言模型在主动学习中的准确性和成本效益。

Jan, 2024

抽象文本摘要的主动学习

本文提出了第一个基于多样性原则的主动学习查询策略来缓解抽象文本摘要中昂贵的注释成本，并分析了自学习的效果。该策略可以帮助提高 ROUGE 和一致性分数。

Jan, 2023

超越标签：通过新型主动学习结构为人类提供自然语言解释的支持

该研究提出了一种新的主动学习框架，通过加入自然语言解释生成模型，实现在低资源条件下减少标签和解释注释的人工成本，并提升了决策方案生成的效果。

May, 2023

D-CALM：基于动态聚类的主动学习方法降低偏差

本文提出了一种新颖的自适应基于聚类的主动学习算法 D-CALM，通过将聚类与主动学习相结合，动态地调整聚类和注释工作以响应分类器错误率的估计。实验证明，D-CALM 可以显著优于基线主动学习方法，具有较强的鲁棒性并可以显著降低模型的不想要偏差。

May, 2023

FreeAL：大语言模型时代的无人主动学习

在大型语言模型时代，我们提出了创新的协作学习框架 FreeAL，通过与 LLMs 交互式提取和过滤任务特定知识，显著提高了 SLM 和 LLM 的零样本性能，无需人工监督。

Nov, 2023

ACTOR：利用注释者特定的分类器头部进行主动学习以应对人类标签变异

在主动学习设置中，多头模型在不确定性估计方面显着优于单头模型。通过设计和评估具有特定标注员头的获取函数在两个数据集上，我们展示了群体级别的熵在两个数据集上表现良好。重要的是，它在预测和不确定性估计方面的性能与全量训练相当，同时节约高达 70% 的标注预算。

Oct, 2023

部署主动学习的实际障碍

本文研究了主题 “主动学习”，发现尽管在特定模型和特定领域中使用主动学习可能会带来好处，但在不同模型和任务之间泛化当前方法的好处不可靠，并且主动学习的认购数据与指导其获取的模型相结合，与使用独立同分布的（I.I.D）随机样本训练继任模型的方法相比并没有明显的优势，主动学习的局限性是否值得现实中的应用，值得深思。

Jul, 2018

自然语言生成的主动学习

本文是第一次系统地研究了主动学习在文本生成方面的应用，研究表明现有的主动学习策略在文本生成场景下效果不佳，无法持续超越随机示例选择的基准线。

May, 2023

减少词性标注主动学习中的混淆

这篇论文提出了一种主动学习策略，其中数据筛选算法用于选择有用的训练样本以最小化注释成本，在六种语言中进行了广泛的实验，证明了该策略优于其他主动学习策略，并提出了在特定的输出标签对之间最大程度减少混淆的 AL 问题。

Nov, 2020

面向主观多任务自然语言处理问题的基于模型的数据获取

通过新的基于模型的方法，我们提出了一种在多任务场景中为每个文本选择逐个注释的任务的方式，从而最大程度地减少注释数量，并且几乎不损失知识，同时还强调了根据注释任务的主观性收集多样化数据以有效训练模型的需求，并通过在单任务和多任务场景中评估模型来衡量主观任务之间的关系，此外，对于某些数据集，仅依靠我们模型预测的标签进行训练，可作为自监督学习规范化技术，提高任务选择的效率。

Dec, 2023