无需人类注释的有益标注

May, 2024

Salutary Labeling with Zero Human Annotation

Wenxiao Xiao, Hongfu Liu

TL;DR该研究提出了一种利用影响函数来选择最有信息量样本和分配相关标签的自动标注方法，以替代传统的人工标注方法，并且在九个基准数据集上的实验证明了该方法在主动学习策略中的优越性能。此外，研究还对大型语言模型 (LLM) 的 fine-tuning 进行了深入探索和实际应用。

Abstract

active learning strategically selects informative unlabeled data points and queries their ground truth labels for model training. The prevailing assumption underlying this machine learning paradigm is that acquir

active learning ground truth labels salutary labeling influence function large language model

发现论文，激发创造

稀疏且噪音标注下的主动学习标签鲁棒分配

利用未标记的样本空间，我们提出了两种新的注释统一算法，旨在解决主动学习中存在的错误数据标注问题，并通过在四个公共数据集上的实验证明该方法在评估标注者可靠性和分配实际标签方面的鲁棒性和优越性，超过了现有算法和简单的多数投票。

Jul, 2023

大型语言模型的自动学习方法

使用大型语言模型（GPT-3.5 和 GPT-4）进行标注，研究了主动学习中减少标注成本和采样效率的方法。采用混合注释策略，将可能标注错误的样本与人工注释相结合，可以在 AG 新闻和腐烂的番茄等数据集上取得与人工注释相似甚至更好的结果，证明了大型语言模型在主动学习中的准确性和成本效益。

Jan, 2024

正类和未标注数据中的主动学习

提出了一种能够在只有单类样本和无标签数据的情况下运作的主动学习算法，该方法通过分别估计正样本和未标记点的概率密度，计算信息性的期望值以获取更好的信息性度量。与其他类似方法相比，实验和经验分析结果表现出有前途的结果。

Feb, 2016

零样本主动学习基于自监督学习

提出了一种新的无关模型且无需迭代过程的主动学习方法，利用自监督学习的特征表示来进行数据注释以提高深度学习模型的泛化性能。

Jan, 2024

减少标注工作量：自监督活跃学习相遇

本研究针对减少标注工作的两种范式：主动学习和自学习，研究它们能否相互受益。在对象识别数据集（包括 CIFAR10、CIFAR100 和 Tiny ImageNet）上的实验证明：对于低的标注预算，主动学习对自学习没有帮助。当标注预算很高时，主动学习和自学习的组合是有益的。

Aug, 2021

FreeAL：大语言模型时代的无人主动学习

在大型语言模型时代，我们提出了创新的协作学习框架 FreeAL，通过与 LLMs 交互式提取和过滤任务特定知识，显著提高了 SLM 和 LLM 的零样本性能，无需人工监督。

Nov, 2023

超越标签：通过新型主动学习结构为人类提供自然语言解释的支持

该研究提出了一种新的主动学习框架，通过加入自然语言解释生成模型，实现在低资源条件下减少标签和解释注释的人工成本，并提升了决策方案生成的效果。

May, 2023

超越仅基于随机选择的假设：学习正类和未标记数据

本文中，我们探讨了如何在正样本和未标注样本数据集的有选择偏差中进行有监督学习，并提出了一种基于经验风险的方法来加入标签机制和解决未知标签机制的情况，实验证明，即使在未知标签机制的情况下，考虑可能存在的选择偏差也会提高分类器的训练效果。

Sep, 2018

通过人类反馈提高分类性能：标注一部分，剩下的我们来标注

借助大语言模型，本文着眼于通过少量标注样本来显著提高模型准确性，从而通过持续的人类反馈循环改进人工智能模型的准确度、回归率和精确度。通过在金融短语库、银行、Craigslist、Trec 和亚马逊评论数据集上的基准测试，证明了即使只有少量标注样本，我们也能超过零样本大语言模型的准确性，提供更好的文本分类性能，而无需手动标记数百万行数据。

Jan, 2024

资源有限条件下的活动标签清洗，以提高数据集质量

本文提出一种基于数据驱动的主动标签清理方法来解决数据注释中的标签噪音问题，通过对样本进行优先级排序，提高数据集质量，具有较好的可行性和高效性。

Sep, 2021