利用未标记的样本空间,我们提出了两种新的注释统一算法,旨在解决主动学习中存在的错误数据标注问题,并通过在四个公共数据集上的实验证明该方法在评估标注者可靠性和分配实际标签方面的鲁棒性和优越性,超过了现有算法和简单的多数投票。
Jul, 2023
使用大型语言模型(GPT-3.5 和 GPT-4)进行标注,研究了主动学习中减少标注成本和采样效率的方法。采用混合注释策略,将可能标注错误的样本与人工注释相结合,可以在 AG 新闻和腐烂的番茄等数据集上取得与人工注释相似甚至更好的结果,证明了大型语言模型在主动学习中的准确性和成本效益。
Jan, 2024
提出了一种能够在只有单类样本和无标签数据的情况下运作的主动学习算法,该方法通过分别估计正样本和未标记点的概率密度,计算信息性的期望值以获取更好的信息性度量。与其他类似方法相比,实验和经验分析结果表现出有前途的结果。
Feb, 2016
提出了一种新的无关模型且无需迭代过程的主动学习方法,利用自监督学习的特征表示来进行数据注释以提高深度学习模型的泛化性能。
本研究针对减少标注工作的两种范式:主动学习和自学习,研究它们能否相互受益。在对象识别数据集(包括 CIFAR10、CIFAR100 和 Tiny ImageNet)上的实验证明:对于低的标注预算,主动学习对自学习没有帮助。当标注预算很高时,主动学习和自学习的组合是有益的。
Aug, 2021
在大型语言模型时代,我们提出了创新的协作学习框架 FreeAL,通过与 LLMs 交互式提取和过滤任务特定知识,显著提高了 SLM 和 LLM 的零样本性能,无需人工监督。
Nov, 2023
该研究提出了一种新的主动学习框架,通过加入自然语言解释生成模型,实现在低资源条件下减少标签和解释注释的人工成本,并提升了决策方案生成的效果。
May, 2023
本文中,我们探讨了如何在正样本和未标注样本数据集的有选择偏差中进行有监督学习,并提出了一种基于经验风险的方法来加入标签机制和解决未知标签机制的情况,实验证明,即使在未知标签机制的情况下,考虑可能存在的选择偏差也会提高分类器的训练效果。
Sep, 2018
借助大语言模型,本文着眼于通过少量标注样本来显著提高模型准确性,从而通过持续的人类反馈循环改进人工智能模型的准确度、回归率和精确度。通过在金融短语库、银行、Craigslist、Trec 和亚马逊评论数据集上的基准测试,证明了即使只有少量标注样本,我们也能超过零样本大语言模型的准确性,提供更好的文本分类性能,而无需手动标记数百万行数据。
本文提出一种基于数据驱动的主动标签清理方法来解决数据注释中的标签噪音问题,通过对样本进行优先级排序,提高数据集质量,具有较好的可行性和高效性。
Sep, 2021