使用大型语言模型(GPT-3.5 和 GPT-4)进行标注,研究了主动学习中减少标注成本和采样效率的方法。采用混合注释策略,将可能标注错误的样本与人工注释相结合,可以在 AG 新闻和腐烂的番茄等数据集上取得与人工注释相似甚至更好的结果,证明了大型语言模型在主动学习中的准确性和成本效益。
Jan, 2024
提出了一种能够在只有单类样本和无标签数据的情况下运作的主动学习算法,该方法通过分别估计正样本和未标记点的概率密度,计算信息性的期望值以获取更好的信息性度量。与其他类似方法相比,实验和经验分析结果表现出有前途的结果。
Feb, 2016
提出了一种基于反例的主动学习算法,通过利用反例来实现代表性样本的选择和防止过拟合,该算法在十个代表性主动学习框架上展现出全面的改进。
Jul, 2023
提出了一种名为 ALFA-Mix 的新型批量主动学习方法,它利用分析未标记实例的预测结果中的不一致性来确定具有足够明显特征的实例,证明该方法在图像、视频和非视觉数据的 12 个基准测试中,在 30 种不同的设置中优于所有其它主动学习方法,特别是在低数据量情况和自训练视觉转换器方面,ALFA-Mix 的性能优于该领域现有技术的 59%和 43%。
Mar, 2022
本文提出了一种基于主动学习的实用方法,利用部分注释来减少结构标签空间的注释成本,并采用自我训练来将当前模型的自动预测作为未注释子结构的伪标签,通过使用错误估计器自适应地确定部分选择比率来解决选择子结构进行注释的挑战,本文在四个结构预测任务中展示了我们部分注释和自我训练组合的效果。该方法通过公平的比较方案,考虑读取时间,降低了注释成本。
May, 2023
这篇论文提出了一种主动学习策略,其中数据筛选算法用于选择有用的训练样本以最小化注释成本,在六种语言中进行了广泛的实验,证明了该策略优于其他主动学习策略,并提出了在特定的输出标签对之间最大程度减少混淆的 AL 问题。
Nov, 2020
本文探讨了一种在拥有弱标注者和强标注者存在的情况下进行主动学习的算法,旨在学习一个在正确标注数据上误差较小的分类器,同时通过弱标注者减少标注者的查询次数,从而降低标注的成本。我们提出了一种主动学习算法,并建立了其统计一致性,分析了其标注复杂性,以便表明是否能够在使用强标注者的基础上节约标注成本。
Oct, 2015
本文研究了主题 “主动学习”,发现尽管在特定模型和特定领域中使用主动学习可能会带来好处,但在不同模型和任务之间泛化当前方法的好处不可靠,并且主动学习的认购数据与指导其获取的模型相结合,与使用独立同分布的(I.I.D)随机样本训练继任模型的方法相比并没有明显的优势,主动学习的局限性是否值得现实中的应用,值得深思。
Jul, 2018
利用未标记的样本空间,我们提出了两种新的注释统一算法,旨在解决主动学习中存在的错误数据标注问题,并通过在四个公共数据集上的实验证明该方法在评估标注者可靠性和分配实际标签方面的鲁棒性和优越性,超过了现有算法和简单的多数投票。
该研究通过将主动学习与自监督预训练相结合,并使用称为 Balanced Selection(BASE)的算法来解决类不平衡问题,提高图像分类性能,特别适用于工业级大规模数据标记和训练中。
Nov, 2021