- 通过 LLM 驱动的主动学习和人工标注来增强文本分类
该研究引入了一种新的方法,将人工标注和大语言模型(LLMs)与主动学习框架结合,以在数据标注的成本效益和分类性能之间取得最佳平衡。实证结果表明,在降低数据标注成本的同时,模型准确性得到了保持或提高。
- 图上主动学习中的不确定性
基于节点分类的不确定性采样是主动学习策略,通过迭代地获取具有最高不确定性的数据点的标签,以提高机器学习模型的数据效率。本文首次对节点分类的不确定性采样进行了全面研究,我们超越了预测不确定性来评估不确定性采样,揭示了与其他主动学习策略之间的显 - 通过主动学习实现高效的息肉分割
提出了一种深度主动学习框架,用于高效标记息肉分割,在有限的标注预算下实现了最佳性能。
- 标注与否:用于神经机器翻译的混合主动学习
提出了一种混合主动学习策略 HUDS,用于神经机器翻译中的领域适应,通过结合不确定性和多样性来选择待注释的句子,实验证明 HUDS 比其他强基线方法更好地提升了性能。
- 用钟形曲线权重函数改进不确定性采样
通过使用主动学习方法,借助贝尔曲线采样的新标签,我们提出了一种改进了传统不确定性采样方法的训练模型的方式,该方法对于不同类型的数据集和具有不可预测响应区域的情况下效果良好。
- 重访视觉基础模型时代的主动学习
基于基础模型的主动学习策略通过利用稳定的表示形式,平衡不确定性估计和样本多样性,在标签效率方面取得了令人印象深刻的成果。
- 关于富标签主动学习的证据不确定性
本文提出了两种策略,Klir 不确定性抽样和证据认知不确定性抽样,以降低模型的不确定性并扩展可减少的不确定性到证据框架,从而解决活跃学习中的探索 - 开发问题。
- 理解不确定性抽样
该研究探讨了基于流式学习和基于池式学习的不确定性采样算法,提出了等价损失和损失作为不确定性的概念,建立了不确定性采样算法的泛化界限,并将其与风险敏感目标和分布鲁棒性联系起来,解释了不确定性采样算法在样本规模较小时的优势。
- 针对二元分类的基于池的主动学习的重新基准测试
本文提出了一种可靠和可扩展的实现来重新评估现有主动学习策略的数据集,通过重新评估实验,我们不仅纠正了现有基准测试中的配置错误,还揭示了模型兼容性等问题。我们经验突出了把研究努力奉献给重新评估现有基准测试以产生更可信结果和深入洞察的重要性。
- 经济有效的在线上下文模型选择
本研究提出了一种上下文活动模型选择算法(CAMS),基于给定策略类的一种新型的不确定性采样查询标准,实现了自适应模型选择任务,相比其他算法可以大幅度降低标记成本,实验证明该算法在多个基准分类数据集上具有效果优异的指标表现。
- ECCV利用自监督预设任务进行主动学习的 PT4AL
本文提出一种创新的主动学习方法,利用自监督的预训练任务和独特的数据采样器,通过选择具有难度和代表性的数据来解决数据标注代价高的问题,并在各种图像分类和分割基准上取得了令人信服的性能。
- EMNLP通过获取对比示例进行主动学习
本文提出了一种基于对比样例的主动学习获取函数,通过在模型特征空间中选择相似的数据点,但能够在预测分布上得到最大差异的方式来选择难以区分和多样化的数据点,在自然语言理解的四个任务和七个数据集的实验中,相比其他传统的获取函数,我们的方法表现更稳 - ACL通过主动学习改进共指消解模型
本文探讨如何通过主动学习来标记共指关系,比较了不同的不确定性采样策略和文档阅读成本,并发现在同一文档中标注跨度比在多个文档中标注跨度更加有效。研究结果有助于更加实际地开发共指关系解析模型。
- 半监督主动学习的实例分割技术及其评估方法
本文提出了一种基于三元组评分预测 (TSP) 的不确定性采样策略和半监督主动学习框架,以减少标注代价并提高实例分割的性能,通过在医学图像数据集上的实验,表明了该方法可以在不影响性能的情况下大幅减少标注代价。
- 学习采样:一种主动学习框架
提出了一种名为 Learning To Sample 框架的新型基于学习的主动学习方法,它能够通过不确定性和多样性的优化整合来主动选择最具代表性和信息量的样本,并在图像分类、薪资水平预测和实体解析等三个任务上验证了其有效性,并且特别适用于类 - 认识不确定性采样
本文讨论了在 “不确定性采样” 策略的背景下,确立和不可归约不确定性的区别,提出了 “确立不确定性采样” 的概念,并使用一种具体的方法来衡量确立不确定性和偶发不确定性。实验表明,确立不确定性采样效果良好。
- 区分性主动学习
提出一种新的批次模式主动学习算法 —— 判别式主动学习法(DAL),并将其应用在神经网络和大批次查询的情境中,尝试通过将标记集合和未标记的数据池区分开来作为选择样本的依据来执行主动学习,结果表明我们的方法在中等和大批次查询中与最先进的方法相 - 利用不确定性采样的 0-1 损失预条件随机梯度下降
本文通过理论分析和实验证明了,基于凸损失上的不确定性采样算法可以被解释为在平滑版本的无约束损失函数上进行预处理的随机梯度下降步骤,且可以收敛到该函数的极小值点。
- KDD迈向更可靠的迁移学习
本文提出了一种新的多源传递学习方法,它结合了源目标相似性和不同可靠性源之间的关系,并提出了一个综合的主动传递学习框架,包括分布匹配和不确定性采样,在合成和真实数据集上进行了广泛的实验,表明其在多项基准测试中优于其他现有模型。
- 关于数据效率与不确定性采样误差关系的研究
探究主动学习在什么情况下有效,经验和理论都表明,主动学习的数据效率与最终分类器的错误率存在强烈的反比关系,理论上,对于不确定性采样的一种变体,渐进数据效率在极限分类器的倒数误差率的常数因子范围内。