- KDD面向鸟类生物声学的深度主动学习
被动声学监测(PAM)在鸟类生物声学中能够以最小干扰自然栖息地的方式实现经济高效、广泛的数据收集。本文概述了一种深度主动学习方法,介绍了关键挑战,并进行了一个小规模的试点研究。
- ALPBench: 用于表格数据上的主动学习流水线评估的基准
在仅有限标记数据可用的情况下,主动学习通过设计查询策略来选择信息量最大的数据点进行标记,旨在提高学习算法的效率和性能。然而,目前缺乏对不同查询策略性能进行比较的标准化基准,特别是在将不同学习算法与主动学习流程相结合并考察学习算法选择的影响方 - ICML针对昂贵的多目标组合优化问题,训练贪婪策略用于提案批量选择
在昂贵的多目标组合优化问题中,积极学习被越来越多地采用,但它涉及一个具有挑战性的子集选择问题,即优化批量采集评估的好坏量化指标。为了管理庞大的搜索空间,我们引入了一种新颖的贪婪式子集选择算法,通过基于贪婪策略的顺序贪婪采样,直接在组合空间上 - 公平稳定的在线分配的主动学习
我们探索了一种用于动态公平资源分配问题的主动学习方法,该方法假设在在线资源分配过程的每个时期,仅从选择的代理人子集中获取反馈。尽管存在这种限制,我们提出的算法在包括资源分配问题中常用的公平度量和匹配机制中的稳定性考虑等各种度量中,提供了与时 - 利用无需源数据主动域自适应和一种新的多中心数据集提升 UWF-SLO 血管分割
利用基于补丁的主动领域适应方法改进了超广角扫描激光眼底镜成像中船体分割的准确性,在多个医疗中心的数据上验证了方法的有效性和鲁棒性,并构建了用于交叉中心评估的首个多中心超广角扫描激光眼底镜血管分割数据集。
- ICML贝叶斯数据选择
将数据选择作为决策问题,并通过导出相应的贝叶斯准则为半监督学习中的自我训练等问题提供了贝叶斯最优选择数据的方法。根据模拟和真实数据的实证评估,我们进一步展示了该准则在广义线性模型、半参数广义加性模型和贝叶斯神经网络上减轻了确认偏差的问题。
- 通过 LLM 驱动的主动学习和人工标注来增强文本分类
该研究引入了一种新的方法,将人工标注和大语言模型(LLMs)与主动学习框架结合,以在数据标注的成本效益和分类性能之间取得最佳平衡。实证结果表明,在降低数据标注成本的同时,模型准确性得到了保持或提高。
- 皮肤病变分类的联邦主动学习框架
我们提出了一个联邦主动学习(FedAL)框架,通过在医学图像分析中周期性和交互式地执行主动学习,从而减少标注数据量、保护患者隐私,并保持联邦学习的性能。在真实的皮肤镜数据集上验证了我们的框架,在只使用 50%的样本的情况下,在皮肤病变分类任 - 深度度量学习驱动的遥感图像检索的标注成本高效主动学习
通过结合度量学习、主动学习以及不确定性估计等方法,提出了一种用于远程感知图像检索的低成本主动学习方法,该方法有效地减少了图像标注的成本,并在两个远程感知基准数据集上取得了显著的实验结果。
- 基于预训练语言模型的样本高效主动学习自训练
使用半监督的方法(self-training)从未标记的数据中获取伪标签来改善运用主动学习进行文本分类的效率,通过进行广泛的实验,提出了一种新的有效的 self-training 策略(HAST),并在四个文本分类基准数据集上进行了评估,仅 - CVPR基础模型的参数高效主动学习
通过在活动学习(AL)框架内应用参数高效微调方法对极限预算限制的分类任务中的采样选择过程进行研究,本研究展示了基础视觉转换模型在图像数据集上表现出色的少样本性能,并突出显示了将参数高效微调方法与基础模型相结合的战略优势,从而改进了这些具有挑 - 使用主动学习量化本地模型的有效性
通过主动学习减少所需数据量并学习模型错误来获得本地有效性估计,而不是全局指标太不敏感或评估本地有效性成本过高。使用模型验证基准,提供实证证据表明该方法能够在使用相对较少的数据量时生成具有足够辨别性能的错误模型,同时相比于替代方法,对于本地有 - 从示范中进行情节主动强化学习:给我一个像这样的例子
提出了 EARLY (Episodic Active Learning from demonstration querY) 算法,通过在基于轨迹的特征空间中生成优化的专家演示查询,改善了学习过程中的人类教学体验和学习性能。在三个逐渐增加的导 - ICML长尾实例分割的生成式主动学习
本文探讨了如何在长尾实例分割任务中专门对生成数据执行主动学习,并提出了一种新的基于梯度缓存的算法 BSGAL,可以有效处理无限的生成数据和复杂的下游分割任务。实验证明,BSGAL 优于基线方法,有效提高了长尾分割的性能。
- 通过协同作用的主动学习和模型选择探索测试时间人机协作适应性
本研究提出了一种基于主动学习和模型选择的人在环测试时间自适应方法,通过选择具有信息量的样本进行标记并使用已标记的数据选择最优超参数,实验结果表明该方法在 4 个测试时间自适应数据集上优于最先进的方法和基于流的主动学习方法。
- 通过尼曼分配分层抽样主动学习实现高效灾难响应的成本有效无偏类比率估计
利用构建奈曼分层随机抽样树的创新算法以及对多类问题的推广,通过广泛的实验验证,本研究发现其在类别比率估计和模型增强方面能够超越传统主动学习方法,仅需传统简单抽样的 30%-60%的注释成本。该方法有效解决了传统主动学习策略中的 “采样偏倚” - ICML利用人工智能辅助策略优化标注预算的野外录音数据集创建实务方面的问题
机器听觉的研究聚焦于开发从音频信号中提取相关信息的技术,本文强调了在获取和标注具有上下文的数据方面的重要性,提出了一种综合的数据中心框架用于机器听觉项目,在资源受限的情况下实现配置录音节点、数据库结构和标注预算优化,通过使用专家标注员而非众 - 边缘引导和类别平衡的主动学习用于航空图像的语义分割
提出了基于边缘指导的标注单元作为新单元以及对类别不平衡的综合性处理,改进的方法在三个基准数据集上相比最先进方法获得了超过 11.2% 的性能提升,并相比基准模型提高了超过 18.6% 的性能表现,为未来关于航空图像语义分割的主动学习研究建立 - 无需人类注释的有益标注
该研究提出了一种利用影响函数来选择最有信息量样本和分配相关标签的自动标注方法,以替代传统的人工标注方法,并且在九个基准数据集上的实验证明了该方法在主动学习策略中的优越性能。此外,研究还对大型语言模型 (LLM) 的 fine-tuning - 自适应次模覆盖问题的贪婪近似比的下界
贪婪算法的自适应子模块覆盖近似比率至少为 1.3 *(1 + ln Q),这篇论文否定了 Golovin-Krause 在 `` 自适应子模块性:主动学习和随机优化的新方法 '' 中宣称相同算法具有(1 + ln Q)^2 近似比率的先前结