噪声容忍和差分隐私的统计主动学习算法
本研究展示了在异方差分布上运行的主流主动学习技术的灾难性失败,并提出了一种基于微调的方法以缓解这些失败,同时结合模型差别评分函数提出了一个新的算法,在清除噪声示例的同时最大化准确性,表现优异于现有的主动学习技术。
Nov, 2022
设计了一种用于成本敏感分类的通用非参数主动学习算法,通过构建每个标签的预测成本函数的置信区间,该算法选择最具信息量的向量点,通过仅查询可能是最小的预测成本来与其交互,证明了该算法在与向量空间的交互数量方面达到了最优收敛速率,并且在对 Tsybakov 的噪声假设的一般版本中,通过边界决策的概率质量明确表征了相对于相应被动学习方法的收益,并且通过提供匹配的(仅差对数因子的)下界证明了获得上界的接近最优性。
Sep, 2023
本文提出一种基于新的优化问题的主动学习算法,在流式环境下,可有效地解决任何分类器表示和分类问题,且具有高效实现的特点,并证明了该算法比现有的所有满足前两个特点的算法更为优秀,并对所有高效的主动学习算法进行了第一次实验分析,评估了它们在不同场景下的优劣。
Jun, 2015
主要介绍了主动学习策略在解决二分类问题中的应用,提出了一种基于偏移正态分布采样函数的方法,通过限制噪声和正类标签选择,提高了 20% 到 32% 的成本效率。
Mar, 2024
针对给定的二元假设类和分布,该研究提出了一种与最优算法相竞争的无偏主动学习算法,该算法在错误率为 η 的情况下只需要 O (m^* log |H|) 的查询次数,并且证明了超越 O (log |H|) 的开销是 NP 难的。
Oct, 2023
本研究提出了一种新的方法来设计计算效率高、能够容忍噪声的学习算法,并通过设计具有改善噪声容忍度的线性分离器学习算法来证明其有效性。在恶意噪声模型和对抗标签噪声模型方面展开讨论,并为这些模型提供了多项式时间算法,以在各自的噪声下学习线性分类器。在主动学习模型下,算法实现标签复杂度对于误差参数的对数对数依赖。
Jul, 2013
该文针对主动覆盖问题,借助支持向量估计器等算法在无标签数据集上提出了在少量标签查询即可完成标记所有阳性样本的主动学习方法,并证明该方法在图像数据集等基准测试中取得了相对优于离线方法和基线算法的效果。
Jun, 2021
本文提出了一种对标准主动学习模型进行延伸的模型,其中允许一种更一般类型的查询,即类条件查询。本文研究了这样的查询在两种已知噪声模型下的表现,给出了对于一般性不可知设置和有界噪声模型下的查询量的近乎严格的上下界,并表明我们的方法可以针对(未知的)噪声率进行自适应调整,而只有忽略不计的查询复杂度损失。
Nov, 2011
通过一种新颖的算法 DIRECT,该论文提出了解决机器学习中不平衡问题的有效技术,通过收集更平衡和信息丰富的标记示例来进行注释,相较于现有算法,该算法节省了超过 15% 的注释预算。
Dec, 2023
提出了一个简单的噪声 - 鲁棒性基于边缘的主动学习算法来查找同质 (通过原点) 的线性分离器,并分析了标签受噪声干扰时的误差收敛性。我们证明了当所施加的噪声满足 Tsybakov 低噪声条件时,算法能够适应未知的噪声水平,并在多对数因子上实现最优统计速率。同时,我们为基于边缘的主动学习算法在会员查询合成场景下的 Tsybakov 噪音条件 (TNC) 导出了下限。我们的分析可能为其他形式的下限提供了见解。
Jun, 2014