多样性增强主动学习的均值适当得分的贝叶斯估计

Dec, 2023

多样性增强主动学习的均值适当得分的贝叶斯估计

Bayesian Estimate of Mean Proper Scores for Diversity-Enhanced Active Learning

Wei Tan, Lan Du, Wray Buntine

TL;DR提出了一种基于贝叶斯估计的增加严格适当得分的方法 BEMPS，用于在主动学习中估计严格适当得分的增加，该方法在实验证明了其较其他方法更强大和更具鲁棒性，并通过定性分析得到了支持。

Abstract

The effectiveness of active learning largely depends on the sampling efficiency of the acquisition function. Expected Loss Reduction (ELR) focuses on a →

active learning acquisition function bayesian estimate bemps classifiers

发现论文，激发创造

采用严格的合适评分规则增强多样性主动学习

本研究探讨文本分类的主动学习领域中的不同收集函数，并开发了一种用于未标记数据的预期分数变化向量的多样性的批量主动学习算法，最后结合集成式学习和动态验证集构建证明 BEMPS 的 mean square error 和 log probability 收集函数的优越表现。

Oct, 2021

数据选择的熵和边缘得分指标的全面基准评估

在工业规模的环境中，特别是在资源有限的语言中，我们通过熵和 EL2N 评分来评估潜在的训练样本的 “有用性” 或 “难度”，并展示了如何使用这些度量来选择用于训练监督机器学习模型的重要样本。我们使用这些度量从大量的 “弱信号标记” 数据中筛选高质量的数据集，然后进行以评分为基础的选择来增强训练数据实验，与随机选择的基线技术相比，结果显示了语义错误率下降 2% 和领域分类错误率下降 4%-7%。

Nov, 2023

基于混合表示增强采样的肌肉骨骼下肢分割的贝叶斯主动学习

本研究介绍一种混合表示增强采样策略，基于不确定性的贝叶斯主动学习 (BAL) 方法，在低肢 MRI 和 CT 图像数据集上通过 BAL 框架基于贝叶斯 U-net，选择不确定性高且密度和多样性兼顾的样本进行手动修订，从而在医学图像分割领域中有效地降低标注成本。

Jul, 2023

学习性能基准：从训练数据中确定最佳可达误分类率

本文提出了一个学习如何对最佳分类器的表现进行基准测试的框架，实现了对贝叶斯误分类误差率的准确评估，基于一个包含估计器的集成学习器和切比雪夫逼近进行基准学习，通过实验验证，相较之前的方法精确的评估了贝叶斯误差率。

Sep, 2019

适当校准误差的一致且渐近无偏估计

提出了一种方法，可以一致且渐近无偏地估计所有适当的校准误差和改进术语，并验证了所提估计器的所述特性，并建议后续校准方法的选择应由所关注的特定校准误差决定。

Dec, 2023

基于图的主动学习：对期望误差最小化的新思考

本研究提出了一种新算法 TSA，它有效地平衡了探索和利用之间的关系，具有与现有近似方法相同的计算复杂度，实现了在玩具数据和现实世界数据中的两者间的探索和利用平衡，优于多个最先进的相关研究。

Sep, 2016

深度主动学习中利用 Beta 评分的多标签文本分类

本研究介绍了一种新颖的深度主动学习策略，利用期望损失减少框架中的 Beta 系列合适评分规则来解决自然语言处理范围内多标签文本分类的挑战。通过计算预期分数的增加量，并将其转化为样本向量表示，该方法在各种架构和数据集情景中通常胜过传统的获取技术，在多标签文本分类中表现出令人鼓舞的结果。

Jan, 2024

BEM：长尾半监督学习的均衡和熵引导混合方法

本文介绍了一种平衡和基于熵的混合（BEM）方法，以重新平衡长尾半监督学习中的类分布，并通过数据混合改善长尾半监督学习，实验证明 BEM 显著提高了各种长尾半监督学习框架，在多个基准测试中达到了最先进的性能。

Apr, 2024

测试分布感知主动学习：针对分布偏移和异常值的原则性方法

本文探讨了模型为基础的主动学习方法中存在的根本缺陷以及如何通过最大化潜在的未来预测的信息收益来解决这些问题，并提出了一种基于 BALD 和 EPIG 的混合方法，称为 JEPIG，并在多个数据集上使用这种方法进行了研究，考察了其在池集分布变化时的行为。

Jun, 2021

大型语言模型中的深度贝叶斯主动学习偏好建模

通过提出一种新的随机获取策略，该模型可以在多种设置中以比以前的贝叶斯随机获取策略更少的偏好标签的情况下，在人类喜好数据集中获得 33% 至 68% 的偏好标签。

Jun, 2024