多样性增强主动学习的均值适当得分的贝叶斯估计
本研究探讨文本分类的主动学习领域中的不同收集函数,并开发了一种用于未标记数据的预期分数变化向量的多样性的批量主动学习算法,最后结合集成式学习和动态验证集构建证明 BEMPS 的 mean square error 和 log probability 收集函数的优越表现。
Oct, 2021
在工业规模的环境中,特别是在资源有限的语言中,我们通过熵和 EL2N 评分来评估潜在的训练样本的 “有用性” 或 “难度”,并展示了如何使用这些度量来选择用于训练监督机器学习模型的重要样本。我们使用这些度量从大量的 “弱信号标记” 数据中筛选高质量的数据集,然后进行以评分为基础的选择来增强训练数据实验,与随机选择的基线技术相比,结果显示了语义错误率下降 2% 和领域分类错误率下降 4%-7%。
Nov, 2023
本研究介绍一种混合表示增强采样策略,基于不确定性的贝叶斯主动学习 (BAL) 方法,在低肢 MRI 和 CT 图像数据集上通过 BAL 框架基于贝叶斯 U-net,选择不确定性高且密度和多样性兼顾的样本进行手动修订,从而在医学图像分割领域中有效地降低标注成本。
Jul, 2023
本文提出了一个学习如何对最佳分类器的表现进行基准测试的框架,实现了对贝叶斯误分类误差率的准确评估,基于一个包含估计器的集成学习器和切比雪夫逼近进行基准学习,通过实验验证,相较之前的方法精确的评估了贝叶斯误差率。
Sep, 2019
提出了一种方法,可以一致且渐近无偏地估计所有适当的校准误差和改进术语,并验证了所提估计器的所述特性,并建议后续校准方法的选择应由所关注的特定校准误差决定。
Dec, 2023
本研究提出了一种新算法 TSA,它有效地平衡了探索和利用之间的关系,具有与现有近似方法相同的计算复杂度,实现了在玩具数据和现实世界数据中的两者间的探索和利用平衡,优于多个最先进的相关研究。
Sep, 2016
本研究介绍了一种新颖的深度主动学习策略,利用期望损失减少框架中的 Beta 系列合适评分规则来解决自然语言处理范围内多标签文本分类的挑战。通过计算预期分数的增加量,并将其转化为样本向量表示,该方法在各种架构和数据集情景中通常胜过传统的获取技术,在多标签文本分类中表现出令人鼓舞的结果。
Jan, 2024
本文介绍了一种平衡和基于熵的混合(BEM)方法,以重新平衡长尾半监督学习中的类分布,并通过数据混合改善长尾半监督学习,实验证明 BEM 显著提高了各种长尾半监督学习框架,在多个基准测试中达到了最先进的性能。
Apr, 2024
本文探讨了模型为基础的主动学习方法中存在的根本缺陷以及如何通过最大化潜在的未来预测的信息收益来解决这些问题,并提出了一种基于 BALD 和 EPIG 的混合方法,称为 JEPIG,并在多个数据集上使用这种方法进行了研究,考察了其在池集分布变化时的行为。
Jun, 2021
通过提出一种新的随机获取策略,该模型可以在多种设置中以比以前的贝叶斯随机获取策略更少的偏好标签的情况下,在人类喜好数据集中获得 33% 至 68% 的偏好标签。
Jun, 2024