贝叶斯数据选择

ICMLJun, 2024

Bayesian Data Selection

Julian Rodemann

TL;DR将数据选择作为决策问题，并通过导出相应的贝叶斯准则为半监督学习中的自我训练等问题提供了贝叶斯最优选择数据的方法。根据模拟和真实数据的实证评估，我们进一步展示了该准则在广义线性模型、半参数广义加性模型和贝叶斯神经网络上减轻了确认偏差的问题。

Abstract

A wide range of machine learning algorithms iteratively add data to the training sample. Examples include semi-supervised learning, active learni

发现论文，激发创造

使用轻量级贝叶斯处理和基于大规模预训练模型的即用型零样本预测器，解决了现实场景中标记错误、重复或有偏差的数据在训练中的问题，提高了模型的训练效率。

Aug, 2023

本文回顾了如何使用最优数据选择技术来优化一些类型的机器学习算法，包括前馈神经网络、高斯混合模型和局部加权回归，并探讨了此方法如何降低训练数据量，提高模型性能。

Mar, 1996

本文说明了许多机器学习算法都是贝叶斯学习规则的特定实例，该规则源于贝叶斯原则，从优化、深度学习和图形模型等领域得出一系列算法。我们的工作不仅统一，泛化和改进了现有算法，而且还帮助我们设计新的算法。

Jul, 2021

伪标记、半监督学习、确认偏差、贝叶斯框架、决策理论

Sep, 2023

本文研究使用贝叶斯神经网络进行主动学习，相较于集成技术更能有效地捕捉不确定性，拥有更好的模型效果，同时还揭示了集成技术的一些关键缺陷。

Apr, 2021

通过基于人类教学的伪边际抽样实现机器学习的普适性教学方法，成功地在主题模型上进行训练，并在电影简介数据中验证了该方法的优势。

May, 2016

本研究开发了一种基于支持向量分类的基础池式主动学习器的快速简单的实践方法，旨在解决很少标记数据点的情况下进行模型选择的挑战，并通过加权方法让模型在易于分类数据集和难以分类数据集之间取得平衡的最佳性能。

Dec, 2021

从 ASLib 中的六个数据集中评估了三种方法：基于预测不确定性的主动学习、使用超时预测器增强算法预测器以及使用逐步增加超时的方式收集训练数据，并展示了每个选项所实现的标记成本的降低。

May, 2024

本文中，我们探讨了如何在正样本和未标注样本数据集的有选择偏差中进行有监督学习，并提出了一种基于经验风险的方法来加入标签机制和解决未知标签机制的情况，实验证明，即使在未知标签机制的情况下，考虑可能存在的选择偏差也会提高分类器的训练效果。

Sep, 2018

本文介绍了二元和多类分类的自学习方法及其变体，并探讨了一些新的方法。我们评估了这些方法在不同的基准分类数据集上的表现，并提出了未来研究的思路。这是首个完整分析的经验综述。

Feb, 2022