贝叶斯主动学习用于被审查回归

Feb, 2024

Bayesian Active Learning for Censored Regression

Frederik Boe Hüttel, Christoffer Riis, Filipe Rodrigues, Francisco Câmara Pereira

TL;DR提出了一种新的建模方法来估计在剪辑回归中的主动学习目标，并证明其在各种数据集和模型中优于其他贝叶斯主动学习方法。

Abstract

bayesian active learning is based on information theoretical approaches that focus on maximising the information that new observations provide to the model parameters. This is commonly done by maximising the bayesian ac

bayesian active learning bald censorship censored regression information entropy

发现论文，激发创造

测试分布感知主动学习：针对分布偏移和异常值的原则性方法

本文探讨了模型为基础的主动学习方法中存在的根本缺陷以及如何通过最大化潜在的未来预测的信息收益来解决这些问题，并提出了一种基于 BALD 和 EPIG 的混合方法，称为 JEPIG，并在多个数据集上使用这种方法进行了研究，考察了其在池集分布变化时的行为。

Jun, 2021

基于预测的贝叶斯主动学习

提出一种新的主动学习策略 - 期望预测信息增益（EPIG），比传统的基于 BALD score 的方法，在模型预测上取得更强的性能，可以用于各种数据集和模型。

Apr, 2023

BatchBALD: 深度贝叶斯主动学习的高效多样化批量获取

BatchBALD 是一种用于深度贝叶斯主动学习的可行近似方法，它计算了一批数据点与模型参数之间的互信息作为获取函数，并在获取批次中考虑依赖关系以提高数据效率并在标准基准测试中实现新的最先进性能.

Jun, 2019

聚合输出的回归主动学习

提出使用互信息测量方法的主动学习模型，使用 Bayesian linear basis functions 模型，在训练聚合数据的回归模型时减少标注集的成本，并实现更好的预测性能。

Oct, 2022

大型语言模型中的深度贝叶斯主动学习偏好建模

通过提出一种新的随机获取策略，该模型可以在多种设置中以比以前的贝叶斯随机获取策略更少的偏好标签的情况下，在人类喜好数据集中获得 33% 至 68% 的偏好标签。

Jun, 2024

带有相关且嘈杂测试的近乎最优贝叶斯主动学习

这篇论文提出了 ECED 算法，实现了贝叶斯主动学习和实验设计问题，并针对有条件相关性的测试结果进行了探索，通过优化代理目标函数中的测试输入来实现在相关噪声测试中的最优界限。

May, 2016

具有被审查响应数据的贝叶斯优化

该文介绍了使用贝叶斯优化模型处理部分右侧截尾响应数据的问题，特别是在算法配置问题中适应性地监管昂贵的函数评估，通过处理导致的右侧截尾观察可以大大改进基于模型的算法配置的现状。

Oct, 2013

基于混合表示增强采样的肌肉骨骼下肢分割的贝叶斯主动学习

本研究介绍一种混合表示增强采样策略，基于不确定性的贝叶斯主动学习 (BAL) 方法，在低肢 MRI 和 CT 图像数据集上通过 BAL 框架基于贝叶斯 U-net，选择不确定性高且密度和多样性兼顾的样本进行手动修订，从而在医学图像分割领域中有效地降低标注成本。

Jul, 2023

通过费舍尔信息和信息论量统一主动学习和主动采样方法

本文回顾了贝叶斯最优实验设计的基础，并表明被称为期望信息增益或 BALD 的预测和模型参数之间的互信息以及被称为预测信息增益的获取候选和测试样本之间的互信息可以作为信息理论量的近似，提出了一种连接所谓分歧文献的统一框架。

Aug, 2022

隐私感知主动学习中的最大信息增益策略研究

通过使用信息增益最大化启发式方法，我们开发了一种增强的主动学习方法，并在一个真实环境中对其有效性进行了评估，该环境中由于隐私问题，只能由人类分析员对电子邮件的编辑版本进行标记。在两个案例研究中，我们发现对模型性能进行最佳评估的方法是由一位高技能的分析员提供标签，并使用置信度评分来估计分析员的标签不确定性，并根据预期信息增益的优先级对实例进行标记。我们发现，信息增益最大化启发式方法相对于现有的采样方法为主动学习的模型性能提供了改进。基于所得结果，我们推荐在网络安全应用中实施主动学习之前应对分析员进行筛选和培训。我们还建议在主动学习的早期阶段使用基于专家置信度的信息增益最大化采样方法，前提是可以获得良好校准的置信度。我们还注意到在主动学习之前需要评估分析员的专业知识，因为我们发现具有较低标签技能的分析员在标签上的置信度较差。

May, 2024