基于贝叶斯主动学习的生产系统研究与可重用库

Jun, 2020

基于贝叶斯主动学习的生产系统研究与可重用库

Bayesian active learning for production, a systematic study and a reusable library

Parmida Atighehchian, Frédéric Branchaud-Charron, Alexandre Lacoste

TL;DR本研究分析了当前主要的主动式学习技术中存在的主要缺点，并提出了缓解这些缺点的方法，包括使用部分不确定性采样和更大的查询大小加速主动式学习循环，并展示了开源贝叶斯主动式学习库 BaaL。

Abstract

active learning is able to reduce the amount of labelling effort by using a machine learning model to query the user for specific inputs. While there are many papers on new →

active learning machine learning dataset imbalance partial uncertainty sampling bayesian active learning

发现论文，激发创造

自然语言处理的深度贝叶斯主动学习：一项大规模实证研究结果

本篇论文就深度主动学习进行了大规模实证研究，针对多种任务和数据集、模型以及获取函数，证实贝叶斯主动学习方法在许多方面都优于传统的不确定性采样方法。

Aug, 2018

贝叶斯神经网络在主动学习中的有效性

本文研究使用贝叶斯神经网络进行主动学习，相较于集成技术更能有效地捕捉不确定性，拥有更好的模型效果，同时还揭示了集成技术的一些关键缺陷。

Apr, 2021

贝叶斯批次主动学习作为稀疏子集逼近

本研究提出一种基于贝叶斯批量主动学习方法来解决大规模监督模型中标签获取成本高的问题，从而利用大量未标记数据来改善模型性能。此方法通过逼近模型参数的完整数据后验概率，并使用随机投影技术来推广到任意模型，从而使批处理的数据选择更加多样，有效降低了计算复杂度，并在多个大规模回归和分类任务上得到了证实。

Aug, 2019

贝叶斯生成主动深度学习

本文提出一种贝叶斯生成主动深度学习方法，将主动学习与数据增强相结合，通过在 MNIST、CIFAR-10/100 和 SVHN 数据集上进行训练和分类实验证明，此方法具有更高效的训练和更好的分类结果。

Apr, 2019

在贝叶斯主动学习中更好地利用无标签数据

全监督模型在贝叶斯主动学习中占主导地位，我们认为它们对未标记数据中的信息的忽视不仅损害了预测性能，也影响了关于获取哪些数据的决策。我们提出了一个简单的半监督贝叶斯主动学习框架，发现它比传统的贝叶斯主动学习或随机获取数据的半监督学习能够生成更好的模型。该框架也更易于扩展。除了支持向半监督模型的转变外，我们的发现还强调了研究模型和获取方法的重要性。

Apr, 2024

深度贝叶斯主动学习图像数据

该研究结合贝叶斯深度学习与主动学习框架，在高维图像数据的任务中，证明了其在现有主动学习方法上的显着改进。研究表明，结合专业模型，如贝叶斯卷积神经网络，可以使主动学习技术在 MNIST 数据集和皮肤癌诊断任务中得到显著改进。

Mar, 2017

使用深度预训练模型和贝叶斯不确定性估计进行序列标注的主动学习

本文研究在序列标注上采用迁移学习和主动学习来减少注释预算的可行性，并通过 Bayesian 不确定性估计方法和 Monte Carlo Dropout 选项在深度预训练模型的主动学习框架中进行了广泛的实证研究，并发现了不同类型模型的最佳组合。此外，我们还展示了在主动学习期间获取实例的全尺寸 Transformer 可以被替换为简化版本，这可以提供更好的计算性能，降低了应用深度主动学习的障碍。

Jan, 2021

部署主动学习的实际障碍

本文研究了主题 “主动学习”，发现尽管在特定模型和特定领域中使用主动学习可能会带来好处，但在不同模型和任务之间泛化当前方法的好处不可靠，并且主动学习的认购数据与指导其获取的模型相结合，与使用独立同分布的（I.I.D）随机样本训练继任模型的方法相比并没有明显的优势，主动学习的局限性是否值得现实中的应用，值得深思。

Jul, 2018

制造业中基于情境赌博机的集合主动学习

在线感知和计算资源在工业物联网系统（Industrial Cyber-physical Systems，ICPS）中促进了以人工智能为驱动的决策制定。然而，数据质量的问题，如不平衡类别，阻碍了离线训练的人工智能模型。为了解决这个问题，人工智能模型通过流式数据进行在线更新，持续改进。然而，监督学习模型在选择质量流式样本进行更新时面临注释限制的挑战。文献中的主动学习方法通过关注不充分或充分代表的区域提供了解决方案。在不断变化的制造背景下平衡这些策略是具有挑战性的。一些人工智能学到的获取准则动态地适应，但可能不一致地处理频繁变化。我们引入了一种集成主动学习方法 CBEAL，专门用于探索或开发的主动学习代理。代理的权重根据代理决策的有效性进行调整。CBEAL 在最小化人工注释的同时，优化地指导数据获取。我们的理论分析和实证研究验证了 CBEAL 在 ICPS 制造过程建模方面的效率。

Oct, 2023

大规模批量主动学习

研究了一种高效的批量主动学习算法，该算法结合不确定性和多样性概念，在批量设置中易于扩展，并与先前研究中使用的批量大小（100K-1M）相比提高模型训练效率。同时，还证明了相关采样方法的标签复杂度保证，该方法在特定情况下几乎等同于我们的采样方法。

Jul, 2021