基于预设文本的主动学习
本研究提出了一种新的主动学习方法,通过对比学习在特征空间中选择集群的样本,从标记和未标记的数据池中获取信息,以获取优先的显着内部分布样本,并证明该方法相对于现有的主动学习方法需要更少的标注预算才能达到相同的准确性水平。
Mar, 2023
本文提出一种创新的主动学习方法,利用自监督的预训练任务和独特的数据采样器,通过选择具有难度和代表性的数据来解决数据标注代价高的问题,并在各种图像分类和分割基准上取得了令人信服的性能。
Jan, 2022
本文提出了一种使用网络上未标注的数据作为用于 Pool-based active learning 的数据池的方法,并使用 Seafaring 算法检索信息,证明此方法比使用少量未标注池的现有方法表现更好。
Oct, 2022
基于池的主动学习方法对于增加机器学习模型的数据效率具有潜力,但现有方法对数据集和训练设置选择非常敏感,因此不适用于一般应用。为了解决这个问题,学习主动学习(LAL)领域建议学习主动学习策略本身,使其能够适应特定的设置。本研究提出了一种基于关注条件神经过程模型的用于分类的新型 LAL 方法,利用主动学习问题的对称性和独立性属性。我们的方法基于从一个近视的预测模型进行学习,使得我们的模型能够适应非标准目标,如不平等权重的错误。我们的实验证明,在这些设置下,我们的神经过程模型优于多种基线方法。最后,我们的实验表明,我们的模型对于不同数据集的稳定性有所提高。然而,分类器的选择会对性能产生影响,还需要更多的工作来减小与近视预测模型的性能差距,并提高可伸缩性。我们将我们的工作作为对非标准目标的 LAL 的概念验证,并希望我们的分析和建模考虑能够为未来的 LAL 工作提供启发。
Sep, 2023
通过 Positive Active Learning 策略,可以扩展自我监督学习(SSL)到在线学习,半监督和监督学习。该框架可嵌入先验知识并提供主动学习框架,从而实现低成本对数据集的注释。
Mar, 2023
该研究通过将主动学习与自监督预训练相结合,并使用称为 Balanced Selection(BASE)的算法来解决类不平衡问题,提高图像分类性能,特别适用于工业级大规模数据标记和训练中。
Nov, 2021
本文提出了一种新颖的主动学习方法,使用一个小的参数模块 “loss prediction module” 来预测未标注数据的损失值,并基于此向其他特征不确定的数据请求人类进行标注,可以适用于深度神经网络的所有任务,结果表明该方法在图像分类、物体检测和人体姿态估计等任务中优于之前的方法。
May, 2019
通过半监督深度学习与主动学习相结合的方法,使用尽可能少的标记样本,同时利用熵最小化对未标记样本进行训练,在 MNIST 数据集上仅使用 300 个标记样本实现 2.06% 的误差率和 1000 个标记样本实现 1.06% 的误差率。该方法可以获得高准确性的敏捷标注过程,同时节省标记成本。
Mar, 2018
该论文提出了一种融合标注和模型训练的主动学习方法,结合半监督学习和基于一致性的样本选择度量,实现从未标注数据中选取最优数据来改善模型性能,在图像分类任务中实验结果显示出优异表现,同时探究了学习式主动学习方法的起点问题并提出了相关测量指标。
Oct, 2019
提出了一种能够在只有单类样本和无标签数据的情况下运作的主动学习算法,该方法通过分别估计正样本和未标记点的概率密度,计算信息性的期望值以获取更好的信息性度量。与其他类似方法相比,实验和经验分析结果表现出有前途的结果。
Feb, 2016