训练加速的多样化批次选择

ICMLJun, 2024

Diversified Batch Selection for Training Acceleration

Feng Hong, Yueming Lyu, Jiangchao Yao, Ya Zhang, Ivor W. Tsang...

TL;DR现代机器学习模型对大型数据集的卓越成功往往需要大量的训练时间和资源消耗，为了节省成本，一种被广泛研究的方法是在线批次选择，在训练过程中选择信息量较大的子集。然而，现有的方法依赖于额外的参考模型，限制了它们的实际应用，因为这样理想的模型并不总是可用。为了解决这一困境，我们提出了一种无需参考模型的多样化批次选择算法（DivBS），可以有效地选择多样化和代表性的样本。我们定义了一种新的选择目标，以组间正交的代表性来衡量样本冗余问题，并提供了一个有原则的高效选择实现。通过各种任务的广泛实验证明了 DivBS 在性能和加速度之间的显着优势。代码公开可用。

Abstract

The remarkable success of modern machine learning models on large datasets often demands extensive training time and resource consumption. To save cost, a prevalent research line, known as online batch selection,

machine learning models online batch selection reference models diversified batch selection performance-speedup trade-off

发现论文，激发创造

通过贝叶斯数据选择实现模型训练加速

使用轻量级贝叶斯处理和基于大规模预训练模型的即用型零样本预测器，解决了现实场景中标记错误、重复或有偏差的数据在训练中的问题，提高了模型的训练效率。

Aug, 2023

深度神经网络的子模块批次选择

该研究提出了一种基于子模函数最大化的小批量选择策略，设计了一种高效的、贪心的算法来解决该 NP - 硬组合优化问题。实验表明，所提出的批量选择策略培训的深度模型具有比随机梯度下降优化方法以及流行的基准采样策略更好的泛化性能。

Jun, 2019

多标签自适应批量选择：突出困难和不平衡样本

深度神经网络模型对多标签数据进行分类，然而在构建小批量时，类别不平衡导致模型对多数标签偏向，本研究引入了适用于多标签深度学习模型的简单且有效的自适应批量选择算法，优先选择与少数标签相关的困难样本，实验证明我们的方法比随机批量选择更快地收敛并且性能更好。

Mar, 2024

多样化小批量主动学习

该研究致力于解决减少有标签的训练数据来训练监督式分类模型的问题，通过使用 Active Learning 和 K-means 聚类算法，采用 mini-batch Active Learning 方法来快速有效地选取对模型具有信息量和多样性的训练样例，以达到相当或更好的性能表现。

Jan, 2019

少样本学习：计算机视觉统一数据子集选择与主动学习框架

本文介绍一种使用多样性模型的训练数据子集选择方法，该方法可提高计算机视觉任务的准确性并减少标注成本。

Jan, 2019

神经序列模型的多样性束搜索：解码多样性解决方案

提出一种名为 Diverse Beam Search (DBS) 的算法，以优化多样性目标解码出一系列多样化的输出，旨在解决 Beam Search 算法在复杂人工智能任务解码过程中无法准确捕捉复杂任务本质的问题，并在图像字幕生成、机器翻译和视觉问答生成等任务中取得更好的性能表现。

Oct, 2016

通向自由数据选择的通用模型

通过设计一个独特的数据选择流程，利用现有的通用模型对各个数据集进行单次推理，而无需额外的训练或监督，本文提出了一种新的自由数据选择（FreeSel）方法，通过捕捉通用模型的中间特征中提取出的语义模式来选择所有数据样本，可以显著提高效率，并且比现有的主动学习方法快 530 倍。

Sep, 2023

FairBatch: 用于模型公正性的批量选择

通过双层优化算法，提出了一种名为 FairBatch 的算法，可以通过自适应地选择小批量来改善模型公平性。这种算法不需要对数据预处理或模型训练进行广泛改变，可与现有的批量选择技术兼容，并提供卓越的性能表现。

Dec, 2020

基于多样性的数据无关集成选择的一次性联邦学习在机器学习模型市场中的应用

本文提出了一种名为 DeDES 的新型数据无关多样性算法，以解决机器学习模型市场中想要在无需数据的情况下使用集成学习来改善模型性能时，模型选择问题的存在。实验结果表明，该算法在不同数据集和模型结构下，可以同时实现更好的性能和更高的效率。

Feb, 2023

DsDm: 使用数据模型的模型感知数据集选择

利用优化问题的框架从候选数据中选择有机会最大化模型性能的子集，避免主观标准，并明确了学习过程如何利用训练数据进行目标任务的预测，从而极大地提高了语言模型的性能。

Jan, 2024