ICMLJun, 2024

训练加速的多样化批次选择

TL;DR现代机器学习模型对大型数据集的卓越成功往往需要大量的训练时间和资源消耗,为了节省成本,一种被广泛研究的方法是在线批次选择,在训练过程中选择信息量较大的子集。然而,现有的方法依赖于额外的参考模型,限制了它们的实际应用,因为这样理想的模型并不总是可用。为了解决这一困境,我们提出了一种无需参考模型的多样化批次选择算法(DivBS),可以有效地选择多样化和代表性的样本。我们定义了一种新的选择目标,以组间正交的代表性来衡量样本冗余问题,并提供了一个有原则的高效选择实现。通过各种任务的广泛实验证明了 DivBS 在性能和加速度之间的显着优势。代码公开可用。