通过贝叶斯数据选择实现模型训练加速
将数据选择作为决策问题,并通过导出相应的贝叶斯准则为半监督学习中的自我训练等问题提供了贝叶斯最优选择数据的方法。根据模拟和真实数据的实证评估,我们进一步展示了该准则在广义线性模型、半参数广义加性模型和贝叶斯神经网络上减轻了确认偏差的问题。
Jun, 2024
现代机器学习模型对大型数据集的卓越成功往往需要大量的训练时间和资源消耗,为了节省成本,一种被广泛研究的方法是在线批次选择,在训练过程中选择信息量较大的子集。然而,现有的方法依赖于额外的参考模型,限制了它们的实际应用,因为这样理想的模型并不总是可用。为了解决这一困境,我们提出了一种无需参考模型的多样化批次选择算法(DivBS),可以有效地选择多样化和代表性的样本。我们定义了一种新的选择目标,以组间正交的代表性来衡量样本冗余问题,并提供了一个有原则的高效选择实现。通过各种任务的广泛实验证明了 DivBS 在性能和加速度之间的显着优势。代码公开可用。
Jun, 2024
在自然语言处理中,获取用于监督学习的带注释数据是一个重要挑战。本文提出了一种自动和明智的数据选择架构,用于建立用于少样本学习的小型数据集,以解决众包标注的问题。
Jan, 2024
利用优化问题的框架从候选数据中选择有机会最大化模型性能的子集,避免主观标准,并明确了学习过程如何利用训练数据进行目标任务的预测,从而极大地提高了语言模型的性能。
Jan, 2024
通过使用生成对抗网络(GAN)生成未见类别的语义嵌入辅助数据点,结合传统训练数据,利用模型选择机制使得泛零样本学习可以分为两个不相交的分类任务,以减少不平衡的数据分布,从而获得最先进的结果。
Nov, 2018
本文中,我们探讨了如何在正样本和未标注样本数据集的有选择偏差中进行有监督学习,并提出了一种基于经验风险的方法来加入标签机制和解决未知标签机制的情况,实验证明,即使在未知标签机制的情况下,考虑可能存在的选择偏差也会提高分类器的训练效果。
Sep, 2018
利用视觉 - 语言替代模型 CLIP 自动过滤噪声样本,并设计了一种适应性边界损失来规范由 CLIP 引入的选择偏差,从而提供对标签噪声的鲁棒性。在真实和合成噪声数据集上验证了我们提出的方法的有效性。
Oct, 2023
提出了两种基于神经突触智能和梯度范数的数据估值指标,通过在线聚类和基于考察数据值的分组提出了新的数据选择算法。在线方法使用逐层模型参数更新和每个时期梯度高效地评估数据,可以使用更少的时期和数据子集(例如,19%-59%)加速模型训练,同时在各种数据集中保持等价的水平,还可以扩展到离线 Coreset 构建,只生成原始数据的 18%-30%子集。
Jun, 2023
从贝叶斯角度出发,通过线性模型的训练速度和边缘似然之间的联系揭示其两个主要见解,即模型的训练速度可以用来估计其边缘似然,同时在一定条件下,这个度量量可以预测线性模型组合中模型的相对权重,实验证明这种直觉在深层神经网络的无穷宽度限制和随机梯度下降的训练中也成立,我们的结果揭示了一个指向解释为什么使用随机梯度下降训练的神经网络会偏向于良好泛化的函数的有希望的新方向。
Oct, 2020