通向自由数据选择的通用模型
大规模语言模型的数据选择旨在从给定的候选数据集中选择一个高质量的子集,以训练一个挂起的微调模型进而得到一个选择性增强模型,以提高模型性能并加快训练进程。通过深入的分析和综述,我们发现具有数据特定和模型特定质量标签的更具针对性的方法具有更高的效率,但在设计选择算法时应避免引入额外的噪声信息,并总结了数据选择的趋势并强调了未来研究所面临的短期和长期挑战。
Jun, 2024
提出了一种基于两阶段模型选择框架的方法,通过利用基准数据集上模型的训练性能来提高选择强大模型的效率,实验证明该方法让模型的选择速度比传统基准方法快 3 倍。
Mar, 2024
利用视觉 - 语言替代模型 CLIP 自动过滤噪声样本,并设计了一种适应性边界损失来规范由 CLIP 引入的选择偏差,从而提供对标签噪声的鲁棒性。在真实和合成噪声数据集上验证了我们提出的方法的有效性。
Oct, 2023
本研究提出了一种主动学习方法,并通过限制注释费用来确定适当的样本粒度进行主动选择,结果表明基于超点的样本选择比点级和实例级选择使用有限预算更有效,并进一步利用本地一致性约束来提高超点选择方法的性能,在 ShapeNet 和 S3DIS 两个基准数据集上评估了我们的方法,结果表明主动学习是解决语义点云分割中高注释成本的有效策略。
Jan, 2021
本文提出了一种基于贝叶斯模型的无标签模型选择方法,该方法可以用于深度学习中的预训练模型选择,实验结果表明该方法在多个基准数据集和 DNNs 上表现优异。
Apr, 2022
利用优化问题的框架从候选数据中选择有机会最大化模型性能的子集,避免主观标准,并明确了学习过程如何利用训练数据进行目标任务的预测,从而极大地提高了语言模型的性能。
Jan, 2024
现代机器学习模型对大型数据集的卓越成功往往需要大量的训练时间和资源消耗,为了节省成本,一种被广泛研究的方法是在线批次选择,在训练过程中选择信息量较大的子集。然而,现有的方法依赖于额外的参考模型,限制了它们的实际应用,因为这样理想的模型并不总是可用。为了解决这一困境,我们提出了一种无需参考模型的多样化批次选择算法(DivBS),可以有效地选择多样化和代表性的样本。我们定义了一种新的选择目标,以组间正交的代表性来衡量样本冗余问题,并提供了一个有原则的高效选择实现。通过各种任务的广泛实验证明了 DivBS 在性能和加速度之间的显着优势。代码公开可用。
Jun, 2024