通向自由数据选择的通用模型

Sep, 2023

Towards Free Data Selection with General-Purpose Models

Yichen Xie, Mingyu Ding, Masayoshi Tomizuka, Wei Zhan

TL;DR通过设计一个独特的数据选择流程，利用现有的通用模型对各个数据集进行单次推理，而无需额外的训练或监督，本文提出了一种新的自由数据选择（FreeSel）方法，通过捕捉通用模型的中间特征中提取出的语义模式来选择所有数据样本，可以显著提高效率，并且比现有的主动学习方法快 530 倍。

Abstract

A desirable data selection algorithm can efficiently choose the most informative samples to maximize the utility of limited annotation budgets. However, current approaches, represented by →

data selection algorithm annotation budgets active learning methods data selection pipeline freesel

发现论文，激发创造

通过贝叶斯数据选择实现模型训练加速

使用轻量级贝叶斯处理和基于大规模预训练模型的即用型零样本预测器，解决了现实场景中标记错误、重复或有偏差的数据在训练中的问题，提高了模型的训练效率。

Aug, 2023

语言模型数据选择调查

该论文综述了大型语言模型、数据选择方法、经验证据、大规模数据选择研究和未来研究方向的相关领域，旨在为新老研究人员提供入门点，加速数据选择领域的进展。

Feb, 2024

少样本学习：计算机视觉统一数据子集选择与主动学习框架

本文介绍一种使用多样性模型的训练数据子集选择方法，该方法可提高计算机视觉任务的准确性并减少标注成本。

Jan, 2019

抛弃糟粕保留精华：关于大规模语言模型微调中的数据选择的思考

大规模语言模型的数据选择旨在从给定的候选数据集中选择一个高质量的子集，以训练一个挂起的微调模型进而得到一个选择性增强模型，以提高模型性能并加快训练进程。通过深入的分析和综述，我们发现具有数据特定和模型特定质量标签的更具针对性的方法具有更高的效率，但在设计选择算法时应避免引入额外的噪声信息，并总结了数据选择的趋势并强调了未来研究所面临的短期和长期挑战。

Jun, 2024

一种快速模型选择的两阶段召回和选择框架

提出了一种基于两阶段模型选择框架的方法，通过利用基准数据集上模型的训练性能来提高选择强大模型的效率，实验证明该方法让模型的选择速度比传统基准方法快 3 倍。

Mar, 2024

使用一般替代模型对样本选择进行抵抗标签噪声

利用视觉 - 语言替代模型 CLIP 自动过滤噪声样本，并设计了一种适应性边界损失来规范由 CLIP 引入的选择偏差，从而提供对标签噪声的鲁棒性。在真实和合成噪声数据集上验证了我们提出的方法的有效性。

Oct, 2023

标签高效的点云语义分割：一种主动学习方法

本研究提出了一种主动学习方法，并通过限制注释费用来确定适当的样本粒度进行主动选择，结果表明基于超点的样本选择比点级和实例级选择使用有限预算更有效，并进一步利用本地一致性约束来提高超点选择方法的性能，在 ShapeNet 和 S3DIS 两个基准数据集上评估了我们的方法，结果表明主动学习是解决语义点云分割中高注释成本的有效策略。

Jan, 2021

LaF：用于自动深度神经网络重用的无标记模型选择

本文提出了一种基于贝叶斯模型的无标签模型选择方法，该方法可以用于深度学习中的预训练模型选择，实验结果表明该方法在多个基准数据集和 DNNs 上表现优异。

Apr, 2022

DsDm: 使用数据模型的模型感知数据集选择

利用优化问题的框架从候选数据中选择有机会最大化模型性能的子集，避免主观标准，并明确了学习过程如何利用训练数据进行目标任务的预测，从而极大地提高了语言模型的性能。

Jan, 2024

训练加速的多样化批次选择

现代机器学习模型对大型数据集的卓越成功往往需要大量的训练时间和资源消耗，为了节省成本，一种被广泛研究的方法是在线批次选择，在训练过程中选择信息量较大的子集。然而，现有的方法依赖于额外的参考模型，限制了它们的实际应用，因为这样理想的模型并不总是可用。为了解决这一困境，我们提出了一种无需参考模型的多样化批次选择算法（DivBS），可以有效地选择多样化和代表性的样本。我们定义了一种新的选择目标，以组间正交的代表性来衡量样本冗余问题，并提供了一个有原则的高效选择实现。通过各种任务的广泛实验证明了 DivBS 在性能和加速度之间的显着优势。代码公开可用。

Jun, 2024