DsDm: 使用数据模型的模型感知数据集选择

Jan, 2024

DsDm: 使用数据模型的模型感知数据集选择

DsDm: Model-Aware Dataset Selection with Datamodels

Logan Engstrom, Axel Feldmann, Aleksander Madry

TL;DR利用优化问题的框架从候选数据中选择有机会最大化模型性能的子集，避免主观标准，并明确了学习过程如何利用训练数据进行目标任务的预测，从而极大地提高了语言模型的性能。

Abstract

When selecting data for training large-scale models, standard practice is to filter for examples that match human notions of data quality. Such filtering yields qualitatively clean datapoints that intuitively sho

large-scale models data quality dataset selection learning algorithm language model

发现论文，激发创造

语言模型数据选择调查

该论文综述了大型语言模型、数据选择方法、经验证据、大规模数据选择研究和未来研究方向的相关领域，旨在为新老研究人员提供入门点，加速数据选择领域的进展。

Feb, 2024

研究提议：“高质量数据是否足够？

本文研究如何选择和创建高质量基准数据的子集以及对于模型的有效学习是否真正需要大型数据集，并计划研究数据修剪和数据创建范式以生成高质量数据。

Mar, 2022

通过贝叶斯数据选择实现模型训练加速

使用轻量级贝叶斯处理和基于大规模预训练模型的即用型零样本预测器，解决了现实场景中标记错误、重复或有偏差的数据在训练中的问题，提高了模型的训练效率。

Aug, 2023

抛弃糟粕保留精华：关于大规模语言模型微调中的数据选择的思考

大规模语言模型的数据选择旨在从给定的候选数据集中选择一个高质量的子集，以训练一个挂起的微调模型进而得到一个选择性增强模型，以提高模型性能并加快训练进程。通过深入的分析和综述，我们发现具有数据特定和模型特定质量标签的更具针对性的方法具有更高的效率，但在设计选择算法时应避免引入额外的噪声信息，并总结了数据选择的趋势并强调了未来研究所面临的短期和长期挑战。

Jun, 2024

通过重要性重采样进行语言模型数据选择

本文介绍了一种基于重要性重采样的数据选择算法，该算法可以在减少特征空间的基础上从大型无标签数据集中选择与目标分布匹配的样本子集。在训练通用领域（例如维基百科）和特定领域的语言模型时，该算法能够显着提高模型的性能。

Feb, 2023

使用 Datamodels（D3M）进行数据去偏：通过数据选择提高子群体鲁棒性

使用 Data Debiasing with Datamodels (D3M) 方法，在不需要训练组注释或额外的超参数调整的情况下，通过隔离和移除导致模型在少数群体上失败的特定训练样本，可以高效地训练去偏置分类器。

Jun, 2024

一种数据中心的框架，用于改进特定领域的机器阅读理解数据集

本文提出了一个旨在增强原始数据集数据质量的框架，并应用于四个生物医学数据集，使用回译技术提高数据集质量，在 BioASQ 数据集上表现出相对提高了 33%/40% 的检索 / 阅读器模型的微调效果。

Apr, 2023

数据模型：从训练数据中预测预测

提出一种数据建模框架，可以分析训练数据集对模型行为的影响，通过建立参数化函数，预测数据子集对于训练后的模型的影响并导出各种机器学习应用。

Feb, 2022

提高对话管理：质量数据集对模型的影响

通过研究 Multiwoz 2.1 和 SGD 数据集中的错误，本文证明了任务导向的对话系统中数据集错误是导致对话管理不达到最佳性能的主要原因，并提出了使用合成对话生成器来控制错误量和类型的方法。

Oct, 2023

MoDS：面向模型的指令调优数据选择

模型导向的数据选择方法 (MoDS) 基于质量、覆盖度和必要性三个方面的考虑，从原始指令数据集中选择高质量的子集进行模型微调，以获得性能优于完整指令数据集的结果。

Nov, 2023