该论文综述了大型语言模型、数据选择方法、经验证据、大规模数据选择研究和未来研究方向的相关领域,旨在为新老研究人员提供入门点,加速数据选择领域的进展。
Feb, 2024
本文研究如何选择和创建高质量基准数据的子集以及对于模型的有效学习是否真正需要大型数据集,并计划研究数据修剪和数据创建范式以生成高质量数据。
Mar, 2022
使用轻量级贝叶斯处理和基于大规模预训练模型的即用型零样本预测器,解决了现实场景中标记错误、重复或有偏差的数据在训练中的问题,提高了模型的训练效率。
Aug, 2023
大规模语言模型的数据选择旨在从给定的候选数据集中选择一个高质量的子集,以训练一个挂起的微调模型进而得到一个选择性增强模型,以提高模型性能并加快训练进程。通过深入的分析和综述,我们发现具有数据特定和模型特定质量标签的更具针对性的方法具有更高的效率,但在设计选择算法时应避免引入额外的噪声信息,并总结了数据选择的趋势并强调了未来研究所面临的短期和长期挑战。
Jun, 2024
本文介绍了一种基于重要性重采样的数据选择算法,该算法可以在减少特征空间的基础上从大型无标签数据集中选择与目标分布匹配的样本子集。在训练通用领域(例如维基百科)和特定领域的语言模型时,该算法能够显着提高模型的性能。
Feb, 2023
使用 Data Debiasing with Datamodels (D3M) 方法,在不需要训练组注释或额外的超参数调整的情况下,通过隔离和移除导致模型在少数群体上失败的特定训练样本,可以高效地训练去偏置分类器。
本文提出了一个旨在增强原始数据集数据质量的框架,并应用于四个生物医学数据集,使用回译技术提高数据集质量,在 BioASQ 数据集上表现出相对提高了 33%/40% 的检索 / 阅读器模型的微调效果。
Apr, 2023
提出一种数据建模框架, 可以分析训练数据集对模型行为的影响,通过建立参数化函数,预测数据子集对于训练后的模型的影响并导出各种机器学习应用。
Feb, 2022
通过研究 Multiwoz 2.1 和 SGD 数据集中的错误,本文证明了任务导向的对话系统中数据集错误是导致对话管理不达到最佳性能的主要原因,并提出了使用合成对话生成器来控制错误量和类型的方法。
Oct, 2023
模型导向的数据选择方法 (MoDS) 基于质量、覆盖度和必要性三个方面的考虑,从原始指令数据集中选择高质量的子集进行模型微调,以获得性能优于完整指令数据集的结果。
Nov, 2023