- 反思有监督微调的数据选择
通过选择具有长回应的实例,我们重新考虑了监督微调的数据选择直觉,提出了关于反映人类交互而非数据质量或多样性的关键示范的重要性,这种简单的启发式方法暗含了人性化对话的一个关键方面。
- 具有噪声结构的图的主动学习
我们提出了一个名为 GALClean 的主动学习框架,它采用迭代方法同时进行数据选择和图纯化,具有理论上的 EM 算法支持,并且在各种类型和级别的噪声图上表现出有效性和健壮性。
- 方差对齐得分:一种简单但难以超越的多模态对比学习数据选择方法
通过提出一种简单而理论上有根据的指标 Variance Alignment Score (VAS),本研究解决了大规模视觉语言模型预训练中数据选择的核心问题,并设计了一种最大化 VAS 的新数据选择方法,实验证明 VAS 和 CLIP 分数 - VeCAF: 基于 VLM 的协同主动微调与训练目标感知
PVM 领域的挑战与新方法 VeCAF:通过聚合主动微调和语言嵌入增强数据选择以提高图像分类的效率和性能。
- 对齐中良好数据的特点研究:自动数据选择在指令调优中的综合研究
深入研究自动数据选择策略以提高模型对齐,介绍了对数据进行测量的现有方法和新技术,提出了基于测量的简单数据样本选择策略,并通过使用该策略自动选择的数据样本,从 LLaMA 和 Mistral 模型微调了一系列模型(deita),结果显示,de - 大型语言模型的一次学习作为指导数据矿工
利用奇点法选择高质量的训练数据进行指令调整以优化大型语言模型的性能。在两个基准测试中,采用奇点法选择的前 1% 的样本比传统方法使用完整数据集要表现更好,强调了优先考虑质量的数据选择范例可以更高效地对齐大型语言模型和人类。
- MoDS:面向模型的指令调优数据选择
模型导向的数据选择方法 (MoDS) 基于质量、覆盖度和必要性三个方面的考虑,从原始指令数据集中选择高质量的子集进行模型微调,以获得性能优于完整指令数据集的结果。
- 数据到文本的双语生成
使用 pyrealb 从单一数据源生成英文和法文的两个平行文本,共享数据选择和文本组织过程,只有语言相关的词汇和短语选择是不同的过程,确保两种语言中传达的信息完全相同,避免翻译中的信息丢失,尤其适用于严格且同时需要双语的情况。
- 更好的更少:关于预训练图神经网络的数据主动观点
我们提出了一种数据主动的图预训练(APT)框架,通过选择最具代表性和指导性的数据点来增强预训练,该框架包括图选择器和预训练模型,并通过两者的整合和交互以渐进迭代的方式进行图预训练,结果表明该方法能够通过较少的训练数据获得高效的预训练模型和更 - LoBaSS:衡量监督微调数据的可学习性
利用数据的可学习性作为选择模型数据的主要标准,研究通过引入损失为基础的 SFT 数据选择方法(LoBaSS)来确保数据选择与模型能力的匹配,从而提高对话和数学领域的模型能力。LoBaSS 方法在仅使用总训练数据的 6% 的情况下,超过全数据 - 弱监督下数据选择的统计理论研究
给定一个大小为 $N$ 的样本,对于统计估计或学习,通常有必要选择一个更小的大小 $n<N$ 的子样本。我们假设给定 $N$ 个未标记的样本和一个能够比随机猜测更好地预测标签 $y_i$ 的 “替代模型”。我们的目标是选择一个子样本集,用于 - 用于健康老龄化应用的联邦学习早期辍学预测
社会关怀应用、用户退出、机器学习算法、联合机器学习方法和数据选择对用户退出预测模型的性能有显著影响。
- InstructionGPT-4:Fine-Tuning MiniGPT-4 的 200 指令范式
通过在图像文本对上进行预训练和在受监督的视觉语言指导数据上进行微调的两阶段训练,多模态大型语言模型实现了其遵循指令的能力。本文介绍了 InstructionGPT-4,该模型在仅包括 200 个示例的小数据集上进行了微调,相当于 MiniG - D4: 通过文档去重和多样化提升 LLM 预训练
通过预先训练模型的嵌入,精心选择数据可加速训练并提高自然语言处理任务的下游准确性,进而对语言模型的预训练方法和性能产生质疑,并展示了在超大规模模型上持续改进模型的可能路径。
- 通过贝叶斯数据选择实现模型训练加速
使用轻量级贝叶斯处理和基于大规模预训练模型的即用型零样本预测器,解决了现实场景中标记错误、重复或有偏差的数据在训练中的问题,提高了模型的训练效率。
- 克服自信心以实现主动学习
该研究提出了两种新颖的方法来解决主动学习场景中出现的过度自信问题,一种是名为 Cross-Mix-and-Mix(CMaM)的数据扩增策略,旨在通过扩展有限的训练分布来校准模型;另一种是名为 Ranked Margin Sampling(R - AlpaGasus: 用更少的数据训练更好的羊驼
本研究提出了一种数据选取策略,利用一个强大的大型语言模型(ChatGPT)自动地识别和删除低质量的数据,从而过滤出高质量的数据并训练指令跟随模型。通过使用该策略,作者利用仅有的 9k 条高质量数据训练出了一个新的大型语言模型 AlpaGas - 通过最优输运实现性能扩展:从部分公开的来源中选择数据
提出了一个名为 <projektor> 的框架,通过采用两阶段的性能推断过程,基于现有的样本数据来源,预测模型表现并支持数据选择决策。通过在多个应用程序上的评估表明,<projektor> 在性能推断的准确性和性能预测的构建成本方面显着提高 - GIO:梯度信息优化的训练数据集选择
Gradient Information Optimization(GIO)是一种高度可扩展的、任务不可知的数据选择方法,可在仅需要一小组代表目标分布的(未标记的)示例的情况下,训练具有优秀结果的模型。
- 众包标注中的手写文本识别
本文研究了多种训练模型的方式来识别手写文本,特别是在存在多个不完整或有噪声的转录版本时,考虑了不同的训练配置和数据选择方法,并在法国贝尔福市的城市登记册上进行了实验,结果表明,计算共识转录或基于多个转录进行训练是有希望的替代方案,但基于注释