通过联合示例选择进一步加速多模态学习

Jun, 2024

通过联合示例选择进一步加速多模态学习

Data curation via joint example selection further accelerates multimodal learning

Talfan Evans, Nikhil Parthasarathy, Hamza Merzic, Olivier J. Henaff

TL;DR数据策展是大规模预训练的重要组成部分。本文中，我们证明了联合选择数据批次比独立选择示例更有效，并且多模态对比目标揭示了数据之间的依赖关系，从而自然地产生衡量批次联合可学习性的标准。我们推导出一种简单易行的选择这类批次的算法，通过它可以明显提高训练速度，超过目前技术水平的模型，在少达 13 倍的迭代次数和 10 倍的计算量下。JEST 的性能关键是将数据选择过程引导到小型、精心策展的数据集的分布上，通过预训练参考模型，将数据策展水平暴露为神经缩放定律的新维度。

Abstract

data curation is an essential component of large-scale pretraining. In this work, we demonstrate that jointly selecting batches of data is more effective for learning than selecting examples independently. Multimodal contrastive objectives expose the dependencies between data and thus

data curation joint example selection multimodal contrastive learning pretrained reference models neural scaling laws

发现论文，激发创造

通过贝叶斯数据选择实现模型训练加速

使用轻量级贝叶斯处理和基于大规模预训练模型的即用型零样本预测器，解决了现实场景中标记错误、重复或有偏差的数据在训练中的问题，提高了模型的训练效率。

Aug, 2023

联合自监督和有监督对比学习用于多模态 MRI 数据：走向预测异常神经发育

利用多模态成像、深度学习和对比学习方法，从多模态 MRI 数据中学习鲁棒的潜在特征表示，将异构特征投影到共享空间，整合不同模态和类似主体间的互补和类似信息，进而提高了异常神经发育的预测能力和计算机辅助诊断的功效。

Dec, 2023

谨慎的数据筛选稳定上下文学习

本文提出两种方法优化 ICL 在训练过程中因训练样本选择不当而导致的性能不稳定问题：CondAcc 和 Datamodels。这两种方法均通过对训练样本进行评分，然后选择得分最高的样本作为训练子集。在五个任务和两个 LLMs 上进行的实验中，CondAcc 和 Datamodels 的性能分别比从整个训练集中随机抽样高出 7.7％和 6.3％。分析表明，选出的稳定子集样本与平均样本的差异不大，并不是序列长度和 perplexity 的异常值。

Dec, 2022

适用于少样本细粒度识别的跨模态幻象技术

提出一种基于深度学习的多模态方法，通过有意义的联合嵌入来弥合模型训练中数据不足的信息差距，并通过跨模态数据幻觉框架提出了一个区分性文本条件生成对抗网络，改进了基于 CUB 数据集的一、二、五次学习的模型准确性。

Jun, 2018

对比建模：一种高效的多模态生成模型框架

通过对比学习，训练多模式生成模型不仅关注多模式信息的共性，还关注相关和非相关的多模式数据之间的区别，使得可以更加有效地利用未标记的、不成对的多模态数据。

Jul, 2020

多模态分类的平衡主动学习

本文提出了三个设计均衡的多模式主动学习策略的指导方针，并通过调节模态间的支配度来调节梯度嵌入，从而实现更公平的数据选择，本方法在多种多模态分类任务上表现优异，实现了更平衡的多模态学习。

Jun, 2023

不良学生成就卓越教师：主动学习加速大规模视觉理解

我们提出了一种加速大规模预训练的方法，通过在线数据选择策略。我们首次证明了基于模型的数据选择可以减少达到采用均匀采样训练的模型性能所需的总计算量。这种 “计算正向” 模式的关键洞察是，小型模型可以很好地代表大型模型的损失，因此可以大大降低用于评分数据的计算量，同时为学习者提供了效率提升。这些数据选择策略在数据集和任务上也具有很强的普适性，为重新使用现成的模型和训练序列来分摊数据评分开销开辟了途径。我们的方法 ClassAct 和 ActiveCLIP 在 JFT 上训练视觉分类器和 ALIGN 上训练多模态模型时，分别需要少 46％和 51％的训练更新和少 25％的总计算量。最后，我们的范式无缝适用于大规模图像 - 文本数据集的策划，在多个多模态迁移任务和预训练制度上实现了新的最优效果。

Dec, 2023

少样本学习：计算机视觉统一数据子集选择与主动学习框架

本文介绍一种使用多样性模型的训练数据子集选择方法，该方法可提高计算机视觉任务的准确性并减少标注成本。

Jan, 2019

多样化小批量主动学习

该研究致力于解决减少有标签的训练数据来训练监督式分类模型的问题，通过使用 Active Learning 和 K-means 聚类算法，采用 mini-batch Active Learning 方法来快速有效地选取对模型具有信息量和多样性的训练样例，以达到相当或更好的性能表现。

Jan, 2019

神经机器翻译数据选择课程

本文通过两阶段课程训练框架及对六种语言对的全面实验，证明了基于预训练方法和在线评分的确定性评分选择数据子集，对神经机器翻译模型进行微调训练的课程训练策略会显著提高 BLEU 质量（高达 2.2 个 BLEU），并且更快地收敛（更新次数减少了约 50%）。

Mar, 2022