监督预训练中类内 / 类间差异的权衡

May, 2023

监督预训练中类内 / 类间差异的权衡

On the Trade-off of Intra-/Inter-class Diversity for Supervised Pre-training

Jieyu Zhang, Bohan Wang, Zhengyu Hu, Pang Wei Koh, Alexander Ratner

TL;DR研究了监督式预训练数据集中类内和类间多样性的权衡对模型性能的影响，并理论上证明了性能单调取决于多样性，实验应用推断出预训练数据集最佳类别 - 样本比率对模型下游任务最有效，以 ImageNet 为例，该方法模型效果提升了约 2 个点。

Abstract

pre-training datasets are critical for building state-of-the-art machine learning models, motivating rigorous study on their impact on downstream tasks. In this work, we study the impact of the trade-off between

pre-training datasets machine learning models intra-class diversity inter-class diversity downstream tasks

发现论文，激发创造

关于自监督学习的预训练数据多样性

增加训练数据集的多样性可以提高自我监督学习的性能，但前提是下游数据的分布差异很小。即使通过网络爬虫或扩散生成的方法等方式实现了非常庞大的预训练数据多样性，分布的变化仍然是一个挑战。

Mar, 2024

关于预训练数据多样性与微调鲁棒性的关联

预训练对深度学习中的模型性能具有广泛应用，我们的工作旨在理解该训练策略对下游模型的泛化特性的影响。我们发现，影响下游有效鲁棒性的主要因素是数据数量，而其他因素的影响有限。

Jul, 2023

重新思考有监督的预训练，以实现更好的下游转移

该论文提出了一种名为 LOOK 的基于留一法 K 最近邻（Leave-One-Out K-Nearest-Neighbor）的监督预训练方法，它通过让每个图像只与其 k 个最近邻居共享其类标签，从而允许每个类展现出多模式分布，从而更好地转移至下游任务，并在多个下游任务上的实验研究表明，LOOK 优于其他监督和自监督预训练方法。

Oct, 2021

训练数据代价高时的学习：类分布对树归纳的影响

针对实际应用中的大规模归纳学习问题，针对有限的训练数据，本文基于 26 个数据集的研究结果，分析了不同的类别分布对于分类树所识别模型性能的影响，在此基础上提出了一种基于预算的递进采样算法为分类树的分类性能提供较优的训练数据集。

Jun, 2011

结构多样采样：实现高效训练和全面评估

本研究提出了一种结构多样性的训练方法，可以改善 NLP 模型组合性的普适性问题，并发现结构多样化训练可提高样本效率和测试统计数据的多样性。

Mar, 2022

类别不平衡下神经网络训练简化

现实世界的数据集通常存在严重的类别不平衡问题，通过调整标准深度学习流程的现有组件，如批次大小、数据增强、优化器和标签平滑等，可以实现无需专门的类别不平衡方法即可达到最先进的性能，并提供了关于训练类别不平衡的关键建议和考虑因素，以及关于为什么类别不平衡方法成功或失败的理解。

Dec, 2023

对比度视觉表征学习何时有效？

本文研究了自监督学习在四个不同的大规模数据集上的对比学习方法，通过数据量、数据领域、数据质量和任务粒度，得出了有关成功自监督学习所需条件的新见解，其中包括：(i) 除 500k 张图像外，额外的预训练数据的收益有限；(ii) 添加来自另一个领域的预训练图像不会产生更通用的表示。(iii) 比较学习在细粒度的视觉分类任务中远远落后于监督学习。

May, 2021

团结共识，共著失败！基于同时在 75 个数据集上进行预训练的时间序列表示学习

自我监督对比式预训练方法和插值方法在多个时间序列数据集上的学习表明，可以从多个时间序列数据集中学习，对于低数据情况下的微调具有优势。

Feb, 2024

对比学习中的不确定性：下游性能可预测性研究

本文研究了基于对比学习的深度学习模型的嵌入向量的不确定性评估问题，并提出了一种方法，直接在嵌入空间中估计数据分布并考虑其局部一致性，结果表明该方法可以有效预测嵌入向量的下游性能。

Jul, 2022

局部独立预测模型集合

本文通过介绍新的多样性度量方法介绍了一种新的模型集成方法，该方法特别适用于数据限制和协变量转移，可显著提高模型的多样性和泛化性能。

Nov, 2019