通过简单的合成任务洞悉预训练
研究人员对自监督预训练算法在视觉领域中的实用性进行了评估,发现可用标签数量的增加以及下游任务和训练数据属性的变化都会影响其效用,而线性评估与精调性能之间没有相关性。
Mar, 2020
本文研究预训练自然语言处理模型在下游任务中使用的训练样本数量与性能之间的关系,研究发现,随着训练样本的数量达到百万级别,使用BERT预训练模型和从头开始训练的LSTM模型之间的准确度差距缩小到不到1%,暗示随着监督数据规模的增大,MLM模型可能会达到递减的收益点。
Jun, 2020
该论文提出了一种名为LOOK的基于留一法K最近邻(Leave-One-Out K-Nearest-Neighbor)的监督预训练方法,它通过让每个图像只与其k个最近邻居共享其类标签,从而允许每个类展现出多模式分布,从而更好地转移至下游任务,并在多个下游任务上的实验研究表明,LOOK优于其他监督和自监督预训练方法。
Oct, 2021
本研究旨在研究利用基于图形模拟器生成的合成数据进行预训练,并使用Task2Sim将下游任务表示映射到最佳模拟参数,以生成最佳合成预训练数据。研究发现优化模拟参数得到的下游性能取决于任务类型,任务自适应的预训练数据比一般预训练方法表现更好,并且在训练数据受限的情况下可行。
Nov, 2021
通过调查现有的方法及其在预训练模型上的表现,我们观察到Generic Pre-training方法隐含地减轻了多任务学习中遗忘现象的影响,因为预训练权重看起来通过导致更宽的极小值来缓解遗忘现象,基于这个发现,我们建议联合当前任务的损失和损失基底锐度的优化方法,以在顺序微调期间显式地鼓励更宽的基底,在多种设置中实现与最新技术的性能相当的顺序连续学习,而无需保留随任务数缩放的内存。
Dec, 2021
通过融合多个经过微调的模型,平均模型参数来达到更好的基础模型的目的,并且发现融合模型效果常常优于预训练模型,同时融合比互训模型更鲁棒且不受目标任务依赖。
Apr, 2022
本文介绍了一个大规模的自我训练研究,其中使用相同的(下游)训练数据进行预训练和微调,并且观察到自我预训练可以与标准预训练相媲美,这表明在许多情况下,预训练性能增益主要受预训练目标本身的驱动,而不一定是庞大数据集的影响。
Sep, 2022
本文提出一种通用的预训练-微调流水线——Self-supervised Multi-task pretrAining with contRol Transformer(SMART),通过设计一种控制中心的自监督微调目标,结合控制变压器(CT)实现了对短期控制和长期控制相关的信息的捕捉,在DeepMind控制套件上的广泛实验表明SMART极大地提高了在不同的学习场景下(包括模仿学习和强化学习)的学习效率和泛化能力。
Jan, 2023
通过研究预训练数据集中任务多样性的不同,探究在不同任务多样性阈值下,在新的情境下可以有多大能力。结果表明,如果预训练的数据具有足够的多样性,那么可以在新任务中解决问题,但是这种能力依赖于违背Bayes最优估计并将Gauss先验分布中所有任务的能力。
Jun, 2023
在这篇论文中,我们研究了通过预训练线性参数化的单层线性注意力模型进行具有高斯先验的线性回归的上下文学习(ICL),在一个最简单的设置中进行ICL研究。我们建立了注意力模型预训练的统计任务复杂性界限,证明了有效的预训练只需要少量独立任务。此外,我们证明了预训练模型与贝叶斯最优算法高度匹配,即在固定上下文长度下,在未见任务上实现几乎贝叶斯最优风险。这些理论发现补充了先前的实验研究,并阐明了ICL的统计基础。
Oct, 2023