无监督预训练的泛化能力研究
本文提出 Bi-tuning,一种细调深度学习模型的新方法,能同时利用监督和无监督预训练,并综合使用有标签数据的判别信息和无标签数据的数据结构,相较于现有策略,在精度上有了长足的提升。
Nov, 2020
这篇论文研究了大型语言模型(LLMs)和它们经过微调后的变体之间的差异,尤其关注微调对 LLMs 内在泛化能力的影响。通过在不同任务和数据集上进行广泛的实验,研究发现微调应用于生成任务和分类任务的模型在泛化到不同领域和任务时表现出不同的行为,并且在生成任务的微调中整合上下文学习策略可以增强模型的泛化能力。通过这一系统性研究,旨在为 LLMs 的微调实践做出有价值的贡献。
Mar, 2024
探讨结构化输出的预测问题,研究在输出有效性限制约束情境下的预测,推荐使用先进行预训练再进行 fine-tuning 的方法,可以通过控制预测器的复杂性以提高其在未知数据上的表现。
Jun, 2020
微调预训练语言模型在广泛的任务上展现出有希望的结果,但面对新任务时,它们更依赖于通用的预训练表示还是开发全新的任务特定解决方案?我们在一个与模型相关且来自神经科学文献的情境依赖决策任务上微调了 GPT-2,并将其性能和内部机制与从头开始训练的 GPT-2 版本进行了比较。我们的结果显示,微调模型在较后层次上严重依赖于预训练表示,而从头开始训练的模型则开发了不同、更具任务特定性的机制。这些发现突出了预训练在任务泛化中的优势和限制,并强调了进一步研究语言模型微调的任务特定机制的必要性。
Jun, 2024
这篇论文研究了预训练模型下的无监督预训练与监督预训练的可迁移性差异,并提出了利用多层感知器解决可迁移性问题的方法,实验证明,在监督预训练模型中加入多层感知器可使模型的可迁移性显著提高,使得监督学习下的预训练能够与无监督学习相媲美或者更优秀。
Dec, 2021
本文研究自然语言表示、模型压缩技术、预训练、微调和知识蒸馏等方面的互动关系,提出了一种简单而有效的预训练蒸馏算法,分析了模型大小和无标记任务数据属性对其的影响。
Aug, 2019
该论文提出了一种名为 LOOK 的基于留一法 K 最近邻(Leave-One-Out K-Nearest-Neighbor)的监督预训练方法,它通过让每个图像只与其 k 个最近邻居共享其类标签,从而允许每个类展现出多模式分布,从而更好地转移至下游任务,并在多个下游任务上的实验研究表明,LOOK 优于其他监督和自监督预训练方法。
Oct, 2021
通过概念微调(Concept-Tuning)方法,可以改善预训练模型的特征表示,减少罕见特征和虚假关联特征的负面影响,进而提高细调方法在各种数据集上的表现。
Nov, 2023
预训练和微调对于数据拟合不佳的模型能够帮助优化过程,但对于拟合较好的模型则没有这种效果;当给予足够的训练时间时,预训练不会表现出正则化的效果;预训练只能加速收敛,前提是模型具备足够的拟合能力;增加更多的预训练数据不能改善泛化能力,但可以增强预训练在原始数据量方面的优势,比如更快的收敛速度;预训练任务和模型结构两者都对于该范式在给定数据集上的效果起到作用,但模型结构的作用更加重要。
Sep, 2023
引入一种新的预训练程序,利用有监督对比学习来区分每个预训练数据集中的特征,进而通过将目标数据与预训练数据集的学习动态更加紧密地对齐,以提高目标数据的准确预测。
Nov, 2023