不要掩盖学习率：预训练变压器的跨模态传递

ICMLJul, 2021

Don't Sweep your Learning Rate under the Rug: A Closer Look at Cross-modal Transfer of Pretrained Transformers

Danielle Rothermel, Margaret Li, Tim Rocktäschel, Jakob Foerster

TL;DR通过自监督预训练大规模 Transformer 模型，并在语料库上微调，已经在许多自然语言处理任务中实现了最先进的结果，但在模型的超参数调整方面仍需要小心谨慎。

Abstract

self-supervised pre-training of large-scale transformer models on text corpora followed by finetuning has achieved state-of-the-art on a number of →

发现论文，激发创造

本研究探究了预先在自然语言处理上训练的 transformer 模型是否可以在最小化调整下进行泛化以适用于其他模式，并研究其在数字计算、视觉和蛋白质折叠预测等序列分类任务上的优化性能。结果表明，预训练模型对非语言下游任务的性能和计算效率都有积极作用。

Mar, 2021

通过使用预先在自然语言或图像数据上进行训练的 Transformer 模型，并通过最小修改进行微调，我们在时序预测任务上评估了 Frozen Pretrained Transformer (FPT) 的效果，并发现其性能在跨模态时序预测任务中可以与同模态微调相媲美甚至处于最前沿状态。

Feb, 2023

本文研究了如何有效地在联邦学习中使用预训练 Transformer 模型及其微调方法，实验结果表明，微调模型的偏置项是最好的策略，并且使用视觉 - 语言模型会比纯视觉模型的性能更好，且能提高模型精度并减少过拟合问题。

Nov, 2022

通过元学习，本文提出了一种基于梯度的高效算法，可以优化预训练超参数，改善了在蛋白质相互作用图和心电图数据上的预测性能。

Nov, 2021

本文提出一种基于 Bregman 的 Trust-Region 优化的平滑正则化框架，用于更加有效地对预训练语言模型进行微调，避免过拟合和知识遗忘，通过实验表明在多项 NLP benchmarks 上达到了最新的性能水平。

Nov, 2019

提出了三种新方法：依赖输入的提示调整、固定读者和递归 LM，这些方法广泛改进了当前的固定模型方法。虽然每种方法的计算成本比现有的固定模型方法高，但仍然可以忽略不计，而且这些方法证明了固定模型具有未开发的潜力，而精细调整往往是不必要的。

Apr, 2022

本文探讨评估 Transformer 模型微调来进行个性化编码生成，考虑三种方法：（i）自定义微调，（ii）轻量级微调，（iii）前缀微调，比较它们的效果和成本效益。

Aug, 2022

本文探讨了自监督学习在人类活动识别领域解决标记数据不足的问题，通过学习预测任务，可以得到有用的表示用于分类，并发现不冻结表示可以在预测任务中实现显著性能提升并且效果与标记数据量成反比。

Jul, 2023

本文通过引入一种基于文本监督的微调方法（TeS），旨在缓解预训练模型中的 bias 问题，并在 11 个下游任务上进行了验证。实验结果表明，该方法能够显著提高微调的效果。

Apr, 2023

通过使用 BERT 来验证，文章研究了当使用大规模未标注文本语料库进行预训练的语言模型进行轻量级有监督微调以学习任务时，微调只在参数空间中引入了轻微的差异，可以通过对预训练参数的某些层的特定数量的条目设置为零来达到对巨大语言模型的精细调节，从而节省了任务特定参数存储和计算成本的开销。

Apr, 2020