使用预训练 Transformer 作为通用计算引擎

Mar, 2021

使用预训练 Transformer 作为通用计算引擎

Pretrained Transformers as Universal Computation Engines

Kevin Lu, Aditya Grover, Pieter Abbeel, Igor Mordatch

TL;DR本研究探究了预先在自然语言处理上训练的 transformer 模型是否可以在最小化调整下进行泛化以适用于其他模式，并研究其在数字计算、视觉和蛋白质折叠预测等序列分类任务上的优化性能。结果表明，预训练模型对非语言下游任务的性能和计算效率都有积极作用。

Abstract

We investigate the capability of a transformer pretrained on natural language to generalize to other modalities with minimal finetuning -- in particular, without finetuning of the self-attention and feedforward l

transformer pretraining sequence classification natural language non-language tasks

发现论文，激发创造

预训练语言模型用于电力时间序列预测

通过使用预先在自然语言或图像数据上进行训练的 Transformer 模型，并通过最小修改进行微调，我们在时序预测任务上评估了 Frozen Pretrained Transformer (FPT) 的效果，并发现其性能在跨模态时序预测任务中可以与同模态微调相媲美甚至处于最前沿状态。

Feb, 2023

不要掩盖学习率：预训练变压器的跨模态传递

通过自监督预训练大规模 Transformer 模型，并在语料库上微调，已经在许多自然语言处理任务中实现了最先进的结果，但在模型的超参数调整方面仍需要小心谨慎。

Jul, 2021

预训练语言变换器是通用图像分类器

本文通过使用预训练的转换器模型提出了一种面部图像的分类方法，包括包括二进制分类、使用加密图像进行分类等，并探讨了此方法对于隐私保护机器学习的启示。

Jan, 2022

通用时间序列分析：利用预训练语言模型和特别设计的适配器

利用预训练模型并引入自定义适配器优化预训练的 transformer 模型用于时间序列分析，在多个任务中取得了卓越的性能，尤其是通过适配器微调进一步提升了性能，超过了专门用于特定任务的模型。

Nov, 2023

研究预训练语言模型在跨领域数据集上，更接近通用人工智能的一步

本文研究了预训练语言模型在领域任务泛化能力方面的能力，发现预训练模型在计算机视觉、蛋白质折叠预测等任务中表现出色，优于从头开始训练模型，并指出预训练嵌入在输入层非常重要。

Jun, 2023

FedTune：使用预训练 Transformer 进行高效联邦微调的深入探究

本文研究了如何有效地在联邦学习中使用预训练 Transformer 模型及其微调方法，实验结果表明，微调模型的偏置项是最好的策略，并且使用视觉 - 语言模型会比纯视觉模型的性能更好，且能提高模型精度并减少过拟合问题。

Nov, 2022

自然语言处理中基于 Transformer 的预训练模型综述

本论文对基于 Transformer 的预训练语言模型进行了全面调查，并介绍了自监督学习、预训练方法、嵌入、下游适应方法等核心概念以及 T-PTLMs 的新分类法，提供了各种有用的库以及未来研究方向，该论文可作为学习核心概念和了解 T-PTLMs 近期进展的参考资料。

Aug, 2021

通过主动学习对 BERT 进行微调，以提高低资源自然语言理解能力

本文探讨了在数据点少于 1,000 的低资源环境下利用基于预训练 Transformer 的语言模型的微调方法，通过利用基于池的主动学习加速训练同时保持标记新数据的成本不变。实验结果表明，通过最大化从未标记数据池中查询的模型的近似知识收益，可提高模型性能。最后，我们演示并分析了语言模型冻结层的好处，以减少可训练参数的数量，使其更适用于低资源环境。

Dec, 2020

语言的黑暗面：预训练变形器在 DarkNet 中的应用

通过对 DarkNet 语料库上的分类任务探索，研究比较了不同预训练自然语言理解模型的表现，结果发现句法和词汇神经网络在适应新颖语义时优于预训练 Transformer 模型。

Jan, 2022

利用预训练模型进行故障分析三元组生成

本文研究了利用 Transformer 模型的注意机制为下游任务生成半导体行业中的故障分析三元组（FATs）。发现使用 1.5B 参数进行训练的 GPT2 模型在 ROUGE 上的表现显著优于 BERT、BART 和 GPT3 等其他 Transformer 模型，在人类评估和结构化 FAT 数据方面引入了 Levenshstein 顺序评估度量（LESE）。

Oct, 2022