预训练的卷积神经网络是否比预训练的 Transformer 模型更好？

ACLMay, 2021

预训练的卷积神经网络是否比预训练的 Transformer 模型更好？

Are Pre-trained Convolutions Better than Pre-trained Transformers?

Yi Tay, Mostafa Dehghani, Jai Gupta, Dara Bahri, Vamsi Aribandi...

TL;DR本文对使用 CNN 和 Transformers 用于预训练语言模型的竞争性进行了研究，并在 8 个数据集 / 任务上进行了广泛的实验，发现 CNN 的预训练模型在某些情况下具有竞争力，并且在某些场景下胜过它们的 Transformers 对应物。总的来说，本文的结果表明，将预训练和架构进步混淆是片面的，应该将两方面的进步分别考虑。我们相信我们的研究为替代架构带来了足够的乐观情绪。

Abstract

In the era of pre-trained language models, transformers are the de facto choice of model architectures. While recent research has shown promise in entirely convolutional, or CNN, architectures, they have not been

pre-trained language models transformers convolutional architectures pre-train-fine-tune paradigm language model

发现论文，激发创造

Transformer 模型是否比卷积神经网络更具鲁棒性？

本文首次提供公平而深入的 Transformer 和 CNNs 的对比，重点关注强度的评估，并表明了 CNNs 可以像 Transformer 一样有效地抵御对抗攻击。同时，我们发现强大的泛化能力主要得益于 Transformer 的自我关注式结构，而不是其他的训练设置。

Nov, 2021

卷积神经网络是否可以比 Transformer 更强大？

本文通过仔细研究 Transformers 的设计，发现在提高稳健性方面，使用卷积神经网络（CNNs）设计的架构同样有效。具体来说，我们的发现分别是：a）分块输入图像，b）增大卷积核尺寸，以及 c）减少激活层和归一化层的设计。我们的实验结果表明这三种设计的结合可以构建出实现简单，无需 attention-like 操作的卷积神经网络架构，其稳健性与甚至优于 Transformers。

Jun, 2022

语言的黑暗面：预训练变形器在 DarkNet 中的应用

通过对 DarkNet 语料库上的分类任务探索，研究比较了不同预训练自然语言理解模型的表现，结果发现句法和词汇神经网络在适应新颖语义时优于预训练 Transformer 模型。

Jan, 2022

研究预训练语言模型在跨领域数据集上，更接近通用人工智能的一步

本文研究了预训练语言模型在领域任务泛化能力方面的能力，发现预训练模型在计算机视觉、蛋白质折叠预测等任务中表现出色，优于从头开始训练模型，并指出预训练嵌入在输入层非常重要。

Jun, 2023

使用预训练 Transformer 作为通用计算引擎

本研究探究了预先在自然语言处理上训练的 transformer 模型是否可以在最小化调整下进行泛化以适用于其他模式，并研究其在数字计算、视觉和蛋白质折叠预测等序列分类任务上的优化性能。结果表明，预训练模型对非语言下游任务的性能和计算效率都有积极作用。

Mar, 2021

Conformer: 卷积增强变压器（Convolution-augmented Transformer）用于语音识别

本文提出了一种名为 Conformer 的语音识别（Automatic Speech Recognition）模型，结合了 Transformer 和卷积神经网络 (Convolution neural network) 的优点，在参数更少的情况下实现对于语音序列的局部和全局依赖的建模，并在 LibriSpeech benchmark 测试中取得了 2.1%/4.3%（未使用语言模型）和 1.9%/3.9%（使用外部语言模型）的字错率（Word Error Rate），表现超越了之前的基于 Transformer 和 CNN 的模型。

May, 2020

网络结构之战：CNN、Transformer 和 MLP 的实证研究

本文比较了卷积神经网络、Transformer、multi-layer perceptron 等算法的优劣，并在 SPACH 框架下进行了实验，结果显示，使用卷积和 Transformer 模块的混合模型已经能够实现与其他模型相同的准确率。

Aug, 2021

视觉语言变换器：一项调研

视觉语言任务中，基于预训练的变压器架构在视觉语言建模方面表现出色，为视觉和语言结合的任务带来了类似的进展。

Jul, 2023

预训练图循环网络用于语言表示

本研究提出了一种基于图循环网络的语言模型预训练方法，其在性能、效率和生成多样性方面优于基于注意力机制的 Transformer，用于自监督学习的时候有较高的潜力。

Sep, 2022

视觉 - 语言预训练模型综述

本文综述了视觉 - 语言预训练模型在多模态学习上的进展，介绍了编码图像、文本信息的方法，分析了模型中处理文本与图像交互的主流架构以及已有的预训练任务和下游任务，并提出了未来的研究方向。

Feb, 2022