图像 Transformer 的深入研究
通过给训练数据增加更多的图像变换、给测试时产生更多的预测和使用应用于更高分辨率图像的补充模型等多种技术,我们改进了目前基于深度卷积神经网络的图像分类流程,并在 Imagenet 大规模视觉识别挑战赛 2013 中获得了前五名,我们的系统分类错误率为 13.55%,相对于上一年的获胜者,出现了超过 20%的相对提高。
Dec, 2013
本文研究使用 Transformer 代替 CNN 进行图像分类,实现在计算资源少的情况下,取得比目前卷积网络更好的识别结果,从而在计算机视觉上取得突破。
Oct, 2020
本文指出对于少量数据集的挑战性任务,如文本到 SQL 语义解析和逻辑阅读理解等,使用预训练模型进行微调是不必要的。通过新型数据依赖 Transformer 固定更新初始化方案(DT-Fixup),我们成功训练了由 48 个 transformers 层组成的模型,在无具体预训练的情况下,只需少量的训练步骤,就可以在挑战性的交叉领域文本到 SQL 解析基准 Spider 上实现最先进的性能。
Dec, 2020
本文介绍了三个与系统相关的优化方案 —— 分布式批量归一化控制每个副本批量大小、输入管道优化维持模型吞吐量和二维鼓形约减加速梯度求和 —— 将这些优化相结合,在 1024 芯片 TPU v3 Pod 上以超过 105 万张 / 秒的训练吞吐量,在 2.2 分钟内将 ResNet-50 在 ImageNet 上训练到 76.3%的准确度,且没有精度降低。
Nov, 2018
通过使用注意力机制的神经网络,我们以卷积神经网络为教师,在 ImageNet 上训练单个计算机下的优秀可比拟的转换器,并引入了基于蒸馏令牌的教师 - 学生策略,以获得竞争性结果。
Dec, 2020
本文调查了提高 Transformer 模型推理效率的不同方法,包括分析现有模型架构的瓶颈和硬件设计的影响,调度操作的挑战,以及通过神经网络架构搜索来优化 Transformer 模型等研究方向。最后,作者将这些方法应用于一个开源的全栈 DNN 加速器生成器中,并表明这些方法都可以对提高模型推理速度产生影响,其中最优的全栈设计方法可以将速度提高多达 88.7 倍,同时性能基本不受损害
Feb, 2023
本文提出了三种易于实现的视觉 Transformer 变体。第一,可以在不降低精度的情况下并行处理视觉 Transformer 的残差层。第二,对注意力层的权重进行微调就足以适应更高分辨率和其他分类任务,这节省了计算量,减少了微调时的峰值内存消耗,并允许跨任务共享大部分权重。第三,添加基于 MLP 的补丁预处理层,可提高基于补丁掩模的 Bert 式自监督训练效果。作者使用 ImageNet-1k 数据集评估了这些设计选择的影响,并在 ImageNet-v2 测试集上确认了研究发现。文章在六个较小的数据集上评估了转移性能。
Mar, 2022
本研究旨在回顾各种最先进技术,探讨如何通过序列减少训练参数和使用像全局均值池化、深度卷积和挤压、模糊化池等技术进行分阶段训练来构建高效的深度卷积网络,并成功实现了在 MNIST 数据集上仅使用 1500 个参数达到 99.2% 的高准确度,并在 CIFAR-10 数据集上仅使用超过 140K 个参数达到了 86.01% 的高准确度。
May, 2022
对视觉 Transformer 及相关架构的效率进行了综合分析,揭示了一系列有趣的见解,例如发现 ViT 在多个效率度量标准上仍然是最佳选择,同时低推理内存和参数数量时,混合注意力 - CNN 模型表现良好,模型大小的缩放比图像大小更为重要,FLOPS 与训练内存之间存在强正相关性。
Aug, 2023
本文通过理论分析和实验评估,重新设计了深度和宽度更浅的 transformer 配置,其中使用 masked 自动编码器训练模型,使模型在 ImageNet 上获得了 87.1%的 top-1 准确性,并在语言任务上优于默认配置的 BERT 达 1.1 个百分点。
May, 2022