DenseFormer: 通过深度加权平均增强 Transformer 中的信息流传

Feb, 2024

DenseFormer: 通过深度加权平均增强 Transformer 中的信息流传

DenseFormer: Enhancing Information Flow in Transformers via Depth Weighted Averaging

Matteo Pagliardini, Amirkeivan Mohtashami, Francois Fleuret, Martin Jaggi

TL;DR提出了 DenseFormer 这种简单修改的转换器架构，通过在每个转换器模块之后添加一个平均步骤来改进模型的困惑度，减少了内存消耗和推理时间，并且在相同困惑度下表现优于转换器基线模型。

Abstract

The transformer architecture from Vaswani et al. (2017) is now ubiquitous across application domains, from natural language processing to speech processing and image understanding. We propose denseformer, a simpl

transformer architecture denseformer perplexity memory efficiency inference time

发现论文，激发创造

DSFormer: 通过密集稀疏权重分解实现文本 Transformer 的有效压缩

DSFormer 是一种新型的低秩矩阵分解和半结构稀疏矩阵乘积方法，针对大型 Transformer 模型的成本效益问题提供了更强的效率 - 准确度平衡，并在自然语言理解任务中实现了比现有方法更高的压缩率和任务准确度。

Dec, 2023

BatchFormerV2: 探索密集表示学习样本关系

本文提出了一种新的 Batch Transformer 模块，即 BatchFormerV2，可以进一步探索密集表示学习，适用于各种常见的视觉识别任务，包括图像分类、目标检测和全景分割，改进了几种基于 DETR 的目标检测方法 (例如 DETR、Deformable-DETR、Conditional DETR 和 SMCA) 1.3% 以上。

Apr, 2022

多元加权平均用于区分分布外泛化

本文介绍了一种新的权重平均策略 ——Diverse Weight Averaging (DiWA)，通过多次独立训练获得的模型权重进行平均，以增加模型的功能多样性，并提出了一种新的误差分解方法来说明多模型平均在测试期间建模分布发生变化时成功的原因，并通过实验证明，DiWA 在不增加推理开销的情况下始终提高了 DomainBed 基准的表现。

May, 2022

H-DenseFormer: 一种高效的混合密集连接 transformer 用于多模态瘤分割

本文提出了一种名为 H-DenseFormer 的混合密集连接网络，它结合了卷积神经网络（CNN）和 Transformer 结构的表示能力，用于多模态医学图像的肿瘤分割，并通过设计轻量级 Densely Connected Transformer（DCT）块显著降低计算复杂度。实验证明，该方法在性能和计算复杂度方面均优于现有方法。

Jul, 2023

DPFormer: 针对长尾数据学习差分隐私 Transformer

本文提出了 DPFormer 模型，引入了幽灵剪辑和再关注机制以提高训练 Transformer 模型时的效率和精度，通过理论分析以及两个真实数据集的实验证明了 DPFormer 的有效性和可行性。

May, 2023

FlowFormer: 光学流的 Transformer 架构

FlowFormer 是一种基于 Transformer 网络的神经网络结构，用于学习光流，并在 Sintel 基准测试中获得了最佳效果。

Mar, 2022

PartialFormer：建模部分而非整体

本论文介绍了 PartialFormer—— 一种参数有效的 Transformer 架构，利用多个较小的前馈神经网络来减少参数和计算量，同时保持重要的隐藏维度，并通过一个多头注意力系统实现有效的协同工作。还介绍了一种定制的头缩放策略和改进 PartialFormer 深度扩展的注意力计算方法，对 9 个翻译任务和 1 个抽象摘要任务的大量实验验证了 PartialFormer 方法的有效性。

Oct, 2023

BayesFormer：具有不确定性估计的 Transformer 模型

介绍了一种名为 BayesFormer 的基于 Bayesian theory 设计的 Transformer 模型，该模型利用变分推断中的 dropout 扩展到 Transformer-based architectures，通过多种实验在自然语言处理、机器翻译、长序列理解和主动学习等领域展现出了卓越的性能。

Jun, 2022

Transformer 的表征能力与局限性

本研究通过分析注意力层及其所在的变形器模型的表示能力，探讨这些模型相对于其他架构的优势和劣势，并重点关注了它们的内在复杂度参数，例如宽度、深度和嵌入维度。在正面方面，我们提出了一个稀疏平均任务，并证明了循环网络和前馈网络的复杂性随着输入规模的增大多项式增长，而变形器的复杂性仅随着输入规模的对数增长；此外，我们使用相同的构造来展示了变形器中大嵌入维度的必要性和作用。在消极方面，我们提出了一个三元组检测任务，其中注意力层的复杂性随输入规模线性增长；考虑到这种情况在实践中似乎很少出现，我们还提出了一些自然变种，可以通过注意力层有效地解决。证明技术强调了通信复杂度在变形器及其相关模型的分析中的价值，以及稀疏平均作为原型注意任务的作用，甚至在三元组检测的分析中也有用处。

Jun, 2023

WaveletFormerNet：基于 Transformer 的用于真实世界非均质和密集雾去除的小波网络

本文提出了一种基于 Transformer 和小波的网络 (WaveletFormerNet) 用于现实世界中的雾图像恢复，它通过将离散小波变换嵌入到 Vision Transformer 中来缓解由于降采样导致的图像质量损失和颜色失真，同时引入了并行卷积和特征聚合模块以提高模型的性能和泛化能力。实验结果表明，WaveletFormerNet 在雾图像恢复和计算机视觉应用中具有比现有方法更好的效果。

Jan, 2024