- EffoVPR:有效利用基础模型的视觉场所识别
使用自注意力层提取特征进行重新排序,结合 ViT 层用于全局特征生成,并且在具有遮挡、昼夜变化和季节变化的挑战场景中取得了最先进的结果。
- 从场景图和自注意力生成 3D 场景
使用自我关注层和图变换器从场景图和楼层平面图中合成 3D 场景布局,生成更稀疏和多样化的场景。
- Transformer, 并行计算,和对数深度
在这篇论文中,我们展示了自注意力层的数量可以高效地模拟和被大规模并行计算的常数通信轮次所模拟。因此,我们证明对于 transformer 来说,对于其他多个神经序列模型和次二次方变压器逼近算法无法高效解决的基本计算任务,对数深度是足够的。我 - SwitchHead:混合专家注意力加速变压器
SwitchHead 是一种新颖的方法,通过使用混合专家(Mixture-of-Experts)层和较少的自注意力矩阵,减少计算和内存需求,实现与基线 Transformers 相同参数预算的语言建模性能,进而获得了墙钟速度的提升。
- 通过正则化非局部泛函减轻变形器中的过度平滑
通过引入新的正则化项,本研究提出了一种名为 NeuTRENO 的新型 transformer 模型,该模型能够减轻过度平滑 token 表示的问题,并在各种实际任务中实证证明了 NeuTRENO 相对于基线 transformers 和最先 - 扩散,关注与分割:利用稳定扩散进行无监督零样本分割
利用稳定扩散模型中的自注意力层以及基于测量注意力图之间的 KL 散度的简单而有效的迭代合并过程,我们提出了一种无需训练或语言依赖性,能够从任何图像中提取质量分割的方法。在 COCO-Stuff-27 上,我们的方法在像素准确率和平均 IoU - 动态令牌传递变换器用于语义分割
通过引入动态令牌过渡视觉转换器(DoViT)对图像进行语义分割,适应性地降低了不同复杂度图像的推理成本,通过逐渐停止部分易处理的令牌的自注意计算并保持难处理的令牌继续前进直到满足停止标准,利用轻量级辅助头部做出令牌传递决策并将令牌划分为保留 - 基于上下文感知注意力层与最优传输域自适应方法的自发言语痴呆识别
本研究提出了一种新的方法,通过多模态交互捕获 AD 困扰患者的主要特征,使用 BERT 和 DeiT 等模型搭建语言和声音领域的自注意力模型,采用优化的传输域自适应方法,在标签平滑 calibration 方法的指导下,表现出相对较高的准确 - 自注意力层的拟态初始化
通过模仿预训练 Transformer 的权重,使用模拟初始化方案沿用这些权重,能在视觉任务中提高 Vanilla Transformers 的最终准确度,并使训练速度更快。
- 实用 Conformer:优化 Conformer 的大小,速度和 FLOPs,用于设备和云 ASR
本文提出了一种优化的 conformer 模型,通过替换低层 conformer 块、策略性缩小架构和利用 RNNAttention-Performer 等方式,优化内部状态数量,降低推理延迟。通过级联编码器,我们发现这些优化可以将延迟降低 - Transformer 模型的轻松注意力
本文通过实验表明,构建基于 relaxed attention 的 transformer 架构,可以通过抑制自动回归 transformer 解码器的内部语言模型,实现有效地整合外部语言模型,并且提高了通用 transformer 架构的 - CVPRDropKey
本文重点分析和改进了 Vision Transformer 的自注意力层中关键的丢弃技术,并提出用于关键值的 dropout-before-softmax 方案和逐渐降低 dropout ratio 的方案,从而提高了 ViTs 在各种视觉 - 基于句间注意力机制改进基于 Transformer 的对话语音识别
本文提出了一种基于 Transformer 的端到端架构方法,在自动语音识别中精确建模跨话语的语境依赖,通过引入上下文感知残余注意机制,对先前语音的上下文进行编码,同时,还采用条件解码器框架将历史语言信息融入到当前预测中,结果表明该方法在几 - TrimBERT: 为折衷而量身定制的 BERT 模型
本文介绍了一种方法:通过减少 BERT-Base 模型中的中间层数量来达到压缩模型、加快训练速度且不影响下游任务的准确性的效果,同时使用计算上更简单的技术代替自注意力层中的 softmax 操作并删除一半的层归一化层以进一步减少训练时间。
- 补丁是你所需的全部?
本文介绍 ConvMixer 模型,它使用标准卷积来混合图像块,并在类似参数计数和数据集大小的情况下胜过 ViT、MLP-Mixer 和一些变种,同时也优于经典的 ResNet 等视觉模型。
- Transformed CNNs: 用自注意力机制重塑预训练卷积层
本文研究在 Vision Transformers 与卷积神经网络之间构建混合模型时的计算瓶颈问题,探索采用卷积层进行初始化以达到更快的训练速度,得到的 Transformed CNN (T-CNN) 相比 CNN 在 ImageNet-1 - CVPR变分转换器网络用于布局生成
采用自注意力机制,提出了变分转换网络方法,可用于生成各种类型的布局,并可应用于文档布局检测管道中。
- ICLRTransformer 是否是序列到序列函数的通用逼近器?
本文证明了 Transformer 模型具有连续排列等变序列到序列函数的通用逼近性,并且使用位置编码绕过了排列等变性的限制,展示了 Transformer 可以普遍逼近任意的连续序列到序列函数。该文章的基础是对 Transformer 中自 - 利用持久内存扩展自注意力
该研究提出了一种新的模型,该模型仅由注意力层组成。在具体实现中,加入了持续性存储向量来代替前馈层,这样我们可以去除前馈层但不会降低 transformer 的性能。研究显示,该模型在标准字符和词级语言建模基准上表现出良好的效果。