- 多头自注意力中的时间通道建模用于合成语音检测
使用 Transformer 模型,通过引入 Temporal-Channel Modeling(TCM)模块来增强 multi-head self-attention(MHSA)对于捕捉时域 - 频域依赖关系的能力,以提升合成语音检测效果 - 智能采样:用于改进集成强化学习的自注意力和自助法
我们提出了一种新颖的方法,旨在增强集成 Q 学习的样本效率。我们的方法将多头自注意力集成到集成 Q 网络中,同时通过引导集成所吸收的状态 - 动作对来提升性能,从而改进了原始的 REDQ 和其变体 DroQ,并有效减小了 Q 函数集合的平均 - 多跳图变换网络用于 3D 人体姿势估计
介绍了一个用于视频中 2D 到 3D 人体姿势估计的多跳图变换网络,通过利用多头自注意力和多跳图卷积网络的优势以捕获时空依赖关系和处理远距离交互,提出了一个模型架构来实现准确的全局和局部依赖关系捕捉以及处理所需的空间细节,实验结果表明其有效 - SNP:结构化神经元级剪枝以保持注意力分数
我们提出了一种新颖的图感知神经元级剪枝方法(SNP),通过剪枝数据图中信息较少的注意力分数和消除多头冗余,有效压缩和加速基于 Transformer 的模型,适用于边缘设备和服务器处理器。
- LoRAP:大型语言模型的 Transformer 子层应采用差异化结构压缩
本研究提出了一种混合压缩模型 LoRAP,通过输入激活加权奇异值分解方法和基于低秩度差异的参数分配方案,增强了 Transformer 模型中 Multi-Head Self-Attention 子层的低秩特性,并提出了无梯度的结构化通道剪 - 基于混合卷积 - 变换器架构搜索的实时图像分割
通过使用多头自注意力结构,结合架构搜索方法,本研究提出了一种高效且有效的高分辨率图像分割神经网络架构,名为 HyCTAS,通过在多个分辨率的分支之间融合轻量级卷积层和内存高效的自注意力层,提高了语义分割任务的性能。
- 具有线性复杂度的交互式多头自注意力
我们通过分解提出了一种高效的多头自注意力交互方法,该方法通过建立注意力矩阵中的跨头交互来增强信息流动,并将注意力操作分解成查询和无键组件,以降低注意力矩阵的维度,从而实现更高效的注意力操作。实验结果表明,所提出的跨头交互方法在效率和性能上优 - 理解和修复 LLMs 中的组合推理
我们的研究揭示了 LLMs 在复合推理任务中的失败根源,即大多数失败源于生成或利用不当的隐性推理结果。深入研究发现隐性推理结果确实存在于中间层,并在塑造最终明确推理结果中发挥因果作用,我们还发现多头自注意力模块是生成和利用隐性推理结果的关键 - 视觉 Transformer 中钥匙的流形表示
该研究通过解耦键值查询,采取流形表示的方式,探索了视觉 Transformer 模型性能的提升,实验证明这种方法可以显著增加模型在图片分类、目标检测和实例分割任务中的准确性。
- SkipViT:使用令牌级别的跳跃连接加速视觉变换
我们的研究提出了一种方法来优化视觉转换器模型中不相关令牌之间的不必要交互数量,通过将它们分离并通过不同的低成本计算路径发送,同时在训练吞吐量上获得 13% 以上的提升,并在华为 Ascend910A 上维持与基准模型相同级别的分类准确性。
- Transformer 解释与提取器改进
我们全面理解和解释了 Transformer 结构,针对 multi-head self-attention 中的 Extractor 提出了改进方案,通过实验证明改进的 Extractor 表现更好,为改善 Transformer 结构指 - PMET: Transformer 中的精确模型编辑
通过分析多头自注意力和前馈网络隐藏状态的信息流,本研究发现多头自注意力编码了特定的通用知识提取模式,因此引入了一种同时优化 Transformer 组件隐藏状态的方法(PMET),在只使用优化后的前馈网络隐藏状态精确更新前馈网络权重的同时, - 基于交互式骨架的通用交互动作识别的交互时空标记关注网络
该研究提出 Interactive Spatiotemporal Token Attention Network (ISTA-Net) 模型,通过多头自注意力和三维卷积技术同时建模空间、时间和交互关系,并提出实体重新排列方法来更好地表示多种 - SwiFT:Swin 4D fMRI Transformer
使用 SwiFT 模型,利用多头自注意机制和绝对位置嵌入,从 4D 功能性脑 MRI 数据中直接学习大脑动态。实验结果表明,SwiFT 在诸如预测性别、年龄和认知智能等任务中始终优于最新一代模型,并可进行对比损失自我监督预训练以获得更好的性 - DsMtGCN:面向知识图谱完成的方向敏感多任务框架
本文提出了一种使用多头自注意力模型,对不同方向上的实体嵌入进行特定组合以完成前向和后向子任务的方向感知多任务图卷积网络模型(DsMtGCN),该模型采用了几何约束来调整嵌入分布,修改了传统的二元交叉熵损失以反映三元组的不确定性,并在几个基准 - 多尺度和令牌合并:让您的 ViT 更高效
本文提出一种新的 token pruning 方法,通过筛选关键词实现计算效率和模型效果的折衷,实验结果表明,该方法可显著降低计算成本,同时仅导致 0.1% 的 DeiT-S 识别精度下降。
- 一种具有自注意力残差的新型视觉 Transformer 用于生物医学图像分类
本文提出了一种新的多头自注意力视觉转换器(ViT)框架,通过使用残差连接的概念累积多头注意力块中的最佳注意力输出,从而在生物医学图像分类方面取得了显着的进展,并在两个小数据集上进行了评估:(i)血细胞分类数据集和(ii)使用脑 MRI 图像 - 通过稀疏率降低白盒 Transformer 模型复杂度
本研究旨在将表示学习的对象转化为一组符合不相关子空间中的低维高斯分布混合物,通过稀疏率降低统一目标函数的质量用以衡量终极表示。同时,我们揭露了标准变压器块可以从这个目标的互补部分的交替优化中推导出来,并通过各种真实世界视觉数据集的实验表明, - GlobalMind:全球多头交互式自注意力网络用于高光谱变化检测
本文提出了一种名为 GlobalMind 的改变检测网络,它采用了全球多头交互自注意力机制,结合全局轴向分割和全局时变交互多头注意力模块,用于超光谱图像,有效提高了跨时空变化检测精度和效率。
- 初始状态下的 Transformer 有效理论
本文针对宽且深的 Transformer 模型中的正反向信号传播进行了有效理论分析,提出了相应的模型初始化和训练超参数的宽度缩放建议,最终在实际场景中训练了视觉和语言的 Transformer 模型