- 区域变换器:自注意力区域基点云分割
基于区域转换器的自我注意力机制的增长式点云分割模型优于以往的通用类和特定类方法,通过自我注意力捕捉远距离依赖关系,在训练过程中避免了对语义标签的需求,适用于灵活的点云分割,并可应用于机器人技术、数字化双生和自动驾驶等领域。
- 基于梯度下降的 Transformer 网络学习因果结构
通过梯度下降优化算法,变压器模型通过自注意机制在第一个注意力层中编码潜在的因果图,从而学习了因果结构。
- ReViT: 增强视觉变压器的注意力残差连接 用于视觉识别
通过引入新的残差注意力学习方法来改善 Vision Transformer (ViT) 架构,包括增加视觉特征多样性和模型的鲁棒性,以提高识别系统的准确性。在五个图像分类基准测试中,通过对 ImageNet1k、CIFAR10、CIFAR1 - CAST: 使用替代标记的聚类自注意力以提高 Transformer 效率
基于自注意力机制的转换器架构,提出了一种使用代理符号的聚类自注意力机制(CAST),用于优化注意力计算并实现高效的转换器。CAST 通过减少复杂度从 O(N^2)到 O(αN),N 为序列长度,α 是按照聚类的数量和每个聚类的样本数而定的常 - 自注意力网络当 QK 特征向量集中时的局部化
自我注意机制在现代机器学习中盛行,通过调节注意定位的程度,它有能力自适应地从输入序列中选择标记,被许多研究人员认为是强大模型性能的基础之一,但也使学习动态的基本机制复杂化。近年来,主要有两个论点将注意定位与模型性能联系起来,即秩坍缩和熵崩溃 - ConSmax:硬件友好的可学习参数替代 Softmax
提出了一种有效的自注意机制替代方案 ConSmax,通过可扩展硬件和可微分参数实现大规模并行计算,以实现基于 Transformer 的大型语言模型的实时推理,并取得比现有方案更好的能源和面积性能。
- HyperZ・Z・W 运算符实现全上下文交互的慢速 - 快速网络连接
本研究探讨了通过采用大型隐式核函数来实现网络每层的全局上下文交互,并引入了多分支隐藏表示、特征提取等创新组件构建的 Terminator 架构,通过实验证明此架构在像素级 1D 和 2D 图像分类任务中表现出优秀的性能。
- 多透视 空时关系变换的精确 3D 人体姿势估计
我们提出了一个多阶段的 3D 序列到序列人体姿势检测框架,利用变压器的自注意力机制从多视角视频数据中捕捉空间 - 时间相关性,实验结果表明我们的方法在 Human3.6M 数据集上表现出色。
- 超越局部窗口的限制:自适应令牌字典的先进超分辨率变换器
通过引入自适应记号字典到 SR Transformer 并建立 ATD-SR 方法来解决单图像超分辨率问题,进一步通过基于类别划分的自注意机制提升输入特征,实验证明该方法在多个单图像超分辨率基准测试中达到最佳性能。
- 基于知识感知的图形转换器用于行人轨迹预测
该论文提出了一个图变换器结构来改进预测性能,捕捉数据集中不同场所和情景之间的差异,并设计了一种自注意机制和域适应模块来提高模型的泛化能力。此外,还引入了一种考虑跨数据集序列的额外指标用于训练和性能评估目的。使用 ETH 和 UCY 等流行的 - AAAIGramformer: 通过图模态变换器学习人群计数
提出了一种名为 Gramformer 的图模块化 Transformer 方法,解决了传统 Transformer 在人群计数中存在的同质化关注问题,并通过引入注意图和中心性编码的方案,增强了网络的性能和竞争力。
- 基于扩散的刚体与非刚体编辑方法及其在文本和图像导向下的统一应用
该研究提出了一种多功能图像编辑框架,可以执行刚性和非刚性编辑,并通过文本提示或参考图像进行引导。通过应用双路径注入方案来处理各种编辑场景,并引入了整合的自注意机制来融合外观和结构信息。综合实验证明了该方法的有效性,在基于文本的编辑和外观转换 - 语音视觉对话图:从自我中心视角到他人中心视角
我们提出了一个统一的多模态、多任务框架 —— 音频视觉对话关注(Av-CONV),用于联合预测第一人称视角下的摄像机佩戴者及视频中所有其他社交伙伴的对话行为,我们通过自注意机制定制化建模了跨时间、跨主体和跨模态的表征。通过在具有多说话者和多 - 为什么 “经典” Transformer 是浅层的以及如何使其深入
通过理论和实证综合研究,证实了 Transformer 模型的深度问题是由于令牌相似性逐步增加所导致的,提出了一种简单的策略来解决这个问题,并初步实验证实了该方法在中等规模的后标准化 Transformer 模型上的有效性。
- 图卷积丰富了 Transformer 中的自注意力
用基于图滤波的自注意力机制 (GFSA) 在 Transformer 模型中解决了过度平滑问题,提高了在计算机视觉、自然语言处理、图形模式分类、语音识别和代码分类等各领域的性能。
- Riemannian 自我注意力机制用于 SPD 网络
该论文提出了一种基于 Riemann 度量、Riemann 均值和 Riemann 优化的 SPD 流形自注意机制,用于改善所生成的深度结构表示的区分度,实验结果表明,该方法进一步减轻了信息退化问题并提高了准确性。
- ICLR线性对数正态注意力与无偏集中度
通过分析自注意力机制的注意力矩阵分布和其专注能力,并引入一种新的自注意力机制(线性对数正态注意力),我们试图研究其与原始自注意力的分布和专注行为的模拟度量,实验结果在流行的自然语言基准测试中表明我们提出的线性对数正态注意力优于其他线性注意力 - PBWR: 从航空激光雷达点云参数化建筑线框重建
本文提出了一种从航空 LiDAR 点云直接回归边缘的端到端三维建筑线框重建方法,通过使用 transformer 的自注意机制,以航空 LiDAR 点云和初始边界实体作为输入,无需角点预测等中间步骤来回归边缘参数;我们提出了一种基于边界相似 - 学习场景背景无需图像
使用一种基于标签的缺失对象检测新型变换器方法 LMOD(Label-based Missing Object Detection)教授机器场景背景知识,通过注意机制学习场景中不同对象之间的关系,展示了使用基于标签学习得到的上下文知识可以提高 - Legal-HNet:将法律长上下文标记与哈特利变换混合
在本文中,我们探讨了用简单的记号混合机制 ——Hartley 和 Fourier 变换替代基于注意力的层的替代方法,并在法律领域设置中从头开始训练模型。我们还介绍了一种新的混合 Seq2Seq 架构,即无注意力的编码器与有注意力的解码器相连