- SuperFormer:基于体素变换的 MRI 超分辨率结构
本文提出了一种新颖的使用视觉 Transformer(ViTs)处理体积医学信息的框架,通过将先进的 Swin Transformer 模型拓展到三维医学领域,以及在 ViTs 中处理体积信息和编码位置的新方法。我们提出了基于 Transf - 上下文位置编码:学会计算重要的东西
提出了一种新的位置编码方法:上下文位置编码 (CoPE),使得位置可以被上下文条件化,可以实现更一般的位置指定,例如参考第 $i$ 个特定词、名词或句子。该方法能够解决选择性复制、计数和翻转任务,并提高语言建模和编码任务的困惑度。
- 变压器能够通过正确的嵌入进行算术运算
通过在每个数字上添加编码其相对于数字起始位置的嵌入,解决了 transformers 在算术任务中表现较差的问题,并展示了该修复方法进一步提高性能的架构修改方法。通过解决位置问题,研究了 transformers 的逻辑推理能力,并发现通过 - LookHere: 有向注意力的视觉 Transformer 进行泛化和外推
我们提出了一种名为 LookHere 的新方法,用于限制 2D 注意力掩码中的固定视野的注意力头,提供平移等变性,确保注意力头的多样性,并限制注意力头在外推时面临的分布偏移,从而改善图像分类、对抗攻击和校准误差的性能。该方法在 ImageN - 地理令牌和地理转换器
该论文介绍了一种针对变压器架构的位置编码方法,使用地理位置信息的输入组件,通过球面坐标定制的位置编码方法。与传统的语言序列不同,这些地理位置的相对顺序不如地理坐标本身重要,为了在嵌入空间中保持真实世界距离和距离的平衡,该方法基于 Rotar - AAAIGIN-SD: 通过位置编码和注意力融合的不完整节点图源检测
通过位置编码和关注融合(GIN-SD)的图中不完整节点源检测方法,有效解决了在有限的用户数据条件下对谣言源的检测问题,并证实了它相对于现有方法的优越性。
- 扩展 LLMs 上下文窗口至 100 个样本
本研究介绍了一种新颖的 RoPE 扩展方法,通过调整 RoPE 的基础频率和缩放注意力 logits,帮助 LLMs 高效适应更大的上下文窗口,并验证了这种方法在微调性能和稳健性方面的优越性。
- BerfScene: 基于 Bev 的等变辐射场用于无限 3D 场景生成
生成大规模 3D 场景需要应用现有的 3D 对象合成技术,并且场景通常具有复杂的空间配置,并由多个对象组成,不同细度的尺度。因此,我们提出了一种实用且高效的 3D 表示方法,该方法将等变辐射场与鸟瞰图进行了结合。具体来说,通过操纵相应的鸟瞰 - 循环距离编码神经网络用于图表示学习
通过最短距离和线性循环网络,我们提出了一种新的图神经网络架构,以解决信息提取和计算复杂度的挑战,并在各个基准测试中展示了与最新颖的图转换器相比性能具有竞争力且计算复杂度大大降低。
- 相对位置的功能内插改进长上下文 Transformer
使用功能性相对位置编码与渐进插值方法 (FIRE) 对 Transformers 进行训练,在处理更长的上下文时具有更好的泛化性能。
- 球面位置编码对于变压器的应用
通过在变压器架构中引入地理标记信息(geotokens),本文基于 RoPE 架构提出了一种适用于球坐标系的位置编码机制,以达到在嵌入空间中保持地理位置与物理距离之间比例关系的目的。
- 改进 transformer 的位置编码以用于多元时间序列分类
研究了 transformers 在时间序列数据中应用时所需的位置编码方法,提出了一种新的绝对位置编码方法,称为时间绝对位置编码(tAPE);提出了一种高效的相对位置编码实现方法(eRPE),并将 tAPE/eRPE 与卷积输入编码相结合, - CVPROPE-SR:正交位置编码在任意尺度图像超分辨率中设计无参数上采样模块
通过引入正交位置编码和使用线性组合操作,提高随机尺度图像超分辨率的表示能力,进一步提高计算效率和内存利用率。
- EMNLP增加遮挡时,词序很重要
本研究探讨了在 Transformer-based 神经语言模型中移除位置编码的影响,发现掩码语言建模任务中位置信息的重要性随着掩码数量的增加而增加,并且没有位置编码的模型不能完成该任务,这揭示了 Transformers 通过位置编码捕捉 - 利用密集时空位置编码追踪目标
提出一种新的范式,使用 transformers 对视频中的目标位置进行编码,该模型 DST (position encoding) 以密集的像素方式编码了空间时间位置信息,并将其与变压器结合以进行多目标跟踪。
- ACL通过减少表示混淆实现更好的预训练
本文重新研究了基于转换器的预训练语言模型,并找出了位置编码和模型表示中的两种不同类型的信息混淆,提出了 DDRP 编码和 MTH 预训练目标来改进预训练语言模型,并通过对 GLUE 基准测试的大量实验和消融研究表明了这种改进方法的有效性。
- ACLDecBERT:利用因果性注意力掩码增强 BERT 的语言理解能力
本研究提出了一种新的预训练语言模型 DecBERT,通过引入因果注意力机制用于 BERT 模型的位置编码,证明其在自然语言处理任务中比传统方法更为有效,并通过 GLUE 基准测试取得了良好表现。
- 基于点云的三维单目标跟踪的点轨变换模块(Point-Track-Transformer)
本篇研究文章提出基于点云的 3D 单目标跟踪的 Transformer 模块 Point-Track-Transformer(PTT),其包含特征嵌入,位置编码和自注意力模块等三个模块,将该模块应用到现有的 P2B 方法上构建出 PTT-N - 基于谱注意力的图卷积变换的反思
本文介绍了新的图神经网络 $ extit {Spectral Attention Network}$ (SAN),通过学习节点位置编码 (LPE) 来处理图结构数据,并采用全连接 Transformer 作为模型框架,有效地解决了信息瓶颈问 - ResT: 用于视觉识别的高效 Transformer
本文提出了一种高效的多尺度视觉 Transformer 模型,名为 ResT,可作为图像识别的通用骨干。它通过一些优势来应对传统 Transformer 模型在应对分辨率固定的原始图像中存在的缺陷, 特别是建立了一种内存高效的多头自注意力机