- 显式编码结构对算术任务的长度泛化至关重要
基于修改后的数字格式化和自定义位置编码,我们的方法允许 Transformer 在加法和乘法中以最多 5 位数的数字进行训练并推广到 50 位数,而无需使用更多的数据来处理更长的序列。
- 扩展心智转换器
预训练语言模型在推理时过长的输入会迅速成为记忆信息的瓶颈。本文提出了一种简单的方法,使用记忆转换器给模型提供预先计算的记忆库,通过批判性评估定位编码应如何更新以检索关键信息,而非使用外部嵌入。我们展示了在大多数解码器层中检索外部信息的重要性 - 身着荣誉:自注意力与虚拟节点
图形转换器是与全局自注意结合的消息传递 GNN 的图形处理模型,它们被证明是通用的函数逼近器,但依赖于位置编码来扩展初始节点特征。此研究对比了图形转换器和更高效的消息传递 GNN + 虚拟节点结构在图形大小上的一致表达性,并证明两种模型的表 - 位置编码与上下文并不相同:顺序推荐中的位置编码研究
通过分析位置编码,我们发现它们提供了不可从时间信息推断的项之间的相对信息,并且不同的编码方式会影响指标和稳定性。我们通过研究发现正确的位置编码可以达到最新的最先进结果,但更重要的是,某些编码方式能够稳定训练。
- Swin2-MoSE:一种新的遥感单幅图像超分辨率模型
我们提出了 Swin2-MoSE 模型,它是 Swin2SR 的增强版本,引入 MoE-SM(增强的专家混合编码器)来替换 Transformer 模块中的前馈网络,并通过智能合并、新的输出融合层和新的工作分配策略,改进了专家之间的合作。同 - 训练 Transformer 时打破对称性
通过研究我们发现,Transformer 架构在没有位置编码和因果注意机制之一的情况下,对于输入令牌 $n+1$ 的预测对于输入令牌 $1, 2, ..., n-1$ 的排列是不变的,而通常情况下,两种机制都被采用并破坏了对输入令牌的对称性 - HyPE-GT: 图形 Transformer 遇见双曲型位置编码
图变换器(GTs)通过计算节点对的自注意力,而不考虑节点位置信息,促进了对图结构数据的理解。为了解决这一限制,我们引入了一种创新且高效的框架,将位置编码(PEs)引入 Transformer,生成一组可学习的位置编码,这些位置编码存在于非欧 - ICCV基于隐式神经表示的紧凑数据表示的改进位置编码
提出了一种改进了隐式神经表示(INR)的重构质量的新型位置编码方法,该嵌入方法在紧凑数据表示方面具有更大数量的频率基础,并在压缩任务中不引入任何额外复杂度的情况下,在速率失真性能和新视角合成的重构质量方面取得了显著的增益。
- EMNLP位置编码的局部性与对称性
位置编码(PEs)用于将单词顺序信息注入基于 Transformer 的语言模型中。本研究对双向遮蔽语言模型(BERT-style)中的位置编码进行了系统研究,揭示了其核心功能和与下游任务性能相关的两个常见特性(局部性和对称性),并对当前位 - 关于图神经网络中表达性位置编码的稳定性
设计有效的位置编码对于构建强大的图形变压器和增强消息传递图神经网络至关重要。我们提出了稳定且表达能力强的位置编码(SPE),它是第一个经过验证的稳定架构,同时尊重特征向量的所有对称性,并且至少与现有方法一样具有表达能力,对于基础不变函数非常 - 少即是多:朝着高效的零样本 3D 语义分割网络
为了减少对大规模数据集的依赖,最近在 3D 分割方面的研究转向了少样本学习。本文提出了一种高效的无训练的 3D 少样本分割网络 TFS3D 和基于训练的变种 TFS3D-T,通过三角函数位置编码提取密集表示,取得了可与以往基于训练方法相媲美 - ICCV坐标量化的神经隐式表示法在多视图重建中的应用
学习神经隐式表示的研究取得了巨大的进展,该研究介绍了使用量化的坐标来减少优化过程中的不确定性和歧义,通过体渲染使用离散坐标和其位置编码来学习隐式函数,从而在多个视图的光线交汇点上触发更多的多视点一致性约束,提高了推断隐式函数的效率。
- 长颈鹿:在 LLM 中扩展上下文长度的探险
现代大型语言模型(LLMs)通常使用固定的上下文长度进行训练,但这限制了它们在评估时能处理的输入序列的长度。为了在训练时间上下文长度之外的较长序列上使用这些模型,可以采用不断增长的上下文长度外推方法。本文对现有的上下文长度外推方法进行了广泛 - 随机位置编码增强 Transformer 的长度泛化
本研究发现,Transformers 在固定上下文长度的任务中表现出快速泛化的特性。但是,它们不能在任意长度序列上泛化,即使是像复制字符串这样的简单任务也不行。本文介绍了一种新的位置编码方案,可以解决长序列位置编码失效的问题,并通过大规模实 - 图神经网络能在随机图上计算哪些函数?位置编码的作用
本文旨在加深对大型图上图神经网络(GNNs)的理论理解,特别是着重于它们的表达能力。通过对等变 GNNs 生成的函数空间进行更完整和直观的描述,我们强调了输入节点特征的作用,并研究了节点位置编码(PEs)的影响,这是最近一项在实践中表现出卓 - MM广义拉普拉斯位置编码用于图表示学习
本文通过泛化定义拉普拉斯嵌入的优化问题,提出了一族新的图形式的位置编码,并讨论了一种计算这些位置编码的方法,证实了这种新的位置编码可以提高 MPNN 的表述能力,同时给出了初步的实验结果。
- CVPR任意尺度图像合成
本文提出基于位置编码和跨尺度图像合成的方法,并在多个数据集上展现了稳定高质量的生成效果。
- 图上贝尔特拉米流与神经扩散
该研究提出了一种基于离散化贝尔特拉米流的图神经网络,通过图拓扑导出位置编码,并联合演化 Beltrami 流来同时学习节点特征和图拓扑,实现了对多种流行的图神经网络的推广并在多项基准测试中达到了最先进的结果。
- EMNLPTransformer 的简单有效位置编码
本文介绍了一种新的机制 ——Decoupled Positional Attention,将位置和段信息编码为 Transformer 模型,提高了训练和推理效率,在 GLUE、XTREME 和 WMT 基准测试中实现了竞争性表现,并进一步 - ICLR群等变独立自注意力网络用于视觉
提出了一种通用的自注意力公式来对任意对称群实现群等变性,通过定义对群考虑不变的位置编码来实现。GSA-Nets 可以通过群作用于位置编码的直接操作进行指导,实验证明 GSA-Nets 比非等变自注意网络具有一致的改进。