- MouSi:多视觉专家视觉语言模型
使用集成专家技术,从不同的视觉编码器中协同能力,通过融合网络统一处理来自不同视觉专家的输出,并解决图像编码器和预训练 LLMs 之间的差距,同时探索不同的位置编码方案以解决位置溢出和长度限制问题,实验证明,具有多个专家的 VLMs 在性能上 - 关于使用带位置编码的 MLP 学习 SDF 的最佳采样
通过傅立叶分析的方法,我们提出了一种简单而有效的估算具有随机权重的神经网络的固有频率的方法,并根据此频率的奈奎斯特 - 香农采样定理,确定了适当的训练采样率。通过使用我们的采样策略训练具有位置编码的多层感知机(MLP),我们证明其性能优于现 - 代数位置编码
我们介绍了一种新颖的位置编码策略,用于 Transformer 风格模型,解决了现有方法的不足之处。我们的框架提供了一种灵活的映射,从一个领域的代数规范到正交操作符的解释。该设计保留了源域的代数特性,确保模型满足所需的结构属性。我们的方案可 - 具有正则化注意力分数的更强图转换器
通过引入一种新颖的 “边缘正则化技术”,我们解决了图神经网络的内存消耗问题,并改善了 Transformer 架构对图数据的处理能力。在无位置编码的情况下,通过边缘正则化技术能够稳定提升 Graph Transformer 模型的性能。
- 通过局部曲率剖面实现有效的结构编码
基于几何学角度从 Ricci 曲率的离散化编码出发,通过结构编码和位置编码的组合,以及曲率信息的利用,能够显著提高图神经网络的性能。
- 位置描述对于 Transformer 算术很重要
通过修改位置编码或者调整算术任务的表示方式来解决使用位置信息解决小数字算术问题时性能较差的问题,并在乘法和加法任务中展示了改进的效果。
- 基于位置编码的多住户智能家居居民识别
我们提出了一种新颖的居民识别框架,用于在多居住者智能环境中识别居民。该框架利用了基于位置编码概念的特征提取模型,该模型将住宅位置视为一个图形。我们设计了一种新颖的算法,从智能环境的布局图构建这样的图形。Node2Vec 算法用于将图形转换为 - GTA:一种面向几何的多视角 Transformer 的注意机制
通过提出一种几何感知注意机制 (Geometric Transform Attention, GTA) 来对几何结构进行编码,改进了基于 Transformer 的多视角合成模型的学习效率和性能,无需额外学习参数且计算开销较小。
- GeoCLIP:基于 Clip 的位置和图像对齐,实现有效的全球地理定位
GeoCLIP 是一种新颖的受 CLIP 启发的图像到 GPS 检索方法,通过对图像和其对应 GPS 位置之间的对齐实现了对全球范围内图像的精确定位。在基准数据集上的广泛实验和消融分析表明我们的方法取得了有竞争力的性能,并且在有限数据的情况 - ACL韩 Bird 大型:基于 Transformer 的韩语语言理解转换
本研究介绍了一种名为 KoBigBird-large 的大规模韩语 BigBird 模型,它能够在韩语语言理解方面实现领先水平并处理长序列。通过采用作者提出的锥形绝对位置编码表示(TAPER),无需进一步预训练,只需改变架构和扩展位置编码。 - CONFLATOR: 基于切换点的旋转位置编码在混合代码语言建模中的应用
CONFLATOR 介绍了一种基于神经语言建模的混合编码语言的方法,使用更智能的位置编码强调切换点,并在代码混合的 Hindi 和英语(Hinglish)上的情感分析和机器翻译任务中胜过最先进的方法。
- 优化基于 Transformer 的网络用于深度学习地震处理工作流程
通过使用相对位置编码和低秩注意力矩阵,对 StorSeismic 模型的原有实现中的位置编码和自注意机制进行改进,取得了更快的预训练速度、竞争力强的微调结果以及更少的训练参数。
- RCMHA: 相对卷积多头注意力用于自然语言建模
在语言建模中,通过利用相对位置编码与深度卷积层架构相结合的改进 MHA 模块,提高准确性并减少内存使用,该模块在实证实验中展现了超越其他注意力模块的优势。
- ICCV递归检测:端到端基于区域的递归目标检测
通过共享参数和引入递归解码器,以及在提议框中采用位置编码,该论文提出的 RecursiveDet 方法能够在减少模型参数和稍微增加计算成本的同时,显著提高端到端区域对象检测的性能。
- $E (2)$- 等变视觉转换器
本文介绍了一种利用新型有效的位置编码操作符来设计 Group Equivariant Vision Transformer(GE-ViT)模型来解决 Vision Transformer(ViT)模型中的内在等变性学习问题,通过实验在标准基 - 位置编码对 Transformer 中长度推广的影响
本文研究了基于解码器的 Transformer 模型在用不同的位置编码方式时对长度泛化的影响,发现在一系列的推理和数学任务中,NoPE 的表现比其它方法更为优秀,而且无需额外计算。理论上,NoPE 能够代表绝对和相对位置嵌入,但在使用 SG - 具有忠实编码的诊断时空转换器
本文提出了一种新的控制建筑电梯工业应用程序的时空依赖性发现模型,DFStrans,它应用了基于离散傅里叶变换的新位置编码,并通过监督学习发现探测目的的 ST 依赖性。
- CVPRPET-NeuS: 神经表面的位置编码三平面
本文建立新的神经表面重建方法,在 signed distance function 的基础上结合 tri-plane 表示,采用可学习的位置编码和卷积操作,通过实验在标准数据集上大幅提高了表面重建的精度。
- 自注意力在颜色中的应用:利用变形器编码图结构的另一种方法
本文提出了一种新颖的自注意机制,称为 CSA(Chromatic Self-Attention),并在完全注意的图变换器 CGT(Chromatic Graph Transformer)中展示了其应用,该变换器通过图中结构信息和边缘特征进行 - CVPR大规模多样化数据的多项式隐式神经表示
本文提出了 Poly-INR 模型,通过使用多项式函数来消除位置编码的限制,为生成建模任务在复杂领域中采用 INR 模型铺平了道路。Poly-INR 模型在像 ImageNet 这样的大型数据集上进行了定性和定量评估,并表现出与最先进的生成