- 点树变换器用于点云配准
点云配准中的局部和全局特征提取是一个常见问题。本文提出了一种名为 “Point Tree Transformer (PTT)” 的新型基于 Transformer 的方法,通过构建点云的层次特征树和引入一种新的点树注意力机制(PTA)来提取 - 多尺度时差变换器用于视频文本检索
在视频文本检索领域,我们提出了一种名为 MSTDT 的变种 Transformer,主要解决了传统 Transformer 对于捕捉本地时间信息能力有限的问题,并通过多尺度时间 Transformer 来提取帧差异特征和整合差异和帧特征来更 - 基于曼巴的高效子空间扫描的光场超分辨率
本文基于选择性状态空间模型 Mamba,提出了一种基于 Mamba 的光场超分辨率方法 MLFSR,通过设计高效的子空间扫描策略来实现对高分辨率 4D 光场的全图像处理,显著提升了性能。
- 粗细光谱感知可变形卷积在高光谱图像重建中的应用
研究了编码光阑快照光谱成像 (CASSI) 的反问题,该方法使用快照 2D 测量来捕获空间 - 光谱数据立方体,并使用算法重建 3D 高光谱图像 (HSI)。然而,基于卷积神经网络 (CNN) 的当前方法难以捕捉长程依赖和非局部相似性。最近 - 光谱空间混合神经网络用于高光谱图像降噪
提出了一种混合的空间 - 光谱去噪网络 (HSSD),该网络通过设计一个新颖的 CNN 和 Transformer 特性的混合双路径网络,以高效地捕获本地和非本地空间细节,同时抑制噪声,从而解决了现有 Transformer-based 方 - CVPRPuff-Net: 纯内容和风格特征融合网络的高效样式迁移
我们提出了一种新颖的仅包含编码器的变换器模型,以显著降低计算成本,并设计了内容特征提取器和风格特征提取器,用于向变换器提供纯内容和风格图像。最后,我们提出了一种名为 Puff-Net 的新型网络,即纯内容和风格特征融合网络。通过定性和定量实 - 零样本策略学习的极简提示
通过在任务参数上进行调节,基于 Transformer 的模型展现出了与依赖演示任务相当甚至更好的零样本泛化能力。
- 深度视频动作识别中的骨干网络调查
该论文综述了基于深度神经网络的几种动作识别方法,包括两流网络、三维卷积网络和基于 Transformer 的方法,并提供了客观的观点以供未来研究参考。
- HMANet:基于混合多轴聚合网络的图像超分辨率
本文提出了一种新颖的混合多轴聚合网络(HMA),通过叠加残差混合 Transformer 块(RHTB)和网格注意力块(GAB),在超分辨率视觉任务中充分利用特征潜力信息,并通过实验验证了该模型的有效性。
- 上下文符号回归:利用语言模型进行函数发现
本文研究了将预训练的大型语言模型(LLMs)整合到 Symbolic Regression(SR)流程中,利用 LLMs 依据观测数据提出可能的函数,并通过模型自身和外部优化器逐步优化,取得令人满意的结果。同时,分析了在这一背景下的视觉 - - ChangeBind: 远程感知变化检测的混合变化编码器
提出了一种基于 Siamese 网络架构的改变检测方法,通过利用局部和全局特征表示捕捉多尺度特征,精确估计改变区域,实现了对遥感图像的语义变化的编码。在两个具有挑战性的改变检测数据集上的实验研究表明了该方法的优势,并获得了最先进的性能。
- 低光遥感图像增强的空域频率二重域特征融合网络
提出了一种用于低光遥感图像增强的双域特征融合网络 (DFFN),通过将振幅信息与相位信息分别学习来实现低光增强任务,同时通过信息融合亲和块在不同阶段和尺度上组合不同的数据,通过广泛的评估,证明该方法优于现有最先进方法。
- 外部提示特征增强的参数高效微调用于显著性目标检测
我们提出了一种参数高效的微调方法,采用转换器编码器和解码器结构,通过适配器和注入器来提高显著对象的检测能力,并在五个数据集上超过了之前的最先进模型。
- MambaUIE&SR: 揭示海洋的秘密仅需 2.8 FLOPs
通过使用基于状态空间模型的 MambaUIE 方法,可以高效地合成全局和局部信息,仅具有少量参数,并提高准确性。
- 时间序列预测中位置编码的引人注目特性
Transformer-based methods have made significant progress in time series forecasting, but research on positional encoding - MoE-FFD: 面向广义和参数高效的人脸伪造检测的专家混合
该研究提出了一种基于变形器的面部伪造检测方法,利用变形器的表达能力和卷积神经网络的本地先验,同时提取全局和局部的伪造线索,从而实现了一种参数高效的训练方案。在实验证明该方法具有减少参数开销且达到了最先进的面部伪造检测性能。
- CVPRSDPose:基于循环引导自蒸馏的分词姿态估计
SDPose 是一种新的自我蒸馏方法,它基于多周期前向传播设计了一个名为 MCT 的 transformer 模块来提高小型 transformer 模型的性能,同时通过将 MCT 模块的知识提取到一个简单的前向模型中,避免了额外的计算。
- 双向多尺度隐式神经表示的图像去雨
为了有效地探索雨纹的多尺度表示,我们提出了一种端到端的多尺度 Transformer,利用各种尺度上的潜在有用特征来促进高质量的图像重建,并结合空间变化的雨纹的内部尺度隐式神经表示,在复杂场景中提高模型的鲁棒性;通过粗到细和细到粗的信息传递 - SPMamba:语音分离中你所需的全部是状态空间模型
本文以状态空间模型为基础,提出了一种用于语音分离的网络架构,即 SPMamba。通过将 TF-GridNet 模型的 Transformer 组件替换为双向 Mamba 模块,旨在捕捉更广泛的上下文信息。实验结果表明,基于 Mamba 的模 - QEAN:面向视觉舞蹈生成的四元数增强注意力网络
研究提出了一种基于四元数的增强注意力网络(QEAN),用于从四元数的角度进行视觉舞蹈合成,通过引入旋转式位置嵌入和四元数旋转注意力机制,能够更好地学习音乐与舞蹈之间的关联,并在舞蹈生成过程中展现出更好、更稳健的性能。