- 一种用于无监督可变形图像配准的轻量级残差网络
使用改进的卷积神经网络进行体积图像配准,提供增强的感受野,减少参数并在受限的训练数据集上取得与基于 Transformer 方法相当甚至稍好的性能。
- 时空谱图神经网络
空间消息传递图神经网络(MPGNNs)具有学习图结构数据的广泛应用。我们提出了时空谱图神经网络(S$^2$GNNs),它在模型中结合了空间和频谱参数化图滤波器,从而解决了目前的局限性,并且在性能上超越了现有的方法。
- CVTGAD: 跨视图关注的简化 Transformer 用于无监督图级异常检测
提出了一种新颖的基于简化 Transformer 和跨视图注意力的无监督图级异常检测方法 CVTGAD,通过构建简化 Transformer 模块和设计跨视图注意力机制,实现了图神经网络和 Transformer 的协同工作,大幅提升了异常 - 无穷时域图滤波器:利用幂级数增强稀疏信息聚合
提出了一种名为图力滤波神经网络(GPFN)的新方法,通过使用幂级数图滤波器来增强节点分类性能。GPFN 设计了一种新的建立图滤波器的方式,并论证了其能够集成任何幂级数并捕捉长程依赖关系,实验结果表明 GPFN 优于现有基准模型。
- 对称视觉注意力网络实现高效图像超分辨率
通过应用大感受野,我们提出了一种称为 Symmetric Visual Attention Network (SVAN) 的方法来改进高效超分辨率重建,减少了算法参数的数量并提高了模型的感知能力。实验结果表明,我们的方法只使用了现有 SOT - 关于学习流体动力学中的本地神经算子的局部性
本文讨论了局部神经算子(LNO)的局部性问题,探究了其感受野和感受范围,并发现初始感受范围对于 LNO 良好表现至关重要。通过大量实验验证,本文得出了适用于不同领域的局部神经算子学习瞬态偏微分方程的普适规律,并通过实际案例验证了预训练的 L - TCNCA: 多段关注的时间卷积网络用于可伸缩的序列处理
TCNCA 是一种具有切分关注力的时间卷积网络,通过用一种特殊的时间卷积网络替换线性递归操作,在减少计算复杂度的同时提供更大的感受野大小和更浅的网络结构。在多个任务中,TCNCA 表现优于 MEGA,并在处理非常长的序列长度时具有可扩展性。
- OSM 与高清地图:轨迹预测的地图表达
利用 OpenStreetMap (OSM) 作为长期动态预测的替代方案,取得了竞争力的表现,并在不同场景中进行了深入分析,为自动驾驶中的长期动态预测提供了潜在可扩展的解决方案。
- DAT++:具有可变形注意力的空间动态视觉变换器
通过引入一种新的可变形多头注意力模块,Deformable Attention Transformer(DAT)有效地解决了 Transformer 模型中存在的注意力范围过大和过于手工化的问题,从而提高视觉识别任务的性能。实验证明,DAT - 评估原型部分解释的空间不对齐的可解释性基准
分类研究了典型的基于部件的网络及其自解释特性,指出其相似度映射存在的空间解释错位问题,并提供了一种解决方法,通过实证研究验证了该方法的有效性。
- MM具有更稠密感受野的循环自监督视频降噪
自监督视频去噪中的 Blind Spot 网络限制导致先前的方法在整个参考帧或邻居帧中存在重要信息丢失和纹理破坏,RDRF 方法通过更密集的感受野充分利用参考帧和邻居帧的信息,并更好地利用本地和远程邻居特征的时间信息。
- TLNets:用于长序列时间序列预测的转换学习网络
提出了基于变换的网络架构设计计划,包括傅里叶变换、奇异值分解、矩阵乘法和卷积块。这些变换机制在学习中具有增强的可接受范围,可以跨尺度融合特征。经过多次测试比较,基于该设计计划的 TLNets 在长期时间序列预测方面表现有明显的潜力。
- CVPRPillarNeXt: 针对 LiDAR 点云的 3D 物体检测重新思考网络设计
本文提出了基于 pillar 的算法模型在 LiDAR 3D 目标检测中的效果以及在架构和训练等方面的现代化设计,通过扩大感受野等方法取得了显著提升,在 Waymo 开放数据集和 nuScenes 数据集上实现了最优性能。
- 自然图像抠像中的上下文聚合方法再思考
本文提出了一种简单而有效的自然图像抠图网络 AEMatter,它利用外观增强的轴向学习块扩大了感受野,并采用混合变压器编解码器,在四个数据集上的实验结果表明,AEMatter 在抠图方面的表现明显优于现有的方法,特别是在 Adobe Com - CVPR基于激光雷达的三维识别球形变压器
本文提出了一种名为 SphereFormer 的方法,通过设计射线窗口自我关注机制,将密集的近距离点聚集到稀疏的远距离点,从而扩大感受野,提高了稀疏远距离点的性能,并在 nuScenes 和 SemanticKITTI 语义分割基准测试排名 - 时间序列分类的动态稀疏网络:学习如何 “看见
本文提出了一种动态稀疏网络 (Dynamic Sparse Network),旨在解决时间序列数据在信号范围上的多样性造成的痛点,通过动态稀疏训练的方式探索区域约束下的稀疏层卷积核,无需超参数调整,减少了计算资源成本,达到了比其他方法更精确 - CVPRInternImage: 使用可变形卷积探索大型视觉基础模型
本研究提出基于卷积神经网络的 InternImage 模型,采用可变形卷积作为核心操作,实现了大规模参数和训练数据的增益,具有满足检测和分割等下游任务所需的大有效感受野,以及由输入和任务信息条件约束的自适应空间聚合,有效降低了传统 CNN - 针对区分度和可迁移性的一阶段少样本目标检测器
提出了 Few-shot RetinaNet (FSRN) 算法,该算法解决了传统单级 FSOD 算法性能较弱的问题,主要是通过在损失函数中增加前景样本并使用广阔的感受野和增强转移技术来提高判别能力和可转移性,比两级 FSOD 算法快近两倍 - ECCVFast-ParC:面向卷积神经网络和 ViTs 的位置感知全局核
本研究在计算机视觉领域中,提出了一种新的神经网络算子,名为 “位置感知循环卷积(ParC)”,通过使用全局内核和循环卷积捕捉全局特征,同时采用位置嵌入来保持位置敏感性,进一步提出了其加速版本 Fast-ParC,通过 FFT 算法将复杂度 - ICLR注意力可收缩变换器用于精确图像恢复
本文提出了 Attention Retractable Transformer (ART) 用于图像修复任务,通过在网络中使用稠密和稀疏注意力模块,实现更广泛的接受域并提高了 Transformer 的表征能力。大量实验结果验证了该方法在各