- 度量卷积:自适应卷积的统一理论
使用隐式度量的球体来采样,提出了可解释的具有几何正则化的几何卷积方法,可以替换现有的卷积操作并在标准去噪和分类任务中表现出竞争性能。
- 对高斯导数算子的混合离散化相对于连续尺度空间的近似特性
这篇论文对基于与归一化采样高斯核或积分高斯核的卷积的两种混合离散化方法的属性进行了分析,并与基于显式采样高斯核或积分高斯核的更直接导数近似进行了比较。研究表明,在不同阶数的多个空间导数在相同尺度下需要计算时,这些离散化方法可以显著提高计算效 - 光谱卷积变换器:为视觉变换器协调实数与复数多视角光谱算子
通过在初始层使用卷积操作捕获局部信息,并利用复杂的傅里叶基函数捕获全局信息,我们提出了光谱卷积变换器(SCT),在减少参数的同时提供了在 ImageNet 数据集上胜过现有方法的性能改进,达到了 84.5%的 top-1 准确度,在 CIF - 豪笑鬣狗酿酒厂:从卷积中提取紧凑的重现
通过提取低维线性状态空间模型以及改进卷积层的结构,本文实现了每个标记的 O (1) 计算和内存开销,从而降低内存占用并提高生成过程的吞吐量,而无需牺牲质量。
- 自动使用梯度学习层间等变性
卷积将等变对称性编码到神经网络中,从而提高泛化性能。为了允许灵活的对称约束,我们改进了软等变性的参数化,并通过优化边缘似然来学习层面的等变性。我们展示了在图像分类任务上自动学习层面等变性的能力,获得了与硬编码对称性基线相当或更好的性能。
- 利用结构化状态空间模型增强在线语音识别的构型
在线语音识别中,通过将结构化状态空间序列模型(S4)与卷积相结合,可以提高神经编码器的性能并实现更低的识别错误率。
- 卷积神经网络注入变换器用于图像曝光校正
本文提出了一种结合了 CNN 和 Transformer 的 CNN Injected Transformer (CIT) 方法,利用窗口型 Transformer 的长程依赖建模能力来处理曝光校正问题,并通过引入一组精心设计的损失函数来改 - YOLO-MS:实时物体检测的多尺度表示学习再思考
提供高效且表现良好的目标检测器 YOLO-MS, 基于对不同核大小的卷积如何影响不同尺度物体的检测性能进行一系列研究来实现。新的策略能够大大增强实时目标检测器的多尺度特征表示。在 MS COCO 数据集上训练的 YOLO-MS, 不依赖于其 - 张量网络视角下的卷积
本研究通过张量网络对卷积进行了全新的视角探讨,通过图表述来研究其基础性质,证明了该方法的表达能力,并通过实验证明了其对于多种卷积操作的适用性和有效性。
- 在黎曼流形上进行高阶规范等变 CNN 和应用
本文介绍一个高阶推广的标准等变卷积的实现方式,即等变 Volterra 网络,使得在给定的接受范围内可以建模空间扩展的非线性交互,同时保持全局同构等变性,最后将它应用到神经影像数据的分类中。
- 通过重复微分实现神经场卷积
本文介绍了一种使用经过训练的积分场实现大规模卷积的方法,用以弥补神经场作为连续信号表示方法而不易进行信号处理的问题。作者在各种数据模态和空间变化的核上演示了该方法。
- 模型拼接和可视化:如何实时倒置 GAN 生成器中的网络
本研究提出了一种快速准确的方法,利用卷积将分类和语义分割网络的激活与 GAN 生成器拼接起来,以快速提供附加信息来解释深度学习方法所做出的决策。我们在动物图像和数字病理学扫描的真实组织样本上测试了我们的方法,在这些数据集上,我们的方法与已建 - 基于胶囊神经网络的单图像超分辨率
本文研究使用胶囊网络进行单张图像超分辨率处理,在实验中发现胶囊网络相比传统卷积方式需要较少的层数却能达到较好的效果,证明了将胶囊网络应用于图像超分辨率问题是值得尝试的。
- e3nn:欧几里德神经网络
e3nn 是一种通用的框架,用于创建 E (3) 可变换的可训练函数,操作对象为描述三维系统的几何和几何张量,并能运用核心的张量积类和球谐函数来构建复杂的模块,例如卷积和注意力机制,可用于高效地处理张量场网络,三维中的可定向卷积神经网络,C - 2020 年代更多的 ConvNets:使用稀疏性将核心扩展到超过 51x51
本论文研究了在极端卷积核上训练和验证了能够光滑扩展卷积核的方法,提出了一种基于此方法的纯卷积神经网络结构 SLaK,可以在图像分类和各种下游任务中实现与分层变压器和现代 ConvNet 结构相当甚至更好的性能表现。
- ECCVMaxViT:多轴视觉变压器
该研究通过引入多轴关注模型和卷积等新元素,提出了一种高效且可扩展的注意力模型,即 MaxViT。利用 MaxViT 作为骨干网络,在图像分类和物体检测等任务上都取得了领先的性能。同时,该模型还证明了其在图像生成方面的潜在优势。
- ACL卷积与自注意力:重新解释预训练语言模型中的相对位置
该研究探讨了卷积和自注意力在自然语言任务中的关系,提出了一种将卷积融合到自注意力中的方法,并使用 BERT 在多个下游任务上验证了卷积相对于绝对位置嵌入的性能优势。
- 探索内在归纳偏差的视觉变换器高级版
论文提出了一种新的具有局部偏好和尺度不变性的图像模型 ——ViTAE,其利用多个卷积模块降采样并将输入图像嵌入到多尺度上下文具有丰富的令牌中,从而学习到具有鲁棒性的对象特征表示。
- CVPR基于 CUDA 的三维网格深度学习库 - Picasso
这篇论文介绍了 Picasso,一种基于 CUDA 的库,包含用于处理现实世界复杂 3D 网格的深度学习模块。它在多尺度特征提取方面非常有效,设计了 GPU 加速的网格简化来提高网络分辨率降低的效率,并包含三种新颖卷积来学习网格特征。
- MultiRocket: 多重池化算子和转换,用于快速有效的时间序列分类
MultiRocket 是一种快速时间序列分类算法,采用多个池化操作和转换来改善生成的特征的多样性,通过将一阶差分用于原始序列,应用卷积于两个表示,并对卷积输出应用四个池化算子。在 UCR 台州大学时间序列分类基准数据集上对其进行基准测试时