- 膳食管理的营养估计:基于深度感知的变形器方法
NuNet 是一种基于变压器的网络,利用食物图像的 RGB 和深度信息进行营养估计,通过多尺度架构和融合模块,实现了最低已知的 15.65% 的误差率,在饮食管理方面具有重要实用价值和跨国研究和部署的潜力。
- 轻量级语义分割的多层特征逐级聚合解码方案
通过多级视觉变换编码器中的多级特征,本文提出了一种新颖的语义分割解码方案,旨在降低计算开销、提高分割准确性,并通过聚合后的语义增强多级特征,从注意力分配的角度保持上下文一致性,大幅降低计算成本。实验结果表明该方案在计算成本上优于现有语义分割 - GraphFit: 学习多尺度图卷积表示用于点云法向估计
本文提出了一种精确高效的方法,用于处理非结构化三维点云上的噪声与非均匀密度,并通过图卷积特征表示学习局部邻域几何信息进行法向量估计,设计了基于注意力机制的自适应模块,进一步增强了法向估计器对点密度变化的鲁棒性,并引入多尺度结构提取图块来学习 - C2FTrans: 用于医学图像分割的粗 - 细双向变换器
本文提出了一种新颖的多尺度架构 C2FTrans,它将医学图像分割形式化为粗 - 细过程。其中包含了一个跨尺度全局 Transformer 和一个边界感知局部 Transformer,能够在保持精细的同时降低计算复杂度,并在三个公共数据集上 - 单图像去噪的多尺度自适应网络
本文提出了一种基于多尺度自适应网络的单张图像去噪方法 (MSANet), 它同时考虑了尺度间的互补性和尺度内部的特征,并提出了自适应特征块 (AFeB), 自适应多尺度块 (AMB) 和自适应融合块 (AFuB) 进行实现,并在多组图片去噪 - 使用状态空间模型生成音频
本文提出 SaShiMi,一种基于 S4 模型的新型波形建模多尺度架构。相对于现有的波形建模方法,SaShiMi 在自回归生成方面具有最先进的性能,生成的钢琴和人声波形质量更高,密度估计和速度都比 WaveNet 更好。
- CVPR消息传输器:通过操作信使令牌交换本地空间信息
本文介绍了一种名为 MSG token 的新型令牌,用于提高 Transformer 模型在高分辨率图像处理任务中的效率,本文所提出的包含 MSG token 的多尺度体系结构 (MSG-Transformer) 在图像分类与物体检测方面取 - CVPR基于图形堆叠沙漏网络的三维人体姿态估计
本文提出了一种新的图卷积神经网络架构,用于 2D 到 3D 人体姿态估计任务,并使用多尺度、多级别特征表示的多尺度架构进行了实验,结果表明该模型优于现有技术,并取得了更好的表现。
- 小波流:高分辨率归一化流的快速训练
本文介绍了基于小波变换的多尺度归一化流 Wavelet Flow,它具有低分辨率信号的显式表示和高分辨率信号的条件生成等多个优点,并在比特 / 维度标准测试中表现出与以前的归一化流相媲美的性能。
- CVPR尺度局部化的抽象推理
该研究提出了一种多尺度架构,用于处理抽象关系推理任务中的空间和语义关系,其优于现有技术在所有基准测试中的成功表明来自多种创新,包括:在多个解析度中搜索关系模式,优化每个分辨率的推理网络并构建一个新的 RAVEN-FAIR 数据集。
- Key.Net: 通过手工设计和学习卷积神经网络滤波器进行关键点检测
介绍了一种新颖的关键点检测方法,该方法结合了手工制作和学习的 CNN 滤波器,使用浅层的多尺度架构,在网络中使用尺度空间表示,在不同的层面提取关键点,并设计了一种损失函数来最大化关键特征的可重复性,使用 ImageNet 数据集创建了合成数 - ST-UNet: 用于图结构时间序列建模的时空 U 型网络
文章讲述了设计一种新的多尺度体系结构,Spatio-Temporal U-Net(ST-UNet),用于图形结构的时间序列建模。该模型可有效地捕获多个尺度的综合特征,并在多个真实世界数据集上实现了显着的改进。
- 动态时间金字塔网络:更深入地研究多尺度建模用于活动检测
本文提出了 “动态时间金字塔网络”(DTPN)来解决活动检测领域中的主要挑战,包括如何有效应用多尺度架构以及如何处理活动实例的固有时间尺度变化。通过将多种新设计结合为统一网络,实现了单次推理和端到端训练,从而取得了状态的最佳性能。
- CVPR重新思考 Faster R-CNN 架构,用于时间段行为定位
介绍了基于 Faster R-CNN 的 TAL-Net 方法,通过多尺度架构、适当扩展感受野、多流特征融合等方式改进了视频中的时间动作定位,实现了在 THUMOS'14 目标检测基准和 ActivityNet 挑战赛中的平均最优表现。