- CVPRToSA:用于高效视觉 Transformer 的令牌选择性注意力
本研究提出了一种新颖的令牌选择性注意力方法,即 ToSA,它可以识别需要参与注意力的令牌以及可以跳过变换器层的令牌。通过应用 ToSA,我们能够显著减少计算成本,同时在 ImageNet 分类基准上保持准确性,并在 NYU Depth V2 - 通过特殊设计的上采样和注意力,实现密集预测的二进制量化神经网络
提出了一种有效的上采样方法和高效的注意力计算策略,以实现从单一预测任务到密集预测任务的二进制神经网络(BNN)成功的转移。在 Cityscapes、KITTI road 和 ECSSD 上的实验充分显示了我们工作的有效性。
- CVPR高效多任务密集预测器通过二值化
利用网络二值化和知识蒸馏机制加快多任务密集预测模型的速度,同时保持甚至提高模型性能。
- 自适应深度监督下密集解码网络的医学图像分割
提出了一种基于深度神经网络的医学图像分割方法,通过引入 ' 拐杖 ' 网络连接以获得精细的密集预测,并采用自适应深度监督训练策略以提取鲁棒特征。通过在网络解码器的每个上采样阶段引入 ' 拐杖 ' 连接,增强了目标定位和分割性能,并通过匹配网 - CLIP 可以理解深度
通过训练一种紧凑的卷积解码器和一个名为 mirror 的微小可学习的嵌入矩阵作为文本编码器的静态提示,本研究展示了如何通过最小的调整将视觉 - 语言基础模型(如 CLIP)的先验知识推广到学习预训练期间具有挑战性的领域,提高了单目深度估计的 - 全分辨率 MLP 加强医学密集预测
本研究针对医学图像恢复、配准和分割等医学视觉任务中的密集预测问题,提出了一种以多层感知器为基础的全分辨率分层框架,通过利用全图像分辨率下的组织级纹理信息,该框架可以在医学图像上实现长程依赖关系,并在多个公共数据集上的广泛实验中展示出超越卷积 - CLIP 轻量级语义分割
通过引入一个新的特征融合模块,本研究提出了一种解决使用轻量级网络的语言引导范式的方法,该模块能够在嵌入空间中促进视觉和文本特征的接近和对齐,并展示出优于之前的最佳方法的性能。
- SANPO: 场景理解、可达性、导航、寻径和避障数据集
SANPO 是一个大规模的自我中心视频数据集,重点关注户外环境中的密集预测。它包含了在各种户外环境中收集的立体视频会话以及渲染的合成视频会话。此外,该数据集还提供了零样本基准和 SANPO 基准,以用于未来的研究。
- 少样本分割的遮罩跨图像编码
我们提出了一种名为 Masked Cross-Image Encoding (MCE) 的联合学习方法,用于解决很少有标注样本的图像分割任务,通过捕捉物体细节,学习双向跨图像依赖关系来增强特征交互,进而提高元学习能力,在 PASCAL-$5 - AAAI具有门控机制的可变形混合变压器用于密集预测的多任务学习
通过结合可变形卷积神经网络(deformable CNN)和基于查询的 Transformer 的优点,并采用共享门控机制,我们提出了一种新颖的多任务学习模型 DeMTG。该模型具有任务特定的强大灵活性,相较于传统的多任务学习方法,其成本更 - ComPtr:通过简单而通用的互补 Transformer 实现多元双源密集预测任务
本文构建了一种新型的用于多源密集预测任务的互补转换器,ComPtr,通过信息互补性和差异感知组件,从不同的图像源中提取重要的视觉语义线索,构建了一种高效的密集交互模型,在多个代表性视觉任务中,该方法始终获得了良好的性能。
- CVPRDSFNet: 双空间融合网络用于鲁棒性遮挡的 3D 密集面部对齐
本文提出了一种将 3D 脸部几何模型在图像和模型空间联合建模的方法,通过稠密预测先回归可见面部区域的图像空间特征,再基于模型空间方法预测模型系数,最终通过融合网络将两种方法的优点结合起来,从而实现无限制情境下高鲁棒性和高精度的 3D 密集面 - Avatar 知识蒸馏:自我集成教师模式与不确定性
本文提出一种新的知识蒸馏方法 ——Avatar Knowledge Distillation (AKD),通过生成因扰动转化而得的不同推理集合模型(Avatars)来协助学生模型更有效的学习,同时提出了一种基于推理模型差异的不确定性感知因素 - 学习神经本征函数进行无监督语义分割
本文提出了一种使用基于神经网络的特征函数实现光谱聚类的方法,将神经网络特征作为输入,通过轻量级的神经特征函数实现密集预测,实验结果表明该方法在 Pascal Context、Cityscapes 和 ADE20K 基准测试上具有显著的性能优 - AAAIDeMT: 变形混合变压器用于密集预测的多任务学习
本研究提出了一种利用可变形卷积神经网络和基于查询的 Transformer 相结合的多任务学习模型,名为 DeMT,该模型在进行密集预测方面使用更少的 GFLOPs,并且在多项指标上明显优于当前的基于 Transformer 和 CNN 的 - 通过条件生成对抗网络提高基于传感器的动物行为分类性能
本研究通过采用改进后的 U-Net 架构和条件生成对抗网络(CGAN)将分类模型扩展到更多时间点判断,提高活动识别的性能,对包括奶牛、猪在内的数据集进行了测试,并显示出明显的改进。
- 利用表示相似性引导的多任务特征共享来抑制任务干扰
本研究提出一种渐进式解码融合(PDF)方法,通过基于任务表示相似性逐步结合任务解码器,缓解任务干扰,同时利用解码器共享的归纳偏差,提高多任务网络的泛化能力和对抗攻击鲁棒性。
- ECCVFADE:融合解码器和编码器的特征用于任务无关上采样
本论文提出了一种新的、即插即用的、面向任务不可知的上采样算子 FADE,它在密集预测中具有高效性和良好的泛化性能,能够同时适用于像素级别的语义分割和图像蒙版等领域,且比近期动态上采样算子在不同任务上表现更好。
- 多任务学习与多查询变换器用于密集预测
本文提出了一种名为 “Multi-Query Transformer” 的多任务模型,利用多个任务相关的查询来进行跨任务推理,通过查询在多个任务之间建立联系,使得跨任务交互变得简单高效,并在两个密集预测数据集(NYUD-v2 和 PASCA - ICLR用于密集预测的视觉 Transformer 适配器
本文提出一种基于适配器的简单而强大的密集预测任务适配器,用于解决 Vision Transformer (ViT) 在密集预测中的性能较差问题,并成功应用于目标检测、实例分割和语义分割等多种密集预测任务中,其中 ViT-Adapter-L