- Harmony: 一种联合自监督和弱监督框架,用于学习通用的视觉表示
本研究中,我们提出了一种名为 Harmony 的框架,它结合了视觉 - 语言训练和辨别性自监督以及生成性自监督,以学习能够在视觉下游任务中被泛化的视觉特征。我们全面评估了 Harmony 在各种视觉下游任务上的性能,并发现它在 ImageN - CLIP 与优质字幕:强大的视觉任务预训练
简要概述:通过改进图像 - 文本数据集中标题的质量,有助于改善 CLIP 模型的视觉表示质量,并在密集预测视觉任务中取得显著的性能提升。
- 医学、工业及其他领域图像分割中的可解释人工智能(XAI):一项调研
这篇论文针对 XAI 在语义图像分割中的应用,提出了第一份全面的综述。文章对应用类别、领域、评估指标和数据集进行了分析和分类,并提出了可解释的语义分割的分类体系,讨论了潜在的挑战和未来研究方向。
- CVPR广义少样本分割的视觉引导:多尺度方法
通过使用学习到的视觉提示,我们的工作研究了在少样本情况下,通过对 Transformer 解码器进行提示,来提高普适少样本分割(GFSS)任务的效果。我们提出了一种利用少量样本学习视觉提示的方法,通过这些学习到的视觉提示,我们可以对多尺度 - 大型遥感影像密集预测的 RS-Mamba
远程感知图像中的密集预测任务存在挑战,本研究提出了一种基于远程感知 Mamba(RSM)的模型,利用线性复杂度对全局特征进行建模,以有效处理大尺寸的高空间分辨率远程感知图像,并通过全局建模和多方向扫描提取大尺度空间特征等,实验结果表明该方法 - PARMESAN:无参数的内存搜索与密集预测任务转导
通过转导推理的方式解决深度学习中的灵活性问题,提出了 PARMESAN(无参数记忆搜索和转导),一种可扩展的转导方法,通过修改记忆内容实现无需连续训练或微调可学参数的学习,与常用的神经架构兼容,并在连续学习和少样本学习等任务中展现了较快的学 - CVPRViT-CoMer: 具有卷积多尺度特征交互的视觉 Transformer 用于密集预测
ViT-CoMer 是一种纯粹、无需预训练并具有特征增强的 ViT 骨干网络,其通过引入卷积多尺度特征相互作用和 CNN-Transformer 双向融合交互模块,在处理密集预测任务时具有较优的性能。
- 从模型学习视觉:模型对抗学习视觉
通过合成图像和合成标题无需真实数据地学习视觉表征,SynCLR 方法在对合成图像进行对比学习的基础上,将得到的表征在多个下游任务中转移,与其他通用视觉表征学习算法相比,在图像分类任务中表现出色;此外,在诸如语义分割等密集预测任务中,SynC - SCLIP:为密集视觉语言推理重新思考自注意力
通过引入新的自相关自注意力(CSA)机制,增强了 CLIP 在语义分割方面的潜力,并且在零样本 mIoU 方面明显优于现有的 SoTA 结果和原始的 CLIP。
- FreeKD: 语义频率提示下的知识蒸馏
使用频率领域的知识蒸馏方法进行密集预测任务时,Frequency Knowledge Distillation(FreeKD)在吸收语义频率上下文、定位像素兴趣点和提供高阶空间增强等方面取得了比基于空间的蒸馏方法更好的效果。
- 事件相机数据密集预训练
本文介绍了一种自监督学习框架,用于预训练针对密集预测任务的神经网络,该框架使用事件相机数据进行训练,并在转移学习方面展现出卓越性能。
- PolyMaX:基于 Mask Transformer 的通用密集预测
通过泛化基于簇预测的方法,将密集预测任务与掩膜变换器框架统一,我们提出的模型 PolyMaX 在 NYUD-v2 数据集的三个基准测试中展现了最先进的性能。
- AiluRus:一个用于密集预测的可扩展 ViT 框架
通过自适应分辨率和聚类算法,提出一种用于处理密集预测任务中长序列的视觉 Transformer 方法,实现对低分辨率和高分辨率区域的区分,从而加速模型并获得有希望的表现。
- SILC:用自我蒸馏提升视觉语言预训练
基于对 CLIP 模型的改进,本研究提出了 SILC 方法,通过引入本地到全局对应学习来预训练模型,有效提升了计算机视觉领域中的分类、检索和分割等任务的性能,取得了零样本分类、少样本分类、图像与文本检索、无样本分割以及开放词汇分割等方面的最 - CLIPSelf:视觉 Transformer 用于开放词汇密集预测的自我精简
该论文对 CLIP 模型中的区域 - 语言对齐进行了深入分析,并提出了一种名为 CLIPSelf 的方法,该方法能够将 CLIP ViTs 的图像级识别能力应用到局部图像区域中,从而在开放式词汇密集预测任务中取得了最新的最优性能。
- ICCV上下文化本地视觉嵌入的自监督学习
我们提出了 Contextualized Local Visual Embeddings(CLoVE),一种用于密集预测任务的自监督卷积方法,它学习适用于密集预测任务的表示。CLoVE 通过优化单一损失函数来学习从卷积神经网络(CNN)编码 - FLSL: 特征层面自监督学习
本文探究了使用 Transformer 进行联合嵌入和聚类的一种方法,即两级特征聚类自监督学习(FLSL),该方法在密集预测任务中取得了显著的改进,包括目标检测和实例分割,实验表明 FLSL 方法在各项测试中始终表现优异。
- CVPR用于低延迟事件处理的分层神经记忆网络
该论文提出了一种用于事件类密集预测任务的低延迟神经网络架构,该架构通过构建分层的时间记忆来在适当的时间尺度上编码内容,并通过基于注意力机制的事件表示将稀疏事件流编码为记忆单元,有效地提高了准确性和性能。
- CVPRMED-VT:多尺度编码器 - 解码器视频 Transformer 及其在对象分割中的应用
本文提出了一种统一的多尺度编码 - 解码变形器,重点针对视频中的密集预测任务,利用编码器和解码器的多尺度表示提取时空特征以及进行精确的定位,同时采用多对多标签传播的转导学习方案,实现高精度视频对象分割和演员 / 动作分割。
- CVPR稠密预测的概率性提示学习
本文介绍了一种新的概率提示学习方法,利用可学习的类别不可知属性提示描述对象类的通用属性,并与类别信息和视觉上下文知识相结合,定义类别特定的文本分布,通过使用概率像素文本匹配损失来指导密集预测任务,增强了所提出方法的稳定性和泛化能力。实验结果