- 大规模遥感数据集上有效的掩码自编码器学习扩展
这篇研究介绍了 RS-4M,一个大规模的数据集,用于在遥感图像上进行高效的 Masked Image Modeling(MIM)训练。同时提出了一种名为 SelectiveMAE 的高效 MIM 方法,通过动态编码和重构一部分基于语义丰富性 - ColorMNet:基于记忆的深度时空特征传播网络用于视频上色
如何有效地探索时空特征对于视频着色至关重要。我们开发了基于内存的特征传播模块,它可以与来自相隔较远的帧的特征建立可靠的连接并减轻不准确的估计特征的影响。为了从每个帧中提取更好的特征,我们使用大型预训练视觉模型来指导每个帧的特征估计,使得估计 - 基于部件感知能力的视觉自监督编码器统一成员推理方法
在对视觉自监督模型进行成员推断的实践中,我们提出了一种名为 PartCrop 的统一成员推断方法,以剪裁图像中的对象部分来查询表征空间中的图像响应,以应对不同训练协议和结构的自监督模型的攻击,并且为了防御 PartCrop 攻击,我们评估了 - LLM4VG:大型语言模型对视频定位的评估
近年来,研究人员试图调查 LLM 在处理视频方面的能力,并提出了几种视频 LLM 模型。然而,LLM 在处理视频对齐(VG)方面的能力仍然不清楚,也没有在文献中进行探索。为了填补这一空白,本文提出了 LLM4VG 基准测试,对不同的 LLM - 上下文感知元学习
在这项工作中,我们提出了一种元学习算法,通过在推理过程中学习新的视觉概念而无需微调,模拟了类似大型语言模型的能力。我们的方法利用一个冻结的预训练特征提取器,并将元学习重新构造为对具有已知标签的数据点和具有未知标签的测试数据点进行序列建模,从 - XIMAGENET-12:一个可解释的 AI 基准数据集用于模型鲁棒性评估
为了解决标准化鲁棒性评估指标缺乏和过多无关基准数据集的问题,我们引入了 XIMAGENET-12,一个可解释的基准数据集,包含 20 万多张图像和 15,600 个手动语义注释。同时,我们提出了一个新的鲁棒性评估标准,超越了模型生成能力的评 - 视觉编码模型与缩放定律的适用性
探索如何构建高性能视觉编码模型以预测脑活动,通过研究功能性磁共振成像(fMRI)数据中的视觉模型参数大小和样本量对预测准确性的影响,结果表明增加训练集样本量和视觉模型参数大小能够提高预测准确性,从而更好地理解视觉神经科学。
- ICCV重新挖掘、学习和推理:探索跨模态语义相关性用于语言引导的 HOI 检测
通过结构化文本知识,我们提出了一个系统且统一的框架 (RmLR) 来提高人物 - 物体交互检测,通过分析相互作用信息的损失并生成更全面的视觉表示,设计了更精细的句子 - 词级对齐和知识传递策略以有效解决多个交互和多个文本之间的匹配问题,进而 - 视觉调整
本文调查了最近的大量工作,提供现有工作和模型的系统性和全面性概述,将最近的视觉微调技术分为五组:提示微调,适配器微调,参数微调和重新映射微调,并提供前瞻性预训练和视觉微调中的各种交互的激动人心的研究方向。
- CVPRUniHCP: 人类中心感知的统一模型
本文提出了 UniHCP,一个使用简化的端到端模式和平面视觉转换器架构,将广泛的以人为中心的任务统一起来的集成模型,通过在 33 个数据集上进行大规模联合训练,在多个领域和下游任务上直接评估优于强基线结果,在适应特定任务时,UniHCP 在 - 图像语义关系生成
为解决场景图构建的大量人工成本,提出了一种基于图像语义关系生成的简单有效的图像到文本模型(ISRG),该模型通过将场景图任务分解为两个子任务,即图像分割任务和限制性自回归文本生成任务,极大地降低了场景图的构建成本。在 OpenPSG 数据集 - ICLR自监督视觉预训练的掩码频率建模
本文提出了一种基于频域的自监督预训练的方法,称作 Masked Frequency Modeling(MFM),通过在图像的频率分量上进行遮蔽,并预测其丢失的频率信息来学习图像的表示,实验证明该方法在图像分类、语义分割以及鲁棒性测试方面的性 - CVPR通过潜在的视觉语义过滤器注意力解释深度卷积神经网络
LaViSE 提出了一个新的方法,可以在不依赖于任何数据集的前提下,在指定层级产生数据语义化描述,并通过它的模块化结构来方便任何训练完毕的模型的分析,如 CNN 等。并通过这种方法来检测出隐藏的数据集偏见或比较不同子集。
- 民主化对比语言 - 图像预训练:一个数据、模型和监督的 CLIP 基准
本文提出 CLIP-benchmark,对 CLIP 及其变种进行评估、分析和基准测试,并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高 CLIP 性能。
- 社交媒体中图片在分析声明中的作用
本文通过分析图像、文本和多模型检测虚假新闻,特别是使用变形金刚模型的文本和多模型对索赔和阴谋检测任务的作用,确定图像在虚假新闻检测中的作用。
- 真实数据分布的联邦视觉分类
本研究探讨如何在真实世界的场景下训练视觉模型。我们使用了两个新的大规模数据集,测试了 Federated Learning 算法的表现,并提出了两种新的算法以优化模型的表现。
- 测量非同一数据分布对联邦视觉分类的影响
本文研究了 Federated Learning 在视觉分类中的作用,提出了通过服务器的惯性防止非同质数据分布对性能的负面影响,并在 CIFAR-10 上进行了实验,结果表明在不同的非同质性数据分布下,这种方案能够显著提高分类准确率。
- CVPR基于教学视频的跨任务弱监督学习
采用弱监督学习框架,通过使用教学说明和有序步骤列表而非强监督学习形式的时间标注,学习普通任务中步骤的视觉模型,提出了一种组件模型用于识别步骤,实验结果表明,跨任务共享有助于提高组件水平的性能。
- 从声音学习视觉:环境声音辅助视觉学习
用环境声音作为监督信号,训练了一个卷积神经网络以预测视频帧所关联的声音的统计摘要,进而学习到了能够传达关于物体和场景信息的表示,表现与其他最先进的无监督学习方法可比。
- ECCV环境声音提供视觉学习的监督
该论文表明,可以使用环境声音作为学习视觉模型的监督信号,他们通过训练卷积神经网络预测与视频帧相关联的声音的统计摘要的过程,展示出网络可以学习传达有关物体和场景的表示,并在几个识别任务上评估了该表示,发现其性能与其他最先进的无监督学习方法相当