- CVPRViTamin:设计可扩展的视觉模型在视觉语言时代
该论文介绍了一种基于对比性语言 - 图像预训练框架的视觉模型评估协议,其中引入了一种新的视觉模型 ViTamin,该模型在零样本任务和模型规模扩展等方面表现出色。
- MVEB:多视图熵瓶颈的自监督学习
自我监督学习通过最大化两个视图的嵌入间的一致性和嵌入分布的差分熵,提出了多视图熵瓶颈方法(MVEB)来有效地学习最小的充分表示。实验证实,MVEB 显著提高了性能,在使用 ResNet-50 骨干网络进行线性评估时,ImageNet 的 t - 数据源的重要性:医学影像模型的鲁棒性受数据源影响
调查传统学习与样本数据是否能够解释医学图像分类任务中的性能提升,结果显示经 ImageNet 预训练与经 RadImageNet 预训练的模型在分类性能上相似,但 ImageNet 更容易过拟合。建议使用 ImageNet 预训练模型的研究 - ICCV基于概念聚类复杂性的大规模网络数据集的有效剪枝
利用大规模网络数据集进行训练会消耗可观的计算资源,本文研究通过修剪大规模多模态数据集来提高训练效率,并通过筛选高质量数据集以降低训练成本,从而在 ImageNet 数据集上取得了更好的性能。
- 面向每个人的分类:构建地理无关模型以实现更公正的识别
本文分析了不同方法来减轻现有图像分类模型中存在的地理偏差。我们首先定量地展示了这种偏差在两个数据集中的存在情况 - Dollar Street 数据集和 ImageNet,并使用带有位置信息的图像。然后,我们提出了可以用来减少这种偏差的不同 - 医学影像中弗雷歇距离计算中特征提取的重要性
比较了在医学图像中计算 Fréchet 距离(FD)的最先进特征提取器,并通过可视图灵测试将人类评估的生成质量与使用 ImageNet 训练的 InceptionV3、ResNet50、SwAV、DINO 和 Swin Transforme - ImageNet 模型错误的自动分类
自动化错误分类框架的综合评估表明,尽管 top-1 准确率未能完全衡量模型的真实性能,但仍然是一个有价值的性能指标,对错误类型的占比具有强大的预测能力。
- 系统性、实践性和公正性地评估基于传递的攻击
该论文探讨了深度神经网络(DNNs)的对抗性脆弱性,并建立了一个基于转移的攻击基准(TA-Bench)来评估和比较 30 多种方法在 ImageNet 上的 25 个受害模型,从而提供了这些方法的有效性新见解和未来评估的指导。
- 使用激活色调损失对深度 CNN 层进行上色
该论文提出了一种新的色调类似的角度参数来模型化深度卷积神经网络(CNN)激活空间的结构,称为激活色调,以实现更有效的学习的目的。通过对预训练网络的激活向量进行最近邻索引的一系列观察表明,类别信息激活在图像平面上的角度 θ 以及多通道激活空间 - NormKD:标准化的知识蒸馏
本文提出了一种基于标准化的知识蒸馏方法(NormKD),通过自定义每个样本的温度来提高知识蒸馏的效果,并在图像分类的任务中表现出明显的优越性。此外,NormKD 可轻松应用于其他基于 logit 的方法,并达到接近或甚至超越基于特征的方法的 - 物体识别基准的进展是否改善了现实世界的泛化能力?
通过对全球家庭物品的两个数据集进行广泛的实证评估,我们首先确定了标准基准和现实世界地理转变之间的进展差距,接着通过测量不同地区性能的差异,研究了模型在地理上的泛化能力,并发现了地理差异的增加是传统基准进展的副作用。最后,我们强调了在更具代表 - 跨领域边界探索迁移学习的实用性:为什么我的医学 AI 要查看鸟类图片?
研究表明,在医疗和自然图像领域中使用自监督的数据预训练可以比在 ImageNet 上表现更好,其可取得可比或更好的效果并展示了基于领域边界的广义间隙和特定领域中学到的特征。
- ICLR透过语言瓶颈学习分类:言语中的视觉
本研究训练了一个视觉模型,使用基于文本的特征表征图像,以达到在图像分类方面有效且具有可解释性的成果,进一步探讨了训练过程中遇到的挑战。
- 关于数据污染攻击的聚合防御实践方面
本论文重点评估了代表聚合防御的 Deep Partition Aggregation 的实用方面,包括效率、性能和鲁棒性,通过使用 ImageNet 进行评估,提供了有价值的洞见,以缓解数据中毒的威胁。
- ImageNet 与 LAION 的差异
通过仅基于图像标题搜索 LAION 数据集对 ImageNet 进行重建,我们发现重建后的数据集 LAIONet 与原始数据集有很大区别,同时提出数据生成过程的微小但重要差异以解释这种不一致性。
- 基于分片的密文同态加密数据的高分辨率卷积神经网络
本文介绍了一种基于 RNS-CKKS 同态加密方案的深度卷积神经网络(DCNNs)的加密评估方法,通过对图像进行简化且高效的同态评估,获得了高精度对高分辨率 ImageNet 数据集的评估结果,同时在 CIFAR-10 数据集上获得了最高的 - 掩蔽变换器应用于扩散模型快速训练
本论文提出了一种使用掩码 Transformer 训练大型扩散模型的高效方法,实现了在不牺牲生成性能的情况下,仅使用 31%的训练时间达到与最先进的扩散变压器模型相同性能的效果。
- 视觉 Transformer 预训练中遮蔽和置换视觉令牌的学习
本研究提出了一种名为 MaPeT 的新型自监督预训练方法,旨在提高基于视觉任务的性能并解决输入噪声和不一致性问题,实验结果表明其在 ImageNet 数据集上具有与竞争对手相媲美的性能。
- 使用图像标签增强零样本检测训练
该研究使用 ImageNet 图像标签结合 CLIP 嵌入空间,解决了零样本检测中输出嵌入对齐问题,实现了在 COCO 上的高准确度
- 使用大小约束优化解锁更深网络的特征可视化
MACO 是一种简单的方法,通过优化相位谱并保持幅度恒定以确保生成的解释属于自然图像空间,从而解决了针对更深的神经网络进行可解释图像生成的问题。