- 深度综合解释
该研究提出了 Deep Integrated Explanations(DIX)—— 一种用于解释视觉模型的通用方法,通过整合模型的中间表示和相应的梯度来生成解释图,通过广泛的客观和主观评估展示了 DIX 在生成准确和可靠的解释图方面超越了 - 启发式视觉预训练的自监督和有监督多任务学习
提出了一个结合自监督学习和监督学习的多任务预训练框架,用于识别多种视觉任务,结果表明该模型能够达到或超过多个视觉任务的最先进结果的能力。
- Google 巴德对抗图像攻击的鲁棒性
通过对 Google 的 Bard 进行攻击,该研究揭示了商业多模态大型语言模型(MLLMs)的脆弱性,发现了两种 Bard 的防御机制并提出了相应的攻击方法,从而深入了解了 MLLMs 的鲁棒性,并促进未来研究的发展。
- 学习的视觉特征到文本解释
利用大型语言模型解释视觉模型的学习特征,通过训练神经网络建立图像分类器和语言模型之间的连接,生成大量的句子来解释分类器学习到的特征,并提取最频繁的词语,增强图像分类器的解释性和鲁棒性。
- 对基础视觉模型的对抗性攻击
本研究通过攻击深度特征表示来操纵开放世界感知模型,以解决封闭集下游任务,并在白盒、黑盒和模型类型迁移的情况下展示攻击的有效性,旨在识别这些模型的关键敌对弱点,以提高未来设计的鲁棒性。
- 数字艺术史
重新审视 Johanna Drucker 的问题,“数字艺术史是否存在?” 并基于大规模、基于转换器的视觉模型的出现,分析其认识论含义和方法论功能,揭示数字艺术史存在一种即将到来的 “数字” 意义的范式转变。
- ALP:面向感知的动作感知学习
本文提出了一种基于行为感知的具有身体的学习框架,该框架通过结合强化学习和反向动力学预测目标来将行动信息纳入表示学习中,主动探索复杂的 3D 环境,从而学习可推广的任务不可知表示,并收集下游训练数据,以目标检测和语义分割任务为例,证明了该方法 - Rosetta 神经元:在模型库中挖掘公共基元
本篇论文旨在探究在不同任务、架构和不同监督方式(包括有标签和无标签)的神经网络中,是否存在一些相同的表征。研究发现,通过挖掘 Rosetta Neurons 字典,可以发现在不同的视觉模型中都存在一些通用的视觉概念和结构,这些 Rosett - 快速压缩友好的预训练网络转换中的锐度最小化
本文提出了一种预训练的锐度最小化网络转换(SNT)方法来创建具有理想可压缩性和可推广性特征的模型,并发现 SNT 能够跨不同压缩任务和网络骨干通用,并提出 SNT 是首个使用架构转换生成压缩友好型网络的预训练方法。
- Instruction-ViT: ViT 中用于指令学习的多模态提示
本篇论文研究了采用提示(prompt)对图片进行分类的方法,通过引入多模质询与 fine-tuning 相结合的方式,提高了图片分类的性能和领域适应性。
- Internet Explorer:基于开放网络的有针对性表示学习
本文提出了一种基于互联网动态学习图像视觉任务的方法,通过自监督学习和主动学习策略,使用一个单一 GPU 的台式机在 30-40 小时内就可以实现超越 CLIP 的性能表现。
- Paparazzi:深入探究语言和视觉模型在观点描述中的能力
本论文研究了 CLIP 模型在 3D 环境下对物体视角描述和识别中的表现以及对少量可用训练数据条件下的硬负采样和随机对比进行微调。
- 基于卷积神经网络的更好输入掩模设计
为了使卷积神经网络更易于解释,我们提出了一种被称为层遮蔽的遮蔽技术,可以模拟仅对未遮蔽的输入运行 CNN 的效果,并发现该方法能够消除 CNN 与变压器之间的可解释性差距,甚至在许多情况下使 CNN 更易于解释。
- Pro-tuning: 视觉任务统一提示微调
该论文提出了基于 prompt 调节(Prompt tuning,Pro-tuning)的方法来替代 fine-tuning,适应于各种冻结视觉模型到不同的下游视觉任务。实验结果表明,这种方法在图像分类和密集预测任务方面表现优于 fine- - 标题:标题值得 1000 张图片?控制学习的研究
通过比较图像和语言数据的传输表现,研究证明,当预训练数据集足够大而又包含了低变异性的描述性标题时,对于分类任务来说,仅使用图像的方法不能与 CLIP 的传输性能相匹配。
- 机器学习模型大小与参数差距
研究发现在过去 70 年里,语言模型的模型尺寸增加了 7 个数量级,在 2018 年至 2022 年的 4 年间加速增长了 5 个数量级,而视觉模型则保持了更稳定的增长;针对 21-70B 参数范围的模型短缺性,研究者提出两种可能的解释并分 - 使用径向光束采样学习连续旋转规范化
提出了一种基于射线束抽样和径向滤波器的图像规范化模型及其训练方法 BIC,实现了对于旋转不变性的视觉处理,与经典卷积神经网络相比,能够更有效地处理该类问题。
- 神经提示搜索
本文提出了神经架构搜索算法 Neural prOmpt seArcH(NOAH),利用 prompt 模块来学习大型视觉模型下游数据集的最优设计,通过在超过 20 种视觉数据集上的广泛实验,我们证明 NOAH 优于单个提示模块,具有良好的少 - ACL关于多模式机器翻译的视觉特征
本文探究了视觉模型对多模态机器翻译(MMT)的影响,使用了如 Transformer 等强大的模型和增强功能来实验,并开发了一种选择性注意力模型来研究图像在 MMT 中的补丁级贡献。研究结果表明,强大的视觉模型有助于学习从视觉模态进行翻译, - CVPR无需参数的在线测试时间自适应
为了使现有的视觉模型适应于不同的下游场景,本文探讨了在线测试时间自适应方法在各种真实世界场景下的表现,并针对该方法的局限性提出了一种特别保守的方法 —— 使用 LAME 目标来解决问题,并通过高效的凸凹过程求解该目标,从而使其在场景中表现更