- 用 Mamba 在视觉中进行自回归预训练
Mamba 的视觉能力可以通过自回归预训练显著增强,而且可以成功解锁其大规模模型尺寸的潜力。
- 多模态元学习中使用条件批量归一化的辅助任务调节的限制
多模态元学习中,通过语言表示来指导视觉学习的多模态架构被提出,但在两个流行的少样本分类基准上验证后发现改进效果不稳定且主要取决于桥连接网络的计算和参数引入。
- CVPR触觉增强辐射场
我们提出了一种场景表示,称为触觉增强辐射场(TaRF),将视觉和触觉结合到共享的 3D 空间中,通过估计场景中给定 3D 位置的视觉和触觉信号。我们通过使用多视角几何方法将触觉信号注册到捕获的视觉场景上,并训练了一个条件扩散模型,通过从神经 - CVPR基于语言嵌入特征场的物性理解
计算机通过视觉能否感知物体的物理属性?我们提出了一种利用图像集合对物体的物理属性进行密集预测的新方法,通过借鉴人类如何通过视觉进行物理推理的方式,利用大型语言模型为每个物体提出候选材料,然后构建一个嵌入语言的点云,并利用零样本核回归方法估计 - Zero123-6D:RGB 类别级别 6D 姿态估计的零样本新视角合成
通过将 Diffusion 模型与特征提取技术相结合,本文提出了 Zero123-6D 方法,并在 CO3D 数据集上进行了实验,展示了在类别级别上通过扩展稀疏的纯 RGB 参考视图来提高零侧位姿估计性能、减少数据需求以及消除对深度信息的需 - 然后锤子断裂:从女性主义科学哲学对机器伦理的思考
机器视觉技术是具有具体形体视觉和情境知觉承诺的材料实例,通过从计算机视觉研究、现象学和女性主义认识论的范式进行借鉴,本文主张将哲学关注的焦点从批评伦理缺陷的视觉技术转向将其作为复杂且在方法上和认识论上重要的对象。
- 基于 You Look Only Once (YOLO) 算法的农业目标检测:一项文献计量和系统文献综述
视觉在农业中发挥着重要作用,研究和应用 You Look Only Once (YOLO) 在农业领域的物体识别能够实现实时监测、自动化监视和物体处理,减少劳动力、生产成本和环境影响,同时最大限度地提高资源效率。
- 灵长类动物大脑在视觉中如何结合生成和判别计算?
视觉被广泛理解为一个推理问题。本文介绍了两种对推理过程的对立概念,分别对生物视觉和机器视觉工程有影响。视觉可以被描述为一种主要是前馈式、区分式的推理过程,通过滤除视觉信息中的无关变化并以适合于认知和行为控制下游功能的格式来表示行为上相关的信 - 视觉中可信大规模模型:调查
大型模型的快速进展在深度学习的各个领域中带来了显著的成绩,但其强大性能而不可信赖的行为成为学术界和工业界面临的挑战。本综述总结了在视觉领域中妨碍大型模型信赖使用的四个相关问题,包括人类误用、易受攻击、内在问题和解释性,通过突出每个主题中的相 - LLaVA-Plus: 学习使用创建多模态代理的工具
LLaVA-Plus 是一个通用的多模态助手,扩展了大型多模态模型的功能,它通过在用户输入的基础上激活相关工具,并维护了一个预训练的视觉和视觉语言模型的技能存储库,以实现实际任务。实证结果表明,LLaVA-Plus 在现有功能上优于 LLa - EvalCrafter: 大规模视频生成模型的基准测试和评估
对于图像和语言生成模型的视觉和语言生成模型,我们提出了一种新的框架和流程来彻底评估生成视频的性能,并通过系数对齐目标度量与用户意见,以获得模型的最终排行榜。
- 不考虑实例的几何和接触动力学学习
通过使用几何作为共享表示,本研究提出了一种实例不可知的学习框架,融合了视觉与动力学,以同时学习形状、姿态轨迹和物理属性。通过使用 RGBD 视频,无需先验知识和已知形状,该框架能够学习对象的几何和动力学特性。实验证明了该框架在学习刚性和凸物 - ICCVMosaiQ: 量子生成对抗网络在 NISQ 计算机上的图像生成
MosaiQ 是一个高质量的量子图像生成 GAN 框架,可以在当今的中期量子计算机上执行,解决了以往量子技术在图像生成方面的质量和鲁棒性问题。
- 面向移动应用的轻量级 SAM:更快的分割任何物体
该论文介绍了一种名为 MobileSAM 的轻量级 SAM 模型,其将重量级图像编码器替换为轻量级图像编码器,并且使用解耦蒸馏技术来训练模型,以便在移动设备上使用,相对于 FastSAM,MobileSAM 模型可缩小 7 倍且速度快 4 - 揭示视觉问答中交叉模态偏见:基于可能世界的因果视角 VQA 分析
本文介绍了一种同时减少 VQA 系统中视觉和语言偏差的方法,并推出了一种解释策略,最终在 VQA-CP v2 数据集上取得了比现有方法更好的结果。
- VALOR: 视听语言全感知预训练模型和数据集
本文提出了一种用于多模态理解和生成的 Vision-Audio-Language Omni-peRception 预训练模型 (VALOR),该模型与先前广泛研究的视觉语言预训练模型不同,以端对端的方式共同建模视觉、音频和语言之间的关系,包 - 视觉是否加速神经语言学习者的分层泛化?
本研究探讨了神经语言模型(LM)与人类学习者的效率差距,提出了学习者除文本外的其他模式,即视觉模式的可行性,并通过两个实验表明视觉模式在简化的人工场景下加速了 LMs 的合适的语法泛化,但在嘈杂的现实场景中,LMs 很难做到。这表明视觉有助 - 构建通用的语言、视觉和视觉语言理解任务的基础模型
本文介绍了一种新的通用的基础模型 X-FM,它能够处理语言、视觉和视觉与语言的理解任务,并且在多个基准数据集上表现出比现有的通用模型更好的性能。
- 超越三元组:利用最多数据进行多模态机器翻译
通过提出一个新的方法和新的数据集,本文致力于提高多模式机器翻译的翻译质量并解决了只能利用少量数据和当前的基准相对较为受限约束的问题,结果表明我们的方法更适合实际场景并显著提高了翻译性能。
- MM盲人高级音频辅助设备
本文旨在将现实世界转化为音频世界,通过物体检测和阅读系统,帮助视障人士在现实时间识别物体和阅读印刷文本,从而使其能够独立完成任务。