- 对象检测的形式验证
利用形式验证来确保计算机视觉模型的安全性,针对图像分类进行了拓展,提出一种一般性的方案来证明物体检测模型的鲁棒性,并提供了与最先进的验证工具兼容的实现策略。
- ClaudesLens:计算机视觉模型中的不确定性量化
人工智能决策中的不确定性量化通过提出的 PI 和 PSI 度量可以揭示计算机视觉模型预测的不确定性,表明香农熵在人工智能的最新方法中可能扮演重要角色。
- 图像解释的分类评估指标:构建可靠的可解释性人工智能评估
计算机视觉模型的决策过程(尤其是深度神经网络)的不透明性意味着这些决策无法被人类理解。因此,在过去几年中,已经提出了许多提供人理解解释的方法。本文针对图像分类开发了新的评估指标,并对常见的显著性方法在 ImageNet 上进行了基准测试。此 - CVPR行为视觉套件:通过模拟生成可定制的数据集
介绍了 BEHAVIOR Vision Suite(BVS),它是一套用于生成全面定制的合成数据以系统评估计算机视觉模型的工具和资源,并且支持在场景、对象和摄像机级别进行可调参数的任意变化,以执行可控实验。
- 立场文件:不解释 (视觉模型) 的上下文
如何利用上下文信息解释计算机视觉模型的新方法需要从 “何处” 到 “如何” 的改变。
- 利用对抗样本进行偏见缓解和准确性增强
利用对抗生成和微调的新方法来减轻计算机视觉模型中的偏见,通过使用欺骗深度神经网络但不欺骗人类的对抗图像作为反事实进行公正模型训练,通过 qualitatively 和 quantitatively 的评估证明了相比于现有方法,我们的方法实现 - VisionGPT-3D:增强 3D 视觉理解的综合多模态代理
文本向视觉组成件的演变有助于人们的日常生活,计算机视觉模型包括多模态能力,最近的研究关注于基于明确对象的图片检测和分类,然而与问题不匹配的算法可能导致不良结果,为了应对这个挑战,我们提出了统一的 VisionGPT-3D 框架来巩固最先进的 - 利用傅里叶基函数填补增强间隙:重新思考图像分类中的频率增强
在这篇论文中,我们提出了一种称为辅助傅立叶基扩充(AFA)的补充技术,它针对频域扩充,填补了视觉扩充留下的扩充间隙。我们通过傅立叶基加性噪声在直接且高效的对抗设置中展示了扩充的效用。我们的结果表明,AFA 有助于模型对常见破坏、OOD 泛化 - 比较基于重要性采样方法的类别不平衡效应缓解
在这项研究中,我们对 importance sampling 技术中的三种技术进行了探索和比较,包括 loss reweighting、undersampling 和 oversampling,并发现对于具有不平衡类别的模型,加权损失和欠采 - ICLR对螳螂虾的初步报告:多次调查的计算机视觉光度红移模型
我们详细介绍了我们创建的多调查计算机视觉模型 Mantis Shrimp,用于光度红移估计,它融合了紫外(GALEX)、光学(PanSTARRS)和红外(UnWISE)图像,并使用深度学习可解释性诊断来衡量模型如何利用不同输入的信息并推理卷 - SynthVision - 通过使用合成图像数据,在计算机视觉模型中最大化输出
使用合成数据和扩散模型快速生成高质量训练数据,构建具有 96% 准确率和 99% 精准度的计算机视觉模型,用于快速检测人乳头瘤病毒生殖器疣。
- 分析开放存储库中 AI 视觉模型在对抗攻击下的质量属性
我们提出了一个集成的过程,用于验证 AI 模型的准确性、评估其鲁棒性以及比较解释效用,并展示了六种计算机视觉模型在不同扰动和 XAI 方法下的评估结果。
- 图像翻译为扩散视觉编程
我们引入了新颖的扩散可视化编程器 (DVP),这是一个神经符号图像转换框架。我们提出的 DVP 在 GPT 架构中无缝嵌入了一个条件灵活的扩散模型,为各种符号步骤(包括 RoI 识别、风格转换和位置操作)提供一致的视觉程序序列,实现透明和可 - 无界景观中基于视角的八叉树网格提取方法的程序化合成数据
通过使用基于给定 SDF 和多个摄像机视角的八叉树算法,我们提出了一种名为 OcMesher 的网格提取算法,它可以高效处理具有完美视角一致性的高细节无界场景,并能轻松导出到下游的实时引擎,通过大量实验证明了我们的解决方案可以生成更好的用于 - FM-G-CAM: 计算机视觉中可解释 AI 的整体方法
本文介绍了一种全面的解释性方法 FM-G-CAM,它考虑了多个顶级预测类别,并提供了对预测卷积神经网络思维过程的完整解释,同时与 Grad-CAM 进行了比较,并通过实际应用案例突出了其优点。最后,我们介绍了一个使用 FM-G-CAM 生成 - SVQ: 稀疏向量量化用于时空预测
通过开发稀疏量化方法,我们的研究在多个领域中不断提升了基准模型的性能,实现了最先进的结果。
- 好问题促进零射影像推理
通过引入问题驱动的视觉探索 (QVix),可以增强大型视觉语言模型 (LVLMs) 在零样本推理任务中的探索能力,提高其推理准确性和深度。
- 应对分布变化的稳健计算机视觉技术综述
人工智能应用越来越受到公众的关注,然而研究者在计算机视觉模型的理论假设与实际部署时面临一种被称为分布偏移的困境。本文讨论了识别这一突出差距的重要原因,探索了分布偏移的概念及其关键意义,并对数据中心领域用于解决这些问题的技术进行了深入概述。
- 利用扩散扰动衡量计算机视觉中的公平性
通过扩散模型生成多个包含不同种族标签的职业图像集,我们发现使用非高加索标签生成的图像的职业错误分类率显著高于使用高加索标签生成的图像,且部分错误分类表明存在种族偏见。通过计算对不同身份群体预测的真实职业标签的概率标准差,我们测量了模型的公平 - 利用 CAN 总线数据增强端到端转向角预测
通过传感器融合 CAN 总线数据和视频数据,我提高了计算机视觉模型的准确性,降低了预测误差,使模型的 RMSE 减少了 20% 以上。