- 针对少样本个性化实例识别的对象条件下实例集
现在,用户要求视觉系统的个性化增强,能够从少样本数据集中识别和定位个人实例对象(例如,我的狗而不是狗)。本文构建了基于多阶统计的 Object-conditioned Bag of Instances (OBoI) 模型,通过扩展通用对象检 - 基于 FFT 的选择与优化统计量方法用于严重损坏图像的鲁棒识别
为了在智能设备上实现强大的视觉系统,尤其是机器人代理,提高对损坏图像的模型稳健性是其中的关键挑战。本文介绍了一种新方法(FROST),通过使用高频特征检测输入图像的损坏类型,并选择逐层特征归一化统计,从而提高任何分类模型的稳健性,尤其是在严 - 大规模更稳健可解释的视觉任务的层次不变性
构建鲁棒且可解释的视觉系统是实现可信人工智能的重要步骤。本研究从理论、实践和应用角度系统地研究了层次不变性,并提出了一种使用卷积神经网络(CNN)层次结构构建超完备不变性的可解释方法。通过实验证明,该方法在纹理、数字和寄生虫分类等实验中展示 - 循环医疗的视觉材料特征学习
我们通过开发若干视觉系统,实现了资源映射和量化、废物分类和拆解等三个主要循环经济任务,从而向循环医疗迈出了一步。我们的研究表明,基于表示学习的视觉系统可以改善回收链,而自主系统是关键因素之一,因为它们可以降低污染风险。我们还公开了两个完整注 - 定义视觉新时代的基础模型:调查与展望
视觉系统、基础模型、环境中的上下文推理、训练目标和计算机视觉的挑战和研究方向的综述。
- ICCV级联 DETR:深入高质量的通用目标检测
我们引入了 Cascade-DETR 用于高质量的通用目标检测,通过提出级联注意力层来共同解决对多样领域的泛化和定位准确性问题,通过限制关注先前的目标框预测来显式地将对象中心信息集成到检测解码器中。为了进一步提高准确性,我们重新审视了查询的 - 在线持续学习用于室内物体识别的强健性
家用机器人上安装的视觉系统需要与不可见的类别在多变的环境中进行交互。我们提出了 RobOCLe 作为一种少样本在线持续学习模型,通过构建富化特征空间和计算样本的高阶统计矩来改善连续学习模型的鲁棒性。
- PhenoBench -- 农业领域语义图像解释的大型数据集和基准测试
本文提出应用图像识别技术解决农业领域的感知问题。作者提供了使用无人机采集并进行密集标注的农作物和杂草图像数据集以及用于测试的多个感知任务基准,包括语义分割、植物的全景分割、植物和叶子的检测、层次全景分割。
- 基于视觉的番茄尺寸测量系统在室内大棚种植环境中的应用
本文提出了一种结合机器学习模型和三个低成本 RGBD 相机捕捉深度图像的大小测量方法,以便检测和测量西红柿的高度和宽度,以解决现有视觉系统在农业环境中的遮挡和可扩展性问题。在实验室环境的测试中,该系统能够实现 0.9114 的高度测量精度和 - CVPR打鼹鼠困境:缩短路径同时引发多重问题
通过提出具有多个偏差的数据集和评估集,研究了计算机视觉模型在存在多个捷径时的表现,并提出了一个简单而有效的方法,可以在不引起 “打地鼠” 问题的情况下解决多个捷径问题。
- ICCV利用多物体关系检测复杂场景中的对抗攻击
通过使用语言模型,我们开发了一种新方法来检测图像义务的一致性,即在自然场景的语言描述中捕捉物体共现关系,这种方法不仅适用于特定模型,而且对于多个物体的实际场景中检测对抗性样本具有非常高的精度。
- 通过观察噪声学习视觉
该研究使用不同的噪声过程生成图像,并将其用作视觉表示学习者的训练数据。通过使用对比损失,研究两种类型的噪声过程,发现噪声需要捕捉真实数据的某些结构性质,但即使与真实数据差异很大的过程也可以实现良好的性能。多样性是学习良好表示的关键属性。
- CVPR尽管有定位和注意力机制,仍然能够欺骗视觉和语言模型
本文研究了视觉和语言模型的对抗样本,评估发现在具备自然语言理解和复杂结构(如注意力、边界框定位和组合内部结构)的模型中可以生成高成功率的对抗样本,这些观察结果可以帮助建立有效的防御措施。
- 人类水平的智能还是类动物的能力?
鹰和蛇的视觉系统胜过我们实验室里能做出的所有东西,但它们无法制造眼镜、望远镜或显微镜。(朱迪亚・珀尔)
- 条件 Lucas&Kanade 算法
通过直接学习线性模型预测外观的几何位移,以及采用新的策略来确保生成像素独立性的前提下,我们提出了一种新方法:条件 LK 算法。我们展示了我们的方法比经典的 LK 算法更具优越性能,并展示了与最先进的方法相当的性能,例如具有极少的训练示例的受