- 规模本身不足以提高视觉模型的机理可解释性
本研究采用心理物理范式研究了多种机器视觉模型的机制可解释性,发现模型的解释性并未因数据集或模型规模的扩大而有所改善,且近代的视觉模型解释性甚至不如近十年前的 GoogLeNet 模型。
- 端到端可学习的多尺度特征压缩技术适用于视觉编码器
提出了一种新颖的多尺度特征压缩方法,并结合可学习的压缩器和多尺度特征融合网络实现端到端的优化,以及轻型编码器的设计。该方法在对象检测中取得了着眼的性能提升,并且在仅保留 0.002-0.003% 未压缩特征数据量的情况下,仍可以实现接近无损 - 智能多通道元成像器加速机器视觉
通过使用智能亚表面图像传感器与后端数字计算结合的方法,实现了大规模并行的高速低能耗光学卷积神经网络,应用在机器视觉的对象分类中,成功地对手写数字进行了 98.6% 的准确分类和时尚图像 88.8% 的分类。
- 通过反事实世界建模统一(机器)视觉
引入了反事实世界建模 (Counterfactual World Modeling) 框架,构建了一个视觉基础模型:一个统一的、无监督的网络,可以提示执行各种视觉计算,结果表明 CWM 是将机器视觉的众多技术统一起来的一种很有前途的途径。
- 在高达 30 公里每小时的速度下,研究基于图像的菜蓝子和燕麦草空闲杂草检测性能
通过比较四种不同镜头 - 软件组合在 5-30km/h 速度下对不同杂草的检测能力,在确定精确的硬件和软件要求的前提下,展示了地面速度和相机系统的变化对于草本和宽叶杂草检测性能的影响。
- GoferBot:一种视觉引导的人 - 机协作组装系统
本文提出了一个创新的基于视觉感知的语义 HRC 系统 GoferBot,它能够在未经过结构化、多人和动态的环境中感知和理解人的行为,实现高效且直观的协作任务。该系统通过视觉感知纯粹的语义信息,融合了视觉伺服模块、人类动作预测模块和视觉交接模 - 使用 FFT 和 GPU 的超快 Zernike 矩
本文提出了一种使用快速傅里叶变换(FFT)和 GPU 计算的新方法来计算 Zernike moments ,该方法可以用于在高阶精确生成瞬时图像,数值精度比其他方法更高,是一种简单快速的方法,并可利用多个编程框架中可用的 GPU-FFT 库 - MM可扩展的视频编码,为人类和机器而设计
本文提出了一种可扩展的视频编码框架,该框架通过基础层比特流支持机器视觉(特别是物体检测)和增强层比特流支持人类视觉,并且结果表明,该框架在物体检测方面比最先进的视频编解码器节省 13-19%的比特率,同时在人类视觉任务的 MS-SSIM 方 - 可扩展的人机图像编码
研究了一种可扩展的学习图像编解码器,其潜在空间设计支持从简单到复杂的任务,旨在节省机器视觉任务的比特率,同时在输入重建方面与先进的图像编解码器相当。
- CVPRDiverseNet:当一个正确答案不够时
本文介绍了一种简单的方法来训练神经网络,使得每个测试查询时间内能够进行多元化的结构性预测,同时比现有方法具有更好的多样性和速度。在 2D 图像填充,3D 体积估计和流场预测等三个具有挑战性的任务中,我们的方法得到了量化的改进。
- 机器视觉视频编码:协作压缩和智能分析的典范
本文旨在探讨机器视觉中的视频编码新领域 ——Video Coding for Machines (VCM),并系统地回顾了从 MPEG 标准化的独特视角出发的视频压缩和特征压缩的最新技术。最终提出了潜在的 VCM 解决方案,并探讨了未来的方 - 人机视觉编码:可扩展的图像编码方法
本文介绍了一种新的图像编码方案,其通过利用压缩模型和生成模型共同支持机器视觉和人的视觉感知任务,并使用紧凑边缘映射连接两种视觉模式,实现了对图像特征的重新构建,其提供了有用的证据支持 MPEG VCM(面向机器的视频编码)标准化工作。
- CVPR机器视觉引导的云端三维医学图像压缩,实现高效传输和准确分割
本研究提出了一种基于深度学习的医学图像自动分割算法,通过专为分割设计的机器视觉态度的 3D 图像压缩框架,在保证分割精度的同时,显著提高了压缩比率。
- 植物幼苗分类的深度卷积神经网络
本研究使用深度学习技术中的卷积神经网络与传统算法来进行植物幼苗分类,以达到增加农作物产量、提高生产效率与自动化种植的目的。
- ECCV统一感知分析用于场景理解
这篇论文研究了一项名为统一感知分析的新任务,通过开发 UPerNet 多任务框架和一种训练策略来实现从给定图像中识别尽可能多的视觉概念,最后在自然场景中应用训练网络来发现视觉知识。
- 在捕食者 - 猎物机器人追逐中使用 DAVIS 事件摄像机的 PRED18 数据集和进一步实验
本文介绍了第一次在捕食 / 逃离场景中,将 CNN 与 DAVIS 相结合构建用于机器人视觉的闭环系统,并通过离线训练和在线计算,实现了对猎物运动轨迹的识别定位。
- RGB-D 物体识别的循环卷积融合
本文提出了一种称为循环卷积融合(RCFusion)的新型 RGB-D 物体识别端到端架构,能够通过组合互补的 RGB 和深度信息表示不同抽象层次的信息来生成紧凑且高度可区分的多模态特征,并在两个流行数据集上的实验中,优于现有的最先进方法。
- ACL对视觉语言基础的对抗性攻击:神经图像字幕案例研究
本文提出了一种新的算法 Show-and-Fool,用于研究神经图像字幕系统在机器视觉和感知中健壮的语言基础,该算法通过两种评估方法检查神经图像字幕系统是否能够误导输出某些随机选择的字幕或关键字。实验证明,我们的算法可以成功地制作出视觉相似 - 解码器的魔鬼:分类、回归与 GANs
本文介绍了一种新的像素预测器:双线性加性上采样,同时比较了各种类型解码器在各种像素级任务中的表现,发现解码器类型对于结果影响很大,并探讨了预测产生的伪影问题。
- 使用循环神经网络对相簿中人物进行顺序识别
该研究提出使用一种新的循环神经网络架构来建模人物间的关系信息,并将场景上下文与视觉外观一起建模,该方法将序列预测和语境线索结合,达到了最佳的性能表现。