- SpY: 基于上下文的航天器组件检测方法
本文介绍了一种名为 SpaceYOLOv2 (SpY) 的端到端物体检测器,利用传统的计算机视觉技术融入上下文知识以提高检测准确性,并通过与现有的航天器部件检测器相结合,使得 SpY 在硬件环路图像的评估中表现出较高的准确性,为基于视觉导航 - 使用黑屏亮度键控进行目标检测和分割的快速训练数据获取
我们提出了一种快速和简单的训练图像获取方法,使用高吸收度(99.99%)的黑色屏幕录制目标对象的约 1 分钟长视频,通过简单的亮度阈值处理自动划分对象区域,将对象放置在随机背景上并训练 2D 目标检测器,避免了传统技术的 3D 网格、材料或 - OSR-ViT:开放式目标检测与发现的简洁模块化框架
对于开放世界的部署,目标检测器检测和标记新对象的能力对很多实际应用非常关键。本研究提出了一种名为 Open-Set Object Detection and Discovery (OSODD) 的新任务,并且提出了一种称为 Open-Set - 基于纯文本语言模型的空间关系基础
文中通过提供对象的显式位置信息并进行适当训练,展示出仅文本的语言模型(Language Models)可以学习到类似 “左侧” 或 “下方” 等空间关系。通过对视觉空间推理(Visual Spatial Reasoning)数据集的一个口语 - CVPRLORS:低秩残差结构用于参数高效网络叠加
通过引入 LOw-rank Residual Structure (LORS) 方法,该研究论文探讨了如何降低深度学习模型的参数数量并提高性能,以在 query-based 目标检测器的堆叠解码器中实现参数节省,实验结果表明该方法能够使模型 - 地图辅助架座检测的标注
本文介绍了使用高清地图上的 2D 杆状特征对图像进行自动标注,并利用附加的激光雷达传感器对遮挡特征进行过滤,并演示了如何训练物体探测器来检测杆状特征。在自动生成的数据和手动标注的数据的比较中,我们验证了该方法的有效性。
- 利用合成数据提升托盘检测的准确性
使用合成数据在机器学习中能够节省大量时间,本研究旨在改进先前实施的方法,以实现仓库环境中托盘的实例分割。通过使用合成生成的域随机数据和通过 Unity 生成的数据,该研究在真实数据评估中对叠放和垛放托盘类别分别实现了 69% 和 50% m - InstaGen: 通过合成数据集训练以增强目标检测
通过在扩展类别或提高检测性能方面训练基于扩散模型生成的合成数据集,我们在本文中引入了一种新的范例来增强目标检测器的能力。具体而言,我们将实例级别的定位引导器集成到预训练的生成扩散模型中,使其具备定位生成图像中的任意实例的能力。该定位引导器通 - 自动驾驶中行人检测的安全适应损失
本文提出了一种新颖的安全感知损失变化,利用训练过程中估计的每个行人的关键得分来提高关键行人检测性能,评估结果表明,使用我们的安全感知损失函数对关键行人进行训练可以减少漏检而不损害对非关键行人的检测性能。
- PhotoBot:基于自然语言引导的交互式摄影
PhotoBot 框架结合高级人类语言引导和机器摄影师,实现了基于自动话术采集照片的功能。利用视觉语言模型(VLM)和目标检测器,通过文本描述表征参考图片,然后通过大型语言模型(LLM)根据用户的语言查询检索相关的参考图片。利用一个能够跨不 - 使用合成训练数据和真实训练数据时的物体探测器差异
通过对真实数据和合成数据进行 YOLOv3 物体检测器的训练,并使用层面对齐(CKA)进行相似性分析,本文揭示了训练合成数据如何影响每个层以及复杂神经网络的内部运作方式。结果表明,真实数据和合成数据训练的检测器在早期层面具有最大的相似性,而 - 使用预训练模型对高光谱成像数据进行屏蔽
基于区域兴趣的遥感数据处理方法通过使用预处理图像分割模型和目标检测器生成感兴趣区域的掩模,提升处理效率和性能,并在三个应用场景中展示了准确遮罩的有效性。
- I2R-VI-FF 技术报告:EPIC-KITCHENS VISOR 手部物体分割挑战 2023
通过结合点渲染和任意物体模型以及应用特定的手工制约条件来增强手部和物体分割结果,在基线模型缺失检测的情况下重新训练物体检测器来提高检测准确性,从而在 VISOR HOS 挑战赛的评估标准中获得第一名。
- 实景下扭曲图片的集成模型
通过优化图像增强、检测框集成、去噪集成、超分辨率模型和迁移学习等方法,将 YOLOv7 目标检测器应用于 CDCOCO 数据集,实现了在不同环境中对失真图像的准确检测和修复。该去噪检测模型在各种真实场景中具有广泛的应用价值。
- PiTL:基于提示的弱监督视觉语言预训练的跨模态检索
本文提出了一种利用大型语言模型从图像中生成标签以进行虚实预训练,减少了对昂贵标注数据的需求,并在图片文字检索方面得到显著的效果提升。
- DEYOv2:一种基于贪心匹配的排序特征方法用于端到端物体检测
本文提出了一种名为 DEYOv2 的新型物体检测器,它利用渐进式推理方法加速模型训练并提高性能,采用一对多匹配和端到端优化的方式,结合经典检测器和查询型检测器的优点,在同等设置下超过了所有现有的基于查询的端到端检测器。
- 基于 YOLOv5 的光照与旋转不变实时车轮检测器
本文基于 YOLOv5 架构,提出了一个用于检测车轮的实时目标检测器,可以应对不同摄像机、光线、环境等变化,以提供一个简单的参考方法,帮助开发其他类型的实时目标检测器。
- CVPRMOTRv2: 预训练目标检测器引导端到端多目标跟踪
本论文提出 MOTRv2, 旨在通过一个预先训练好的物体定位器,启动端到端的多目标跟踪。利用额外的物体探测器来提高 MOTR 的性能,并排名第一,最终达到了先进的性能。
- CVPR利用虚拟图像进行训练的渐进式变换学习
通过基于无人飞行器图像的大规模数据集,采用逐渐增加虚拟图像的现实感的渐进式变换学习方法,通过 multivariate Gaussian distribution 建模来准确计算对象探测器中虚拟对象与高斯分布之间的马氏距离,以此减小牺牲精度 - CVPRTripletTrack:使用三元组嵌入和 LSTM 的 3D 对象跟踪
本文探讨了使用三元组嵌入和运动表示相结合的方法,对三维物体进行跟踪,通过实验证明该方法有效地再识别物体,并且可以在遮挡,漏检和不同场景中准确地检测再次出现。