- MG-LLaVA:面向多粒度视觉指导调整
采用多种视觉特征与语言模型相结合的创新方法 MG-LLaVA,在感知任务中提供了出色的表现,并且超越了相似参数规模的现有模型,具备出色的目标识别能力。
- ICML长尾实例分割的生成式主动学习
本文探讨了如何在长尾实例分割任务中专门对生成数据执行主动学习,并提出了一种新的基于梯度缓存的算法 BSGAL,可以有效处理无限的生成数据和复杂的下游分割任务。实验证明,BSGAL 优于基线方法,有效提高了长尾分割的性能。
- 自动驾驶中的协同感知数据集调查
本研究综述了车辆对基础设施(V2I)、车辆对车辆(V2V)和车辆对一切(V2X)的协作感知数据集,重点关注用于自动驾驶车辆感知任务的大规模基准的最新发展。该论文系统地分析了各种数据集,比较了它们在多样性、传感器设置、质量、公开可用性和对下游 - 处理自动驾驶车辆的眩光问题
本研究探讨了各种减少眩光的技术,包括针对自动驾驶车辆感知层所采用的计算机视觉任务的饱和像素感知眩光减少技术,通过基于各种性能指标评估表明该方法提高了计算机视觉的性能,对不同程度的眩光表现出出色的韧性。
- SparseAD:高效端到端自动驾驶的稀疏查询中心范式
在此论文中,我们提出了一种以稀疏查询为中心的端到端自动驾驶(SparseAD)范式,其中稀疏查询完全代表了整个驾驶场景在空间、时间和任务上的具体表征。通过针对感知任务设计了统一的稀疏架构,包括检测、跟踪和在线地图绘制。此外,我们重新考虑了运 - 通过多任务学习实现增强雷达感知:用于传感器融合应用的优化数据
雷达和相机融合在感知任务中具有鲁棒性,通过充分利用两种传感器的优势。本文介绍了一种基于学习的方法来推断与三维物体相关的雷达点的高度,通过引入新的鲁棒回归损失来解决稀疏目标的挑战,并采用多任务训练策略强调重要特征。与最先进的高度扩展方法相比, - 虚拟与真实世界铁路环境下视觉里程计的比较分析
图形模拟在铁路领域感知任务中的应用优势进行比较分析,结果显示了图形模拟在提升铁路领域感知任务的可行性和潜力。
- 大数据训练的扩散模型具有可迁移的视觉模型
通过使用预训练的 UNet(或 transformer)扩散模型仅需适量的目标数据(甚至只有合成数据),在基础视觉感知任务中能够实现出色的可传递性表现,包括单眼深度、表面法线、图像分割、抠图、人体姿势估计等。
- 数据集与基准:用于自动驾驶车辆感知的新型传感器
通过引入 Novel Sensors for Autonomous Vehicle Perception (NSAVP) 数据集,本文旨在促进未来关于此主题的研究,并提供了关于利用新型传感器增强关键自动驾驶感知任务的挑战和机遇的基准实验。
- AAAI用于以视觉为中心的自动驾驶的中间 3D 特征调节
Vampire 通过体积渲染在多摄像头感知任务中调控中间密集的 3D 特征,并在各种下游感知任务中展现出与现有最先进方法相竞争的能力。
- 自监督 ViTs 时代的无监督对象定位调查
最近对开放式视觉系统的热情表明了社区在封闭词汇基准设置之外进行感知任务的高度兴趣。在不事先知道数据集中包含哪些对象的情况下,能够在图像 / 视频中发现对象是一个令人兴奋的前景。最近的研究表明,通过利用自我监督预训练特征,可以进行无类别无监督 - 不要怪罪数据集偏移!梯度和交叉熵导致的快捷学习
对于感知任务而言,默认的 ERM 的隐含归纳偏差偏向于最大化边界学习模型,该偏差通过鼓励均匀边界解决方案可以消除 shortcut 学习,并在视觉和语言任务中证明更好的归纳偏差可以消除费时的两阶段 shortcut 缓解方法。
- 可解释的端到端驾驶模型用于隐式场景理解
通过传感器数据获取综合场景信息,并为下游任务提供基础,对于自动驾驶车辆的安全至关重要,本文提出了一种端到端的可解释性隐式驾驶场景理解模型,通过规划模块引导提取隐式高维场景特征作为场景理解结果,并使用辅助感知任务进行可视化验证,实验证明我们的 - MonoNext:基于 ConvNext 的 3D 单目目标检测
这篇论文介绍了一种名为 MonoNext 的不同的多任务学习方法,利用空间网格来对场景中的物体进行映射,它采用了基于 ConvNext 网络的简单方法,并且只需要有 3D 边界框标注的数据,通过在 KITTI 数据集上的实验,MonoNex - detrex: 基于检测变换器的基准测试
该研究在针对 DETR 基于实例识别算法的各项基本任务(包括目标检测、分割、位姿估计等方面)进行广泛实验及全面基准测试,实现了模型的性能增强,并开发了一个名为 detrex 的高度模块化和轻量级的统一代码库以提供标准化和统一的平台,供学术研 - PhenoBench -- 农业领域语义图像解释的大型数据集和基准测试
本文提出应用图像识别技术解决农业领域的感知问题。作者提供了使用无人机采集并进行密集标注的农作物和杂草图像数据集以及用于测试的多个感知任务基准,包括语义分割、植物的全景分割、植物和叶子的检测、层次全景分割。
- 极化成像技术在感知领域的应用
本文中,我们分析了使用 RGB 偏振相机相比 RGB 相机在感知任务中的潜在效果,并探讨了深度神经网络的应用,研究表明,使用 RGB 偏振相机可以在双目深度估计和自由空间检测方面实现可量化的改进,同时,我们还提出了一种新的数据集,为感知算法 - CVPR自动驾驶统一感知中基于视觉样本的任务提示
本文通过对四项常见自动驾驶感知任务(物体检测,语义分割,可行驶区域分割和车道检测)的大规模驾驶数据集的广泛分析,提出了一种有效的多任务学习框架,即 VE-Prompt,该框架通过特定于任务的提示引入视觉示例来指导模型向学习高质量的任务特定表 - CVPR基于语义容忍对比损失的自监督图像到点位蒸馏
提出了一个新的语义容忍图像到点对比损失来缓解自我相似性问题,并通过类不可知平衡损失来解决类别失衡问题,从而在 3D 语义分割的所有评估设置中改善了最先进的 2D 到 3D 表示学习。
- PolarMix: 一种用于 LiDAR 点云的通用数据增强技术
PolarMix 是一种点云数据增强技术,通过两个跨扫描的增强策略实现数据的丰富和保真,能够在不同的感知任务和场景中有效缓解数据限制,并能为各种 3D 深度架构提供即插即用,并且在无监督领域适应中也表现出良好的性能。