- 通过定性场景理解和解释实现可信的自动驾驶
我们提出了定性可解释图(QXG):一种用于城市移动中场景理解的统一符号和定性表示。QXG 利用时空图和定性约束从原始传感器输入(如 LiDAR 和相机数据)中提取场景语义,为自动车辆的环境进行解读,从而提供了一种可理解的场景模型。QXG 具 - ICGNet: 实例中心抓取的统一方法
通过使用点云数据以及实例中心表示来进行对象夹取和重建,我们提出的端到端架构在合成数据集上显示了优越的性能,并在真实场景中展示了应用的可行性。
- AffordanceLLM: 视觉语言模型的作用感基础
通过利用经过预训练的大规模视觉语言模型中的丰富世界、抽象和人 - 物体相互作用知识,我们提出的模型在自然环境中的对象可承受性接地任务上展示出明显的性能提升,我们进一步证明它可以对训练过程中未见过的随机互联网图像中的对象进行可承受性接地。
- 自动驾驶的视觉语言规划
自主驾驶中的场景理解和推理是复杂而具有挑战性的任务。本文提出了一种新颖的 Vision-Language-Planning(VLP)框架,通过利用自然语言模型来弥合语义理解和自主驾驶之间的鸿沟,从而增强自动驾驶系统的规划性能,提高在挑战性场 - AAAI视觉问答中的物体属性重要性
提出了一种基于物体属性利用的视觉问答方法,旨在实现更好的物体级视觉 - 语言对齐和多模态场景理解。通过属性融合模块和对比知识蒸馏模块,构建多模态图神经网络,融合属性和视觉特征,改善细粒度问题的解决和多模态场景的理解,从而提高模型的鲁棒性。通 - 基础模型在推进自动驾驶车辆方面的前景角色
基于人工智能的大规模基础模型在自主驾驶中具有着巨大的应用潜力,能够提升场景理解和推理能力,增强语言和行动命令的认知推理,并改善自主驾驶系统的准确性和可靠性。同时,通过自我监督学习范式下的大规模数据,世界模型可以生成看似真实的未见过的驾驶环境 - GP-NeRF:通用感知 NeRF 用于上下文感知 3D 场景理解
提出了一种通用感知 NeRF(GP-NeRF)模型,通过引入 transformers 和自我蒸馏机制,实现了语义场和几何场的联合渲染,以促进具有上下文感知的三维场景理解。在评估中,使用合成和真实世界数据集进行了两个感知任务(即语义和实例分 - 图嵌入的两流场景理解
本论文提出了一种新颖的双流网络架构,通过结合图像特征流和图特征流,旨在提高图像分类和场景图生成任务的性能。利用多种数据融合方法将这两个流融合起来,以充分发挥基于图和基于图像的特征的互补优势。实验证明,该双流网络在提高图像分类准确性方面优于传 - GPT-4V (ision) 自动驾驶中的视觉语言模型的早期探索
该研究论文评估了最新的先进视觉语言模型(VLM)在自动驾驶场景中的应用,发现该模型在场景理解和因果推理方面表现出优越性能,但在方向辨别、交通信号识别、视觉对接以及空间推理任务方面仍存在挑战。
- TPSeNCE:面向去雨和雨中物体检测的无痕真实雨生成
提出了一种生成逼真雨天图像的对未配对图像转换框架,通过引入三角概率相似性约束和语义噪声对比评估策略,减少人工痕迹和失真,证明了其在图像去雨和雨中物体检测方面的实用性。
- Talk2BEV: 自然语言增强的自动驾驶鸟瞰地图
Talk2BEV 是一个面向自动驾驶环境中鸟瞰地图的大规模视觉语言模型接口。它将语言和视觉模型与 BEV 结构化地图相结合,消除了任务特定模型的需求,从而能够满足各种自动驾驶任务,包括视觉和空间推理、预测交通参与者的意图以及基于视觉线索的决 - TransRadar:适应方向变换的实时多视角雷达语义分割
我们提出了一种新的方法,通过一种新的架构和损失函数对雷达场景进行语义分割,从而克服了雷达数据的固有噪声、稀疏性以及前景和背景的不平衡。我们的方法 TransRadar 在 CARRADA 和 RADIal 数据集上优于现有方法,并且模型尺寸 - PanopticNDT: 高效稳健的全景制图
提出了一种基于 NDT 映射的高效且稳健的全景映射方法 PanopticNDT,通过在移动机器人上实现实时全景映射,可以以比现有方法更高的细节水平表示全景信息。
- LLMR:使用大型语言模型实时提示交互式世界
通过使用 Unity 游戏引擎和文本交互,我们提出了大型混合现实语言模型(LLMR)框架,该框架用于实时创建和修改交互式混合现实体验,并通过包括场景理解、任务规划、自调试和内存管理等技术,使 LLMR 在平均错误率上比标准 GPT-4 提高 - 将预训练的语言编码器融入自动驾驶轨迹预测模型
本研究提出了一种新颖的基于文本的交通场景表示方法,并使用预训练语言编码器进行处理。我们展示了文本表示与传统光栅图像表示结合可以产生描述性的场景嵌入。在 nuScenes 数据集上对我们的预测进行了基准测试,并与基准模型相比显示了显著改进。消 - Vote2Cap-DETR++:解耦定位与描述的端到端三维稠密字幕
通过并行解码,Vote2Cap-DETR 提出了一种将对象定位和描述生成解耦的简单而有效的变压器框架,以及引入了迭代空间精细化策略和额外的空间信息来提高定位性能和准确描述,实验证明其优于常规的 “检测然后描述” 的方法。
- 基于图注意力的多级重组规划的结构概念学习
通过结构概念学习(SCL)和图注意力网络,提出了一种多层次的物体重新排列规划方法,用于复杂和任意环境中的机器人操作任务,并通过对场景的理解实现更好的性能、灵活性和效率。
- 不需重训练的扩展冻结视觉 - 语言模型:朝着改进机器人感知能力迈进
通过对齐不同类型嵌入空间的方法,本研究展示了使用多模态输入改善视觉语言模型在场景理解和任务表现方面的效果,从而为多模态环境中更加多功能和有能力的语言模型铺平了道路。
- ICCVSUMMIT: 单模型无源适应到多模态目标
我们提出了一种通过自动选择两种互补的交叉模态伪标签融合方法(一致性过滤和熵加权),来解决在没有访问原始源数据集的情况下,将在单模数据上独立训练的一组模型调整到由未标记的多模数据组成的目标领域的问题。
- ICCV在 3D 环境中探索与描述:基于身体感知的视觉字幕生成
当前的视觉说明模型假设图像是完整呈现场景的完美捕捉,然而在真实世界场景中一个图像可能没有提供良好的视角,从而限制了对细粒度场景的理解。为了克服这一限制,我们提出了一项名为 “实体说明” 的新任务,将视觉说明模型与导航能力相结合,使其能够主动