- 基于深度语义分割和新型异常值检测的改进 LiDAR 里程计与建图
使用深度学习模型产生语义信息以提高 LiDAR 扫描的点对线和点对面匹配,并构建环境的语义地图,应用于快速移动平台,提高 LiDAR 测距与建图的鲁棒性。
- 使用通用移动操纵器在现实世界中打开橱柜和抽屉
构建了一个端到端系统,使得一种移动机械手(Stretch RE2)能够在多样化的前所未见的真实环境中打开橱柜和抽屉,并通过四天的测试,在未见过的环境中成功率达到 61%,并分析了感知误差是主要挑战。
- 探索多模态大型语言模型的感知限制
在多模态大型语言模型中,研究了其对小型视觉对象的感知限制,发现对象质量、大小、干扰物的位置等因素都会显著降低模型对视觉问题的回答准确性。该研究对多模态大型语言模型的感知限制进行了探索,为未来模型的感知分析提供了新的评价协议。
- 因果感知
通过正式化感知作为因果思维的一部分,并在决策过程中探讨了感知对公平性的影响,该研究旨在将感知作为一个有用的参数引入自动决策系统中。
- 基于环视摄像头鸟瞰的联合车辆分割和自车轨迹预测
基于多个深度学习技术的视觉感知线路预测系统可用于自动驾驶车辆,通过管辖车辆分割和自车轨迹预测的联合任务,综合表示周围车辆的鸟瞰视角并使用时空概率网络进行轨迹预测。
- 自我监督的自适应权重在 V2V 通信中的合作感知
驾驶环境感知对于避免碰撞和路径规划以确保驾驶安全至关重要。合作感知广泛研究作为解决单车感知不足的有效方法,然而,车对车通信的实际限制尚未充分调查。本文提出了一种自适应加权模型的自我监督中间融合,以减轻信道失真的不良影响。在不同的系统设置下, - UniTeam:开放词汇移动操控挑战赛
该研究介绍了我们的 UniTeam 代理 —— 一个改进的基线模型,用于处理在陌生环境中的导航问题、新物体的操作问题以及开放词汇的物体识别问题。通过评估基线代理的性能,并改善感知、导航和操作技能,实现了在感知方面的缺陷最小化、导航方面的无限 - 量子启发的光学错觉神经网络模型
通过设计和训练深度神经网络模型,使用真正随机数的量子生成器作为神经网络连接的权重来模拟人类对多义性图形的感知,我们揭示了让克尔立方体的实际感知状态是由经典理论预测的两种基本感知状态的叠加态,这个研究结果将在训练宇航员和无人飞行器操作员的视频 - 遮挡下的协作概率轨迹预测
在视觉遮挡下的感知和规划对于安全关键任务至关重要,本论文设计了一种端到端网络,通过相对位姿估计在有遮挡的情况下合作估计遮挡行人的当前状态,并具有安全保证的轨迹预测,实验证明在遮挡下,由本体代理进行的遮挡行人不确定性感知轨迹预测与没有遮挡的真 - 自动驾驶中驾驶员干预行为分析 —— 一种融入 VR 的方法
该研究通过实施虚拟现实和交通微模拟集成的实验环境,并在典型和多样化的交通场景下进行测试,提出了驾驶员介入行为的新视角,从而改善自动驾驶在类似情景下的表现,并为人与自动化系统之间的信任关系研究提供了有价值的综合与沉浸式工具。
- VLTSeg: 用于领域泛化语义分割的基于 CLIP 的视觉 - 语言表示简单转移
本研究提出了一种基于视觉 - 语言模型的视觉语义分割方法,通过在源领域进行训练并在未见目标领域进行评估,提高了领域通用性。实验证明,该方法在域通用分割中的性能优于传统的视觉训练方法,取得了 7.6% mIoU 的提升。同时,在主流数据集上取 - 脑形式化:将 MRI 脑功能建模到机器视觉中
通过引入新颖的基于 Transformer 的 Brainformer 方法,分析人类感知系统中 fMRI 模式,并将其作为监督机制应用于机器视觉模型,通过实验证明,在各种图像识别任务中,利用 fMRI 信息可以实现与当前最先进方法相比的潜 - 基于梯度的本地最佳视角规划提高对目标植物节点的感知
机器人在番茄大棚中越来越多地用于自动化劳动密集型任务,但面临着植物其他部分的遮挡引起的感知困难。我们提出了一种基于梯度的下一最佳观测点规划方法,通过差分射线采样直接估计视点规划的局部梯度方向,旨在克服遮挡问题并提高感知质量,在模拟实验中证明 - 與誰對齊?大型語言模型在主觀 NLP 任務中存在性別和種族偏見
人们对语言的认知取决于个人背景,如性别和种族。本研究利用包含不同人口背景注释的 POPQUORN 数据集,对四种常见的大型语言模型进行一系列实验,以调查它们理解群体差异和对礼貌和冒犯性的预测中的潜在偏见。结果发现,模型的预测更接近来自白人和 - 复杂视觉语言推理任务中的思维链路作用
该研究通过将复杂的视觉语言任务拆分为子任务和中间步骤的思维链方法,探究其在提高需要复杂感知和推理的视觉语言任务中的有效性。我们提出了 “先描述再决策” 的策略,该策略受人类信号处理方式启发,显著提高探索任务性能 50%,为进一步研究复杂视觉 - CenterRadarNet: 使用 4D FMCW 雷达的联合 3D 物体检测和跟踪框架
通过使用 CenterRadarNet 来从 4D 雷达数据中进行高分辨率表示学习,对于 3D 物体检测和重新识别任务进行了有效的联合建模,取得了在 K-Radar 3D 物体检测基准测试上的最新成果,并在 K-Radar 数据集 V2 上 - ParisLuco3D:LiDAR 感知域泛化的高质量目标数据集
利用 LiDAR 传感器获取关于场景的精确几何信息支持自动驾驶,本文提供一种新颖的数据集,旨在为源数据集的性能评估提供跨领域评估,同时提供一个灵活的在线基准测试,以确保各种方法之间的公平比较。
- 文化与语言多样性改善视觉表达
我们的研究展示了多语言语境下数据集和模型生成的图像标题之间的显著语义差异,以及不同语言训练的模型在对应语言的测试数据上表现最佳,而在多语言内容上训练的模型在所有评估数据组合上都表现良好,这对于改善图像理解的多样化感知具有重要意义。
- 感知度量,距离和度量
感知是将外部物理变量转化为内部心理变量的过程,本研究通过使用概率模型测量感知刻度来证明观察者具有对空间频率、方向等参数进行内部表征,且感知刻度主要受到刺激功率谱的影响,最终提出使用感知刻度来估计图像之间的感知几何路径的概念。
- MM通过认知科学原理推进人工智能的感知能力
通过对认知科学和人工智能的比较研究,本文旨在以认知科学为基础构建基本的人工智能研究模块,并提供了一系列通过认知科学启发的人工智能方法,以开发更好的感知系统。