- MM通过认知科学原理推进人工智能的感知能力
通过对认知科学和人工智能的比较研究,本文旨在以认知科学为基础构建基本的人工智能研究模块,并提供了一系列通过认知科学启发的人工智能方法,以开发更好的感知系统。
- 可证明的物体为中心学习的组合概括
通过可识别性理论的视角,我们研究了何时可以保证物体中心表示在组合泛化中保证可补全一致性,通过合成图像数据的实验验证了我们的理论结果和假设的实践相关性。
- 可解释的符号网络表示意识
通过计算模型跟踪和模拟物体的感知及其在通信中的表征,本研究描述了内部表征的两个关键组成部分('observed' 和'seen'),并将它们与计算机视觉术语(编码和解码)联系起来。这些元素相结合形成符号网络,模拟物体感知和人类沟通中的意识。 - BEVHeight++:面向稳健的视觉中心化三维目标检测
利用智能路侧摄像头扩展感知能力来解决现有视觉中心的鸟瞰检测方法在路侧摄像头上性能较差的问题。通过回归地面高度并结合高度和深度编码技术,提出了一种简单而有效的方法,名为 BEVHeight++,在 2D 到 BEV 空间的映射中取得了更准确和 - 人形机器人的感知
本综述总结了人形机器人感知领域的最新发展和趋势,识别了内部状态估计、外部环境估计和人机交互三个主要应用领域,并讨论了各个领域中不同传感器模态的应用和最近的重要研究成果。
- 利用注意机制的主动感知实时动作生成算法在烹饪机器人中的应用
我们提出了一种具有注意机制的预测性循环神经网络,可以对感知输入进行加权,区分每种模态的重要性和可靠性,实现快速高效的感知和动作生成,通过学习示范训练后,机器人可以获得类似人类的技能,验证了这种技术在烹饪未知食材的鸡蛋过程中的可行性。
- 自主驾驶的基于可区分多传感器卡尔曼滤波的概率三维多目标合作跟踪
通过可微分的多传感器卡尔曼滤波器,本文提出了一种新颖的用于自动驾驶的 3D 多目标合作追踪算法,该算法学习估计每个检测的测量不确定性,以更好地利用卡尔曼滤波器追踪方法的理论属性,实验结果表明,与 V2V4Real 中的最新方法相比,我们的算 - 极限公园 our 与机器人
该研究报告表明,使用一个低成本机器人具备不精确的驱动和单一前置深度摄像头来感知低频、抖动、容易产生伪影的情况下,采用一个单一的神经网络算法模型通过在模拟环境进行大规模强化学习训练,可以实现端到端的高精准控制行为,从而使机器人能够以超过自身尺 - ICCV物理对抗样本对自主驾驶是否真的重要?追寻对抗性物体规避攻击的系统级影响
自动驾驶中的感知是实现安全和可靠驾驶不可或缺的。然而,存在的研究仅在目标的 AI 组件级别进行攻击效果评估,而未考虑整个系统语义和上下文的影响。本研究首次对已有设计在现实自动驾驶背景下是否能有效实现系统级攻击效果进行了测量研究,并提出了一种 - 深度学习自动驾驶系统中预测和规划的集成思考:一项综述
自动驾驶有潜力彻底改变个人、公共和货物运输的机动性。通过准确感知环境并利用可获得的传感器数据,自动驾驶需要规划一条安全、舒适和高效的运动轨迹。为了提高安全性和前进步伐,许多研究依赖于预测周围交通的未来运动。模块化的自动驾驶系统通常将预测和规 - 单目图像道路用户检测、跟踪和预测的端到端框架
自动驾驶中,多目标检测、跟踪和轨迹预测是关键任务,本文介绍了一种名为 ODTP 的端到端框架,采用了先进的在线多目标跟踪模型 QD-3DT 进行感知,并根据检测结果直接训练轨迹预测器 DCENet++,实验表明 ODTP 在轨迹预测方面取得 - TDMD:面向动态彩色网格主观和客观质量探索的数据库
研究人员创建了腾讯 - 动态彩色网格数据库(TDMD),其中包含八个参考的动态彩色网格对象,用于研究不同类型的畸变对人类感知的影响,并提供了关于动态彩色网格压缩和相关任务的推荐。他们还在 TDMD 上评估了三种最先进的客观指标,包括基于图像 - 自动驾驶中的感知与预测的隐性空间流场
自动驾驶车辆的感知和未来预测需要用一个神经网络隐式地表示一定时间内的占用情况和流动性,以及通过使用有效的全局注意机制来克服先前显式占用预测方法的有限接受域的问题。
- 建立自动驾驶的系统分类需求
提出了一种结构化的方法来生成分类结构,通过考虑车辆的行为需求来确定合法类别,进而通过考虑对象的碰撞安全和感知类别的两个方面来进一步验证该结构。将该方法应用于一个示例性的法律文本,获取到了一个分类层次结构;将结果与基准数据集的类别进行比较,结 - 利用成对图像比较评估骑行环境的感知安全性
通过对感知的研究,本文提出了一种分析和理解自行车安全感知以及建筑环境和骑行背景对此感知的影响的新方法。城市规划可以利用这个评分来提高干预措施的效果,改善骑行促进活动,并且这种方法可以在不同地点或背景下进行快速评估和连续评估骑行环境的变化。
- 使用 SoC FPGA 上的检测分割网络实现自动驾驶车辆的感知系统
本文通过应用 MultiTaskV3 检测 - 分割网络为基础的感知系统,在 AMD Xilinx Kria KV260 Vision AI 嵌入式平台上进行的适当训练、量化和实现,实现了在单一结构中执行两种功能,并且在物体检测方面实现了高 - WaterScenes:一个用于自主水面驾驶的多任务 4D 雷达 - 相机融合数据集和基准
本研究提出了 WaterScenes 数据集,其基于多任务 4D 雷达和单目相机融合技术,针对典型静态和动态水上物体进行标记,并提供了各种感知任务的注释,结果表明,4D 雷达相机融合能够极大地提高水上物体在恶劣光照和天气条件下的感知的稳健性 - 促进视觉出现的重要线索:三个心理实验
通过三个心理实验设计来探讨影响出现图像感知的因素,发现局部区域的斑点密度和关键斑点的排列在出现情况的感知中起到了关键作用,通过算法生成多样化的出现测试图像(ETIs)并验证了其有效性。
- GIRA:高斯混合模型用于推理和机器人自主性
介绍了一种开源框架 GIRA,该框架通过紧凑的生成模型实现了基本的机器人算法,用于重建、姿势估计和占有建模。
- 端到端自动驾驶:挑战与前沿
本文系统分析了 250 多篇论文,涵盖了自主驾驶的动机、路线图、方法论、挑战和未来趋势,并深入探讨了多模态、可解释性、因果混淆、健壮性和世界模型等若干关键挑战,同时讨论了基础模型和视觉预训练的最新进展,以及如何在端到端驾驶框架中整合这些技术