- VG4D:视觉语言模型进入 4D 视频识别
通过 Vision-Language Models Goes 4D (VG4D) 框架,我们将 VLM 知识从视觉 - 文本预训练模型转移到 4D 点云网络中,实现了增强的识别性能。我们还提出了改进的 PSTNet 版本 im-PSTNet - VRS-NeRF:稀疏神经辐射场的视觉重定位
VRS-NeRF 是一种用于视觉重定位的高效准确的框架,通过稀疏神经辐射场的显式几何地图和隐式学习映射来提高精度和效率,实验证明,该方法在准确性上优于 APRs 和 SCRs,与 HMs 接近且更为高效。
- 面向先进机器学习算法的具有丰富交互能力的稳健软机器人
通过从自然中选择性启示,我们构建了具有大规模行动空间、多个相机提供的丰富传感数据流以及与其他系统连接以增强行动空间和数据流的强大且部分软性的机器人肢体。作为概念验证,我们训练了两种当代机器学习算法来执行简单的目标寻找任务,将这一设计视为构建 - CVPRJRDB-Social:一个用于理解社交群体内人际互动的多方面机器人数据集
通过引入 JRDB-Social 数据集,本研究利用最新的多模态大语言模型来评估其解读社会人类行为能力,以加深我们对于人类社会动态在机器人应用中的理解。
- 机器人的具身神经形态人工智能:观点、挑战与研究发展框架
机器人技术、具身智能、神经形态计算、机器人学、神经形态人工智能是本文的五个关键词。本文探讨了通过我们的观点实现机器人系统的具身神经形态人工智能的方法,并确立了研究挑战和机会以及对未来研究发展的愿景。
- 通过预测物体移动来学习时间线索的多摄像头三维物体检测
在自动驾驶和机器人技术中,利用短期历史数据增强多摄像头 3D 物体检测的兴趣日益增长,通过利用输入视频流的连续且相关性质来实现。最近的研究集中在基于 BEV(鸟瞰图)的特征在时间步内的空间对齐上。然而,由于长期过去的观测没有良好的扩展效果, - Recover: 故障检测与恢复的神经符号框架
通过集成本体论、逻辑规则和基于大型语言模型的规划器,本文介绍了一种用于在线失败识别和恢复的神经符号框架。实验评估表明,OntoThor 的逻辑规则能准确检测出所有分析任务中的故障,并且在故障检测和恢复方面,Recover 明显优于仅依赖于大 - 混乱场景中的高效热图引导六自由度抓取检测
本研究提出了一种快速稳健的在杂乱环境中抓取物体的方法,通过结合抓取热点图作为引导,以全球到本地、语义到点的方式进行推断,实现了高质量的实时抓取检测,并在实际机器人实验中展示了 94% 的成功率和 100% 的杂乱环境完成率。
- 人工智能未学习的内容(以及原因)
当今 AI 技术在深度学习和生成式方法的发展下,取得了令人瞩目的成果,但在机器人领域却鲜有影响。目前的自主机器人并不通过与人的互动来学习在家中护理或担任护理助手等应用,而是依赖数学模型、规划框架和强化学习。因此,将机器人 AI 与深度学习技 - 打造具有非洲裔美国人口音的文本转语音系统:指导原则、技术挑战和令人惊讶的评估
AI 机器人和用户界面的表示普遍是白人,无论是面部和肤色特征上,还是合成的声音;本文探讨了在开发一种以美国非洲裔女性的受教育水平高、专业、不带地方口音的英文文字转语音系统时,所面临的对种族的表示所带来的一些意外挑战,研究开始通过针对非洲裔美 - 大型语言模型是否与人类的社会直觉对人机交互保持一致?
本研究探索了大型语言模型在人机交互领域的表现,对比实际参与者的答案,结果显示 GPT-4 在选择适当的沟通行为和评判行为可取性、意图和令人惊讶程度等方面表现较好,但在判断人机行为差异方面成绩不佳,同时指出视觉模型无法完全抓住视频刺激的本质, - DUFOMap: 高效动态意识映射
该研究论文提出了 DUFOMap,这是一种用于高效在线处理的新型动态感知映射框架,通过利用光线投射来识别和分类完全观察到的空区域,从而创建只包含静态部分的地图。在各种不同场景下进行评估,并且在精确性和计算效率方面优于现有的方法。
- 机器人中的形态对称性
研究和利用机器人系统中的形态对称性,证明其对机器学习模型的样本效率和泛化能力有显著影响,并将机器人动力学分解为低维度、独立动力学,为机器人学中的建模、控制、估计和设计提供了新的物理信息几何先验。
- 具備固有物理知識的體雄動規劃
通过定义一组离散且临时的闭环控制器(称为 “任务”)以及引入一种对物理学和因果关系具有内在理解的监督模块,我们提出了一种解决在机器人技术中尚未实现的,使用纯闭环输入控制的复杂计划执行方法。我们通过模拟任务序列的执行并将结果存储在环境模型中, - 具备体验智能的视觉 - 语言导航:综述
长期愿景是提高代理者和环境的感知、理解和交互能力,以实现具体导航的视觉 - 语言导航(VLN)作为实现具体导航的核心研究路径,关注代理者如何使用自然语言与人类进行有效沟通,接收和理解指令,并最终依靠视觉信息实现准确的导航。此综述系统回顾了 - Zero-BEV:任何第一人称模态的零射击投影到 BEV 地图
提出了一种新模型,能够对任何第一人称视角的感知模态进行零样本投影到对应的鸟瞰图,该模型通过将几何逆透视投影与模态转换进行解耦合,实验结果表明该模型优于竞争方法,尤其是单目深度估计。
- ISCUTE:使用文本嵌入进行电缆的实例分割
在机器人和自动化领域中,传统的物体识别和实例分割方法无法有效感知可变形线性物体(如电线、电缆和柔性管道)。本文提出了一种基于模型的可用于文本提示且用户友好的可变形线性物体实例分割技术。通过将 CLIPSeg 模型的文本条件语义分割能力与 S - 条件神经专家过程用于从示范中学习
通过提出一种名为条件神经专家过程(CNEP)的 LfD 框架,利用潜在空间中的内在信息将不同模式的演示分配给不同的专家网络,无需监督以确定轨迹所属的模式,该框架提供了改进的建模性能、轨迹综合能力和障碍物避免任务的能力。
- 在线机器人基础模型选择
基于在线学习的用户中心化模型选择问题的解决方案通过结合开源编码器输出上下文和处理该上下文的在线学习算法,改善了选择开源和闭源模型之间的权衡,从而大幅提高了任务成功率。
- 鲁棒的视觉摄像机重定位的语义对象级建模
通过自动物体级体素建模方法和相机位姿优化策略,实现了对视觉重定位的改进,提高了对新视点的鲁棒性。