- SpectralWaste 数据集:用于垃圾分类自动化的多模态数据
对于物体分割的多模态感知在实际废物管理环境中进行了研究,包括数据集收集和算法评估,证明了高光谱成像可在工业环境中提升光学感知性能。
- Griffon v2: 提升高分辨率缩放和视觉语言共识的多模态感知
Griffon v2, a high-resolution generalist model, overcomes image resolution limitations in large vision language models t - TouchSDF:基于视觉触觉传感的三维形状重建的 DeepSDF 方法
通过利用基于视觉的触觉传感器提供的丰富信息和 DeepSDF 的内在神经表示表达能力,我们提出了 TouchSDF,一种用于触觉 3D 形状重建的深度学习方法。这种方法包括两个组件:(1)将触觉图像映射到表示触摸位置表面的局部网格的卷积神经 - 大型语言模型是视觉推理协调器
通过协调多个视觉 - 语言模型,我们提出 Cola,这是一种新颖的方法,通过促进自然语言交流以利用它们的不同且互补的能力,大型语言模型可以高效地协调多个视觉 - 语言模型,从而实现令人印象深刻的视觉推理能力。
- 学习多模态感知的社交机器人导航的研究
自主移动机器人需要通过其载有的传感器 (如 LiDAR 和 RGB 相机) 感知环境,并做出适当的导航决策,为了在人类居住的公共空间中导航,这个导航任务不仅仅是避开障碍物,还需要考虑周围的人类及其意图,以对应社会规范进行导航行为的微小变化, - MAEA:多模态归因嵌入式人工智能
理解多模态感知以支持具体人工智能是一个开放性问题,因为这些输入可能既包含高度互补的信息,也存在冗余的信息。我们提出了 MAEA 框架,以计算每个可微策略的模态全局归属,并展示了如何应用归属性分析 EAI 策略中的语言和视觉归属性进行低层行为 - CALICO: 用于 BEV 感知的自监督相机 - LiDAR 对比预训练
研究了无人驾驶系统中多模态 BEV 感知的统一预训练框架,引入了 CALICO 框架,应用反差目标在 LiDAR 和相机骨干网络上实现教师模型的对比蒸馏,成功提高了 3D 目标检测和 BEV 地图分割等任务的表现。
- 交替梯度下降和专家混合模型用于综合多模态感知
该研究介绍了一种称为 “Integrated Multimodal Perception(IMP)” 的多模态多任务训练和建模方法,采用转换编码器对图像、视频、文本和音频等多模态输入进行整合处理,在一系列下游任务中实现了竞争性能和提高。在零 - 感知、想象、行动:多模态感知改进基于模型的自主竞赛强化学习
该研究提出了一种自监督传感器融合技术,将自身视觉 LiDAR 和 RGB 相机观测数据相结合,应用于模型驱动的强化学习领域,通过提高状态估计来改善其准确性,并在零样本场景下验证了其有效性。
- 与环境对话:使用大型语言模型进行交互式多模态感知
在机器人的交互感知中,使用预先训练的大型语言模型(LLMs)作为交互感知框架,并将其应用于决策问题以及规划多模态环境中的任务执行,这样可以通过感知来指导认知行为和高层次的决策规划,这种方法可以显著提高任务完成的准确性和效率。
- 具有自适应视听关注的视觉感知音频字幕
本文提出了一种基于视觉感知的音频字幕生成方法,将来自视频的视觉信息整合到音频字幕系统中,采用音视频关注机制自适应地整合音频和视觉信息,显著提高了音频字幕系统的性能。
- MMMM-Pyramid: 多模塔形注意力网络用于音视频事件定位和视频解析
提出了一种名为 MM-Pyramid 的多模式金字塔式注意力网络,该网络使用注意力特征金字塔模块和语义融合模块,以实现视频中事件的识别和定位。
- 多模态融合中的注意力瓶颈
本篇论文介绍了一种基于 transformer 的新颖架构,使用多层的融合瓶颈来进行多模态融合,实现了在多个音视频分类基准测试上的最新的结果,同时降低了计算成本。