multimodal perception | BriefGPT

关键词multimodal perception

搜索结果 - 13

SpectralWaste 数据集：用于垃圾分类自动化的多模态数据
对于物体分割的多模态感知在实际废物管理环境中进行了研究，包括数据集收集和算法评估，证明了高光谱成像可在工业环境中提升光学感知性能。
PDF3 months ago
Griffon v2: 提升高分辨率缩放和视觉语言共识的多模态感知
Griffon v2, a high-resolution generalist model, overcomes image resolution limitations in large vision language models t
PDF4 months ago
TouchSDF：基于视觉触觉传感的三维形状重建的 DeepSDF 方法
通过利用基于视觉的触觉传感器提供的丰富信息和 DeepSDF 的内在神经表示表达能力，我们提出了 TouchSDF，一种用于触觉 3D 形状重建的深度学习方法。这种方法包括两个组件：（1）将触觉图像映射到表示触摸位置表面的局部网格的卷积神经
PDF7 months ago
大型语言模型是视觉推理协调器
通过协调多个视觉 - 语言模型，我们提出 Cola，这是一种新颖的方法，通过促进自然语言交流以利用它们的不同且互补的能力，大型语言模型可以高效地协调多个视觉 - 语言模型，从而实现令人印象深刻的视觉推理能力。
PDF8 months ago
学习多模态感知的社交机器人导航的研究
自主移动机器人需要通过其载有的传感器 (如 LiDAR 和 RGB 相机) 感知环境，并做出适当的导航决策，为了在人类居住的公共空间中导航，这个导航任务不仅仅是避开障碍物，还需要考虑周围的人类及其意图，以对应社会规范进行导航行为的微小变化，
PDF9 months ago
MAEA：多模态归因嵌入式人工智能
理解多模态感知以支持具体人工智能是一个开放性问题，因为这些输入可能既包含高度互补的信息，也存在冗余的信息。我们提出了 MAEA 框架，以计算每个可微策略的模态全局归属，并展示了如何应用归属性分析 EAI 策略中的语言和视觉归属性进行低层行为
PDFa year ago
CALICO: 用于 BEV 感知的自监督相机 - LiDAR 对比预训练
研究了无人驾驶系统中多模态 BEV 感知的统一预训练框架，引入了 CALICO 框架，应用反差目标在 LiDAR 和相机骨干网络上实现教师模型的对比蒸馏，成功提高了 3D 目标检测和 BEV 地图分割等任务的表现。
PDFa year ago
交替梯度下降和专家混合模型用于综合多模态感知
该研究介绍了一种称为 “Integrated Multimodal Perception（IMP）” 的多模态多任务训练和建模方法，采用转换编码器对图像、视频、文本和音频等多模态输入进行整合处理，在一系列下游任务中实现了竞争性能和提高。在零
PDFa year ago
感知、想象、行动：多模态感知改进基于模型的自主竞赛强化学习
该研究提出了一种自监督传感器融合技术，将自身视觉 LiDAR 和 RGB 相机观测数据相结合，应用于模型驱动的强化学习领域，通过提高状态估计来改善其准确性，并在零样本场景下验证了其有效性。
PDFa year ago
与环境对话：使用大型语言模型进行交互式多模态感知
在机器人的交互感知中，使用预先训练的大型语言模型（LLMs）作为交互感知框架，并将其应用于决策问题以及规划多模态环境中的任务执行，这样可以通过感知来指导认知行为和高层次的决策规划，这种方法可以显著提高任务完成的准确性和效率。
PDFa year ago
具有自适应视听关注的视觉感知音频字幕
本文提出了一种基于视觉感知的音频字幕生成方法，将来自视频的视觉信息整合到音频字幕系统中，采用音视频关注机制自适应地整合音频和视觉信息，显著提高了音频字幕系统的性能。
PDF2 years ago
MMMM-Pyramid: 多模塔形注意力网络用于音视频事件定位和视频解析
提出了一种名为 MM-Pyramid 的多模式金字塔式注意力网络，该网络使用注意力特征金字塔模块和语义融合模块，以实现视频中事件的识别和定位。
PDF3 years ago
多模态融合中的注意力瓶颈
本篇论文介绍了一种基于 transformer 的新颖架构，使用多层的融合瓶颈来进行多模态融合，实现了在多个音视频分类基准测试上的最新的结果，同时降低了计算成本。
PDF3 years ago