- 视频银行:融合和解耦增强跨模态生成
该研究提出了一种名为 Video-Teller 的视频语言基础模型,通过多模态融合和细粒度模态对齐来显著增强视频到文本生成任务。实验结果表明,该模型在准确理解视频和生成连贯且精确的语言描述方面取得了显著效果。
- SkipcrossNets:适应性跳跃交叉融合用于道路检测
该研究提出了一种名为 SkipcrossNets 的新型融合架构,可以自适应地结合激光雷达点云和相机图像,增强了特征传递和多模态特征融合,通过应用于 KITTI 和 A2D2 数据集向证明了 skip-cross 融合的优势,实现了在 KI - UniM$^2$AE:自主驾驶中统一的三维感知的多模态掩码自编码器
该篇研究论文提出了一种用于自动驾驶的多模态蒙版自动编码器(UniM$^2$AE)模型,通过将图像与激光雷达点云的特征融合,实现了对多模态数据的高效处理,提高了三维物体检测和鸟瞰图分割的效果。
- 多模态视觉融合的解读
通过提供一个分析框架和新的度量标准,我们研究了多模态视觉社区的解释。通过实验,我们调查了不同模态之间的一致性和特殊性,模态内的演化规则,以及优化多模态模型时使用的协作逻辑,并揭示了一些重要发现,这些发现有助于重新思考流行的多模态视觉融合策略 - 自动驾驶中鲁棒目标检测的不确定性编码多模态融合
Multi-modal fusion technique incorporating uncertainties through Uncertainty-Encoded Mixture-of-Experts (UMoE) improves - 多模态 Transformers 全流程预测膝骨关节炎进展
本研究通过使用深度学习的 Transformer 方法开发了一个多模态膝关节成像数据融合的统一框架,研究了该方法在 Knee Osteoarthritis 进展预测中的表现,并发现 MRI 可以与多模态融合方法媲美,对于短期至长期不同进展范 - 多源融合合成高光谱数据集的高光谱空间分辨率提升
本研究介绍了一个合成高光谱数据集,通过高光谱和高空间分辨率成像实现观测场景或物体的全面、准确、详细的表示,强调多模态融合在生成高质量合成高光谱数据集中的重要性,以及光谱 - 空间关系的改善对于各个领域的分析、监测和决策的影响。
- RXFOOD:面向感兴趣目标检测的插件化 RGB-X 融合
该文章提出了 RXFOOD 方法,利用能量交换模块实现不同分支以及不同尺度之间的特征融合,提升 object detection 的效果。经实验证明,该方法对 RGB-NIR 融合、RGB-D 融合及 RGBFrequency 图像操作检测 - ONE-PEACE: 探索通往无限模态的一般表示模型
本文提出了一种可扩展的模型来对多种感知模式进行整合,其中 ONE-PEACE 是一个高度可扩展的模型,通过跨感谢模态对其表示进行无缝整合,并通过多模态融合实现对其进行扩展,无需使用任何视觉或语言预训练模型初始化,并在各种单模态和多模态任务上 - 一种对称双编码密集检索框架用于知识密集型视觉问答
本研究提出一种将检索器和阅读器相结合的新 KI-VQA 流程,并通过 DEDR 和 MM-FiD 两种方法进行知识密集型视觉问答 (KI-VQA) 任务,在两个著名的 KI-VQA 数据集 OK-VQA 和 FVQA 上进行了广泛评估,证明 - 使用不确定性的信息数据选择在多模式物体检测中
本研究提出了一种基于深度学习的通用不确定性感知多模态融合模型,该模型采用多管道宽松耦合架构将点云和图像特征进行组合,并将不确定性嵌入在边界框生成中,以生成可靠的输出,在 KITTI 2D 物体检测数据集和其衍生的 “脏数据” 中得到了验证。
- 半监督多模式语义分割中的缺失模态稳健性
提出一种简单且高效的多模态融合机制:线性融合(Linear Fusion),通过半监督学习的方式提高了多模态语义分割的性能,并使模型对现实世界中缺失模态的情况更加健壮。
- 仅需两个探测器即可实现多模态三维多目标跟踪
本文提出了一种基于多模态融合的新型多目标跟踪框架,通过将目标检测和多目标跟踪集成到同一模型中,取消了传统 TBD 范例中复杂的数据关联过程,并且不需要额外的训练。其次,探讨了历史轨迹回归的置信度,分析了一条轨迹在当前帧中的可能状态,并设计了 - TransFusionOdom: 基于 Transformer 的 LiDAR - 惯导融合里程估计
本研究中,我们提出了一个基于 Transformer 的 LiDAR-Inertial 融合(即 TransFusionOdom)的端到端受监督的 odom 估计框架,用于解决传感器融合中的挑战性问题。我们提出的多注意力融合模块可展示多种同 - RGB-Thermal 语义分割补偿随机遮蔽
本文提出了一种采用互补的随机掩膜策略和自我蒸馏损失函数的 RGB-thermal 语义分割方法,能够减少对单一模态的依赖,并从单一或互补掩膜模态中提取互补的而有意义的表示,从而在复杂的天气和光照条件下实现可靠的语义场景理解。
- 一个广义的多模型融合检测框架
本文提出了一种名为 MMFusion 的多模态 3D 检测框架,以在复杂场景中实现 LiDAR 和图像的准确融合,通过实验证明,该框架不仅优于现有基准,而且尤其适用于在 KITTI 基准上检测骑自行车和行人。
- 多模态神经几何求解器:从图解析文本子句
本文提出了一种基于神经网络的解题方案 PGPSNet 来解决几何问题求解中的模态融合问题;通过把图解转化成文本描述来更有效地描述数据特征,并结合结构和语义训练、数据增强和自限制解码等来增强几何理解和推理。此外,还构建了一个新的大规模、细粒度 - NUAA-QMUL-AIIT 在 Memotion 3 中的多模态融合与压缩 - 激励网络在互联网表情包情感分析中的应用
本研究提出了一种多模态融合方法 SEFusion,并将其嵌入到情感分析的系统中,从而在 Memotion 3 的三个子任务中取得了较好的性能表现。
- ICLR基于多模态融合的自监督预测编码模型,在细粒度时间尺度下进行患者恶化预测
本研究提出了一种基于自我监督预测编码和多模态融合的按小时预测死亡率和升压药需要的方法,并通过广泛的实验证明了该方法在远期预测方面的显着性能提高。
- 一种迟来的多模融合模型用于检测混合垃圾邮件
提出了一种新的基于多模融合的文本和图像的混合垃圾邮件过滤系统,该系统利用卷积神经网络 (CNN) 和连续的词袋模型提取图像和文本部分的特征,并使用机器学习分类器来判断垃圾邮件。