- ICCV 2023 年第 1 届感知测试挑战赛时间声音定位任务的解决方案
本研究提出了一种改进时态音频定位质量的解决方案,采用多模态融合方法结合视觉和音频特征。通过使用先进的自监督预训练网络提取高质量的视觉特征,得到高效的视频特征表示。同时,音频特征作为补充信息帮助模型更好地定位声音的起始和结束。融合的特征在多尺 - 跨模态交互如何影响混合类型时间序列的深度多模态融合性能
多模态融合是混合型时间序列预测中有效融合两种数据形式的方法;本研究中,通过对多种融合方法的比较,得出不同融合策略在捕捉细粒度和粗粒度交叉模态特征方面的效果,以及交叉模态交互对融合方法性能的重要影响。
- 通过词汇将 Dr.E 桥接大型语言模型的图表
我们介绍了一个创新的、端到端的模态对齐框架,配备了一个预训练的 Dual-Residual Vector Quantized-Variational AutoEncoder (Dr.E)。该框架专门设计用于促进与 LLMs 的令牌级对齐,实 - LiCAF: 基于激光雷达和摄像机的不对称融合用于步态识别
本研究介绍了一种对步态进行识别的新型模态敏感网络 LiCAF,采用了不对称且交叉模态的渠道注意力和交叉模态的时域建模,通过 LiDAR - 相机融合获得的鲁棒步态表示,在 SUSTech1K 数据集上取得了最先进的性能水平(Rank-1 为 - 软对齐下探索低质量多模态数据中的对齐语义
使用 Gentle-CLIP 方法,通过将半监督多模态对齐转化为流形匹配问题,利用新型的语义密度分布损失、多核最大平均差异和自监督对比损失等技术实现了更少匹配对的多模态对齐,提升了表示分布的稳定性和模态间的距离,且在蛋白质、遥感和图像语言领 - 预测动态融合
提出了一种用于多模态学习的预测动态融合(PDF)框架,通过从泛化角度揭示多模态融合,理论上推导出可预测的合作信念(Co-Belief)与单一和整体置信的关系,并进一步提出相对校准策略以校准潜在的不确定性,通过在多个基准测试上的大量实验证实了 - 通过门控交叉注意机制实现多模态稳定融合的股票走势预测
通过提出一种名为 MSGCA 的新型架构,能够处理股票预测中的多模态数据,实现多模态融合和稳定性,取得了相对于其他模型的各个方面的优势。
- U3M: 多模态语义分割的无偏多尺度模态融合模型
我们介绍了 U3M:一种用于多模态语义分割的无偏多尺度模态融合模型,其通过有效提取和整合全局和局部特征,实现了在多个数据集上的优越性能,并证实了在各种环境中增强语义分割的鲁棒性和多样性。
- 人机交互中的意图识别多模态置信度学习
该论文提出了一种新颖的基于学习的多模态融合框架 (BMCLOP) 用于辅助老年人,该框架结合贝叶斯多模态融合方法和批量置信度学习算法,提高准确性、降低不确定性并在交互条件下获得更可靠的结果。
- 低质量数据的多模态融合:全面调查
基于低质量数据的多模态融合面临四个主要挑战:噪声多模态数据,不完整多模态数据,不平衡多模态数据和质量变化多模态数据。本文通过全面的分类对多模态融合的常见挑战和最新进展进行调研,为研究人员提供了了解该领域现状和发现潜在研究方向的方法。此外,本 - 在未知领域的多模态 3D 对象检测
自动驾驶中的 LiDAR 数据集存在诸如点云密度、范围和物体尺寸等属性偏差,因此在不同环境中训练和评估的物体检测网络往往会遇到性能下降的问题。为了解决这个问题,域自适应方法假设可以获取来自测试分布的未标注样本。但是,在实际世界中,部署条件和 - 多模态癌症生存分析中的群体个体协作学习
我们提出了一种合作学习框架,通过知识分解和队列引导方法协同推进癌症生存分析,以提高多模态数据的融合、鉴别和泛化能力。通过四个不同组成部分:冗余性、协同性、独特性和队列引导建模,我们的模型在融合多模态数据进行生存分析时展现出了卓越的效果。
- 情感行为分析中的多模态融合与预训练模型特征研究
本文介绍了一种利用多模态融合和预训练模型特征相结合的方法,用于处理表情识别和情绪评估任务,通过对预训练模型提取特征并进行预处理、插值或卷积等操作,并应用不同模型进行多模态融合,达到在多模态任务中出色性能的目的。
- 通过附带关键音频 - 视觉线索的文本回答多样化问题
音视频问答(AVQA)需要参考视频内容和听觉信息,然后将问题相关联以预测最精确的答案。本文提出了一种进行互相关蒸馏(MCD)的框架,以帮助问题推理。通过增强音视频软关联、知识蒸馏和解耦音视频依赖等步骤,我们的方法在多个问答数据集上展现出优于 - 基于大型语言模型的知识导向视觉问答中的模态感知集成
基于知识的视觉问答(KVQA)对于利用外部知识,如知识图谱(KGs)来回答视觉问题进行了广泛研究。本文提出了一种新颖的 LLMs 模态感知集成方法(MAIL),用于 KVQA,它巧妙地利用多模态知识进行图像理解和知识推理,并在两个基准数据集 - 电子健康记录与笔记的多模态融合:利用超图和 LLM 集成结构与语义
提出了一个名为 MINGLE 的新框架,通过融合结构和语义以有效地整合不同类型的 EHR 数据,从而提高预测性能。
- MultiFIX:一种从多模态数据建立模型的友好的可解释人工智能特征引导方法
基于多模态融合、解释能力及深度学习的 MultiFIX 方法用于预测模型,提取不同数据类型的特征,并应用于恶性皮肤病变的检测。
- 鱼眼相机与超声波传感器在鸟瞰图中近场障碍物感知的融合
基于鱼眼相机和超声波传感器的多模态融合模型,实现了高效障碍物感知,通过 BEV 视角提取特征并融合两种传感器的特征空间,通过两阶段语义占用解码器生成准确的障碍物感知预测。
- $M^{2}$Fusion:基于贝叶斯的多模态多级融合在结直肠癌微卫星不稳定性预测中的应用
提出了一种基于贝叶斯的多模态多层融合技术,将病理 WSI 和三维影像 CT 图像相融合,用于预测结直肠癌微卫星不稳定性,通过特征级和决策级融合策略,在交叉验证中验证并改进了 MSI 预测的性能。
- 双金字塔多模态融合方法用于双相障碍的诊断
利用脑部结构磁共振成像和功能磁共振成像数据,结合融合策略,提出了一种新颖的多模态诊断模型,用于双相情感障碍的诊断。实验证明,该方法在 OpenfMRI 数据集上的平衡准确度从 0.657 提升至 0.732,达到了最先进水平。