- ICML可证明的低质量多模态数据动态融合
本研究提供了一种新的质量感知多模态融合方法,旨在从概率推理的角度解决跨模态相关性和交互性的挑战,并在多个基准测试中验证了其分类准确性和模型鲁棒性的提升。
- 在双曲空间中学习弱监督的音视频暴力检测
本文提出了一种基于超几何空间的弱监督音视频暴力检测框架 HyperVD,通过多模态融合和全超几何图卷积网络等方法来提高模型的判别能力,收益于在此空间中学习片段表示方法,最终在 XD-Violence 基准测试中超越同领域最优性能的方法。
- 交叉注意力不足:不协调感知的多模态情感分析和情绪识别
通过层级交叉模态变压器与模态门控的轻量级模型,本文在情感和情绪分析领域,解决了多模态数据融合存在的潜在问题,提出了一种确定主要模态并逐层整合辅助模态的方法,发现了交叉模态关注中的跨模态不一致性并在三个基准数据集上验证了该方法的有效性,并使模 - 利用分层融合卫星、旋转和上下文数据提高作物分类性能
提出了一种融合多模态信息的方法,用于改进作物类型分类的准确性和稳健性,并针对 740 万个农业地块发布了新的注释数据集。新方法在评估中表现更好,可用于跨领域零样本学习和从法国到荷兰的少样本设定的稳健性。
- MMDR:自主系统的结果特征融合目标检测方法
本研究提出了一种基于结果特征级融合的多模态融合方法,该方法利用单模态源生成的结果特征进行融合,针对 2D 和 3D 目标检测任务设计了新的后融合网络 MMDR 模型,并在特征融合阶段加入了浅层全局特征,避免了漏检等问题。
- 小数据集的辅助监督改进多模态融合
研究简述:为了在小数据集上避免过拟合,提出使用额外监督、临床预测和密集融合三种简单方法进行改进的多模态融合,以帮助优化。提出的方法可以应用于任何具有配对图像和非图像数据的分类任务,本研究在前列腺癌诊断方面进行了验证。
- 基于 Transformer 的自监督多模态表示学习在可穿戴情感识别中的应用
提出了一种基于多模态数据融合的自监督学习框架,采用时间卷积模态特定编码器和基于 Transformer 的共享编码器实现高效融合,自动分配标签并使用先验任务进行预训练,从而实现 generalized 的多模态表示,最终在各种情感识别任务中 - WWWIMF:交互式多模态融合模型用于链接预测
该研究提出了一种交互式多模态融合技术,可在保留各自模态特征的同时,更好地融合来自不同模态的知识,以实现更好的链接预测效果,并在多个真实世界数据集上进行了实证评估。
- CVPR递送任意模态的语义分割
利用多模态融合可以使语义分割更具鲁棒性,但是融合任意数量的模态仍未被探索,因此我们创建了 DelIVER 任意模态分割基准,并提供了四种恶劣天气条件和五种传感器故障情况的数据集,以利用模态互补性和解决局部故障。我们提出了交叉模态分割模型 C - CVPRVindLU:一种实现视频与语言预训练的有效方法
该研究论文分析了现代视频和语言(VidL)模型设计的最重要因素,其中包括时空建模、多模态融合、预训练数据选择和细调等,发现视频到文本多模态融合、掩蔽建模目标和图像和视频的联合训练等设计因素对于提高模型效果非常重要,提出了一种名为 VindL - 基于查询的多模式路径融合的多模式知识图谱完成
本文介绍了一个基于查询的多模态知识库完成系统,其通过融合非结构化和结构化信息的多模态知识图,提出了一种多模态路径融合算法来排列候选答案,并利用查询驱动技术提高了系统效率,以证明该系统的高效性和有效性。
- AAAI基于对齐增强的补丁级预训练文档图像模型调优
本文提出了一个新的模型结构,即 AETNet,使用带有对齐目标的下游任务进行 fine-tuning,同时引入了额外的可视化和文本转换器进行多模态融合,以实现更好的性能表现。该模型考虑了三个方面的对齐:文档级别对齐、全局 - 本地对齐和局部 - 使用多种视觉模态预测房地产属性(包含缺失数据)
研究通过视觉数据,特别是室内和室外照片,预测高级房地产属性的潜力,并设计了三个模型进行评估和不同融合策略的处理。
- 基于 Web 问答和多模态融合的知识库补全
该论文提出了一种基于网络的问题回答系统,运用多模式融合的结构化和非结构化信息,用以填补知识库中的缺失信息,并通过该系统对问题模板进行提取和组合,结合结构化信息和网络上的非结构化信息,从而达到知识库补全的目的。
- 面向可靠和可信汽车界面的自适应用户中心多模态交互
本文探讨了一种基于用户观察和启发式方法、多模态融合、聚类、模型自适应和连续学习的用户中心自适应多模态融合方法,旨在提供一种开放源代码框架,用于从移动车辆中参照外部对象,以实现可信任的以人为中心的人工智能
- 基于多视角对比学习提升情感分析中形式表征
本文探索了应用对比学习改进模态表征的方法,提出了三阶段的多视角对比学习框架,通过监督和自监督对比学习来改进单模态和融合的多模态表征,并成功提高了多模态情感分析任务的效果。
- CVPR桥接变压器用于视觉和点云 3D 物体检测
使用 Bridged Transformer 对 3D 与 2D 目标物体区域进行端到端的学习,特别利用对象查询作为 3D 和 2D 空间的桥梁,实现多模式融合,可有效实现从点云和图像中识别物体的边界框,进而提高多视角成像中的物体检测效率。 - TFusion:基于 Transformer 的 N 到 One 多模态融合块
本文提出了一种基于 transformer 的多模态融合块 TFusion,采用 tokens 和 transformer layers 自动学习融合可用多模态,引入 modal attention 机制减少依赖于特定模态,可用于多模态人体 - 骨干部分融合的粗到精视觉 - 语言预训练
FIBER 是一个用于 Vision Language(VL)的新型 VL 模型结构,通过将交叉注意力插入图像和文本骨干网络,将多模态融合深入到模型中,并使用两阶段预训练策略,可以在 VL 任务中提供一致的性能提升。
- DouFu:双融合联合学习方法用于驾驶轨迹表示
本文提出一种新的轨迹表示联合学习的多模态融合模型 DouFu,它使用多模态学习和注意力融合模块来捕捉轨迹的内部特征,通过设计运动、路线和全局特征并分别使用注意力编码器或前馈网络,结合路线特征和运动特征创建更好的时空嵌入,最终生成每个轨迹的全