本文介绍了一种使用低秩张量完成多模态数据融合的新方法,并在多模态情感分析、演讲者特征和情感识别等多个任务中取得了有竞争力的结果且极大地减少了计算复杂度。
May, 2018
本论文提出了一种自监督生成建模框架,用于联合学习多模态数据的概率潜在状态表示和相应的动态,并且该方法在机器人学方面有显著的预测和表示质量改进。
Apr, 2022
本文提出了一种新的自监督训练方法,利用来自多个传感器的共同数据来学习每种可能的组合的有用表示,该方法在遥感分类任务中优于全监督 ImageNet 权重,并随着越来越多的传感器融合而改善。
Aug, 2021
本文提出了一种新颖的不完整多模态学习模型,结合双向 LSTM 注意力和掩蔽自注意机制来收集多模态信号,利用重构和对比损失来促进预训练中的融合,能在处理数据不完整输入时达到当前最佳性能水平。
Apr, 2023
FuseMix 是一种多模态增强方案,在任意预训练的单模态编码器的潜空间上操作,通过使用 FuseMix 进行多模态对齐,我们以远低于 CLIP 的计算和数据成本,在图像 - 文本和音频 - 文本检索任务中实现具有竞争力的性能。
Dec, 2023
本文针对自动驾驶感知任务中存在的多模态融合问题进行文献综述,分析超过 50 篇包括 LiDAR 和相机在内的感知传感器解决目标检测和语义分割任务的方法,并提出一种更合理的分类方法。
Feb, 2022
通过引入模态潜在转换模块和新设计的融合模块,提出了一种强大的大型模型的潜在表示调优方法,以最大化模态之间的相关性,并提供在某一模态缺失情况下的稳健表示,同时保留图像和文本基础模型的冻结状态以保留其大规模预训练所获得的能力。实验证明了该方法的有效性。
Jun, 2024
本文介绍了一种有效的多模态特征融合框架,其中采用了两种创新的融合方案,可在一个共享的单一网络中学习多模态特征,并引入两个非对称融合操作,以增强跨通道的多模态特征交互并增强通道内的空间特征区分能力。实验结果表明,本文提出的框架在语义分割和图像翻译任务中表现优异。
通过多模态深度学习方法和流形学习的降维技术,本文提出了一种中间多模态融合网络,成功地在处理和分析数据时降低了计算复杂度,并在准确性方面优于其他网络。
Mar, 2024
通过神经网络重建,将基于截断有符号距离函数的三维重建方法从多个方面进行了推广,包括语义信息的丰富、多传感器数据融合、场景去噪与完整以及专家系统整合。
Sep, 2019