- 融合音频和元数据嵌入提升基于语言的音频检索
通过利用音频元数据作为额外线索,以了解音频信号内容并将其与文本查询进行匹配,本文研究了一种混合检索系统。我们通过实验使用通常附加在音频录音上的元数据,如关键词和自然语言描述,并调查了融合音频和元数据的后期和中间级融合策略。我们的混合方法通过 - 文化遗产艺术品的多模式元数据分配
我们开发了一个多模态分类器,在文化遗产领域使用了一种后期融合的方法,并引入了一种新颖的数据集。
- 结合声学和调制谱图的基于注意力 LSTM 系统用于语音可懂性水平分类
本研究提出了基于 LSTM 网络的注意力机制来预测语音可懂度级别,并探讨了使用每帧调制谱来作为输入特征以及不同的融合策略(后期融合和加权池化融合)对语音可懂度预测任务的效果,结果表明 LSTM 网络可以有效地建模调制谱序列,而后期融合和加权 - MM探究多模态融合在图像篡改检测与定位中的应用
通过合并不同滤波器的输出结果,利用图像操作定位和检测中的互补特征和痕迹,我们提出了两种不同的方法:一种是产生独立特征并将它们融合的后期融合方法,另一种是在不同模态输出之间进行早期混合并产生早期合并特征的早期融合方法。我们证明这两种方法在图像 - 基于自监督对比 BERT 微调的融合式评论商品检索
通过对神经检索方法进行对比学习,使用 Late Fusion 方法对 Neural Reviewed-Item Retrieval 进行了改进,以获得更好的性能。
- 农业中的多光谱图像分割:融合方法的综合研究
本研究针对农业应用中的图像分割问题,通过结合 RGB 和 NDVI 作为输入,比较了不同的融合方法在作物行检测中的效果,研究发现,传统的边缘检测和阈值法等经典分割方法在需要精确的前景 - 背景分离任务中具有竞争力,融合策略中的后期融合表现为 - 使用双流卷积网络的 RGB 和姿态信息进行细粒度动作检测
本论文提出了一种基于卷积神经网络和注意机制的两流网络方法,用于对乒乓球发球进行分类和检测,其中使用了原始 RGB 数据和 MMPose 工具箱计算的姿势信息,采用后期融合方法进行性能提升,并在 TTStroke-21 数据集上进一步评估,对 - 基于 Wav2vec 2.0 和 BERT 的多模态情感识别的多级融合
该研究探讨了多模态情感识别问题,提出了使用迁移学习的方法,结合各种预训练模型和多级融合方法,以及多粒度特征提取的框架,从而在 IEMOCAP 数据集上取得了比最佳基线法高 1.3%的性能表现。
- 使用密集检测锚点的动作定位再次审视:参加 SoccerNet Challenge 2022
通过增加时间精度、结合不同输入特征类型以及改进前后处理步骤,使用基于密集检测锚点的行动识别方法,该论文在评估标准 Tight average-mAP 上取得第一名并成为 SoccerNet 测试集上的最新技术。
- IJCAIGASP:门控注意力用于显著性预测
本研究提出了一种神经模型,旨在整合社交线索并权衡它们的影响,通过探索不同的融合技术,引入两个子网络以将注意力引导到相关的刺激物上,结果表明动态显著性预测不考虑社交线索的准确性有所提高。
- 多模态驾驶员行为理解的决策级融合比较分析
本文通过对视频驾驶员观察中的决策级别融合策略进行比较和评估,从视觉识别和多模态识别角度提出决策级别融合的方案,旨在指导融合策略的选择。
- AMVNet:基于断言的多视角融合网络用于激光雷达语义分割
本文提出了基于断言的多视图融合网络 (AMVNet),用于 LiDAR 语义分割,通过后期融合聚合各个基于投影的网络的语义特征。在自主车辆等计算和内存资源受限的机器人系统中具有灵活性,实验结果表明,AMVNet 在 SemanticKITT - 姿态和关节感知动作识别
本文提出了一种基于关节的动作识别模型,使用共享的运动编码器从每个关节分别提取运动特征,再通过联合推理的方式进行识别,同时引入了选定更具判别性关节的加权计算机制,关节对比损失技巧,以及基于几何感知的数据增强技术等方法,经实验证明,在 JHMD - 交叉注意力监督数据增强在问答神经检索中的应用
通过使用数据挖掘和神经网络构建早期和晚期融合的混合模型,我们展示了一种有效的方法,可以提高在大型语料库中连续空间检索的性能
- MMTM:CNN 融合的多模态转移模块
本文提出了一种简单的神经网络模块,名为 Multimodal Transfer Module(MMTM),它能够在 CNN 特征层次结构的不同层级上进行慢速模态融合,利用多模态知识校准每个 CNN 流中的通道特征,用于特征模态融合的卷积层具 - ICCV将时间和空间注意力融合在 VATEX 视频字幕挑战 2019 中
该论文提出了一种用于视频字幕生成的模型,该模型在时间和空间上均考虑了注意力机制,并通过后期融合策略将这两种机制结合起来,从而显著提高了生成字幕的性能,达到了 73.4 的 CIDEr 得分,并在 VATEX 视频字幕生成挑战赛上获得第二名。
- 利用自然语言在视频时序关系中进行时刻定位
本论文提出了 Temporal Compositional Modular Network (TCMN) 模型,该模型结合自然语言描述和视觉信息,通过树形注意力网络自动细分为描述主事件、情境事件和时间信号三部分,再使用两个模块计量视频片段与 - ECCV视频故事问答的多模态双重关注记忆
本研究提出一种视频故事问答架构,名为 Multimodal Dual Attention Memory (MDAM)。使用双重注意机制,结合自我注意力和注意力机制在场景帧和字幕中学习潜在的概念,并在双重注意力处理后执行多模态融合,从而学习从 - MMBeyond RGB: 基于多模态深度网络的高分辨率城市遥感技术
本文研究使用深度完全卷积网络来处理多模态多尺度遥感数据的语义标注,并采用有效的多尺度方法来提高语义标注的精度和深入研究数据的早期和后期融合方法,并在两个公共数据集上验证了我们的方法,表现出令人满意的结果。
- 基于融合的对象检索设计模式
该研究旨在解决排名对象的问题,通过从相关的文档中收集证据来进行目标匹配,针对这一问题,研究提出了两种设计模式,分别为在词级(早期融合)和文档级别(晚期融合)上进行证据收集,这些模式通过专家查找、博客筛选和垂直排名等三个不同的目标检索任务得到