本文介绍了一种利用 YouTube-8M 数据库中视听文件间共同区域来建立联系以自主训练深度神经网络的方法,实现了跨模态特征学习的无监督方法,并得出了良好的检索结果。
Jan, 2018
本文介绍了多义实例嵌入网络(PIE-Nets),通过多头自注意力和残差学习,结合全局上下文和局部特征计算实例的多个不同表示形式,以解决当前方法无法有效处理多义实例的问题,并且将其应用于图像文本检索和更具挑战性的视频文本检索,同时发布了一个用于研究视频文本检索的MRW数据集。
Jun, 2019
本文提出了一种跨模态自适应信息传递模型(Cross-modal Adaptive Message Passing, CAMP),通过自适应地控制跨模态信息的流动,全面且精细地考虑跨模态交互,使用硬负样本二元交叉熵损失函数进行训练,在 COCO 和 Flickr30k 上显著超过最先进方法,显示出了我们方法的有效性。
Sep, 2019
本文提出了一种基于Tree-augmented Cross-modal Encoding的方法,用于结合学习查询的语言结构和视频的时间特征进行视频检索,以实现更好的视频检索性能。
Jul, 2020
提出了一种新的对比损失方法 CrossCLR,能够实现跨模态嵌入学习中考虑嵌入空间中类内相似性,避免了同一内容被映射到多个点的问题,从而显著提高了视频与文本的检索和视频字幕生成的性能。该方法具有很好的普适性,可用于其他模态之间的联合嵌入学习。
Sep, 2021
提出了一种名为 X-Pool 的跨模态注意力模型,用于在文本和视频之间进行推理,从而提取重要的视觉线索。通过使用一个标度点乘的注意力机制,允许文本关注其最语义相似的帧,并生成基于文本的帧的注意力权重的聚合视频表示。在 MSR-VTT、MSVD 和 LSMDC 三个基准数据集上进行评估,实现了相对提高 Recall@1 高达 12% 的新的最佳效果。
Mar, 2022
提出了一种跨模态适配器(Cross-Modal Adapter)方法,对预训练模型进行参数高效微调,可在多模态模型上减少99.6%的参数、节省30%的训练时间以及共享预训练模型, 在 MSRVTT、MSVD、VATEX、ActivityNet 和 DiDeMo 数据集上实现了优异或可比的性能。
Nov, 2022
该研究论文介绍了一种在文本-视频检索中学习视频语义表示的方法,通过将一个空间-时间上下文模块引入图像编码器,并通过辅助视频字幕目标进行训练,以提高视频帧的语义能力。在增强后的帧表示上使用简单的时序融合策略,取得了三个基准数据集(MSR-VTT,MSVD和LSMDC)的最先进性能。
Aug, 2023
通过改进对比学习方法,引入新的技术,分别利用文本和视觉线索,从中挖掘出困难负样例,并且能够自适应地确定它们对训练损失的影响;同时,通过构建部分有序三元组样本来模拟细粒度语义相似性,以提高文本-视频检索的性能。
Sep, 2023
通过使用外部记忆库和跨模态视频-文本匹配方法,我们提出了一种新的框架来解决密集视频字幕的挑战,实现了事件定位和事件字幕任务的自动化。实验结果表明,在ActivityNet Captions和YouCook2数据集上,我们的模型表现出良好的性能,无需来自大型视频数据集的大量预训练。
Apr, 2024