文本-视频检索的跨模态适配器
本文提出了一种基于多模态transformer架构的视频检索方法,该方法能够充分利用视频中的跨模态线索,并融合先前的时间信息。我们还研究了联合优化语言嵌入和多模态transformer的最佳实践。该方法在三个数据集上取得了最新的视频检索结果。
Jul, 2020
本文提出了一种基于交互建模的专注跨模态相关性匹配(ACRM)模型,用于预测时间边界,并通过内部帧进行模型训练以提高定位精度,通过在TACoS和Charades-STA数据集上进行的实验表明,ACRM模型优于几种最先进的方法。
Sep, 2020
本文提出了一种基于 fine-tuning 的框架,将任何预先训练的文本-图像多模态模型转换为高效的检索模型,并通过 cooperative retrieve-and-rerank 方法结合双网络和交叉编码器,实现更准确、更高效的跨模态检索。
Mar, 2021
提出了一种新的名为Hierarchical Transformer (HiT)的方法,其中包括Hierarchical Cross-modal Contrastive Matching和Momentum Cross-modal Contrast的元素,以解决现有交叉模式Transformer方法存在的局限性,并在三个主要的Video-Text检索基准数据集上实现了优越的实验结果。
Mar, 2021
本研究提出了一种新颖的记忆增强嵌入学习(MEEL)方法,构建了两种记忆模块,交叉模态记忆模块和文本中心记忆模块,用于跨模态视频文本检索任务,解决了局部负样本和文本描述多样性的问题。在MSR-VTT和VATEX两个基准数据集上进行的实验表明,该方法具有很高的有效性。
Mar, 2021
本文使用最新的视觉-语言预训练模型CLIP,设计了一种名为CLIP4CMR的改进型跨模态检索框架,通过实验研究不同学习目标的设计问题、在解决多模态类别级联表示问题方面的应用、及其对实际应用的影响和灵敏度等关注方面的分析,对监督型跨模态检索进行了全面的实证研究,以期提供对模型设计和实际应用的意见和新视角。
Jan, 2022
本文针对图文检索中的细粒度语义匹配问题,以MSCOCO-Test-5K和Flickr30K-Test-1K数据集不足的情况为背景,提出了将其重建为MSCOCO-FG和Flickr30K-FG等数据集的方法,并通过模型评估和实验指出了模型在细粒度语义理解方面的不足之处和提升空间。
Apr, 2023
提出了一种新的跨模态视频检索数据集TextVR,它包含了八个场景领域的10.5k个视频和42.2k个查询语句,并介绍了一种统一的跨模态模型,有效地将文本和视觉语义信息融合来实现视频检索任务。该数据集和我们提出的跨模态检索方法为视频和语言研究领域提供了许多新的技术挑战和洞见。
May, 2023
该研究论文介绍了一种在文本-视频检索中学习视频语义表示的方法,通过将一个空间-时间上下文模块引入图像编码器,并通过辅助视频字幕目标进行训练,以提高视频帧的语义能力。在增强后的帧表示上使用简单的时序融合策略,取得了三个基准数据集(MSR-VTT,MSVD和LSMDC)的最先进性能。
Aug, 2023
提出两种不同的方法来解决跨模态检索的问题,一种基于CLIP对任意数量的输入模式进行扩展,而第二种方法通过回归跨模态相似性来解决协调问题,并在多个数据集上进行实验证明其简单有效,并允许以新的方式解决检索问题。
Jan, 2024