通过生成式标题和多词概念库改进用于即席视频搜索的可解释嵌入

Apr, 2024

通过生成式标题和多词概念库改进用于即席视频搜索的可解释嵌入

Improving Interpretable Embeddings for Ad-hoc Video Search with Generative Captions and Multi-word Concept Bank

Jiaxin Wu, Chong-Wah Ngo, Wing-Kwong Chan

TL;DR通过构建新数据集和发展多词概念库，本文解决了现有方法在出现未见查询和词汇量问题上的瓶颈，实验结果显示以上所述元素的整合将 AVS 方法在 MSRVTT 数据集上的 R@1 性能翻倍，并将在 2016-2023 年（八年）TRECVid AVS 查询集的 xinfAP 增加了 2% 到 77%，平均约为 20%。

Abstract

Aligning a user query and video clips in cross-modal latent space and that with semantic concepts are two mainstream approaches for ad-hoc video search (AVS). However, the effectiveness of existing approaches is bottlenecked by the small sizes of available →

ad-hoc video search video-text datasets concept bank generative model interpretable avs method

发现论文，激发创造

可解释的嵌入式技术用于即时视频搜索

通过集成特征嵌入和概念解释到神经网络中进行统一的双重任务学习，本论文实现了将嵌入与语义概念关联，作为视频内容解释的新方法，并在 TRECVid 基准数据集上证明了搜索结果的显著提升。

Feb, 2024

利用现有资源：使用协同信息源提取视频表示

该论文旨在将来自不同模态的视频信息压缩为单一、紧凑的表示形式，以用于自由格式文本查询的视频检索任务。通过运用预训练的语义嵌入、自动语音识别和光学字符识别等方法，采用协作专家模型来聚合信息，具有良好的检索性能。

Jul, 2019

无需对齐视频和文本数据的可伸缩精准的自监督多模态表征学习

本文介绍了利用图像字幕预训练高质量视频模型的方法，并证明了以图像字幕代替自动语音识别字幕的预训练方法更有效，使用图像和视频一起进行预训练比单独使用一种模式的预训练能显著提高网络性能，并且这种方法可以与现有的预训练或数据挖掘方法相辅相成。

Apr, 2023

半参数视频文本生成

通过对数据存储库中的视频采用非参数帧检索器进行预处理，将其与查询一起进行聚合，从而有效地表示长时间未修剪的视频的可扩展视频 - 语言建模新视角。在四个视频 - 语言数据集上达到了新的技术水平。

Jan, 2023

一段视频胜过万言：利用多样化字幕进行更好的长视频检索的训练和基准测试

通过对长视频生成多样的合成标题，使用大型语言模型评估长视频检索系统的能力，并提出轻量级微调方法（基于对不同标题中信息层级的差异进行对比损失学习），在下游的段落 - 视频检索任务以及使用合成数据计算的各种长视频检索度量上均有明显提升。

Nov, 2023

走向全面的语言 - 视频表示：语言模型增强的 MSR-Video 到文本数据集

通过自动增强语言 - 视频数据集和多方位视频字幕生成方法，提高语言 - 视频表示能力，并通过多模态检索模型验证其有效性。

Jun, 2024

SEA: 用文本查询进行视频检索的句子编码器组合

本研究提出了一种名为 Sentence Encoder Assembly 的新方法，通过多空间多损失学习实现语句编码器的有效利用和文本 - 视频匹配，并在四个基准测试中表现出优于当前最先进技术的性能。

Nov, 2020

关于视音频检索中的语义相似度

本文提出了一种基于语义相似性的视频检索方法，它允许多个视频和标题被视为同等相关，并且排名的顺序不影响检索性能比较，同时，它还提出了多种估计语义相似性的方法，以适应大规模检索数据集。本文在三个常用视频检索数据集上分析了该方法的表现。

Mar, 2021

视频和音频检索的跨模态嵌入

本文介绍了一种利用 YouTube-8M 数据库中视听文件间共同区域来建立联系以自主训练深度神经网络的方法，实现了跨模态特征学习的无监督方法，并得出了良好的检索结果。

Jan, 2018

可解释的视听视频字幕生成尝试

本论文介绍了一个多模态卷积神经网络视频字幕框架，通过引入模态感知模块，探索了视听交互对视频理解的影响，并证明该可解释模型在情况选择时取得了可比较的性能。

Dec, 2018