CBVS：面向现实世界短视频搜索场景的大规模中文图文基准

Jan, 2024

CBVS：面向现实世界短视频搜索场景的大规模中文图文基准

CBVS: A Large-Scale Chinese Image-Text Benchmark for Real-World Short Video Search Scenarios

Xiangshuo Qiao, Xianxin Li, Xiaozhe Qu, Jie Zhang, Yang Liu...

TL;DR利用大规模图像文本预训练的视觉语言模型在图像检索等任务中表现出优异性能；为了填补短视频封面数据的缺失，我们建立了首个面向中文短视频搜索场景的大规模封面文本基准测试集，并提出了 UniCLIP 方法，通过训练时的封面文本引导，但推理时不依赖封面文本来集成语义；在经过大规模验证数据集 CBVS-20K 的深度评估中，我们的提案 UniCLIP 表现出了出色的性能，并在腾讯在线视频搜索系统上部署，取得了显著的增益。

Abstract

vision-language models pre-trained on large-scale image-text datasets have shown superior performance in downstream tasks such as image retrieval. Most of the images for pre-training are presented in the form of

vision-language models pre-training short video search large-scale datasets uniclip

发现论文，激发创造

基于部分监督学习的大规模中文街景文字阅读

该研究提出了一个大规模的文本阅读基准数据集，名为 Chinese Street View Text（C-SVT），可用于评估深度学习模型的性能。同时，介绍了使用弱标注数据的部分监督学习框架进行文本识别的方法。基于该框架，提出了一种在线提议匹配模块和一种共享参数的定位算法，以提高模型的端到端识别表现，并在 ICDAR 2017-RCTW 数据集中取得了最新的结果。

Sep, 2019

BigVideo：一份大规模视频字幕翻译数据集，用于多模式机器翻译

本研究提出了一个大规模的视频字幕翻译数据集 BigVideo，用于促进多模态机器翻译的研究；在跨模态编码器中引入了对比学习方法，结果表明视觉信息能够显著提高 NMT 模型的性能并帮助消除歧义。

May, 2023

使用 CLIP 的视频检索简明框架

本研究探索了使用语言 - 图像模型 CLIP 来获取视频表示，而不需要用户注释，这一技术扩展应用于视频检索中取得了最先进的结果。

Feb, 2021

视频 CSR: 复杂视频摘要生成用于视觉 - 语言模型

我们提出了一个新的任务和人类标注的数据集，用于评估视觉语言模型对于生成视频剪辑的标题和摘要的能力，该数据集包含了 4800 个 YouTube 视频剪辑，时长在 20-60 秒之间，涵盖了广泛的主题和兴趣，对于视觉和听觉内容都进行了基于摘要的检索任务和基于标题和摘要的生成任务的评估，并提出了一个基础模型作为 Video-CSR 任务的基准，旨在成为大型语言模型和复杂多模态任务时代的有用评估集。

Oct, 2023

LVBench：极长视频理解基准

多模态大型语言模型的最新进展在短视频（通常不超过一分钟）的理解方面取得了显著的提升，并相应产生了多个评估数据集。然而，这些进展还不足以满足现实世界应用的需求，如长期决策的具身智能、深入的电影评论和讨论，以及现场体育评论，这些都需要对数小时的长视频进行理解。为了弥补这一差距，我们介绍了专门设计用于长视频理解的基准测试集 LVBench。我们的数据集包括来源于公共的视频，囊括了一组多样化的任务，旨在进行长视频理解和信息抽取。LVBench 旨在挑战多模态模型展示长期记忆和扩展理解能力。我们进行了大量的评估，结果显示当前的多模态模型在这些具有挑战性的长视频理解任务上表现不佳。通过 LVBench，我们旨在推动更先进的模型的发展，以应对长视频理解的复杂性。我们的数据和代码在以下链接公开可用：this https URL

Jun, 2024

通过生成式标题和多词概念库改进用于即席视频搜索的可解释嵌入

通过构建新数据集和发展多词概念库，本文解决了现有方法在出现未见查询和词汇量问题上的瓶颈，实验结果显示以上所述元素的整合将 AVS 方法在 MSRVTT 数据集上的 R@1 性能翻倍，并将在 2016-2023 年（八年）TRECVid AVS 查询集的 xinfAP 增加了 2% 到 77%，平均约为 20%。

Apr, 2024

一个带有阅读理解的大型跨模态视频检索数据集

提出了一种新的跨模态视频检索数据集 TextVR，它包含了八个场景领域的 10.5k 个视频和 42.2k 个查询语句，并介绍了一种统一的跨模态模型，有效地将文本和视觉语义信息融合来实现视频检索任务。该数据集和我们提出的跨模态检索方法为视频和语言研究领域提供了许多新的技术挑战和洞见。

May, 2023

全局 - 局部语义一致学习的文本 - 视频检索

通过提出 Global-Local 语义一致性学习方法，该研究利用文本 - 视频预训练模型，实现在文本 - 视频检索中的高效性和效果提升。通过全局和局部交互模块实现粗粒度和细粒度的语义对齐，并引入一致性损失和多样性损失，达到概念对齐和生成更有区分性的概念的目的。实验结果表明，该方法在多个基准测试中具有优越的性能和高效率。

May, 2024

一段视频胜过万言：利用多样化字幕进行更好的长视频检索的训练和基准测试

通过对长视频生成多样的合成标题，使用大型语言模型评估长视频检索系统的能力，并提出轻量级微调方法（基于对不同标题中信息层级的差异进行对比损失学习），在下游的段落 - 视频检索任务以及使用合成数据计算的各种长视频检索度量上均有明显提升。

Nov, 2023

视觉语言模型的可扩展性能分析

本文介绍了一种更具可伸缩性的方法，其根据从视觉 - 语言基准中提取的大量多样化特征，并测量它们与目标模型输出的相关性。通过该方法，作者确认了之前发现的 CLIP 表现类似于词袋模型，并且在名词和动词上表现更好；作者还发现 CLIP 在处理具体词语时会出现混淆。该框架可用于其他多模态模型和基准测试。

May, 2023