半参数视频文本生成

Jan, 2023

Semi-Parametric Video-Grounded Text Generation

Sungdong Kim, Jin-Hwa Kim, Jiyoung Lee, Minjoon Seo

TL;DR通过对数据存储库中的视频采用非参数帧检索器进行预处理，将其与查询一起进行聚合，从而有效地表示长时间未修剪的视频的可扩展视频 - 语言建模新视角。在四个视频 - 语言数据集上达到了新的技术水平。

Abstract

Efficient video-language modeling should consider the computational cost because of a large, sometimes intractable, number of video frames. Parametric approaches such as the attention mechanism may not be ideal since its computational cost quadratically increases as the video length in

video-language modeling sevit frame sampling parametric generator long untrimmed videos

发现论文，激发创造

局部 - 全局视频文本交互的时间对齐

该论文提出了一种基于回归模型的方法，使用文本查询中的语义短语提取中间特征，以反映查询中描述的重要语义实体和视频的视觉特征之间的双模态交互，通过在多个层面上从局部到全局利用上下文信息，有效地预测目标时间区间。实验证明，该方法在 Charades-STA 和 ActivityNet Captions 数据集上的表现明显优于现有方法。

Apr, 2020

SViTT: 稀疏视频文本 Transformer 的时间学习

通过引入边缘稀疏性和节点稀疏性的 SViTT 稀疏视频文本架构可以以较低的成本进行多帧推理，优于朴素变压器基线，并对多个视频文本检索和问答基准进行了训练，以及在更长的片段长度下是针对模型稀疏性（sparsity）进行了培训。

Apr, 2023

视频银行：融合和解耦增强跨模态生成

该研究提出了一种名为 Video-Teller 的视频语言基础模型，通过多模态融合和细粒度模态对齐来显著增强视频到文本生成任务。实验结果表明，该模型在准确理解视频和生成连贯且精确的语言描述方面取得了显著效果。

Oct, 2023

大规模视觉语言模型学习用于高效和高性能的部分相关视频检索的超级图像

提出一种高效和高性能的部分相关视频检索方法，通过使用超级图像、视觉编码和细调方法，实现了在 ActivityNet Captions 和 TVR 上的最佳性能。

Dec, 2023

通过生成式标题和多词概念库改进用于即席视频搜索的可解释嵌入

通过构建新数据集和发展多词概念库，本文解决了现有方法在出现未见查询和词汇量问题上的瓶颈，实验结果显示以上所述元素的整合将 AVS 方法在 MSRVTT 数据集上的 R@1 性能翻倍，并将在 2016-2023 年（八年）TRECVid AVS 查询集的 xinfAP 增加了 2% 到 77%，平均约为 20%。

Apr, 2024

HaVTR：利用大型基础模型改进视频 - 文本检索的方法

HaVTR 提出了一种新颖的视频 - 文本学习范式，通过数据增强和引入生成模型生成更加丰富的数据，提高视频 - 文本检索模型的表示学习能力，在多个检索基准测试中展现了优越性。

Apr, 2024

利用预训练生成语言模型的视频对话

本文提出了一种基于 GPT-2 模型的框架，将视频与文本表示结合成连续、有结构的序列，并利用其 fine-tuning 能力来解决视频对话中的挑战，从而在 Audio-Visual Scene-Aware Dialogues 基准测试中取得了显著的改进。

Jun, 2020

多模式超图网络的文本视频检索

我们提出了一种基于分块匹配的文本 - 视频检索方法，通过构建多模态超图和引入变分推断，实现在高阶语义空间中对文本和视频的复杂多元交互进行建模，进而提高检索性能。

Jan, 2024

VideoSET：通过文本对视频摘要进行评估

本文提出 VideoSET，一种通过文本评估视频摘要的方法，该方法可以评估视频摘要能否保留其原始视频中包含的语义信息。我们观察到语义最容易用文字来表达，因此开发了一种基于文本的评估方法。通过生成视频摘要的文本表示，然后使用基于 NLP 的度量方法来测量其与人类编写的基准文本摘要的语义距离。我们展示了我们的技术与基于像素距离的度量方法相比具有更高的人类判断一致性。我们还发布了一些公开可用的视频数据集的文本注释和基准文本摘要，供计算机视觉社区使用。

Jun, 2014

Gen-L-Video：多文本到长视频生成与时域协同去噪

本文提出了一种称为 Gen-L-Video 的新方法，该方法利用现有的短视频扩散模型扩展了当前的文本驱动视频生成和编辑能力，使其能够生成和编辑具有多个语义段的数百帧的长视频，而不需要额外的训练，从而极大地拓宽了视频扩散模型的生成和编辑能力。

May, 2023