半参数视频文本生成
该论文提出了一种基于回归模型的方法,使用文本查询中的语义短语提取中间特征,以反映查询中描述的重要语义实体和视频的视觉特征之间的双模态交互,通过在多个层面上从局部到全局利用上下文信息,有效地预测目标时间区间。实验证明,该方法在 Charades-STA 和 ActivityNet Captions 数据集上的表现明显优于现有方法。
Apr, 2020
通过引入边缘稀疏性和节点稀疏性的 SViTT 稀疏视频文本架构可以以较低的成本进行多帧推理,优于朴素变压器基线,并对多个视频文本检索和问答基准进行了训练,以及在更长的片段长度下是针对模型稀疏性(sparsity)进行了培训。
Apr, 2023
该研究提出了一种名为 Video-Teller 的视频语言基础模型,通过多模态融合和细粒度模态对齐来显著增强视频到文本生成任务。实验结果表明,该模型在准确理解视频和生成连贯且精确的语言描述方面取得了显著效果。
Oct, 2023
提出一种高效和高性能的部分相关视频检索方法,通过使用超级图像、视觉编码和细调方法,实现了在 ActivityNet Captions 和 TVR 上的最佳性能。
Dec, 2023
通过构建新数据集和发展多词概念库,本文解决了现有方法在出现未见查询和词汇量问题上的瓶颈,实验结果显示以上所述元素的整合将 AVS 方法在 MSRVTT 数据集上的 R@1 性能翻倍,并将在 2016-2023 年(八年)TRECVid AVS 查询集的 xinfAP 增加了 2% 到 77%,平均约为 20%。
Apr, 2024
HaVTR 提出了一种新颖的视频 - 文本学习范式,通过数据增强和引入生成模型生成更加丰富的数据,提高视频 - 文本检索模型的表示学习能力,在多个检索基准测试中展现了优越性。
Apr, 2024
本文提出了一种基于 GPT-2 模型的框架,将视频与文本表示结合成连续、有结构的序列,并利用其 fine-tuning 能力来解决视频对话中的挑战,从而在 Audio-Visual Scene-Aware Dialogues 基准测试中取得了显著的改进。
Jun, 2020
我们提出了一种基于分块匹配的文本 - 视频检索方法,通过构建多模态超图和引入变分推断,实现在高阶语义空间中对文本和视频的复杂多元交互进行建模,进而提高检索性能。
Jan, 2024
本文提出 VideoSET,一种通过文本评估视频摘要的方法,该方法可以评估视频摘要能否保留其原始视频中包含的语义信息。我们观察到语义最容易用文字来表达,因此开发了一种基于文本的评估方法。通过生成视频摘要的文本表示,然后使用基于 NLP 的度量方法来测量其与人类编写的基准文本摘要的语义距离。我们展示了我们的技术与基于像素距离的度量方法相比具有更高的人类判断一致性。我们还发布了一些公开可用的视频数据集的文本注释和基准文本摘要,供计算机视觉社区使用。
Jun, 2014
本文提出了一种称为 Gen-L-Video 的新方法,该方法利用现有的短视频扩散模型扩展了当前的文本驱动视频生成和编辑能力,使其能够生成和编辑具有多个语义段的数百帧的长视频,而不需要额外的训练,从而极大地拓宽了视频扩散模型的生成和编辑能力。
May, 2023