基于门控融合网络和 POS 序列指导的可控视频字幕生成

ICCVAug, 2019

基于门控融合网络和 POS 序列指导的可控视频字幕生成

Controllable Video Captioning with POS Sequence Guidance Based on Gated Fusion Network

Bairui Wang, Lin Ma, Wei Zhang, Wenhao Jiang, Jingwen Wang...

TL;DR本文提出了一种基于 Part-of-Speech 信息引导视频字幕生成的方法，通过多个输入视频表示的门控融合，构建了一种新颖的门控融合网络，其中一个特别设计的交叉门控块可以有效地编码和融合不同类型的表示，结果显示该模型可充分利用多种表示的互补信息，提高了性能。

Abstract

In this paper, we propose to guide the video caption generation with part-of-speech (POS) information, based on a gated fusion of multiple representations of input videos. We construct a novel →

video caption generation part-of-speech syntactic structure gated fusion network msr-vtt

发现论文，激发创造

基于双图和门控融合的聚合特征视频字幕生成

本文提出了基于双图和门控融合的视频字幕模型，通过使用两种类型的图来生成视频内容的特征表示，并利用门控融合来进一步理解这些不同层次的信息，以实现对复杂视频对象相互作用的全面理解。在 MSVD 和 MSR-VTT 这两个常用数据集上进行的实验表明，我们提出的方法具有最先进的性能。

Aug, 2023

利用字幕的关注语义视频生成

该研究提出了一种网络架构，利用标题执行可变长度的语义视频生成。网络能够区分视频中的对象，动作和交互，并将它们与长期和短期依赖结合起来，以增量方式生成视频。网络通过学习潜在表示对视频进行无监督生成，并在执行其他任务时表现出了良好的能力，如动作识别和空时样式转移。

Aug, 2017

视频字幕的分层模块化网络

本文提出了一种分层的模块化网络来连接视频表示和语言语义，从实体级别、谓词级别和句子级别三个层次生成视频字幕，并在 MSVD 和 MSR-VTT 基准测试中表现优异。

Nov, 2021

视频字幕的判别性潜在语义图

该研究提出了一种联合框架解决视频自动生成字幕中的三个关键问题，包括融合时空信息增强物体建议、动态提取高语义级别的视觉词，以及生成字幕验证确保语义概念的有效保留。实验表明该方法在各种评价指标上都显著优于现有的自然语言生成模型。

Aug, 2021

检索增强型零样本视频字幕生成

该论文提出了一种利用现有的大规模视觉和语言模型进行测试时间适应性直接生成字幕的方法，通过使用多个关键模型来桥接视频和文本，并使用可学习的令牌来传递信息。在实验中，该方法在多个数据集上取得了与现有最先进方法相比的 4％至 20％的 CIDEr 主要评价指标的改进。

May, 2024

多面向注意力的视频字幕生成

本文提出了一种新的视频字幕生成方法，利用多种视觉特征和语义属性的层次，采用 LSTM 网络进行句子生成，实现自动选取最突出的视觉特征或语义属性，有望提高字幕生成的精确度。实验结果表明，该框架胜过现有最先进的方法，并可进一步提升精度至近于人类水平。

Dec, 2016

基于进化伪标记的零样本视频字幕生成

本文提出了一种零样本视频字幕生成方法，采用了冻结的 GPT-2 语言模型和 CLIP 图像 - 文本匹配模型，并通过生成过程中的优化方法生成了连贯、具有广泛实际知识的视频字幕。

Jul, 2022

基于上下文门控双向注意力融合的密集视频字幕生成

本研究提出一种双向提案方法、注意力融合和上下文门控机制，将提案与字幕模块结合到一个统一的框架中，以在活动网字幕数据集上实现相对增益超过 100％（Meteor 得分从 4.82 增加到 9.65）的优异表现。

Mar, 2018

视频字幕的语义分组网络

本文提出了基于语义分组网络（SGN）的视频字幕生成模型，通过学习算法去捕捉部分解码的字幕词组并将其与相关联的视频帧建立映射，从而实现语义相关的视频帧聚类和冗余信息的减少，创新性地提出了一种对齐方法，通过不断更新的解码单词动态更新视频表示，最终在 MSVD 和 MSR-VTT 数据集上的表现优于其他方法 2.1% p 和 2.4% p，实验证明 SGN 的高效性和可解释性。

Feb, 2021

通过提炼图像 - 文本匹配模型，实现更加扎实的图像字幕生成

本研究提出了一种基于 Part-of-Speech 增强图像 - 文本匹配模型的方法（称为 POS-SCAN），以提高图像字幕准确性，并且探讨了图像 - 文本匹配分数作为奖励用于更加接近实际对象的图像字幕训练。

Apr, 2020