- IJCAIGL-RG: 视频字幕生成中的全局与局部表示层级
本文提出了一种全局 - 局部表示粒度框架(GL-RG)来生成视频字幕,通过显式利用来自不同视频范围的丰富视觉表示,设计了一个新颖的全局 - 局部编码器来产生丰富的语义词汇,以获得帧间视频内容的描述性粒度,采用增量训练策略组织模型学习,实验结 - 从图像说明中学习音视频模态
该研究试图通过将图像字幕数据集中的字幕转移到视频剪辑中,从而消除了在文本 - 视频检索和文本 - 音频检索中缺乏大规模训练数据的难题,并创建了一个大规模音频 - 视频字幕数据集,使得使用这个数据集能够训练出性能优异的多模态转换模型,并在视频 - 视频字幕及其应用的综合方法
本研究通过关键帧识别和允许用户平衡速度和准确率的设计,使用深度学习算法对长视频进行编码,提高速度并减少计算量,以实现视频字幕深度学习应用。
- 基于变分堆叠局部注意力网络的多样化视频字幕生成
提出了一种基于 VSLAN 的视频字幕生成模型,该模型在编码器 - 解码器体系结构的基础上利用低秩双线性池化进行自我关注特征交互,并采用多特征流叠加的方式实现多样性编码,并实现了端到端的字幕生成,取得了较好的性能。
- CVPRSwinBERT:基于稀疏注意力的端到端变压器模型用于视频字幕生成
本文提出了一种基于 SwineBERT 的视频字幕生成模型,该模型通过对稠密采样的视频帧进行变换来进行自适应学习,同时通过自适应学习稀疏注意力掩码来对长序列视频进行建模以实现任务性能提升,在五个电影字幕数据集上取得了显著的性能改进和新的最佳 - CVPR视频字幕的分层模块化网络
本文提出了一种分层的模块化网络来连接视频表示和语言语义,从实体级别、谓词级别和句子级别三个层次生成视频字幕,并在 MSVD 和 MSR-VTT 基准测试中表现优异。
- CVPREMScore: 通过粗粒度和细粒度嵌入匹配评估视频字幕
本研究提出一种基于嵌入匹配的视频字幕参照无关评估度量 EMS,结合粗细粒度的视频字幕匹配、基于大规模预训练模型的视觉语言嵌入等技术,更准确地衡量视频与候选字幕之间的相似度,并在 VATEX-EVAL 数据上进行了实验验证。
- MM传感器辅助的自我中心视频字幕生成与动态模态注意力
本文提出了一种新的通过传感器增强的主观视频字幕生成任务,并提出了应用多模态数据和关注机制的方法,以提高主观视频字幕生成的效率。结果表明,使用传感器数据作为补充数据可以提高主观视频字幕生成的效率,并且我们提出的方法表现优于其他方法。
- MM视频字幕的判别性潜在语义图
该研究提出了一种联合框架解决视频自动生成字幕中的三个关键问题,包括融合时空信息增强物体建议、动态提取高语义级别的视觉词,以及生成字幕验证确保语义概念的有效保留。实验表明该方法在各种评价指标上都显著优于现有的自然语言生成模型。
- ACLO2NA:一种用于可控视频字幕生成的面向对象非自回归方法
本文介绍了一种基于物体的非自回归方法 (O2NA) 用于视频字幕生成,它包括确定聚焦对象,生成草案字幕,以及将视频信息与草案字幕结合以生成最终流畅字幕等步骤,实验结果表明 O2NA 在 MSR-VTT 和 MSVD 两个基准数据数据集上具有 - AAAI视频字幕的语义分组网络
本文提出了基于语义分组网络(SGN)的视频字幕生成模型,通过学习算法去捕捉部分解码的字幕词组并将其与相关联的视频帧建立映射,从而实现语义相关的视频帧聚类和冗余信息的减少,创新性地提出了一种对齐方法,通过不断更新的解码单词动态更新视频表示,最 - ACL为密集视频字幕编写进行多模态预训练
本文介绍了在视频学习中生成元信息的困难性,提出了一种基于时间戳注释的新数据集 Video Timeline Tags(ViTT)以及采用多模态序列预训练策略来预训练和微调密集视频字幕模型,证明了该模型可以很好地泛化和适用于各种各样的教学视频 - MMPoet:面向电子商务的产品导向视频字幕生成器
本文提出了一种基于 Poet 的产品导向视频字幕生成框架,该框架首先将视频表示为产品导向的时空图,然后基于视频相关产品的方面,在这些图上进行知识增强的时空推断,以捕获细粒度产品部件特征的动态变化。作者在两个产品导向的视频字幕生成数据集上进行 - IJCAI稀疏边界感知 Transformer 的视频字幕生成 (SBAT)
本研究关注将 Transformer 结构应用于视频字幕生成的问题,提出了一种称作 Sparse Boundary-Aware Transformer (SBAT) 的方法来减少视频表征冗余,通过对多头注意力得分的边界感知池化操作和来自不同 - IJCAI学习离散组合推理模块网络,用于视频字幕
本文提出了一种名为推理模块网络 (RMN) 的视觉推理方法,旨在为现有的编码器 - 解码器框架提供视频字幕生成的推理能力,RMN 包括三个复杂的时空推理模块和一个由 Gumbel 估算法训练的动态和离散模块选择器,并且在 MSVD 和 MS - CVPR2020 VATEX 视频字幕挑战赛 NITS-VC 系统
本文介绍了用于视频字幕挑战的框架,采用编码器 - 解码器的方法,其中使用 3D 卷积神经网络对视频进行编码,并使用两个 LSTM 递归网络进行解码,最终输出是两个 LSTM 的输出元素乘积,而此模型可以在公共和私人测试数据集上实现 BLEU - EMNLP从烹饪视频中提取结构化程序化知识的基准
本文提出了从烹饪视频中提取结构化过程知识的基准测试,研究了现有模式的性能。
- CVPR运用知识蒸馏的时空图像处理技术进行视频字幕生成
本文提出一种基于时空图模型的视频字幕生成算法,利用物体间相互作用关系提供显式的视觉表征,通过一种对象感知的知识蒸馏机制,可以在不稳定的性能中实现对象的稳定预测。经过对两个基准测试的广泛实验,展示了我们方法的有效性和可解释性预测的竞争性能。
- CVPR基于教师推荐学习的目标关系图像视频字幕生成
本文提出了一个视频字幕生成系统,包括一种新颖的基于对象关系图的编码器和一种有效的训练策略,其中使用了教师推荐学习方法和外部语言模型来解决长尾问题,并在多个基准测试中取得最好的性能,实验证明我们的系统是有效的。
- 视频字幕解码器的深度挖掘
本篇研究针对视频字幕模型的解码问题,通过三种技术改进模型的性能,包括使用变分 Dropout 和层归一化改善过拟合问题、提出在线评估模型性能以选择最佳测试检查点的方法、提出专业学习的新训练策略。在 Microsoft Research Vi