准确快速压缩视频字幕生成

Sep, 2023

Accurate and Fast Compressed Video Captioning

Yaojie Shen, Xin Gu, Kai Xu, Heng Fan, Longyin Wen...

TL;DR在压缩领域中，通过使用简单而有效的端到端转换器实现从压缩视频中进行学习并进行视频字幕生成，该方法在不同基准测试中取得了最先进的性能，并且运行速度比现有方法快近 2 倍。

Abstract

Existing video captioning approaches typically require to first sample video frames from a decoded video and then conduct a subsequent process (e.g., feature extraction and/or captioning model learning). In this

video captioning compressed domain transformer learning performance

发现论文，激发创造

SnapCap: 高效的快照压缩视频字幕

我们提出了一种从压缩测量直接生成字幕的新型视频字幕生成模型 SnapCap，并通过使用预训练的 CLIP 来提取与语言相关的视觉表示，实验证明我们的模型在速度和字幕质量方面优于传统的视频字幕生成方法。

Jan, 2024

模拟原始域：在压缩领域中加速动作识别

本文提出了一种基于压缩视频领域的新方法，旨在通过利用运动向量和残差来加速计算并减少网络参数，在三个常用数据集上实验表明该模型不仅能够保持较高的准确率还具备更高的识别效率。

Nov, 2019

基于 CNN 编码器 - 解码器框架的压缩图像字幕生成

我们的项目旨在通过开发结合卷积神经网络（CNN）和编码 - 解码模型的自动图像字幕架构来解决图像字幕的挑战。我们还进行了性能比较，研究了多种预训练 CNN 模型的性能变化，并探索了频率正则化技术在压缩 “AlexNet” 和 “EfficientNetB0” 模型方面的整合，旨在在更节省资源的同时保持模型的有效性。

Apr, 2024

视频字幕及其应用的综合方法

本研究通过关键帧识别和允许用户平衡速度和准确率的设计，使用深度学习算法对长视频进行编码，提高速度并减少计算量，以实现视频字幕深度学习应用。

Jan, 2022

基于动画的视频压缩的预测编码

基于图像动画的视频压缩方法，通过使用预测编码方案和图像动画作为预测器，以及针对实际目标帧的残差编码，有效地提高压缩率，与 HEVC 和 VVC 相比可获得超过 70% 和 30% 的比特率增益。

Jul, 2023

简化密集视频字幕生成

本文提出了一种新颖的密集视频字幕框架，它通过显式建模视频中事件的时间依赖性并利用先前事件的视觉和语言上下文来实现连贯的叙述。该框架由事件序列生成网络和序列视频字幕网络组成，后者利用强化学习进行训练，并在事件和剧集两个级别上进行两级奖励以实现更好的上下文建模。在大多数指标上，该方法在 ActivityNet Captions 数据集上取得了出色的表现。

Apr, 2019

流式视频密集字幕

提出了一种用于密集视频字幕生成的理想模型，能够处理长时间视频输入、预测丰富详细的文本描述，并且能在整个视频处理完成之前生成输出，通过引入聚类处理令其能够处理任意长的视频，并设计了一种流式解码算法使模型能够提前进行预测，实验证明了该模型在三个密集视频字幕生成基准数据集上优于现有的最先进模型。

Apr, 2024

SwinBERT：基于稀疏注意力的端到端变压器模型用于视频字幕生成

本文提出了一种基于 SwineBERT 的视频字幕生成模型，该模型通过对稠密采样的视频帧进行变换来进行自适应学习，同时通过自适应学习稀疏注意力掩码来对长序列视频进行建模以实现任务性能提升，在五个电影字幕数据集上取得了显著的性能改进和新的最佳结果。

Nov, 2021

Shortcut-V2V：基于时域冗余减少的视频到视频翻译压缩框架

Shortcut-V2V 是一个适用于视频到视频翻译的通用压缩框架，通过近似当前帧的中间特征，避免对每个相邻视频帧进行完整推理，利用 AdaBD 模块适应性地融合和变形相邻帧的特征，以实现更准确的中间特征预测，除能达到原始模型相当的性能外，还能在测试时节省 3.2-5.7 倍的计算成本和 7.8-44 倍的内存。

Aug, 2023

基于压缩域的深度神经网络可视识别技术与特征适应

本文提出一种基于学习的压缩域分类框架，可以在不同比特率下利用压缩域潜在表示执行视觉识别，包括引入轻量级注意模型的新型特征适应模块，它可以自适应地强调和增强提取的逐通道信息的关键特征；还介绍了一种适配训练策略，使用预训练的像素域权重。与使用像素域完全解码的压缩图像以及未压缩图像相比，研究结果表明，提出的压缩域分类模型不仅可以显著优于现有的压缩域分类模型，而且在计算效率方面也可以获得与使用完全解码图像的像素域模型相似的精确度结果。

May, 2023