准确快速压缩视频字幕生成
我们提出了一种从压缩测量直接生成字幕的新型视频字幕生成模型 SnapCap,并通过使用预训练的 CLIP 来提取与语言相关的视觉表示,实验证明我们的模型在速度和字幕质量方面优于传统的视频字幕生成方法。
Jan, 2024
本文提出了一种基于压缩视频领域的新方法,旨在通过利用运动向量和残差来加速计算并减少网络参数,在三个常用数据集上实验表明该模型不仅能够保持较高的准确率还具备更高的识别效率。
Nov, 2019
我们的项目旨在通过开发结合卷积神经网络(CNN)和编码 - 解码模型的自动图像字幕架构来解决图像字幕的挑战。我们还进行了性能比较,研究了多种预训练 CNN 模型的性能变化,并探索了频率正则化技术在压缩 “AlexNet” 和 “EfficientNetB0” 模型方面的整合,旨在在更节省资源的同时保持模型的有效性。
Apr, 2024
基于图像动画的视频压缩方法,通过使用预测编码方案和图像动画作为预测器,以及针对实际目标帧的残差编码,有效地提高压缩率,与 HEVC 和 VVC 相比可获得超过 70% 和 30% 的比特率增益。
Jul, 2023
本文提出了一种新颖的密集视频字幕框架,它通过显式建模视频中事件的时间依赖性并利用先前事件的视觉和语言上下文来实现连贯的叙述。该框架由事件序列生成网络和序列视频字幕网络组成,后者利用强化学习进行训练,并在事件和剧集两个级别上进行两级奖励以实现更好的上下文建模。在大多数指标上,该方法在 ActivityNet Captions 数据集上取得了出色的表现。
Apr, 2019
提出了一种用于密集视频字幕生成的理想模型,能够处理长时间视频输入、预测丰富详细的文本描述,并且能在整个视频处理完成之前生成输出,通过引入聚类处理令其能够处理任意长的视频,并设计了一种流式解码算法使模型能够提前进行预测,实验证明了该模型在三个密集视频字幕生成基准数据集上优于现有的最先进模型。
Apr, 2024
本文提出了一种基于 SwineBERT 的视频字幕生成模型,该模型通过对稠密采样的视频帧进行变换来进行自适应学习,同时通过自适应学习稀疏注意力掩码来对长序列视频进行建模以实现任务性能提升,在五个电影字幕数据集上取得了显著的性能改进和新的最佳结果。
Nov, 2021
Shortcut-V2V 是一个适用于视频到视频翻译的通用压缩框架,通过近似当前帧的中间特征,避免对每个相邻视频帧进行完整推理,利用 AdaBD 模块适应性地融合和变形相邻帧的特征,以实现更准确的中间特征预测,除能达到原始模型相当的性能外,还能在测试时节省 3.2-5.7 倍的计算成本和 7.8-44 倍的内存。
Aug, 2023
本文提出一种基于学习的压缩域分类框架,可以在不同比特率下利用压缩域潜在表示执行视觉识别,包括引入轻量级注意模型的新型特征适应模块,它可以自适应地强调和增强提取的逐通道信息的关键特征;还介绍了一种适配训练策略,使用预训练的像素域权重。与使用像素域完全解码的压缩图像以及未压缩图像相比,研究结果表明,提出的压缩域分类模型不仅可以显著优于现有的压缩域分类模型,而且在计算效率方面也可以获得与使用完全解码图像的像素域模型相似的精确度结果。
May, 2023