- NarrativeBridge:以因果时态叙事增强视频字幕
现有的视频字幕基准和模型缺乏一致的因果 - 时间叙述表示,这是通过因果关系连接的事件序列,随着时间的推移由角色或代理驱动。为了解决这一问题,我们提出了 NarrativeBridge,它包括通过使用大型语言模型和少量提示生成了新颖的因果 - - 利用并行密集视频字幕提高交通安全的端到端事件分析
该研究介绍了在 AI City Challenge 2024 中针对 Track 2 的解决方案,主要关注交通安全、视频字幕、跨模态训练和领域特定模型适应等关键词。该解决方案在竞赛中取得了第六名,并通过提供开源代码使其更广泛地应用。
- 知识图谱支持的篮球基准测试和视频字幕
提出了一个用于视频字幕的新的多模态篮球知识支持基准,通过构建多模态篮球比赛知识图谱,将视频中的时间信息编码并推荐识别关键球员,以提升篮球直播字幕的质量。
- SnapCap: 高效的快照压缩视频字幕
我们提出了一种从压缩测量直接生成字幕的新型视频字幕生成模型 SnapCap,并通过使用预训练的 CLIP 来提取与语言相关的视觉表示,实验证明我们的模型在速度和字幕质量方面优于传统的视频字幕生成方法。
- 检索增强的视觉第一人称视频字幕生成
从第一人称视角的视频中理解人类行为面临着重要挑战。本文提出了 EgoInstructor 模型,它能够自动检索语义相关的第三人称指导视频,以增强第一人称视频的视频字幕生成。通过对不同规模的第一人称和第三人称数据集进行自动配对来训练跨视角检索 - 基于注意力机制的编码解码模型用于尼泊尔语视频字幕生成 (2023)
本研究论文利用 LSTM 和 GRU 模型开发了一种新颖的编码器 - 解码器范例,用于尼泊尔视频字幕生成,利用 Devanagari 文字进行相关描述,并通过 BLEU、METOR 和 ROUGE 等指标评估其性能。
- 视频摘要:朝向实体感知字幕
在这篇论文中,我们提出了直接生成有实体感知能力的新闻视频标题的任务,并发布了一个大规模数据集 VIEWS (VIdeo NEWS) 以支持该任务的研究。同时,我们还提出了一种方法,通过从外部世界知识中检索到的上下文来增强视频中的视觉信息,以 - 将粒度偏差作为对比损失边际融入视频字幕生成模型
视频字幕模型容易受到短尾分布短语的影响,导致生成含糊不清的句子,而现有的去偏置策略往往会导入外部知识来构建单词的依赖树或通过复杂的损失函数和额外的输入特征来完善频率分布,缺乏可解释性且难以训练。为了减轻模型对颗粒度偏差的影响,我们引入了一种 - 视频中以人为中心的行为描述:新的基准和模型
在视频监控领域中,描述每个个体的行为变得越来越重要,特别是在复杂场景中存在多个个体的情况下。为了解决此问题,我们构建了一个以人为中心的视频监控标题数据集,提供了 7,820 个个体的动态行为的详细描述,并且提出了一种新的视频标题方法,可以在 - UCF-Crime 注解:监控视频与语言理解的基准测试
我们提出通过手动注释真实世界监控数据集 UCF-Crime 的细粒度事件内容和时间来构建第一个多模态监控视频数据集,命名为 UCA(UCF-Crime 注释)。在该数据集中,事件详细描述,并在 0.1 秒的时间间隔内提供了精确的时间定位。我 - 准确快速压缩视频字幕生成
在压缩领域中,通过使用简单而有效的端到端转换器实现从压缩视频中进行学习并进行视频字幕生成,该方法在不同基准测试中取得了最先进的性能,并且运行速度比现有方法快近 2 倍。
- 协作三流变压器用于视频字幕生成
通过设计一个名为 COllaborative three-Stream Transformers(COST)的新框架,来在视频字幕任务中对句子的主语、谓语和宾语进行特殊关注,通过三个分支的 transformers 以及交叉粒度的注意力模块 - 探索音频在视频字幕中的作用
本研究提出了一种音视频框架,利用原始音频信号学习,通过 Modality Balanced Pre-training 优化模型,且采用局部和全局融合机制进行信息交换,以提高视频字幕生成的性能。
- Youku-mPLUG: 一份 1000 万规模的中文视频语言数据集,用于预训练和基准测试
为促进 VLP 和 LLM 的发展,作者发布了 Youku-mPLUG 数据集,其中包含经过过滤的 1000 万个视频文本对,用于大规模预训练,并发布了基于该数据集预训练的模型和人类标注的中文基准,最终通过实验验证证明该数据集可以增强理解视 - 随心所欲编辑:多粒度命令的视频描述编辑
本文提出了一个新的视频描述编辑任务(VDEdit),旨在通过灵活的用户需求自动修订现有的视频描述。为支持 VDEdit 任务,我们首先自动构建了一个大规模基准数据集 VATEX-EDIT,描述了不同的人类活动。考虑到现实生活中的应用场景,我 - 深度学习在视频字幕生成中的综述
本文介绍了视频字幕生成技术的研究现状和面临的挑战,重点讨论了基于深度学习的方法,涵盖了多种架构及其应用领域,如问答、检索等。
- 视频聊天字幕生成器:朝向丰富化的时空描述
本研究提出了一个新的视频描述方法,即 Video ChatCaptioner,它使用 ChatGPT 模型作为控制器,提出视频内容驱动的问题并回答这些视觉查询,从而生成包含更多视觉细节的视频标题。
- CVPR知识图谱增强转换器用于视频字幕生成
本文提出了一种基于知识图谱的 transformer 方法 (TextKG),分为内外两个流,外部流用于吸收额外知识、缓解长尾词等问题,内部流用于探索多模态信息以保证字幕结果质量。实验表明该方法在视觉字幕领域的四个数据集上均有较好表现。
- MAViC: 视频字幕的多模式主动学习
本文介绍了 MAViC,它利用我们提出的基于多模态语义感知的序列熵 (M-SASE) 的获得函数来解决视频字幕主动学习方法的挑战。我们的方法在获取函数中集成了语义相似性和视觉和语言维度的不确定性。我们的实验表明,M-SASE 在视频字幕主动 - 优化语义增强以实现视频字幕的频率扩散
本文提出了一种新的改进语义增强方法以应对低频词对视频标题生成的限制。通过引入 Frequency-Aware Diffusion (FAD) 模块,以更好地理解低频词汇的语义,改进了标题的生成;设计了 Divergent Semantic