视频聊天字幕生成器：朝向丰富化的时空描述

Apr, 2023

视频聊天字幕生成器：朝向丰富化的时空描述

Video ChatCaptioner: Towards the Enriched Spatiotemporal Descriptions

Jun Chen, Deyao Zhu, Kilichbek Haydarov, Xiang Li, Mohamed Elhoseiny

TL;DR本研究提出了一个新的视频描述方法，即 Video ChatCaptioner，它使用 ChatGPT 模型作为控制器，提出视频内容驱动的问题并回答这些视觉查询，从而生成包含更多视觉细节的视频标题。

Abstract

video captioning aims to convey dynamic scenes from videos using natural language, facilitating the understanding of spatiotemporal information within our environment. Although there have been recent advances, ge

video captioning spatiotemporal information chatgpt question-answer framework video content

发现论文，激发创造

视频字幕的时空动态与语义属性增强视觉编码

本篇文章提出了一种视觉特征编码技术，使用门控循环单元（GRUs）生成语义丰富的视频字幕，并在 MSVD 和 MSR-VTT 数据集上创造了新的 METEOR 和 ROUGE_L 度量标准的最新技术水平。

Feb, 2019

使用视频和蕴含生成的多任务视频字幕生成

通过多任务学习模型，结合无监督视频预测和语言蕴涵生成任务，共享参数学习提取更丰富的视频编码器表示和更好的视频 - 标题解码器表示，显著提高视频字幕生成的性能，达到了多个标准数据集的最新水平。

Apr, 2017

利用对齐的视频字幕增强的视频富文本检索生成

我们提出使用 “对齐视觉标题” 作为一种机制，将视频中的信息整合到基于检索增强生成的聊天助手系统中，这些标题能够以文本形式描述视频的视觉和音频内容，并且易于理解和加入到大型语言模型的提示中，同时也需要较少的多媒体内容来插入到多模态语言模型的上下文窗口中，我们还为常见的检索增强生成任务构建了一个数据集并描述了自动评估程序以促进该领域的进展。

May, 2024

视频聊天：以聊天为中心的视频理解

本研究介绍了一种以视频为中心的语音理解系统 VideoChat，它通过可学习的神经接口将视频基础模型和大型语言模型集成起来，在时空推理、事件定位和因果关系推断等方面表现出色。通过使用视频为中心的指令数据集，我们为这个系统提供了有指导性的调整建议，这个数据集由成千上万个视频和详细的描述和会话组成，突出了时空推理和因果关系，为训练以聊天为中心的视频理解系统提供了有价值的资源。初步的定性实验揭示了我们的系统在广泛的视频应用中的潜力，并为未来的研究设置了标准。

May, 2023

超越字幕到叙事：视频多句子字幕

本研究提出了一种视频片段分割、多帧生成多个盛传、并采用自然语言技术将其连接成故事式视频字幕的方法，实现丰富内容的视频字幕生成，结果表明该方法不需要显式输入视频级别特征即可提供丰富内容，与最新技术方法相同。

May, 2016

使用重新聚焦的视频编码器进行视频字幕

本文提出了一种新的递归视频编码方法和新的视觉空间特征，以改进视频字幕生成任务的效果，实验结果表明，该方法能显著提高视频字幕生成质量。

Jul, 2019

简化密集视频字幕生成

本文提出了一种新颖的密集视频字幕框架，它通过显式建模视频中事件的时间依赖性并利用先前事件的视觉和语言上下文来实现连贯的叙述。该框架由事件序列生成网络和序列视频字幕网络组成，后者利用强化学习进行训练，并在事件和剧集两个级别上进行两级奖励以实现更好的上下文建模。在大多数指标上，该方法在 ActivityNet Captions 数据集上取得了出色的表现。

Apr, 2019

ChatGPT Asks, BLIP-2 Answers: 自动提问，为丰富的视觉描述添砖加瓦

本文介绍一种在图像字幕生成中使用的新型自动提问方法 ChatCaptioner，利用 Prompt 和 BLIP-2 的答案获取新的视觉信息，并比较了 ChatCaptioner 和 BLIP-2 以及真实情况下的结果，结果表明 ChatCaptioner 的字幕在图像信息方面有显着提升，可以感知到比 BLIP-2 更多的对象。

Mar, 2023

运用知识蒸馏的时空图像处理技术进行视频字幕生成

本文提出一种基于时空图模型的视频字幕生成算法，利用物体间相互作用关系提供显式的视觉表征，通过一种对象感知的知识蒸馏机制，可以在不稳定的性能中实现对象的稳定预测。经过对两个基准测试的广泛实验，展示了我们方法的有效性和可解释性预测的竞争性能。

Mar, 2020

ShareGPT4Video: 提升视频理解与生成，优化字幕

通过稠密和精确的字幕，在大视频 - 语言模型（LVLMs）的视频理解和文本 - 视频模型（T2VMs）的视频生成方面，我们提出了 ShareGPT4Video 系列，该系列包括 40K GPT4V 标注的各种长度和来源的视频稠密字幕，通过精心设计的数据过滤和注释策略进行开发，以及有效的任意视频字幕模型 ShareCaptioner-Video 和卓越的 LVLM ShareGPT4Video-8B。

Jun, 2024