MM-VID: 用 GPT-4V (ision) 推进视频理解

Oct, 2023

MM-VID: 用 GPT-4V (ision) 推进视频理解

MM-VID: Advancing Video Understanding with GPT-4V(ision)

Kevin Lin, Faisal Ahmed, Linjie Li, Chung-Ching Lin, Ehsan Azarnasab...

TL;DRMM-VID 利用 GPT-4V 和图像、音频和语音的专用工具，提供综合系统来促进高级视频理解，尤其是解决长篇视频和涉及推理等复杂任务的挑战。通过使用 GPT-4V 进行视频转文本生成，MM-VID 能够将多模态元素转录为长文本脚本，从而实现大型语言模型对视频的理解，包括音频描述，角色识别和多模态高层次理解。实验结果表明，MM-VID 在处理不同类型的视频和各种时长的视频中表现出了很好的效果，并展示了在交互环境中（如视频游戏和图形用户界面）应用的潜力。

Abstract

We present mm-vid, an integrated system that harnesses the capabilities of gpt-4v, combined with specialized tools in vision, audio, and speech, to facilitate advanced →

mm-vid gpt-4v video understanding long-form videos multimodal high-level comprehension

发现论文，激发创造

GPT4Video：一种用于指令跟随理解和注重安全生成的统一多模态大型语言模型

GPT4Video 是一个统一的多模型框架，将大型语言模型（LLMs）赋予了视频理解和生成的能力，通过集成基于指令遵循的方法和稳定扩散生成模型，GPT4Video 在视频理解和生成场景中表现出优异的能力，同时保持端到端的安全和健康对话。

Nov, 2023

LMMs 初探：与 GPT-4V (ision) 的初步探索

通过分析最新的模型 GPT-4V，我们深入了解大型多模态模型（LMMs）的能力和特点，发现 GPT-4V 具有处理多种输入、具有广泛通用性的能力，以及通过理解图像上的视觉标记可以创造出新的人机交互方式。我们期望这项初步探索能够激发对下一代多模态任务形式、利用和增强 LMMs 以解决实际问题以及对多模态基础模型有更好理解的未来研究方向的启发。

Sep, 2023

MiniGPT4-Video: 提升多模态 LLM 在视频理解中的能力：交错的视觉 - 文本标记

这篇论文介绍了 MiniGPT4-Video，一种用于视频理解的多模态大型语言模型。该模型能够处理时间视觉和文本数据，从而能够理解视频的复杂性。通过扩展 MiniGPT-v2 模型的能力，该模型能够处理连续的视频帧序列，使其能够理解视频。MiniGPT4-Video 不仅考虑了视觉内容，还结合了文本对话，使得该模型能够有效地回答涉及视觉和文本组成部分的问题。所提出的模型在 MSVD、MSRVTT、TGIF 和 TVQA 基准测试上的性能优于现有的最先进方法，分别提升了 4.22%、1.13%、20.82% 和 13.1%。我们的模型和代码在此网址 https URL 中公开提供。

Apr, 2024

GPT-4V (ision) 作为社交媒体分析引擎

利用现有基准数据集对 GPT-4V 的五项任务进行定量分析，并选择有代表性的样本详细评估其在社交多媒体内容理解方面的潜力，结果显示 GPT-4V 在情感分析、仇恨言论检测、假新闻识别、人口推断和政治意识形态检测等任务上展现出显著的效果，并具备图像 - 文本配对的联合理解、文化和语境意识、以及广泛的常识知识，但在涉及多语言社交多媒体理解和对社交媒体最新趋势的泛化方面仍存在挑战，同时在涉及名人和政治家知识的持续发展背景下，会出现错误信息生成的倾向，这反映了已知的幻觉问题，研究结果表明，大型多模态模型在通过分析多模态信息来增进对社交媒体内容及其用户的理解方面具有巨大的潜力。

Nov, 2023

ShareGPT4Video: 提升视频理解与生成，优化字幕

通过稠密和精确的字幕，在大视频 - 语言模型（LVLMs）的视频理解和文本 - 视频模型（T2VMs）的视频生成方面，我们提出了 ShareGPT4Video 系列，该系列包括 40K GPT4V 标注的各种长度和来源的视频稠密字幕，通过精心设计的数据过滤和注释策略进行开发，以及有效的任意视频字幕模型 ShareCaptioner-Video 和卓越的 LVLM ShareGPT4Video-8B。

Jun, 2024

Video-ChatGPT: 通过大型视觉和语言模型实现详细视频理解

介绍了基于视觉编码器与大型语言模型相结合的 Video-ChatGPT 模型，用于理解和生成关于视频的人类对话，并介绍了使用手动和半自动管道获得的新数据集，可用于训练和评估基于视频的对话模型，并在定量评估框架下分析了该模型的优劣。

Jun, 2023

GPT-4V (ision) 用于机器人：来自人类演示的多模态任务规划

我们介绍了一种通过整合人类动作观察来增强通用视觉语言模型 GPT-4V (ision) 的流水线，以促进机器人操纵。该系统分析人类执行任务的视频，并创建包含可支配见解的可执行机器人程序。实验表明，该方法在实现从人类示范中的真实机器人操作方面具有显著效果。

Nov, 2023

MovieLLM：使用 AI 生成的影片增强长视频理解能力

MovieLLM 提出了一种新颖的框架，利用 GPT-4 和文本到图像模型生成详细的脚本和对应的视觉，从而创造出长视频的合成高质量数据。该方法通过解决数据稀缺和偏见等问题，显著提高了多模态模型对复杂视频叙事的理解能力，克服了现有数据集的限制。

Mar, 2024

探索 GPT-4V (ision) 的推荐能力：初步案例研究

通过研究 GPT-4V (ison)，我们发现多模态模型在推荐任务中的潜力，并证明了 GPT-4V 具有出色的零 - shot 推荐能力，同时也发现了其在类似输入上提供相似响应的局限性。我们希望激发进一步研究下一代多模态生成式推荐模型，以提供更多样性和互动性，从而增强用户体验。

Nov, 2023

迷失在翻译中：当 GPT-4V (ision) 无法与文字心有灵犀。VLLMs 及更多的视觉语言一致性分析

通过对多模态机制的详细分析，揭示了 GPT-4V 等模型执行视觉和语言任务的一致性与独立性，并引入了一种名为 “Vision Description Prompting” 的方法，有效提高了具有挑战性的视觉相关任务的性能。

Oct, 2023