从大规模网络视频中学习真实世界的对话
介绍了基于视觉编码器与大型语言模型相结合的 Video-ChatGPT 模型,用于理解和生成关于视频的人类对话,并介绍了使用手动和半自动管道获得的新数据集,可用于训练和评估基于视频的对话模型,并在定量评估框架下分析了该模型的优劣。
Jun, 2023
本研究介绍了一种以视频为中心的语音理解系统 VideoChat,它通过可学习的神经接口将视频基础模型和大型语言模型集成起来,在时空推理、事件定位和因果关系推断等方面表现出色。通过使用视频为中心的指令数据集,我们为这个系统提供了有指导性的调整建议,这个数据集由成千上万个视频和详细的描述和会话组成,突出了时空推理和因果关系,为训练以聊天为中心的视频理解系统提供了有价值的资源。初步的定性实验揭示了我们的系统在广泛的视频应用中的潜力,并为未来的研究设置了标准。
May, 2023
本文介绍了基于现场足球比赛视频和 Twitch.tv 聊天记录的多说话者、视觉语境下的对话数据集,利用此数据集开发出具有多模态对话技能和视觉定位应用的对话模型,并通过多项评估指标和人类评估研究验证其效果。
Sep, 2018
该研究关注如何将视觉内容整合到对话 AI 系统中,提出了一种基于视觉上下文的任务,利用在线教育视频数据集自动训练一个多模态视觉 - 语音预测模型,能够优于基于文本输入的基准模型,并在多个 VideoQA 基准测试中获得最先进的表现.
Dec, 2020
该研究提出了 TimeChat,一种针对长视频理解的时态敏感多模态大型语言模型。该模型通过两个关键的架构贡献实现:1) 能够将每帧的视觉内容与时间戳绑定的时间感知帧编码器,和 2) 一种产生适应不同持续时间视频的长度可变视频令牌序列的滑动视频 Q-Former。此外,我们构建了一个调整指令的数据集,包括 6 个任务和总共 12.5 万个实例,以进一步提高 TimeChat 的指令遵循性能。在各种视频理解任务上的实验结果,如密集字幕生成、时间定位和重点检测,展示了 TimeChat 强大的零样本时态定位和推理能力。例如,在 YouCook2 上,它在 F1 评分上提升了 9.2,在 CIDEr 上提升了 2.8,在 QVHighlights 上的 HIT@1 提升了 5.8,在 Charades-STA 上的 R@1 (IoU=0.5) 提升了 27.5,与业界领先的视频大型语言模型相比,具备作为长视频理解任务的通用视频助手并满足真实用户需求的潜力。
Dec, 2023
本文提出了一种基于 GPT-2 模型的框架,将视频与文本表示结合成连续、有结构的序列,并利用其 fine-tuning 能力来解决视频对话中的挑战,从而在 Audio-Visual Scene-Aware Dialogues 基准测试中取得了显著的改进。
Jun, 2020
本研究介绍了一种新颖的面对面口语对话模型,利用用户输入的音频 - 视觉语音并生成回应的音频 - 视觉语音,旨在创建一种不依赖中间文本的化身聊天机器人系统,并引入 MultiDialog,这是第一个包含约 340 小时近 9000 个对话的大规模多模态(音频和视觉)口语对话语料库。
Jun, 2024
Chat-UniVi 是一个统一的视觉 - 语言模型,能够理解和参与涉及图像和视频的对话,并通过一种统一的视觉表示来实现。该模型利用一组动态视觉令牌来统一表示图像和视频,同时具备捕捉图像的空间细节和视频的全面时间关系所需的能力。Chat-UniVi 在包含图像和视频的混合数据集上进行训练,无需任何修改即可直接应用于涉及两种介质的任务,并在广泛的实验结果中一直优于专门设计用于图像或视频的现有方法。
Nov, 2023
通过学习视频流进行大规模语言模型增强,提供视觉能力及实时对话功能,以应对视频流输入的视频流对话学习目标、数据生成方案和优化推断流程的新颖学习框架。
Jun, 2024
SparklesChat 是一个多模态指令追随模型,通过整合文本和图像的方式,有效地进行多图像的开放式对话。实验证实了 SparklesChat 在跨多个图像和对话转换中理解和推理的有效性,并在视觉与语言基准测试中优于 MiniGPT-4,显示出良好的应用通用性。
Aug, 2023