基于游戏的视频上下文对话

EMNLPSep, 2018

Game-Based Video-Context Dialogue

Ramakanth Pasunuru, Mohit Bansal

TL;DR本文介绍了基于现场足球比赛视频和 Twitch.tv 聊天记录的多说话者、视觉语境下的对话数据集，利用此数据集开发出具有多模态对话技能和视觉定位应用的对话模型，并通过多项评估指标和人类评估研究验证其效果。

Abstract

Current dialogue systems focus more on textual and speech context knowledge and are usually based on two speakers. Some recent work has investigated static image-based dialogue. However, several real-world human interactions also involve dynamic visual context (similar to videos) as well as dialogue exchanges among multiple speakers. To move closer towards s

multimodal conversational skills visually-situated applications video-context many-speaker dialogue tridirectional attention flow

发现论文，激发创造

多模态基于注意力机制视频特征的端到端视听场景感知对话

该论文介绍了一种新的视频场景感知对话系统，该系统将多个研究领域的最新技术整合应用，包括端到端的对话技术、视觉问答技术，以及视频描述技术。通过收集一个有关人类行为视频的对话数据集，作者们使用该数据集训练出一种多模态对话模型，它可以在对视频进行讨论时生成响应。最终实验结果表明，使用为多模态注意力视频描述开发的多模态特征可以提高对于动态场景（视频）生成对话的质量。

Jun, 2018

言之有据：基于视觉语境的话语表达

该研究关注如何将视觉内容整合到对话 AI 系统中，提出了一种基于视觉上下文的任务，利用在线教育视频数据集自动训练一个多模态视觉 - 语音预测模型，能够优于基于文本输入的基准模型，并在多个 VideoQA 基准测试中获得最先进的表现.

Dec, 2020

OpenViDial：一个包含视觉背景的大规模开放域对话数据集

本文提出了一个大规模多模态对话数据集 OpenViDial，并基于该数据集提出了一族多种编码器 - 解码器模型，使用了文本和视觉上下文。结果表明，多模态特征的整合可以显著提高对话生成的质量，是实现大规模多模态对话学习的重要一步。

Dec, 2020

LiveChat: 从视听多模态环境生成视频评论

通过创建大规模的音视频多模式对话数据集，以促进直播评论技术的发展，我们还提出了一种能够生成与视频中的时空事件以及正在进行的多模式对话上下文相吻合的实时评论的新颖多模式生成模型。

Oct, 2023

视听场景感知对话

本论文介绍了场景感知对话任务，通过视频和音频研究场景，并在对话历史中利用上下文线索，以回答关于场景的问题；同时提出了 AVSD 数据集，并通过多项定量和定性指标评估了基础模型的表现，结果表明模型必须充分利用所有可用输入（视频、音频、问题和对话历史）才能在该数据集上取得最佳表现。

Jan, 2019

上下文感知的说话人脸视频生成

通过使用面部特征作为控制信号，我们提供了一个两阶段和跨模态可控的视频生成流程，以自然地生成与驱动音频和对话环境空间上连贯的视频内容。实验结果表明，该方法在音视频同步、视频保真度和帧一致性方面优于其他基准方法。

Feb, 2024

基于图像的对话：自然问题和回答生成的多模态上下文

该研究提出了一种新颖的任务 —— 基于图片的对话（IGC），通过图片来约束话题从而产生更高质量的对话，并引入了一个通过众包来构建的多目标参考数据集。实验结果表明，将视觉和文本相结合可以提高对话的质量，而对人的表现与神经和检索结构之间的差距表明多模态 IGC 是一个有趣的对话研究挑战。

Jan, 2017

直白真实对话：面对面交流的口语对话模型

本研究介绍了一种新颖的面对面口语对话模型，利用用户输入的音频 - 视觉语音并生成回应的音频 - 视觉语音，旨在创建一种不依赖中间文本的化身聊天机器人系统，并引入 MultiDialog，这是第一个包含约 340 小时近 9000 个对话的大规模多模态（音频和视觉）口语对话语料库。

Jun, 2024

TikTalk: 一个实际闲聊的多模态对话数据集

本文介绍了一个新型的多模式聊天对话数据集 - TikTalk，通过视频社交应用的生成视频和相应的对话对构建对话语料库，通过三种模态的数据（文本、视觉和音频），为聊天机器人的深入理解和响应的生成提出了挑战，实验结果表明，TikTalk 仍有大量改进的空间。

Jan, 2023

视频对话生成中的多模态语义图协同推理

本文研究了基于视频对话生成，提出一种方法，可以将视频数据集成到预训练语言模型中，通过多模态推理实现各种模态之间的互补信息，实验结果表明，该模型能够在自动和人工评估方面显著优于现有的最先进模型。

Oct, 2022