言之有据：基于视觉语境的话语表达

Dec, 2020

言之有据：基于视觉语境的话语表达

Look Before you Speak: Visually Contextualized Utterances

Paul Hongsuck Seo, Arsha Nagrani, Cordelia Schmid

TL;DR该研究关注如何将视觉内容整合到对话 AI 系统中，提出了一种基于视觉上下文的任务，利用在线教育视频数据集自动训练一个多模态视觉 - 语音预测模型，能够优于基于文本输入的基准模型，并在多个 VideoQA 基准测试中获得最先进的表现.

Abstract

While most conversational ai systems focus on textual dialogue only, conditioning utterances on visual context (when it's available) can lead to more realistic conversations. Unfortunately, a major challenge for

conversational ai visual context large-scale labeled datasets multimodal learning videoqa

发现论文，激发创造

基于游戏的视频上下文对话

本文介绍了基于现场足球比赛视频和 Twitch.tv 聊天记录的多说话者、视觉语境下的对话数据集，利用此数据集开发出具有多模态对话技能和视觉定位应用的对话模型，并通过多项评估指标和人类评估研究验证其效果。

Sep, 2018

面向上下文感知语音识别的视觉特征

该论文提出了一种基于 DNN 技术的语音识别系统及 RNN 语言模型来提高视频自动生成的字幕准确性，通过对视频中自动检测到的物体或场景的条件来减少困惑度和提高转录，可以应用于机器人、人机交互及音视频存档索引等领域。

Dec, 2017

多模态基于注意力机制视频特征的端到端视听场景感知对话

该论文介绍了一种新的视频场景感知对话系统，该系统将多个研究领域的最新技术整合应用，包括端到端的对话技术、视觉问答技术，以及视频描述技术。通过收集一个有关人类行为视频的对话数据集，作者们使用该数据集训练出一种多模态对话模型，它可以在对视频进行讨论时生成响应。最终实验结果表明，使用为多模态注意力视频描述开发的多模态特征可以提高对于动态场景（视频）生成对话的质量。

Jun, 2018

不要断章取义：统一的视觉语言预训练为上下文辅助的图像字幕生成

本文提出了一个基于 context-aware image captioning 的 unified Vision-Language (VL) model，并利用 pretraining 技术解决了 context-independent 问题，以达到比以前更好的效果。

Jun, 2023

听觉、视觉与思考：基于预训练的文本 - 视频表示的视觉上下文感知语音识别

本研究致力于解决利用视觉信号来提高语音识别（ASR）的问题，探讨了一种基于自监督预训练的文本视频嵌入模型的视觉上下文感知 ASR 方法，该方法包括多流注意力结构和熟思（deliberation）模型，利用视觉信息的熟思模型比多流模型在干扰噪声下提高了语音识别正确率和恢复被屏蔽单词的准确率。

Nov, 2020

OpenViDial：一个包含视觉背景的大规模开放域对话数据集

本文提出了一个大规模多模态对话数据集 OpenViDial，并基于该数据集提出了一族多种编码器 - 解码器模型，使用了文本和视觉上下文。结果表明，多模态特征的整合可以显著提高对话生成的质量，是实现大规模多模态对话学习的重要一步。

Dec, 2020

视听场景感知对话

本论文介绍了场景感知对话任务，通过视频和音频研究场景，并在对话历史中利用上下文线索，以回答关于场景的问题；同时提出了 AVSD 数据集，并通过多项定量和定性指标评估了基础模型的表现，结果表明模型必须充分利用所有可用输入（视频、音频、问题和对话历史）才能在该数据集上取得最佳表现。

Jan, 2019

视觉感知的文本转语音

本文提出了一种新的视觉感知文本转语音（VA-TTS）任务，它可以根据面对面交流中听者的语音和面部表情条件语音的生成，实验表明该方法可以在多种情景下生成更加自然有节奏感的音频。

Jun, 2023

音频 - 视觉场景感知对话的简单基线

本文提出了一种基于数据驱动学习的音视频感知对话基准方法，采用注意力机制从海量传感器中区分实用信号和干扰信号，实验结果表明此方法在音视频感知数据集中性能超过现有最先进方法 20% 以上。

Apr, 2019

探索上下文、注意力和音频特征用于音频视觉场景感知对话

本论文探讨了以话题作为对话背景，利用多模态注意力和音视频定位技术的方法来构建端到端的自然语言对话系统，结合使用 end-to-end 音频分类卷积神经网络 AclNet，以音视频场景感知任务数据集 AVSD 进行测试，并提出了改进方案算法，优于现有基线系统。

Dec, 2019