多模式对话理解与生成的场景感知提示
该论文介绍了一种新的视频场景感知对话系统,该系统将多个研究领域的最新技术整合应用 ,包括端到端的对话技术、视觉问答技术,以及视频描述技术。通过收集一个有关人类行为视频的对话数据集,作者们使用该数据集训练出一种多模态对话模型,它可以在对视频进行讨论时生成响应。最终实验结果表明,使用为多模态注意力视频描述开发的多模态特征可以提高对于动态场景(视频)生成对话的质量。
Jun, 2018
通过 AVSD 挑战,本文提出了一种层次化编码-解码模型来回答有关视频的问题,采用预训练的 I3D 和 VGGish 模型计算视频及音频帧的语义特征,并使用 FiLM 块进行条件编码以降低维数,最终使用 LSTM 解码器通过计划采样进行训练和束搜索进行评估,相比于 AVSD 挑战组织者发布的模态融合基准模型,我们的模型实现了超过16%的相对改善,得分为0.36 BLEU -4,超过33%的得分为0.997 CIDEr。
Dec, 2018
本论文介绍了场景感知对话任务,通过视频和音频研究场景,并在对话历史中利用上下文线索,以回答关于场景的问题;同时提出了AVSD数据集,并通过多项定量和定性指标评估了基础模型的表现,结果表明模型必须充分利用所有可用输入(视频、音频、问题和对话历史)才能在该数据集上取得最佳表现。
Jan, 2019
本论文探讨了以话题作为对话背景,利用多模态注意力和音视频定位技术的方法来构建端到端的自然语言对话系统,结合使用end-to-end音频分类卷积神经网络AclNet,以音视频场景感知任务数据集AVSD进行测试,并提出了改进方案算法,优于现有基线系统。
Dec, 2019
本文提出了一种基于循环神经网络的多步关注机制的多模态联合注意网络(JMAN),用于对视频进行推理,该模型在每个推理过程中联合考虑了视觉和文本表示,以更好地集成两种不同模态的信息。与AVSD组织发布的基线相比,我们的模型在ROUGE-L得分和CIDEr得分上相对提高了12.1%和22.4%。
Jan, 2020
该研究提出了一种通用的多模态转换器,并引入了多任务学习的方法,以解决视频聊天中的音视频场景感知对话生成任务,并将自然语言生成预训练模型扩展到多模态对话生成任务。我们的系统在该挑战中取得了最佳表现。
Feb, 2020
本文提出了一种多模态对话系统的端到端框架,利用预训练的DialoGPT,并利用知识库(Kb)提供更强的上下文信息来从话语中提取所需的插槽值和生成一致的响应,使用多模态层次编码器,并设计槽注意机制来聚焦于给定话语中的必要信息,最终实验结果表明,该框架在两种任务中优于基线方法。
May, 2023
通过将多模态大型语言模型与文本到图像生成模型相结合,提出了一种用于多轮文本到图像生成的多模态交互对话系统,同时引入了一种全面的多模态对话评估基准,以评估模型在生成准确且连贯的多模态内容上的能力,包括模态切换和输出图像的连贯性。
Mar, 2024
本研究提出了一种利用大型语言模型和扩散模型的多模式生成方法(MGCC),通过在LLM嵌入空间中显式学习文本和图像之间的跨模式依赖关系以及生成特定于多物体场景的对象边界框,实现了从复杂的多模式提示序列中生成新图像的能力,并在两个基准数据集上进行了实验验证。
May, 2024
本研究解决了多模态对话响应生成任务中缺乏大规模数据集导致的信息遗漏问题。提出的BI-MDRG方法通过利用图像历史信息,提高了文本响应与图像内容的相关性及图像响应中对象的一致性。研究结果显示BI-MDRG显著提升了多模态对话的质量,并创建了一个300个对话的标注数据集以评估图像一致性。
Aug, 2024