HEAR: 面向视频对话的听觉增强音频响应

EMNLPDec, 2023

HEAR: 面向视频对话的听觉增强音频响应

HEAR: Hearing Enhanced Audio Response for Video-grounded Dialogue

Sunjae Yoon, Dahyun Kim, Eunseop Yoon, Hee Suk Yoon, Junyeong Kim...

TL;DR提出了 Hearing Enhanced Audio Response（HEAR）框架，用于解决视频对话系统（Video-grounded Dialogue）中的聋响应问题，通过选择性地关注音频来改善系统的听觉能力和准确性。

Abstract

video-grounded dialogue (VGD) aims to answer questions regarding a given multi-modal input comprising video, audio, and dialogue history. Although there have been numerous efforts in developing vgd systems to imp

video-grounded dialogue vgd systems deaf response audio data hear framework

发现论文，激发创造

基于信息论的视频对话文本幻觉减少

该研究设计了一种文本幻觉缓解框架（THAM），并通过当前的对话系统运用该框架验证了其在基准测试（即 AVSD @ DSTC7 和 AVSD @ DSTC8）上对 Video-grounded 对话的有效性和提高的解释性。

Dec, 2022

视听场景感知对话

本论文介绍了场景感知对话任务，通过视频和音频研究场景，并在对话历史中利用上下文线索，以回答关于场景的问题；同时提出了 AVSD 数据集，并通过多项定量和定性指标评估了基础模型的表现，结果表明模型必须充分利用所有可用输入（视频、音频、问题和对话历史）才能在该数据集上取得最佳表现。

Jan, 2019

M2K-VDG: 模型自适应多模态知识锚定增强的视频驱动对话生成

通过计算困惑度，我们揭示了不同的视频对话生成（VDG）模型经历了不同的幻觉，并展示了多样的锚点标记。基于这一观察，我们提出了一种模型适应性的多模态知识锚点增强框架 M2K-VDG，用于减少幻觉产生。进一步，我们引入了反事实效应以更准确地检测锚点标记。在三个流行的基准测试上的实验结果显示，我们的方法优于现有方法，证明了它在减少幻觉方面的有效性。

Feb, 2024

探索上下文、注意力和音频特征用于音频视觉场景感知对话

本论文探讨了以话题作为对话背景，利用多模态注意力和音视频定位技术的方法来构建端到端的自然语言对话系统，结合使用 end-to-end 音频分类卷积神经网络 AclNet，以音视频场景感知任务数据集 AVSD 进行测试，并提出了改进方案算法，优于现有基线系统。

Dec, 2019

利用视觉上下文增强对话系统以实现和谐的人机交互：综述

本文介紹了智能對話系統的演進並提出了基於多模態信息的 Visual Context Augmented Dialogue System (VAD) 與其系統架構，藉此提高與人類互動的自然性和方便性，並探討了幾個有挑戰性與有代表性的研究議題。

Jul, 2022

多模态基于注意力机制视频特征的端到端视听场景感知对话

该论文介绍了一种新的视频场景感知对话系统，该系统将多个研究领域的最新技术整合应用，包括端到端的对话技术、视觉问答技术，以及视频描述技术。通过收集一个有关人类行为视频的对话数据集，作者们使用该数据集训练出一种多模态对话模型，它可以在对视频进行讨论时生成响应。最终实验结果表明，使用为多模态注意力视频描述开发的多模态特征可以提高对于动态场景（视频）生成对话的质量。

Jun, 2018

音频视觉场景感知对话的上下文、注意力和音频特征探索

通过结合多模式注意力机制与端到端音频分类卷积神经网络，实现智能虚拟助手（IVA）对语音、视觉场景的理解与自然对话，超越了基准系统表现。

Dec, 2018

基于反应式多阶段特征融合的多模态对话建模

本文提出了一种直观的机制，通过多个阶段融合特征和注意力以很好地集成多模式特征，以解决音频视觉场景感知对话任务，并进一步分析了各种最先进的模型在该任务上的泛化能力。

Aug, 2019

DSTC7 的音视频场景感知对话（AVSD）竞赛

该研究论文介绍了一种基于多个研究领域的技术相互整合的新型场景感知对话系统，同时提出了基于音视频的场景感知对话系统 (AVSD) 挑战与数据集，该挑战要求参赛者构建一个能够对输入视频进行对话响应的系统。

Jun, 2018

深度音视频语音增强对话

本文提出了一种深度视听语音增强网络方法，借助于对应视频中的嘴唇信息，能够在多人同时说话的情境下，从语音信号中分离出个人的发言，该方法适用于训练时未涉及到的说话者，并在不受限制的环境下，展现了出色的定量和定性效果。

Apr, 2018