EMNLPDec, 2023

HEAR: 面向视频对话的听觉增强音频响应

TL;DR提出了 Hearing Enhanced Audio Response(HEAR)框架,用于解决视频对话系统(Video-grounded Dialogue)中的聋响应问题,通过选择性地关注音频来改善系统的听觉能力和准确性。