关键词video-grounded dialogue
搜索结果 - 3
- EMNLPHEAR: 面向视频对话的听觉增强音频响应
提出了 Hearing Enhanced Audio Response(HEAR)框架,用于解决视频对话系统(Video-grounded Dialogue)中的聋响应问题,通过选择性地关注音频来改善系统的听觉能力和准确性。
- EMNLP基于信息论的视频对话文本幻觉减少
该研究设计了一种文本幻觉缓解框架(THAM),并通过当前的对话系统运用该框架验证了其在基准测试(即 AVSD @ DSTC7 和 AVSD @ DSTC8)上对 Video-grounded 对话的有效性和提高的解释性。
- ACL利用预训练生成语言模型的视频对话
本文提出了一种基于 GPT-2 模型的框架,将视频与文本表示结合成连续、有结构的序列,并利用其 fine-tuning 能力来解决视频对话中的挑战,从而在 Audio-Visual Scene-Aware Dialogues 基准测试中取得