AAAIFeb, 2022

基于 Transformer 的视频表示的视听场景感知对话生成

TL;DR本研究探讨使用 Transformer-based 视频特征提取器在 Audio Visual Scene-Aware Dialog(AVSD)中解决长期时间视觉依赖和全局视觉信息的问题,并在答案生成方面取得了更高的目标性能评分。