Oct, 2021
使用视听 Transformer 进行场景感知对话和推理,并进行联合师生学习
Audio-Visual Scene-Aware Dialog and Reasoning using Audio-Visual Transformers with Joint Student-Teacher Learning
Ankit P. Shah, Shijie Geng, Peng Gao, Anoop Cherian, Takaaki Hori...
TL;DR本文介绍了第三个 AVSD 挑战赛,其包括时间推理的任务和新的数据集,在这个数据集中,人类生成了时间推理数据。文章提出了基于 AV-transformer 的基线系统,并通过注意力多模态融合、联合师生学习和模型组合技术扩展了基线系统,提高了 AVSD 数据集的性能,同时提出了两种 AVSD 的时间推理方法:一种是基于注意力的,一种是基于时间域的区域建议网络。