Oct, 2021

使用视听 Transformer 进行场景感知对话和推理,并进行联合师生学习

TL;DR本文介绍了第三个 AVSD 挑战赛,其包括时间推理的任务和新的数据集,在这个数据集中,人类生成了时间推理数据。文章提出了基于 AV-transformer 的基线系统,并通过注意力多模态融合、联合师生学习和模型组合技术扩展了基线系统,提高了 AVSD 数据集的性能,同时提出了两种 AVSD 的时间推理方法:一种是基于注意力的,一种是基于时间域的区域建议网络。