Mar, 2021

视频场景对话的结构化共指图注意力

TL;DR本文介绍了一个名为SCGA的视频对话系统,该系统使用结构化共指解析器和时空视频推理器来解决视频场景下的共指和推理问题,并利用指针网络动态复制问题的部分来解码答案序列,在AVSD@DSTC7和AVSD@DSTC8数据集以及TVQA数据集上验证了其有效性。