ACLJun, 2021
出门看前方:基于运动和外观相互协作的视频问答网络
Attend What You Need: Motion-Appearance Synergistic Networks for Video Question Answering
Ahjeong Seo, Gi-Cheon Kang, Joonhan Park, Byoung-Tak Zhang
TL;DR本文提出了基于运动和外貌信息的交叉模态特征嵌入的 MASN 网络用于视频问答任务,通过问题导向的融合实现了最新的表现,并在 TGIF-QA 和 MSVD-QA 上实现了新的最佳性能。