ICCVOct, 2019

视觉对话的颗粒多模态注意力网络

TL;DR本研究提出了一种新的方法,即颗粒多模态注意力,以解决视觉对话任务时需要关注的正确颗粒度的问题。该方法在图像和文本关注网络中得到了改进,并提出了一种粒度多模态注意力网络,可以同时关注图像和文本颗粒,并展现出最佳的性能。该研究发现,获得颗粒注意力和进行穷尽的多模态注意力似乎是解决视觉对话问题时最好的方法。