Aug, 2021

图像字幕和视觉问答自动解析网络

TL;DR提出了一种自动解析网络(APN),将概率图像模型(PGM)参数化为自注意层上的注意操作,以将稀疏假设合并到输入序列的分段中,从而提高基于 Transformer 的视觉语言系统的效率。