CVPRMar, 2024

非自回归序列到序列视觉语言模型

TL;DR通过多路推断并使用 Query-CTC 损失函数训练的并行解码序列到序列视觉 - 语言模型(NARVL),不再限制为条件分布,能够建模多个推断路径的联合分布,从而在推断时减少了线性复杂度与顺序生成的常态联合推断模式相比达到了与最先进自回归模型相当的性能提升,并且速度更快。