Nov, 2022
Perceiver-VL: 迭代潜在注意力的高效视觉语言建模
Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative Latent Attention
Zineng Tang, Jaemin Cho, Jie Lei, Mohit Bansal
TL;DRPerceiver-VL 是一个高效处理大量视觉和语言输入的框架,采用迭代潜在跨注意力技术,具有线性可扩展性和高效性,并在保持其竞争力能力的同时,在各种基准测试中取得最佳结果。