Feb, 2024

问题感知视觉变换器用于多模态推理

TL;DRQA-ViT 是一种用于多模态推理的问题感知视觉 Transformer 方法,通过将问题感知能力直接嵌入到视觉编码器中,实现动态视觉特征,并且可以有效地应用于各种多模态架构,提高对视觉和场景文本的理解能力。