BriefGPT.xyz
大模型
Ask
alpha
关键词
question awareness
搜索结果 - 1
问题感知视觉变换器用于多模态推理
QA-ViT 是一种用于多模态推理的问题感知视觉 Transformer 方法,通过将问题感知能力直接嵌入到视觉编码器中,实现动态视觉特征,并且可以有效地应用于各种多模态架构,提高对视觉和场景文本的理解能力。
PDF
5 months ago
Prev
Next