关键词multi-modal alignment module
搜索结果 - 2
- IJCAI基于显式位置增强的鲁棒场景文本图像超分辨率
本研究提出了一种名称为 LEMMA 的新方法,通过显式建模字符区域,生成具有高级文本特定引导的超分辨率图像,通过位置增强模块和多模态对齐模块提升字符区域的特征提取和视觉 - 语义对齐,并使用自适应融合模块将先验引导无缝融合到超分辨率分支中。 - 一体化探索:多模态对齐下的统一视觉语言跟踪
现有主流的视觉语言(VL)跟踪框架由三部分组成,即视觉特征提取器,语言特征提取器和融合模型。本文提出了一个全新的、一体化的框架,通过采用统一的 Transformer 骨干结构,学习联合特征提取和交互,实现了特征的统一融合,消除了特征集成和