关键词vision-language transformer
搜索结果 - 2
- VLT: 面向参考分割的视觉语言变换器和查询生成
该研究提出了一种轻量级的视觉 - 语言 Transformer 框架来实现引用分割,其中包括 Query Generation Module,Query Balance Module 以及 masked contrastive learni - ECCVLevenshtein OCR
提出了一种基于 Vision-Language Transformer (VLT) 的新型场景文本识别器 (Levenshtein OCR),利用交叉模态 Transformer 相互融合和逐步近似 ground truth, 通过模拟学习