Apr, 2024
VimTS:用于增强跨领域泛化能力的统一视频和图像文本识别器
VimTS: A Unified Video and Image Text Spotter for Enhancing the Cross-domain Generalization
Yuliang Liu, Mingxin Huang, Hao Yan, Linger Deng, Weijia Wu...
TL;DR通过集成多任务模型、合成视频文本数据集和学习时序信息,VimTS 模型在跨领域场景文本检测任务中展现出卓越的性能,并且相较于现有的大型多模态模型,所需参数和数据更为少。