Apr, 2024

VimTS:用于增强跨领域泛化能力的统一视频和图像文本识别器

TL;DR通过集成多任务模型、合成视频文本数据集和学习时序信息,VimTS 模型在跨领域场景文本检测任务中展现出卓越的性能,并且相较于现有的大型多模态模型,所需参数和数据更为少。