May, 2023
可扩展视频文本定位的遮罩标注
Scalable Mask Annotation for Video Text Spotting
Haibin He, Jing Zhang, Mengyang Xu, Juhua Liu, Bo Du...
TL;DR提出了一种基于可扩展的 SAMText 模型的可扩展的遮罩注释流程,用于视频文本定位,以解决现有数据集所具有的问题,并使用 SAMText 创建了一个包含 2400 个视频剪辑和超过 900 万个遮罩注释的大规模数据集,为该领域提供了新的研究机会。