May, 2023

可扩展视频文本定位的遮罩标注

TL;DR提出了一种基于可扩展的 SAMText 模型的可扩展的遮罩注释流程,用于视频文本定位,以解决现有数据集所具有的问题,并使用 SAMText 创建了一个包含 2400 个视频剪辑和超过 900 万个遮罩注释的大规模数据集,为该领域提供了新的研究机会。