Nov, 2022

对比多视角文本视觉编码:实现十万级一次性标志识别

TL;DR本文研究了在开放式单次设置下识别自然场景中商业品牌标识的问题,提出了一种新的多视图文本视觉编码框架来学习鲁棒的对比表示,并引入了一个包含来自Wikidata的10万个商业品牌标识的参考标识数据集WiRLD。该方法表现出更好的稳定性,并且在多项任务上的表现优于现有技术。