Dec, 2020

文本识别的序列对序列对比学习

TL;DR提出一种基于序列对序列对比学习框架 (SeqCLR) 的视觉表征方法,应用于文本识别,可实现在子单词级别上对比,并进一步建议新颖的数据增广启发式方法、不同的编码器架构和定制投影头来获得对于文本识别而言的有效视觉表征。在手写文本和场景文本上的实验结果表明,与非序列对比方法相比,当训练文本解码器的表征时,我们的方法表现出更好的性能。另外,当减少监督量时,SeqCLR 与有监督的训练相比,明显提高了性能,在 100%的标签下微调后,我们的方法在标准手写文本识别基准上取得了最佳结果。