Feb, 2023

基于自适应 n-gram 嵌入的增强 Transformer 用于多语言场景文本识别

TL;DR介绍了一种用于多语种场景文本识别的增强 Transformer 架构,名为 TANGER,该架构采用 n-grams 嵌入和跨语言纠正技术,并通过四个基准数据集的广泛比较研究以及从印度尼西亚旅游场景中收集的一个包含印度尼西亚语、英语和中文的新多语种场景文本数据集进行实验,实验结果表明 TANGER 具有更好的性能。