IJCAIMay, 2023

语境增强:迈向高效准确的场景文本识别

TL;DR提出了一种基于 $ extbf {LVP}$ 的语言感知视觉模型,通过级联式优化和语言信息挖掘解决了基于纯视觉的识别模型在注意力漂移和部分视觉缺失情况下识别率低的问题,并在保持低复杂度的同时达到了最佳性能。