Jun, 2017

场景文本识别的视觉注意力模型

TL;DR本文提出了一种无词典的场景图像文本识别方法,该方法基于一种基于 LSTM 的软视觉注意模型,该模型从卷积特征中学习。通过导出与图像不同区域对应的中间卷积层的一组特征向量,实现了对空间信息的编码,从而使框架能够学习如何选择性地聚焦于图像的不同部分。除此之外,我们还展示了通过将显式语言模型集成到束搜索算法中来修改改良的束搜索算法可以导致更好的识别结果,以标准的 SVT 和 ICDAR'03 场景文本数据集为基础,证明了我们方法在无约束文本识别中的卓越表现。