Apr, 2017

基于注意力的街景图像结构信息提取

TL;DR本研究利用卷积神经网络(CNNs)、循环神经网络(RNNs)和新型的注意力机制设计了一个神经网络模型,可在处理困难法国街头路名标志(FSNS)数据集时,以 84.2%的准确率远超过之前的最优结果(Smith'16)的 72.46%。同时,该模型更为简单通用,并可应用到从谷歌街景视图(Google Street View)得出的商店门面提取业务名称的更加困难的数据集上,并对采用 CNN 特征提取器的深度在速度 / 准确度之间寻求折衷结果表明,深度不一定总是更好的选择。最终,构建出来的模型既简单又快速准确,有望应用在各种具有挑战性的实际文本提取问题上。