端到端手写段落识别的联合分割和转录
本文介绍了多维循环神经网络 (MDRNNs) 的概念,扩展了循环神经网络 (RNNs) 在视觉、视频处理、医疗影像等领域的应用,同时避免了其它多维模型所面临的缩放问题。笔者提供了两个图像分割任务的实验结果。
May, 2007
本文研究了将深度网络的多层表示与强大的RNN模型相结合的模型 - 深度递归神经网络,通过合适的正则化和端到端的训练方法,该模型在TIMIT语音识别基准测试中获得了最佳记录得分17.7%。
Mar, 2013
本文提出了一种名为全卷积循环网络(FCRN)的端到端框架用于手写汉字文本识别。FCRN基于在线文本数据进行训练,不像传统方法依赖于分割,它学习将笔尖轨迹与字符序列关联起来。本文还提出了一种优化的波束搜索方法,有效地集成语言模型来解码FCRN并显著提高识别结果。在CASIA-OLHWDB和ICDAR 2013数据集上进行测试,分别获得96.40%和95.00%的正确率。
Apr, 2016
本文提出一种将卷积神经网络和序列到序列模型相结合,将图像映射到文本序列,实现手写文本识别能力,且采用Focal Loss方法解决文本识别的类别不平衡问题,并应用Beam Search算法来提升模型的解码性能,在常见的IAM和RIMES数据集上实验表明,本文提出的模型在词级别的准确率方面分别提高了3.5%和1.1%,达到了国际先进水平。
Jul, 2018
本研究主要解决将手写文本识别能力添加到大规模多语言OCR系统中的难点,包括数据获取,效率和集成等三个方面,通过使用在线手写数据集和基于神经网络的线识别模型等方式解决了这些问题,实现了HTR能力在OCR系统中的集成。
Apr, 2019
使用变形金刚模型的多头自我注意力层,无需回归方法且具有超出预定义词汇表的单词识别能力,能实现很高的手写识别精度,即使在少量样本学习情况下也可取得满意的结果。
May, 2020
这篇文献提出了一种名为OrigamiNet的神经网络模块,用于将单行文本识别转化为多行/全页文本识别,且无需分割图像,可以实现更高的准确率,最终在手写文字识别的基准测试中取得了最佳结果。
Jun, 2020
手写文本识别中的问题一直是研究人员面临的挑战,本研究提出了一种融合内部线段切分和门控卷积层编码器的端到端段落识别系统,使用基于连接主义时间分类的词束搜索解码器作为后处理步骤,取得了较高的识别准确率。
Apr, 2024