手写数学表达式识别的多尺度注意力与密集编码器
本文提出一种高性能的手写数学表达式识别模型,采用比例增强和 drop attention 技术解决了二维结构数学表达式识别中尺度不稳定的问题,并使用基于注意力机制的编码器 - 解码器网络从中提取特征并生成预测结果。我们的方法在 CROHME 2014 和 CROHME 2016 两个公共数据集上取得了最先进的性能。
Jul, 2020
使用 transformer-based decoder 替换 RNN-based models,提出一种新的训练策略并采用数据增广方法,实验结果表明此模型提高了 CROHME 2014 数据集的 ExpRate 达到 2.23%,CROHME 2016 与 CROHME 2019 也分别提高了 1.92% 和 2.28%。
May, 2021
本文提出了一种基于编码器 - 解码器网络的数学公式识别方法,在网络中加入语法规则,将标记序列预测建模为树遍历过程,从而有效描述表达式的语法上下文,减轻了数学公式识别中的结构预测误差。实验结果表明,我们的方法在三个基准数据集上均取得了比现有方法更好的识别性能。同时,我们还创建了一个包含 10 万个手写数学表达式图像的大规模数据集,其源代码、新数据集和预训练模型也将公开。
Mar, 2022
该论文提出了一种基于双向情况下的 Attention 汇聚的互相学习网络,该网络包括一个共享编码器和两个并行解码器(逆序解码器和正序解码器),并通过互相蒸馏实现增强,同时提出了一种 Attention 汇聚模块,以有效地整合多尺度关注力,从而在手写数学表达式识别中具有更好的识别精度。
Dec, 2021
该研究提出一种神经编码解码模型,采用可扩展的粗 - 精细注意机制将图片转化为表现标记,并在图像到 LaTeX 生成的上下文中进行评估。该方法通过引入真实世界渲染的数学表达式与 LaTeX 标记相配对的新数据集,展示了与 CTC 模型相比采用基于注意的方法可以处理非标准 OCR 任务,并在域内渲染数据上远优于经典的数字 OCR 系统,在预训练的情况下,该方法也可以在域外手写数据上表现良好。为了减少与基于注意力的方法相关的推理复杂度,该研究还引入了一个选择支持区域后应用注意力的新的粗 - 精细注意力层。
Sep, 2016
我们提出的智能检测网络在手写数学公式识别中利用物体检测技术,与传统编码器 - 解码器方法不同,能够精确检测符号和数字,优于其他网络在识别复杂手写数学表达式方面,对 HMER 领域具有潜在的宝贵贡献。
Nov, 2023
本文提出了利用 CROHME 数据库的在线手写数学表达式,通过局部和全局扭曲以及分解策略以生成形状和结构变化,使用深度学习模型, 结合卷积神经网络和基于注意力机制的编码器 - 解码器结构进行端到端的在线手写数学表达式识别,取得了具有竞争力的结果,并且产生的数据集已公开。
Jan, 2019
本文提出一种称为 ConvMath 的卷积序列建模网络,可将图像中的数学表达式描述转换为 LaTeX 序列,并通过多层注意机制和卷积解码器来提高模型的准确性和效率。在 IM2LATEX-100K 数据集上的实验结果表明,该网络实现了最先进的准确度和比以前方法更好的效率。
Dec, 2020
该研究使用 Transformer 架构为端到端的在线手写手势建立表达式树提供了强大的框架,并成功利用了注意力机制编码、学习和执行表达式的潜在语法,提供了鲁棒性,并提出了一个新的度量标准用于输出表达式树的语法正确性的评估。
Nov, 2022