双向训练 Transformer 的手写数学表达式识别

May, 2021

双向训练 Transformer 的手写数学表达式识别

Handwritten Mathematical Expression Recognition with Bidirectionally Trained Transformer

Wenqi Zhao, Liangcai Gao, Zuoyu Yan, Shuai Peng, Lin Du...

TL;DR使用 transformer-based decoder 替换 RNN-based models，提出一种新的训练策略并采用数据增广方法，实验结果表明此模型提高了 CROHME 2014 数据集的 ExpRate 达到 2.23%，CROHME 2016 与 CROHME 2019 也分别提高了 1.92% 和 2.28%。

Abstract

encoder-decoder models have made great progress on handwritten mathematical expression recognition recently. However, it is still a challenge for existing methods to assign attention to image features accurately. Moreover, those →

encoder-decoder models handwritten mathematical expression recognition transformer-based decoder training strategy data augmentation

发现论文，激发创造

手写数学表达式识别的多尺度注意力与密集编码器

使用基于注意力机制的编码器 - 解码器模型和多尺度注意力模型，结合密集连接卷积网络来处理手写数学表达式识别并在 CROHME 竞赛任务中取得了显著结果，只使用了官方训练数据集。

Jan, 2018

基于注意力聚合的双向互相学习手写数学表达式识别

该论文提出了一种基于双向情况下的 Attention 汇聚的互相学习网络，该网络包括一个共享编码器和两个并行解码器（逆序解码器和正序解码器），并通过互相蒸馏实现增强，同时提出了一种 Attention 汇聚模块，以有效地整合多尺度关注力，从而在手写数学表达式识别中具有更好的识别精度。

Dec, 2021

CoMER: 基于 Transformer 的手写数学表达式识别覆盖建模

本文提出了使用注意力精细模块的覆盖信息 Transformer 模型（CoMER），用于识别手写数学表达式，实验显示 CoMER 相对于当前最先进的模型提高了 0.61%/2.09%/1.59% 的表达式识别率，并在 CROHME2014/2016/2019 测试集上达到了 59.33%/59.81%/62.97%。

Jul, 2022

使用 Transformer 关注数学语言

使用变压器架构生成、评估和训练数学表达式，将其作为字符级序列转换任务进行分析，建立在关注机制上的编码器和解码器上。三个模型分别被训练在数学符号变量和表达式的理解和评估上，最终达到了测试准确率高达 76.1%、78.8% 和 84.9%。

Dec, 2018

手写数学表达式识别的语法感知网络

本文提出了一种基于编码器 - 解码器网络的数学公式识别方法，在网络中加入语法规则，将标记序列预测建模为树遍历过程，从而有效描述表达式的语法上下文，减轻了数学公式识别中的结构预测误差。实验结果表明，我们的方法在三个基准数据集上均取得了比现有方法更好的识别性能。同时，我们还创建了一个包含 10 万个手写数学表达式图像的大规模数据集，其源代码、新数据集和预训练模型也将公开。

Mar, 2022

一种用于在线手势识别数学表达式的 Transformer 架构

该研究使用 Transformer 架构为端到端的在线手写手势建立表达式树提供了强大的框架，并成功利用了注意力机制编码、学习和执行表达式的潜在语法，提供了鲁棒性，并提出了一个新的度量标准用于输出表达式树的语法正确性的评估。

Nov, 2022

利用比例增强和 Drop Attention 提高基于注意力的手写数学表达式识别

本文提出一种高性能的手写数学表达式识别模型，采用比例增强和 drop attention 技术解决了二维结构数学表达式识别中尺度不稳定的问题，并使用基于注意力机制的编码器 - 解码器网络从中提取特征并生成预测结果。我们的方法在 CROHME 2014 和 CROHME 2016 两个公共数据集上取得了最先进的性能。

Jul, 2020

粗细注意力下的图像转标记生成

该研究提出一种神经编码解码模型，采用可扩展的粗 - 精细注意机制将图片转化为表现标记，并在图像到 LaTeX 生成的上下文中进行评估。该方法通过引入真实世界渲染的数学表达式与 LaTeX 标记相配对的新数据集，展示了与 CTC 模型相比采用基于注意的方法可以处理非标准 OCR 任务，并在域内渲染数据上远优于经典的数字 OCR 系统，在预训练的情况下，该方法也可以在域外手写数据上表现良好。为了减少与基于注意力的方法相关的推理复杂度，该研究还引入了一个选择支持区域后应用注意力的新的粗 - 精细注意力层。

Sep, 2016

不应仅依赖自然语言训练的明确识别

使用基于 Transformer 的架构进行 LaTeX 文本识别，识别到存在的 “偏差” 问题并提出使用混合数据集训练的 LaTeX 打印文本识别模型，该模型在编码器中采用 Swin Transformer，解码器中采用 RoBERTa 模型。实验结果表明，该方法减小了 “偏差”，提高了文本识别的准确性和鲁棒性。对于清晰图像，模型严格遵循图像内容；对于模糊图像，它整合图像和上下文信息以产生合理的识别结果。

Jun, 2024

手写数学表达式识别的智能检测网络

我们提出的智能检测网络在手写数学公式识别中利用物体检测技术，与传统编码器 - 解码器方法不同，能够精确检测符号和数字，优于其他网络在识别复杂手写数学表达式方面，对 HMER 领域具有潜在的宝贵贡献。

Nov, 2023