评估序列到序列模型在手写文本识别中的应用

Mar, 2019

评估序列到序列模型在手写文本识别中的应用

Evaluating Sequence-to-Sequence Models for Handwritten Text Recognition

Johannes Michael, Roger Labahn, Tobias Grüning, Jochen Zöllner

TL;DR该研究提出了一种基于注意力机制的序列到序列模型用于手写体识别，其中结合了卷积神经网络进行视觉信息的提取，实验结果表明其相比于最近的序列到序列方法取得了显著提升。

Abstract

Encoder-decoder models have become an effective approach for sequence learning tasks like machine translation, image captioning and speech recognition, but have yet to show competitive results for handwritten text recognition. To this end, we propose an attention-based sequence-to-sequence model. It combines a →

encoder-decoder model attention-based model sequence-to-sequence model handwritten text recognition convolutional neural network

发现论文，激发创造

一种高效的端到端神经模型用于手写文本识别

本文提出一种将卷积神经网络和序列到序列模型相结合，将图像映射到文本序列，实现手写文本识别能力，且采用 Focal Loss 方法解决文本识别的类别不平衡问题，并应用 Beam Search 算法来提升模型的解码性能，在常见的 IAM 和 RIMES 数据集上实验表明，本文提出的模型在词级别的准确率方面分别提高了 3.5％和 1.1％，达到了国际先进水平。

Jul, 2018

序列对序列模型可直接翻译外语

我们提出一种递归编码器 - 解码器深度神经网络架构，直接将一种语言中的语音转换为另一种语言中的文本，通过多任务训练序列到序列的语音翻译和识别模型通过共享编码器网络来提高性能。

Mar, 2017

全局关注：用于序列到序列预测的二维卷积神经网络

通过使用基于卷积神经网络而非 encoder-decoder 结构的方法，每一层在输出序列上重新编码源标记，我们的模型在参数更少的情况下表现出色，优于现有的机器翻译系统。

Aug, 2018

使用注意力卷积序列建模技术识别场景文本

本文提出了基于注意力卷积网络的端到端场景文本识别方法，通过卷积神经网络 (CNN) 代替循环神经网络 (RNN) 来实现输入序列的上下文依赖关系的准确捕捉，提高了识别效率，并结合残余注意力模块进一步提高特征识别的准确性。该方法在多个数据集上验证结果显示了显著的性能优势。

Sep, 2017

注意力聚焦：非递归手写文本行识别

使用变形金刚模型的多头自我注意力层，无需回归方法且具有超出预定义词汇表的单词识别能力，能实现很高的手写识别精度，即使在少量样本学习情况下也可取得满意的结果。

May, 2020

评估序列到序列模型的增量性

该研究提出三个新的指标以评估具有和不具有注意力机制的 RNN 的行为，发现不同模型类型处理句子的方式存在关键差异，这揭示了人类和注意力中心方法在语言处理方面的行为上存在的显著对比。

Jun, 2019

卷积序列到序列学习

利用卷积神经网络架构完全替代了循环神经网络的流行序列到序列学习方法，运用门控线性单元简化了梯度传播，为每个解码器层装备了单独的注意力模块，在 GPU 和 CPU 上取得了比 Wu 等人（2016）更高的准确性和十倍以上的速度。

May, 2017

端到端视频字幕生成

本文提出了采用端到端训练的方法来实现视频描述生成，并在微软研究视频描述数据集 (MSVD) 和微软视频到文本数据集 (MSR-VTT) 上取得了最新的最优表现。

Apr, 2019

基于 Attention 循环神经网络的端到端连续语音识别：首次结果

本文提出了基于双向循环神经网络编码器和递归神经网络解码器的语音识别方法，使用关注机制对输入与输出序列对齐以较高准确性地识别音素，且在 TIMIT 数据集上与传统的 HMM 方法相当。

Dec, 2014

端到端可训练的基于图像序列识别的神经网络及其在场景文本识别中的应用

本文提出了一种新颖的神经网络架构，将特征提取、序列建模和转录集成到统一框架中，用于场景文本识别，相比现有算法其具有端到端训练，不需要一定的词典限制，更加适合实际应用等优点，在标准测试数据上展现出更好的性能。

Jul, 2015