评估序列到序列模型在手写文本识别中的应用
本文提出一种将卷积神经网络和序列到序列模型相结合,将图像映射到文本序列,实现手写文本识别能力,且采用 Focal Loss 方法解决文本识别的类别不平衡问题,并应用 Beam Search 算法来提升模型的解码性能,在常见的 IAM 和 RIMES 数据集上实验表明,本文提出的模型在词级别的准确率方面分别提高了 3.5%和 1.1%,达到了国际先进水平。
Jul, 2018
我们提出一种递归编码器 - 解码器深度神经网络架构,直接将一种语言中的语音转换为另一种语言中的文本,通过多任务训练序列到序列的语音翻译和识别模型通过共享编码器网络来提高性能。
Mar, 2017
通过使用基于卷积神经网络而非 encoder-decoder 结构的方法,每一层在输出序列上重新编码源标记,我们的模型在参数更少的情况下表现出色,优于现有的机器翻译系统。
Aug, 2018
本文提出了基于注意力卷积网络的端到端场景文本识别方法,通过卷积神经网络 (CNN) 代替循环神经网络 (RNN) 来实现输入序列的上下文依赖关系的准确捕捉,提高了识别效率,并结合残余注意力模块进一步提高特征识别的准确性。该方法在多个数据集上验证结果显示了显著的性能优势。
Sep, 2017
使用变形金刚模型的多头自我注意力层,无需回归方法且具有超出预定义词汇表的单词识别能力,能实现很高的手写识别精度,即使在少量样本学习情况下也可取得满意的结果。
May, 2020
该研究提出三个新的指标以评估具有和不具有注意力机制的 RNN 的行为,发现不同模型类型处理句子的方式存在关键差异,这揭示了人类和注意力中心方法在语言处理方面的行为上存在的显著对比。
Jun, 2019
利用卷积神经网络架构完全替代了循环神经网络的流行序列到序列学习方法,运用门控线性单元简化了梯度传播,为每个解码器层装备了单独的注意力模块,在 GPU 和 CPU 上取得了比 Wu 等人(2016)更高的准确性和十倍以上的速度。
May, 2017
本文提出了基于双向循环神经网络编码器和递归神经网络解码器的语音识别方法,使用关注机制对输入与输出序列对齐以较高准确性地识别音素,且在 TIMIT 数据集上与传统的 HMM 方法相当。
Dec, 2014
本文提出了一种新颖的神经网络架构,将特征提取、序列建模和转录集成到统一框架中,用于场景文本识别,相比现有算法其具有端到端训练,不需要一定的词典限制,更加适合实际应用等优点,在标准测试数据上展现出更好的性能。
Jul, 2015