- 使用策略学习来提高端到端的语音识别
本文介绍了如何在最大似然和策略梯度训练中联合训练来减少最大似然和语音识别性能指标之间的不匹配,并通过实验验证了其效果。
- 基于 CTC 的声学模型的多语言训练和跨语言适应
研究了多种适应和规则化技术,并使用深度神经网络,调查了自适应性训练的潜力, 并研究了退火珂朵莉的效果,得出结果表明使用 LHUC 进行适应可以改善全语言子母的 CTC 系统的性能,并且在有限数据上可以实现与 DNN/HMM 系统的竞争性性能 - 基于音素、字素和多语言 CTC 的语音识别
该论文研究了通过使用其他语言的数据和建立多语言系统来处理自动语音识别中数据稀缺性的问题,使用循环神经网络和连接时序分类等技术进行训练,提高了多语言系统的性能,缩小了单语和多语系统之间的差距。
- 使用滑动卷积字符模型识别场景文本
本文提出了一种基于卷积特征映射中的字符模型的场景文本识别方法,可以避免基于分割的识别方法中的字符分割困难,并且可以识别未知单词,与现有方法相比具有相对较小的模型大小和优秀的性能表现。
- 基于联合 CTC-Attention 的端到端语音识别的进展,带有深度 CNN 编码器和 RNN-LM
本研究提出了一个最先进的端到端自动语音识别模型,通过使用联合 CTC 和基于注意力机制的编码解码器网络来学习听和写字,其中编码器是基于 VGG 网络的深度 CNN,CTC 网络和注意力解码器共同训练,通过在波束搜索过程中,将 CTC 预测、 - 用于自动语音识别的残差卷积 CTC 网络
本文提出了一种新颖的深度卷积神经网络架构 RCNN-CTC,其通过残差连接和时间分类损失函数,能够同时利用语音信号的时间和光谱结构,并提出了一种 CTC-based 系统组合方法,可以显著减少 WSJ 和腾讯 Chat 数据集上的语音识别误 - 基于深度卷积神经网络的端到端语音识别
本文提出将 CNN 与 CTC 相结合的端到端语音识别框架,以实现序列标记;在 TIMIT 音素识别任务中评估该方法并表明其在计算效率和性能上优于已有基线系统,并指出 CNN 具有利用适当上下文信息来建模时间相关性的能力。
- 多任务学习下的联合 CTC-Attention 基于端到端语音识别
本研究介绍了一种新的方法,使用多任务学习框架中的联合 CTC-attention 模型来改善端到端语音识别的鲁棒性并实现快速收敛,从而减轻对齐问题。实验证明,与 CTC 和 attention-based encoder-decoder 基 - 使用基于字符级递归神经网络实现的在线关键词检测
本文提出了一种基于字符级递归神经网络(RNN)的上下文感知关键词检测模型,用于连续语音中的口语项检测,通过端到端训练生成字符和单词边界标签的概率。该模型无需音标转录、Senone 建模或系统词典,可以通过编辑基于文本的关键词列表轻松添加和修 - NIPS深度多维循环神经网络学习的无 Hessian 优化
本文通过使用 Hessian-free 优化算法,采用凸近似方式解决 CTC 目标函数的非凸性问题,成功深度训练了一个多达 15 层的 MDRNN,从而在序列标注方面取得了显著的性能提升。
- 使用 Deep RNN 模型和基于 WFST 解码的端到端语音识别
本文介绍了 Eesen 框架,它简化了自动演讲识别系统的构建流程,并采用递归神经网络以及连接时序分类方法进行语音与标签序列的对齐,再基于 WFST 泛化解码的方式实现了自动语音识别,最终在保证较低错误率的情况下提升了识别速度。
- 历史手写文档的 CITlab ARGUS
采用多维循环神经网络和连接主义时间分类算法,基于 ARGUS 框架实现了一种针对历史手写文档识别的系统。
- 深度循环神经网络语音识别
本文研究了将深度网络的多层表示与强大的 RNN 模型相结合的模型 - 深度递归神经网络,通过合适的正则化和端到端的训练方法,该模型在 TIMIT 语音识别基准测试中获得了最佳记录得分 17.7%。