基于 CTC 和分段 CRF 的语音识别多任务学习
研究了段落循环神经网络在端到端声学建模中的应用,不依赖于外部系统提供特征或分割边界,通过神经网络进行特征提取,具有自我完备性,可实现端到端训练,实验表明在语音识别领域中表现良好。
Mar, 2016
本文提出基于条件随机场的混合半马尔可夫模型,应用于自然语言处理中的神经序列标注任务,该模型采用词级别和片段级别的信息同时作为特征来提升性能,在 CoNLL 2003 命名实体识别任务中取得了最好的结果。
May, 2018
本研究介绍了一种新的方法,使用多任务学习框架中的联合 CTC-attention 模型来改善端到端语音识别的鲁棒性并实现快速收敛,从而减轻对齐问题。实验证明,与 CTC 和 attention-based encoder-decoder 基线相比,在 WSJ 和 CHiME-4 任务中表现出 5.4-14.6%的相对 CER 改进。
Sep, 2016
本研究结合之前未标注的语音数据通过采用 CTC 预训练的两阶段方法生成训练数据,使用 CTC 和 attention Transformer 模型对德语语音识别进行训练,实现了 12.8%的识别错误率,超过了传统混合 DNN / HMM ASR 的 14.4%的基础水平。
Jul, 2020
本文提出将 CNN 与 CTC 相结合的端到端语音识别框架,以实现序列标记;在 TIMIT 音素识别任务中评估该方法并表明其在计算效率和性能上优于已有基线系统,并指出 CNN 具有利用适当上下文信息来建模时间相关性的能力。
Jan, 2017
本文提出了一种基于连接主义时间分类(CTC)的分层条件模型,通过在中间层应用辅助 CTC 损失,逐渐增加每个目标子单词序列的词汇量,并使每个级别的序列预测明确地以前一个级别的预测为条件,希望通过利用语言结构的层次结构有效地学习单词级表示,在 LibriSpeech-{100h,960h} 和 TEDLIUM2 上实验结果表明,与标准 CTC 模型和其他竞争模型相比,所提出的模型具有优越性能。
Oct, 2021
使用分层多任务学习进行基于 CTC 的语音识别,添加辅助任务可提高识别结果表现,不同的实验变量,低资源下标准多任务学习表现优异,最佳结果为采用分层多任务学习与预训练相结合,可将错误率降低 3.4% 绝对值。
Jul, 2018
该研究论文探讨了如何使用基于条件随机场(CRFs)的多传感器融合算法对人类活动监控的大量时间序列进行分类,同时提供了区分不同类型序列的判别模型,实验结果证明了该方法的有效性。
Feb, 2016
探讨了如何应用视觉通道,以及 Connectionist Temporal Classification (CTC) 和 sequence-to-sequence (S2S) 的方法来提高自动语音识别 (ASR) 的鲁棒性,并比较了两种方法在干净和嘈杂的数据上的效果。
Apr, 2018