该研究提出了一种新的语音识别模型,使用动态增强和电话对齐网络来优化编码器和解码器,在编码器中引入关注稀有单词和超出词汇表以及解码器中使用子词预测结果,结果表明 F1 可以达到 60%。
Oct, 2022
使用 CTC 损失和双向 LSTM RNN 网络,基于整词的声学单位构建连续语音识别系统,无需传统上下文依赖的子词单元和语言模型。
Oct, 2016
基于 CTC 的自动语音识别模型一直比基于处理单元的编码 - 解码模型弱,本文提出了两种知识转移方法,借助预训练的 BERT 和 GPT2 来提高 CTC-based 模型的性能。在实验中,相对于不使用外部语言模型的基础模型,我们的方法将字符错误率降低了 16.1%。
Feb, 2022
研究了多种适应和规则化技术,并使用深度神经网络,调查了自适应性训练的潜力, 并研究了退火珂朵莉的效果,得出结果表明使用 LHUC 进行适应可以改善全语言子母的 CTC 系统的性能,并且在有限数据上可以实现与 DNN/HMM 系统的竞争性性能。
Nov, 2017
本文提出了一种新方法来为 CTC 基于语音识别系统创建单元集。该方法使用 Byte Pair Encoding 在给定的训练文本上学习任意大小的单元集,通过使用子词和多词跨度单元,与使用字符或单词作为单位相比,可以在单位集大小和可用训练数据之间寻找良好的平衡点。通过结合使用独立语言模型的译码方法,能够实现基于字形的 CTC 系统的最新成果。
Dec, 2017
本文提出了一种基于连接主义时间分类(CTC)的分层条件模型,通过在中间层应用辅助 CTC 损失,逐渐增加每个目标子单词序列的词汇量,并使每个级别的序列预测明确地以前一个级别的预测为条件,希望通过利用语言结构的层次结构有效地学习单词级表示,在 LibriSpeech-{100h,960h} 和 TEDLIUM2 上实验结果表明,与标准 CTC 模型和其他竞争模型相比,所提出的模型具有优越性能。
Oct, 2021
介绍了一个配方来训练一个 A2W 模型,以缩小与常规模型的差距,并呈现了一个联合单词 - 字符 A2W 模型,以提供富有意义的输出。
本研究通过利用自我监督的声学编码器,提取文本嵌入,结合联合 CTC 和 SLU 损失的方法,实现了语音理解任务的话语级 SLU 模型,并在 DSTC2 数据集上比 SOTA 对话行为分类模型提高 4%绝对值,在 SLURP 数据集上比 SOTA SLU 模型提高 1.3%绝对值。
May, 2023
本研究提出了一种基于 ConvNet 和 CTC(或 ASG)的字母语音模型,实现了与 WSJ 中最佳字母系统的匹配,并在 LibriSpeech 上展现了近乎最先进的表现。
本研究介绍了一种新的方法,使用多任务学习框架中的联合 CTC-attention 模型来改善端到端语音识别的鲁棒性并实现快速收敛,从而减轻对齐问题。实验证明,与 CTC 和 attention-based encoder-decoder 基线相比,在 WSJ 和 CHiME-4 任务中表现出 5.4-14.6%的相对 CER 改进。
Sep, 2016