使用策略学习来提高端到端的语音识别
基于 CTC 的自动语音识别模型一直比基于处理单元的编码 - 解码模型弱,本文提出了两种知识转移方法,借助预训练的 BERT 和 GPT2 来提高 CTC-based 模型的性能。在实验中,相对于不使用外部语言模型的基础模型,我们的方法将字符错误率降低了 16.1%。
Feb, 2022
本研究介绍了一种新的方法,使用多任务学习框架中的联合 CTC-attention 模型来改善端到端语音识别的鲁棒性并实现快速收敛,从而减轻对齐问题。实验证明,与 CTC 和 attention-based encoder-decoder 基线相比,在 WSJ 和 CHiME-4 任务中表现出 5.4-14.6%的相对 CER 改进。
Sep, 2016
本文提出了一种基于 CTC 目标的自动语音识别(ASR)的简单而高效的辅助损失函数,结合随机深度训练,应用于最近提出的 Conformer 网络,能够在没有语言模型的情况下实现 9.9%的单词错误率和 5.2%的字符错误率。
Feb, 2021
该研究提出了一种新的语音识别模型,使用动态增强和电话对齐网络来优化编码器和解码器,在编码器中引入关注稀有单词和超出词汇表以及解码器中使用子词预测结果,结果表明 F1 可以达到 60%。
Oct, 2022
提出了一种名为 $ extit {Align With Purpose}$ 的通用 Plug-and-Play 框架用于在 Automatic Speech Recognition 等领域中,通过 CTC 和附加的损失项优化各种功能,例如发射时间和单词错误率,以实现对齐的改善和性能提升。
Jul, 2023
本研究结合之前未标注的语音数据通过采用 CTC 预训练的两阶段方法生成训练数据,使用 CTC 和 attention Transformer 模型对德语语音识别进行训练,实现了 12.8%的识别错误率,超过了传统混合 DNN / HMM ASR 的 14.4%的基础水平。
Jul, 2020
使用分层多任务学习进行基于 CTC 的语音识别,添加辅助任务可提高识别结果表现,不同的实验变量,低资源下标准多任务学习表现优异,最佳结果为采用分层多任务学习与预训练相结合,可将错误率降低 3.4% 绝对值。
Jul, 2018
本文提出了一种监督损失的方法来平滑 Contextual Adapters 的训练,进一步探讨了多语言策略以提高有限的训练数据的性能,结果在一个低资源语言中检索未见过的自定义实体方面取得了 48% F1 的提升。
Jul, 2023
本文提出了一种新颖的深度卷积神经网络架构 RCNN-CTC,其通过残差连接和时间分类损失函数,能够同时利用语音信号的时间和光谱结构,并提出了一种 CTC-based 系统组合方法,可以显著减少 WSJ 和腾讯 Chat 数据集上的语音识别误差率。
Feb, 2017
本论文研究了基于 CTC 准则的声音到单词模型的问题,并提出采用混合 CTC 模型和混合单元 CTC 模型的解决方案,最终实现了在没有使用语言模型或复杂解码器的情况下取得比传统 CD-CTC 模型更好的结果。
Mar, 2018