中间预测偏置增强未见词识别
提出了一种在编码器中使用显式偏置损失作为辅助任务的方法,以更好地将文本令牌或音频帧与预期目标对齐,并通过使用 RNN-transducer 驱动的联合解码来进一步降低无偏差的单词错误率(U-WER),从而实现更强大的网络。
Jun, 2024
该研究提出了一种新的语音识别模型,使用动态增强和电话对齐网络来优化编码器和解码器,在编码器中引入关注稀有单词和超出词汇表以及解码器中使用子词预测结果,结果表明 F1 可以达到 60%。
Oct, 2022
本文提出了一种使用搜索的中间结果和多次条件的改进 CTC 推断方法,通过提出新的条件方法,如搜索中间结果和多次通过条件,使得 CTC 推断中的条件能力更强,相对于原本的自我条件的 CTC,在 LibriSpeech 数据集上测试表现有明显提高。
Apr, 2022
基于 CTC 的自动语音识别模型一直比基于处理单元的编码 - 解码模型弱,本文提出了两种知识转移方法,借助预训练的 BERT 和 GPT2 来提高 CTC-based 模型的性能。在实验中,相对于不使用外部语言模型的基础模型,我们的方法将字符错误率降低了 16.1%。
Feb, 2022
提出了一个基于上下文感知的变形器转录方法的自适应上下文偏置方法,通过使用有偏的编码器和预测器嵌入来执行流媒体预测,动态地开关偏差列表,以适应个性化和常见情况,实验证明相对于基线,它可以在常见情况下减少 WER 和 CER 达到 6.7%和 20.7%,在个性化情况下对性能影响极小,同时保持快速的推理管道。
Jun, 2023
本文提出了一种方法来放宽 CTC-based 自动语音识别 (ASR) 模型的条件独立性假设,通过在中间层中添加辅助的 CTC loss,使预测更准确,减少了相对词错误率超过 20%。
Apr, 2021
通过 CTC-based Word Spotter 实现快速的上下文偏置识别,加速上下文偏置识别的同时提高了 F-score 和 WER,方法已经在 NVIDIA NeMo toolkit 中提供。
Jun, 2024
本论文提出了 InterAug: 一种使用增强的中间表示进行条件化的基于 CTC 的 ASR 的新训练方法。所提出的方法充分利用了自身条件付 CTC 的调节框架,通过在中间预测结果的基础上进行调节来训练鲁棒模型,从而实现了迭代式精炼。在使用模拟删除、插入和替换误差的增强进行的实验中,验证了训练模型对每种误差都具有强韧性的性能,提高了强自我条件付 CTC 基线的语音识别性能。
Apr, 2022
提供了一种利用师生学习技术将离线的端到端语音识别模型的知识传递到在线端到端模型中的初始化策略,用以提高在线语音识别的准确性,并结合课程学习和标签平滑实现了更好的效果。在 Microsoft Cortana 的个人助手任务中,相比随机初始化基线系统,通过所提出的方法,可以使错误率相对下降了 19%。
Nov, 2017
本文提出了 CB-Conformer 方法,将 Contextual Biasing Module 和自适应语言模型引入到 vanilla Conformer 中,用于改进偏见词识别。同时,作者还构建并公开了一个基于 WenetSpeech 的普通话偏见词数据集。实验证明,相比于基准 Conformer,我们的方法使字符错误率减少了 15.34%,偏见词召回率增加了 14.13%,偏见词 F1 分数提高了 6.80%。
Apr, 2023