基于发音驱动的子词切分的 CTC 端到端语音识别个性化

Oct, 2023

基于发音驱动的子词切分的 CTC 端到端语音识别个性化

Personalization of CTC-based End-to-End Speech Recognition Using Pronunciation-Driven Subword Tokenization

Zhihong Lei, Ernest Pusateri, Shiyi Han, Leo Liu, Mingbin Xu...

TL;DR使用深度学习和自动语音识别相结合的端到端语音识别系统在识别个人内容（如联系人姓名）方面的准确率有所提高，但仍存在挑战。本研究描述了我们基于连接主义时序分类的端到端语音识别系统的个性化解决方案，通过建立在以往研究的基础上，提出了一种从发音生成个人实体的附加子词划分的新方法。我们证明，在结合了上下文偏置和词片段先验归一化这两个已有技术的基础上，我们能够获得与具备竞争力的混合系统相当的个人命名实体准确性。

Abstract

Recent advances in deep learning and automatic speech recognition have improved the accuracy of end-to-end speech recognition systems, but

deep learning automatic speech recognition end-to-end speech recognition systems personalization solution connectionist temporal classification

发现论文，激发创造

端到端语音识别系统的个性化策略

本文提出一种新的基于第一、第二次遍历的重评分策略，以及浅层融合的方法来解决个人化内容识别在端对端语音识别系统中的挑战，并展示了在子词级别上实现这种偏向，大大提高了个性化内容识别的准确性，同时保证了一般用例下识别准确度的最小降低。

Feb, 2021

基于情境适配器和自适应增强的 CTC 语音识别模型个性化研究

该研究提出了一种新的语音识别模型，使用动态增强和电话对齐网络来优化编码器和解码器，在编码器中引入关注稀有单词和超出词汇表以及解码器中使用子词预测结果，结果表明 F1 可以达到 60%。

Oct, 2022

移动设备端基于端到端语音识别的个性化命名实体识别

通过使用不同的个性化技术来提高语音识别的效果，我们提出了一种基于关键词精度和召回率的词汇获取性能评估方法，并在设计的包含难以识别人名的数据集上进行了算法评估，其中，数据合成方法可以将基线的人名召回率从 2.4% 提高到 48.6%。在进行名字修正的情况下，名字召回率可提高至 64.4%。通过在移动设备上执行整个个性化工作流程，我们摆脱了上传用户数据和在服务器上存储个性化模型的需要。

Dec, 2019

全神经语音识别的进展

本文提出了一种基于 CTC 的全神经网络语音识别器的设计方法，包括新的符号存储库、基于迭代的 CTC 方法、稳定化方法和初始化方法等，使用 NIST 2000 会话电话测试集进行了评估，结果表明该系统明显超过了先前发布的相似系统的性能，无需使用外部语言模型和解码技术。

Sep, 2016

用于德语端到端语音识别的大语料 CTC 分割

本研究结合之前未标注的语音数据通过采用 CTC 预训练的两阶段方法生成训练数据，使用 CTC 和 attention Transformer 模型对德语语音识别进行训练，实现了 12.8％的识别错误率，超过了传统混合 DNN / HMM ASR 的 14.4％的基础水平。

Jul, 2020

基于预训练语言模型的知识迁移，提升基于 CTC 的语音识别

基于 CTC 的自动语音识别模型一直比基于处理单元的编码 - 解码模型弱，本文提出了两种知识转移方法，借助预训练的 BERT 和 GPT2 来提高 CTC-based 模型的性能。在实验中，相对于不使用外部语言模型的基础模型，我们的方法将字符错误率降低了 16.1%。

Feb, 2022

层级条件端到端 ASR：CTC 和多粒度次词单元

本文提出了一种基于连接主义时间分类（CTC）的分层条件模型，通过在中间层应用辅助 CTC 损失，逐渐增加每个目标子单词序列的词汇量，并使每个级别的序列预测明确地以前一个级别的预测为条件，希望通过利用语言结构的层次结构有效地学习单词级表示，在 LibriSpeech-{100h，960h} 和 TEDLIUM2 上实验结果表明，与标准 CTC 模型和其他竞争模型相比，所提出的模型具有优越性能。

Oct, 2021

使用卷积神经网络扩展在线语音识别能力

本研究设计了一种基于时深可分卷积与连接时序分类的在线端到端语音识别系统，通过优化核心架构，高效的波束搜索解码器以及提升性能指标的分析，系统吞吐量提高 3 倍，延迟降低同时保持更好的词语误差率。

Jan, 2020

移动设备上的个性化语音识别

本文介绍了一种大词汇量语音识别系统，其特点是准确、延迟低，同时其内存和计算资源占用不大，可以在 Nexus 5 Android 智能手机上以快于实时的速度运行。使用一种量化的 LSTM 音频模型和 CTC 训练直接预测音素目标，进一步使用基于 SVD 的压缩方案进一步减小内存占用，同时利用贝叶斯插值构建单一的语言模型，在植入词汇项进入解码器图表并实时更改语言模型偏差的情况下正确执行设备特定的信息。其最终取得的效果是在开放式口述任务中 13.5% 的单词错误率，而以运行速度优于实时的为媒介获得更优秀的结果。

Mar, 2016

用于在线端到端语音识别系统的改进训练

提供了一种利用师生学习技术将离线的端到端语音识别模型的知识传递到在线端到端模型中的初始化策略，用以提高在线语音识别的准确性，并结合课程学习和标签平滑实现了更好的效果。在 Microsoft Cortana 的个人助手任务中，相比随机初始化基线系统，通过所提出的方法，可以使错误率相对下降了 19%。

Nov, 2017