移动设备上的个性化语音识别

Mar, 2016

Personalized Speech recognition on mobile devices

Ian McGraw, Rohit Prabhavalkar, Raziel Alvarez, Montse Gonzalez Arenas, Kanishka Rao...

TL;DR本文介绍了一种大词汇量语音识别系统，其特点是准确、延迟低，同时其内存和计算资源占用不大，可以在 Nexus 5 Android 智能手机上以快于实时的速度运行。使用一种量化的 LSTM 音频模型和 CTC 训练直接预测音素目标，进一步使用基于 SVD 的压缩方案进一步减小内存占用，同时利用贝叶斯插值构建单一的语言模型，在植入词汇项进入解码器图表并实时更改语言模型偏差的情况下正确执行设备特定的信息。其最终取得的效果是在开放式口述任务中 13.5% 的单词错误率，而以运行速度优于实时的为媒介获得更优秀的结果。

Abstract

We describe a large vocabulary speech recognition system that is accurate, has low latency, and yet has a small enough memory and computational footprint to run faster than real-time on a Nexus 5 Android smartphone. We employ a quantized Long Short-Term Memory (→

speech recognition acoustic model lstm memory compression language model

发现论文，激发创造

神经语音识别：基于声学到词汇 LSTM 模型的大词汇量语音识别

使用 CTC 损失和双向 LSTM RNN 网络，基于整词的声学单位构建连续语音识别系统，无需传统上下文依赖的子词单元和语言模型。

Oct, 2016

优化边缘语音识别

本文研究边缘设备上的语音识别问题，通过使用端到端的神经结构，并应用更有效的神经网络拓扑和优化技术，成功构建了一个高精度的，在边缘设备上运行的小型语音识别系统。

Sep, 2019

移动设备端基于端到端语音识别的个性化命名实体识别

通过使用不同的个性化技术来提高语音识别的效果，我们提出了一种基于关键词精度和召回率的词汇获取性能评估方法，并在设计的包含难以识别人名的数据集上进行了算法评估，其中，数据合成方法可以将基线的人名召回率从 2.4% 提高到 48.6%。在进行名字修正的情况下，名字召回率可提高至 64.4%。通过在移动设备上执行整个个性化工作流程，我们摆脱了上传用户数据和在服务器上存储个性化模型的需要。

Dec, 2019

端设备个性化语音识别模型的研究调查

本文探讨利用个人化的端到端语音识别模型在移动设备上安全训练，使用户数据和模型不离开设备和服务器，以提高数据隐私和可扩展性。实验结果表明，在设备个性化的情况下，相对词误差率降低了 63.7％，性能略有下降（18.7％）但是最终实现了更好的数据隐私保护。

Sep, 2019

使用卷积神经网络扩展在线语音识别能力

本研究设计了一种基于时深可分卷积与连接时序分类的在线端到端语音识别系统，通过优化核心架构，高效的波束搜索解码器以及提升性能指标的分析，系统吞吐量提高 3 倍，延迟降低同时保持更好的词语误差率。

Jan, 2020

通过本地可学习用户讲话特征提升关键词检测

在此研究中，我们提出了一种新颖的设备内学习架构，由预训练的主干网络和学习用户语音特征的用户感知特征学习组成，用于解决无人工场景中部署时需要调整离线训练分类器以提高准确性的问题。我们通过更新用户投影来减小从 30.1% 到 24.3% 的错误率，针对 Google Speech Commands 数据集的 35 类问题中由未见过的发言人引起的领域转移。此外，我们还展示了我们提出的架构在样本和类别稀缺学习条件下的少样本学习能力。带有 23.7k 参数和每个周期的 1MFLOP 的需求，我们的系统适用于针对电池供电微控制器的 TinyML 应用。

Mar, 2024

使用 LPCNet 的高质量轻量化和可适应的语音合成技术

本研究提出了一种轻量级的适应性神经 TTS 系统，采用三个单独的神经网络块来实现韵律预测、声学特征预测和线性预测编码神经声码器，性能接近自然语音合成，同时在标准 CPU 上实时性能比真实速度快 3 倍，系统的模块化设置使得可适应新的语音，只需要少量的数据，在大量实验中展示了系统的高质量和适应性，提高了 0.12 的质量差距和 3% 的相似性差距，可适应未见的声音和性别的合成。

May, 2019

CAPIO 2017 会话式语音识别系统

论文展示了达到了 NIST 2000 Hub5 英语评估集的最先进表现，提出了一种基于密集连接 LSTMs 并激发于图像分类任务的密集连接卷积网络的方法，以及一个声学模型适应方案，并在 CallHome 训练语料库上应用了该方法，并在评估集的 CallHome 部分中平均提高了 6.1％（相对误差率），并且在 Switchboard 部分没有性能损失。

Dec, 2017

用于在线端到端语音识别系统的改进训练

提供了一种利用师生学习技术将离线的端到端语音识别模型的知识传递到在线端到端模型中的初始化策略，用以提高在线语音识别的准确性，并结合课程学习和标签平滑实现了更好的效果。在 Microsoft Cortana 的个人助手任务中，相比随机初始化基线系统，通过所提出的方法，可以使错误率相对下降了 19%。

Nov, 2017

基于长短时记忆的深度循环神经网络构建及其在大词汇语音识别中的应用

本研究针对多 GPU 设备下，探讨了基于深度 LSTM 的语音识别任务，通过构建深度循环神经网络来提升深层次模型效率，实验结果表明深度 LSTM 网络的性能优于浅层次模型。

Oct, 2014