检索与复制：将 ASR 个性化扩展至大规模目录

EMNLPNov, 2023

检索与复制：将 ASR 个性化扩展至大规模目录

Retrieve and Copy: Scaling ASR Personalization to Large Catalogs

Sai Muralidhar Jayanthi, Devang Kulshreshtha, Saket Dingliwal, Srikanth Ronanki, Sravan Bodapati

TL;DR针对自动语音识别模型的个性化问题，我们提出了一种 “检索和复制” 机制和训练策略，以改善稀有词汇和特定领域实体的识别精度，实验结果显示与基线相比，我们的方法在词错误率降低 6%，F1 得分提高 3.6%，且在每个声学帧至少提升 20% 推理速度的同时可容纳多达 20K 的大型目录。

Abstract

personalization of automatic speech recognition (ASR) models is a widely studied topic because of its many practical applications. Most recently,

personalization automatic speech recognition attention-based contextual biasing techniques retrieve and copy mechanism training strategy

发现论文，激发创造

使用神经联想记忆进行快速上下文适应，提高设备端个性化语音识别

本文介绍一种基于模型的端到端语境自适应方法，它不依赖于解码器，适合用于设备上的个性化训练，实验结果表明，相比传统的重新评分技术，在连续个性化场景中，该方法可以使相对识别率（WER）提高 12％，实体提及特定 F1 得分提高 15.7％。

Oct, 2021

Wiki-En-ASR-Adapt：大规模英语自动语音识别定制的合成数据集

提出一个首个大规模的公开合成数据集，用于上下文拼写检查自定义自动语音识别（ASR）中的多样罕见和词汇外（OOV）短语，如专有名词或术语。通过注入两种类型的 “困难负面” 短语到模拟的偏见列表中，我们的方法可以创建数百万个真实的损坏 ASR 假设示例，并模拟定制任务的非平凡偏见列表，同时描述了自动挖掘它们的过程。通过在提出的数据集上训练开源定制模型进行实验，我们显示出注入困难负面偏见短语可以降低 WER 和误报数目。

Sep, 2023

高精度语音搜索查询纠错通过可检索的语音 - 文本嵌入

通过使用多模式语音文本嵌入网络，从语音文本数据库中直接查询校正候选项，以消除音频 - 假设不匹配问题，并在将候选项添加到原始候选列表之前使用语音 - 文本嵌入距离对候选项进行评分，该方法在改善检索率的同时，降低了相对的词错误率（WER）。

Jan, 2024

大型语言模型的命名实体上下文偏置

该研究探讨了大型语言模型（LLMs）中的上下文偏置，其中在二次通过重新评分期间，提供了额外的上下文信息以提升自动语音识别（ASR）性能。研究提议在重新评分期间利用提示方式对 LLM 进行偏置，其中包括偏置列表和少量示例，以作为计算假设得分时的额外信息。除了少量示例学习，该研究还提出了 LLM 的多任务训练，以预测实体类别和下一个标记。为了改进上下文偏置的效率并避免超过 LLM 的最大序列长度，该研究提出了动态提示，其中利用类别标签预测选择最可能的类别，并仅将该类别中的实体用作下一个标记预测的上下文。在内部通话、消息和听写数据集以及 SLUE-Voxpopuli 数据集上进行了字错误率（WER）评估。结果表明，偏置列表和少量示例相对于第一次通过 ASR 可以分别实现 17.8% 和 9.6% 的改善，而多任务训练和动态提示则可以分别实现 20.0% 和 11.3% 的相对 WER 改善。

Sep, 2023

工业级多语种自动语音识别的解剖

描述了 AssemblyAI 的工业规模自动语音识别（ASR）系统的结构和性能优势，包括模型架构、词错误率、代码切换能力等关键方面。

Apr, 2024

虚拟助手的辨别式实体感知语言模型

本文研究提出了一种基于知识图谱的语言建模方法，通过有效的格栅重排过程，达到了相对句子错误率的降低，为虚拟助手 ASR 的精度提高提供了强有力的支持。

Jun, 2021

ASR 转录中实体分布建模的记录去重技术

采用实体去重技术来解决语音数字助手中实体集合需要经常重构的问题，并使用环境偏置来保持与时俱进。

Jun, 2023

BigSSL：大规模半监督学习在自动语音识别中的探索前沿

使用预先训练、自我训练和模型规模扩大的方法，利用大型、多样化的未标记数据集，我们取得了一系列使用巨型自动语音识别（ASR）模型的结果，表明它可以在极大的任务效率下使用仅有少量标记数据来实现最先进性能。在一个含有 34k 个小时标记数据的 ASR 任务中，通过微调一个 80 亿参数的预训练 Conformer 模型，我们可以实现仅有 3％的训练数据即可达到 SoTA 性能，并且使用完整的训练集可以显著提高 SoTA。我们还报告了使用大型预训练和自我训练模型对多个下游任务的通用收益，涵盖了许多语音领域的公共基准测试，并跨越了多个数据集大小的数量级，并利用预训练网络的学习表示在非 ASR 任务中取得了 SoTA 结果。

Sep, 2021

端到端语音识别系统的个性化策略

本文提出一种新的基于第一、第二次遍历的重评分策略，以及浅层融合的方法来解决个人化内容识别在端对端语音识别系统中的挑战，并展示了在子词级别上实现这种偏向，大大提高了个性化内容识别的准确性，同时保证了一般用例下识别准确度的最小降低。

Feb, 2021

面向端到端语音识别系统的上下文拼写纠正定制

本研究提出了一种新方法，通过在端到端自动语音识别系统的顶部加入上下文拼写纠错模型，将上下文信息纳入序列到序列拼写纠正模型中，从而提高了识别速度和准确性。

Mar, 2022