检索与复制:将 ASR 个性化扩展至大规模目录
本文介绍一种基于模型的端到端语境自适应方法,它不依赖于解码器,适合用于设备上的个性化训练,实验结果表明,相比传统的重新评分技术,在连续个性化场景中,该方法可以使相对识别率(WER)提高 12%,实体提及特定 F1 得分提高 15.7%。
Oct, 2021
提出一个首个大规模的公开合成数据集,用于上下文拼写检查自定义自动语音识别(ASR)中的多样罕见和词汇外(OOV)短语,如专有名词或术语。通过注入两种类型的 “困难负面” 短语到模拟的偏见列表中,我们的方法可以创建数百万个真实的损坏 ASR 假设示例,并模拟定制任务的非平凡偏见列表,同时描述了自动挖掘它们的过程。通过在提出的数据集上训练开源定制模型进行实验,我们显示出注入困难负面偏见短语可以降低 WER 和误报数目。
Sep, 2023
通过使用多模式语音文本嵌入网络,从语音文本数据库中直接查询校正候选项,以消除音频 - 假设不匹配问题,并在将候选项添加到原始候选列表之前使用语音 - 文本嵌入距离对候选项进行评分,该方法在改善检索率的同时,降低了相对的词错误率(WER)。
Jan, 2024
该研究探讨了大型语言模型(LLMs)中的上下文偏置,其中在二次通过重新评分期间,提供了额外的上下文信息以提升自动语音识别(ASR)性能。研究提议在重新评分期间利用提示方式对 LLM 进行偏置,其中包括偏置列表和少量示例,以作为计算假设得分时的额外信息。除了少量示例学习,该研究还提出了 LLM 的多任务训练,以预测实体类别和下一个标记。为了改进上下文偏置的效率并避免超过 LLM 的最大序列长度,该研究提出了动态提示,其中利用类别标签预测选择最可能的类别,并仅将该类别中的实体用作下一个标记预测的上下文。在内部通话、消息和听写数据集以及 SLUE-Voxpopuli 数据集上进行了字错误率(WER)评估。结果表明,偏置列表和少量示例相对于第一次通过 ASR 可以分别实现 17.8% 和 9.6% 的改善,而多任务训练和动态提示则可以分别实现 20.0% 和 11.3% 的相对 WER 改善。
Sep, 2023
使用预先训练、自我训练和模型规模扩大的方法,利用大型、多样化的未标记数据集,我们取得了一系列使用巨型自动语音识别(ASR)模型的结果,表明它可以在极大的任务效率下使用仅有少量标记数据来实现最先进性能。在一个含有 34k 个小时标记数据的 ASR 任务中,通过微调一个 80 亿参数的预训练 Conformer 模型,我们可以实现仅有 3%的训练数据即可达到 SoTA 性能,并且使用完整的训练集可以显著提高 SoTA。我们还报告了使用大型预训练和自我训练模型对多个下游任务的通用收益,涵盖了许多语音领域的公共基准测试,并跨越了多个数据集大小的数量级,并利用预训练网络的学习表示在非 ASR 任务中取得了 SoTA 结果。
Sep, 2021
本文提出一种新的基于第一、第二次遍历的重评分策略,以及浅层融合的方法来解决个人化内容识别在端对端语音识别系统中的挑战,并展示了在子词级别上实现这种偏向,大大提高了个性化内容识别的准确性,同时保证了一般用例下识别准确度的最小降低。
Feb, 2021
本研究提出了一种新方法,通过在端到端自动语音识别系统的顶部加入上下文拼写纠错模型,将上下文信息纳入序列到序列拼写纠正模型中,从而提高了识别速度和准确性。
Mar, 2022