Wiki-En-ASR-Adapt：大规模英语自动语音识别定制的合成数据集

Sep, 2023

Wiki-En-ASR-Adapt：大规模英语自动语音识别定制的合成数据集

Wiki-En-ASR-Adapt: Large-scale synthetic dataset for English ASR Customization

Alexandra Antonova

TL;DR提出一个首个大规模的公开合成数据集，用于上下文拼写检查自定义自动语音识别（ASR）中的多样罕见和词汇外（OOV）短语，如专有名词或术语。通过注入两种类型的 “困难负面” 短语到模拟的偏见列表中，我们的方法可以创建数百万个真实的损坏 ASR 假设示例，并模拟定制任务的非平凡偏见列表，同时描述了自动挖掘它们的过程。通过在提出的数据集上训练开源定制模型进行实验，我们显示出注入困难负面偏见短语可以降低 WER 和误报数目。

Abstract

We present a first large-scale public synthetic dataset for contextual spellchecking customization of automatic speech recognition (asr) with focus on diverse rare and out-of-vocabulary (OOV) phrases, such as pro

contextual spellchecking automatic speech recognition asr out-of-vocabulary phrases hard negatives

发现论文，激发创造

使用备选拼写预测模型提高稀有词汇的语境识别

本文介绍了一个使用上下文偏置列表对 ASR 进行计算的公共基准任务，并提出了一种替代拼写预测模型，它相对于不使用替代拼写的上下文偏置提高了罕见单词的召回率和词汇外单词的召回率。

Sep, 2022

使用合成语音增强训练神经语音识别系统

利用 LibriSpeech 数据集，将合成语音与自然语音数据集相结合，使用神经网络训练的端到端自动语音识别模型达到了最新的状态，极大地推动了自动语音识别技术的进步。

Nov, 2018

具有困难负样本的上下文语音识别

该文介绍了一种用于训练上下文机制的新方法，它使用参考文本中的专有名词和音相似的短语作为负面例子，帮助神经模型学习更具有区分度的表示，应用于端到端语音识别模型中可使单词错误率相对提高达 53.1%。

Oct, 2018

使用合成音频改善端到端 ASR 系统中新词的识别

利用 TTS 引擎为训练数据中不常见的词提供合成音频，并使用正则化技术在编码器上应用弹性权重整合，从而提高 RNN-T 对 OOV 词的识别准确率并保持对非 OOV 词的性能，相对 WER 可减少 57％。

Nov, 2020

用于自动语音识别的合成跨口音数据增强

本研究旨在改进口音转换模型，通过加入声学知识，提高模型对不同口音发音的准确性，采用生成数据训练 ASR 系统，实验结果表明，合成带有口音的数据有助于提高 ASR 系统对已见口音的语音理解，但不能推广到未见口音及纯母语模型上。

Mar, 2023

强调未见过的单词：端到端语音识别的新词汇习得

本篇论文提出了一种利用文本到语音系统生成 OOV 单词并通过损失调整和正则化实现语音识别系统的持续学习，并且相比于之前的方法，该方法可以实现更高的召回率和更高的准确性。

Feb, 2023

检索与复制：将 ASR 个性化扩展至大规模目录

针对自动语音识别模型的个性化问题，我们提出了一种 “检索和复制” 机制和训练策略，以改善稀有词汇和特定领域实体的识别精度，实验结果显示与基线相比，我们的方法在词错误率降低 6%，F1 得分提高 3.6%，且在每个声学帧至少提升 20% 推理速度的同时可容纳多达 20K 的大型目录。

Nov, 2023

面向端到端语音识别系统的上下文拼写纠正定制

本研究提出了一种新方法，通过在端到端自动语音识别系统的顶部加入上下文拼写纠错模型，将上下文信息纳入序列到序列拼写纠正模型中，从而提高了识别速度和准确性。

Mar, 2022

使用 Common Voice 数据集建立公平的语音识别系统

本文使用法语 Common Voice 数据集对 wav2vec~2.0 模型的偏见进行计量，通过对多种固定大小的、精心制作的训练集进行微调，证明了演讲者多样性的重要性，并对 Common Voice 语料库进行了彻底分析，发现了应该被这个数据集的用户考虑的重要缺陷。

Jun, 2023

上下文化动态词汇的自动语音识别

通过使用动态词汇表中的短语级别偏置令牌，提出的方法改善了英语和日语数据集上偏置短语在端到端自动语音识别中的性能。

May, 2024