- 具有上下文短语预测网络的情境化端到端语音识别
本研究介绍了一种基于注意力机制的深度偏置方法中的语境短语预测网络,该网络使用上下文嵌入预测话语中的语境短语并计算偏置损失,以辅助训练文本化模型,改善了各种端到端语音识别模型的单词错误率(WER)。
- 英语口音的爱丁堡国际语料库:迈向英语 ASR 的民主化
该论文介绍了一个新的英语语音数据集 Edinburgh International Accents of English Corpus (EdAcc),用于更好地代表各种英语语音的多样性,经使用 680,000 小时的转录数据进行训练后,最 - 通过扩散 GAN 提升无监督语音识别
使用扩散 - GAN 提高无监督自动语音识别的敌对训练方法。将各种强度的实例噪声注入生成器的输出和来自预训练音素语言模型的未标记参考文本,使用时间步骤相关的判别器将它们分开,并将梯度反向传播更新生成器,实验表明该增强策略能有效地提高语音识别 - 一种基于审慎的联合声音和文本解码器
提出一种新的两阶段端到端的语音识别模型,通过训练配对数据和未配对文本数据的组合来提高 ASR 性能,称为 Deliberation-JATD,它结合了 Deliberation 的拼写校正能力和 JATD 的未配对文本数据使用,实现了在多个 - 无监督的跨语言语音识别误率标准化
提出了一种基于拼写和分词的自动化 WER 规范系统,通过在四种语言上的实验,平均 WER 降低了 13.28%。同时,基于该系统的标注数据的人工实验结果表明,该文中所提出的 WER 规范方法与 ASR 输出的感知质量高度一致。
- 评估自动语音识别在增量式场景中的性能
本文通过系统评估六种语音识别器的性能并提出了两种方法用于流式语音识别,并提出了新的指标用于评估增量识别。研究发现,本地识别器通常更快,需要更新的次数较少,并且 Meta 的 Wav2Vec 模型是最快的,Mozilla 的 DeepSpee - 利用支持性文本数据启动有限转录的自动语音识别系统开发
本文研究发现,使用不同数量的文本数据进行训练和 fine-tune transformer model 可以降低自动语音识别(ASR)的 word error rate,其中 lexicon 对于改善 ASR 性能没有多大作用,而使用必要量 - 使用低比特量化来实现高效语音表示学习
我们对语音表示学习模型应用最近的量化技术,并在 SUPERB 基准测试上进行评估。与 DistillHuBERT 相比,在 ASR 任务上,2 比特配置的存储更小,字错率更低,估计的运行时间更高效。
- 基于因式分解神经传输器的长篇语音识别
提出一种名为 LongFNT 的架构,通过融合句子级别和标记级别的长时序特征和预训练的 RoBERTa 上下文编码器,扩展了长段音频输入的自动语音识别模型,显著降低了字错率。
- 大规模自监督学习的语音分离
本文探讨了如何扩大自监督学习(SSL)的规模,以更好地应用于语音分离问题。通过使用大量的预训练数据进行 fine-tuning,提出的模型在节省了 38% 计算成本的同时,相比于监督学习方法和基于 WavLM 的模型,在一些测试数据集上的单 - 语音识别自适应多语料语言模型训练
本文提出了一种新颖的自适应多语料库训练算法,该算法可以动态学习和调整每个语料库的采样概率,相较于静态采样策略可使得领域内和领域外的适应任务分别取得相对 7% 和 9% 的字词错误率降低。
- 流式语音识别的 Transformer 修正器的联合音频 / 文本训练
本研究提供了一种联合音频 / 文本训练方法,以降低配对音频 - 文本数据的代价,并减少了模型参数和延迟,同时在 Librispeech 数据库和内部数据库上显着提高了单词错误率的 Transformer Rescorer。
- 引导式对比自监督预训练在自动语音识别中的应用
本研究提出了一种名为 GCPC 的改进型 CPC 方法,可以注入先验知识并在 Tacotron2 上进行预训练,实验表明,相比于 CPC,该方法在德语,法语和英语等自动语音识别任务中均表现出更好的识别效果。
- 使用 BERTScore 评估 ASR 模型在失语言上的质量
该研究调查了使用 BERTScore 作为语音识别模型质量评估的度量标准。BERTScore 与 WER 相比,在计算错误类型和评估方面更符合人工评定的标准。因此,BERTScore 可以在实际应用中辅助 WER,特别是在无障碍应用中,即使 - 语音识别评估中话语的相关结构建模
本文提出图形套索方法对语音数据进行建模,从而基于无相关语音数据块进行区块自助法,解决了统计测试中存在的主观性问题,并在 LibriSpeech 数据集上验证了所提出方法的有效性。
- 探究面向跨语言低资源 ASR 评估的数据分割策略
本研究探讨了针对训练资源匮乏的五种语言十种不同数据划分方法的模型性能,揭示不同说话者数据选取对模型性能的影响,表明在数据稀缺情况下采用基于随机划分的数据分割可以产生更可靠和可推广的结果。
- Wav2Vec-Aug: 有限数据下的改进自监督训练
本文探讨了如何利用数据增强技术来解决语言和领域中数据不足的问题,从而在限制条件下将自监督学习应用于语音表示方面,并在 Wav2Vec 2.0 预训练模型的每个组成部分上提出了改进方法,在 Librispeech 的测试任务中比 Wav2Ve - 通过 Token 熵变量减少的方法提升语音识别
该论文提出了一种名为 TEVR 的语音识别模型,旨在减少与语言模型相关的令牌熵的差异。我们使用了 9 亿个参数训练了德语 ASR 模型,并展示了在 CommonVoice 德语数据集上,TEVR 获得了非常有竞争力的 3.64% 词错误率, - 在 Switchboard 基准测试上朝向零 Oracle 词错误率
该研究探讨了在自动语音识别(ASR)研究中备受关注的‘Switchboard benchmark’数据集的一些实用考虑,并提出了修正参考转录和改变评分方法的更详细和可重复的方案。通过这种方案,甚至商业 ASR 系统的 WER 得分也可以低于 - 带有师生学习的极速语音分离模型
该论文提出了一种使用教师 - 学生学习方法,采用逐层教学和目标偏移机制的超快速语音分离 Transformer 模型,相较于从头开始训练的小型 Transformer 模型,在 LibriCSS 数据集上,能够将语音分离的单词错误率(WER