基于自监督预训练声学模型的多语言零资源语音识别

Oct, 2022

基于自监督预训练声学模型的多语言零资源语音识别

Multilingual Zero Resource Speech Recognition Base on Self-Supervise Pre-Trained Acoustic Models

Haoyu Wang, Wei-Qiang Zhang, Hongbin Suo, Yulong Wan

TL;DR本文研究使用预训练模型来解决无监督语音识别中的音素和单词级别的问题。通过在 IPA 音素转写上微调预训练模型并使用语言模型进行解码，实验结果表明该方法可在某些语言上实现低于 20% 的单词错误率，8 种语言的平均错误率为 33.77%。

Abstract

Labeled audio data is insufficient to build satisfying speech recognition systems for most of the languages in the world. There have been some zero-resource methods trying to perform phoneme or word-level speech

speech recognition zero-resource methods pre-trained models phoneme recognition word-level speech recognition

发现论文，激发创造

简单而有效的零样本跨语言音素识别

本文通过使用发音特征将多种训练语言的音素映射到目标语言中，对多语言预训练的 wav2vec 2.0 模型进行微调，以在没有标记数据的情况下提高其对未见过的语言的识别能力，并在实验中取得了较优效果。

Sep, 2021

自我监督的语言学习：从零语音资源挑战中的经验教训

通过 Zero Resource Speech Challenge 系列自 2015 年以来的六个版本的总结，讨论了自我监督或无监督机器学习的最新进展，并重点介绍了声学单元发现，口语术语发现，离散重构和口语语言建模四项任务的相关度量标准和基准，促进了模型比较和累积性进展。

Oct, 2022

多语音预训练中的语言通用语音表示法用于小资源语音识别

本文提出一种结合多语言训练和自监督学习的方法来提高低资源 ASR 性能，其中采用国际音标（IPA）多语言模型为无标签语音创建帧级伪标签，并以这些伪标签以 Phonetically-informed 的方式引导基于 HuBERT 的语音预训练。实验证明，该方法在所有目标语言上均优于标准 HuBERT，并且在 3 种语言中表现更佳，同时最多能够节省 1.5k 小时（75%）有监督训练数据。

May, 2023

自动音素转写的零样本学习

本研究使用零样本学习的方法解决语言无训练数据情况下语音转写的挑战，将语音音素分解成相应的发音属性，结合定制的声学模型，实现对目标语言中未知音素的识别，评估结果表明，该方法比传统多语言模型的平均音素误差率提高了 7.7%。

Feb, 2020

2021 年零资源语音基准：自监督口语建模的度量和基线

本文介绍了一项新的无监督任务：口语语言建模并给出了 Zero Resource Speech Benchmark 2021，使用 4 个黑盒子零炮弹指标对 4 个语言层面的学习模型的质量进行测量，包括语音、词汇、语法和语义，并基于 CPC、聚类和语言建模的三个无监督系统的复合基线的结果和分析。该语言建模基于聚类学习产生的伪文本，表明了从原始语音中建立口语语言建模的可行性，但这种简单管道与文本为基础的 “顶线” 系统相比，性能较差，需要使用更复杂的端到端模型来探索。

Nov, 2020

面向完全无监督大词汇语音识别的分段框架

本文介绍了一种基于贝叶斯建模框架和语音嵌入向量的无监督语音识别方法，针对多个讲话者的语音数据进行了初步探索，最终通过顶层一致性分割和底层音节边界检测方法得出更好的单人和多人语音聚类结果。

Jun, 2016

基于语音和文本数据的音位结构学习，较少资源近乎无监督的语音识别

利用音频字向量和自编码器实现跨模态的语音识别，演示了即使缺乏训练数据，也可以从少量音频和文本之间的嵌入对齐中进行 ASR 系统的训练。

Oct, 2018

零资源语音挑战赛 2021: 口语语言建模

该研究提出了 Zero Resource Speech Challenge 2021 语音挑战赛，要求参与者直接从音频中学习语言模型，无需任何文本或标签，并提供了一种基于对比性预测编码器、量化器和标准语言模型的管道基线系统。

Apr, 2021

使用预训练模型的自适应多语言语音识别

使用预训练的 wav2vec 2.0 和 MBART50 模型，结合自适应权重技术，显著提高公共数据集上多语言语音识别的准确性，比纯监督学习提高 44%。同时我们还探索了如何通过微调结构以获得最佳模型。

May, 2022

大规模弱监督进行稳健语音识别

研究了训练简单的语音处理系统预测互联网音频大量转录的能力，在 680,000 小时的多语言和多任务监督的基础上，生成的模型具有很好的泛化能力，并且通常与之前的完全监督结果竞争，但在零次传输设置下不需要进行任何微调，与人类相比，模型的准确性和稳健性接近，并且同时发布了模型和推理代码，作为进一步稳健语音处理工作的基础。

Dec, 2022