基于语音和文本数据的音位结构学习，较少资源近乎无监督的语音识别

Oct, 2018

基于语音和文本数据的音位结构学习，较少资源近乎无监督的语音识别

Almost-unsupervised Speech Recognition with Close-to-zero Resource Based on Phonetic Structures Learned from Very Small Unpaired Speech and Text Data

PDF

Yi-Chen Chen, Chia-Hao Shen, Sung-Feng Huang, Hung-yi Lee, Lin-shan Lee

TL;DR利用音频字向量和自编码器实现跨模态的语音识别，演示了即使缺乏训练数据，也可以从少量音频和文本之间的嵌入对齐中进行 ASR 系统的训练。

Abstract

Producing a large amount of annotated speech data for training asr systems remains difficult for more than 95% of languages all over the world which are low-resourced. However, we note human babies start to learn the language by the sounds of a small number of exemplar words without he

asr systems low-resourced languages audio word2vec autoencoder alignment

发现论文，激发创造

利用未对齐的语音和文本训练的非监督自动语音识别技术

本文研究无监督语音识别方法，提出由语音向量表示、语义嵌入和无监督转换的框架，这一框架可用于缺乏音频文本对齐数据和受监督方法无法应用的低资源语言。

Mar, 2018

基于自监督预训练声学模型的多语言零资源语音识别

本文研究使用预训练模型来解决无监督语音识别中的音素和单词级别的问题。通过在 IPA 音素转写上微调预训练模型并使用语言模型进行解码，实验结果表明该方法可在某些语言上实现低于 20% 的单词错误率，8 种语言的平均错误率为 33.77%。

Oct, 2022

几乎无监督的文本转语音和自动语音识别

本文提出了一种基于 Transformer 模型的几乎无监督学习方法，结合 TTS 和 ASR 的双重特性，通过少量的配对数据和额外的未配对数据，实现了对语音和文本领域的语言建模，并在 LJSpeech 数据集上达到了 99.84% 的可懂单词率和 2.68 MOS 的 TTS 表现，以及 11.7% 的 ASR 错误率。

May, 2019

朝向无需发音模型的无监督语音识别

本研究采用不依赖音素词典的新方法，通过仅包含高频英语词汇的语料库，在没有配对语音和文字数据的情况下，实现了近 20% 的词错误率，并证明了基于联合语音到语音和文本到文本的标记填充技术，使得无监督语音识别系统的性能超过了直接分布匹配方法。

Jun, 2024

朝向端到端无监督语音识别

介绍一种改进的 wav2vec-U 2.0 方法，通过更好的结构来消除语音处理的需要，并引入自监督目标来实现更好的准确度，从而在不同语言下提高了非监督性识别结果。

Apr, 2022

基于发音学特征的低资源文本转语音语言无关元学习

通过使用来自发音矢量而非语音学单元的嵌入来学习跨语言的音素表示，结合语言无关的元学习，使得我们只需要 30 分钟的语音数据即可在以前从未见过的语言中，通过微调高质量的文本转语音模型，并由以前未见过的发言者发音。

Mar, 2022

无监督词语分割与词汇发现：基于声学词嵌入的方法

提供了一种基于无监督贝叶斯模型的语音分割以及聚类算法，通过将有潜力的单词段嵌入固定维度的声学向量空间，并在此空间创建全词声学模型以及同时执行分割来实现输入语音基于单词类型的完整无人监督标记，模型在连接数字识别任务中取得约 20% 的错误率，优于基于 HMM 的系统。

Mar, 2016

口语词汇的音义嵌入及其在口语内容检索中的应用

本文介绍了一种两阶段框架，用于考虑口语单词的上下文执行音素语义嵌入，第一阶段执行音素嵌入，第二阶段执行语义嵌入，我们进一步提出了通过文本嵌入并行评估在第二阶段获得的音频嵌入的音素和语义性质。

Jul, 2018

无监督语音识别

本文介绍了 wav2vec-U 这种方法，可以通过无监督学习的方式训练语音识别模型，许多语种如 Kyrgyz、Swahili 和 Tatar 等成为了可能。

May, 2021

通过对音频嵌入进行对抗学习映射关系实现完全无监督的音素识别

本文提出一种利用生成对抗网络进行无监督音素识别的方法，并取得了 36% 的准确率。

Apr, 2018