2021 年零资源语音基准：自监督口语建模的度量和基线

Nov, 2020

2021 年零资源语音基准：自监督口语建模的度量和基线

The Zero Resource Speech Benchmark 2021: Metrics and baselines for unsupervised spoken language modeling

Tu Anh Nguyen, Maureen de Seyssel, Patricia Rozé, Morgane Rivière, Evgeny Kharitonov...

TL;DR本文介绍了一项新的无监督任务：口语语言建模并给出了 Zero Resource Speech Benchmark 2021，使用 4 个黑盒子零炮弹指标对 4 个语言层面的学习模型的质量进行测量，包括语音、词汇、语法和语义，并基于 CPC、聚类和语言建模的三个无监督系统的复合基线的结果和分析。该语言建模基于聚类学习产生的伪文本，表明了从原始语音中建立口语语言建模的可行性，但这种简单管道与文本为基础的 “顶线” 系统相比，性能较差，需要使用更复杂的端到端模型来探索。

Abstract

We introduce a new unsupervised task, spoken language modeling: the learning of linguistic representations from raw audio signals without any labels, along with the Zero Resource Speech Benchmark 2021: a suite of

spoken language modeling unsupervised learning linguistic representation zero-resource benchmark audio signals

发现论文，激发创造

零资源语音挑战赛 2021: 口语语言建模

该研究提出了 Zero Resource Speech Challenge 2021 语音挑战赛，要求参与者直接从音频中学习语言模型，无需任何文本或标签，并提供了一种基于对比性预测编码器、量化器和标准语言模型的管道基线系统。

Apr, 2021

自我监督的语言学习：从零语音资源挑战中的经验教训

通过 Zero Resource Speech Challenge 系列自 2015 年以来的六个版本的总结，讨论了自我监督或无监督机器学习的最新进展，并重点介绍了声学单元发现，口语术语发现，离散重构和口语语言建模四项任务的相关度量标准和基准，促进了模型比较和累积性进展。

Oct, 2022

零资源语音挑战 2020: 发现离散的子词和单词单元

通过 Zero Resource Speech Challenge 比赛，发现无标签的原始音频信号中的语音表示，主要包括发现低比特率的子词表示，以优化语音合成的质量；和发现未经分割的原始语音中的类似单词的单位。

Oct, 2020

零资源混合语言音频基准测试：使用语音句对进行多种口语语言测试

我们介绍了一个新的零资源代码切换语音基准，旨在直接评估自我监督语音编码器的代码切换能力。我们展示了一个以离散单元上的语言建模为基线系统，以演示如何以零资源的方式评估语音编码器的代码切换能力。我们的实验包括多种知名的语音编码器，包括 Wav2vec 2.0、HuBERT、XLSR 等。我们研究了预训练语言和模型大小对基准性能的影响。值得注意的是，尽管我们的结果表明，在代码切换场景中，具有多语言预训练的语音编码器（如 XLSR）优于单语变体（Wav2vec 2.0、HuBERT），但它们的代码切换语言能力仍有很大的改进空间。

Oct, 2023

基于自监督预训练声学模型的多语言零资源语音识别

本文研究使用预训练模型来解决无监督语音识别中的音素和单词级别的问题。通过在 IPA 音素转写上微调预训练模型并使用语言模型进行解码，实验结果表明该方法可在某些语言上实现低于 20% 的单词错误率，8 种语言的平均错误率为 33.77%。

Oct, 2022

面向完全无监督大词汇语音识别的分段框架

本文介绍了一种基于贝叶斯建模框架和语音嵌入向量的无监督语音识别方法，针对多个讲话者的语音数据进行了初步探索，最终通过顶层一致性分割和底层音节边界检测方法得出更好的单人和多人语音聚类结果。

Jun, 2016

零资源语音挑战赛 2017

本文介绍了一项新挑战，旨在从原始语音中发现子词和单词单位。该挑战旨在构建跨语言的系统，并适应新的讲话者，介绍了挑战的设计特点和评价指标，并讨论了十七个模型的结果。

Dec, 2017

零资源语音挑战赛 2019: 无 T 的 TTS

本文介绍了 2019 年零资源语音挑战赛，该赛事要求在没有文本或音标的情况下构建语音合成器，提供了一个目标语音的原始音频，但没有文本或标签。参赛者必须以无监督的方式发现子单元，并以最佳方式将其与声音记录对齐，以便从新的演讲者中综合出类似目标说话人的声音来生成新的话语。本文还讨论了比赛的 19 个参赛系统和主要结果。

Apr, 2019

低资源多语言和零样本多说者 TTS

在这项工作中，我们将零样本语音克隆和多语言低资源语音合成的任务结合在一起。通过使用语言不可知的元学习（LAML）程序和对 TTS 编码器的修改，我们证明了一个系统可以学习在只有 5 分钟的训练数据下说一个新语言，同时保留了推断新学习语言中甚至看不到的说话者声音的能力，并提供了开源的代码和训练模型。

Oct, 2022

BabySLM：面向语言习得友好的自监督口语模型基准

本文介绍了一种适用于语言习得的基准测试方法，该方法可以在词汇和句法水平上测试口语识别模型的能力，旨在进一步深入理解婴儿学习语言的过程以及使自监督学习技术能够充分发挥潜力，同时还需要克服文本和语音之间以及清晰语音和野外语音之间的差距。

Jun, 2023