零资源语音挑战赛 2017
通过 Zero Resource Speech Challenge 比赛,发现无标签的原始音频信号中的语音表示,主要包括发现低比特率的子词表示,以优化语音合成的质量;和发现未经分割的原始语音中的类似单词的单位。
Oct, 2020
该研究提出了 Zero Resource Speech Challenge 2021 语音挑战赛,要求参与者直接从音频中学习语言模型,无需任何文本或标签,并提供了一种基于对比性预测编码器、量化器和标准语言模型的管道基线系统。
Apr, 2021
通过 Zero Resource Speech Challenge 系列自 2015 年以来的六个版本的总结,讨论了自我监督或无监督机器学习的最新进展,并重点介绍了声学单元发现,口语术语发现,离散重构和口语语言建模四项任务的相关度量标准和基准,促进了模型比较和累积性进展。
Oct, 2022
本文介绍了 2019 年零资源语音挑战赛,该赛事要求在没有文本或音标的情况下构建语音合成器,提供了一个目标语音的原始音频,但没有文本或标签。参赛者必须以无监督的方式发现子单元,并以最佳方式将其与声音记录对齐,以便从新的演讲者中综合出类似目标说话人的声音来生成新的话语。本文还讨论了比赛的 19 个参赛系统和主要结果。
Apr, 2019
本文介绍了在 2021 年第二届无资源语音挑战赛中引入的视觉对齐语言建模轨迹,讨论了参与规则,包括我们针对此轨迹开发的两个基准系统。
Jul, 2021
本文介绍了一项新的无监督任务:口语语言建模并给出了 Zero Resource Speech Benchmark 2021,使用 4 个黑盒子零炮弹指标对 4 个语言层面的学习模型的质量进行测量,包括语音、词汇、语法和语义,并基于 CPC、聚类和语言建模的三个无监督系统的复合基线的结果和分析。该语言建模基于聚类学习产生的伪文本,表明了从原始语音中建立口语语言建模的可行性,但这种简单管道与文本为基础的 “顶线” 系统相比,性能较差,需要使用更复杂的端到端模型来探索。
Nov, 2020
本文研究使用预训练模型来解决无监督语音识别中的音素和单词级别的问题。通过在 IPA 音素转写上微调预训练模型并使用语言模型进行解码,实验结果表明该方法可在某些语言上实现低于 20% 的单词错误率,8 种语言的平均错误率为 33.77%。
Oct, 2022
我们介绍了一个新的零资源代码切换语音基准,旨在直接评估自我监督语音编码器的代码切换能力。我们展示了一个以离散单元上的语言建模为基线系统,以演示如何以零资源的方式评估语音编码器的代码切换能力。我们的实验包括多种知名的语音编码器,包括 Wav2vec 2.0、HuBERT、XLSR 等。我们研究了预训练语言和模型大小对基准性能的影响。值得注意的是,尽管我们的结果表明,在代码切换场景中,具有多语言预训练的语音编码器(如 XLSR)优于单语变体(Wav2vec 2.0、HuBERT),但它们的代码切换语言能力仍有很大的改进空间。
Oct, 2023
本文介绍了一种基于贝叶斯建模框架和语音嵌入向量的无监督语音识别方法,针对多个讲话者的语音数据进行了初步探索,最终通过顶层一致性分割和底层音节边界检测方法得出更好的单人和多人语音聚类结果。
Jun, 2016
这篇论文介绍了一个收集自非洲 Bantu C25 语族中的一种语言 Mboshi 的语音语料库,在几乎零的资源条件下构建了该语料库,并利用其中的数据完成了口语术语发现。该论文讨论了如何收集,清理和处理数据,并将该数据集提供给社区进行可重现的计算语言文献研究和评估。
Oct, 2017