探索日语自监督语音表征模型的语言依赖性
本文研究了在低资源环境下建立自动语音识别(ASR)系统的方法,发现自我监督学习预训练数据的相似性和数量对系统性能有显著影响,希望为语音领域改进 SSL-based 预训练模型的泛化性能提供指导。
Mar, 2022
通过对英文自监督学习模型在跨语言环境中提取的特征进行研究,我们提出了一种新的度量标准来预测特征表示的质量。使用自动语音识别作为下游任务,我们分析了模型大小、训练目标和模型架构对一组拓扑多样的语料库中模型作为特征提取器的性能的影响。我们开发了一种新的度量标准,即 Phonetic-Syntax Ratio (PSR),通过深度广义典型相关分析来衡量提取表示中的音标和合成信息。结果表明,wav2vec2.0 目标中的对比损失有助于更有效的跨语言特征提取。PSR 分数与自动语音识别性能呈正相关,表明单语自监督学习模型提取的音标信息可以用于跨语言设置中的下游任务。提出的度量标准是表示质量的有效指标,可用于模型选择。
Nov, 2023
通过使用自我监督学习 (SSHR) 的分层表示,我们提出了一种新方法来优化多语种自动语音识别 (ASR)。我们分析了自我监督学习模型的不同层次,发现了与语言和内容相关的信息,从相关的中间层中提取与语言相关的帧,并通过自注意机制引导针对特定内容的提取。此外,我们使用提出的 Cross-CTC 在最后几层中引导模型获取更多与内容相关的信息。通过在 Common Voice 和 ML-SUPERB 这两个多语种数据集上的评估,实验结果表明我们的方法在我们所知的范围内达到了最先进的性能。
Sep, 2023
台語的使用和地位因台灣向普通話的語言轉變而下降。這是目前自然語言處理和語音研究中它成為低資源語言的部分原因。為了確保台語不落後於語音處理技術的最新發展,我們向 ML-SUPERB 的隱藏集合中貢獻了一個 1.5 小時的台語資料集。在我們的資料集上評估 ML-SUPERB 的自我監督學習(SSL)語音表示套件,發現模型大小並不一致地決定性能。實際上,某些較小的模型表現更好。此外,預訓練數據和目標語言之間的語言對齊起關鍵作用。
Dec, 2023
应用自监督方法于语音表示学习的研究已引起广泛关注,然而,目前的进展主要集中在只考虑英语的单语模型上。我们在 ASRU 2023 ML-SUPERB 挑战赛的新语言轨道上提交了一份研究报告,其中介绍了一个针对 Quechua 语(一种南美洲土著语言)的 ASR 语料库。我们评估了大规模的自监督学习模型在 Quechua 语以及其他 6 种土著语言(如 Guarani 和 Bribri)的低资源 ASR 上的效果,结果显示最先进的自监督学习模型表现出了惊人的性能,展示了大规模模型在现实数据上的潜在泛化能力。
Oct, 2023
该研究探索了自监督学习模型在捕捉语音和说话者表示方面的能力,并发现具体层次的语音模型更专注于捕捉语言信息,而说话者模型则更注重对说话者表示的提炼。
Jan, 2024
本研究探讨了自监督学习技术对于语音表示及其所携带的语言信息的捕捉能力,并通过 SpeechGLUE 基准测试说明了此技术在语言理解任务方面表现不如基于文本的自监督学习,但优于基准模型,展示了它从无标签的语音数据中能够获取特定数量的语言能力。
Jun, 2023
我们提出了通过将 LoRA 整合到已有的自我监督模型中,实现新语言的自适应,并通过数据结合和重新聚类等保护策略来保持对已有和新语言的性能保持完整,实验证明该方法使 mHuBERT 应用于新语言(普通话)的 MOS 值增加 1.6,WER 相对值减少了 61.72%。
Jun, 2024
ML-SUPERB~2.0 是一个新的基准系统,用于评估预训练的自监督学习和监督语音模型在下游模型、微调设置和高效模型适应方法方面的性能,它发现了 ML-SUPERB 设置的性能改进,但性能取决于下游模型设计,并且在语言和数据集之间存在大的性能差异,表明需要更有针对性的方法来改进多语言 ASR 性能。
Jun, 2024