自监督语音模型在北萨米方言识别中的应用
该研究致力于解决 S'ami 语言面临的数字边缘化问题,通过采用最新的自然语言处理技术,训练基于超低资源语言的语言模型,并通过多语言训练实验,发现在顺序多语言训练情景下,解码器模型的表现优于联合多语言训练,且高语义重叠的多语言训练比从头训练要更好。
May, 2024
本文介绍了自然语言处理中自动语音识别的基准线模型在 Bokmål 和 Nynorsk 上的表现,其中最优模型使得 Norwegian Parliamentary Speech Corpus 的词错误率降至 7.6%,并探讨了提高挪威语 ASR 模型的挑战和解决方案。
Jul, 2023
研究使用声学分类模型和文本分类器来识别爱尔兰方言,以便将其纳入语音识别管道以增强精度。ECAPA-TDNN 是最佳表现的模型之一,可将其输出与文本模型的输出相结合以进一步提高准确性。作者发现该模型在鉴别阿尔斯特方言方面表现最佳,但在区分康纳赫特方言和蒙斯特方言方面具有挑战性。
Jul, 2023
本研究旨在通过对 SAMU-XLSR 模型进行领域特定语义丰富的专业化,探索这种模型在低资源语言移植中的使用效益,并研究该模型的跨领域能力,以更好地实现复杂口语理解任务中的语义提取。
Jul, 2023
台語的使用和地位因台灣向普通話的語言轉變而下降。這是目前自然語言處理和語音研究中它成為低資源語言的部分原因。為了確保台語不落後於語音處理技術的最新發展,我們向 ML-SUPERB 的隱藏集合中貢獻了一個 1.5 小時的台語資料集。在我們的資料集上評估 ML-SUPERB 的自我監督學習(SSL)語音表示套件,發現模型大小並不一致地決定性能。實際上,某些較小的模型表現更好。此外,預訓練數據和目標語言之間的語言對齊起關鍵作用。
Dec, 2023
本研究通过对自监督语音模型 (S3Ms) 的单词级别语言属性进行细致分析,发现 S3M 表示对于音韵相似性的相似度比语义相似性更高,并提出了对广泛使用的目标分类数据集进行语义能力评估的疑问。实验证明,即使只使用单词自身的信息,也能超越基于 S3M 的模型,在一些数据集上获得更高的性能,从而证实了研究结果,并暗示高分并不一定意味着语义内容的存在。
Jun, 2024
提出了 SAMU-XLSR 模型,基于语义对齐的多模态跨语言话语级别语音表示学习框架。通过将 XLS-R 模型和 LaBSE 模型组合,SAMU-XLSR 模型可以提取高质量的多模态多语言话语语音特征,并可以实现跨语音和跨文字之间的相互转换。
May, 2022
通过利用自我监督学习模型,本研究自动识别意大利不同语言方言的语音样本的地理来源,分析区域语言之间的差异和相似性,揭示这些多样而又密切相关方言之间的关系并对其演化和区域发展进行理解。通过评估多种监督对比学习目标作为预训练和额外的微调目标,实验证明预训练的自我监督模型能够有效地识别语音录制的地区,并结合对比学习在微调中创造出能够明确分开各个区域语言方言的嵌入,展示了结合自我监督预训练和对比学习对于这一任务的价值。
Jun, 2024