自监督语音模型在北萨米方言识别中的应用

May, 2023

自监督语音模型在北萨米方言识别中的应用

North Sámi Dialect Identification with Self-supervised Speech Models

Sofoklis Kakouros, Katri Hiovain-Asikainen

TL;DR本研究通过特征提取和自监督表示法，成功区分处理了北萨米语的四个方言变体，并发现了主流语言对方言的影响。

Abstract

The North S\'{a}mi (NS) language encapsulates four primary dialectal variants that are related but that also have differences in their phonology, morphology, and vocabulary. The unique geopolitical location of NS speakers means that in many cases they are bilingual in S\'{a}mi as well as in the dominant state language: Norwegian, Swedish, or Finnish. This en

north sámi dialects acoustic features self-supervised representations language influence

发现论文，激发创造

朝着更具包容性的人工智能：针对萨米语的大型语言模型训练的进展与展望

该研究致力于解决 S'ami 语言面临的数字边缘化问题，通过采用最新的自然语言处理技术，训练基于超低资源语言的语言模型，并通过多语言训练实验，发现在顺序多语言训练情景下，解码器模型的表现优于联合多语言训练，且高语义重叠的多语言训练比从头训练要更好。

May, 2024

提升挪威语自动语音识别

本文介绍了自然语言处理中自动语音识别的基准线模型在 Bokmål 和 Nynorsk 上的表现，其中最优模型使得 Norwegian Parliamentary Speech Corpus 的词错误率降至 7.6％，并探讨了提高挪威语 ASR 模型的挑战和解决方案。

Jul, 2023

爱尔兰口音识别研究

研究使用声学分类模型和文本分类器来识别爱尔兰方言，以便将其纳入语音识别管道以增强精度。ECAPA-TDNN 是最佳表现的模型之一，可将其输出与文本模型的输出相结合以进一步提高准确性。作者发现该模型在鉴别阿尔斯特方言方面表现最佳，但在区分康纳赫特方言和蒙斯特方言方面具有挑战性。

Jul, 2023

语音表征的语义丰富化

本研究旨在通过对 SAMU-XLSR 模型进行领域特定语义丰富的专业化，探索这种模型在低资源语言移植中的使用效益，并研究该模型的跨领域能力，以更好地实现复杂口语理解任务中的语义提取。

Jul, 2023

芬兰方言识别：音频和文本的影响

本篇论文介绍一种自动检测说话者方言的方法，结合录音文本与音频录音数据，对 23 种不同的芬兰方言进行分析，结果表明，该方法的准确度可达 85%。

Nov, 2021

评估基于自我监督的语音模型在一个台湾福建语语料库上的表现

台語的使用和地位因台灣向普通話的語言轉變而下降。這是目前自然語言處理和語音研究中它成為低資源語言的部分原因。為了確保台語不落後於語音處理技術的最新發展，我們向 ML-SUPERB 的隱藏集合中貢獻了一個 1.5 小時的台語資料集。在我們的資料集上評估 ML-SUPERB 的自我監督學習（SSL）語音表示套件，發現模型大小並不一致地決定性能。實際上，某些較小的模型表現更好。此外，預訓練數據和目標語言之間的語言對齊起關鍵作用。

Dec, 2023

自我监督的语音表征更加语音学而非语义学

本研究通过对自监督语音模型 (S3Ms) 的单词级别语言属性进行细致分析，发现 S3M 表示对于音韵相似性的相似度比语义相似性更高，并提出了对广泛使用的目标分类数据集进行语义能力评估的疑问。实验证明，即使只使用单词自身的信息，也能超越基于 S3M 的模型，在一些数据集上获得更高的性能，从而证实了研究结果，并暗示高分并不一定意味着语义内容的存在。

Jun, 2024

某一语言方言的自然语言处理：一项调查

该论文调查了自然语言处理中方言的重要性，描述了不同方言数据集和方法，对方言的研究超过了仅仅方言分类的工作，对构建具有公平性的语言技术有重要意义。

Jan, 2024

SAMU-XLSR：语义对齐的多模态话语级跨语言语音表示

提出了 SAMU-XLSR 模型，基于语义对齐的多模态跨语言话语级别语音表示学习框架。通过将 XLS-R 模型和 LaBSE 模型组合，SAMU-XLSR 模型可以提取高质量的多模态多语言话语语音特征，并可以实现跨语音和跨文字之间的相互转换。

May, 2022

意大利语言变体的语音分析

通过利用自我监督学习模型，本研究自动识别意大利不同语言方言的语音样本的地理来源，分析区域语言之间的差异和相似性，揭示这些多样而又密切相关方言之间的关系并对其演化和区域发展进行理解。通过评估多种监督对比学习目标作为预训练和额外的微调目标，实验证明预训练的自我监督模型能够有效地识别语音录制的地区，并结合对比学习在微调中创造出能够明确分开各个区域语言方言的嵌入，展示了结合自我监督预训练和对比学习对于这一任务的价值。

Jun, 2024