通过跨语言自动语音识别发现语音库存

Jan, 2022

通过跨语言自动语音识别发现语音库存

Discovering Phonetic Inventories with Crosslingual Automatic Speech Recognition

Piotr Żelasko, Siyuan Feng, Laureano Moro Velazquez, Ali Abavisani, Saurabhchand Bhati...

TL;DR本文研究了如何在没有任何语言学知识的情况下，以单语、多语和跨语言的方式构建从未见过的语言的电话清单，并对13种语言进行了交叉语言分析，发现少数普遍的电话标记可在跨语言中很好地识别，但独特的声音、类似的声音和语调语言仍然是语音清单发现的主要障碍。

Abstract

The high cost of data acquisition makes automatic speech recognition (ASR) model training problematic for most existing languages, including languages that do not even have a written script, or for which the phone inventories remain unknown. Past works explored multilingual training, t

发现论文，激发创造

自动音素转写的零样本学习

本研究使用零样本学习的方法解决语言无训练数据情况下语音转写的挑战，将语音音素分解成相应的发音属性，结合定制的声学模型，实现对目标语言中未知音素的识别，评估结果表明，该方法比传统多语言模型的平均音素误差率提高了7.7%。

Feb, 2020

多语言异音字系统的通用手机识别

本研究中，通过建立联合模型来处理语言独立性的音位和语言相关性的音素的分布，改进了语音识别性能，同时可以建立一种(几乎)通用的音位识别器，当与PHOIBLE大型手动编辑的音位库相结合时，可定制为2,000个语言相关的识别器，此识别器可在低资源状况下实现语音识别。

Feb, 2020

大规模多语言自动语音识别：50种语言，1个模型，10亿参数

本文探讨了利用单一声学模型进行多种语言训练，以提高低资源语言的自动语音识别性能，并简化支持多种语言的ASR系统的部署。作者在51种语言上进行广泛的基准测试和比较，表明与单语言训练相比，多语言训练的ASR模型可以提高识别性能，特别是对于低资源语言。与单语言基线相比，联合模型、具有语言输入的联合模型和多头模型的平均WER相对减少20.9％、23％和28.8％。据我们所知，这是第一次研究超过50种语言和超过16,000小时声音跨其的多语言ASR的大规模研究。

Jul, 2020

简单而有效的零样本跨语言音素识别

本文通过使用发音特征将多种训练语言的音素映射到目标语言中，对多语言预训练的 wav2vec 2.0 模型进行微调，以在没有标记数据的情况下提高其对未见过的语言的识别能力，并在实验中取得了较优效果。

Sep, 2021

自动语音识别多语言模型综述

该论文研究了基于跨语言转移的多语种自动语音识别模型的最新进展和最佳实践，并探讨了未来的研究方向和建议。

Feb, 2022

跨语言声学-语音相似度对多语种语音识别的影响研究

本文提出了一种新的数据驱动方法来研究跨语音识别方案中的跨语言声学语音相似性，通过训练深度神经网络来将来自不同声音模型的分布转化为可直接比较的形式，并通过熵分析发现少重叠语音的语言更易于跨语言传输，在融合单语言模型方面取得了相对于单语言识别的8％的改进。

Jul, 2022

Allophant：带有发音属性的跨语言音素识别

本文提出了Allophant，这是一种多语言音素识别器。它仅需要音素清单即可进行跨语言转移，从而实现低资源识别。该架构将组合音素嵌入方法与个别受监督的语音属性分类器相结合在一个多任务架构中。我们还介绍了Allophoible，它是PHOIBLE 数据库的一个扩展。

Jun, 2023

通过语音转录生成特征向量的跨语言数据格式

通过提出新的方法，动态地为所有可以表示为CLTS标准版本中的声音创建二进制特征向量，我们解决了缺失数据的问题，可以直接访问非常庞大的多语言词表集合，并证明该特征系统不仅可以提供比较语音相似性的简便手段，还可以在未来的跨语言机器学习应用中发挥其潜力。

May, 2024

Whistle: 数据高效的多语言和跨语音识别模型：通过弱语音监督方法实现

本文研究了预训练与弱语音监督的方法，提出了一种名为Whistle的数据有效MCL-ASR方法，通过国际音标转写，构建了一个基于CommonVoice数据集的实验平台，实验证明基于音素的模型在多语言语音识别中具有更好的性能和高数据效率。

Jun, 2024

使用音素表示进行低资源语言的零射击跨语言命名实体识别

提出一种基于国际音标的音素表示的零样本跨语言命名实体识别方法，可有效提高低资源语言的性能，并在非拉丁文脚本上表现出很强的鲁棒性。

Jun, 2024