自动语音识别多语言模型综述
这篇论文研究了使用无监督学习的方法,包括语音分割,语音信号到文本的映射和半监督模型来实现自动语音识别,以识别从语音数据中可以学到的极限并理解语音识别的最小要求,目的是为了在开发低资源语言的语音识别系统时优化资源和努力。
Jun, 2021
本文探讨了利用单一声学模型进行多种语言训练,以提高低资源语言的自动语音识别性能,并简化支持多种语言的 ASR 系统的部署。作者在 51 种语言上进行广泛的基准测试和比较,表明与单语言训练相比,多语言训练的 ASR 模型可以提高识别性能,特别是对于低资源语言。与单语言基线相比,联合模型、具有语言输入的联合模型和多头模型的平均 WER 相对减少 20.9%、23%和 28.8%。据我们所知,这是第一次研究超过 50 种语言和超过 16,000 小时声音跨其的多语言 ASR 的大规模研究。
Jul, 2020
本篇论文提出了一种适应性激活网络,用于深度学习 ASR 模型的上层,并将不同的激活函数应用于不同的语言,通过交叉语言学习和多语言学习优化模型,达到了在 IARPA Babel 数据集上超越传统的基于瓶颈特征和从头训练两种方法的效果提升,结合交叉语言学习和多语言学习可以进一步提高多语言语音识别的性能。
May, 2022
多任务、多语种模型在语音识别中的广泛应用,虽然适用于多种语言,但仍存在在性别间表现差异的问题。我们通过系统评估多语种 ASR 系统在性别表现差异上的问题,并发现了明显的性别差异。在 19 种语言的三个数据集上,我们使用两种流行的模型,跨越了七个语系。尽管在声调、说话速度等语音学变量方面没有显著差异,并且模型内部状态的分析显示探针性能与性别差异之间存在负相关。也就是说,在一个语言中更容易区分说话者性别时,模型更倾向于女性说话者。我们的研究结果表明,尽管多任务和多语种方面取得了很大进展,但性别间的差异问题仍未解决。我们提供了有价值的首批关于多语种 ASR 系统性别差距评估的见解。我们将所有代码和相关资料发布在此 https URL
Feb, 2024
本文研究跨语种多人语音合成以及跨语种语音转换,并将其应用于自动语音识别(ASR)系统的数据增强。经过大量实验,我们证明了通过使用仅一个目标语言说话者进行模型训练,可以使用语音合成和语音转换来提高目标语言上的 ASR 系统。我们成功地缩小了 ASR 模型训练时使用合成的语音与使用人类语音之间的差距,并通过我们的数据增强方法,在目标语言中仅使用一个真实说话者就能获得有希望的 ASR 训练结果。
Mar, 2022
本文提出了一种新的数据驱动方法来研究跨语音识别方案中的跨语言声学语音相似性,通过训练深度神经网络来将来自不同声音模型的分布转化为可直接比较的形式,并通过熵分析发现少重叠语音的语言更易于跨语言传输,在融合单语言模型方面取得了相对于单语言识别的 8%的改进。
Jul, 2022
本文介绍了一种基于序列到序列的正常语音识别模型,它适用于 9 种不同的印度语言,并通过训练语言特定的字形集合,将这些语言联合起来训练模型以提高其性能。
Nov, 2017
本文研究了如何在没有任何语言学知识的情况下,以单语、多语和跨语言的方式构建从未见过的语言的电话清单,并对 13 种语言进行了交叉语言分析,发现少数普遍的电话标记可在跨语言中很好地识别,但独特的声音、类似的声音和语调语言仍然是语音清单发现的主要障碍。
Jan, 2022