无监督跨语言表示学习用于语音识别
本文介绍了 XLS-R,这是一个基于 Wav2vec 2.0 的用于跨语言语音表示学习的大规模模型,其在 128 种语言的近半百万小时的公开语音音频数据上进行训练,并取得了广泛的评估表现。我们的研究致力于提升语音处理任务在更多的世界语言上的表现。
Nov, 2021
本文介绍了一种基于 DistilXLSR 的语音表征模型,通过随机打乱现有语音的音素,降低语言信息,在只使用英语数据的情况下,压缩跨语言模型并设计一种层级初始化方法,成功减少 50% 参数并在 15 种低资源语言和 2 种教师模型的实验中保持了跨语言表征能力,证明了其在各种语言 / 教师模型中具有普适性,有潜力提高英语预训练模型的跨语言性能。
Jun, 2023
使用预训练 Wav2Vec、Hubert 和 XLSR 模型的声学特征训练自动语音识别系统,对患有言语障碍的英语、西班牙语和意大利语使用者进行识别,结果表明相较于 Fbank 特征,使用 XLSR 特征可将识别错误率分别降低 6.8%、22.0% 和 7.0%。
Apr, 2022
本研究提出了 CLSRIL-23,一种基于自监督学习的音频预训练模型,可以在 23 种印度语言的原始音频中学习跨语言的语音表示。在预训练期间,将语言特定的语音表示分别比较以比较单语和多语预训练的效果。我们的实验证明,多语预训练优于单语预训练,能够学习对语言进行编码并在下游任务中达到更好的性能。
Jul, 2021
本文研究了口语语言识别的不同预训练方法,并基于我们在东方语言识别挑战赛 2021 中的提交,参与了有约束和无约束的语言识别的两个任务。我们主要使用 Conformer-based 编码器 - 解码器模型和 XLSR-53 wav2vec2.0 模型作为端到端的系统,这些模型都包含有前置的预训练网络。
May, 2022
通过在 100 种语言上使用超过 2TB 的 CommonCrawl 数据对基于 Transformer 的掩蔽语言模型进行大规模的预训练,该模型命名为 XLM-R,显著优于 mBERT,在跨语言基准测试中实现了 + 14.6%和 + 13%的平均准确性和 F1 分数,并改善了 10 个低资源语言的准确性,显示了前景。
Nov, 2019
提出了 SAMU-XLSR 模型,基于语义对齐的多模态跨语言话语级别语音表示学习框架。通过将 XLS-R 模型和 LaBSE 模型组合,SAMU-XLSR 模型可以提取高质量的多模态多语言话语语音特征,并可以实现跨语音和跨文字之间的相互转换。
May, 2022
利用自监督语音表示的微调和利用转录训练的 n-gram 语言模型增强多语言表示,相对于从头开始训练的混合模型,将代码切换数据的绝对词错误率降低了高达 20%。研究结果表明,在训练数据受限的情况下,微调自监督表示是一种更优秀和可行的解决方案。
Nov, 2023
基于 XLAVS-R 的跨语言音频 - 视觉语音表示模型,在噪声环境下提高语音识别和翻译的鲁棒性,并在超过 100 种语言中显示出强大的跨语言音频 - 视觉能力。
Mar, 2024
本研究基于 XLSR-53 预训练模型开发了印尼自动语音识别(ASR)系统,使用该模型能显著减少所需的非英语语言训练数据以达到竞争性的词错误率。研究使用了总计 24 小时、18 分钟、1 秒的数据,通过使用语言模型可以将词错误率从 20%降低到 12%。这些研究结果对于创造更好的印尼 ASR 系统并减少数据量方面进行了完善。
Aug, 2023