无监督跨语言表示学习用于语音识别
本文讨论了在自然图像和描述这些图像内容的语音波形中学习神经网络嵌入的方法。我们展示了这些技术可成功应用于英语和印地语等多种语言,通过在两种语言上同时进行训练,可以提高模型的性能,并且这些模型可以执行语义跨语言语音检索。
Apr, 2018
通过在100种语言上使用超过2TB的CommonCrawl数据对基于Transformer的掩蔽语言模型进行大规模的预训练,该模型命名为XLM-R,显著优于mBERT,在跨语言基准测试中实现了+14.6%和+13%的平均准确性和F1分数,并改善了10个低资源语言的准确性,显示了前景。
Nov, 2019
本篇研究调查了无监督预训练是否能够跨语言传输,以便自动语音识别系统(ASR)实现跨语言和多语言。研究表明,使用略加修改的对比性预测编码(CPC)预训练方式,能够提取和其他语言效果相当或甚至优于监督预训练的特征,证明了无监督方法在语言资源稀缺的情况下具有潜力。
Feb, 2020
本研究提出了 CLSRIL-23,一种基于自监督学习的音频预训练模型,可以在23种印度语言的原始音频中学习跨语言的语音表示。在预训练期间,将语言特定的语音表示分别比较以比较单语和多语预训练的效果。我们的实验证明,多语预训练优于单语预训练,能够学习对语言进行编码并在下游任务中达到更好的性能。
Jul, 2021
本文介绍了XLS-R,这是一个基于Wav2vec 2.0的用于跨语言语音表示学习的大规模模型,其在128种语言的近半百万小时的公开语音音频数据上进行训练,并取得了广泛的评估表现。我们的研究致力于提升语音处理任务在更多的世界语言上的表现。
Nov, 2021
该文章介绍了新的XTREME-S基准测试,其涉及语音识别,分类,语音到文本翻译和检索四大任务类别。该基准测试覆盖了10多种语言家族的102种语言与3个不同领域和4个任务家族,旨在简化多语言语音表示评估,并以XLS-R和mSLAM在所有下游任务中建立了第一个仅语音和语音文本基线。同时该基准测试旨在推动对“通用”的语音表示学习的研究,数据集和微调脚本可在提供的网址进行访问。
Mar, 2022
提出了SAMU-XLSR模型,基于语义对齐的多模态跨语言话语级别语音表示学习框架。通过将XLS-R模型和LaBSE模型组合,SAMU-XLSR模型可以提取高质量的多模态多语言话语语音特征,并可以实现跨语音和跨文字之间的相互转换。
May, 2022
本文提出了一种新的数据驱动方法来研究跨语音识别方案中的跨语言声学语音相似性,通过训练深度神经网络来将来自不同声音模型的分布转化为可直接比较的形式,并通过熵分析发现少重叠语音的语言更易于跨语言传输,在融合单语言模型方面取得了相对于单语言识别的8%的改进。
Jul, 2022
本文介绍了一种基于DistilXLSR的语音表征模型,通过随机打乱现有语音的音素,降低语言信息,在只使用英语数据的情况下,压缩跨语言模型并设计一种层级初始化方法,成功减少50%参数并在15种低资源语言和2种教师模型的实验中保持了跨语言表征能力,证明了其在各种语言/教师模型中具有普适性,有潜力提高英语预训练模型的跨语言性能。
Jun, 2023