SAMU-XLSR:语义对齐的多模态话语级跨语言语音表示
本论文研究语义对齐的语音表示在端到端语音理解中的应用,并使用 SAMU-XLSR 模型,在不同语言中捕捉语音的语义,将语音表现学习模型(XLS-R)与语言无关的 BERT 句子嵌入(LaBSE)模型相结合。我们证明该模型的使用显著提高了端到端 SLU 的性能,并展示了在 SLU 中使用该模型的好处,特别是语言易携带性。
Oct, 2022
本研究旨在通过对 SAMU-XLSR 模型进行领域特定语义丰富的专业化,探索这种模型在低资源语言移植中的使用效益,并研究该模型的跨领域能力,以更好地实现复杂口语理解任务中的语义提取。
Jul, 2023
本论文旨在通过语义知识蒸馏来改进多语言语音转文本翻译中的跨语言迁移学习。通过使用 SAMU-XLS-R 来初始化编码器,我们在 CoVoST-2 和 Europarl 语音转文本数据集上实现了比基线模型更好的交叉语言任务知识传输,其中平均提高了 12.8 个 BLEU 分数。在零 - shot 翻译情景下,我们在未见过的中低资源语言上平均提高了 18.8 分和 11.9 个 BLEU 分数。
Jun, 2023
XLSR 是一种学习跨语言语音表示的模型,通过对多种语言的语音原始波形进行预训练来构建模型,上述模型建立在 wav2vec 2.0 的基础之上,可以使用单一模型完成多语言语音识别任务,并且具有更好的性能。
Jun, 2020
MuSR 是一种支持 220 多种语言的全能多语种句子表示模型,通过使用数十亿个英文为中心的平行语料库,采用使用跨语言一致性规则化技术的多语言 NMT 框架,以训练多语言 Transformer 编码器,并采用辅助 Transformer 解码器,实现了多语言相似性搜索和双文本挖掘任务,表现优于由 148 个独立的多语种句子编码器组成的 LASER3。
Jun, 2023
本文介绍了 XLS-R,这是一个基于 Wav2vec 2.0 的用于跨语言语音表示学习的大规模模型,其在 128 种语言的近半百万小时的公开语音音频数据上进行训练,并取得了广泛的评估表现。我们的研究致力于提升语音处理任务在更多的世界语言上的表现。
Nov, 2021
我们引入了 SONAR,一个新的多语言和多模态的固定大小句子嵌入空间,在 xsim 和 xsim++ 多语言相似性搜索任务中,我们的单一文本编码器涵盖 200 种语言,表现明显优于现有的句子嵌入如 LASER3 和 LabSE。我们还提供了一个文本解码器,涵盖 200 种语言,可以执行文本到文本和语音到文本的机器翻译,包括零射语言和模态组合。尽管固定大小的瓶颈表示,我们的文本到文本结果与最先进的 NLLB~1B 模型相媲美,我们的零射语音到文本翻译结果与强大的有监督基线如 Whisper 相比也表现得出色。
Aug, 2023
通过跨语言重建和句子级对比学习,提出了一种有效的高效多语句子表示学习算法 EMS,不依赖于大规模预训练模型,能显著减少并行句子和 GPU 计算资源的使用,支持 62 种语言,在双语挖掘、零样本跨语言流派分类和情感分类方面,该模型显著获得更好或相当的效果。
May, 2022
XSemPLR 是一个统一的基准系统,用于跨越 22 种自然语言和 8 种意义形式的跨语言语义分析研究,使用多种变量和模型进行评估,其中编码器 - 解码器模型(如 mT5)显示出最高性能。
Jun, 2023