OmniLingo: 听说为基础的语言学习
本文通过采用 Conformer 架构,在多语言预训练模型中扩展了以往的自监督方法,我们发现预训练的语音模型最佳地在底层编码语言的区分信息。进一步地,我们证明了从这些层获取的嵌入对于分类未见过的语言和不同的声学环境具有显著的鲁棒性,无需额外的训练。在 VoxLingua107 数据集上微调预训练的 Conformer 模型后,我们实现了类似于语言识别当前最先进系统的结果。此外,我们的模型参数比当前系统少了五倍,并通过 NVIDIA NeMo 工具包开源了该模型。
Nov, 2022
在这项工作中,我们将零样本语音克隆和多语言低资源语音合成的任务结合在一起。通过使用语言不可知的元学习(LAML)程序和对 TTS 编码器的修改,我们证明了一个系统可以学习在只有 5 分钟的训练数据下说一个新语言,同时保留了推断新学习语言中甚至看不到的说话者声音的能力,并提供了开源的代码和训练模型。
Oct, 2022
通过使用来自发音矢量而非语音学单元的嵌入来学习跨语言的音素表示,结合语言无关的元学习,使得我们只需要 30 分钟的语音数据即可在以前从未见过的语言中,通过微调高质量的文本转语音模型,并由以前未见过的发言者发音。
Mar, 2022
本文讨论了在自然图像和描述这些图像内容的语音波形中学习神经网络嵌入的方法。我们展示了这些技术可成功应用于英语和印地语等多种语言,通过在两种语言上同时进行训练,可以提高模型的性能,并且这些模型可以执行语义跨语言语音检索。
Apr, 2018
LAMOL 是一种基于语言建模的简单而有效的终身语言学习方法,使模型能够解决并生成训练样本,可以在没有额外内存或模型容量的情况下重新播放以前任务的伪样本以预防灾难性遗忘,并以显著优于早期方法的优势表现出色,仅比多任务差 2-3%作为终身学习的上限。
Sep, 2019
利用 Whisper 作为多语言语音模型示例,我们探究了语音编码器产生的话语表征,虽然保留了一些语言敏感信息,但是来自不同语言的单词被映射到相似的语义空间,从 Speech-to-Speech 检索任务中的高召回率可以看出;借助这个共享的嵌入空间,我们证明了在语音翻译中的零 - shot 跨语言转移;当 Whisper 模型仅使用英语到中文翻译数据进行微调时,它在其他语言的输入话语上表现出性能的提升;此外,在低资源语言的实验中,通过利用跨语言表示,Whisper 可以对在预训练过程中未见的语言的话语进行语音翻译。
Jul, 2024
本文旨在将语言模型预训练方法推广到语音识别产生的 'lattice' 上。通过提出具有两阶段预训练的神经网络 lattice 语言模型,此研究在意图检测和对话行为识别数据集上证明了其在处理口语输入任务中的优势。
Jul, 2020
使用多种语言 Wikipedia 来为 100 多种语言训练单词嵌入表示,并将其应用在词性标注中取得了与英语、丹麦语和瑞典语接近最新成果的表现。此外,通过单词分组的距离等方式,进一步研究了这些嵌入所捕获的语义特征,并将这些嵌入公开以帮助多语言应用的开发和增强.
Jul, 2013
本研究介绍了一个大型多语言多模态模型 Palo,它提供了 10 种主要语言(包括英语、中文、印地语、西班牙语、法语、阿拉伯语、孟加拉语、俄语、乌尔都语和日语)的视觉推理能力,总计覆盖了约 50 亿人口(世界总人口的 65%)。我们的方法采用半自动翻译方式,使用经过精调的大型语言模型将英语的多模态指令数据集转化为目标语言,以确保高语言准确性并保证可扩展性。不同语言指令的融合帮助我们提高跨多种语言的模型性能,尤其是对于印地语、阿拉伯语、孟加拉语和乌尔都语等少数被代表的语言。我们通过三个规模(17 亿、70 亿和 130 亿参数)的训练展示了该模型的普适性和可扩展性,观察到与强基线相比具有显著改进。同时,我们提出了第一个多语言多模态基准,用于评估不同语言之间的视觉推理能力。
Feb, 2024
本研究将显式神经间语纳入多语言编码 - 解码神经机器翻译(NMT)体系结构中,证明该模型通过直接零 - shot 翻译(不使用中转翻译)并使用源语句嵌入来创建英语 Yelp 评论分类器,该分类器能够通过神经间语协调法也对法语和德语评论进行分类,并且即使我们使用的参数数量比成对的 NMT 模型集合少,但我们的方法对于 WMT15 中的每个语言对产生了相当的 BLEU 得分。
Apr, 2018