汉语方言语音学的多方言表示学习
多语言理解的改进方法通常在训练阶段需要多种语言,依赖复杂的训练技术,同时也在高资源语言和低资源语言之间存在重大的性能差距。我们假设语言之间的性能差距受到这些语言之间的语言差距的影响,并通过使用声素表示(具体而言,使用声素作为输入标记到语言模型,而不是次词)来提供强大的多语种语言建模的新解决方案。我们通过三个跨语言任务的定量证据以及对跨语言性能差距的理论分析进一步证明了声素表示的有效性。
Feb, 2024
本文研究旨在找出方言翻译任务中缺乏平行语料和具有类似语法的两方之间的共性和差异之处,从而建立无监督翻译模型。结果表明,我们的方法在 20 万万普通话和广东话的单语语料库上的性能优于规则 - 基础简体和繁体中文转换以及常规无监督翻译模型。
Dec, 2019
通过多语种语音模型 XLSR-53,利用神经表示来估算音频文件之间的相似度,以此抽取有价值的语言特性,从而揭示了神经表示中所包含的语言信息。
May, 2023
本研究提出了一种基于子空间表示的新的学习机制,可用于从话语中提取隐藏的音位结构以进行语言验证和方言 / 口音识别,并通过核机器(如支持向量机和基于子空间的神经网络)的子空间学习实现。
Mar, 2022
通过应用多语言情境下的共用符号表示和语言的语言信息来训练递归神经网络模型,我们介绍了多语言模型的思想,以解决建模音序列的问题,该问题中具有普遍符号发明和跨语言共享特征表示。实验结果表明,多语言模型比单语言模型具有更好的泛化性能和更高质量的语音特征表示。
May, 2016
本文提出了一种新颖的多级建模单元方法,通过编码器块将音节作为建模单元,解码器块处理字符级建模单元,实现了汉语语音识别。实验表明,该方法在 AISHELL-1 语料库上取得了很好的结果,在 Conformer 和 Transformer 骨干网上的 CER 分别为 4.1%/4.6%和 4.6%/5.2%。
May, 2022
本文介绍了一种比较多语言计算表示相互关系的方法,可以重建语言学家所假定的类似的分类树,同时提出了一种检测语言家族之间语义漂移的度量,并使用基于单词和句子的多语言模型进行了实验,结果表明多语言分布式表示可以不需要任何词源学信息保存语言之间的关系。
Apr, 2019
本文提出一种结合多语言训练和自监督学习的方法来提高低资源 ASR 性能,其中采用国际音标(IPA)多语言模型为无标签语音创建帧级伪标签,并以这些伪标签以 Phonetically-informed 的方式引导基于 HuBERT 的语音预训练。实验证明,该方法在所有目标语言上均优于标准 HuBERT,并且在 3 种语言中表现更佳,同时最多能够节省 1.5k 小时(75%)有监督训练数据。
May, 2023