EMNLPJan, 2023

探索建立闽南语 - 普通话混合语料库的方法:以台湾福建话为例研究

TL;DR本文介绍了一种构建闽南语 - 华语混合语言数据集的方法,并使用基于语言学的工具包提供了有效的闽南话词语分割方法。此外,针对代码混合情景,作者适应了 XLM 的训练,并发现通过语言学知识、规则和语言标签,模型展现了良好的混合语言翻译效果,并保持了单语言翻译质量。