Jun, 2022

借用还是语码切换?在语言混合中注释更精细的差异

TL;DR本文介绍了一个新的 Twitter 数据语料库,其中包含被注释为西班牙语和英语之间的代码切换或借用的 9,500 个推文,旨在清晰定义代码切换和借入之间的界限,并可用于研究和建模 Twitter 上的西班牙语 - 英语借用和代码切换,最终给出了基于 Transformer 模型的语言模型的基准得分。