ACLJun, 2024

MaskLID:通过迭代遮盖进行的代码切换语言识别

TL;DRMaskLID 是一种简单而有效的代码切换语言识别方法,旨在补充当前高性能的句子级别识别器。它通过掩盖与 L1 语言相关的文本特征,使得识别器可以在下一轮中将文本分类为 L2,从而解决仅返回 L1 标签的问题。该方法利用识别器本身来识别需要掩盖的特征,不依赖于任何外部资源。本研究在两种开源识别器 (GlotLID 和 OpenLID) 上探索了 MaskLID 的应用,它们都基于 FastText 架构。