ACLJun, 2024

通用脚本语言识别

TL;DR我们提出使用多种实验策略(放大、扁平化和混合脚本)来学习与脚本无关的表示,重点关注四种主要的德拉维达语言(泰米尔语、泰卢固语、卡纳达语和马拉雅拉姆语),发现在下游的不以脚本为依据的语言识别中,词级脚本随机化和暴露于多个脚本书写的语言对于维持竞争性自然文本性能也非常有价值。