AAAIJun, 2024

解读移民话语中的混合语 Code-Mixing 模式:Reddit 线上对话的自动检测与分析

TL;DR借助迁移相关的社交媒体平台上的代码混合这一多语言演讲方式,我们提出了 “多语言代码混合文本的整体学习识别”(ELMICT) 的新方法,通过结合多个标记化器输出和预训练语言模型的集成学习技术,ELMICT 在识别各种语言和语境下的代码混合方面表现出高性能 (准确率 F1 大于 0.95),特别是在跨语言零样本条件下 (平均准确率 F1 大于 0.70)。此外,利用 ELMICT 还可以分析与其他主题类别相比,迁移相关的线图上的代码混合的普遍性,从而揭示出移民社区关注的话题。我们的研究结果揭示了移民在社交媒体平台上采用的沟通策略,为开发包容性数字公共服务和对话系统提供了有益的启示。通过解决本研究提出的研究问题,我们有助于理解移民语言多样性,并为建设多元文化社会中建立信任的更有效工具铺平了道路。