Jan, 2024

MEDs for PETs: 多语言委婉词消歧示(对有可能含委婉意味的词语)

TL;DR本文研究了多种语言中委婉语的计算处理。我们训练了一个多语言变换器模型(XLM-RoBERTa)来消除多语言和跨语言环境下的可能的委婉语词汇。与当前趋势一致,我们展示了跨语言的零射击学习的现象。我们还展示了多语言模型在这一任务上相对于单语言模型有显著优势的案例,表明多语言数据提供了额外的机会来了解委婉语的跨语言计算特性。在后续分析中,我们着重研究了普遍委婉语的 “类别”,如死亡和生理功能等。我们测试了同一领域的跨语言数据是否比不同领域的语言内数据更重要,以进一步了解跨语言转移的性质。