EMNLPOct, 2023

多语言和混码数据收集和准备中被遗忘的代表性原则

TL;DR研究分析了现有的跨语言切换数据集,揭示了大多数数据涉及英语,忽略了其他语言对 / 元组,并且在数据收集和准备阶段存在代表性方面的缺陷,忽视了跨语言切换中的地理位置、社会人口统计学和注册变化。最后提供了一个简短的清单,以改善与跨语言切换数据收集和准备相关的代表性。