May, 2024

从人类评判到预测模型:解析混合代码句子的可接受性

TL;DR当前分析或生成混合代码句子的计算方法没有明确建模混合代码句子的 “自然性” 或 “可接受性”,但依赖于训练语料库来反映可接受的混合代码句子的分布。建模混合文本的可接受性可以帮助区分自然的混合文本,并实现质量控制的混合文本生成。为此,我们构建了 Cline 数据集,其中含有英语 - 印地语 (en-hi) 混合文本的人工可接受性判断。Cline 是其类别中最大的数据集,包含 16,642 个句子,其中包括两个来源的样本:合成混合文本和从在线社交媒体上收集的样本。我们的分析表明,用于过滤 / 筛选 / 比较混合文本语料库的流行混合代码指标(如 CMI、转换点数、突发度)与人工可接受性判断之间的相关性较低,凸显了我们数据集的必要性。使用 Cline 进行的实验证明,仅基于混合代码指标训练的简单多层感知机 (MLP) 模型被细调的预训练多语言大型语言模型 (MLLMs) 在具有挑战性的数据设置中表现更佳。具体而言,XLM-Roberta 和 Bernice 在不同配置中优于 IndicBERT。与 ChatGPT 的零和几个样本能力的比较表明,基于更大数据集进行细调的 MLLMs 优于 ChatGPT,在混合代码任务中提供了改进的空间。使用我们的模型检查点进行从英语 - 印地语到英语 - 特鲁古语的零样本转移可接受性判断,超过了随机基线,可以应用于其他混合语言对,并提供了进一步的研究方向。我们公开发布了我们的人工标注数据集、训练检查点、混合文本语料库和数据生成以及模型训练的代码。