Feb, 2023

MUTANT: 一个多句混合编码的印地英语数据集

TL;DR该论文提出了一种新颖的任务,即识别多句式代码混合文本(MCT),制定了一种基于令牌级语言感知的管道,并将现有的度量代码混合程度的方法扩展到多句式框架,并在多语言文章中自动识别MCT,最终构建了一个包含85k个Hinglish MCTs的多句式代码混合Hinglish数据集,名为MUTANT。