Nov, 2023

IruMozhi:自动分类泰米尔双语现象

TL;DR释放了一个人工注释的文学和口语泰米尔语的平行文本数据集(IruMozhi),用于训练分类器以识别文本所属的语言版本,以评估口语泰米尔语的预训练数据的可用性,并促进未来对不同版本的工作。