Dec, 2022

FreCDo:用于法语跨领域方言识别的大型语料库

TL;DR本文介绍一个收集于比利时、加拿大、法国和瑞士的公共新闻网站上的包含 413,522 个法语文本样本的新颖语料库。该文章通过对不同的新闻网站检索不同的关键词,消除了主题、写作风格和发布来源等潜在偏见,从而建立了一个法语跨领域方言识别任务;作者也通过四个竞争基线、基于微调的 CamemBERT 模型、基于微调 CamemBERT 特征的 XGBoost、基于微调 CamemBERT 特征的 SVM 分类器和基于单词 n-grams 的 SVM 进行了实验;最后,作者还分析了 CamemBERT 学到的最有区分度的特征。