Jan, 2022

野外网络文档流派识别的 GINCO 训练数据集

TL;DR本文给出了一个新的训练数据集 GINCO,用于自动体裁识别。该数据集基于 1,125 个斯洛文尼亚网络文档,每个文档由新注释模式手动注释。在该数据集上进行机器学习实验表明,使用 Transformer 模型可以大大提高识别准确率。