May, 2023

WikiSQE:维基百科句子质量评估的大规模数据集

TL;DR提出第一个 Wikipedia 句子质量评估的大规模数据集 WikiSQE,包含了约 340 万句子和 153 个质量标签,并通过机器学习模型进行了实验自动分类,显示具有引文、句法 / 语义或命题问题的句子更难以检测,该数据集在自动化的文章评分实验中表现出更好的泛化性能,并有望成为自然语言处理中其他任务的有价值的资源。