Nov, 2023

文章中次要文本块的内容重要性分布及其在文章组织评估中的应用

TL;DR我们探讨了如何捕捉文章中的子文本块的重要性以及如何将其用于文本挖掘任务。我们提出了内容重要性分布(CSD)的概念,利用Hugging Face的SentenceTransformer生成句子的上下文嵌入,使用MoverScore测量子文本块与整个文本的相似度,进而利用CSD-1提取语言特征训练SVC分类器来评估文章的组织质量。通过实验,我们展示了这种方法在评估学生论文方面具有高准确性。