Apr, 2024

好书是复杂的事:衡量感知文学质量的复杂度模式跨多个类别

TL;DR研究使用分类方法,展示不同类别的文学 “质量” 显示出独特的语言特征,在分析了包括诺顿选集、企鹅经典系列、开放教材项目等作品的语料库的基础上,对比了当代畅销书、诺贝尔奖得主以及获奖文学作品。我们的分析表明,经典文学作品和高雅作品相对于其他质量类别如畅销书和流行作品以及对照组展现出不同的文本特征,可能是为了回应不同的质量模式。我们采用经典的机器学习方法,即随机森林,来区分质量小说和 “对照组”,在区分这些类别时的 F1 得分达到 77%。我们发现,质量类别相对于对照组更容易区分,而与其他质量类别相比较难区分,这表明文学质量特征可能是可辨识的,但通过质量代理人共享。