好书是复杂的事：衡量感知文学质量的复杂度模式跨多个类别

Apr, 2024

好书是复杂的事：衡量感知文学质量的复杂度模式跨多个类别

Good Books are Complex Matters: Gauging Complexity Profiles Across Diverse Categories of Perceived Literary Quality

Yuri Bizzoni, Pascale Feldkamp, Ida Marie Lassen, Mia Jacobsen, Mads Rosendahl Thomsen...

TL;DR研究使用分类方法，展示不同类别的文学 “质量” 显示出独特的语言特征，在分析了包括诺顿选集、企鹅经典系列、开放教材项目等作品的语料库的基础上，对比了当代畅销书、诺贝尔奖得主以及获奖文学作品。我们的分析表明，经典文学作品和高雅作品相对于其他质量类别如畅销书和流行作品以及对照组展现出不同的文本特征，可能是为了回应不同的质量模式。我们采用经典的机器学习方法，即随机森林，来区分质量小说和 “对照组”，在区分这些类别时的 F1 得分达到 77%。我们发现，质量类别相对于对照组更容易区分，而与其他质量类别相比较难区分，这表明文学质量特征可能是可辨识的，但通过质量代理人共享。

Abstract

In this study, we employ a classification approach to show that different categories of literary "quality" display unique linguistic profiles, leveraging a corpus that encompasses titles from the Norton Anthology, Penguin Classics series, and the Open Syllabus project, contrasted again

literary quality linguistic profiles canonical texts bestsellers machine learning approach

发现论文，激发创造

使用全文内容对畅销书进行特征描述和识别

本研究使用分类和可视化分析的方法，通过研究 1895 年至 1924 年间的文学作品，特别是大量的最畅销书，探索预测一本书是否成为畅销书的方法，并发现使用全文内容的预测方法的准确度不高，但结果提供了关于文艺作品相对成功因素的见解。

Oct, 2022

一项短匿名小说片段单盲文学口味测试的结果

本文报告了一项旨在评估文本特征对荷兰语小说文学评分影响的试验结果，表明问卷评分与 Riddle 的调查评分之间存在中度到强度的相关性，但机器学习的预测结果更接近调查评分。

Nov, 2020

传统文学类型的相关性再探：对小说读者偏好的网络分析

利用 Goodreads 的用户数据构建了书籍网络并通过传统类型的代理将网络划分为类似的书籍社区，使用主成分分析表明网络社区可以通过书籍的成熟度和写实 / 幻想性来解释。

Mar, 2023

用户生成文本在创作领域中的流行度受到哪些因素的影响？图书评论案例研究

本研究通过对书评的心理、词汇、语义、易读性等特征进行统计分析，使用两种易读性测试探索阅读便利程度与书评受欢迎程度的正向关联，并运用传统机器学习分类器和基于 Transformer 的预训练语言模型，自动判断书评的受欢迎程度。研究结果表明，除了一些特征（例如书评长度、情感和词语独特性）之外，大多数属性在受欢迎和不受欢迎的书评组之间没有显著差异。此外，使用词语 N-gram 特征的机器学习分类器的低性能凸显了在判断创意领域受欢迎程度方面所面临的挑战。总体而言，本研究揭示了影响书评受欢迎程度的因素，并强调了进一步研究的需要，尤其是在创意领域。

Nov, 2023

大型英语文学语料库中文本主题、情感、文学性、创造力和美感的计算分析

该研究报告了对 GLEC 中多个文学类别和作者的主题、情感和语义复杂度进行分析的结果，并提出了衡量文学性、创意和文本美感的新指标。同时，他们还提出了这些指标可以作为文本分类和作者识别的重要特征，并通过实验证明了其准确率。

Jan, 2022

QuRating: 选择高质量数据以训练语言模型

使用 QuRating 方法选择预训练数据，可以捕捉人们直观感知的文本抽象品质。通过对四个品质进行分析，我们发现 LLMs 在进行文本配对判断方面表现优于直接评价文本质量。使用 QuRater 模型学习从配对判断中学习标量评分，并使用它为 260B 训练语料库的每个标准进行质量评级。根据不同的质量评级选择 30B 令牌，并在选定的数据上训练 13B 参数的语言模型。平衡质量和多样性很重要，仅选择最高评级的文档会导致较差的结果。通过使用质量评级作为逻辑的采样，我们的模型在困惑度和上下文学习性能方面均优于基准模型。除了数据选择外，我们使用质量评级构建了一个训练课程，提高了性能而无需更改训练数据集。我们对质量评级进行了广泛分析，并讨论了其特征、偏见和广泛的影响。

Feb, 2024

谁的语言算是高品质？测量文本数据选择中的语言意识形态

本文使用美国高中学生撰写的报纸文章，研究了 GPT-3 质量筛选器偏向于哪些学校、地理区域和社会阶层的语言。研究发现质量筛选器的质量测量与事实和文学赞誉等合理指标不一致，强调任何语料库为高质量都涉及到语言意识形态，需要更谨慎地构建语言模型培训语料库，更好地明确各种文本的包含或排除的透明度和理由。

Jan, 2022

复杂系统分类的方法：文字、文本等

通过物理学类比，定义了基于温度、化学势、熵等参数的文本分类，提出在语言学类比的基础上，研究基因组的方法，同时讨论了熵作为文本分类参数的作用和意义。

May, 2022

自然语言的复杂系统方法

从复杂性科学的角度总结了自然语言研究中使用的主要方法概念，并记录了这些方法在识别语言的通用和系统特征方面的适用性。讨论了数量语言学中三个与复杂性相关的研究趋势，包括对文本中单词频率的研究、基于时间序列分析的方法应用于研究书面文本中的相关性、以及将网络形式主义应用于自然语言研究中。

Jan, 2024

谷歌图书语料库的特征化：对社会文化和语言演化推断的强限制

通过对谷歌图书语料库含有学术性文章的部分进行分析，本文强调了在使用谷歌图书数据集得出有关文化和语言演变的广泛结论之前，有必要充分了解谷歌图书语料库的动态。

Jan, 2015