使用数据科学和机器学习方法对莎士比亚剧作进行持续分析

Jan, 2023

使用数据科学和机器学习方法对莎士比亚剧作进行持续分析

A data science and machine learning approach to continuous analysis of Shakespeare's plays

Charles Swisher, Lior Shamir

TL;DR本研究通过应用机器学习分析手段，对莎士比亚的作品进行文体统计学预测，结果表明莎翁的写作风格随时间发生了显著变化，其中包括句子长度、形容词和副词的频率，以及文本中表达的情感。此外，还发现有些作品的文体与它们的实际创作时间不太相似。

Abstract

The availability of quantitative methods that can analyze text has provided new ways of examining literature in a manner that was not available in the pre-information era. Here we apply comprehensive machine learning

quantitative methods machine learning stylometry shakespeare text analysis

发现论文，激发创造

使用复合增强序列到序列模型进行莎士比亚化现代语言

本篇论文探索一种使用端对端可训练神经模型和指针来自动将英语文本转换为莎士比亚英语的方法，通过预训练单词嵌入来解决数据并不充足的问题，并取得了 31 + 的 BLEU 分数，相较于最强基线提高了约 6 个点。

Jul, 2017

美国诗歌中的风格的计算方法

我们开发了一种定量方法来评估美国诗歌的风格，并将诗集可视化以相互关联。我们通过定性诗歌评论指导我们开发了分析各种拼字、句法和音素特征的度量标准，这些特征用于从诗歌的多层潜在结构中发现全面的风格信息，并计算诗歌之间的距离。可视化提供了对分析组件的便捷访问。我们在几个诗歌集上展示了我们的方法，显示出它比传统的词出现特征在典型文本分析算法中使用的方法更好地描绘了诗歌风格。我们的方法在学术研究文本、对诗歌的直观个人反应的研究以及根据读者喜爱的诗歌进行推荐方面具有潜在的应用。

Oct, 2023

T5 meets Tybalt: 使用大型语言模型进行早期现代英语戏剧中的作者归属

使用大型语言模型在文体学中研究作者鉴定，尤其是早期英国剧作，发现既有令人期待的结果，也存在令人担忧的结果；LLMs 能够准确预测作者身份，即使是短小的片段，但也容易将文本错误地归属给特定作者。通过精调 t5-large 模型，在归因小片段时表现优于所有测试的基线模型，包括逻辑回归、带线性内核的 SVM 和余弦差等方法。然而，我们观察到模型预训练数据中特定作者的存在会对预测结果产生难以评估的影响。

Oct, 2023

莎士比亚和公司的线上社交阅读的后续

通过量化共读模式的相似性和差异性，我们可以比较莎士比亚与公司社区与 Goodreads 社区之间的作品流行度的模式，并且可以观察文学接受总体结构的变化。

Jan, 2024

从舞台到页面：虚构语言独特性的无语言自举测量方法

本文以戏剧作品为例，分析了角色特点的语言风格区别，提出了两种新的分析独特性的方法，并应用于法语、德语、俄语和莎士比亚作品的语料库中，以探讨不同语言和时期的比较分析。研究发现，女性角色在直接的叙述和情感主题上的语言风格更具独特性。这一发现为未来更深入的研究提供了思路。

Jan, 2023

使用文体学技术检测机器生成的假新闻的限制

本文讨论了神经语言模型与人工写作之间的风格差异，发现传统风格测量技术不能有效地检测机器生成的虚假新闻。作者提出了构建新型检测机制的必要性与重要性。

Aug, 2019

多作者文档的文体分析和作者风格变化检测

本文研究了基于文体分析技术的三项主要任务：单作者和多作者文档的分类、单一变换检测以及多作者文档中的作者变换检测。通过整合多种自然语言处理算法和权重优化技术的基于优势的融合框架，本文提出了一种解决方案，并通过对清洗和原始数据集的大量实验探索了特殊字符在这些任务的性能上的潜力。实验结果表明，在基准数据集上，对于所有三个任务，本文的解决方案相比现有解决方案取得了显著的改进。

Jan, 2024

Deep-speare：诗歌语言、韵律和韵脚的联合神经模型

本文提出了一种联合架构，用于捕捉十四行诗的语言、韵律和节奏。我们使用众包和专家评估生成的诗歌的质量。研究表明专家评估对诗歌生成的重要性，并且未来的研究应该超越韵律、节奏，注重诗意语言。

Jul, 2018

基于 LSTM 的文本生成：关于历史数据的研究

该论文探讨了在文本生成中应用长短期记忆（LSTM）网络，重点关注历史数据集在莎士比亚和尼采作品中的应用。研究表明，在历史数据集上训练的基于 LSTM 的模型不仅可以生成语言丰富且相关的文本，还能提供语言模式随时间演化的见解。该研究为自然语言处理领域做出了贡献，展示了 LSTM 网络在文本生成中的多样性，并为历史语言学及其他领域的未来探索提供了途径。

Mar, 2024

大型英语文学语料库中文本主题、情感、文学性、创造力和美感的计算分析

该研究报告了对 GLEC 中多个文学类别和作者的主题、情感和语义复杂度进行分析的结果，并提出了衡量文学性、创意和文本美感的新指标。同时，他们还提出了这些指标可以作为文本分类和作者识别的重要特征，并通过实验证明了其准确率。

Jan, 2022