米兰・昆德拉的无署名剧本？作者鉴定研究

Dec, 2022

米兰・昆德拉的无署名剧本？作者鉴定研究

Unsigned Play by Milan Kundera? An Authorship Attribution Study

Lenka Jungmannová, Petr Plecháč

TL;DR本研究使用监督式机器学习，拟探讨关于剧本《Juro Jánošík》的作者身份归属问题，结果显示 Milan Kundera 可能是真正的作者。

Abstract

In addition to being a widely recognised novelist, milan kundera has also authored three pieces for theatre: The Owners of the Keys (Majitelé klíčů, 1961), The Blunder (Ptákovina, 1967), and Jacques and his Maste

milan kundera theatre authorship attribution supervised machine learning juro jánošík

发现论文，激发创造

提尔索・德・莫利纳作品中的自动作者归属问题

本研究旨在通过工具和技术的应用，对西班牙剧作家 Tirso de Molina 的五部喜剧进行自动作者识别研究。通过量化和统计方法，使用 Stylo 和四种距离度量，得出结论否认了所有 Tirso 的归属，除了 La mujer por fuerza。

Apr, 2023

双语俄法作家与非双语法国作家的文学作品差异的作者归属问题

该论文运用作者归属方法回答了关于二十世纪末的双语俄法作家在法语小说写作中是否存在共同的风格特征、是否能将它们与非双语法国作家的文本区分开、以及是否在俄罗斯作家的法语文本中观察到干扰现象等问题。研究采用支持向量机（SVM）、K - 近邻（KNN）、Ridge 分类和神经网络等方法进行了分类和归属分析。

Mar, 2023

比较几种 AI 技术用于罗马尼亚文本的作者识别

本文探讨了利用人工智能技术对多个作者编写的文学文本进行分类的难点，并介绍了一个新的包含罗马尼亚语文本的数据集。经过数值实验比较，得出了人工神经网络、支持向量机、多表达式编程、决策树以及 k - 最近邻等算法在测试集上表现较好。

Nov, 2022

基于 BERT 的罗马尼亚语数据集 ROST 的作者归属

使用预训练的语言模型 BERT 来检测罗马尼亚语文本的作者，虽然数据集不平衡，但结果比预期好，有时超过 87％的宏平均精度。

Jan, 2023

杜撰的众声：重访鲁迅和周作人之间的争议论文

鲁迅和周作人是中国现代文学中最有影响力的作家之一，本研究使用定量方法重新审视 1912 年由兄弟二人化名发表的三篇争议性论文，通过一个可解释的作者归属模型进行文体学分析，以调查这些文章的作者，研究兄弟二人的写作风格。我们的发现表明，《看中国》一文是鲁迅所写。此外，《越人忘了祖先之教》似乎要么由鲁迅主要撰写，要么由他进行了广泛的修订，因为它在风格上与周作人所主张的《看越大地》相似，后者是他承认自己撰写但经鲁迅编辑过的一篇作品。第三篇论文《哪里去了共和国的品格？》呈现了一种混合的写作风格，暗示了彻底的合作。我们提供了文章特征的可视化表示，以促进细致和直观的理解。我们发现了一些证据，表明在他所谓的 “沉默时代” 期间，鲁迅秘密地参与了社会问题，并提供了关于兄弟二人的思想发展轨迹的见解。

Sep, 2023

论书法

本文介绍了一种基于复杂网络的方法来识别文本的作者，通过考虑故事流传来捕捉作者的主导结构。实验证明了该方法在可视化方面有很大潜力并能够揭示作者的个人特征。

May, 2017

普鲁塔克的阴影中的 BERT

本文基于 BERT 语言模型分析了古希腊文献中 Placita Philosophorum 文本的某些统计属性，揭示了该文本与其他二三世纪的亚历山大学派作家的相似之处。

Nov, 2022

主题混淆任务：一种新的作者归属场景

在这篇论文中，我们提出了一个任务：主题混淆，用于区分写作风格捕捉能力不足还是主题转换造成的错误，我们表明带有词性标注的文体特征对主题变化最不敏感，将它们与其他特征相结合可显著降低主题混淆并提高归属准确性，最后表明像 BERT 和 RoBERTa 等预训练语言模型在这项任务中表现不佳，远不如诸如单词级 n 元语法等简单特征。

Apr, 2021

区分虚构声音：引语归属的作者验证模型研究

通过对大量英语小说进行预训练的作者验证模型编码以角色的引用，本研究探索了角色的文体表征，并且结果表明这些模型中融合的文体和主题信息能够准确区分角色，但在归属引用方面并没有必要超过仅有语义的模型，然而这些结果在小说之间存在差异，因此在文学文本和角色研究领域需要进行更多针对性的文体测量模型的研究。

Jan, 2024

莎士比亚第一版本中的自动排字归属

本文介绍一种新型的无监督模型，通过分析文字和视觉特征来区分排版工人，并应用于莎士比亚的第一本（Folio）上，并且其准确性可达 87％，即使是 OCR 输出的文本也一样。

Apr, 2017