米兰・昆德拉的无署名剧本?作者鉴定研究
本研究旨在通过工具和技术的应用,对西班牙剧作家 Tirso de Molina 的五部喜剧进行自动作者识别研究。通过量化和统计方法,使用 Stylo 和四种距离度量,得出结论否认了所有 Tirso 的归属,除了 La mujer por fuerza。
Apr, 2023
该论文运用作者归属方法回答了关于二十世纪末的双语俄法作家在法语小说写作中是否存在共同的风格特征、是否能将它们与非双语法国作家的文本区分开、以及是否在俄罗斯作家的法语文本中观察到干扰现象等问题。研究采用支持向量机(SVM)、K - 近邻(KNN)、Ridge 分类和神经网络等方法进行了分类和归属分析。
Mar, 2023
本文探讨了利用人工智能技术对多个作者编写的文学文本进行分类的难点,并介绍了一个新的包含罗马尼亚语文本的数据集。经过数值实验比较,得出了人工神经网络、支持向量机、多表达式编程、决策树以及 k - 最近邻等算法在测试集上表现较好。
Nov, 2022
鲁迅和周作人是中国现代文学中最有影响力的作家之一,本研究使用定量方法重新审视 1912 年由兄弟二人化名发表的三篇争议性论文,通过一个可解释的作者归属模型进行文体学分析,以调查这些文章的作者,研究兄弟二人的写作风格。我们的发现表明,《看中国》一文是鲁迅所写。此外,《越人忘了祖先之教》似乎要么由鲁迅主要撰写,要么由他进行了广泛的修订,因为它在风格上与周作人所主张的《看越大地》相似,后者是他承认自己撰写但经鲁迅编辑过的一篇作品。第三篇论文《哪里去了共和国的品格?》呈现了一种混合的写作风格,暗示了彻底的合作。我们提供了文章特征的可视化表示,以促进细致和直观的理解。我们发现了一些证据,表明在他所谓的 “沉默时代” 期间,鲁迅秘密地参与了社会问题,并提供了关于兄弟二人的思想发展轨迹的见解。
Sep, 2023
本文基于 BERT 语言模型分析了古希腊文献中 Placita Philosophorum 文本的某些统计属性,揭示了该文本与其他二三世纪的亚历山大学派作家的相似之处。
Nov, 2022
在这篇论文中,我们提出了一个任务:主题混淆,用于区分写作风格捕捉能力不足还是主题转换造成的错误,我们表明带有词性标注的文体特征对主题变化最不敏感,将它们与其他特征相结合可显著降低主题混淆并提高归属准确性,最后表明像 BERT 和 RoBERTa 等预训练语言模型在这项任务中表现不佳,远不如诸如单词级 n 元语法等简单特征。
Apr, 2021
通过对大量英语小说进行预训练的作者验证模型编码以角色的引用,本研究探索了角色的文体表征,并且结果表明这些模型中融合的文体和主题信息能够准确区分角色,但在归属引用方面并没有必要超过仅有语义的模型,然而这些结果在小说之间存在差异,因此在文学文本和角色研究领域需要进行更多针对性的文体测量模型的研究。
Jan, 2024
本文介绍一种新型的无监督模型,通过分析文字和视觉特征来区分排版工人,并应用于莎士比亚的第一本(Folio)上,并且其准确性可达 87%,即使是 OCR 输出的文本也一样。
Apr, 2017