莎士比亚第一版本中的自动排字归属

Apr, 2017

莎士比亚第一版本中的自动排字归属

Automatic Compositor Attribution in the First Folio of Shakespeare

Maria Ryskina, Hannah Alpert-Abrams, Dan Garrette, Taylor Berg-Kirkpatrick

TL;DR本文介绍一种新型的无监督模型，通过分析文字和视觉特征来区分排版工人，并应用于莎士比亚的第一本（Folio）上，并且其准确性可达87％，即使是OCR输出的文本也一样。

Abstract

compositor attribution, the clustering of pages in a historical printed document by the individual who set the type, is a bibliographic task that relies on analysis of orthographic variation and inspection of vis

发现论文，激发创造

探索梵蒂冈秘密档案中的知识发现——《In Codice Ratio》第一集：手稿的机器转录

该研究项目提出了一种基于字符分割的新方法，使用卷积神经网络识别字符和语言模型合成单词转录，从而为停泊罗斯的手写文档大量转录节省时间和努力。

Mar, 2018

历史手稿图像解密

该论文围绕密码手稿展开，运用经典密码算法，发展出无监督模型实现字符分割、图像聚类和破解密文等多种技术，可自动将手稿图像转化为文本。

Oct, 2018

早期现代印刷排版分析的概率生成模型

本研究提出了一个深度解释性的概率生成模型来分析印刷的早期现代文献中的字形。该模型引入神经网络来聚类提取的字形图像，以发现混杂多变的潜在模板。实验结果表明，我们的方法在无监督情况下发现文献中的字体，准确率优于刚性解释聚类和过度弹性的深度生成模型。

May, 2020

从榜样到复制品：对哈德维茨手稿的抄写探究的计算机研究

本文基于编码学和语境论的理论，通过计算分析探讨两个中世纪神秘作家Hadewijch手稿之间的微小语言变化，使用机器学习技术识别出了手稿A和手稿B之间最具有特色的特征。

Oct, 2022

提尔索·德·莫利纳作品中的自动作者归属问题

本研究旨在通过工具和技术的应用，对西班牙剧作家Tirso de Molina 的五部喜剧进行自动作者识别研究。通过量化和统计方法，使用Stylo和四种距离度量，得出结论否认了所有Tirso的归属，除了La mujer por fuerza。

Apr, 2023

结合OCR模型阅读早期印刷书籍

该论文研究了使用精细字体识别技术对15至18世纪印刷书籍进行OCR的方法。作者们使用了一个新的数据集，其中包含了早期印刷书籍的OCR信息，并标记了每个字体的边界框。研究结果表明，字体风格对OCR性能有很大影响，所选模型的精细程度对结果也有积极影响。此外，作者们开发了一个本地字体组识别系统，可以在识别多种字体的文本行时取得更好的识别效果。

May, 2023

对比注意力网络用于早期现代印刷品的归因

本文利用机器学习技术对早期现代(1500-1800)英文印刷书籍中的未知印刷机进行识别，特别关注匹配唯一损坏的字符类型值印迹到已知印刷机的作品上以提供证据，并设计了基于对比注意力度量学习方法来匹配字符图像对中的相似损伤以及随机数据合成程序以解决受监督数据不足问题。实验结果表明该方法在这一时期的印刷作品中成功匹配了有损坏的印刷品，并促进了对这些书籍起源和内容的研究。

Jun, 2023

T5 meets Tybalt: 使用大型语言模型进行早期现代英语戏剧中的作者归属

使用大型语言模型在文体学中研究作者鉴定，尤其是早期英国剧作，发现既有令人期待的结果，也存在令人担忧的结果；LLMs能够准确预测作者身份，即使是短小的片段，但也容易将文本错误地归属给特定作者。通过精调t5-large模型，在归因小片段时表现优于所有测试的基线模型，包括逻辑回归、带线性内核的SVM和余弦差等方法。然而，我们观察到模型预训练数据中特定作者的存在会对预测结果产生难以评估的影响。

Oct, 2023

U-DIADS-Bib：古代手稿文档布局分析的全面和少样本像素精确数据集

介绍了U-DIADS-Bib，这是一个独特的、像素精确的、无重叠和无噪声的文档布局分析数据集，并提出了一种创新的、计算机辅助的分割流程，以减轻手工注释的负担，并最后提供了一个标准的少样本数据集(U-DIADS-BibFS)，以鼓励开发能够在尽可能少的样本下解决该任务的模型和解决方案，从而能够在现实世界的场景中更有效地使用。

Jan, 2024

历史印刷装饰品：数据集和任务

本研究解决了历史印刷装饰品研究中的关键空白，通过现代无监督计算机视觉技术，提出了聚类、元素发现和无监督变化定位三项复杂任务。我们引入了评估基准，并展示了在真实数据上先进模型的局限性，结果表明，简单的基线方法如k-means在此类数据上可以超越更复杂的方法。

Aug, 2024