莎士比亚第一版本中的自动排字归属
该研究项目提出了一种基于字符分割的新方法,使用卷积神经网络识别字符和语言模型合成单词转录,从而为停泊罗斯的手写文档大量转录节省时间和努力。
Mar, 2018
本研究提出了一个深度解释性的概率生成模型来分析印刷的早期现代文献中的字形。该模型引入神经网络来聚类提取的字形图像,以发现混杂多变的潜在模板。实验结果表明,我们的方法在无监督情况下发现文献中的字体,准确率优于刚性解释聚类和过度弹性的深度生成模型。
May, 2020
本文基于编码学和语境论的理论,通过计算分析探讨两个中世纪神秘作家Hadewijch手稿之间的微小语言变化,使用机器学习技术识别出了手稿A和手稿B之间最具有特色的特征。
Oct, 2022
本研究旨在通过工具和技术的应用,对西班牙剧作家Tirso de Molina 的五部喜剧进行自动作者识别研究。通过量化和统计方法,使用Stylo和四种距离度量,得出结论否认了所有Tirso的归属,除了La mujer por fuerza。
Apr, 2023
该论文研究了使用精细字体识别技术对15至18世纪印刷书籍进行OCR的方法。作者们使用了一个新的数据集,其中包含了早期印刷书籍的OCR信息,并标记了每个字体的边界框。研究结果表明,字体风格对OCR性能有很大影响,所选模型的精细程度对结果也有积极影响。此外,作者们开发了一个本地字体组识别系统,可以在识别多种字体的文本行时取得更好的识别效果。
May, 2023
本文利用机器学习技术对早期现代(1500-1800)英文印刷书籍中的未知印刷机进行识别,特别关注匹配唯一损坏的字符类型值印迹到已知印刷机的作品上以提供证据,并设计了基于对比注意力度量学习方法来匹配字符图像对中的相似损伤以及随机数据合成程序以解决受监督数据不足问题。实验结果表明该方法在这一时期的印刷作品中成功匹配了有损坏的印刷品,并促进了对这些书籍起源和内容的研究。
Jun, 2023
使用大型语言模型在文体学中研究作者鉴定,尤其是早期英国剧作,发现既有令人期待的结果,也存在令人担忧的结果;LLMs能够准确预测作者身份,即使是短小的片段,但也容易将文本错误地归属给特定作者。通过精调t5-large模型,在归因小片段时表现优于所有测试的基线模型,包括逻辑回归、带线性内核的SVM和余弦差等方法。然而,我们观察到模型预训练数据中特定作者的存在会对预测结果产生难以评估的影响。
Oct, 2023
介绍了U-DIADS-Bib,这是一个独特的、像素精确的、无重叠和无噪声的文档布局分析数据集,并提出了一种创新的、计算机辅助的分割流程,以减轻手工注释的负担,并最后提供了一个标准的少样本数据集(U-DIADS-BibFS),以鼓励开发能够在尽可能少的样本下解决该任务的模型和解决方案,从而能够在现实世界的场景中更有效地使用。
Jan, 2024
本研究解决了历史印刷装饰品研究中的关键空白,通过现代无监督计算机视觉技术,提出了聚类、元素发现和无监督变化定位三项复杂任务。我们引入了评估基准,并展示了在真实数据上先进模型的局限性,结果表明,简单的基线方法如k-means在此类数据上可以超越更复杂的方法。
Aug, 2024