文本规范化对中世纪文书分类的相关性研究

Aug, 2024

文本规范化对中世纪文书分类的相关性研究

Is text normalization relevant for classifying medieval charters?

Florian Atzenhofer-Baumgartner, Tamás Kovács

TL;DR本研究探讨了历史文本规范化对中世纪文书分类的影响，特别是在文档年代和位置检测方面。研究发现，虽然规范化在位置检测中略有改善，但却降低了年代识别的准确性，表明原始文本中包含的重要特征可能会被规范化掩盖。这提示我们在历史文本规范化时需谨慎，以保留对分类任务至关重要的文本特性。

Abstract

This study examines the impact of historical Text Normalization on the classification of Medieval Charters, specifically focusing on document dating and locating. Using a data set of Middle High German charters f

发现论文，激发创造

历史英语词性标注

此研究探讨了如何利用领域适应技术提高处理历史文本的性能，集中在词性标注这一经典测试任务中，并表明了 Feature Embedding 方法的有效性。

Mar, 2016

评估历史文本标准化系统的泛化能力

本文简要讨论了历史文本规范化系统的评估问题，通过比较两个神经模型和一个基准系统，阐释了我们的评估方法，并得出结论，未来的工作应包括更严格的评估，包括可能的内在和外在度量。

Apr, 2018

历史文本规范化系统的大规模比较

本文介绍迄今最大的历史文本规范化研究，涵盖了基于规则、距离度量、基于字符的机器翻译、神经编码器-解码器模型等所有提出的规范化技术类别，并使用不同的数据集和评估方法进行比较，分析了训练数据数量的影响，并提供了公开的数据集和脚本。

Apr, 2019

处理文档结构：对法语历史报纸进行逻辑版面分析

本文探讨了应用于法国历史文件的逻辑版面分析问题，并提出了一种基于规则的方法，并对两种机器学习模型 RIPPER 和 Gradient Boosting 进行了评估和比较。通过实验表明，我们的规则系统表现优于两种机器学习模型，提高了召回率，并证实了我们的系统可以生成足够大的注释数据集，以便于机器学习或深度学习方法进行逻辑版面分析任务。

Feb, 2022

hmBERT: 历史多语言语言模型用于命名实体识别

本篇研究讨论了针对历史文本进行命名实体识别的挑战，并提出使用大型历史语言模型 hmBERT 预训练来解决标注数据不充足的问题，并使用 HIPE-2022 共享任务来评估模型性能。

May, 2022

SIMARA：从完整网页中提取键值信息的数据库

提出一个包含5,393份手写历史文档的信息提取新数据库，其中手写的finding aid包含了从18-20世纪的六个系列的元数据，每个文档都被页级注释，涵盖了七个检索字段。此数据集是分割自由系统信息提取研究的好机会。提出了基于Transformer架构的模型，用于端到端信息提取，并提供三个数据集以进行未来研究的公平比较。

Apr, 2023

历史欧洲的人物和地点：自举标注管道和晚期中世纪文本中命名实体的新语料库

本文开发了一个新的NER语料库，并使用信息检索技术，自动引导命名实体识别-注释语料库。我们使用我们的语料库训练了一个NER模型，具有72.81-93.98％的实体级精度和58.14-81.77％的召回率。此外，我们公开发布了我们的语料库，模型和实验代码，以便他人重现和构建我们的工作。

May, 2023

运用结合机器学习的方法提高19世纪历史文献中的OCR质量

该论文利用机器学习模型针对历史研究的挑战进行研究，旨在提高OCR质量和识别数据结构的准确度。

Jan, 2024

波兰文本历时规范化的两种方法

该论文讨论了波兰文本的两种历时归一化方法: 基于手工模式和基于文本到文本转换转换器架构的神经归一化模型。论文详细讨论了为任务准备的训练和评估数据，以及用来比较所提出的归一化解决方案的实验。进行了定量和定性分析，结果显示，在当前阶段的问题研究中，基于规则的解决方案在准备的数据集的4个变体中有3个表现更好，尽管在实践中，这两种方法都有各自的优势和劣势。

Feb, 2024

历史德语文本规范化：基于类型和标记的语言建模

本研究解决了历史拼写变体给历史数字化文本的全文搜索和自然语言处理带来的挑战。论文提出了一种基于Transformer语言模型的德语文学文本自动规范化系统，使用平行语料库进行训练，结果显示该系统在准确性方面表现出色，接近更大型的全端到端句子规范化系统，但仍面临历史文本规范化中的模型泛化困难和高质量平行数据不足的挑战。

Sep, 2024