文本规范化对中世纪文书分类的相关性研究
本文简要讨论了历史文本规范化系统的评估问题,通过比较两个神经模型和一个基准系统,阐释了我们的评估方法,并得出结论,未来的工作应包括更严格的评估,包括可能的内在和外在度量。
Apr, 2018
本文介绍迄今最大的历史文本规范化研究,涵盖了基于规则、距离度量、基于字符的机器翻译、神经编码器-解码器模型等所有提出的规范化技术类别,并使用不同的数据集和评估方法进行比较,分析了训练数据数量的影响,并提供了公开的数据集和脚本。
Apr, 2019
本文探讨了应用于法国历史文件的逻辑版面分析问题,并提出了一种基于规则的方法,并对两种机器学习模型 RIPPER 和 Gradient Boosting 进行了评估和比较。通过实验表明,我们的规则系统表现优于两种机器学习模型,提高了召回率,并证实了我们的系统可以生成足够大的注释数据集,以便于机器学习或深度学习方法进行逻辑版面分析任务。
Feb, 2022
本篇研究讨论了针对历史文本进行命名实体识别的挑战,并提出使用大型历史语言模型 hmBERT 预训练来解决标注数据不充足的问题,并使用 HIPE-2022 共享任务来评估模型性能。
May, 2022
提出一个包含5,393份手写历史文档的信息提取新数据库,其中手写的finding aid包含了从18-20世纪的六个系列的元数据,每个文档都被页级注释,涵盖了七个检索字段。此数据集是分割自由系统信息提取研究的好机会。提出了基于Transformer架构的模型,用于端到端信息提取,并提供三个数据集以进行未来研究的公平比较。
Apr, 2023
本文开发了一个新的NER语料库,并使用信息检索技术,自动引导命名实体识别-注释语料库。我们使用我们的语料库训练了一个NER模型,具有72.81-93.98%的实体级精度和58.14-81.77%的召回率。此外,我们公开发布了我们的语料库,模型和实验代码,以便他人重现和构建我们的工作。
May, 2023
该论文讨论了波兰文本的两种历时归一化方法: 基于手工模式和基于文本到文本转换转换器架构的神经归一化模型。论文详细讨论了为任务准备的训练和评估数据,以及用来比较所提出的归一化解决方案的实验。进行了定量和定性分析,结果显示,在当前阶段的问题研究中,基于规则的解决方案在准备的数据集的4个变体中有3个表现更好,尽管在实践中,这两种方法都有各自的优势和劣势。
Feb, 2024
本研究解决了历史拼写变体给历史数字化文本的全文搜索和自然语言处理带来的挑战。论文提出了一种基于Transformer语言模型的德语文学文本自动规范化系统,使用平行语料库进行训练,结果显示该系统在准确性方面表现出色,接近更大型的全端到端句子规范化系统,但仍面临历史文本规范化中的模型泛化困难和高质量平行数据不足的挑战。
Sep, 2024