理解档案：依赖于文档的语义注释的新研究界面

Mar, 2024

理解档案：依赖于文档的语义注释的新研究界面

Understanding Archives: Towards New Research Interfaces Relying on the Semantic Annotation of Documents

Nicolas Gutehrlé, Iana Atanassova

TL;DR通过文本语义的语义注释，研究档案文件的构建框架和技术障碍的解决方案以及实际应用

Abstract

The digitisation campaigns carried out by libraries and archives in recent years have facilitated access to documents in their collections

digitisation campaigns libraries archives semantic annotation textual semantics

发现论文，激发创造

语义阅读器项目: AI 动力交互式阅读界面增强学术文献

本研究提出通过 AI 和 HCI 技术实现更智能、互动和无障碍的阅读界面，同时介绍 Semantic Reader 项目，它通过自动创建动态阅读界面，提高了学者的阅读体验。

Mar, 2023

未转录手写文件的开放集分类

本篇论文探讨了利用概率索引技术，对手写文本图像集合进行自动分类的问题，解决大量历史手稿数据的标签化和有效探索问题，并以西班牙 Hostórico 省的复杂公证手稿为例，取得了有希望的成果。

Jun, 2022

事件搜索与分析：基于语义注释的语料库中事件的识别与搜索分析

该研究旨在分析自然语言文本，利用语义注释挖掘文本语料库中的重要事件，解锁语料库中的知识宝库，并就如何识别重要事件、进行语义搜索和事件分析等问题进行了探讨。

Mar, 2016

结合视觉与文本特征进行历史报纸语义分割

本研究介绍了一种基于视觉和文本特征相结合的多模态方法，用于对历史报纸进行语义分割。该方法在 diachronic Swiss 和 Luxembourgish 报纸上进行了实验，结果显示多模态模型相较于强视觉基线模型进一步提升了高材料变异的鲁棒性和在不同时间和来源下的预测能力。

Feb, 2020

AutArch: 考古目录中物体检测和自动记录的 AI 辅助工作流

通过人工智能的对象检测神经网络技术，在考古学目录中快速、自动和标准化地收集数据，同时记录几何整体轮廓。

Nov, 2023

档案馆的教训：机器学习中收集社会文化数据的策略

本文强调数据收集是机器学习中一个被忽视的环节，社会文化机器学习可以从档案馆中汲取数据收集方法的经验，以此提高数据收集的公正性、透明度等方面。

Dec, 2019

科学文献元数据提取的新方法

本研究提出了一种自动、准确和灵活的算法，能够从数字化科学文章中直接提取各种元数据，包括基本文档元数据、结构化全文和参考文献部分。该算法通过在大规模、多样化的数据集上训练监督和无监督机器学习算法实现，具有较高的精度，适用于分析异构文档集合。与其他类似解决方案的比较也证明了我们的算法在大多数元数据类型上表现优于竞争对手。

Oct, 2017

依赖项：为信息检索形式化语义链

本论文在语义处理方面做出重大贡献，提出了多种数学模型以及解决研究范式中存在问题的建议，从而大大提升了机器自动进行语义推理的复杂性和粒度。

Sep, 2017

一个德国报纸文本的语言解释语料库

本文介绍了一个为德语文本开发的标注方案和标注工具，旨在基于论述结构进行表征，同时还允许其他表征的提取。本文还讨论了一些方法论问题和现象分析，并重点介绍了在项目中开发的工具及其应用。

Jul, 1998

从图书中构建图像与文本对数据集

利用数字档案进行机器学习的新方法，通过光学字符阅读器（OCR）、物体检测器和布局分析器构建数据集，展示其在图像 - 文本检索和洞察力提取方面的有效性。

Oct, 2023