PHD: 基于像素的历史文档语言建模

EMNLPOct, 2023

PHD: 基于像素的历史文档语言建模

PHD: Pixel-Based Language Modeling of Historical Documents

Nadav Borenstein, Phillip Rust, Desmond Elliott, Isabelle Augenstein

TL;DR利用基于像素的语言模型对历史文档进行像素遮罩重建，通过生成合成扫描以模拟真实历史文档，展示模型在像素遮罩重建和语言理解能力上的卓越效果，并成功应用于历史问答任务。

Abstract

The digitisation of historical documents has provided historians with unprecedented research opportunities. Yet, the conventional approach to analysing →

digitisation historical documents pixel-based language models synthetic scans language understanding capabilities

发现论文，激发创造

像素的语言建模

该文章介绍了 PIXEL，一种基于像素的预训练语言模型，通过将文本渲染为图像，PIXEL 可以处理不同语言，特别是非拉丁文字。实验发现 PIXEL 在语法和语义处理方面表现优异，且对于噪声文本的输入更为稳健。

Jul, 2022

结合视觉与文本特征进行历史报纸语义分割

本研究介绍了一种基于视觉和文本特征相结合的多模态方法，用于对历史报纸进行语义分割。该方法在 diachronic Swiss 和 Luxembourgish 报纸上进行了实验，结果显示多模态模型相较于强视觉基线模型进一步提升了高材料变异的鲁棒性和在不同时间和来源下的预测能力。

Feb, 2020

构建多元数字历史的高效 OCR

通过对 OCR 进行字符级图像检索建模，解决了现有体系结构在低资源情况下无法准确识别光学字符识别问题的不足，并为社区参与使数字历史更具代表性开辟了新的途径。

Apr, 2023

利用合成数据生成和基于 Transformer 的模型提升古籍文档中的物体检测

通过降低虚假阳性和提高精确度的方法，我们在古代文献中增强了物体检测，并通过计算转换生成合成数据集，将视觉特征提取与物体检测过程相结合，进一步关联物体与其组成部分，并引入视觉特征图，从而深入分析和促进了有价值的历史文物，给古文字学领域带来了深远影响。

Jul, 2023

DUBLIN -- 语言 - 图像网络理解文档

通过预训练 DUBLIN 模型，利用文档图像中的空间和语义信息，包括 Masked Document Content Generation Task、Bounding Box Task 和 Rendered Question Answering Task，实现对象检测和文档图像理解，在各项基准测试中优于现有模型，尤其在 WebSRC 数据集，其 EM 值和 F1 值分别为 77.75 和 84.25，与文本型 SOTA 方法具有可比性。

May, 2023

利用去噪实现拼贴，修复和和谐化：使用预训练的扩散模型进行主题驱动的图像编辑

本研究提出了一种名为 PhD 的框架，它利用样例图像和文本描述来指定用户意图，通过对生成或编辑的图像进行插入、修补和协调来保证其视觉一致性，并通过实验验证其在主题驱动的图像编辑和基于参考主题的文本驱动场景生成方面均达到了最先进的性能。

Jun, 2023

DocLangID: 改进少样本训练方法以识别历史文档的语言

本文提出了一个迁移学习方法，使用少量手动标注的数据从历史文本领域进行有标注的迁移学习，通过基于距离的少量样本学习来适应新的历史文本数据分布，从而识别未标注历史文本数据中的语言，展示了其在 10 种主要使用拉丁字母的语言历史文本领域中成功的性能。

May, 2023

像素语言模型的文本呈现策略

像素模型的渲染策略对语言模型的性能有重要影响，使用字符二元组渲染能够提高模型的性能，同时在句子级任务上不会降低处理标记和多语言任务的性能，还能以只有 2200 万参数的更小模型达到与原始 8600 万参数模型相当的性能，分析表明字符二元组渲染产生了更好的模型，但由于补丁频率偏差而导致异性的补丁嵌入空间，突显了图像补丁和记号化语言模型之间的联系。

Nov, 2023

为历史图像数据集创作使用基础模型的文本 - 图像提示研究

利用基础模型提取历史文献中的图像，并评估不同语言提示对人文学科不同级别的数据集上的效果。

Sep, 2023

元数据可能使语言模型更好

本文研究了在历史文献收藏品中训练语言模型时加入元数据的好处，通过对 19 世纪报纸的案例研究，扩展了 Rosin 等人 2022 年提出的时间遮蔽方法，并比较了将时间、政治和地理信息插入蒙版语言模型中的不同策略。实验证明，向语言模型展示相关元数据具有积极的影响，并可能产生更健壮、更公正的模型。通过在一系列评估任务上进行系统评估，包括伪困惑度、元数据蒙版填充和监督分类。

Nov, 2022