历史文献的文本行分割：一份调查报告

Apr, 2007

历史文献的文本行分割：一份调查报告

Text Line Segmentation of Historical Documents: a Survey

Laurence Likforman-Sulem, Abderrazak Zahour, Bruno Taconet

TL;DR本文调研了历史文献数字化领域的文献分割、文本行分割、文字检索、鉴定和提取等方面所采用的各种方法，讨论了低质量和复杂性文献自动文本行分割的挑战。

Abstract

There is a huge amount of historical documents in libraries and in various National Archives that have not been exploited electronically. Although automatic reading of complete pages remains, in most cases, a long-term objective, tasks such as →

historical documents document segmentation text line segmentation word spotting authentication

发现论文，激发创造

分割混乱文本：检测从历史报纸影像中提取的文本边界

利用深度学习模型，我们在处理光学字符识别的历史报纸图片中的婚姻公告数据的文本分割任务上，表现显著优于现有技术。

Dec, 2023

文本分割作为监督学习任务

本研究利用维基百科文章，将文本分割任务作为有监督学习问题进行探究，提出了一个基于这个数据集的文本分割模型，并展示了其在未见过的自然文本上的泛化能力。

Mar, 2018

结合视觉与文本特征进行历史报纸语义分割

本研究介绍了一种基于视觉和文本特征相结合的多模态方法，用于对历史报纸进行语义分割。该方法在 diachronic Swiss 和 Luxembourgish 报纸上进行了实验，结果显示多模态模型相较于强视觉基线模型进一步提升了高材料变异的鲁棒性和在不同时间和来源下的预测能力。

Feb, 2020

阿拉伯手写文本行数据集

将阿拉伯手稿分割成文本行和单词是使识别系统更高效准确的重要步骤。我们提出了一个新的数据集，专门设计用于历史阿拉伯脚本，并在单词层面进行位置标注。

Dec, 2023

走向统一的文本分割和长文摘要

本文研究了文本切分在摘要提取中的作用，通过将摘要和切分同时进行学习，以及通过一种基于优化的正则化方法来提高模型的多样性，实现了既能在科学文章也能在口语记录中达到最优性能且具有更好的跨体裁可转移性的效果。

Oct, 2022

SegHist: 一种基于分割的中国历史文档文本行检测框架

提出了一种通用的历史文档文本检测框架（SegHist），结合 DB++ 方法实现了 DB-SegHist，以应对历史文档分割为基础的文本检测方法在处理高宽比文本行等挑战时的有效性，取得了在 CHDAC、MTHv2 和 HDRC 数据集上的最新技术水平以及在 CHDAC 数据集上高宽比文本行更好的结果，在旋转 MTHv2 和旋转 HDRC 数据集上也达到了最新技术水平，具备旋转鲁棒性。

Jun, 2024

文本分段的文档摘要

本研究旨在利用文献的内在结构，通过建立两个文本分割模型并寻找最优策略，使它们的输出预测投入到一种提取式摘要模型中，实验结果表明，提取式摘要从使用高准确度的分割方法中受益匪浅，特别地，在文档中最相关信息不在开头的情况下，分割有助于减少引导偏差问题。

Jan, 2023

法律文件的结构化文本分段

本研究提出了一种基于 transformer 网络和结构化文本分割的方法来预测跨越多个段落的连续文本段落的主题连贯性，以更有效地满足用户特定的信息需求，研究结果表明，此方法显著优于基线，并适应法律文件的结构特点。

Dec, 2020

野外场景中的文本识别：一项调查

该论文总结了场景文本识别的基本问题和最新技术，提供了相关资源，指出了未来的研究方向。

May, 2020

READ-BAD: 基于文献资料的基线检测新数据集及评价方案

本文提出了一种基于基线的文本行检测算法评估方案，无需二值化即可处理倾斜和旋转的文本行，同时在 ICDAR 2017 比赛中使用此评估方案并介绍了最新文本行检测算法的效果。

May, 2017