分割混乱文本：检测从历史报纸影像中提取的文本边界

Dec, 2023

分割混乱文本：检测从历史报纸影像中提取的文本边界

Segmenting Messy Text: Detecting Boundaries in Text Derived from Historical Newspaper Images

Carol Anderson, Phil Crone

TL;DR利用深度学习模型，我们在处理光学字符识别的历史报纸图片中的婚姻公告数据的文本分割任务上，表现显著优于现有技术。

Abstract

text segmentation, the task of dividing a document into sections, is often a prerequisite for performing additional natural language processing tasks. Existing →

text segmentation natural language processing newspaper marriage announcements deep learning-based model segmentation performance

发现论文，激发创造

历史文献的文本行分割：一份调查报告

本文调研了历史文献数字化领域的文献分割、文本行分割、文字检索、鉴定和提取等方面所采用的各种方法，讨论了低质量和复杂性文献自动文本行分割的挑战。

Apr, 2007

文本分割作为监督学习任务

本研究利用维基百科文章，将文本分割任务作为有监督学习问题进行探究，提出了一个基于这个数据集的文本分割模型，并展示了其在未见过的自然文本上的泛化能力。

Mar, 2018

结合视觉与文本特征进行历史报纸语义分割

本研究介绍了一种基于视觉和文本特征相结合的多模态方法，用于对历史报纸进行语义分割。该方法在 diachronic Swiss 和 Luxembourgish 报纸上进行了实验，结果显示多模态模型相较于强视觉基线模型进一步提升了高材料变异的鲁棒性和在不同时间和来源下的预测能力。

Feb, 2020

使用混合视觉和文本语言模型实现 19 世纪法国贸易目录的分录分离

本研究提出了一种基于 Named Entity Recognition（NER）的细粒度条目分离阶段方法，可同时利用文本和视觉知识，用于从重复组织的文档中提取结构化数据，如字典、目录或报纸，实验结果表明该方法在 19 世纪法国商业目录中效果显著。

Feb, 2023

文本分段的文档摘要

本研究旨在利用文献的内在结构，通过建立两个文本分割模型并寻找最优策略，使它们的输出预测投入到一种提取式摘要模型中，实验结果表明，提取式摘要从使用高准确度的分割方法中受益匪浅，特别地，在文档中最相关信息不在开头的情况下，分割有助于减少引导偏差问题。

Jan, 2023

基于注意力机制的神经文本分割

本文提出了一种基于注意力机制的双向 LSTM 模型，使用卷积神经网络学习句子嵌入，利用上下文信息预测文本分段，相比现有的竞争基准方法，在三个基准数据集上的 WinDiff 分数提高了约 7%。

Aug, 2018

走向统一的文本分割和长文摘要

本文研究了文本切分在摘要提取中的作用，通过将摘要和切分同时进行学习，以及通过一种基于优化的正则化方法来提高模型的多样性，实现了既能在科学文章也能在口语记录中达到最优性能且具有更好的跨体裁可转移性的效果。

Oct, 2022

从文本分割到智能分章：一个用于视频转录结构化的新型基准测试

本文介绍了一个新的评测基准 YTSeg，着重于非结构化的语音内容，提出了一种高效的层次分割模型 MiniSeg，并对比了现有的基准方法。此外，还将文本分割的概念扩展到实际的 “智能章节切割” 任务中，包括非结构化内容的分割、生成有意义的片段标题以及模型的潜在实时应用。

Feb, 2024

DocBed: 用于复杂版面文档的多阶段 OCR 解决方案

本文介绍了基于数字化报纸的复杂布局分析的挑战及其解决方法，其中提供了一个覆盖 21 个州、3000 张真实报纸图像的数据集，探索了多种前沿分割模型和后处理方法，以实现对报纸的数字化，并提供了结构化评估方法。

Feb, 2022

野外话题分割：面向半结构化和非结构化聊天分割

本文在分析当前 NLP 中的主题分割模型的通用性能力时，发现在处理非结构化文本时，预训练策略并没有提高模型在该领域的可迁移性，只用一个相对较小的与目标结构相同的训练集从头开始训练模型，可以显著改善分类结果...

Nov, 2022