历史文献的文本行分割:一份调查报告
本研究介绍了一种基于视觉和文本特征相结合的多模态方法,用于对历史报纸进行语义分割。该方法在 diachronic Swiss 和 Luxembourgish 报纸上进行了实验,结果显示多模态模型相较于强视觉基线模型进一步提升了高材料变异的鲁棒性和在不同时间和来源下的预测能力。
Feb, 2020
本文研究了文本切分在摘要提取中的作用,通过将摘要和切分同时进行学习,以及通过一种基于优化的正则化方法来提高模型的多样性,实现了既能在科学文章也能在口语记录中达到最优性能且具有更好的跨体裁可转移性的效果。
Oct, 2022
提出了一种通用的历史文档文本检测框架(SegHist),结合 DB++ 方法实现了 DB-SegHist,以应对历史文档分割为基础的文本检测方法在处理高宽比文本行等挑战时的有效性,取得了在 CHDAC、MTHv2 和 HDRC 数据集上的最新技术水平以及在 CHDAC 数据集上高宽比文本行更好的结果,在旋转 MTHv2 和旋转 HDRC 数据集上也达到了最新技术水平,具备旋转鲁棒性。
Jun, 2024
本研究旨在利用文献的内在结构,通过建立两个文本分割模型并寻找最优策略,使它们的输出预测投入到一种提取式摘要模型中,实验结果表明,提取式摘要从使用高准确度的分割方法中受益匪浅,特别地,在文档中最相关信息不在开头的情况下,分割有助于减少引导偏差问题。
Jan, 2023
本研究提出了一种基于 transformer 网络和结构化文本分割的方法来预测跨越多个段落的连续文本段落的主题连贯性,以更有效地满足用户特定的信息需求,研究结果表明,此方法显著优于基线,并适应法律文件的结构特点。
Dec, 2020
本文提出了一种基于基线的文本行检测算法评估方案,无需二值化即可处理倾斜和旋转的文本行,同时在 ICDAR 2017 比赛中使用此评估方案并介绍了最新文本行检测算法的效果。
May, 2017