章节捕手：小说中的文本分割

EMNLPNov, 2020

Chapter Captor: Text Segmentation in Novels

Charuta Pethe, Allen Kim, Steven Skiena

TL;DR使用神经推理和规则匹配的混合方法，预测长篇文本的章节边界，通过剔除结构线索并利用预测数据集，我们发现切割和神经方法可以精确地分割小说的章节，并揭示了小说章节结构的有趣历史趋势。

Abstract

Books are typically segmented into chapters and sections, representing coherent subnarratives and topics. We investigate the task of predicting chapter boundaries, as a proxy for the general task of segmenting long text

chapter boundaries segmenting long texts neural inference rule matching historical trends

发现论文，激发创造

从文本分割到智能分章：一个用于视频转录结构化的新型基准测试

本文介绍了一个新的评测基准 YTSeg，着重于非结构化的语音内容，提出了一种高效的层次分割模型 MiniSeg，并对比了现有的基准方法。此外，还将文本分割的概念扩展到实际的 “智能章节切割” 任务中，包括非结构化内容的分割、生成有意义的片段标题以及模型的潜在实时应用。

Feb, 2024

小说章节摘要中内容选择的探索

提出了一种通过在线学习指南的摘要 / 章节对生成小说章节摘要的新任务，重点是提取性摘要和对齐方法，通过创建出金标准提取性摘要句子以及实验不同的对齐方法，从而在自动指标等方面得出我们的任务比原先方法有了显著的改进，通过众包金字塔分析。

May, 2020

ChapterBreak：长序列语言模型的挑战数据集

本文介绍 ChapterBreak 数据集，用于评估长距离语言模型（LRLMs）理解语言的能力。实验结果表明，现有的 LRLMs 在处理全局上下文方面表现不佳，相比直接训练用于此任务的分段级别模型，性能显著下降。

Apr, 2022

规模化的视频章节 (VidChapters-7M)

视频章节生成、时间分割、章节标题生成、视频章节定位和在 VidChapters-7M 上的预训练能够显著改进 YouCook2 和 ViTT 基准测试中的视频语言模型绩效。

Sep, 2023

文本分割作为监督学习任务

本研究利用维基百科文章，将文本分割任务作为有监督学习问题进行探究，提出了一个基于这个数据集的文本分割模型，并展示了其在未见过的自然文本上的泛化能力。

Mar, 2018

基于半马尔可夫条件随机场的神经体节标题生成改进人类文本理解

本文提出了一种在低资源环境下生成段落标题的技术，采用具有无监督字表示如 ELMo 或 BERT 的半马尔可夫条件随机场的压缩方法，将效果与高资源的序列到序列模型相媲美，而在低资源情况下表现更为出色，对阅读能力较差的人群的正面效果尤为明显。

Apr, 2019

走向统一的文本分割和长文摘要

本文研究了文本切分在摘要提取中的作用，通过将摘要和切分同时进行学习，以及通过一种基于优化的正则化方法来提高模型的多样性，实现了既能在科学文章也能在口语记录中达到最优性能且具有更好的跨体裁可转移性的效果。

Oct, 2022

分割混乱文本：检测从历史报纸影像中提取的文本边界

利用深度学习模型，我们在处理光学字符识别的历史报纸图片中的婚姻公告数据的文本分割任务上，表现显著优于现有技术。

Dec, 2023

多模式视频章节生成

该研究介绍了一个名为 Chapter-Gen 的数据集，用于视频章节自动生成，提出了一个特定于视频章节生成任务的有效基线，并开发了 skip sliding window 机制来定位潜在章节并汇总本地特征，实验结果表明这种新框架具有优越性。

Sep, 2022

使用脊柱树感知的子句内容选择的小说章节抽象摘要

采用皮线式提取性 - 生成性方法，提炼文本信息，生成对章节的摘要。利用成分级别的提取组件，以脊树信息实现句法呈现，并采用边界分数损失函数鼓励提取器分辨出正面实例和负面实例。该方法表现优于现有小说章节数据集上的之前研究工作。

Nov, 2022