本文介绍了一个新的评测基准 YTSeg,着重于非结构化的语音内容,提出了一种高效的层次分割模型 MiniSeg,并对比了现有的基准方法。此外,还将文本分割的概念扩展到实际的 “智能章节切割” 任务中,包括非结构化内容的分割、生成有意义的片段标题以及模型的潜在实时应用。
Feb, 2024
提出了一种通过在线学习指南的摘要 / 章节对生成小说章节摘要的新任务,重点是提取性摘要和对齐方法,通过创建出金标准提取性摘要句子以及实验不同的对齐方法,从而在自动指标等方面得出我们的任务比原先方法有了显著的改进,通过众包金字塔分析。
May, 2020
本文介绍 ChapterBreak 数据集,用于评估长距离语言模型(LRLMs)理解语言的能力。实验结果表明,现有的 LRLMs 在处理全局上下文方面表现不佳,相比直接训练用于此任务的分段级别模型,性能显著下降。
Apr, 2022
视频章节生成、时间分割、章节标题生成、视频章节定位和在 VidChapters-7M 上的预训练能够显著改进 YouCook2 和 ViTT 基准测试中的视频语言模型绩效。
Sep, 2023
本研究利用维基百科文章,将文本分割任务作为有监督学习问题进行探究,提出了一个基于这个数据集的文本分割模型,并展示了其在未见过的自然文本上的泛化能力。
Mar, 2018
本文提出了一种在低资源环境下生成段落标题的技术,采用具有无监督字表示如 ELMo 或 BERT 的半马尔可夫条件随机场的压缩方法,将效果与高资源的序列到序列模型相媲美,而在低资源情况下表现更为出色,对阅读能力较差的人群的正面效果尤为明显。
Apr, 2019
本文研究了文本切分在摘要提取中的作用,通过将摘要和切分同时进行学习,以及通过一种基于优化的正则化方法来提高模型的多样性,实现了既能在科学文章也能在口语记录中达到最优性能且具有更好的跨体裁可转移性的效果。
Oct, 2022
利用深度学习模型,我们在处理光学字符识别的历史报纸图片中的婚姻公告数据的文本分割任务上,表现显著优于现有技术。
Dec, 2023
该研究介绍了一个名为 Chapter-Gen 的数据集,用于视频章节自动生成,提出了一个特定于视频章节生成任务的有效基线,并开发了 skip sliding window 机制来定位潜在章节并汇总本地特征,实验结果表明这种新框架具有优越性。
Sep, 2022
采用皮线式提取性 - 生成性方法,提炼文本信息,生成对章节的摘要。利用成分级别的提取组件,以脊树信息实现句法呈现,并采用边界分数损失函数鼓励提取器分辨出正面实例和负面实例。该方法表现优于现有小说章节数据集上的之前研究工作。
Nov, 2022