提出一种单一的编码器 - 解码器神经网络方法,通过结构化总结的形式同时训练文档和对话数据的文本切片和标签任务,并成功展示了该方法在所属领域的顶尖性能以及其重要性。
Sep, 2022
本文在分析当前 NLP 中的主题分割模型的通用性能力时,发现在处理非结构化文本时,预训练策略并没有提高模型在该领域的可迁移性,只用一个相对较小的与目标结构相同的训练集从头开始训练模型,可以显著改善分类结果...
Nov, 2022
本文介绍了一个新的评测基准 YTSeg,着重于非结构化的语音内容,提出了一种高效的层次分割模型 MiniSeg,并对比了现有的基准方法。此外,还将文本分割的概念扩展到实际的 “智能章节切割” 任务中,包括非结构化内容的分割、生成有意义的片段标题以及模型的潜在实时应用。
Feb, 2024
本文研究了文本切分在摘要提取中的作用,通过将摘要和切分同时进行学习,以及通过一种基于优化的正则化方法来提高模型的多样性,实现了既能在科学文章也能在口语记录中达到最优性能且具有更好的跨体裁可转移性的效果。
Oct, 2022
利用深度学习模型,我们在处理光学字符识别的历史报纸图片中的婚姻公告数据的文本分割任务上,表现显著优于现有技术。
Dec, 2023
本研究旨在利用文献的内在结构,通过建立两个文本分割模型并寻找最优策略,使它们的输出预测投入到一种提取式摘要模型中,实验结果表明,提取式摘要从使用高准确度的分割方法中受益匪浅,特别地,在文档中最相关信息不在开头的情况下,分割有助于减少引导偏差问题。
Jan, 2023
本文调研了历史文献数字化领域的文献分割、文本行分割、文字检索、鉴定和提取等方面所采用的各种方法,讨论了低质量和复杂性文献自动文本行分割的挑战。
Apr, 2007
本研究提出了一种基于 transformer 网络和结构化文本分割的方法来预测跨越多个段落的连续文本段落的主题连贯性,以更有效地满足用户特定的信息需求,研究结果表明,此方法显著优于基线,并适应法律文件的结构特点。
Dec, 2020
我们综合分析了现有的最先进主题分割模型在非结构化文本上的泛化能力,并发现充分训练目标非结构化领域的相对较小规模数据集可以显著提高分割结果。在对非结构化和半结构化聊天进行分割时,我们的实证评估表明,Focal Loss 函数是交叉熵和加权交叉熵损失函数的一个强大的替代方案。
Oct, 2023
本文提出了一种基于注意力机制的双向 LSTM 模型,使用卷积神经网络学习句子嵌入,利用上下文信息预测文本分段,相比现有的竞争基准方法,在三个基准数据集上的 WinDiff 分数提高了约 7%。
Aug, 2018