聚焦本地上下文的话题分割模型
本文提出了一个基于层级注意力双向 LSTM 网络的主题分割器,通过添加相干性相关的辅助任务和受限制自注意力来更好地建模上下文,从而超过了 SOTA 方法,并在领域转移设置中证明了其鲁棒性和在多语言场景中的有效性。
Oct, 2020
本研究提出了一种基于 transformer 网络和结构化文本分割的方法来预测跨越多个段落的连续文本段落的主题连贯性,以更有效地满足用户特定的信息需求,研究结果表明,此方法显著优于基线,并适应法律文件的结构特点。
Dec, 2020
我们提出了一种注入了句际依赖结构的话语感知神经主题分割模型,以更好地利用句子之间的主题一致性进行主题边界分割预测,并在英文评估数据集上进行实证研究表明,我们的策略显著提高了神经主题分割器在域内和域外数据上的性能。
Sep, 2022
我们综合分析了现有的最先进主题分割模型在非结构化文本上的泛化能力,并发现充分训练目标非结构化领域的相对较小规模数据集可以显著提高分割结果。在对非结构化和半结构化聊天进行分割时,我们的实证评估表明,Focal Loss 函数是交叉熵和加权交叉熵损失函数的一个强大的替代方案。
Oct, 2023
通过对主题感知句子结构预测(TSSP)和对比语义相似度学习(CSSL)的改进,本文提升了监督模型从结构和相似性两个角度捕捉一致性的能力,进而进一步改善主题划分性能。
Oct, 2023
SECTOR 是一个支持机器阅读系统的文档分段与主题标签分类模型,同时提供了一个公共数据集 WikiSection,在评估中取得了显著的 29.5% F1 分数提高。
Feb, 2019
本文提出了一种基于注意力机制的双向 LSTM 模型,使用卷积神经网络学习句子嵌入,利用上下文信息预测文本分段,相比现有的竞争基准方法,在三个基准数据集上的 WinDiff 分数提高了约 7%。
Aug, 2018
本文在分析当前 NLP 中的主题分割模型的通用性能力时,发现在处理非结构化文本时,预训练策略并没有提高模型在该领域的可迁移性,只用一个相对较小的与目标结构相同的训练集从头开始训练模型,可以显著改善分类结果...
Nov, 2022
本研究旨在利用文献的内在结构,通过建立两个文本分割模型并寻找最优策略,使它们的输出预测投入到一种提取式摘要模型中,实验结果表明,提取式摘要从使用高准确度的分割方法中受益匪浅,特别地,在文档中最相关信息不在开头的情况下,分割有助于减少引导偏差问题。
Jan, 2023
提出了一种新的监督式文本分段模型,它基于简单而明确的连贯性建模,并包括两个层次相连的 Transformer 网络的神经架构,它是一种多任务学习模型,并且通过将句子级分段目标与区分正确顺序的连贯性目标耦合来实现。该模型称为具有连贯性感知的文本分割(CATS),在一系列基准数据集上实现了最先进的分割性能,通过与跨语言词嵌入相结合,我们还展示了它在零 - shot 语言转移方面的有效性:它可以成功地分割训练中未见过的语言中的文本。
Jan, 2020