提出一种新颖的基于片段级别的文本分割框架,通过 LSTM 技术构建短语表示,并利用循环神经网络模型迭代确定段落最左侧的片段。实验证明,在 3 个数据集上,该方法在句法分块和中文词性标注方面取得了显著优于先前最佳模型的表现,并在建模长期依赖方面具有有效性。
Apr, 2021
引入了分段循环神经网络(SRNN),并使用全局半马尔可夫条件随机场来集成本地兼容性分数,从而在手写识别和汉语分词 / 词性标注方面获得了显着更高的准确性。
Nov, 2015
本文介绍一种基于上下文敏感的无监督词分割模型,使用双向神经语言模型和两种解码算法来增强长期和短期的相关性,该模型在不同的数据集上实现了最新技术水平的中文和泰文词分割结果。
Mar, 2021
本文研究了文本切分在摘要提取中的作用,通过将摘要和切分同时进行学习,以及通过一种基于优化的正则化方法来提高模型的多样性,实现了既能在科学文章也能在口语记录中达到最优性能且具有更好的跨体裁可转移性的效果。
Oct, 2022
本研究旨在利用文献的内在结构,通过建立两个文本分割模型并寻找最优策略,使它们的输出预测投入到一种提取式摘要模型中,实验结果表明,提取式摘要从使用高准确度的分割方法中受益匪浅,特别地,在文档中最相关信息不在开头的情况下,分割有助于减少引导偏差问题。
Jan, 2023
本研究通过人类对自然讲话文本的分段来评估语篇分割与三种语言线索(指代名词短语,提示词和停顿)之间的关联性,并使用信息检索度量对其进行量化分析。
May, 1994
通过一种新的概率模型和训练方法来建模长文本序列,提出了一种新的评估策略以维持序列的连贯性,并全面捕捉时空依赖关系,实验证明其在各种序列评估任务中表现出优异性能,并在人工智能和人类文本区分上取得竞争性结果。
May, 2024
提出了一种适应性和统一性的分段到分段框架(Seg2Seg)用于同步序列生成,通过引入潜在分段作为源到目标之间的桥梁并通过期望训练探索所有可能的源 - 目标映射,从而学习生成的最佳时机。实验结果表明,Seg2Seg 在多个同时生成任务中取得了最先进的性能,并且在各种任务中展现出更好的普适性。
Oct, 2023
本文介绍了一个新的评测基准 YTSeg,着重于非结构化的语音内容,提出了一种高效的层次分割模型 MiniSeg,并对比了现有的基准方法。此外,还将文本分割的概念扩展到实际的 “智能章节切割” 任务中,包括非结构化内容的分割、生成有意义的片段标题以及模型的潜在实时应用。
Feb, 2024
提出了一种小型模型的分段模型,使用 ASR 语音识别与标点任务作为前训练策略并将其整合到 ST 系统中,以提高语音翻译质量。
Jun, 2024