线性时间内的查询相关句子压缩
本文提出了一个基于句子压缩技术的任务框架,通过基于解析树的一系列学习模型,设计一种创新的 Beam Search 解码器来高效地找到高概率压缩结果,将语言学动机和查询相关性融入压缩过程中,并在多项指标上显著优于最先进的系统,包括在 DUC 2006 和 2007 摘要任务中分别获得 ROUGE-2 指标上 8.0% 和 5.4% 的改进。
Jun, 2016
该论文提出了一种基于同步树替换语法的树到树转导方法,可以自然地捕捉结构不匹配。论文还介绍了在此框架中解码的算法,并展示了如何在大间隔框架内进行有区别性的训练,实验结果表明,该模型在句子压缩方面取得了显著的改进。
Jan, 2014
本文提出了一种基于 SLAHAN 的序列到序列 (Seq2Seq) 模型,在解码过程中明确跟踪依赖父 / 子词以及捕捉将来将被解码的重要词汇,进而解决了在压缩句子过程中生成不合语法的问题,同时在 Google 数据集上取得了最佳的保留标记 F1、ROUGE-1、ROUGE-2 和 ROUGE-L 分数,同时高效提高了摘要生成性能。
Feb, 2020
本研究针对多文档摘要提出了一种基于整数线性规划模型的生成式摘要的方法,实验结果表明,该方法在信息内容和可读性方面均优于基线和先进的抽取式摘要器,且胜过最近提出的生成式摘要技术。
Sep, 2016
本篇论文介绍了一种线性文本分割的方法,相比于现有技术(Reynar,1998),其准确性提高了两倍,速度加快了七倍以上。该方法通过局部上下文中的排名替代句间相似度,并利用分裂聚类发现边界位置。
Mar, 2000
通过对句子语法和词汇约束的控制,本文提出了一种可以满足不同用户简化需求的 CROSS 句子简化模型,使用 Transformer-based 结构,在两个基准数据集上实验表明,语法和词汇约束对于成功的简化至关重要。
Oct, 2019
本文提出了一种基于联合提取和句法压缩的神经模型用于单文档摘要,该模型选择文档中的句子,通过句法分析识别可能的压缩,并用神经模型评分这些压缩以生成最终的摘要,实验结果表明,该模型在 ROUGE 评估中表现良好,能够达到与最先进系统相当的性能,并且其输出一般保持语法正确。
Feb, 2019
通过对长句子的问题进行调查,本文系统地回顾并分类了两种解决长句子问题的主要方法:句子压缩和句子拆分。文章指出,自 2005 年以来,对这一领域的兴趣呈增长趋势,尤其在 2017 年后增长明显。当前的研究主要以受监督的方法为主,但在弱监督和自监督技术方面存在较大的空白,表明这一领域尤其在数据有限的领域仍有进一步研究的机会。本文将最具代表性的方法进行分类和归组,并在常见的句子压缩和拆分数据集上进行比较评估分析。最后,本文讨论了当前方法存在的挑战和限制,并为未来的研究方向提供了宝贵的洞察。该调查旨在作为解决长句子复杂性的综合资源,旨在使研究人员在这一领域取得进一步的进展,直到长句子不再成为有效交流的障碍。
Dec, 2023