检索增强的意见摘要的分层索引
我们提出了一种无监督的意见摘要方法,该方法将顾客评论中的句子编码到分层离散的潜空间中,然后基于编码的频率识别常见的意见,并通过解码这些频繁的编码生成抽象摘要和通过选择分配给相同频繁编码的句子生成提取摘要
May, 2023
该研究提出了一种新的整体框架用于无监督的多文档摘要,通过综合度量指标 Subset Representative Index(SRI)平衡了源文件中一部分句子的重要性和多样性,并且经过了大规模实验进行了验证,其结果显示该方法在 ROUGE 得分和多样性度量方面明显优于强基准线,并且多样性对于提高多文档摘要性能至关重要。
Sep, 2023
通过提出的 HiStruct+ 模型,将 Transformer-based language models 中的层级结构信息显式注入到提取式文摘模型中,提高了 PubMed 和 arXiv 数据集中提取式文摘的 ROUGEs 指标,实验发现:数据集对模型效果的影响是关键因素,数据集中的明显层级结构可以取得更大的性能提升,而在模型的表现中,层级位置信息的贡献最大。
Mar, 2022
提出使用层次感知图神经网络(HierGNN)实现文档结构层次分析的自动摘要模型,在 CNN / DM 和 XSum 数据集上分别取得了平均 ROUGE-1/2/L 为 0.55 和 0.75,在人工评估中也证明了其比基线具有更高的内容相关性和较少的冗余。
Nov, 2022
本文介绍了 HIBRIDS,一种用于将文档结构注入现代 Transformer 计算注意力得分的方法。同时,提出了一个新的任务,即分层问答 - 摘要生成,并标注了一个新的数据集。实验结果表明,与其他方法相比,HIBRIDS 模型在分层问答 - 摘要的质量和内容覆盖范围方面更优,同时能够提高对长篇政府报告和维基百科文章的摘要生成能力,表现以 ROUGE 指标进行评估。
Mar, 2022
本文提出了一种基于无监督的基于图的排名模型,用于提取科学文献的摘要。我们的方法假定源文档采用两级分层图表示,并利用不对称的位置提示来确定句子的重要性。在 PubMed 和 arXiv 数据集上的结果表明,我们的方法在自动指标和人工评价方面优于强无监督基线。此外,其性能与许多基于监督学习的方法相当。这些结果表明,篇章结构中的模式是确定科学文章重要性的强有力信号。
May, 2020
通过递归估计父句子与子句子之间的关系,组成一个无须外部解析器的潜在篇章树,以此进行无监督的单篇产品评论的纯摘要,并介绍了一种句子重要性排序的架构来生成集中在主要评论点的摘要。研究结果表明,该模型在相对长的评论中表现竞争或超越受监督模型的表现,其生成的摘要抽象了整个评论。
Jun, 2019
HyperSum 是一种提取式摘要框架,能够结合传统词汇摘要的效率和现代神经网络方法的准确性,通过利用在极高维度 (“维度祝福”) 上对向量进行随机初始化时出现的伪正交现象来构建具有代表性和高效的句子嵌入。通过简单地聚类所获取的嵌入并提取它们的中心,可以得到有竞争力的摘要。HyperSum 在摘要的准确性和可信度方面往往优于最先进的摘要器,同时速度快 10 至 100 倍。我们将 HyperSum 开源作为无监督的提取式摘要的强基准。
May, 2024
本文提出了一种基于文档精华提取的文本摘要方法,并通过引入语言因素和改进神经网络如 LSTMs 和 Neural Semantic Encoders,利用自我强化学习模型进一步提高了文本摘要的质量,实现并超越了文本摘要领域的最佳性能,其中基于分层 NSE 模型的 ROUGE 值提升近 4 个百分点。
Oct, 2019