隐私保护多文档摘要
开发了一种基于抽象的总结框架,适用于多个异构文档,该框架独立于标记数据。 与现有的多文件总结方法不同,我们的框架处理讲述不同故事的文档,而不是同一主题的文档。 最后,我们基于 CNN / Daily Mail 和 NewsRoom 数据集构建了总共十二个数据集变体,其中每个文档组都包含大量且多样化的文档,以评估我们的模型与其他基线系统的性能。 我们的实验表明,我们的框架在这种更通用的情况下胜过了现有的最先进方法。
May, 2022
本文提出了一种无监督基于质心的文档级重构框架,利用分布式词袋模型来选择摘要句以最小化摘要和文档之间的重构误差,并应用句子选择和波束搜索来进一步提高模型性能。针对两个不同的数据集实验结果表明,与现有基线相比,我们的模型表现出显著的性能提升。
Oct, 2017
提出了一种新的神经模型用于文本摘要,首先从文档中提取句子然后再压缩它们,达到了抽象方法所暴露出的难度和提取方法所缺乏的简洁性的平衡,且所提模型在 CNN/DailyMail 和 Newsroom 数据集上均取得了最先进的效果。
Apr, 2019
该研究提出了一种新的整体框架用于无监督的多文档摘要,通过综合度量指标 Subset Representative Index(SRI)平衡了源文件中一部分句子的重要性和多样性,并且经过了大规模实验进行了验证,其结果显示该方法在 ROUGE 得分和多样性度量方面明显优于强基准线,并且多样性对于提高多文档摘要性能至关重要。
Sep, 2023
我们提出了一种用于摘要生成的检索引导模型,结合了非参数记忆。该模型使用近似最近邻搜索从数据库中检索相关的候选文本,然后利用复制机制和源文档生成摘要。我们在包括科学文章的 MultiXScience 数据集上评估了我们的方法,并讨论了我们的结果和未来工作的可能方向。
Nov, 2023
本论文介绍了一种基于强化学习并且能够逐步提取文本摘要的 MemSum 摘要器,它在每一步都可以使用包括文本内容、全局文本上下文和提取历史在内的信息集合来决定摘要中摘录哪些句子;经对 PubMed、arXiv 和 GovReport 等长文档进行测试,该轻量架构模型的 ROUGE 性能处于领先水平;消融研究证明了局部、全局和历史信息的重要性;人类评估也印证了 MemSum 生成的摘要质量高且冗余度低。
Jul, 2021
本研究提出了一种称为混合记忆网络的全数据驱动端到端深度网络,用于单个文档摘要任务,其通过联合捕获局部和全局句子信息以及摘要有价值的句子的概念来学习文档的连续统一表示,实验结果表明,与现有最先进的基线相比,该模型展示了显著的性能提升。
Dec, 2019
多文档摘要是自动生成与同一主题相关的多个文档的简洁摘要的过程。本文提出了一个机器学习模型,从多个新闻文档中生成主题的简洁摘要,并设计成能够公正地从各个方面均等采样输入信息,即使大多数新闻来源倾向于一方。
Dec, 2023
我们通过引入深度神经网络的短语评分框架,将文档进行编码并汇总为连续向量空间的方法来解决法律案件检索任务,同时探索了词汇特征和神经网络生成的潜在特征的结合带来的好处。实验证明,词汇特征和神经网络生成的潜在特征相互补充,提高了检索系统的性能。此外,实验结果表明了案件汇总在不同方面的重要性:使用提供的摘要和执行编码摘要。我们的方法在法律案件检索任务的实验数据集上实现了 65.6% 和 57.6% 的 F1 得分。
Sep, 2023
我们提出了一种新颖的基于图形的框架,用于摘要会议演讲,完全不需要监督和任何注释。我们的工作结合了多种最近的方法的优点,同时解决了它们的弱点。此外,我们利用最近在 NLP 中应用的字嵌入和图形退化的进展,考虑外部语义知识,并设计了自定义的多样性和信息量度量。在 AMI 和 ICSI 语料库上的实验表明,我们的系统改进了现有技术水平。代码和数据可公开获取,我们的系统可以交互式测试。
May, 2018