- 文献综述的层次目录生成:基准评估
本研究以文獻綜述的目錄生成為挑戰,構建了涵蓋 13.8k 個目錄和 120k 個參考文獻的英文文獻綜述目錄數據集,並通過端到端和管線方法進行了多方面的評估與分析,提出了基於語義和結構相似度的模型性能評估方式。結果顯示,本研究提出的生成方法與 - AAAI用于抽象式多文档摘要的压缩异构图
HGSUM 是一种多文档摘要模型,其通过使用异构图来表示文档中的不同语义单元(例如单词和句子),并使用图池化进行压缩以保留文档中关键信息和关系。在训练中,HGSUM 使用另一种目标来最大化压缩图与来源自地面真实摘要构建的图之间的相似性,并通 - 从多个文档中挖掘共性和特异性用于多文档摘要
本文提出了一种基于文档层次聚类的多文档自动摘要方法,通过提取反映所有文档共性和部分子类特异性的句子生成摘要,从而满足多文档摘要的覆盖和多样性要求。在 DUC'2002-2004 和 Multi-News 数据集上的实验证明了该方法的有效性。
- IJCAI生成大量学术论文结构化摘要:数据集和方法
提出了一种名为 CAST 的归类对齐和稀疏变换器的自动摘要方法,使用 BigSurvey 数据集,将超过 7000 份调查论文的摘要作为目标摘要,430,000 篇参考论文的摘要作为输入文档,赢得了各种高级自动摘要方法的比较实验。
- ICLR多篇文档摘要模型是否具有综合能力?
本文旨在评估现代多文档摘要模型在混合输入时是否能够适当地综合输出,并提出了一种改进模型综合能力的方法,即通过生成多样的候选输出并在这些中选择与期望聚合度量最能匹配的字符串或在模型产生的候选项不好时选择回避。
- 探索开放领域多文档摘要的挑战
本文研究了 Multi-document summarization (MDS) 在基于开放领域的信息检索下的应用。作者在实验中发现现有的摘要算法性能较低,但通过训练摘要算法可以减少检索错误对算法性能的影响。此外,作者还进行了扰动实验研究了 - AAAISumREN: 新闻事件报道语的摘要
该论文介绍了一种新颖的任务 —— 总结不同演讲者对给定事件的反应,包括报告的声明,这与现有的新闻摘要任务不同。研究人员创建了一个新的多文档摘要基准 SUMREN,并提出了一种自动银色训练数据生成方法。他们还介绍了一种基于管道的框架,可以更抽 - 将最先进的模型与最大边际相关性相结合,进行少样本和零样本的多文档摘要
本篇论文主要研究如何使用最大边际相关性(MMR)结合深度学习方法以实现多文档摘要的 few-shot 或 zero-shot 应用,并在这种方法的基础上提出一个能够同时保证相关性和输出质量的新算法。
- ACL超越词汇列表:面向科技文档的抽象主题标签
本研究通过抽象式的多文档摘要(MDS)将生成人类般的主题标签作为替代方案,此外结合聚类和摘要来评估主题模型,以理解需要进一步研究才能实现 MDS 主题标签功能,同时提出了改进 MDS 的思路。
- EMNLP多篇文档摘要如何 “多”?
本文介绍一种用于评估多文档摘要生成模型及数据集中数据分散程度的自动化度量方法,并检验几个流行的多文档摘要数据集,结果表明某些数据集没有利用多文档信息,提出应用该度量方法评估数据集和模型的性能。
- 针对抽象式多文档摘要的文档感知位置编码和语言引导编码
本文提出了一种新的多文档自动摘要模型,使用文档关系编码和基于语言指导的编码辅助 Transformer 模型来增强多文档摘要的质量,实验结果表明该模型可以生成高质量的自动摘要。
- 层次化并行变压器与注意力对齐技术用于抽象多文档摘要
本研究提出了一种带有 Attention Alignment 机制的 Parallel Hierarchical Transformer(PHT)用于 Multi-Document Summarization(MDS)。 通过将单词级和段落 - 基于质心预训练的多文档摘要
本文提出了一种简单的预训练目标:选择每个文档簇的基于 ROUGE 的中心点作为摘要,以用于多文件摘要的预训练。通过多个 MDS 数据集的零 - shot 和完全监督实验,我们证明了我们的 Centrum 模型比最先进的模型更好或具有可比性。
- Multi-LexSum: 多粒度民权诉讼实现的现实世界摘要
我们介绍了 Multi-LexSum,它是一个包含 9,280 篇专家撰写的摘要的集合,用于进行多文档摘要生成的挑战性任务,并且尽管训练数据的摘要质量很高,但最先进的摘要模型在此任务上表现不佳。
- 通过参考灵活提取和信用感知来提高多文档摘要
本文提出一种通过提取 - 摘要 Transformer 框架解决多文档摘要中输入长度过长问题的方法,其中包括分层提取和摘要重写。通过权重和深度强化学习等机制建立了抽取 - 摘要模型,实现了在大型数据集 Multi-News,Multi-XS - 利用信息提取和压缩进行大规模多文档摘要
开发了一种基于抽象的总结框架,适用于多个异构文档,该框架独立于标记数据。 与现有的多文件总结方法不同,我们的框架处理讲述不同故事的文档,而不是同一主题的文档。 最后,我们基于 CNN / Daily Mail 和 NewsRoom 数据集构 - ACL优先阅读热门新闻:一种用于多文档新闻摘要的文档重排方法
一种简单的重新排序文档的方法,来提高多文档摘要的性能,从而更好地学习摘要模型。
- ACL松弛多文档摘要的多文档覆盖奖励
本文提出利用 RELAX 方法 fine-tune 多文档自动摘要系统,达到更好的效果,并验证其在多个数据集上的竞争性能。
- ACL多文档摘要的命题级聚类
本研究重新审视单词聚类方法,通过将子句命题分组,从而能更精确地对齐信息。我们的方法检测重要的命题,将它们聚类形成释义的群集,并通过文本融合为每个聚类生成代表性句子。在 DUC2004 和 TAC2011 数据集中,我们的总结方法在自动 RO - EMNLP主题引导的抽象多文档摘要
该论文提出了一种基于异构图和神经主题模型的抽象多文档摘要模型,采用图到序列的框架,同时训练主题和摘要模块以提高性能和生成高质量主题。