- 通过关联改写视角评估零样本主动摘要的 LLM 模型
通过评估大型语言模型对原始和扰动数据集上的摘要性能,我们使用关联改写方法来测量大型语言模型作为摘要器的稳健性,并发现大型语言模型对于扰动文章的摘要结果不一致,需要进一步改进。
- SKT5SciSumm - 一种多文档科学摘要的混合生成方法
SKT5SciSumm 是一个混合框架,利用 SPECTER 对文本句子进行编码和表示,使用 k-means 聚类进行提取式摘要,利用 T5 系列模型生成抽象总结,从而在科学文本的多文档摘要任务上取得了最新的成果。
- ACL抽象摘要的来源识别
通过分析源句子,我们研究了神经生成摘要模型是如何将源信息转化为摘要的,包括对参考摘要和 PEGASUS 生成的系统摘要进行源句子注释,并比较了多种自动源句子检测方法以建立强大基线模型。实验结果表明,对于高度抽象的摘要,基于困惑度的方法表现良 - EMNLP科学论文的 Citance - 上下文总结
提出一种新的上下文化摘要方法,该方法可以根据含有引用文献的句子(称为 “引文”)生成信息丰富的摘要,概述了引文相关引用位置的文献内容,该方法提取和建模论文的引文,检索相关的引用文献段落,并生成针对每个引文的抽象摘要。
- 探索 LLMs 对长文问题回答的可行性
从长文摘要生成问题的方法对于 LLMs 的性能造成挑战,表明 LLMs(如 ChatGPT)与开源 LLMs(Alpaca、Llama)之间存在性能差距。
- 走向端到端的语音转文本摘要
将语音文字(S2T)摘要分为级联和端到端两种模型,并使用预训练的 T2T 摘要提取器进行迁移学习,进而将其应用于在线上传的广播新闻中。结果表明,端到端模型要略逊于级联模型,但都优于提取式基线模型。
- ACLIDAS: 使用抽象摘要发现意图
通过使用抽象摘要信息对话句子聚类,以发现隐含意图。本文提出了一种 IDAS 方法,利用大型语言模型来生成摘要标签,无监督任务中性能最先进。
- ACL可归属且可扩展的意见概括
我们提出了一种无监督的意见摘要方法,该方法将顾客评论中的句子编码到分层离散的潜空间中,然后基于编码的频率识别常见的意见,并通过解码这些频繁的编码生成抽象摘要和通过选择分配给相同频繁编码的句子生成提取摘要
- 序列到序列模型的结构剪枝:提高推理效率的非对称方法
该研究研究了模型大小、结构修剪、推理效率和摘要准确性之间的关系,发现准确性与编码器大小相关,而推理效率与解码器相关,使用非对称修剪可以在保持相同摘要准确性的情况下将推理延迟减少近 3 倍。
- EMNLPNarraSum:大规模抽象叙述摘要数据集
该论文提出了一个名为 NarraSum 的大规模叙述性摘要数据集,在多种影视类型中收集了 12.2 万个叙述文档及其对应的提取式摘要。实验证明,与最先进的摘要模型相比,人类在 NarraSum 上存在较大的性能差距。我们希望该数据集能够促进 - 神经语言模型的紧凑预训练方法
本研究表明,使用抽象摘要和关键词提取等技术,从不结构化的数据中构建一个紧凑的子集,可以更有效地和更快地为传统预训练及任务特定分类器的训练提供有关领域内的信息,减少了预训练时间,并在针对六个不同组合的数据集并使用两种不同的 NLMs 的条件下 - 基于 Transformers 的危机相关社交媒体跨语言查询式摘要生成算法
本文提出了一种跨语言方法来检索和总结社交媒体帖子中与危机相关的信息,该方法基于多语种变形金刚嵌入,可以创建准确,有结构的摘要,与现有的最先进方法相比,被认为更加专注,有结构并且相关性更强。
- PeerSum:用于抽象多文档摘要的同行评审数据集
本文介绍了 PeerSum,这是一个使用科学出版物的同行评审的新 MDS 数据集。与现有的 MDS 数据集不同,我们的摘要(即元评审)具有高度抽象性,是源文件的真实摘要(即评论),并且还包括源文件之间的争议。我们发现,目前最先进的 MDS - EMNLPCLIFF: 用对比学习提高摘要的忠实度和事实性
通过对比学习和负样本生成,提出一个能够生成与给定文章相符的抽象摘要的方法,并使用 QA 验证和人类评判证明其能够更准确地反映事实。
- ACLAgreeSum: 基于协同的多文档摘要
我们在建立包含多篇文章的数据集基础上,对 MDS 任务的 AgreeSum 分支进行了研究,通过应用 PEGASUS 模型以及有监督的损失函数和 T5 模型的损失函数进行分析,实现了更好的摘要及其准确度。
- 抽象文本摘要中的事实不一致问题:一项调查
研究表明,使用神经编码器 - 解码器模型等抽象方法能够更好的进行生成摘要,但是由于摘要的抽象性较高,导致文章中存在失真和伪造的问题,因此当前的研究主要集中在设计新的评估算法和开发新的摘要系统以解决这一问题。本文综合评述了这些基于事实的评估方 - ACL使用学习实体提示进行抽象摘要规划
本文提出了利用实体链策略来帮助生成摘要的方法,通过在目标摘要前附加实体链从而生成更为准确与可控制的摘要,该方法在多个数据集上得到应用,并在 faithfulness 方面表现优异。
- MediaSum:面向对话摘要的大规模媒体采访数据集
介绍了一个名叫 MediaSum 的大规模媒体采访数据集,包含 463.6K 份采访文本和摘要,被用于探究电视和广播采访文本的独特位置偏差以及转移学习在改进对话摘要模型上的应用。
- EMNLP减少抽象总结中的数量幻觉
该文介绍了一种避免概括性摘要中产生的虚假信息的方法,通过学习识别和验证摘要中的数量实体,使得被验证支持的摘要得到提升,这种方法得到人们的好评。
- KDD使用 BERT 进行口头和书面指令的抽象摘要
本研究使用 BERTSum 模型对按主题分类的教学视频进行抽象摘要概括,通过多个英文语境下的数据集预训练模型,使用 ROUGE 和 Content-F1 评分进行结果评估,同时进行人工盲评,结果显示本方法在 WikiHow 数据集中具有较高