- 研究信息检索增强生成和微调技术在基于人工智能驱动的知识系统开发中的性能
基于 ROUGE、BLEU、METEOR 分数和余弦相似度的衡量标准,我们对 GPT-J-6B、OPT-6.7B、LlaMA、LlaMA-2 这几种语言模型的 RAG 和 FN 技术的性能进行了比较和分析,结果表明 RAG 基于构造的模型较 - 文本摘要的逆强化学习
本研究使用反向强化学习的方法构建了一个文本摘要模型,通过同时评估摘要代理的奖励函数和优化,我们证明该模型在诸多评测标准中优于 MLE 和 RL 基线模型。
- 层次化并行变压器与注意力对齐技术用于抽象多文档摘要
本研究提出了一种带有 Attention Alignment 机制的 Parallel Hierarchical Transformer(PHT)用于 Multi-Document Summarization(MDS)。 通过将单词级和段落 - 重新审视自动摘要评估指标的系统层面相关性
本文探讨了自动文摘评估指标能够准确复制人类总结质量判断的可靠性,并提出了对现有评估体系的变更,以改善两个方面的偏差,这两个方面分别是评估指标使用的方法与实际评估系统的方式不一致,以及通过只计算小得分差距的系统之间的相关性来计算相关性。通过此 - 上下文网络和无监督句子排序
首次使用上下文网络表示文档,并结合基于无监督算法的文本分析,综合考虑主题和句子评分来对句子进行排序;使用 SummBank 数据集,本文提出的 CNATAR 算法在 ROUGE 和 BLEU 指标下表现优异,超越了人工评分和现有的有监督算法 - ACL松弛多文档摘要的多文档覆盖奖励
本文提出利用 RELAX 方法 fine-tune 多文档自动摘要系统,达到更好的效果,并验证其在多个数据集上的竞争性能。
- 抽象摘要生成中的聚类模式学习
我们提出了一种用于摘要生成的新型聚类转换器层,该层在编码器和解码器之间生成两个显着和非显着簇,然后通过对聚类进行归一化和收缩,将它们分隔在潜空间中,从而使解码器可以更多地关注显着的上下文向量,并能够达到比现有 BART 模型更好的性能。
- 抽象化摘要生成中的可微 N-gram 目标
本文提出了可微的 n-gram 目标,旨在缓解训练标准和评估标准之间的差异,该目标最大化匹配子序列的概率权重,在 CNN/DM 和 XSum 的抽象摘要数据集上提供了相当的 ROUGE 分数提高,该方法优于其他 n-gram 目标
- 多叙事语义重叠任务:评估和基准测试
本文介绍了一个重要但相对未被探索的 NLP 任务,称为多叙事语义重叠(MNSO),它涉及生成多个替代叙事的语义重叠。我们使用在网上爬取的 2,925 个叙事对创建了一个基准数据集,并通过人工注释创建了 411 个不同的地面真实语义重叠,提出 - ICLR利用草图学习代码自动补全
本文介绍了一种基于 Transformer 的模型 Grammformer,用于根据编程语言语法生成具有 “空洞” 的代码完成。在 C# 和 Python 的代码完成方面通过 ROUGE 和新的度量标准 RegexAcc 的度量检验结果,结 - QuestEval: 基于事实的评估对于摘要很重要
本文提出了一种称为 QuestEval 的新方法,通过问题回答模型评估摘要是否包含源文档中的所有相关信息,从而在一致性、连贯性、流畅性和相关性等四个评估维度上,显著改善了与人类判断的相关性,而不需要任何先验参考。
- EMNLP文本摘要中评价的重评估
本文重新评估了文本摘要的评估方法,使用最新的数据集和系统输出来评估评估指标的可靠性,并发现旧数据集上对评估指标的结论不一定适用于现代数据集和系统。
- EMNLP通过对比学习无监督无参考摘要质量评估
本研究提出了一种基于 BERT 的新度量方法,通过无监督对比学习,评估文档摘要的质量,并且证明了该方法可以在没有参考摘要的情况下胜过其他指标。
- KDD使用 BERT 进行口头和书面指令的抽象摘要
本研究使用 BERTSum 模型对按主题分类的教学视频进行抽象摘要概括,通过多个英文语境下的数据集预训练模型,使用 ROUGE 和 Content-F1 评分进行结果评估,同时进行人工盲评,结果显示本方法在 WikiHow 数据集中具有较高 - 朝向神经语言评估器
该研究回顾了 BLEU 和 ROUGE 两种不足,并提出了衡量文本摘要的好指标需要具备的标准以及使用最近的基于 Transformers 的语言模型来评估参考摘要与假设摘要的具体方法。
- EMNLP答案联合!增强摘要模型的无监督度量
使用强化学习的抽象化概括方法已经被提出来克服传统极大似然估计的限制,提出了一些使用问题回答作为替代评价指标的模型,并在人工和自动评价指标上取得了较大的提升。
- ACLHIBERT:基于分层双向 Transformer 的文档级预训练技术用于文档摘要
本文提出了一种名为 Hibert 的预训练模型,并将其应用于神经抽取性摘要模型中,通过使用该模型获得了 CNBC / Dailymail 数据集 1.25 ROUGE 和 New York Times 的 2.0 ROUGE, 相比于随机初 - EMNLP神经抽取式文本摘要与句法压缩
本文提出了一种基于联合提取和句法压缩的神经模型用于单文档摘要,该模型选择文档中的句子,通过句法分析识别可能的压缩,并用神经模型评分这些压缩以生成最终的摘要,实验结果表明,该模型在 ROUGE 评估中表现良好,能够达到与最先进系统相当的性能, - EMNLP提升摘要编码器记忆性的闭卷训练
本研究旨在通过添加一种不带关注和指针机制的附加 ' 闭书 ' 解码器来改善指针生成器模型的编码器的记忆能力,从而在 CNN/Daily Mail 数据集上实现 ROUGE 和 METEOR 度量方面显着优于基线;此外,本模型还在仅测试的 D - AAAI通过深度强化学习学习提取连贯摘要
本文提出了一种名为 RNES 的增强型神经汇总模型,在使用无标签数据的情况下,通过机器学习的方式训练该模型以优化汇总的连贯性和信息重要性,并通过实验证明了 RNES 的性能优于现有的基准模型,达到了 CNN/Daily Mail 数据集的