RISE: 利用检索技巧进行摘要评估

Dec, 2022

RISE: Leveraging Retrieval Techniques for Summarization Evaluation

David Uthus, Jianmo Ni

TL;DR使用信息检索中的技术，我们提出了 RISE 方法，可自动评估生成的文本摘要在不需要参考摘要的情况下。在 SummEval 基准测试和跨语言数据集实验中，RISE 表现出更高的人类相关性和数据效率，可视为一种有效的自动化评估摘要方法。

Abstract

Evaluating automatically-generated text summaries is a challenging task. While there have been many interesting approaches, they still fall short of human evaluations. We present rise, a new approach for evaluating summaries by leveraging techniques from →

summarization text evaluation information retrieval rise data-efficiency

发现论文，激发创造

HighRES：基于重点提取的无参考自动文摘评价

该研究提出了一种由多个评注者对原始文档进行手动评估的新方法，称为基于高亮参考的摘要评估（HighRES），可用于评估多个系统的摘要内容，并说明其相对于其他评估方法具有更好的评注者间一致性，并能够突显其他评估方法忽略的系统差异。

Jun, 2019

RetrievalSum：基于检索增强的摘要生成框架

该论文提出了 RetrievalSum，一种新颖的检索增强抽象概括框架，包括一个稠密的 Retriever 和一个 Summarizer，可以通过检索相关的用作补充输入的实例来帮助生成模型更全面地理解文本，并在 BillSum 上取得了最新的业界最佳成绩。

Sep, 2021

文本摘要中评价的重评估

本文重新评估了文本摘要的评估方法，使用最新的数据集和系统输出来评估评估指标的可靠性，并发现旧数据集上对评估指标的结论不一定适用于现代数据集和系统。

Oct, 2020

交互式文本摘要编辑

通过 REVISE 框架，将神经网络模型及人工编辑相结合，使得文本摘要的过程个性化，协作化和自适应化。

Jun, 2023

通过将上下文嵌入分配给参考文本主题来实现可解释的摘要评估

本文提出了一种基于多方面可解释性的自动摘要评估方法（MISEM），包括语义主题识别和交互式可视化分析工具。该方法针对自动生成的摘要进行评估，达到了.404 的人类判断相关性，能够通过单一评分系统难以实现的透明评估和深度质量分析。

Oct, 2022

重新思考视频摘要的评估

本文主要研究视频摘要中的评估方法，并提出了基于视频分割的替代方法，在使用两个知名的基准数据集进行研究时，惊奇地发现随机生成的视频摘要达到了与人类生成的摘要相当甚至更好的性能表现，并且视频分割对性能指标的影响最大。

Mar, 2019

针对韩语文摘的参考文献和文档感知语义评估方法

本文提出了一种衡量文本摘要的方法，即参考文献和文档感知语义得分（RDASS），用于韩语这种将各种语素组合成表达多种含义的词汇的语言。通过我们的评估指标，可以提高文本概括的人类判断相关性。研究结果表明，我们的评估指标与人类判断的相关性显著高于 ROUGE 得分。

Apr, 2020

利用自然语言处理实现文本摘要：叙事性文献综述

本文是一篇关于使用自然语言处理技术生成简化版摘要的研究综述，发现基于 transformer 的方法如 BERT 和 PEGASUS 在生成 lay text summarisation 方面相对优秀，并建议采用抽取式和生成式相结合的混合方法，并开发一些新的评估指标以确保 lay summary 更易读。

Mar, 2023

摘要作为关系抽取的间接监督

SuRE 是一种将关系提取（RE）转换为摘要公式的方法，形成更精确且高效的关系提取，并展示其在摘要任务中作为潜在的间接监督的有效性。

May, 2022

朝向可解释和高效的基于参考文献的自动文摘评估

本研究旨在开发两种不同的自动评估测量标准来评价文本摘要的质量，其中包括两种可以在单元级别和总结级别上提供高可解释性的两阶段测量标准和一种在效率和互操作性之间取得平衡的一阶段测量标准。同时，我们开发的工具已经通过 Python 软件包和 GitHub 免费提供给公众。

Mar, 2023