RISE: 利用检索技巧进行摘要评估
该研究提出了一种由多个评注者对原始文档进行手动评估的新方法,称为基于高亮参考的摘要评估(HighRES),可用于评估多个系统的摘要内容,并说明其相对于其他评估方法具有更好的评注者间一致性,并能够突显其他评估方法忽略的系统差异。
Jun, 2019
该论文提出了 RetrievalSum,一种新颖的检索增强抽象概括框架,包括一个稠密的 Retriever 和一个 Summarizer,可以通过检索相关的用作补充输入的实例来帮助生成模型更全面地理解文本,并在 BillSum 上取得了最新的业界最佳成绩。
Sep, 2021
本文提出了一种基于多方面可解释性的自动摘要评估方法(MISEM),包括语义主题识别和交互式可视化分析工具。该方法针对自动生成的摘要进行评估,达到了.404 的人类判断相关性,能够通过单一评分系统难以实现的透明评估和深度质量分析。
Oct, 2022
本文主要研究视频摘要中的评估方法,并提出了基于视频分割的替代方法,在使用两个知名的基准数据集进行研究时,惊奇地发现随机生成的视频摘要达到了与人类生成的摘要相当甚至更好的性能表现,并且视频分割对性能指标的影响最大。
Mar, 2019
本文提出了一种衡量文本摘要的方法,即参考文献和文档感知语义得分(RDASS),用于韩语这种将各种语素组合成表达多种含义的词汇的语言。通过我们的评估指标,可以提高文本概括的人类判断相关性。研究结果表明,我们的评估指标与人类判断的相关性显著高于 ROUGE 得分。
Apr, 2020
本文是一篇关于使用自然语言处理技术生成简化版摘要的研究综述,发现基于 transformer 的方法如 BERT 和 PEGASUS 在生成 lay text summarisation 方面相对优秀,并建议采用抽取式和生成式相结合的混合方法,并开发一些新的评估指标以确保 lay summary 更易读。
Mar, 2023
本研究旨在开发两种不同的自动评估测量标准来评价文本摘要的质量,其中包括两种可以在单元级别和总结级别上提供高可解释性的两阶段测量标准和一种在效率和互操作性之间取得平衡的一阶段测量标准。同时,我们开发的工具已经通过 Python 软件包和 GitHub 免费提供给公众。
Mar, 2023