探索会议总结的自动评价指标

Apr, 2024

What's under the hood: Investigating Automatic Metrics on Meeting Summarization

Frederic Kirstein, Jan Philip Wahle, Terry Ruas, Bela Gipp

TL;DR会议总结的关键任务是识别和提取关键字，但现有评估指标无法准确捕捉会议特定错误，本文通过对人工评估和自动评估的相关性研究，揭示自动指标无法捕捉可观测错误且掩盖了某些错误，同时发现不同模型架构对会议文件中的挑战有不同的响应，存在明显的挑战与错误之间的联系。

Abstract

meeting summarization has become a critical task considering the increase in online interactions. While new techniques are introduced regularly, their evaluation uses metrics not designed to capture meeting-specific errors, undermining effective evaluation. This paper investigates what

meeting summarization automatic metrics human evaluations error taxonomy model architectures

发现论文，激发创造

自动医疗记录生成评估指标研究

本文旨在研究自动生成临床笔记的评估方法和度量标准，提出了新的任务特定度量标准，并将其与现有文本摘要和生成的 SOTA 度量标准进行比较，研究分布和测量不同的自动摘要的正确性，并试图确定与人类判断相一致的最佳自动评估指标。

May, 2023

评估测量经常在低分数范围内出现分歧：重新审视摘要评估测量指标

本文讨论了人工评价与自动评价在文本摘要中的应用，并提出了评价指标间的差异和相关性。研究发现评价指标的互相协议性取决于摘要的得分范围、摘要易于摘要的程度、摘要抽象程度和覆盖范围等方面。

Nov, 2020

文本摘要中评价的重评估

本文重新评估了文本摘要的评估方法，使用最新的数据集和系统输出来评估评估指标的可靠性，并发现旧数据集上对评估指标的结论不一定适用于现代数据集和系统。

Oct, 2020

重新审视自动摘要评估指标的系统层面相关性

本文探讨了自动文摘评估指标能够准确复制人类总结质量判断的可靠性，并提出了对现有评估体系的变更，以改善两个方面的偏差，这两个方面分别是评估指标使用的方法与实际评估系统的方式不一致，以及通过只计算小得分差距的系统之间的相关性来计算相关性。通过此研究，提出了收集更多高质量的人类判断和在系统得分差距小的情况下改进自动评估指标的必要性。

Apr, 2022

医学多文献摘要自动评估指标与人类评估不符

为了改进文献综述的多文件摘要 (MDS)，引入包含人工评估的摘要质量特征和成对偏好的数据集，以支持开发更好的自动评估方法，分析了自动摘要评估度量与生成的摘要词汇特征、其他自动度量以及人工评估摘要质量方面的相关性。发现自动化度量无法完全捕捉到人工评估所评估的质量方面。

May, 2023

重新审视生物医学领域中自动问题摘要评估

本研究针对生物医学领域的问答摘要任务，从四个不同角度进行了人工评估，用以评估现有的自动化摘要评估指标和系统的可行性，并公布了人工注释数据集，以促进生物医学领域的摘要评估方法的研究。

Mar, 2023

BLEU 的黑箱：重新评估自动机器翻译评估指标

研究了自动度量在机器翻译系统开发和评估中的问题，发现现有的判断度量方法对于用于评估的翻译非常敏感，特别是存在异常值的情况下，经常会导致关于指标作用的错误结论。研发了一种用于阈值性能提高的算法，可以模拟在与人工判定相比的情况下出现的 2 类误差。这些结果表明，需要改进度量评估和系统性能评估协议。

Jun, 2020

自动对齐方法用于摘要语料库构建

本文提出了使用会议摘要生成自动转录报告的方法。使用自动预对齐方法使数据批量化对齐，最大化语料库的规模，以及使用人工标注者进行更准确地校对。作者还评估了自动对齐和自动摘要的表现，并证明自动对齐可大幅度提高所有 ROUGE 得分。

Jul, 2020

朝向可解释和高效的基于参考文献的自动文摘评估

本研究旨在开发两种不同的自动评估测量标准来评价文本摘要的质量，其中包括两种可以在单元级别和总结级别上提供高可解释性的两阶段测量标准和一种在效率和互操作性之间取得平衡的一阶段测量标准。同时，我们开发的工具已经通过 Python 软件包和 GitHub 免费提供给公众。

Mar, 2023

SummEval: 重评摘要评估

本文针对现有的缺陷和问题，提出了五个维度的解决方案，从而能够扩大文本摘要的评估标准，并且进一步研究出与人类判断更加相关的评价指标。

Jul, 2020