Apr, 2024
探索会议总结的自动评价指标
What's under the hood: Investigating Automatic Metrics on Meeting Summarization
Frederic Kirstein, Jan Philip Wahle, Terry Ruas, Bela Gipp
TL;DR会议总结的关键任务是识别和提取关键字,但现有评估指标无法准确捕捉会议特定错误,本文通过对人工评估和自动评估的相关性研究,揭示自动指标无法捕捉可观测错误且掩盖了某些错误,同时发现不同模型架构对会议文件中的挑战有不同的响应,存在明显的挑战与错误之间的联系。