fine-grained evaluation metrics | BriefGPT

关键词fine-grained evaluation metrics

搜索结果 - 1

DialogSum Challenge：对话摘要共享任务结果
本文讨论对话摘要的 DialogSum Challenge 中四个团队使用自动和人工评估度量探索改进对话摘要性能的结果，并发现人工评估和自动评估之间存在巨大差距，需要更细致的评估方法。
PDF2 years ago