Nov, 2024

我的会议摘要好吗?使用多LLM评估器估计质量

TL;DR本研究解决了自然语言生成系统生成的会议摘要质量自动测量困难的问题。提出了一种名为MESA的框架,通过三步评估单独错误类型、多代理讨论和基于反馈的自我训练,提高了错误定义的理解与人类判断的Alignment。MESA的实施实现了与人类判断的一致性评分,展示了其在会议总结质量评估方面的潜在影响。