May, 2024

辩论:基于魔鬼辩护的评估与文本评价

TL;DR提出了一种基于多智能体评分系统的自然语言生成(NLG)评估框架 DEBATE,通过引入反对者的概念,解决了 LLM 智能体回答中的偏见问题,从而在 NLG 评估中显著超越了现有的方法。