May, 2024

分解和聚合:一种逐步解释的评估框架

TL;DRLarge Language Models 的元评估问题是如何可靠地评估生成文本的一个关键研究问题。为了解决这一挑战,提出了 Decompose and Aggregate 方法,将评估过程分解为不同阶段,从而提供了更可解释的界面,并在多个元评估基准上实现了多种 Large Language Models 的评估性能提升高达 39.6%。