NIPSJun, 2024

AssertionBench: 用于评估大语言模型的断言生成基准

TL;DR使用大型语言模型(LLMs)生成断言的有效性和适用性的定量评估。