Oct, 2024

大语言模型评估中的黑箱不确定性量化方法

TL;DR本研究解决了在大语言模型(LLM)评估中量化不确定性的问题,尤其是LLM-as-a-Judge方法的应用挑战。我们提出了一种新颖的方法,通过分析生成评估与可能评分之间的关系来量化不确定性,证明了该方法与评估准确性之间的强相关性,有助于提升LLM评估的可靠性和一致性。