Nov, 2023

估计大型语言模型置信度的方法

TL;DR评估测量大型语言模型(LLMs)在复杂医学任务中提供诊断建议时的置信度的方法,结果发现 SC Agreement Frequency 是测量 GPT4 置信度最有用的方法。