Sep, 2024

大型语言模型不确定性基准测试用于提示优化

TL;DR本研究针对大型语言模型(LLMs)在提示优化中缺乏有效不确定性评估的问题,提出了一个基准数据集来评估不确定性指标。通过对GPT-3.5-Turbo和Meta-Llama-3.1-8B-Instruct模型的分析,发现当前指标更能反映答案不确定性,而非正确性不确定性,从而提出应改进不确定性指标以优化提示的方向。