大型语言模型不确定性基准测试用于提示优化

Sep, 2024

大型语言模型不确定性基准测试用于提示优化

Benchmarking Large Language Model Uncertainty for Prompt Optimization

Pei-Fu Guo, Yun-Da Tsai, Shou-De Lin

TL;DR本研究针对大型语言模型（LLMs）在提示优化中缺乏有效不确定性评估的问题，提出了一个基准数据集来评估不确定性指标。通过对GPT-3.5-Turbo和Meta-Llama-3.1-8B-Instruct模型的分析，发现当前指标更能反映答案不确定性，而非正确性不确定性，从而提出应改进不确定性指标以优化提示的方向。

Abstract

Prompt Optimization algorithms for Large Language Models (LLMs) excel in multi-step reasoning but still lack effective Uncertainty Estimation