Jun, 2024

自然语言生成中的主观不确定性量化和校准

TL;DR利用贝叶斯决策理论的视角,本研究通过假设我们的效用是通过比较生成的回答和理论上的真实回答的相似度来衡量,从而解决了大语言模型生成自由形式回答时的不确定性量化问题。我们进一步从缺失数据的角度推导出一种表征为过量风险的认知不确定性衡量方法。所提出的方法可以应用于黑盒语言模型,并在问答与机器翻译任务上展示了如何从 GPT 和 Gemini 模型中提取具有广泛意义的不确定性估计并量化它们的校准度。