May, 2024

大型语言模型的估计不确定性评估

TL;DR用统计的方法对 GPT-4 等大型语言模型进行估测不确定性的研究发现,虽然 GPT-4 在一些英文词组中与人类的估测结果接近,但在涉及到性别角色和中文语境时存在差异,证明人类与大型语言模型的估测结果尚有较大难以弥合的差距。