Oct, 2023

再问一次,然后失败:大型语言模型在判断中的摇摆

TL;DR利用教育中的质问策略,我们提出了一种 “跟进质问机制” 以及两个评估指标,用于评估大型语言模型在面对质疑时的判断一致性,并对 ChatGPT、PaLM2-Bison 和 Vicuna-13B 进行了评估。实证结果表明,即使初始答案是正确的,当语言模型面临质疑、否定或误导等干扰时,判断一致性会大幅降低。此外,我们还研究了不同设置下模型的判断一致性,并观察了提示语气对此问题的影响,进行了深入的错误分析以获得更深入的行为洞察。此外,我们还探索了几种提示方法以缓解此问题,并展示了它们的有效性。