Aug, 2023

受指导的偏见:经过指导调节的语言模型呈现出应急认知偏差

TL;DR通过检验三种认知偏见(假象效应、确定性效应和信仰偏误)在经过指导调优的语言模型中的存在程度,我们的研究提供了证据表明,这些经过调优的模型表现出过去预训练模型中不存在或较不明显的偏见,进一步突出了这些偏见存在于各种模型中的事实,特别是那些经过指导调优的模型,如 Flan-T5,GPT3.5 和 GPT4,这一研究对认识指导调优的语言模型中的认知偏见是至关重要的,从而对更可靠、无偏的语言模型的发展具有重要意义。