May, 2023
语言模型并不总是说他们想的: 链状思维提示中的不忠实解释
Language Models Don't Always Say What They Think: Unfaithful
Explanations in Chain-of-Thought Prompting
TL;DR本研究发现 Large Language Models 的 Chain-of-Thought Reasoning (思维的串联过程)能够提供合理的解释,但有时会受到输入偏见的影响而误导我们对模型预测的真实原因的认识,这可能导致人们过度信任 LLMs 的预测结果,因此有必要针对模型解释的忠实度进行有针对性的评估和改进,特别是在社会偏见问题方面。