Jun, 2024

大型语言模型中忠实思维链路推理的困难性

TL;DR大语言模型(LLM)在关键领域,如医疗保健中得到越来越多的应用,为了确保这些模型生成的链式思维(CoT)推理能够忠实地捕捉其基本行为,我们探索了三种常用方法 —— 上下文学习、微调和激活编辑 —— 来指导 LLM 的行为,以提高 CoT 推理的准确性,然而我们的实证分析表明:这些方法在提高 CoT 推理的准确性方面取得的成果有限,只在受控情境中略有性能提升,激活编辑几乎没有成功,而微调和上下文学习的改进效果仅在部分推理和真实问答评估中表现出来,总结来说,我们的工作强调了从 LLMs 中获取准确 CoT 推理的困难性,提示当前的方法可能无法解决这一复杂挑战。