Aug, 2024

自回归语言模型中的三段论推理的机制解释

TL;DR本研究解决了自回归语言模型在逻辑推理中是否真正学习到系统推理原则的争议。通过电路发现方法,本研究揭示了一个必要且充分的电路,阐明了模型如何从前提中推导有效结论的过程,并分析了信念偏差在三段论推理中的表现。研究结果表明,语言模型确实学习了可转移的内容独立推理机制,但这些机制受到前期训练获得的世界知识的影响。