Apr, 2024

马尔科夫代理的忠实语言建模

TL;DR链状思维推理可深度理解语言模型内部推理。我们提出了一种训练方法,能够生成独立于其他上下文的足够预测未来文本的链状思维,在确保语言模型能够预测未来标记的同时,证明其使用了链状思维来理解上下文。我们通过策略梯度和 PPO 优化得到 “马尔可夫” 语言模型的 “马尔可夫训练” 程序,并在长上下文算术问题上展示了训练算法的有效性,验证了生成的链状思维对其他模型的意义和可用性。