Apr, 2024
马尔科夫代理的忠实语言建模
Markovian Agents for Truthful Language Modeling
TL;DR链状思维推理可深度理解语言模型内部推理。我们提出了一种训练方法,能够生成独立于其他上下文的足够预测未来文本的链状思维,在确保语言模型能够预测未来标记的同时,证明其使用了链状思维来理解上下文。我们通过策略梯度和PPO优化得到“马尔可夫”语言模型的“马尔可夫训练”程序,并在长上下文算术问题上展示了训练算法的有效性,验证了生成的链状思维对其他模型的意义和可用性。