Apr, 2024

自主对抗性语言游戏增强 LLM 推理能力

TL;DR在一个叫做 Adversarial Taboo 的对抗性语言游戏中,我们探索了大型语言模型(LLMs)的自我训练过程。通过强化学习和自我博弈,我们观察到 LLMs 在广泛的推理基准上表现出统一的提升,并且通过迭代采用自我博弈过程可以不断提升 LLM 的推理能力。