Mar, 2024

(N,K)- 拼图:基于生成语言模型的强化学习算法基准测试平台

TL;DR近期强化学习在语言模型的性能提升方面取得了重要突破,然而缺乏经济实惠且标准化的测试平台来评估和比较这些算法。为了填补这一空白,我们提出了一个广义的 24 数码游戏:$(N,K)$-Puzzle,其挑战语言模型以 $N$ 个整数达到目标值 $K$。我们评估了诸如 Proximal Policy Optimization (PPO) 等已建立的强化学习算法,并与新方法如 Identity Policy Optimization (IPO) 和 Direct Policy Optimization (DPO) 进行了比较。