Sep, 2023

进一步改进 PPO 算法:基于值导向的蒙特卡罗树搜索解码

TL;DR通过将 MCTS 与 PPO 集成,在推断时生成自然语言文本,相较于仅使用 PPO 策略,PPO-MCTS 极大地提高了生成文本的优越性,减少了训练和测试之间的部分输出评分机制不匹配的问题,证明了搜索算法在与 PPO 进行对齐的语言模型上的潜力和价值网络的未充分探索的好处。