BriefGPT.xyz
Ask
alpha
关键词
24-puzzle
搜索结果 - 1
(N,K)- 拼图:基于生成语言模型的强化学习算法基准测试平台
近期强化学习在语言模型的性能提升方面取得了重要突破,然而缺乏经济实惠且标准化的测试平台来评估和比较这些算法。为了填补这一空白,我们提出了一个广义的 24 数码游戏:$(N,K)$-Puzzle,其挑战语言模型以 $N$ 个整数达到目标值 $
→
PDF
4 months ago
Prev
Next