BriefGPT.xyz
大模型
Ask
alpha
关键词
gamebench
搜索结果 - 2
GameBench:评估 LLM 代理的战略推理能力
使用大型语言模型在游戏中评估策略推理能力的跨领域基准 (GameBench) 显示,虽然大多数测试模型并不及人类水平,但对策略推理能力的两种框架(CoT 和 RAP)能够提高分数。
PDF
a month ago
ICML
可配置镜像下降:决策制定的统一化
这篇论文旨在探索是否能开发一种单一算法以解决所有决策问题的分类。它通过引入广义镜像下降(GMD)、可配置镜像下降(CMD)和 GameBench 构建等方法来应对不同决策问题的挑战,并通过广泛的实验验证 CMD 在各个维度上对决策问题进行了
→
PDF
a month ago
Prev
Next