BriefGPT.xyz
Ask
alpha
关键词
strategic scenarios
搜索结果 - 2
GameBench:评估 LLM 代理的战略推理能力
使用大型语言模型在游戏中评估策略推理能力的跨领域基准 (GameBench) 显示,虽然大多数测试模型并不及人类水平,但对策略推理能力的两种框架(CoT 和 RAP)能够提高分数。
PDF
a month ago
大型语言模型是否学习类似人类的战略偏好?
我们评估 LLMs 在战略场景中是否学会进行类似人类的偏好判断,结果显示 Solar 和 Mistral 表现出稳定的基于价值的偏好,包括与人类一致的囚徒困境和旅行者困境中的利益大小效应和罚款大小效应,我们发现模型的大小、基于价值的偏好和表
→
PDF
3 months ago
Prev
Next