BriefGPT.xyz
大模型
Ask
alpha
关键词
agentbench
搜索结果 - 1
AgentBench: 评估语言模型为代理人
大型语言模型在互动环境中以多轮开放式生成的方式评估 LLMs 作为代理的推理和决策能力,显示出商业 LLMs 和开源竞争对手之间的性能差距。
PDF
a year ago
Prev
Next