BriefGPT.xyz
Ask
alpha
关键词
evaluating capabilities
搜索结果 - 1
LLMArena: 评估大型语言模型在动态多智能体环境中的能力
近期大型语言模型(LLM)在实现具备人类级智能的自主代理方面显示出了潜力,然而现有用于评估 LLM 代理的基准要么使用静态数据集,可能导致数据泄露,要么仅关注单一代理情景,忽略多代理交互的复杂性。我们引入了 LLMArena,这是一个新颖且
→
PDF
4 months ago
Prev
Next