BriefGPT.xyz
Ask
alpha
关键词
llm capability
搜索结果 - 2
StableToolBench: 朝着大规模稳定的工具学习基准测试迈进
通过结合外部工具,将大型语言模型与实施工具学习,以应对不同的现实挑战,获得显著进展。鉴于此,为了评估大型语言模型利用工具的能力,需要进行大规模且稳定的基准测试。因此,本研究提出了 StableToolBench,作为 ToolBench 的
→
PDF
4 months ago
ADaPT:根据需要的分解和语言模型规划
大型语言模型(LLMs)在交互决策任务中的规划和适应环境方面的应用,遇到任务复杂性挑战时,我们通过 ADaPT 方法明确计划和分解复杂子任务,在多层次分解中动态调整执行者 LLM 的能力以及任务复杂性,最终取得了显著性成果。
PDF
8 months ago
Prev
Next