BriefGPT.xyz
大模型
Ask
alpha
关键词
agent tasks
搜索结果 - 3
每步严密观察!通过迭代的步骤级过程优化学习的 LLM Agent
采用 Monte Carlo 方法为 Iterative step-level Process Refinement (IPR) 框架提供步骤级奖励,通过与专家轨迹进行对比评估,从中识别差异并生成对比动作对,用于训练模型,实验证明该框架在提
→
PDF
17 days ago
ACL
通过调整和多分支推理增强低参数 LLMs 的普通代理能力
通过构建特定于代理的数据和有监督微调模型,以及设计有效激活大型语言模型推理能力的提示方法,我们提出了一种综合的方法来提高大型语言模型作为代理的性能,并通过在 AgentBench 的五个代理任务上的评估取得了令人满意的结果。
PDF
3 months ago
AgentTuning:为 LLMs 赋予通用的代理能力
AgentTuning 是一种简单且通用的方法,可以提高大型语言模型在代理任务方面的能力,同时保持其一般能力。该方法通过使用 AgentInstruct 与通用领域的开源指令相结合的混合指令调整策略对 Llama 2 系列进行了指令调整,从
→
PDF
8 months ago
Prev
Next