BriefGPT.xyz
大模型
Ask
alpha
关键词
tool-augmented large language models
搜索结果 - 4
ToolBeHonest: 一个多层次幻觉诊断基准测试工具,用于帮助扩展的大型语言模型
通过引入综合诊断基准 ToolBH,评估工具增强型大型语言模型 (LLMs) 的幻觉问题,考虑深度和广度两个维度,通过多层次的诊断流程和三种场景进行评估,结果显示 ToolBH 基准的挑战性,更大的模型参数并不保证更好的性能,训练数据和响应
→
PDF
6 days ago
推进工具增强型大型语言模型:整合推断树中错误的见解
基于决策树的推理轨迹优化框架提高了工具辅助大型语言模型的推理性能和泛化能力,解决了基于路径的训练方法的局限性,同时透过错误推理路径的洞察力,提高了复杂工具使用推理任务的推理效率。
PDF
23 days ago
ICLR
远程传感平台中的工具增强智能代理评估
通过对 1000 个任务的全面评估,我们提供了关于更强大的遥感应用代理的见解,以填补存在的真实场景下大型语言模型的差距。
PDF
2 months ago
着眼决策感知和通用化的大规模语言模型工具使用
通过提出一种决策感知和具有一般化的工具使用框架(DEER),本文旨在增强开源 LLMs 在操作工具方面的能力。通过构建工具使用样本和新颖的工具采样策略,DEER 在各个数据集上证明了其有效性和显著优于基准模型。
PDF
4 months ago
Prev
Next