学习提问:当大型语言模型遇到模糊指令
为了有效评估 Large Language Models(LLMs) 使用外部工具回答问题的能力,我们开发了一个名为 ToolQA 的新数据集,并使用可伸缩的自动化过程进行数据集的管理,并使用13种专门设计的工具进行交互以回答问题。
Jun, 2023
通过引入ToolLLM,一个包括数据构建、模型训练和评估的通用工具使用框架,我们展示了它在增强自然语言模型的规划和推理能力方面的显著影响。我们通过用ChatGPT创建一个工具使用指导数据集ToolBench,并使用深度优先搜索决策树(DFSDT)扩展搜索空间,有效地获取有效的解决方案路径。通过对LLaMA进行微调后得到ToolLLaMA,我们的评估器ToolEval显示ToolLLaMA在执行复杂指令和推广到未见过的API方面表现出卓越的能力,并与ChatGPT有着相当的性能。为了使流程更加实用,我们设计了一个神经API检索器以为每个指令推荐适当的API,省去了手动选择API的繁琐步骤。
Jul, 2023
通过使用工具和自然语言反馈,MINT基准测试评估了大型语言模型在解决具有多回合交互的任务时的能力,并从20个开源和闭源的语言模型分析中发现,在工具交互和自然语言反馈的情况下,LLMs的性能有所提升。
Sep, 2023
这篇研究通过引入一个具有挑战性的元评估基准LMMBar,调查了大型语言模型(LLMs)在评估指导遵循生成文本方面的效力,发现不同评估器对LMMBar的性能表现不同,最高分的评估器仍有改进的空间,并提出了一套新颖的提示策略来缩小LLM和人类评估器之间的差距。通过LLMBar希望提供对LLM评估器的更多洞察,并促进未来开发更好的指导遵循模型的研究。
Oct, 2023
我们提出了一个新的基准测试CoDI-Eval,系统和全面评估LLMs对带有各种约束的指令的响应,揭示了它们在按照特定约束执行指令方面的局限性和开源与闭源LLMs之间存在显著差距。
Jan, 2024
我们提出了一个模块化的多语言模型框架,将大型语言模型能力分解为规划器、调用器和摘要生成器,并通过两阶段训练范式有效地训练该框架,该框架在各种工具使用基准测试中表现出超越传统单语言模型方法的效果,凸显了其在工具学习中的功效和优势。
Jan, 2024
大型语言模型(LLMs)虽然在自然语言处理任务中表现出色,但仍需要外部工具来扩展其能力。本研究探索LLMs是否能够确定其能力边界并灵活使用工具,提出WTU-Eval基准评估来评估LLMs的性能,并通过细调数据集改善工具决策,结果显示LLMs在一般数据集中难以确定工具使用,并且错误的工具使用显著损害了LLMs的性能。
Jul, 2024
本研究旨在解决大型语言模型(LLMs)在评估其局限性方面的不足。我们提出了一种自我挑战的评估框架,通过引导LLMs发现自身错误并总结出新模式,结合人类反馈,生成更具挑战性的数据。研究表明,仅有44.96%的实例能被模型正确回答,此框架为LLMs的动态评估提供了新思路。
Aug, 2024
本研究解决现代大型语言模型(LLMs)在面对模糊用户指令时的工具使用效率问题。论文提出了一个新框架Ask-when-Needed(AwN),使LLMs在遇到困难时主动询问用户,从而减少由于错误指令引发的幻觉风险。研究表明,AwN在工具学习方面显著优于现有框架,对提高LLMs的性能具有重要影响。
Aug, 2024