学习提问：当大型语言模型遇到模糊指令

Aug, 2024

学习提问：当大型语言模型遇到模糊指令

Learning to Ask: When LLMs Meet Unclear Instruction

Wenxuan Wang, Juluan Shi, Chaozheng Wang, Cheryl Lee, Youliang Yuan...

TL;DR本研究针对大型语言模型（LLMs）在模糊指令下的工具使用表现，存在精确用户指令无法保证的问题。作者提出了一种新颖的框架“根据需要提问”（AwN），使LLMs在面对不明确的指令时能主动向用户询问，从而改善工具的应用效果。实验结果显示，AwN在“噪声工具基准”（NoisyToolBench）上显著优于现有工具学习框架。

Abstract

Equipped with the capability to call functions, modern Large Language Models (LLMs) can leverage external tools for addressing a range of tasks unattainable through language skills alone. However, the effective execution of these tools relies heavily not just on the advanced capabiliti

发现论文，激发创造

ToolQA: 一个带有外部工具的 LLM 问答数据集

为了有效评估 Large Language Models（LLMs）使用外部工具回答问题的能力，我们开发了一个名为 ToolQA 的新数据集，并使用可伸缩的自动化过程进行数据集的管理，并使用13种专门设计的工具进行交互以回答问题。

Jun, 2023

ToolLLM: 促进大型语言模型掌握16000+现实世界 API

通过引入ToolLLM，一个包括数据构建、模型训练和评估的通用工具使用框架，我们展示了它在增强自然语言模型的规划和推理能力方面的显著影响。我们通过用ChatGPT创建一个工具使用指导数据集ToolBench，并使用深度优先搜索决策树（DFSDT）扩展搜索空间，有效地获取有效的解决方案路径。通过对LLaMA进行微调后得到ToolLLaMA，我们的评估器ToolEval显示ToolLLaMA在执行复杂指令和推广到未见过的API方面表现出卓越的能力，并与ChatGPT有着相当的性能。为了使流程更加实用，我们设计了一个神经API检索器以为每个指令推荐适当的API，省去了手动选择API的繁琐步骤。

Jul, 2023

MINT: 使用工具和语言反馈评估多轮交互中的LLMs

通过使用工具和自然语言反馈，MINT基准测试评估了大型语言模型在解决具有多回合交互的任务时的能力，并从20个开源和闭源的语言模型分析中发现，在工具交互和自然语言反馈的情况下，LLMs的性能有所提升。

Sep, 2023

评价大型语言模型在指令遵循方面的表现

这篇研究通过引入一个具有挑战性的元评估基准LMMBar，调查了大型语言模型(LLMs)在评估指导遵循生成文本方面的效力，发现不同评估器对LMMBar的性能表现不同，最高分的评估器仍有改进的空间，并提出了一套新颖的提示策略来缩小LLM和人类评估器之间的差距。通过LLMBar希望提供对LLM评估器的更多洞察，并促进未来开发更好的指导遵循模型的研究。

Oct, 2023

基于多样化指令的可控生成大型语言模型的基准测试

我们提出了一个新的基准测试CoDI-Eval，系统和全面评估LLMs对带有各种约束的指令的响应，揭示了它们在按照特定约束执行指令方面的局限性和开源与闭源LLMs之间存在显著差距。

Jan, 2024

小型LLM是弱工具学习者：多LLM代理

我们提出了一个模块化的多语言模型框架，将大型语言模型能力分解为规划器、调用器和摘要生成器，并通过两阶段训练范式有效地训练该框架，该框架在各种工具使用基准测试中表现出超越传统单语言模型方法的效果，凸显了其在工具学习中的功效和优势。

Jan, 2024

认识未知：一种敏感于不确定性的LLM指导调优方法

通过利用不确定性敏感调谐方法，我们成功提高了大型语言模型识别其知识边界的能力，改善了幻觉问题，并在性能方面获得了显著的提升。

Jun, 2024

WTU-EVAL：面向大型语言模型的工具使用评估基准

大型语言模型（LLMs）虽然在自然语言处理任务中表现出色，但仍需要外部工具来扩展其能力。本研究探索LLMs是否能够确定其能力边界并灵活使用工具，提出WTU-Eval基准评估来评估LLMs的性能，并通过细调数据集改善工具决策，结果显示LLMs在一般数据集中难以确定工具使用，并且错误的工具使用显著损害了LLMs的性能。

Jul, 2024

揭示大型语言模型的盲点：自我挑战框架

本研究旨在解决大型语言模型（LLMs）在评估其局限性方面的不足。我们提出了一种自我挑战的评估框架，通过引导LLMs发现自身错误并总结出新模式，结合人类反馈，生成更具挑战性的数据。研究表明，仅有44.96%的实例能被模型正确回答，此框架为LLMs的动态评估提供了新思路。

Aug, 2024

学习提问：当大型语言模型遇到模糊指令时

本研究解决现代大型语言模型（LLMs）在面对模糊用户指令时的工具使用效率问题。论文提出了一个新框架Ask-when-Needed（AwN），使LLMs在遇到困难时主动询问用户，从而减少由于错误指令引发的幻觉风险。研究表明，AwN在工具学习方面显著优于现有框架，对提高LLMs的性能具有重要影响。

Aug, 2024