ToolQA: 一个带有外部工具的 LLM 问答数据集
本研究提供了一个基于微软产品和技术问题的产业特定 QA 知识的检测基准 MSQA,旨在评估旨在提高 LLM 领域特定能力的方法。此外,我们提出了一种新的模型交互范式,可以使 LLM 在不熟练的领域特定任务上实现更好的性能。实验表明,遵循我们的模型融合框架的方法优于常用的检索方法的 LLM。
May, 2023
通过使用外部工具对语言模型进行增强,可缓解传播误差和幻觉等挑战,特别是在数据异构、精确性至关重要的金融领域。我们将监督微调应用于 LLaMA-2 13B Chat 模型,使其成为 ' 任务路由器 ' 和 ' 任务解决器 '。通过使用金融领域的问答数据集,我们的模型 Raven 在改进基准模型和仅进行监督微调的基线模型上分别显示了 35.2% 和 5.06% 的改进,并且与 GPT-3.5 取得了很好的竞争效果。据我们所知,这是首个探索对金融领域的语言模型进行工具增强的研究。
Jan, 2024
本文提出了 MetaTool,这是一个用于评估大型语言模型(LLMs)的工具使用意识和正确选择工具能力的基准测试,并通过实验证明大多数 LLMs 在工具选择方面仍然存在困难。
Oct, 2023
我们介绍了 TeleQnA,这是首个用于评估大型语言模型(LLMs)在电信领域知识的基准数据集。该数据集包含 10,000 个问题和答案,来源于多个标准和研究文章。该论文阐述了创建该数据集的自动问题生成框架,并说明了在不同阶段集成人工输入以保证问题质量。通过使用提供的数据集,对 GPT-3.5 和 GPT-4 等 LLMs 的能力进行了评估。结果表明,这些模型在处理复杂的标准相关问题方面存在困难,但在解答一般的电信相关问题时表现出了出色的能力。此外,我们的结果展示了将电信知识背景纳入模型显著提高了其性能,从而揭示了电信基础模型的需求。最后,将数据集分享给了活跃在电信领域的专业人士,并将他们的表现与 LLMs 进行了基准测试。研究结果表明,在电信知识方面,LLMs 可以与活跃专业人士的表现相媲美,这归功于它们处理大量信息的能力,突显了 LLMs 在该领域的潜力。该数据集已在 GitHub 上公开获取。
Oct, 2023
通过预训练大型语言模型解决普适领域问答中的常见知识和罕见长尾知识学习难题,我们提出了一种自动生成专门用于长尾知识的问答数据集的自动方法,并展示了相关的研究挑战。通过预训练语言模型,在我们新生成的长尾问答数据集上进行了详尽实验,比较了其使用维基百科和维基数据知识图等外部资源的性能。
Mar, 2024
该研究探讨了大型语言模型 (LLMs) 在具有挑战性的条件问答领域中的能力和局限性。利用条件问答 (CQA) 数据集,重点关注 T5 和 UL2 等生成模型,我们评估了 LLMs 在不同问题类型上的性能。研究发现,经过微调的 LLMs 在某些情况下可以超越现有技术在一些方面的表现,即使没有完全编码所有输入上下文,对于是 / 否问题的精确匹配 (EM) 和 F1 分数有 7-8 个点的增加。然而,这些模型在抽取性问答方面遇到了挑战,在与现有技术相比落后于 10 个以上的点,并且在减少注入错误信息的风险方面也存在问题。与神谕检索器进行的一项研究强调了有效证据检索的关键作用,强调了该领域需要先进解决方案的必要性。此外,我们强调了评估评价指标对性能评估的重要影响,并倡导使用更全面的评估框架。任务的复杂性、观察到的性能差异以及在条件问答任务中改进训练任务和探索基于提示的技术以提高 LLMs 性能的未来工作的需求,突显了这一领域面临的持续挑战。
Dec, 2023
通过引入 ToolLLM,一个包括数据构建、模型训练和评估的通用工具使用框架,我们展示了它在增强自然语言模型的规划和推理能力方面的显著影响。我们通过用 ChatGPT 创建一个工具使用指导数据集 ToolBench,并使用深度优先搜索决策树(DFSDT)扩展搜索空间,有效地获取有效的解决方案路径。通过对 LLaMA 进行微调后得到 ToolLLaMA,我们的评估器 ToolEval 显示 ToolLLaMA 在执行复杂指令和推广到未见过的 API 方面表现出卓越的能力,并与 ChatGPT 有着相当的性能。为了使流程更加实用,我们设计了一个神经 API 检索器以为每个指令推荐适当的 API,省去了手动选择 API 的繁琐步骤。
Jul, 2023
通过使用多模态编码器将开源大语言模型(LLM)与多模态输入指令结合起来,我们提出了 Tool-LMM 系统,使学习的 LLMs 能够意识到多模态输入指令并正确选择匹配功能的工具,实验证明我们的 LMM 能够为多模态指令推荐适当的工具。
Jan, 2024
开放领域问答(ODQA)作为信息系统中的关键研究领域已经崛起。现有方法采用两种主要范式来收集证据:(1)“先检索然后阅读” 范式从外部语料库中检索相关文档;(2)“先生成然后阅读” 范式使用大型语言模型(LLMs)生成相关文档。然而,两者都无法完全满足证据的多方面需求。因此,本文提出了 LLMQA,一种通用框架,将 ODQA 过程分为三个基本步骤:查询扩展、文档选择和答案生成,结合了基于检索和基于生成的证据的优势。由于 LLMs 展示了在各种任务中表现出的出色能力,我们在框架中指导 LLMs 担任多个角色,作为生成器、重新排序器和评估器,集成它们在 ODQA 过程中的协作。此外,我们引入了一种新颖的提示优化算法,以改进角色扮演提示,引导 LLMs 生成更高质量的证据和答案。在广泛使用的基准测试(NQ、WebQ 和 TriviaQA)上进行的大量实验结果表明,LLMQA 在答案准确性和证据质量方面达到了最佳表现,展示了其推进 ODQA 研究和应用的潜力。
Mar, 2024