NLPBench：评估大型语言模型在解决 NLP 问题上的能力

Sep, 2023

NLPBench：评估大型语言模型在解决 NLP 问题上的能力

NLPBench: Evaluating Large Language Models on Solving NLP Problems

Linxin Song, Jieyu Zhang, Lechao Cheng, Pengyuan Zhou, Tianyi Zhou...

TL;DR通过独特的基准数据集 NLPBench，评估了大型语言模型在自然语言处理中的问题解决能力，并发现高级提示策略的有效性不稳定，对 LLMs 性能有时造成损害，尤其是较小的模型 LLAMA-2（13 亿参数）中表现更明显；同时发现大型语言模型在科学问题解决能力方面存在特定的不足，逻辑分解和推理的薄弱性明显影响结果。

Abstract

Recent developments in large language models (LLMs) have shown promise in enhancing the capabilities of natural language processing (NLP). Despite these successes, there remains a dearth of research dedicated to the NLP problem-solving abilities of LLMs. To fill the gap in this area, w

large language models nlp problem-solving abilities nlpbench dataset evaluation advanced prompting strategies

发现论文，激发创造

基于维基百科风格的调查问卷生成的大型语言模型：在 NLP 概念上的评估

通过对计算机科学 - NLP 领域的 20 个选定主题进行研究和评估，本文证明了 GPT-4 相对于 GPT-3.5 在产生简明调查文章方面的成功，并揭示了 LLM 在特定领域应用中存在的问题和短板。

Aug, 2023

导航迷宫：评估和提高 LLMs 处理搜索问题的能力

最近，大型语言模型在数学和推理基准测试中取得了令人瞩目的表现。但是，它们在对人类而言相对容易的逻辑问题和谜题上仍然经常遇到困难。为了进一步研究这个问题，我们引入了一个名为 SearchBench 的新基准测试，其中包含 11 种独特的搜索问题类型，每种问题类型都配备了自动化流程来生成任意数量的实例，并分析 LLM 生成解决方案的可行性、正确性和最优性。我们发现，即使是最先进的 LLM 也无法完全以文本方式解决这些问题，例如 GPT4 只解决了 1.4% 的问题。SearchBench 的问题要求考虑到多个解决路径以及回溯，这对自回归模型构成了重大挑战。指导 LLM 生成解决问题的代码会有所帮助，但是仅有轻微的改进，例如 GPT4 的表现提升到了 11.7%。在这项工作中，我们展示了利用 A * 算法实现的上下文学习如何提高性能。当将这种优化方法与我们提出的多阶段多尝试方法相结合时，它的潜力得到了充分展现，将 GPT-4 的表现提升到了 57% 以上。

Jun, 2024

SciBench：评估大规模语言模型的大学科学问题解决能力

最近大型语言模型 (LLM) 在许多数学基准上取得显著进展，但大多数基准只涉及初高中科目的问题和多项选择题，且仅限于有限范围的基本算术操作。为解决这些问题，本文引入了一个广泛的基准套件 SciBench，旨在系统地检验复杂科学问题解决所需的推理能力。SciBench 包含两个精心策划的数据集：一个开放集，包含从数学、化学和物理教科书中提取的多领域的大学级科学问题；一个封闭集，包含了计算机科学和数学本科考试中的问题。基于这两个数据集，我们对两个代表性 LLM 进行了深入的基准研究，采用多种提示策略。结果表明，当前 LLM 的表现不尽如人意，综合得分仅为 35.80%。此外，通过详细的用户研究，我们将 LLM 的错误归类为十种问题解决能力。我们的分析表明，没有一种单一的提示策略明显优于其他策略，而且一些策略在某些问题解决技能上的提高会导致其他技能下降。我们预计 SciBench 将催生 LLM 的推理能力进一步发展，从而最终促进科学研究和发现。

Jul, 2023

大型语言模型仍无法规划 (面向规划和变化推理的 LLM 基准测试)

该研究提出了一种可扩展的评估框架来测试 LLMs 在行动和变化推理方面的能力，从而证明现有的推理基准测试是简单化的，无法支持关于 LLMs 推理能力的夸张的说法，并展示了 GPT-3、Instruct-GPT3 和 BLOOM 对这些任务的表现不佳。

Jun, 2022

Mathify: 在数学问题求解任务上评估大型语言模型

自然语言处理和大型语言模型在教育和指导方法领域取得了快速进展，特别在解决数学问题的应用方面，其中 MAmmoTH-13B 表现出了最高的能力水平，成为解决 NCERT 数学问题的可靠基准。

Apr, 2024

LLM 们已经足够先进了吗？一个为大型语言模型提供挑战性问题解决基准的测试

本文介绍了一个新的基准数据集 JEEBench，用于评估 Large Language Models 的问题解决能力，其中包含了 450 个有挑战性的预工程数学、物理和化学问题。本文对 GPT 系列模型进行了评估，发现即使使用 Self-Consistency 和 Chain-of-Thought prompting 等技术，GPT4 的最佳表现仍不到 40％，错误的代数运算和缺乏相关领域知识是造成表现不佳的主要原因。作者希望这个基准数据集能够引导未来使用 Large Language Models 进行问题解决的研究。

May, 2023

SCALE：高级语言模型评估复杂度的扩展

该研究引入了一个基于瑞士法律系统的多维 NLP 基准测试，包括长文本处理、领域特定知识拥有、多语言理解、多任务等挑战，该基准测试可以用于测试和推广最先进的 LLMs 模型。

Jun, 2023

揭示以度量为重点的 LLM 评估：挑战与解决方案

NLP 中，大型语言模型（LLMs）的成功推动了其显著突破，本文对 LLM 的评估方法进行了全面探索，提供了选择和解读已使用度量标准的见解，并采用最新的生物医学 LLM 进行了这些度量标准的应用比较，旨在为研究人员提供一个实用的指南，推进对这些大型语言模型的理解和应用。

Apr, 2024

大型语言模型：一份调查报告

对大型语言模型（LLMs）进行了综述，包括三个流行的 LLM 系列（GPT，LLaMA，PaLM）的特点、贡献和局限性，同时讨论了构建和增强 LLMs 的技术、为 LLM 训练、微调和评估准备的常用数据集以及常用的 LLM 评估指标，最后讨论了未来的挑战和研究方向。

Feb, 2024

大型语言模型在语言学习中的口语智能

评估大语言模型在教育中的功效，特别是在口语学习领域，引入新的多选题数据集评估模型在理解和应用口语知识方面的表现，研究不同提示技术对模型性能的影响，发现模型在音韵学、语音学和第二语言习得方面具有良好的概念理解，但在解决现实世界问题的推理方面存在限制，并初步探讨了对话交流的发现。

Aug, 2023