TheoremQA：基于定理的问答数据集

May, 2023

TheoremQA: A Theorem-driven Question Answering dataset

Wenhu Chen, Ming Yin, Max Ku, Elaine Wan, Xueguang Ma...

TL;DR本文介绍了一个以定理驱动的问答数据集 TheoremQA，用于评估人工智能模型应用定理解决具有挑战性的科学问题的能力。研究人员使用 16 个大型语言和代码模型评估 TheoremQA，并发现 GPT-4 在 Program-of-Thoughts Prompting 的帮助下解决这些问题的能力是无与伦比的，达到了 51％，而现有的所有开放源代码模型都低于 15％，仅仅超过了随机猜测的基线。

Abstract

The recent LLMs like gpt-4 and PaLM-2 have made tremendous progress in solving fundamental math problems like GSM8K by achieving over 90\% accuracy. However, their capabilities to solve more challenging math problems which require domain-specific knowledge (i.e. theorem) have yet to be

theoremqa theorem-driven question-answering dataset large language and code models gpt-4 program-of-thoughts prompting

发现论文，激发创造

TeleQnA：评估大型语言模型的基准数据集电信知识

我们介绍了 TeleQnA，这是首个用于评估大型语言模型（LLMs）在电信领域知识的基准数据集。该数据集包含 10,000 个问题和答案，来源于多个标准和研究文章。该论文阐述了创建该数据集的自动问题生成框架，并说明了在不同阶段集成人工输入以保证问题质量。通过使用提供的数据集，对 GPT-3.5 和 GPT-4 等 LLMs 的能力进行了评估。结果表明，这些模型在处理复杂的标准相关问题方面存在困难，但在解答一般的电信相关问题时表现出了出色的能力。此外，我们的结果展示了将电信知识背景纳入模型显著提高了其性能，从而揭示了电信基础模型的需求。最后，将数据集分享给了活跃在电信领域的专业人士，并将他们的表现与 LLMs 进行了基准测试。研究结果表明，在电信知识方面，LLMs 可以与活跃专业人士的表现相媲美，这归功于它们处理大量信息的能力，突显了 LLMs 在该领域的潜力。该数据集已在 GitHub 上公开获取。

Oct, 2023

增强形式定理证明：一个用于训练 Coq 代码 AI 模型的综合数据集

该研究论文介绍了一个专门设计用于提高大型语言模型在解释和生成 Coq 代码方面能力的全面数据集，通过亦包含源引用和许可信息的数千个 Coq 源代码文件，初步实验表明使用该数据集训练的模型在 Coq 代码生成方面具有显著的潜力。

Mar, 2024

MaScQA：一个用于研究大型语言模型中材料科学知识的问答数据集

我们基于材料学领域的 650 个具有挑战性的问题，对 GPT-3.5 和 GPT-4 模型在问答、零点提示和思维链激励下的表现进行了评估，并发现 GPT-4 的准确率最高（约为 62%），而与思维链激励相比，没有明显的准确率提高。通过错误分析，我们发现概念错误（64%）是改进语言模型表现的主要因素，而计算错误（36%）对 LLMs 性能的降低起到了次要作用。我们希望该工作中的数据集和分析能够促进材料科学领域特定 LLMs 的开发和信息提取策略的研究。

Aug, 2023

FormulaQA：一个基于公式的数值推理问答数据集

通过使用存在的公式驱动的 FormulaQA 数据集，得出了使用检索增强的 LLMs 模型结合外部公式数据库时对现有模型具有重要改进潜力的实证结果。

Feb, 2024

MathQA: 基于操作的形式化方法实现可解释的数学问题求解

介绍了一个大规模的数学问题数据集和一个可解释的神经数学问题求解器，该求解器学习将问题映射到操作程序。使用新的表示语言，MathQA 数据集明确地注释了各种类型的问题的操作程序，同时提高了模型的性能和可解释性。通过自动问题分类，我们的实验结果在 MathQA 和 AQuA 数据集上均优于竞争基线，但仍显著低于人类表现，这表明该数据集为未来研究提出了新的挑战。

May, 2019

GPQA：一份应届毕业生可接受且无需谷歌验证的问答基准

GPQA 是一个由生物学、物理学和化学领域的专家编写的高难度的 448 个多选题的数据集，通过验证人员的准确性测试和对最先进的 AI 系统的测试表明这些问题对于非专家和 AI 系统来说都具有一定难度，因此需要开发可扩展的监督方法以提供人类对 AI 系统进行可靠监督和获取可靠信息的能力。

Nov, 2023

陷入数理泥潭，远离 AGI 峰会：通过本体引导的扰动评估 LLM 的数学能力

该研究通过扰动问题和生成数据集，评估大型语言模型在数学推理任务中的能力，结果表明现有模型在扰动问题上性能显著下降，缺乏深度推理能力。

Jan, 2024

SecQA: 用于评估计算机安全中大型语言模型的简洁问答数据集

本文介绍了 SecQA 数据集，该数据集旨在评估大型语言模型（LLMs）在计算机安全领域的性能。我们详细说明了 SecQA 的结构和目的，包括两个难度逐渐增加的版本，以提供对各种难度水平的简明评估。此外，我们使用 0-shot 和 5-shot 学习设置对 GPT-3.5-Turbo，GPT-4，Llama-2，Vicuna，Mistral 和 Zephyr 模型进行了广泛评估。我们的结果突显了这些模型在计算机安全上的不同能力和局限性。这项研究不仅提供了对 LLMs 在理解安全相关内容方面的当前状态的洞察，还将 SecQA 确立为未来在这一关键研究领域中进行进一步发展的基准。

Dec, 2023

Quasar: 通过搜索和阅读获取问题回答的数据集

该研究提出了两个数据集，用于评估自然语言查询的理解和从大量文本语料库中提取答案的系统。Quasar-S 数据集由 37000 个填空式查询构成，Quasar-T 数据集由 43000 个开放领域的问答问题和它们的答案组成。我们将这些数据集作为事实型问题回答的两个相关子任务的挑战，并评估了几个基线模型，并显示它们在 Quasar-S 和 - T 方面落后于人类表现 16.4％和 32.1％。

Jul, 2017

GeoQA：一个面向多模态数字推理的几何问答基准

本文提出了大规模的 Geometric Question Answering 数据集 GeoQA 和一个神经几何求解器 NGS，并通过多模式信息综合分析和生成可解释性程序来解决几何问题。

May, 2021