SecQA: 用于评估计算机安全中大型语言模型的简洁问答数据集

Dec, 2023

SecQA: 用于评估计算机安全中大型语言模型的简洁问答数据集

SecQA: A Concise Question-Answering Dataset for Evaluating Large Language Models in Computer Security

Zefang Liu

TL;DR本文介绍了 SecQA 数据集，该数据集旨在评估大型语言模型（LLMs）在计算机安全领域的性能。我们详细说明了 SecQA 的结构和目的，包括两个难度逐渐增加的版本，以提供对各种难度水平的简明评估。此外，我们使用 0-shot 和 5-shot 学习设置对 GPT-3.5-Turbo，GPT-4，Llama-2，Vicuna，Mistral 和 Zephyr 模型进行了广泛评估。我们的结果突显了这些模型在计算机安全上的不同能力和局限性。这项研究不仅提供了对 LLMs 在理解安全相关内容方面的当前状态的洞察，还将 SecQA 确立为未来在这一关键研究领域中进行进一步发展的基准。

Abstract

In this paper, we introduce secqa, a novel dataset tailored for evaluating the performance of large language models (LLMs) in the domain o

secqa large language models computer security dataset benchmark

发现论文，激发创造

SEC-QA: 金融问答的系统评估语料库

金融数据分析中普遍面临的挑战是找到能准确反映实际任务用于模型评估的数据集，作者提出了一种连续的数据集生成框架 SEC-QA，在这个框架中，提供了两个重要功能，分别是跨多个长文本金融文件生成问题 - 答案 (QA) 对，以更好地代表真实世界金融场景，并且能够利用最新的公共文件集刷新数据集，这些文件集 LLMs 尚未接触到。实验证明，当前的检索增强型生成方法不能够有效回答这些复杂的多文档问题，为此，作者引入了一种基于思维程序的 QA 系统，提高了复杂信息检索和定量推理流程的能力，从而提高了 QA 准确性。

Jun, 2024

MaScQA：一个用于研究大型语言模型中材料科学知识的问答数据集

我们基于材料学领域的 650 个具有挑战性的问题，对 GPT-3.5 和 GPT-4 模型在问答、零点提示和思维链激励下的表现进行了评估，并发现 GPT-4 的准确率最高（约为 62%），而与思维链激励相比，没有明显的准确率提高。通过错误分析，我们发现概念错误（64%）是改进语言模型表现的主要因素，而计算错误（36%）对 LLMs 性能的降低起到了次要作用。我们希望该工作中的数据集和分析能够促进材料科学领域特定 LLMs 的开发和信息提取策略的研究。

Aug, 2023

TeleQnA：评估大型语言模型的基准数据集电信知识

我们介绍了 TeleQnA，这是首个用于评估大型语言模型（LLMs）在电信领域知识的基准数据集。该数据集包含 10,000 个问题和答案，来源于多个标准和研究文章。该论文阐述了创建该数据集的自动问题生成框架，并说明了在不同阶段集成人工输入以保证问题质量。通过使用提供的数据集，对 GPT-3.5 和 GPT-4 等 LLMs 的能力进行了评估。结果表明，这些模型在处理复杂的标准相关问题方面存在困难，但在解答一般的电信相关问题时表现出了出色的能力。此外，我们的结果展示了将电信知识背景纳入模型显著提高了其性能，从而揭示了电信基础模型的需求。最后，将数据集分享给了活跃在电信领域的专业人士，并将他们的表现与 LLMs 进行了基准测试。研究结果表明，在电信知识方面，LLMs 可以与活跃专业人士的表现相媲美，这归功于它们处理大量信息的能力，突显了 LLMs 在该领域的潜力。该数据集已在 GitHub 上公开获取。

Oct, 2023

SelQA: 基于选项的问答新基准

本篇论文提出了一个新的选择题型问答数据集 SelQA，该数据集通过众包生成问题，并从英文维基百科中提取十个最常见主题的长度为答案。我们介绍了一种语料库注释方案，旨在通过明确减少问题和答案之间的词共现来增强生成大型、多样化和具有挑战性的数据集的过程。在回答句子选择和回答触发任务上，我们比较了几个系统，为未来的工作提供了强有力的基准结果。

Jun, 2016

LibriSQA：以新颖的数据集和框架进行自由形式和开放式口语问答的先驱

通过提出一个轻量级、端到端的框架并改进音频识别任务，本研究展示了大规模语言模型（LLMs）在处理多模态功能方面的能力，尤其是对于口语问答任务（SQA）的需求，以及语音和文本特征之间的精确对齐和深入交互。

Aug, 2023

网络统计：用于评估大型语言模型在网络安全领域的基准数据集

介绍了 CyberMetric，这是一个包含 10,000 个问题的基准数据集，通过合作过程结合人类专家知识和大型语言模型（LLMs）来创建问题，主要目标是在网络安全领域中促进人类和不同 LLMs 之间的公平比较，结果显示 LLMs 在几乎所有网络安全方面表现优于人类。

Feb, 2024

强化大型语言模型在工业领域特定问题回答上的表现

本研究提供了一个基于微软产品和技术问题的产业特定 QA 知识的检测基准 MSQA，旨在评估旨在提高 LLM 领域特定能力的方法。此外，我们提出了一种新的模型交互范式，可以使 LLM 在不熟练的领域特定任务上实现更好的性能。实验表明，遵循我们的模型融合框架的方法优于常用的检索方法的 LLM。

May, 2023

RepLiQA：用于评估 LLMs 在未见参考内容上的问答数据集

通过介绍一个名为 RepLiQA 的新测试数据集，本研究试图解决使用互联网数据进行大型语言模型评估时可能出现的问题，并通过对各种型号和规模的模型进行基准测试，揭示它们在不同情境条件下的性能差异。

Jun, 2024

UQA: 乌尔都问答语料库

介绍了 UQA，一个用于乌尔都语（Urdu）问答和文本理解的新数据集，通过一种称为 EATS 的技术，将斯坦福问答数据集（SQuAD2.0）的答案段落的翻译上下文中的答案范围进行保留，在两个候选项（Google Translator 和 Seamless M4T）中选择和评估最佳翻译模型，并对 UQA 上的几个最先进的多语言问答模型进行基准测试，其中包括 mBERT，XLM-RoBERTa 和 mT5，报告了有希望的结果。通过展示 EATS 对于创建其他语言和领域的高质量数据集的效果，证明了 UQA 对于开发和测试乌尔都语的多语言 NLP 系统以及增强现有模型的跨语言可迁移性是有价值的。UQA 数据集和代码可在 www.github.com/sameearif/UQA 上公开获取。

May, 2024

MLQA：评估跨语言抽取式问答

该研究提出了一个名为 MLQA 的多语言提取式问答（QA）评估基准，旨在推动跨语言 QA 研究。 MLQA 包含 7 种语言的 QA 实例，并使用一种新颖的对齐上下文策略，基于 Wikipedia 文章构建，以此作为现有提取式 QA 数据集的跨语言扩展。

Oct, 2019