TeleQnA：评估大型语言模型的基准数据集电信知识

Oct, 2023

TeleQnA：评估大型语言模型的基准数据集电信知识

TeleQnA: A Benchmark Dataset to Assess Large Language Models Telecommunications Knowledge

Ali Maatouk, Fadhel Ayed, Nicola Piovesan, Antonio De Domenico, Merouane Debbah...

TL;DR我们介绍了 TeleQnA，这是首个用于评估大型语言模型（LLMs）在电信领域知识的基准数据集。该数据集包含 10,000 个问题和答案，来源于多个标准和研究文章。该论文阐述了创建该数据集的自动问题生成框架，并说明了在不同阶段集成人工输入以保证问题质量。通过使用提供的数据集，对 GPT-3.5 和 GPT-4 等 LLMs 的能力进行了评估。结果表明，这些模型在处理复杂的标准相关问题方面存在困难，但在解答一般的电信相关问题时表现出了出色的能力。此外，我们的结果展示了将电信知识背景纳入模型显著提高了其性能，从而揭示了电信基础模型的需求。最后，将数据集分享给了活跃在电信领域的专业人士，并将他们的表现与 LLMs 进行了基准测试。研究结果表明，在电信知识方面，LLMs 可以与活跃专业人士的表现相媲美，这归功于它们处理大量信息的能力，突显了 LLMs 在该领域的潜力。该数据集已在 GitHub 上公开获取。

Abstract

We introduce teleqna, the first benchmark dataset designed to evaluate the knowledge of large language models (LLMs) in →

teleqna benchmark dataset large language models telecommunications evaluation

发现论文，激发创造

利用大型语言模型理解电信标准

通过评估最新的大型语言模型作为第三代合作伙伴计划（3GPP）文件参考的问答助手的能力，本文提供了性能评估的基准和测量方法，进行了数据预处理和微调，提供了适用于所有语言模型的增加响应准确性的指南，并提供了一种名为 TeleRoBERTa 的模型，其性能与基础语言模型相当，但参数数量少一个数量级。结果表明，大型语言模型可以作为电信技术文件的可靠参考工具，因此在故障排除、维护、网络运营和软件产品开发等多个领域具有潜力。

Apr, 2024

强化大型语言模型在工业领域特定问题回答上的表现

本研究提供了一个基于微软产品和技术问题的产业特定 QA 知识的检测基准 MSQA，旨在评估旨在提高 LLM 领域特定能力的方法。此外，我们提出了一种新的模型交互范式，可以使 LLM 在不熟练的领域特定任务上实现更好的性能。实验表明，遵循我们的模型融合框架的方法优于常用的检索方法的 LLM。

May, 2023

ToolQA: 一个带有外部工具的 LLM 问答数据集

为了有效评估 Large Language Models（LLMs）使用外部工具回答问题的能力，我们开发了一个名为 ToolQA 的新数据集，并使用可伸缩的自动化过程进行数据集的管理，并使用 13 种专门设计的工具进行交互以回答问题。

Jun, 2023

大型语言模型在电信领域的语言智能

在自然语言处理领域中，本研究通过对四个知名的大型语言模型（Llama-2，Falcon，Mistral 和 Zephyr）进行全面的零样本评估，与最先进的微调模型进行性能比较，评估了大型语言模型在电信领域内的知识和理解能力，并发现零样本的大型语言模型能够在这一领域内达到与当前最先进微调模型相当的性能水平，突显了大型语言模型作为理解这一领域不足的各个方面的有价值资源的潜力。

Feb, 2024

TheoremQA：基于定理的问答数据集

本文介绍了一个以定理驱动的问答数据集 TheoremQA，用于评估人工智能模型应用定理解决具有挑战性的科学问题的能力。研究人员使用 16 个大型语言和代码模型评估 TheoremQA，并发现 GPT-4 在 Program-of-Thoughts Prompting 的帮助下解决这些问题的能力是无与伦比的，达到了 51％，而现有的所有开放源代码模型都低于 15％，仅仅超过了随机猜测的基线。

May, 2023

RepLiQA：用于评估 LLMs 在未见参考内容上的问答数据集

通过介绍一个名为 RepLiQA 的新测试数据集，本研究试图解决使用互联网数据进行大型语言模型评估时可能出现的问题，并通过对各种型号和规模的模型进行基准测试，揭示它们在不同情境条件下的性能差异。

Jun, 2024

MaScQA：一个用于研究大型语言模型中材料科学知识的问答数据集

我们基于材料学领域的 650 个具有挑战性的问题，对 GPT-3.5 和 GPT-4 模型在问答、零点提示和思维链激励下的表现进行了评估，并发现 GPT-4 的准确率最高（约为 62%），而与思维链激励相比，没有明显的准确率提高。通过错误分析，我们发现概念错误（64%）是改进语言模型表现的主要因素，而计算错误（36%）对 LLMs 性能的降低起到了次要作用。我们希望该工作中的数据集和分析能够促进材料科学领域特定 LLMs 的开发和信息提取策略的研究。

Aug, 2023

SecQA: 用于评估计算机安全中大型语言模型的简洁问答数据集

本文介绍了 SecQA 数据集，该数据集旨在评估大型语言模型（LLMs）在计算机安全领域的性能。我们详细说明了 SecQA 的结构和目的，包括两个难度逐渐增加的版本，以提供对各种难度水平的简明评估。此外，我们使用 0-shot 和 5-shot 学习设置对 GPT-3.5-Turbo，GPT-4，Llama-2，Vicuna，Mistral 和 Zephyr 模型进行了广泛评估。我们的结果突显了这些模型在计算机安全上的不同能力和局限性。这项研究不仅提供了对 LLMs 在理解安全相关内容方面的当前状态的洞察，还将 SecQA 确立为未来在这一关键研究领域中进行进一步发展的基准。

Dec, 2023

长尾知识的自动问答生成

通过预训练大型语言模型解决普适领域问答中的常见知识和罕见长尾知识学习难题，我们提出了一种自动生成专门用于长尾知识的问答数据集的自动方法，并展示了相关的研究挑战。通过预训练语言模型，在我们新生成的长尾问答数据集上进行了详尽实验，比较了其使用维基百科和维基数据知识图等外部资源的性能。

Mar, 2024

通过大型语言模型了解电信语言

本文介绍了如何使用 Fine-tune 调整预训练语言模型，例如 BERT、RoBERTa 和 GPT-2，来识别电信领域的文档中的工作组标准，其准确率可达 84.6%。

Jun, 2023

TeleQnA：评估大型语言模型的基准数据集 电信知识

TeleQnA：评估大型语言模型的基准数据集电信知识