核司问答：核领域语言模型的人工基准测试

Oct, 2023

核司问答：核领域语言模型的人工基准测试

NuclearQA: A Human-Made Benchmark for Language Models for the Nuclear Domain

Anurag Acharya, Sai Munikoti, Aaron Hellinger, Sara Smith, Sridevi Wagle...

TL;DR这篇论文介绍了一种在核能领域评估语言模型性能的人工测试标准 ——NuclearQA，它由专家设计的 100 个问题组成，针对语言模型的能力进行了测试。论文还提出了一种新的评估指标，发现现有的最优语言模型在该测试标准上的表现不尽人意，揭示了现有语言模型的科学知识差距。

Abstract

As llms have become increasingly popular, they have been used in almost every field. But as the application for llms expands from generic fields to narrow, focused science domains, there exists an ever-increasing

llms evaluating efficacy nuclearqa benchmark language models scientific knowledge gap

发现论文，激发创造

强化大型语言模型在工业领域特定问题回答上的表现

本研究提供了一个基于微软产品和技术问题的产业特定 QA 知识的检测基准 MSQA，旨在评估旨在提高 LLM 领域特定能力的方法。此外，我们提出了一种新的模型交互范式，可以使 LLM 在不熟练的领域特定任务上实现更好的性能。实验表明，遵循我们的模型融合框架的方法优于常用的检索方法的 LLM。

May, 2023

NukeBERT：用于低资源核领域的预训练语言模型

该文提出了一种基于 Bidirectional Encoder Representational Transformers (BERT) 技术的新型预训练模型 NukeBERT，能够有效地提高核能领域问题回答的准确性，并通过开源数据集 NQuAD 促进相关领域的进一步研究。

Mar, 2020

使用语言模型作为审核器的基础模型基准测试

本文提出了一种新的基准测试框架，Language-Model-as-an-Examiner，其中 LM 作为一个知识丰富的考官，提出问题，并以无参考的方式评估答复，以便更全面和公平地评估模型。

Jun, 2023

NovelQA: 一个长距离小说问答基准

使用英文小说构建的 NovelQA 评估长上下文具有深层文本理解能力的 LLMs 的表现，结果强调了 LLMs 在多次推理、注重细节的问题和超过 100,000 个标记的极长输入方面面临的挑战，强调了进一步改进 LLMs 以提高其长上下文理解和计算文学研究的必要性。

Mar, 2024

TeleQnA：评估大型语言模型的基准数据集电信知识

我们介绍了 TeleQnA，这是首个用于评估大型语言模型（LLMs）在电信领域知识的基准数据集。该数据集包含 10,000 个问题和答案，来源于多个标准和研究文章。该论文阐述了创建该数据集的自动问题生成框架，并说明了在不同阶段集成人工输入以保证问题质量。通过使用提供的数据集，对 GPT-3.5 和 GPT-4 等 LLMs 的能力进行了评估。结果表明，这些模型在处理复杂的标准相关问题方面存在困难，但在解答一般的电信相关问题时表现出了出色的能力。此外，我们的结果展示了将电信知识背景纳入模型显著提高了其性能，从而揭示了电信基础模型的需求。最后，将数据集分享给了活跃在电信领域的专业人士，并将他们的表现与 LLMs 进行了基准测试。研究结果表明，在电信知识方面，LLMs 可以与活跃专业人士的表现相媲美，这归功于它们处理大量信息的能力，突显了 LLMs 在该领域的潜力。该数据集已在 GitHub 上公开获取。

Oct, 2023

SportQA: 大型语言模型中的体育理解基准

SportQA 是一个专门设计用于评估大型语言模型在体育理解方面的新型基准，通过超过 70,000 个多项选择题，涵盖了三个不同难度级别，从基本历史事实到复杂的场景推理任务，综合使用少样本学习和思维链提示对主流大型语言模型进行了全面评估，结果表明，虽然大型语言模型在基本体育知识方面表现出色，但在更复杂的场景推理中表现不佳，与人类专业知识相比较有落后，引入 SportQA 为自然语言处理领域迈出了重要一步，为评估和提升大型语言模型的体育理解能力提供了一个工具。

Feb, 2024

MedExpQA: 多语言大型语言模型在医疗问题回答方面的基准评估

该论文介绍了 MedExpQA，一个基于医学考试的多语言基准，用于评估大型语言模型在医学问答中的表现，并指出目前大型语言模型的性能还有很大的改进空间，特别是对于英语以外的语言。同时，该研究还强调了获取和整合可用的医学知识对于医学问答的后续评估结果具有困难，并呼吁进一步开发其他语言的基准。

Apr, 2024

中文医药大语言模型中的健康相关原子知识的计算分析

通过构建基准测试并评估通用和专用语言模型，我们发现通用语言模型在原子知识和指令遵循能力方面表现更好，而专用语言模型在提供安全性方面表现较差，在提炼数据方面可以通过通用语言模型学习。此外，我们还发现提炼数据对于专用语言模型的微调效果最佳。

Oct, 2023

通过辩论评估大型语言模型的性能

基于辩论的自动化基准评估框架可有效评估和比较大型语言模型（LLMs）的性能，同时消除了依赖人类群体的昂贵需求。

Jun, 2024

M-QALM: 通过问答评估大型语言模型在临床阅读理解和知识回忆方面的能力

研究了大型语言模型在临床和生物医学领域中与相关知识的召回和整合性方面的性能，发现指导调优等因素能够提高召回和理解能力，并展示了在医学知识数据集上进行直接微调的鼓舞人心的结果，为语言模型中的临床知识表示学习的进一步发展提供资源和标准方法论。

Jun, 2024