IPEval: 一种用于大规模语言模型的双语知识产权代理咨询评估基准

Jun, 2024

IPEval: 一种用于大规模语言模型的双语知识产权代理咨询评估基准

IPEval: A Bilingual Intellectual Property Agency Consultation Evaluation Benchmark for Large Language Models

Qiyao Wang, Jianguo Huang, Shule Lu, Yuan Lin, Kan Xu...

TL;DR鉴于在知识产权领域中大型语言模型（LLMs）的快速发展，缺乏一种特定的评估基准来评估其理解、应用和推理能力，我们引入了 IPEval，这是第一个为知识产权机构和咨询任务量身定制的评估基准。IPEval 包括 2657 个多项选择题，涵盖了知识产权的创造、应用、保护和管理等四个主要方面。这些问题涉及专利权（发明、实用新型、设计）、商标、版权、商业秘密和其他相关法律。评估方法包括零 - shot、5 - 少量 - shot 和 CoT 等多种类型的 LLM，主要以英文或中文为主。结果显示，GPT 系列和 Qwen 系列等模型在英文测试中表现优异，而以中文为主的 LLM 在中文测试中表现出色，尽管专门的鉴于知识产权的 LLMs 落后于通用性模型。知识产权的地区和时间方面强调了 LLMs 掌握法律细微差别和不断发展的法律的需求。IPEval 旨在准确评估 LLMs 在知识产权方面的能力，并推动专门模型的发展。

Abstract

The rapid development of large language models (LLMs) in vertical domains, including intellectual property (IP), lacks a specific evaluation benc

large language models evaluation benchmark intellectual property ipeval llm capabilities

发现论文，激发创造

E-EVAL：大型语言模型的全面中国 K-12 教育评估基准

通过介绍首个专为中国 K-12 教育领域设计的综合评估基准 E-EVAL，针对 LLM 在该领域的各种能力提供准确评估。E-EVAL 由 4,351 道初、中、高级别的选择题组成，并涵盖语文、英语、政治、历史、伦理、物理、化学、数学和地理等多个学科。研究发现，中文优先的模型相比于英文优先的模型表现良好，其中许多模型的得分甚至超过了 GPT 4.0。然而，几乎所有模型在数学等复杂科目上表现不佳。大部分中文优先的 LLM 在小学阶段的得分并不高于中学阶段的得分。同时，研究结果还表明，思维链技术（CoT）仅在具有挑战性的科学学科上有效，而一键提示对于文科学科更加有益。通过 E-EVAL，旨在分析 LLM 在教育应用中的优势和局限，推动中国 K-12 教育和 LLM 的进步与发展。

Jan, 2024

RoleEval：大型语言模型的双语角色评估基准

该论文介绍了 RoleEval，一个旨在评估角色知识的记忆、利用和推理能力的双语基准测试，包括 RoleEval-Global 和 RoleEval-Chinese 这两个部分，旨在系统地探索角色的个人信息、关系、能力和经历的基础知识和多跳推理能力。通过对多个大型语言模型在不同设置下对 RoleEval 的广泛评估，我们发现 GPT-4 在 RoleEval-Global 上表现出色，而中文语言模型在 RoleEval-Chinese 上则表现优异，凸显了知识分布差异的重要性。我们期望 RoleEval 能够凸显对各种语言和文化背景下基础模型的角色知识评估的重要性。

Dec, 2023

FinEval：适用于大型语言模型的中文金融领域知识评估基准

使用 FinEval 基准测试，评估了当前中文和英文大型语言模型在金融领域知识方面的表现，结果显示只有 GPT-4 在不同提示设置下实现了接近 70% 的准确度，表明大型语言模型在金融领域知识方面具有显著的增长潜力。

Aug, 2023

ICLEval：评估大型语言模型的上下文学习能力

通过 ICLEval 基准测试，我们展示了不同大语言模型中 ICL 能力普遍存在，并且模型大小不是 ICL 功效的唯一决定因素。

Jun, 2024

EpiK-Eval: 评估作为知识模型的语言模型

通识大语言模型（LLMs）在人工智能时代的作用越来越核心，本文探讨了 LLMs 的能力，将不同的训练文档中的知识进行整合，以提高它们的整体有效性和性能。通过引入一个问题回答基准测试，作者发现现有的 LLMs 在这方面存在显著弱点，呼吁改进知识整合方法以开发更强大可靠的 LLMs。

Oct, 2023

大型语言模型的指令跟随评估

通过引入 Instruction-Following Eval (IFEval) 作为一种简单易复制的评估基准来解决大型语言模型中遵循指令能力的评估问题。该基准专注于一组 “可验证指令”，并构建了约 500 个提示，每个提示包含一个或多个可验证指令。

Nov, 2023

PsyEval：一种用于精神健康领域的综合大型语言模型评估基准

目前缺乏对大型语言模型（LLMs）在心理健康领域能力评估的全面基准。因此，我们填补该空白，并引入了首个适用于心理健康领域特点的全面基准，包括六个子任务、三个维度，系统评估 LLMs 在心理健康领域的能力。我们为每个子任务设计了相应的简明提示，并全面评估了八个先进的 LLMs 使用我们的基准。实验结果不仅展示了当前 LLMs 在心理健康方面的改进空间，还揭示了未来模型优化的潜在方向。

Nov, 2023

C-Eval: 一种基于多级多学科的中文评估套件，用于基础模型

通过 C-Eval 对基础模型的评估，结果表明，只有 GPT-4 能够在 C-Eval 上获得平均超过 60% 的准确度，这暗示着当前的大语言模型仍有很大的提升空间。

May, 2023

OpsEval：一个针对大型语言模型的综合任务导向的 AIOps 基准

LLMs 在 NLP 任务中表现出显著能力，并且在特定领域，特别是 AIOps 领域具有潜在的应用前景。然而，目前 LLMs 在 AIOps 任务中的性能还有待确定。本文介绍了一个为 LLMs 设计的综合任务导向的 AIOps 基准测试 OpsEval，首次评估了 LLMs 在各种能力水平下的关键场景中的表现。

Oct, 2023

SciEval: 一个用于科学研究的多级大型语言模型评估基准

这篇论文提出了 SciEval 基准评估体系，以解决现有预先收集客观问题的数据泄露问题和缺乏主观问答能力评估的问题。SciEval 基于 Bloom 的认知分类学，覆盖了四个维度，系统评估科学研究能力。研究者进行了全面的实验证明，尽管 GPT-4 在与其他 LLMs 相比取得了最先进的表现，但仍有很大的改进空间，特别是在动态问题方面。数据和代码现已公开。

Aug, 2023