领域掌握基准:评估大型语言模型整体领域知识的不断更新基准 -- 初步发布
LHMKE 是一种大规模、全面和多学科知识评估基准,旨在为中文大型语言模型的知识获取能力提供全面评估。它包括 10,465 个问题,涵盖 30 个学科的 75 个任务,既包含客观题又包含主观题,以更全面评估大型语言模型的知识水平。我们对 11 个中文大型语言模型进行了零 - shot 评估,并比较了它们在不同学科的性能。通过深入分析,我们也验证了 GPT-4 是否能够自动评分主观预测。我们的研究结果表明,LHMKE 是一个具有挑战性和先进性的中文大型语言模型评估标准。
Mar, 2024
我们构建了一种基于知识导向的大型语言模型评估基准,并通过使用维基百科和不断收集出现的语料库来确保数据的公正比较,评估 21 个开源和商业大型语言模型的能力和知识相关度。
Jun, 2023
为了提高中文大型语言模型(LLMs)的问答能力,本文引入了 CDQA,这是一个包含与中国互联网最新新闻相关的问答对的中文动态问答基准,通过人工和模型相结合的流程获得高质量的数据,根据答案变化的频率仔细分类样本以便更精细地观察 LLMs 的能力,我们还评估和分析了 CDQA 上的主流和先进的中文 LLMs,广泛的实验和有价值的见解表明我们提出的 CDQA 是具有挑战性和值得进一步研究的,我们相信我们提供的基准将成为未来改善 LLMs 中文问答能力的关键数据资源。
Feb, 2024
该研究引入了一个基于瑞士法律系统的多维 NLP 基准测试,包括长文本处理、领域特定知识拥有、多语言理解、多任务等挑战,该基准测试可以用于测试和推广最先进的 LLMs 模型。
Jun, 2023
本论文提出了一个系统化的分类方法,将 LLMs 领域专业化技术分类,并讨论了适用于这些技术的关键应用领域的问题和前景,对当前研究状态和未来趋势进行了深入剖析。
May, 2023
本研究提供了一个基于微软产品和技术问题的产业特定 QA 知识的检测基准 MSQA,旨在评估旨在提高 LLM 领域特定能力的方法。此外,我们提出了一种新的模型交互范式,可以使 LLM 在不熟练的领域特定任务上实现更好的性能。实验表明,遵循我们的模型融合框架的方法优于常用的检索方法的 LLM。
May, 2023
本研究通过结合非英语语言和高需求产业领域的研究,探讨了一种特定于日本商业领域的大型语言模型(LLM)。我们从头开始训练了一个 130 亿参数的 LLM,使用了一组新的商业文本和专利,并持续使用最新的商业文件进行预训练。随后,我们提出了一个新的日本商业领域问题回答(QA)基准,并对我们的模型进行了评估。结果表明,我们的预训练模型提高了 QA 的准确性,并且在不损失一般知识的情况下不断适应新信息。我们的预训练模型和商业领域基准已公开提供。
Apr, 2024
通过 MathBench 新的基准测试,我们能够全面评估大型语言模型在数学能力方面的表现,首次提供了一个多维度视角,从基础算术到大学数学的不同阶段评估模型的能力,旨在提高对大型语言模型在数学能力方面的评估,为其知识水平和问题解决技能提供更深入的理解。
May, 2024
计算机科学(CS)是人类智能复杂性的证明,深刻推动了人工智能和现代社会的发展。我们引入 CS-Bench,这是第一个专门用于评估 LLM 在计算机科学领域性能的双语(中英文)基准,包括大约 5K 个精心策划的测试样本,涵盖计算机科学的 4 个关键领域的 26 个子领域,包括各种任务形式和知识推理的划分。利用 CS-Bench,我们对 30 多个主流 LLM 进行了全面评估,揭示了 CS 性能与模型规模之间的关系,并定量分析了现有 LLM 失败的原因,并强调了知识补充和 CS 特定推理等改进方向。进一步的跨能力实验显示 LLM 在计算机科学领域能力与数学和编码能力之间存在高度相关性。此外,专注于数学和编码的专家 LLM 在几个 CS 子领域也表现出强大的性能。展望未来,我们预见 CS-Bench 将成为 LLM 在 CS 领域应用的基石,并为评估 LLM 的多样化推理能力开辟新的途径。CS-Bench 的数据和评估代码可在此 https URL 上找到。
Jun, 2024
为了解决医学大语言模型的评估工作耗时且需要大量人力的问题,我们引入了 MedBench,这是一个综合性的基准测试,包括来自医学各领域的 40,041 个问题。通过对医学语言学习模型的知识掌握和推理能力进行评估,MedBench 建立了一个可靠的标准,揭示了医学大语言模型的能力和限制,以帮助医学研究社区。
Dec, 2023