Mk.1 反应堆性能：MMLU，HumanEval 和 BBH 测试结果

Jun, 2024

Mk.1 反应堆性能：MMLU，HumanEval 和 BBH 测试结果

Reactor Mk.1 performances: MMLU, HumanEval and BBH test results

TJ Dunham, Henry Syahputra

TL;DR该论文通过基准过程分析，展示了 Reactor Mk.1，ARCs 旗舰大型语言模型的性能结果。该模型使用了荔枝 AI 引擎，拥有不到 1000 亿个参数，兼具高效和强大的特点。Reactor Mk.1 在 MMLU 数据集上取得了 92％的得分，在 HumanEval 数据集上取得了 91％的得分，在 BBH 数据集上取得了 88％的得分。它在处理困难任务和推理方面表现出色，成为目前前沿 AI 技术中突出的 AI 解决方案。

Abstract

The paper presents the performance results of reactor mk.1, ARCs flagship large language model, through a benchmarking process analysis. T

reactor mk.1 large language model benchmarking process analysis efficiency and potency cutting-edge ai technology

发现论文，激发创造

通过人工反馈评估大型语言模型：建立瑞典基准

在人工智能领域，大型语言模型在多个应用中展示出显著的能力。然而，这些模型在资源较少的语言（如瑞典语）中的表现尚未深入研究。本研究引入了一种综合的人类基准，通过强制选择排序来评估主要的语言模型在理解和生成瑞典语文本方面的有效性。我们使用改进的 ChatbotArena 基准测试，结合人类反馈来评估包括 GPT-4、GPT-3.5、各种 Claude 和 Llama 模型以及定制模型（如 Dolphin-2.9-llama3b-8b-flashback 和 BeagleCatMunin）等十一种不同模型的性能。这些模型是基于它们在 LMSYS chatbot arena 和 Scandeval 基准测试中的表现选择的。我们发布 chatbotarena.se 基准测试作为一种工具，以改善我们对瑞典语语言模型性能的理解，并希望它能被广泛使用。我们的目标是在收集和分析足够的数据后创建一个排行榜。

May, 2024

AgentBench: 评估语言模型为代理人

大型语言模型在互动环境中以多轮开放式生成的方式评估 LLMs 作为代理的推理和决策能力，显示出商业 LLMs 和开源竞争对手之间的性能差距。

Aug, 2023

MAgIC: 大型语言模型驱动的多智能体在认知、适应性、合理性和协作方面的基准测试

这项研究介绍了一个专门用于评估大型语言模型在多主体环境中能力的基准测试框架，通过游戏和博弈论场景来创建不同的测试环境，并利用概率图模型方法增强模型的导航能力，最终量化评估了七种不同大型语言模型的能力，发现最强模型 GPT-4 和最弱模型 Llama-2-70B 之间存在三倍的能力差距，同时证实了概率图模型增强了所有模型的能力，平均提高了 50%。

Nov, 2023

ArcMMLU：大型语言模型的图书馆与信息科学基准

该研究介绍了 ArcMMLU，这是一种专门为中文图书馆与信息科学领域定制的基准测试，它旨在衡量大型语言模型在档案学、数据科学、图书馆学和信息科学四个子领域内的知识和推理能力。通过对超过 6,000 个高质量问题的收集，ArcMMLU 构成了一个广泛的编译，能够反映 LIS 领域的多样性并为 LLM 评估提供可靠的基础。该研究发现，虽然大多数主流 LLM 在 ArcMMLU 上的平均准确率超过 50％，但仍然存在显著的性能差距，表明 LIS 领域的 LLM 功能仍有提升的空间。进一步分析探讨了少样本示例对模型性能的影响，并突出了模型在一些具有挑战性问题上的持续低效表现，为有针对性的改进提供了有价值的洞见。ArcMMLU 填补了中文 LIS 领域 LLM 评估中的一个重要空白，为未来定制该专门领域的 LLM 的发展铺平了道路。

Nov, 2023

物理集成迭代建模的领域专用反应：燃气涡轮气道分析中 LLM 代理的案例研究

本研究探讨了在能源和电力工程领域中使用大型语言模型（LLMs）与可调用工具进行研究，并重点关注燃气轮机的燃气通道分析。我们开发了双代理工具调用过程，以整合专家知识、预定义工具和 LLM 推理。我们评估了包括 LLama3、Qwen1.5 和 GPT 在内的各种 LLMs。较小的模型在工具使用和参数提取方面存在困难，而较大的模型展示了较好的能力。所有模型都面临着复杂、多组分问题的挑战。基于测试结果，我们推测具有近 1000 亿参数的 LLMs 可以通过精调和先进的提示设计满足专业场景需求。持续的发展可能提高其准确性和效果，为更强大的基于人工智能的解决方案铺平道路。

Jun, 2024

评估大型语言模型作为人工智能研究代理 agent

我们提出了一种基于 LLM 的研究代理的研究，该代理可以在机器学习工程问题中执行实验循环，并且我们开发了 MLAgentBench 来评估这些代理的性能与效率。

Oct, 2023

生成人工智能时代下的大型语言模型评估标准的不足

通过以人、过程和技术为视角，功能性和安全性为支柱，使用我们的统一评估框架，对 23 个最先进的 LLM 基准进行了研究，发现了显著的限制，并强调了在人工智能进步的背景下，标准化方法、监管确定性和伦理指南的迫切需求，以及通过协作努力发展被广泛接受的基准和增强人工智能系统融入社会的重要性。

Feb, 2024

LLMeBench：一款加速 LLM 基准测试的灵活框架

近期大型语言模型（LLMs）的发展和成功需要对其在不同语言的各种 NLP 任务中的性能进行评估。本研究介绍了 LLMeBench 框架，该框架最初是为了使用 OpenAI 的 GPT 和 BLOOM 模型评估阿拉伯语 NLP 任务而开发的，但它可以轻松地定制任何 NLP 任务和模型，无论语言如何。该框架还具有零样本学习和少样本学习的设置。用户可以在不到 10 分钟的时间内添加新的自定义数据集，并使用自己的模型 API 密钥评估所需的任务。该框架已经在 31 个独特的 NLP 任务中进行了测试，涉及 53 个公开可用的数据集和大约 296K 个数据点的 90 个实验设置。我们计划将该框架开源给社区。在线上有演示视频供观看。

Aug, 2023

大型语言模型（LLM）作为多个专家代理系统：解决抽象和推理语料库（ARC）挑战的方法

使用大型语言模型（LLMs）作为多个专家代理系统，通过在零样本、少样本、上下文引导提示的情况下启动 LLMs 的灵活性，我们试图解决抽象和推理语料库（ARC）挑战。通过将输入图像转换为多个适合的基于文本的抽象空间，我们利用 LLMs 的联想能力推导出输入输出关系，并将其映射到工作程序形式的行动，类似于 Voyager / Ghost in the MineCraft。此外，我们使用迭代环境反馈来指导 LLMs 解决任务。我们的方法在训练集问题的 111 个问题中实现了 50 个解决方案（45%），仅使用三个抽象空间 - 网格、对象和像素。我们相信通过更多的抽象空间和可学习的行动，我们将能够解决更多问题。

Oct, 2023

ML-Bench：大型语言模型基于开源库进行机器学习任务

通过使用开源库完成机器学习任务，本文旨在提出一种新的评估设置，以评估大型语言模型（LLMs）在实际编程中的适用性，并介绍了 ML-Bench 和 ML-Agent 两个工具，用于评估 LLMs 在利用开源函数时的有效性。

Nov, 2023