Jun, 2024

Mk.1 反应堆性能:MMLU,HumanEval 和 BBH 测试结果

TL;DR该论文通过基准过程分析,展示了 Reactor Mk.1,ARCs 旗舰大型语言模型的性能结果。该模型使用了荔枝 AI 引擎,拥有不到 1000 亿个参数,兼具高效和强大的特点。Reactor Mk.1 在 MMLU 数据集上取得了 92%的得分,在 HumanEval 数据集上取得了 91%的得分,在 BBH 数据集上取得了 88%的得分。它在处理困难任务和推理方面表现出色,成为目前前沿 AI 技术中突出的 AI 解决方案。