Sep, 2023

基于量化的 LLaMa 模型在巴西中学考试上的基准测试

TL;DR对 7 和 13 亿规模的大型语言模型 (Large Language Models, LLMs) 进行了性能评估,经过量化处理后在家用硬件上运行。通过包含 1,006 个巴西国家中学考试 (ENEM) 问题的数据库进行模型效果评估,最佳模型对原文葡萄牙语问题和其英文翻译的准确性分别达到约 46% 和 49%。此外,通过执行时间衡量模型的计算效率,7 和 13 亿规模的 LLMs 分别在装备 AMD Ryzen 5 3600x 处理器的机器上平均需要大约 20 秒和 50 秒来处理查询。