基于量化的 LLaMa 模型在巴西中学考试上的基准测试

Sep, 2023

基于量化的 LLaMa 模型在巴西中学考试上的基准测试

Benchmarking quantized LLaMa-based models on the Brazilian Secondary School Exam

Matheus L. O. Santos, Cláudio E. C. Campelo

TL;DR对 7 和 13 亿规模的大型语言模型 (Large Language Models, LLMs) 进行了性能评估，经过量化处理后在家用硬件上运行。通过包含 1,006 个巴西国家中学考试 (ENEM) 问题的数据库进行模型效果评估，最佳模型对原文葡萄牙语问题和其英文翻译的准确性分别达到约 46% 和 49%。此外，通过执行时间衡量模型的计算效率，7 和 13 亿规模的 LLMs 分别在装备 AMD Ryzen 5 3600x 处理器的机器上平均需要大约 20 秒和 50 秒来处理查询。

Abstract

Although large language models (LLMs) represent a revolution in the way we interact with computers, allowing the construction of complex questions and the ability to reason over a sequence of statements, their use is restricted due to the need for dedicated hardware for execution. In t

large language models performance evaluation quantization process text translation computational efficiency

发现论文，激发创造

Mathify: 在数学问题求解任务上评估大型语言模型

自然语言处理和大型语言模型在教育和指导方法领域取得了快速进展，特别在解决数学问题的应用方面，其中 MAmmoTH-13B 表现出了最高的能力水平，成为解决 NCERT 数学问题的可靠基准。

Apr, 2024

量化 LLM 在规模和精度方面的能力

通过对模型规模和量化的综合评估，发现在各种任务中，规模较大的模型通常优于规模较小的模型，同时大规模模型对于精度降低有很好的韧性，可在较小的内存要求下保持高准确性，因此它们比使用更小的模型更好。

May, 2024

NLPBench：评估大型语言模型在解决 NLP 问题上的能力

通过独特的基准数据集 NLPBench，评估了大型语言模型在自然语言处理中的问题解决能力，并发现高级提示策略的有效性不稳定，对 LLMs 性能有时造成损害，尤其是较小的模型 LLAMA-2（13 亿参数）中表现更明显；同时发现大型语言模型在科学问题解决能力方面存在特定的不足，逻辑分解和推理的薄弱性明显影响结果。

Sep, 2023

MobileAIBench: 用于设备上应用场景的 LLM 和 LMM 基准测试

通过使用较少参数和定量化等模型压缩技术，MobileAIBench 评估了多尺寸、定量化水平和任务，并在真实设备上测量延迟和资源消耗，旨在提供在移动平台上部署大型语言模型和多模态模型的性能和可行性洞察，加速移动 AI 研究和部署。

Jun, 2024

LLM-QBench: 大型语言模型后训练量化最佳实践基准测试

探索量化大型语言模型的最佳实践，平衡性能与计算效率。通过基准测试和实验，提出了与标定数据、量化算法和量化方案相对应的三个关键点，并构建了最佳的 LLM PTQ 流水线。

May, 2024

低位量化的 LLaMA3 模型效果如何？实证研究

LLaMA3 在低位量化方面存在明显的性能下降问题，需要在未来的发展中弥合低位宽度下的性能差距，此经验研究对于推进未来模型的发展非常有价值。

Apr, 2024

移植大型语言模型到移动设备以进行问答

将大型语言模型部署在移动设备上，使得所有自然语言处理的能力可在设备上使用；LLM 的重要用例是问答系统，可以提供准确和上下文相关的回答给用户的各种查询，并通过将 Orca-Mini-3B 模型的 6 位量化版本应用在 Galaxy S21 智能手机上，实验结果表明 LLM 推理在交互速度下进行，并能给出高质量的与政治、地理或历史相关的用户查询的答案。

Apr, 2024

tinyBenchmarks: 用较少的样例评估 LLM

通过研究 LLM 在各种关键基准测试中的表现，我们探索了减少 LLM 性能评估所需评估次数的策略，并发布了评估工具和微型基准测试，证明这些工具和测试足以可靠高效地复现原始评估结果。

Feb, 2024

LLM2KB：利用调整指导上下文感知的大型语言模型构建知识库

使用大型语言模型构建知识库的 LLM2KB 系统有不同于基础模型的参数紧凑的注入模型，通过 LoRA 技术调整指令以便使用 Wikipedia 页面上下文实体，并在 LM-KBC 挑战中取得了 0.6185 的平均 F1 得分。

Aug, 2023

QuaCer-C: LLM 中知识理解的定量认证

提出了一种新的 QuaCer-C 证明框架来正式认证流行的 LLMs 的知识理解能力，通过高置信度的概率上界，证明 LLMs 在任何相关知识理解提示上给出正确答案的能力与参数数量的增加而提高，Mistral 模型在这个评估中表现不佳。

Feb, 2024