Apr, 2024

Holmes:语言模型的语言能力基准测试

TL;DR提出了 Holmes 语言模型能力评估基准,通过使用基于分类器的探测来评估语言模型的语言能力。分析 50 多个语言模型发现,其语言能力与模型大小相关,同时模型架构和指令调整也显著影响性能,特别是在形态和语法方面。最后,提出了 FlashHolmes,它是 Holmes 的简化版本,旨在降低高计算负载同时保持高排名准确性。