Jun, 2024

Disce aut Deficere:评估 LLMs 对 INVALSI 意大利基准的熟练度

TL;DR该研究介绍一种基于 ITALIAN EDUCATIONAL COMPETENCIES 的结构化基准测试来评估大型语言模型(LLMs),并提供它们在 LINGUISTIC VERSATILITY、CULTURAL RELEVANCE 和 BENCHMARK EVALUATION 等方面的性能比较。