Jun, 2024
Disce aut Deficere:评估 LLMs 对 INVALSI 意大利基准的熟练度
Disce aut Deficere: Evaluating LLMs Proficiency on the INVALSI Italian Benchmark
Fabio Mercorio, Mario Mezzanzanica, Daniele Potertì, Antonio Serino, Andrea Seveso
TL;DR该研究介绍一种基于 ITALIAN EDUCATIONAL COMPETENCIES 的结构化基准测试来评估大型语言模型(LLMs),并提供它们在 LINGUISTIC VERSATILITY、CULTURAL RELEVANCE 和 BENCHMARK EVALUATION 等方面的性能比较。