Mar, 2024

Invalsi 基准:测量意大利中文数学和语言理解的语言模型

TL;DR通过许多模型的评估,研究表明:目前意大利语存在着缺乏针对该语言的预训练语言模型的现象,从而导致意大利语的语言模型评估数据较少。该研究提出了两个基于 11 至 18 岁学生在意大利学校系统中进行的真实测试的评估基准,经多位教学和教育专家验证。在意大利写作时,通过评估 9 个表现最佳的语言模型,包括研究者自己的微调模型,发现当前语言模型在该基准上的准确率约为 60%。研究者相信,该数据集的发布为改进未来的意大利语数学和语言理解模型铺平了道路。