Dec, 2023

大型语言模型在本科入学考试中的西班牙语性能评估

TL;DR该研究评估了大型语言模型 (具体为 GPT-3.5 和 BARD) 在墨西哥国立理工学院提出的本科入学考试中的表现。这些考试涵盖了工程 / 数学和物理科学、生物和医学科学以及社会和行政科学。两个模型在不同的学术专业中表现出了一定的熟练程度,有些学术专业的最低录取分数都被超过了 75%。GPT-3.5 在数学和物理方面表现优于 BARD,而在历史和事实信息相关问题上,BARD 的表现较好。总体而言,GPT-3.5 的得分稍微超过了 BARD,分别为 60.94% 和 60.42%。