Sep, 2024

破解代码:在印度尼西亚真实职业考试中的多领域大语言模型评估

TL;DR本研究解决了当前大语言模型评估未能有效反映真实职业需求的问题。我们提出了IndoCareer数据集,包含8,834道多项选择题,用于评估印度尼西亚各行业的职业和专业认证考试。同时,我们发现这些模型在具有强地方背景的领域(如保险和金融)表现不佳,该研究对模型评估方法的稳定性提出了新见解。