Aug, 2023

MaScQA:一个用于研究大型语言模型中材料科学知识的问答数据集

TL;DR我们基于材料学领域的 650 个具有挑战性的问题,对 GPT-3.5 和 GPT-4 模型在问答、零点提示和思维链激励下的表现进行了评估,并发现 GPT-4 的准确率最高(约为 62%),而与思维链激励相比,没有明显的准确率提高。通过错误分析,我们发现概念错误(64%)是改进语言模型表现的主要因素,而计算错误(36%)对 LLMs 性能的降低起到了次要作用。我们希望该工作中的数据集和分析能够促进材料科学领域特定 LLMs 的开发和信息提取策略的研究。