MaterialBENCH:评估大学水平材料科学的问题解决能力的大型语言模型
本文提出了MatSci-NLP标准,旨在评估自然语言处理模型在材料科学文本上的性能,其中包括命名实体识别和关系分类等传统NLP任务以及涉及创建材料合成程序的特定于材料科学的NLP任务。作者的实验结果表明,预先训练的模型对科学文本的理解优于对一般文本的BERT模型训练,并提出了一种基于问题回答方法的NLP多任务学习方法,其性能优于传统的微调方法。
May, 2023
最近大型语言模型(LLM)在许多数学基准上取得显著进展,但大多数基准只涉及初高中科目的问题和多项选择题,且仅限于有限范围的基本算术操作。为解决这些问题,本文引入了一个广泛的基准套件SciBench,旨在系统地检验复杂科学问题解决所需的推理能力。SciBench包含两个精心策划的数据集:一个开放集,包含从数学、化学和物理教科书中提取的多领域的大学级科学问题;一个封闭集,包含了计算机科学和数学本科考试中的问题。基于这两个数据集,我们对两个代表性LLM进行了深入的基准研究,采用多种提示策略。结果表明,当前LLM的表现不尽如人意,综合得分仅为35.80%。此外,通过详细的用户研究,我们将LLM的错误归类为十种问题解决能力。我们的分析表明,没有一种单一的提示策略明显优于其他策略,而且一些策略在某些问题解决技能上的提高会导致其他技能下降。我们预计SciBench将催生LLM的推理能力进一步发展,从而最终促进科学研究和发现。
Jul, 2023
我们基于材料学领域的650个具有挑战性的问题,对GPT-3.5和GPT-4模型在问答、零点提示和思维链激励下的表现进行了评估,并发现GPT-4的准确率最高(约为62%),而与思维链激励相比,没有明显的准确率提高。通过错误分析,我们发现概念错误(64%)是改进语言模型表现的主要因素,而计算错误(36%)对LLMs性能的降低起到了次要作用。我们希望该工作中的数据集和分析能够促进材料科学领域特定LLMs的开发和信息提取策略的研究。
Aug, 2023
通过独特的基准数据集NLPBench,评估了大型语言模型在自然语言处理中的问题解决能力,并发现高级提示策略的有效性不稳定,对LLMs 性能有时造成损害,尤其是较小的模型LLAMA-2(13亿参数)中表现更明显;同时发现大型语言模型在科学问题解决能力方面存在特定的不足,逻辑分解和推理的薄弱性明显影响结果。
Sep, 2023
通过一个基于指令的过程,我们在材料科学中提出了一个可信赖的数据策划方法(MatSci-Instruct),然后应用于对材料科学进行细微调整的基于 LLaMa 的语言模型(HoneyBee)。
Oct, 2023
基于材料科学知识和假设生成及假设测试,我们描述了材料科学LLMs的框架,以及构建大规模多模态数据集的挑战和应用MatSci-LLMs进行材料发现的路线图。
Feb, 2024
我们提供一个对大型语言模型在材料科学研究中的适用性的观点,认为它们处理一系列任务和学科中的模糊需求的能力使它们成为帮助研究人员的强大工具。我们定性地研究了基础的大型语言模型理论,并将其与文献中的相关性质和技术联系起来,然后提供了两个案例研究,展示了它们在大规模任务自动化和知识提取中的应用。我们认为,在当前的发展阶段,大型语言模型应该被视为能够加速和统一领域探索的不知疲倦的工具,而不是新见解的神谕。希望本文能让材料科学研究人员了解到运用这些工具的相关概念。
Mar, 2024
针对大型语言模型(LLMs)的可解释性低,现有的评估系统主要考察问题解决能力而忽视了响应的不确定性,为此提出了UBENCH,一个全面评估LLM可靠性的基准,包括了3,978个多项选择题,实验结果表明UBENCH取得了最先进的性能,同时与需要多次采样的基准方法相比,其单次采样方法显著节省了计算资源。此外,基于UBENCH,我们评估了15个热门的LLM的可靠性,发现GLM4和GPT-4表现突出。我们还探讨了Chain-of-Thought提示、角色扮演提示、选项顺序和温度对LLM可靠性的影响,并分析了对不同LLM的不同效果。
Jun, 2024
本研究针对大规模语言模型在特定领域应用中的微调策略进行了探索,填补了技术能力适应的空白。通过比较继续预训练、监督微调及多种基于偏好的优化方法,发现模型合并能超越单一模型的功能,显著提升领域特定评估的表现。我们的实验表明,小型模型在合并时并未必能出现新能力,提示模型规模可能是关键因素。
Sep, 2024
本研究解决了大语言模型在材料科学应用中的稳健性和可靠性不足的问题。通过对多个数据集的综合评估,提出了针对领域特定问答和材料属性预测的新方法,发现模型在面对不同噪声时的表现,旨在提升大语言模型在实际应用中的可靠性和稳健性。
Sep, 2024