MaScQA：一个用于研究大型语言模型中材料科学知识的问答数据集

Aug, 2023

MaScQA：一个用于研究大型语言模型中材料科学知识的问答数据集

MaScQA: A Question Answering Dataset for Investigating Materials Science Knowledge of Large Language Models

Mohd Zaki, Jayadeva, Mausam, N. M. Anoop Krishnan

TL;DR我们基于材料学领域的 650 个具有挑战性的问题，对 GPT-3.5 和 GPT-4 模型在问答、零点提示和思维链激励下的表现进行了评估，并发现 GPT-4 的准确率最高（约为 62%），而与思维链激励相比，没有明显的准确率提高。通过错误分析，我们发现概念错误（64%）是改进语言模型表现的主要因素，而计算错误（36%）对 LLMs 性能的降低起到了次要作用。我们希望该工作中的数据集和分析能够促进材料科学领域特定 LLMs 的开发和信息提取策略的研究。

Abstract

information extraction and textual comprehension from materials literature are vital for developing an exhaustive knowledge base that enab

information extraction textual comprehension materials literature knowledge bases language models

发现论文，激发创造

TeleQnA：评估大型语言模型的基准数据集电信知识

我们介绍了 TeleQnA，这是首个用于评估大型语言模型（LLMs）在电信领域知识的基准数据集。该数据集包含 10,000 个问题和答案，来源于多个标准和研究文章。该论文阐述了创建该数据集的自动问题生成框架，并说明了在不同阶段集成人工输入以保证问题质量。通过使用提供的数据集，对 GPT-3.5 和 GPT-4 等 LLMs 的能力进行了评估。结果表明，这些模型在处理复杂的标准相关问题方面存在困难，但在解答一般的电信相关问题时表现出了出色的能力。此外，我们的结果展示了将电信知识背景纳入模型显著提高了其性能，从而揭示了电信基础模型的需求。最后，将数据集分享给了活跃在电信领域的专业人士，并将他们的表现与 LLMs 进行了基准测试。研究结果表明，在电信知识方面，LLMs 可以与活跃专业人士的表现相媲美，这归功于它们处理大量信息的能力，突显了 LLMs 在该领域的潜力。该数据集已在 GitHub 上公开获取。

Oct, 2023

TheoremQA：基于定理的问答数据集

本文介绍了一个以定理驱动的问答数据集 TheoremQA，用于评估人工智能模型应用定理解决具有挑战性的科学问题的能力。研究人员使用 16 个大型语言和代码模型评估 TheoremQA，并发现 GPT-4 在 Program-of-Thoughts Prompting 的帮助下解决这些问题的能力是无与伦比的，达到了 51％，而现有的所有开放源代码模型都低于 15％，仅仅超过了随机猜测的基线。

May, 2023

利用大型语言模型从材料科学文献中挖掘实验数据

评估先进的大型语言模型（LLMs）在材料科学领域的科学文档中提取结构化信息的能力，并引入了一种比较分析复杂材料表述的新方法，重点是采用化学式的标准化来解决材料科学信息评估中固有的复杂性。LLMs 在指定的两个关键任务中展现出不同的表现：对于命名实体识别（NER）任务，LLMs 未能超越基准模型和规则基模型，对于关系抽取（RE）任务，经过适当策略的 GPT-3.5-Turbo 优于所有模型，而 GPT-4 和 GPT-4-Turbo 在没有经过任何调优的情况下，在仅提供几个示例的情况下展示出出色的推理和关系抽取能力，超越了基准模型。总体而言，结果表明，虽然 LLMs 在连接概念方面展示出相关的推理能力，但对于需要提取复杂领域特定实体（如材料）的任务来说，专门的模型目前是更好的选择。

Jan, 2024

SecQA: 用于评估计算机安全中大型语言模型的简洁问答数据集

本文介绍了 SecQA 数据集，该数据集旨在评估大型语言模型（LLMs）在计算机安全领域的性能。我们详细说明了 SecQA 的结构和目的，包括两个难度逐渐增加的版本，以提供对各种难度水平的简明评估。此外，我们使用 0-shot 和 5-shot 学习设置对 GPT-3.5-Turbo，GPT-4，Llama-2，Vicuna，Mistral 和 Zephyr 模型进行了广泛评估。我们的结果突显了这些模型在计算机安全上的不同能力和局限性。这项研究不仅提供了对 LLMs 在理解安全相关内容方面的当前状态的洞察，还将 SecQA 确立为未来在这一关键研究领域中进行进一步发展的基准。

Dec, 2023

大型语言模型作为主钥匙：使用 GPT 解锁材料科学的奥秘

本文提出了一个新的 NLP 任务叫做结构化信息推理（SIS），通过在现有钙钛矿太阳能电池数据集上微调 GPT-3 得到 91.8 F1 分数，并更新了该数据集，使得其中的数据可以被材料科学家直接用于后续数据分析中，同时证明了大型语言模型可以像材料科学家一样判断材料并设计新材料。

Apr, 2023

朝可靠性 Ad-hoc 科学信息提取迈进：基于两组材料数据的案例研究

探索 GPT-4 在从科学文献中进行特定模式的信息提取方面的能力，评估其是否能够通过基本的提示方法复制两个已存在的材料科学数据集，从最初手动提取的文稿中提取所需信息，并利用材料科学家的见解进行详细的手动错误分析，以确定模型在提取所需信息时的困难之处，并提出研究方向来解决这个广泛重要的任务。

Jun, 2024

材料科学知识图谱问答（KGQA4MAT）：为金属有机框架知识图谱（MOF-KG）开发自然语言接口

我们提出了一个全面的知识图谱问答材料科学（KGQA4MAT）的基准数据集，重点关注金属有机框架（MOFs）。通过整合结构化数据库和从文献中提取的知识，构建了金属有机框架知识图谱（MOF-KG）。为了提高专家查询 MOF-KG 的可访问性，我们旨在开发一个自然语言接口。我们开发了一个包含 161 个复杂问题的基准，涉及比较、聚合和复杂的图结构。每个问题重新表述为另外三个变体，总共有 644 个问题和 161 个 KG 查询。为了评估基准，我们开发了一种系统方法，利用 ChatGPT 将自然语言问题翻译成形式化的 KG 查询。我们还将该方法应用于著名的 QALD-9 数据集，展示了 ChatGPT 在不同平台和查询语言上解决 KGQA 问题的潜力。该基准和提出的方法旨在促进进一步研究和开发用户友好高效的领域特定材料科学知识图谱查询接口，从而加速新材料的发现。

Sep, 2023

使用通用语言模型从文本中提取材料数据的灵活模型无关方法

本文主要介绍了一种从研究论文全文中提取材料数据以建立数据库的简单方法，该方法基于自然语言处理和大型通用语言模型，无需编程或模型培训等专业知识，可实现高召回率和几乎完美精度。作者还评估了多种语言模型（GPT-3/3.5，bart 和 DeBERTaV3），并在提取体积模量数据方面取得了良好的表现。最后，作者还通过开发金属玻璃的临界冷却速率数据库展示了该方法可以扩展到其他研究领域。

Feb, 2023

150 万个材料叙述由聊天机器人生成

人工智能和自然语言数据集为探索固态材料提供了巨大潜力。

Aug, 2023

强化大型语言模型在工业领域特定问题回答上的表现

本研究提供了一个基于微软产品和技术问题的产业特定 QA 知识的检测基准 MSQA，旨在评估旨在提高 LLM 领域特定能力的方法。此外，我们提出了一种新的模型交互范式，可以使 LLM 在不熟练的领域特定任务上实现更好的性能。实验表明，遵循我们的模型融合框架的方法优于常用的检索方法的 LLM。

May, 2023