MaTableGPT: 材料科学文献中基于 GPT 的表格数据提取器

Jun, 2024

MaTableGPT: 材料科学文献中基于 GPT 的表格数据提取器

MaTableGPT: GPT-based Table Data Extractor from Materials Science Literature

Gyeong Hoon Yi, Jiwoo Choi, Hyeongyun Song, Olivia Miano, Jaewoong Choi...

TL;DR利用 MaTableGPT 从材料科学文献中高效提取表格数据，成功实现了 96.8% 的提取准确率，并展示了几乎无错误的学习方法的成本分析和 Pareto 前沿映射，为水分解催化领域的研究提供了宝贵的洞察。

Abstract

Efficiently extracting data from tables in the scientific literature is pivotal for building large-scale databases. However, the tables reported in materials science papers exist in highly diverse forms; thus, rule-based extractions are an ineffective approach. To overcome this challenge, we present →

table data extraction matablegpt materials science literature extraction accuracy water splitting catalysis

发现论文，激发创造

TableGPT：将表格、自然语言和指令统一为一体的 GPT 模型

TableGPT 是一个统一的 fine-tuned 框架，它使用外部功能命令使大型语言模型能够理解和操作表格，具有与表格无缝交互的能力，使数据操作、可视化和报告生成更加简便、易用、高效，其核心概念是全局表格表示，同时支持数据流程、查询拒绝、私有部署等功能，可以更好地适应特定的使用情况。

Jul, 2023

使用通用语言模型从文本中提取材料数据的灵活模型无关方法

本文主要介绍了一种从研究论文全文中提取材料数据以建立数据库的简单方法，该方法基于自然语言处理和大型通用语言模型，无需编程或模型培训等专业知识，可实现高召回率和几乎完美精度。作者还评估了多种语言模型（GPT-3/3.5，bart 和 DeBERTaV3），并在提取体积模量数据方面取得了良好的表现。最后，作者还通过开发金属玻璃的临界冷却速率数据库展示了该方法可以扩展到其他研究领域。

Feb, 2023

朝可靠性 Ad-hoc 科学信息提取迈进：基于两组材料数据的案例研究

探索 GPT-4 在从科学文献中进行特定模式的信息提取方面的能力，评估其是否能够通过基本的提示方法复制两个已存在的材料科学数据集，从最初手动提取的文稿中提取所需信息，并利用材料科学家的见解进行详细的手动错误分析，以确定模型在提取所需信息时的困难之处，并提出研究方向来解决这个广泛重要的任务。

Jun, 2024

Table-GPT: 用于多样化表格任务的表格调优版 GPT

语言模型（如 GPT-3.5 和 ChatGPT）在执行各种任务和遵循多样化人类指令方面表现出卓越能力；然而，通过使用一系列基础的表格理解任务进行分析，我们发现当今的语言模型在许多与表格相关的任务上仍不完善，这可能是因为它们主要是在 “一维” 的自然语言文本上预训练的，而监管表格是 “二维” 的对象。因此，我们提出了一种新的 “表格调优” 范式，在这个范式中，我们通过使用合成自真实表格的多样化表格任务作为训练数据，继续训练 / 微调 GPT-3.5 和 ChatGPT 这类语言模型，以增强其理解表格和执行表格任务的能力。我们的实验结果表明，我们的 Table-GPT 模型在广泛的表格任务上始终优于普通 GPT-3.5 和 ChatGPT，并且在包括未见过的任务在内的情况下，它具有强大的泛化能力，可以以与 GPT-3.5 和 ChatGPT 类似的方式响应各种人类指令执行新的表格任务。

Oct, 2023

利用大型语言模型从材料科学文献中挖掘实验数据

评估先进的大型语言模型（LLMs）在材料科学领域的科学文档中提取结构化信息的能力，并引入了一种比较分析复杂材料表述的新方法，重点是采用化学式的标准化来解决材料科学信息评估中固有的复杂性。LLMs 在指定的两个关键任务中展现出不同的表现：对于命名实体识别（NER）任务，LLMs 未能超越基准模型和规则基模型，对于关系抽取（RE）任务，经过适当策略的 GPT-3.5-Turbo 优于所有模型，而 GPT-4 和 GPT-4-Turbo 在没有经过任何调优的情况下，在仅提供几个示例的情况下展示出出色的推理和关系抽取能力，超越了基准模型。总体而言，结果表明，虽然 LLMs 在连接概念方面展示出相关的推理能力，但对于需要提取复杂领域特定实体（如材料）的任务来说，专门的模型目前是更好的选择。

Jan, 2024

全局表格抽取器（GTE）：使用视觉上下文进行联合表格识别和单元格结构识别的框架

本文介绍了全局表格提取器（GTE），它是一种由视觉引导的系统框架，旨在通过基于自然单元格包含约束的新型罚函数来训练表格网络，以检测表格和单元格结构，结合表格风格，设计一种新的分层单元格检测网络，并定期标记表格和单元格结构以便成为训练数据。实验证明，GTE 在表格检测和单元格结构识别方面超过之前的最先进结果，并且在新的跨域 FinTabNet 数据集上的实验表明，在单元格结构识别方面比 vanilla RetinaNet 的物体检测模型提高了 45% 以上。

May, 2020

GPT 模型对叙事实体提取的探究

在这项研究中，我们评估了两个最先进的语言模型 ——GPT-3 和 GPT-3.5（通常被称为 ChatGPT）在提取叙述实体（事件、参与者和时间表达）方面的能力，并发现它们与开箱即用的基准系统相媲美，为资源有限的从业者提供了一种全能的替代方案。通过研究这些模型在信息提取领域的优势和局限性，我们提供了可以指导未来改进和探索的见解。

Nov, 2023

大型语言模型作为主钥匙：使用 GPT 解锁材料科学的奥秘

本文提出了一个新的 NLP 任务叫做结构化信息推理（SIS），通过在现有钙钛矿太阳能电池数据集上微调 GPT-3 得到 91.8 F1 分数，并更新了该数据集，使得其中的数据可以被材料科学家直接用于后续数据分析中，同时证明了大型语言模型可以像材料科学家一样判断材料并设计新材料。

Apr, 2023

GPT 促进的材料语言处理加速

材料语言处理 (MLP) 是材料科学研究的关键推动者之一，通过从大量的材料科学文献中提取结构化信息，使得研究变得可能。我们开发了基于生成预训练变换器 (GPT) 的流水线工具，其中基于先前 MLP 模型的复杂架构被战略性的提示工程设计所取代。我们的发现证实了 GPT-MLP 模型的潜力以及它们在可靠性和实用性方面的价值，并且我们的科学方法和系统性方法适用于加速科学文献的信息提取的任何材料科学领域。

Aug, 2023

GPT-Lab: GPT 驱动的机器人实验室的下一代最佳化学发现

GPT-Lab 使用 GPT 模型使机器人具备与人类智能相似的能力，在化学实验中挖掘文献的材料和方法，并通过高通量合成验证发现，展示了我们系统在材料发现和验证方面的快速潜力。

Sep, 2023