OpenChemIE:化学文献信息提取工具包
本篇研究文章提出了一种名为 ReactIE 的方法,通过弱监督预训练的方式,结合来自文本中的频繁模式和专利记录中的数据,以识别化学反应的特定特征。实验证明,ReactIE 优于所有现有的基准模型。
Jul, 2023
本文研究了在化学领域中使用自然语言描述来增强预测模型。使用文献手动提取的大量结构化数据来训练化学信息模型是传统的方法。本文引入了一种新的方法 TextReact,该方法直接利用从文献中检索到的文本增强预测化学。TextReact 检索与给定化学反应相关的文本描述,然后将其与反应的分子表示进行对齐。通过在预测器训练中加入辅助的掩码语言模型目标,增强了这种对齐。我们通过两个化学任务进行了实证验证:反应条件推荐和一步逆合成。通过利用文本检索,TextReact 显著优于仅基于分子数据训练的最先进的化学信息模型。
Dec, 2023
从科学论文中提取关键信息有助于研究人员提高工作效率并加快科学进展的速度。在过去几年里,科学信息提取(SciIE)的研究见证了数个新系统和基准的发布。然而,现有以论文为中心的数据集主要只关注论文的特定部分(例如摘要),且为单模态(即只有文本或表格),这是因为处理复杂性和高昂的注释费用所导致。此外,核心信息可能存在于文本或表格中,或者跨越二者。为弥补这一数据可用性的差距并实现跨模态信息提取,同时减轻标注成本,我们提出了一个半监督的流程,用于迭代地对文本中的实体、以及表格中的实体和关系进行注释。基于此流程,我们为科学界提供了一些新资源,包括一个高质量的基准、一个大型语料库和一个半监督的注释流程。我们进一步报告了最先进的信息提取模型在提出的基准数据集上的性能作为一个基准。最后,我们探索了像 ChatGPT 这样的大型语言模型在当前任务中的潜在能力。我们的新数据集、结果和分析验证了半监督流程的有效性和效率,同时我们也讨论了其剩余的局限性。
Nov, 2023
通过 EnzChemRED 数据集,利用大型语言模型等自然语言处理方法可以显著提高识别文本中的蛋白质和化学品提及以及提取它们参与的化学转化的能力,该数据集位于 PubMed 摘要中,旨在支持酶的修饰。
Apr, 2024
通过结合过程文本并使用两种主要方法(ReacLLaMA-Adapter 和 Zero-Shot Labeling ReacLLaMA),改进 Graphormer 反应模型的准确性,提高了对不良反应的辨别能力,从而提供了更准确的具有改进特异性的化学反应模型。
Jan, 2024
通过大型语言模型技术,我们提出了一种全面的人工智能代理框架,能够高度准确地从大量化学文献中提取信息,实现化学文献的自动化处理,从而节省人力资源并提升性能。这一方法在化学文献处理方面具有重要的实践价值,并展示了人工智能在化学数据管理和利用方面的潜力。
Feb, 2024
我们提出了一种可扩展的文件摄取系统,将数据库和出版物中的数据(以 PDF 格式)集成到生物化学知识图表(BCKG)中。BCKG 是一个全面的知识源,可以查询以检索已知的生物化学事实并生成新的见解。我们展示了我们的系统在碳水化合物酶领域的应用,BCKG 代表了一种自动利用先前知识加速生化科学发现的方法。
Jul, 2019
本研究针对科技文本的开放式关系抽取技术不足问题,将窄 IE 系统和开放式 IE 系统结合,提出了一种新的任务 —— 半开放式关系抽取,并应用于生物领域。研究在 FOBIE 数据集上,训练出能够提取生物学文本中重要关系和论述的最先进的窄 IE 系统,并在 10k 篇生物学开放式科技文本上运行窄 IE 系统和开放式 IE 系统,取得了过滤出 65% 的错误和无用开放式 IE 提取结果,并且发现保留下来的提取结果对于读者更有信息价值。
May, 2020
通过使用大型语言模型(LLMs)创建化学家 AI 代理程序,本研究克服了通过自动创建从自然语言文本中提取结构化数据集所面临的质量和一致性问题、可扩展性限制、以及人为错误和偏见的风险,进而简化了各种材料发现应用的机器学习数据集的编制,以及对自然语言处理工具的易用性提升。
Dec, 2023