大型语言模型用于科学信息提取的实证研究:以病毒学为例
本文研究了使用大型语言模型(LLMs)对话生物医学背景知识以及从大量的科学文献中提取信息的潜力,以抗生素发现为例,系统评估了 9 种最先进的模型在生成化合物定义和确定化合物 - 真菌关系方面的能力,并发现虽然最新模型在流畅度方面得到了改善,但其事实准确性仍然很低,而且模型存在偏向于过度呈现某些实体的问题。
May, 2023
通过预先训练的语言模型 GPT-3,我们提出了一种简单的序列到序列方法来联合提取科学文本中的复杂层次信息的命名实体识别和关系抽取,并证明了这种方式能够准确提取复杂科学知识的有用记录。
Dec, 2022
信息提取是从自然语言文本中提取结构化知识(如实体、关系和事件)的过程。最近,生成式大型语言模型(LLMs)在文本理解和生成方面展示出了显著的能力,允许在各个领域和任务中进行概括。为了对 LLMs 在信息提取任务中的努力进行全面系统的回顾和探索,我们通过调查这个领域的最新进展来进行研究。我们首先通过以各种信息提取子任务和学习范式进行分类来呈现一个全面的概述,然后我们经验性地分析最先进的方法并发现使用 LLMs 的信息提取任务的新兴趋势。通过进行彻底审查,我们确定了一些技术见解和有希望进一步探索的研究方向,值得在未来研究中持续探索。我们在以下网址维护一个公共资源库并定期更新相关资源:https://github.com/quqxui/Awesome-LLM4IE-Papers。
Dec, 2023
大型语言模型 (LLMs) 在增强自然语言理解方面具有变革性的力量,代表着朝着人工通用智能迈出的重要一步。科学 LLMs 是一个新兴的领域,专门针对促进科学发现进行工程化设计。本文详细调查了科学 LLMs,并围绕生物化学领域进行了深入研究,包括文本知识、小型分子、大分子蛋白质、基因组序列以及它们的组合,从模型架构、能力、数据集和评估等方面进行了分析。最后,我们批判性地审查了当前的挑战,并指出了前景广阔的研究方向以及 LLMs 的进展。通过提供对该领域技术发展的全面概述,本调查力求成为研究人员在科学 LLMs 复杂领域中的宝贵资源。
Jan, 2024
大型语言模型 (LLMs) 能够在不同学科领域发挥作用和限制,加强科学研究,例如通过总结大量出版物加速文献回顾,通过自动语法纠正提升代码开发,和优化科学写作过程。然而,LLMs 面临挑战,如依赖庞大且有时偏颇的数据集,以及出于使用而引发的潜在伦理困境。我们对 LLMs 在不同领域的影响进行重要讨论,从自然科学中帮助模拟复杂生物序列,到社会科学中解析大规模的定性数据。最后,我们提供一种细致的观点,认为 LLMs 既是科学进步的福音,也是其边界。
Nov, 2023
本文提出了一种利用大型语言模型和提示策略自动提取文档中的关键维度,并将其用于丰富数据集描述的方法。通过此方法,可以创建机器可读的文档,改善数据集的可发现性,评估其符合当前的 AI 法规,并改善对其训练的 ML 模型的整体质量。
Apr, 2024
基于大型语言模型(LLMs)的研究和应用在生物信息学领域有着巨大潜力和效力,该研究通过分析各种关键生物信息学任务,证明了 LLMs(如 GPT 变体)在给定适当提示的情况下可以成功处理大多数任务,同时也分析了在复杂生物信息学任务中的局限性。
Feb, 2024
利用大型语言模型(LLMs)自动推荐属性,以增强科学论文的可发现性,并通过与 Open Research Knowledge Graph(ORKG)的比较分析评估 LLMs 的性能,发现 LLMs 在构建科学结构化推荐系统方面具有潜力,但需要进一步优化以提高与科学任务的一致性和模拟人类专业知识。
May, 2024
通过额外的训练,我们探索将专门的科学知识嵌入到 Llama 2 Large Language Model(LLM)中。研究结果表明,有效的知识整合需要从多个角度阅读文本,尤其是在指导性格式下。我们利用文本增强来解决专业文本稀缺的问题,包括风格转换和翻译。超参数优化被证明是至关重要的,不同尺寸的模型(7b、13b 和 70b)在额外的训练中表现出合理的结果。通过验证我们的方法,我们构建了一个包含 65,000 篇科学论文的数据集。尽管我们在部分嵌入知识方面取得了成功,但该研究凸显了将专业信息整合到 LLM 中的复杂性和局限性,并提出了进一步改进的领域。
Dec, 2023