基于大型语言模型的半结构化网络文章的高吞吐量生物医学关系抽取

Dec, 2023

基于大型语言模型的半结构化网络文章的高吞吐量生物医学关系抽取

High-throughput Biomedical Relation Extraction for Semi-Structured Web Articles Empowered by Large Language Models

Songchi Zhou, Sheng Yu

TL;DR利用大型语言模型的阅读理解能力和生物医学领域知识，开发了一个高通量的生物医学关系提取系统，将关系提取任务作为一个简单的二分类问题，通过外部语料库和世界知识进行判断，并从可靠医学网站中提取多种类型的生物医学关系。

Abstract

Objective: To develop a high-throughput biomedical relation extraction system that takes advantage of the large language models' (LLMs) reading comprehension ability and →

high-throughput biomedical relation extraction system large language models biomedical world knowledge binary classification problem semi-structured web articles

发现论文，激发创造

利用经过优化的大型语言模型从复杂的科技文本中提取结构化信息

通过预先训练的语言模型 GPT-3，我们提出了一种简单的序列到序列方法来联合提取科学文本中的复杂层次信息的命名实体识别和关系抽取，并证明了这种方式能够准确提取复杂科学知识的有用记录。

Dec, 2022

生物医学自然语言处理中的大型语言模型：基准、基线和建议

本研究通过实验验证了 GPT-3 和 GPT-4 在 8 个 BioNLP 应用中的性能表现，并对其识别错误进行了分析，提出了在 BioNLP 应用中使用 LLMs 的建议。

May, 2023

基于三元注意力预训练的生物医学实体链接

将基因组学实体链接到自然语言处理任务中，提出了一种使用知识图谱信息预训练生成式大型语言模型的新框架。

Aug, 2023

生物医学关系抽取方法和模型比较及其在知识图谱构建中的应用

本研究介绍比较了在构建知识图谱中用于从生物医学文献中提取关系方面的一些基于规则和基于机器学习的方法，例如：朴素贝叶斯、随机森林、DistilBERT、PubMedBERT、T5、SciFive 等，通过实验检测不同方法的适用性和鲁棒性。结果表明，基于 transformers 的模型（如 PubMedBERT）在处理小型和不平衡的数据时表现较好。其中，在平衡数据上，PubMedBERT 模型的 F1 得分最高（0.92）。

Jan, 2022

从生物医学文本中无需提及级别监督即可同时连接实体并提取关系

提出一种无需实体级别监督的实体链接和关系抽取模型，避免了流水线方法中产生的级联错误，并在两个生物医学数据集上优于最先进的实体链接和关系抽取流水线，极大地提高了系统的总体召回率。

Dec, 2019

从生物医学文献中进行意图识别和实体提取

通过全面的实证评估，我们表明在生物医学文本中，受监督的微调方法仍然相关且比通用性的大型语言模型更有效，如 PubMedBERT 可以仅凭 5 个受监督示例就能在命名实体识别任务上超过 ChatGPT。

Apr, 2024

结合语言和图模型进行 Web 上的半结构化信息提取

关系抽取是一种从网络上挖掘人类知识的高效方式，本文提出了一种名为 GraphScholarBERT 的开放领域信息抽取方法，它能够从半结构化的网页中提取目标关系，并能在未见过的领域中进行泛化，无需额外数据或训练，并且与搜索关键词完全匹配。实验证明，GraphScholarBERT 在零射击域和零射击网站情境下，相比以往的方法，可以提高抽取的 F1 分数达 34.8%。

Feb, 2024

用于生物医学因果图构建的大型语言模型

本文提出一种利用 EMR 病历笔记来实现因果关系分析的机器学习方法，通过应用大型语言模型（LLMs）来解决医学研究中因果图构建的难题。

Jan, 2023

利用大型语言模型增强知识图谱构建

本文分析了当前基础 LLM (ChatGPT) 与专门的预训练模型 (REBEL) 的联合实体和关系提取应用，以可持续发展文本为案例进行了多个实验，结果表明，使用先进的 LLM 模型可以提高从非结构化文本创建知识图谱的过程的准确性，并探索了使用基础 LLM 模型自动创建本体论的潜力，取得更相关和准确的知识图谱。

May, 2023

通用可扩展的多阶段生物医学概念标准化利用大型语言模型

通过使用专有和开源的大型语言模型（LLMs）与生物医学研究中常用的多种基于规则的归一化系统相结合，提高实体归一化性能并消除了需要微调的需要。

May, 2024