利用可解释模式的快速标注从零开始构建大规模生物医学知识库
本研究介绍比较了在构建知识图谱中用于从生物医学文献中提取关系方面的一些基于规则和基于机器学习的方法,例如:朴素贝叶斯、随机森林、DistilBERT、PubMedBERT、T5、SciFive 等,通过实验检测不同方法的适用性和鲁棒性。结果表明,基于 transformers 的模型(如 PubMedBERT)在处理小型和不平衡的数据时表现较好。其中,在平衡数据上,PubMedBERT 模型的 F1 得分最高(0.92)。
Jan, 2022
本文介绍一种从专利文件中提取事实的方法,使用这些事实填充知识图谱来表示和存储设计知识,其中训练了一个标记器来识别实体和关系并组合这些知识点进行比较,建立了一个与风扇系统相关的领域知识库。
Jul, 2023
本研究针对生物医学领域中关系抽取的挑战,提出利用知识图谱关系对原始文本进行自动标注,以克服标注数据缺乏的问题,并通过构建更为准确的基准集 “MedDistant19” 来解决现有基准集存在的一系列问题,并验证了其在领域中具有普遍适用性。
Apr, 2022
我们提出了一个新颖的系统,从生物医学语料库中自动提取和生成信息丰富、描述性的句子,促进相关知识的高效检索。与以往的搜索引擎或探索系统不同,我们的系统将描述性句子组织为关系图,使研究人员能够探索密切相关的生物医学实体(例如,化学品治疗的疾病)或间接相连的实体(例如,治疗疾病的潜在药物)。我们的系统还使用 ChatGPT 和经过微调的关系综合模型从检索到的信息中生成简明可靠的描述性句子,减少了对大量人工阅读的需求。通过我们的系统,研究人员可以轻松获得高层次知识和详细参考资料,并交互式地定位所需的信息。我们重点介绍了我们的系统在 COVID-19 研究中的应用,说明了它在药物再利用和文献整理等领域的实用性。
Oct, 2023
开发了一个基于领域知识图谱和语义推理的癌症特定生物标志物发现和交互式问答系统,使用生物医学数据、领域本体论、信息提取方法以及大型语言模型进行知识图谱的构建和更新。
Oct, 2023
本研究提出了使用 BERT 模型和条件随机场层从临床记录中提取和分析生物医学知识的端到端方法,包括自然语言处理模型用于命名实体识别和关系提取等步骤,可以用于构建医学知识图谱并用于问题解答。实验结果表明,该方法对于 505 位真实患者的生物医学非结构化临床记录的命名实体识别和关系提取的准确率分别为 90.7% 和 88%。
Apr, 2023
本文研究如何在知识库中找到高度相关的模式以回答用户给出的关键词查询,并提出了有效的算法来寻找记录相关性,并比较了与已知技术的朴素调整的不同方法。
Sep, 2014
本文介绍了我们参与 2019 年 BioNLP 开放共享任务的 AGAC Track,我们提供了 Task 3 的解决方案,该方案旨在提取 “基因 - 功能变化 - 疾病” 三元组,其中 “基因” 和 “疾病” 分别是特定基因和疾病的提及,而 “功能变化” 则是四种预定义的关系类型之一。我们的系统扩展了 BERT (Devlin 等,2018 年),这是一种最先进的语言模型,它从大型未标记语料库中学习上下文语言表示,并且其参数可以被微调以解决具有极简附加架构的特定任务。我们将两个提及及其文本上下文作为 BERT 中的两个连续序列进行编码,由特殊符号分隔。然后我们使用一个线性层将其关系分类为五个类别 (四个预定义关系类型以及 ' 无关系 ')。尽管类别不平衡严重,我们的系统仍然在不需要特别工程特征的极简设置的情况下显著优于随机基线。
Sep, 2019
提出一种使用自我注意力编码器模型同时预测文档中所有提及对之间关系的关系抽取方法,通过聚合提及对以形成实体对表示进行多实例学习,并增加弱标签数据来适应无提及级别注释的设置,实验证明该方法在生物文本信息抽取任务中达到了最先进性能。
Feb, 2018