- 生物医学文献中实验方法的自动文本挖掘
生物医学文献是一个迅速扩展的科学技术领域,本研究提出了 Fine-tuned DistilBERT 方法,这是一种专门针对生物医学文本的预训练生成分类语言模型,通过 40% 减小 BERT 模型尺寸和 60% 的速度提升,证明其在语言理解能 - EMNLP利用引用文献的知识聚合提高生物医学文摘生成技术
通过整合源文章中引用的外部论文,本研究旨在提高语言模型在生物医学抽象摘要中的表现。我们提出了一种基于注意力的引文聚合模型,该模型整合了引文论文中的领域特定知识,使神经网络能够利用论文内容和引文论文的相关知识来生成摘要。此外,我们构建并发布了 - 在问答系统中使用弱监督和数据增强
研究探讨了弱监督和数据增强在训练深度神经网络问答模型中的作用,利用结构化文摘和信息检索算法 BM25 生成标签,通过信息检索技术和词汇数据库增强训练数据,应用课程学习进行领域自适应和逐步微调问答模型来回答关于 COVID-19 的问题。
- 基于数据驱动的癌细胞系分子分析信息提取和丰富化
本文介绍了一种新的数据提取和探索系统,可以从癌细胞系的科学文献中提取文本实体之间的深层次语义关系,为现有结构化临床数据提供丰富的语义信息,并自动链接基因组拷贝数变异图与相关实体,以及相关文献证据,从而实现更为快捷深入的文献检索。
- PGB: 一种用于异构网络表示学习的 PubMed 图形基准
本文介绍了 PubMed Graph Benchmark (PGB),一个用于评估生物医学文献中异构图嵌入的新基准数据集,其中包含有超过 3000 万篇英文文章及相关的元数据,可帮助未来的研究者更深入地了解 PubMed 数据库中文献信息的 - BactInt: 基于领域驱动的迁移学习方法和用于从生物医学文本中提取细菌间相互作用的语料库
本文研究了从生物医学文献中自动提取微生物交互作用的方法,使用迁移学习等技术提高了其准确性,并且介绍了可以用于开发微生物相互作用提取方法的第一个公开可用的数据集。
- 基于弱监督深度学习的生物医学文献大规模细粒度语义索引
本研究提出了一种基于深度学习的自动化主题注解细化方法,通过在文章摘要中的概念出现来进行弱监督,发现概念出现是自动化主题注解细化的强有力依据,还可以与基于字典的启发式算法相结合以进一步提高准确率。
- DARPA 大机制计划 MITRE 评估的最终报告
本文描述了 DARPA 大机制计划开发的评估方法,该计划旨在开发能够读取研究论文、将信息集成到癌症机制的计算机模型中并框架新假说的计算机系统,其评估方法以迭代、增量的方式进行,分别评估了系统和人与模型读取、信息整合成机械型模型、根据大型机制 - BioGPT:用于生物医学文本生成和挖掘的生成式预训练变形器
本文提出了一种基于大规模生物医学文献预训练的领域特定生成 Transfomer 语言模型 ——BioGPT,用于生物医学领域的自然语言处理任务,结果表明 BioGPT-Large 在 PubMedQA 任务上取得了 81.0% 的准确率,并 - LitMC-BERT:基于 Transformer 的生物医学文献多标签分类及其在 COVID-19 文献管理中的应用
该研究提出了一个基于转换器的多标签分类方法,名称为 LITMC-BERT,用于处理生物医学文献中的 LitCovid。与三种基线模型相比,LITMC-BERT 的 micro-F1 和基于样例的 F1 分别比当前最佳结果高 5%和 4%,且 - BioRED:一份丰富的生物医学关系提取数据集
本文提出了一个多实体类型和多关系对的文献级生物医学关系抽取数据集 BioRED,包括新发现和先前已知的信息,旨在评估现有状态下的自动化算法,为更准确、高效和稳健的生物医学关系系统的开发奠定基础。
- AAAI关系抽取在临床文档理解中的应用
该文介绍了一种文本挖掘框架,利用 Named Entity Recognition 和 Relation Extraction 模型对医学文献和数字临床记录进行处理,取得优异的实验结果,并构建了一个生物医学知识图谱。系统使用 Spark N - 生物医学领域语义相似度评估的神经句子嵌入模型
本研究以 PubMed 开放获取数据集中的 1.7 百万文章为依据,研究了目前最先进的神经句子嵌入模型在生物医学文献中语义相似性估计方面的有效性;结果表明,我们提出的受监督模型在生物医学基准数据集上的表现优于以往的方法,并呼吁进一步对生物医 - KDD领域特定预训练对垂直搜索的影响:以生物医学文献为例的案例研究
本文提出了一种基于特定领域预训练的垂直搜索通用方法,并以生物医学领域为案例研究,使用自我监督学习的方法解决注释瓶颈问题,系统性能优于 TREC-COVID 比赛中的最佳系统,可扩展到 PubMed 上的数千万篇文章,并作为微软生物医学搜索的 - ACL医疗文本的段落级简化
本研究探讨了如何应用语言模型来改进医学文本的简化,提出了一种基于似然分数的新度量标准,并对编码器解码器模型的新方法进行了评估,同时建立了一些语料库。
- AAAI生物医学科学评论的自动化普通语言摘要
本文介绍了一个新的自动生成生物医学科学综述文献简化版的任务,并通过分析各种挑战,实验和评估,展示了使用现代神经架构自动生成的简化版摘要可以达到良好的质量和可读性。
- 使用神经网络从生物医学文献中提取关系
使用不同的信息来源支持自动提取生物医学概念之间关系的研究,其中包括使用多通道架构深度神经网络对医学文献中的概念进行关系提取,同时将医学本体论结合进来可以进一步提高结果的准确性。
- WWW生物医学信息检索中文本相关性的快速深度学习模型
通过深度学习模型计算关键词和生物医学文献之间的相似度得出相关度评分,以此来解决生物医学文献检索中的关联问题,并成功的胜过了其他最先进的深度学习方法。
- EMNLP学习阅读什么:聚焦机器阅读
本文介绍了一种专注阅读方法,旨在通过使用强化学习框架(RL)来回答生物医学查询,来提高读取效率。结果表明,相比强基线方法,该方法可以回答更多的问题,同时阅读更少的文献。