使用变换器进行系统性文献筛选
该文是关于基于 Transformer 的自然语言处理(NLP)应用到电子病历(EMR)领域的最新研究进展的系统文献综述,涵盖了业务问题、NLP 任务、模型和技术、数据集可用性、建模再现性、语言和交换格式等方面。通过分析当前研究的局限性和未来研究建议,该文提供了有关该领域 Transformer-based 方法的综合评估。
Apr, 2023
筛选优先级是医学系统性审查中的一个重要环节,本研究探索了用于优先级排序的替代查询来源,如用于检索待筛选文档集的布尔查询和基于指令的生成型大型语言模型,我们的最佳方法在筛选时基于可用信息,且与最终标题的有效性相似。
Sep, 2023
通过构建一个自动化的流水线以及实验,我们在仅需人工筛选的 2 周时间内,取得了非常高的准确性和泛化能力,从而使得系统能够自动完成系统性评论过程的主要步骤,包括文件搜索、文件选择以及数据提取。
Oct, 2020
我们考虑从学术论文的文本中自动识别数学定义中的明确术语。我们将问题作为(a)使用微调的预训练变压器进行令牌级分类任务,以及(b)使用通用大型语言模型(GPT)进行问答任务来解决。我们还提出了一种基于规则的方法,通过从论文的 LATEX 源代码构建一个带标签的数据集。实验结果表明,使用最近(和昂贵的)GPT 4 或在我们的任务上进行微调的较简单的预训练模型均可以达到高精度和召回率的水平。
Nov, 2023
生物医学文献是一个迅速扩展的科学技术领域,本研究提出了 Fine-tuned DistilBERT 方法,这是一种专门针对生物医学文本的预训练生成分类语言模型,通过 40% 减小 BERT 模型尺寸和 60% 的速度提升,证明其在语言理解能力上的有效性。本论文的主要目标是改进模型并评估其性能,以与非 Fine-tuned 模型进行对比。我们使用 DistilBERT 作为支持模型,在包括 32,000 篇摘要和完整文本文章的语料库上进行了预训练,其结果令人印象深刻,超过了使用 RNN 或 LSTM 的传统文献分类方法。我们的目标是将这个高度专业和特定的模型整合到不同的研究行业中。
Apr, 2024
本文探讨使用基于 Transformer 的生成模型 ChatGPT 生成系统评价文献搜索的优秀的布尔查询,并通过实验验证其具有高的搜索精度。ChatGPT 能够执行复杂的指令并生成高精度的查询,对于进行系统评价的研究者特别是对于时间紧迫的快速评价,ChatGPT 是一种有价值的工具。
Feb, 2023
本研究应用基于 Transformer 的预训练语言模型 BERT 探究了本地出版数据库中的科研话题,并通过计算文章相似度对研究人员进行了聚类,引入了作者自相似概念以表示他们的主题变化。
Jun, 2023
本研究通过使用预训练生成式转换器 (GPT) 模型自动进行文献调研,评估在数据驱动的语音增强方法领域的 116 篇文章上展现的模型的能力和局限性,尽管自动化文献调研在声学领域具有巨大潜力,但仍需要改进以更清晰准确地回答技术问题。
Oct, 2023
本文旨在研究和比较不同的预训练语言模型在回答问题的能力上的表现,通过使用 Bert-BiLSTM 结构模型的效果来检验双向流的加入是否能够提高模型性能,并发现 RoBERTa 和 BART 表现最佳。
Oct, 2021