使用大语言模型自动筛选临床评审论文
本研究基于 GPT-3 模型自动生成科学论文摘要,通过机器学习模型结合多种文本表示方法来辨别机器生成文本,并分析模型性能及讨论相关研究问题,旨在揭示人工智能生成文本的能力和局限性。
Apr, 2023
使用 GPT-4 大型语言模型(LLM)的 GPTscreenR 软件包及链式思维技术,能够自动筛选大量学术资源并在效能和性能方面表现良好,提供了一个可集成到现有审查流程中的用户友好的软件框架。
Nov, 2023
这项研究通过对 GPT-4 在标题 / 摘要筛选、全文审查和数据提取等不同文献类型和语言上的性能测试,发现虽然 GPT-4 在大多数任务上的准确性与人工表现相当,但结果受到偶然一致性和数据集不平衡的影响。调整了这些因素后,GPT-4 在数据提取方面达到了中等水平,而筛选性能则在不同阶段和语言上达到了无到中等的水平。当使用高度可靠的提示筛选全文文献时,GPT-4 的性能几乎完美。对于漏掉了高度可靠提示的关键研究,对 GPT-4 进行惩罚可以进一步提高其性能。我们的研究结果表明,目前在进行系统综述时应谨慎使用 LLM,但对于在可靠提示下完成的特定系统综述任务而言,LLM 可以与人工表现媲美。
Oct, 2023
使用 ChatGPT 3.5 和 4 对研究论文进行分析以提高科学文献调查的有效性,选择 “人工智能在乳腺癌治疗中的应用” 作为研究主题,使用 ChatGPT 模型自动识别相关论文、对论文按范围进行组织和确定调查论文的关键信息,结果显示 GPT-4 能以 77.3% 准确率识别研究论文类别,50% 的论文的范围能被 GPT-4 正确识别,且 67% 的模型给出的原因是专家完全同意的。
Mar, 2024
本研究旨在探究利用 GPT4 模型协助同行评审过程的可行性,并发现人工智能可以对同行评审过程做出有效的贡献,为解决同行评审中资源限制问题提供了新途径。
Jun, 2023
研究了人工智能 GPT4 和 GPT3.5 模型在诊断复杂临床病例时的准确性,结果发现模型在多次尝试后能够正确提供正确的诊断和必要的诊断测试,但在复杂、开放性的情况下存在局限性,未来研究应集中于评估模型在更大数据集上的性能和探索增强临床决策的人机协作策略。
May, 2023
本文使用专业医学人士对 GPT-3 生成的医学文章摘要进行了评估,发现 GPT-3 虽然能够忠实地总结和简化单篇生物医学文章,但在多篇文章发现的证据综合方面存在困难。
May, 2023
使用 GPT 聊天机器人模型进行有效的提示工程,可以将聊天机器人用作可靠的数据标注工具,从而实现基于人工智能的科学出版物的自动标注,其准确率达到 94%。用 GPT 标注的数据训练的分类器在性能上优于 arXiv 训练的模型,达到 82% 的准确率。
Mar, 2024
使用 GPT 3.5 和 GPT 4 模型对议会法案和听证会进行分类,与人工干预程度相关的三种使用情景中,我们的结果表明完全依赖最小化人工干预的 GPT 不够充分,人工投入程度越高准确性越高,并在最需要人工干预的情况下取得了令人惊讶的高准确率。然而,优秀的使用情景中的 83% 准确率仅在两个模型达成一致的 65% 数据上实现,暗示着类似我们的方法相对容易实施,并可实现对大多数给定数据集的自动编码,从而节省资源并降低成本。
Oct, 2023
本研究评估了使用 ChatGPT 回答医学问题的可靠性,结果发现 ChatGPT 的答案更加上下文相关,代表着较好的演绎推理模型。ChatGPT 等语言学习模型可以成为 e-learners 的宝贵工具,但研究表明还有提高其准确性的空间。
Jun, 2023