ChatGPT 与后验概率

Nov, 2023

ChatGPT and post-test probability

Samuel J. Weisenthal

TL;DRChatGPT 通过使用提示工程，展示了在医疗诊断推理中其对贝叶斯规则的运用能力，同时讨论了如何减少错误数量以及对大型语言模型的新研究方向的启示。

Abstract

reinforcement learning-based large language models, such as ChatGPT, are believed to have potential to aid human experts in many domains, including healthcare. There is, however, little work on ChatGPT's ability

reinforcement learning-based large language models healthcare medical diagnostic reasoning bayes rule prompt engineering

发现论文，激发创造

ChatGPT 在 USMLE 上的表现：揭示大型语言模型为 AI 辅助医学教育的潜力

本研究评估了使用 ChatGPT 回答医学问题的可靠性，结果发现 ChatGPT 的答案更加上下文相关，代表着较好的演绎推理模型。ChatGPT 等语言学习模型可以成为 e-learners 的宝贵工具，但研究表明还有提高其准确性的空间。

Jun, 2023

大型语言模型在概率学习中的潜力：ChatGPT3.5 与一年级计算机工程学生的研究

我们评估了 ChatGPT（2023 年 2 月版本），即一个大规模语言模型，在解决典型的介绍性计算机工程考试中出现的概率问题方面的效果。我们的研究包括了一套 23 个概率练习，这些练习被用来测试马德里市 Rey Juan Carlos 大学（URJC）的学生。我们对 ChatGPT 生成的回答进行了定性评估，并根据与学生相同的标准评分。我们的结果表明，ChatGPT 在措辞、组织和逻辑推理方面超过了平均学生。该模型在西班牙语和英语版本的练习中表现一致。然而，ChatGPT 在执行基本的数值运算方面遇到了困难。我们的实验表明，要求 ChatGPT 以 R 脚本形式提供解决方案是克服这些限制的有效方法。总之，我们的结果表明，ChatGPT 在解决计算机工程入门考试中常见的概率问题方面超过了平均学生。然而，该模型在某些概率概念的推理方面存在局限性。大型语言模型在提供高质量解释和以任何编程语言呈现解决方案方面的能力，以及其在解决概率练习中的表现，显示了它们作为学习助理的潜力。

Oct, 2023

评估 ChatGPT 家族模型在生物医学推理和分类中的表现

研究了大型语言模型在生物医学任务中的性能，并与更简单的模型进行了比较，特别地，探讨了分类和因果关系检测任务。发现精细调整后的模型依然是最佳策略，而简单的词袋模型的表现与最复杂的大型语言模型的表现相当。

Apr, 2023

利用大型语言模型（如 ChatGPT 或 GPT-4）作为临床助手的潜力和风险

在使用真实的大型电子病历数据库进行两项分析后，发现 ChatGPT 和 GPT-4 可以通过思路链和几次提示，准确地完成疾病分类任务，并为卫生保健工作者提供诊断辅助，但是这些模型目前存在错误陈述、忽视重要医学发现、推荐不必要的调查和过度治疗等问题，并伴随有隐私问题，因此仍不适用于现实世界的临床使用。不过，与传统机器学习工作流程的配置相比，这些模型所需的数据和时间较少，突出了它们在卫生保健应用中的可扩展性潜力。

Jul, 2023

基于贝叶斯的 ChatGPT 人工智能大脑

本研究旨在探究 ChatGPT 在贝叶斯推理中的数学问题解决能力。研究灵感源自 2006 年 Zhu 和 Gigerenzer 的研究，提出了一个问题：儿童能以贝叶斯方式进行推理吗？通过一组 10 个贝叶斯推理问题的实验，结果揭示了儿童有效运用贝叶斯原理进行推理的能力取决于信息的良好结构化表示。本文将同样的一组 10 个贝叶斯推理问题提供给 ChatGPT，结果显示 ChatGPT 能够给出所有问题的正确解答。

Aug, 2023

ChatGPT-HealthPrompt。利用 ChatGPT 在基于提示的医疗决策支持中发挥 XAI 的力量

该研究提出了一种创新的方法，在临床决策中应用大型语言模型（LLMs），重点关注 OpenAI 的 ChatGPT。我们的方法介绍了在数据稀缺情况下，采用上下文提示（策略性地设计了包括任务描述、特征描述和领域知识整合的提示）进行高质量二元分类任务的应用。我们的研究探索了 LLMs 基于零样本和少样本提示学习的动态性，通过比较 OpenAI 的 ChatGPT 在不同数据条件下与传统监督式机器学习模型的性能，旨在提供对不同数据可用性下提示工程策略有效性的见解。这篇论文架起了人工智能和医疗保健之间的桥梁，提出了一种新的 LLMs 在临床决策辅助系统中的应用方法，并强调了提示设计、领域知识整合和灵活学习方法在增强自动化决策方面的变革潜力。

Aug, 2023

使用知识增强的生成预训练模型通过中国医学执照考试

本文提出一种嵌入医疗领域知识和启用 Few-shot Learning 的方法，以迎合需要广泛的领域专业知识和语义知识（如医疗保健）的领域的需求。利用一种简单但有效的检索方法，本文高效提取医学背景知识以引导 ChatGPT 的推理和寻答的逻辑。我们的知识增强模型在 CNMLE-2022 上取得了高分 70，且不仅能够通过 CNMLE 考试但是还超越了人类的平均分数（61），这证明了知识增强 ChatGPT 作为多功能医疗助手的潜力，能够以更易于使用和适应的方式分析现实世界的医学问题。

May, 2023

使用 ChatGPT 和 GPT-4 进行提示学习的放射学报告翻译成简明语言：结果、限制和潜力

本研究调查了使用 ChatGPT 将放射学报告翻译成简明语言以提高医疗保健的可行性，并将 ChatGPT 与 GPT-4 进行比较，结果发现 GPT-4 可以显著提高翻译的质量。

Mar, 2023

基于 ChatGPT 作弊的测试题漏洞研究

ChatGPT 对测试问题的回答质量以及如何检测测试问题是否可由 ChatGPT 正确回答的方法是本研究的重要问题。我们通过对 MedMCQA 数据集中的问题生成 ChatGPT 的回答，并分析了不同类型问题中 ChatGPT 回答准确度较低的情况。此外，我们还开发了一个基本的自然语言处理模型，用于在一组问题或样本考试中识别出对 ChatGPT 最容易攻击的问题。这个工具可以帮助考试制作者避免出现易受 ChatGPT 攻击的测试问题。

Feb, 2024

区分 ChatGPT 生成的和人工撰写的医学文本

本研究旨在通过构建数据集、分析文本语言特征和设计机器学习方法，从伦理角度研究医学应用场景下人工智能生成文本的可靠性及误差。结果显示，ChatGPT 生成的医学文本普遍存在可读性高、专业术语泛化等问题，而利用 BERT 模型检测 ChatGPT 生成的医学文本效果显著。

Apr, 2023