ChatGPT 在心脏病学和血管病理学中的性能分析
本研究评估了使用 ChatGPT 回答医学问题的可靠性,结果发现 ChatGPT 的答案更加上下文相关,代表着较好的演绎推理模型。ChatGPT 等语言学习模型可以成为 e-learners 的宝贵工具,但研究表明还有提高其准确性的空间。
Jun, 2023
本文旨在评估 ChatGPT 在生物医学领域中各种基准任务(如关系提取、文档分类、问答和摘要)的性能,在拥有较小训练集的生物医学数据集中,zero-shot ChatGPT 甚至优于最先进的经调优生成变换器模型(如 BioGPT 和 BioBART),这表明 ChatGPT 在生物医学领域也非常专业,具备成为缺乏大型注释数据的各种生物医学任务的有价值工具的潜力。
Jun, 2023
研究了大型语言模型在生物医学任务中的性能,并与更简单的模型进行了比较,特别地,探讨了分类和因果关系检测任务。发现精细调整后的模型依然是最佳策略,而简单的词袋模型的表现与最复杂的大型语言模型的表现相当。
Apr, 2023
该研究评估了在阿拉伯语中使用经过微调的 ChatGPT 模型作为个人医疗助手的潜力,并通过自动评估和人工评估证明它在医疗援助方面具有光明前景。
Dec, 2023
在使用真实的大型电子病历数据库进行两项分析后,发现 ChatGPT 和 GPT-4 可以通过思路链和几次提示,准确地完成疾病分类任务,并为卫生保健工作者提供诊断辅助,但是这些模型目前存在错误陈述、忽视重要医学发现、推荐不必要的调查和过度治疗等问题,并伴随有隐私问题,因此仍不适用于现实世界的临床使用。不过,与传统机器学习工作流程的配置相比,这些模型所需的数据和时间较少,突出了它们在卫生保健应用中的可扩展性潜力。
Jul, 2023
本论文讨论了在线医学诊断相对传统医生就诊日益普及的情况,强调了现有工具的局限性,并强调了 ChatGPT 的优势,该工具可以提供实时个性化的免费医学诊断。该研究总结了一个评估 ChatGPT 在阿拉伯医学诊断中性能的研究,该研究涉及编制一组疾病信息的数据集,并使用不同的提示技术为每种疾病生成多条消息。通过衡量 ChatGPT 的响应与实际疾病之间的相似度来评估其性能。结果显示出有希望的表现,相似度测量的平均分数约为 76%。采用了各种提示技术,其中链式提示显示出相对优势。该研究还记录了 ChatGPT API 的平均响应时间为 6.12 秒,虽然可以接受,但还有改进的空间。尽管 ChatGPT 不能完全取代人工医生,但研究结果表明其在紧急情况和解决一般医学咨询方面具有潜力。总体而言,该研究凸显了 ChatGPT 作为医学领域有价值工具的可行性。
Mar, 2024
本研究探讨了 ChatGPT 在解决编程问题方面的有效性,考察了其解决问题的正确性和时间、内存复杂度等效率,研究结果表明 ChatGPT 在结构化问题方面表现出较好的成功率,但其调试任务表现不佳,为 ChatGPT 的能力和改进提供了精辟的了解。
Jul, 2023
ChatGPT 对测试问题的回答质量以及如何检测测试问题是否可由 ChatGPT 正确回答的方法是本研究的重要问题。我们通过对 MedMCQA 数据集中的问题生成 ChatGPT 的回答,并分析了不同类型问题中 ChatGPT 回答准确度较低的情况。此外,我们还开发了一个基本的自然语言处理模型,用于在一组问题或样本考试中识别出对 ChatGPT 最容易攻击的问题。这个工具可以帮助考试制作者避免出现易受 ChatGPT 攻击的测试问题。
Feb, 2024
本研究通过探索 OpenAI 的 ChatGPT 在解决不同类型的物理问题方面的能力,发现 ChatGPT 在解决给定完整数据的问题上的成功率为 62.5%,而在未给定全部必要数据的实际问题上的准确率下降至 8.3%。该研究提出了关于如何利用增强学习模型的教材来提升 STEM 教育的启示,并为人工智能的优势和局限性提供了见解,对于旨在利用该技术的教育工作者以及研究人员来研究问题解决和决策制定中的人工智能与人类协作框架有所贡献。
Oct, 2023
ChatGPT 作为一个问答系统,通过对其在提供的段落中提取回答的能力进行评估,发现它在生成模型方面表现出了实力,但在问题回答方面相对于特定任务模型表现较差,而提供上下文可以提高其性能,提问方式对其准确性有所影响,并且在提供的上下文中提供了无法从中获取答案的问题的回答,还存在答案幻觉的现象。
Dec, 2023