基于基础模型的大型语言模型在传统韩国医学中的潜在应用:文化适应医疗的探讨
通过对 USMLE 和 MultiMedQA 基准数据集的全面评估,我们发现不需要专门的提示造型来激发 GPT-4,它的表现超过了 USMLE 的合格分数约 20 分,并表现优于早期的通用模型(GPT-3.5)以及专门针对医学知识进行细化调整的模型(Med-PaLM,Flan-PaLM540B的提示调整版本)。
Mar, 2023
本文旨在评估ChatGPT,GPT-3和GPT-4在日本语言医学执照考试上的表现,并提出了当前LLM API的关键局限性,包括产生不合适的词语以及因脚本语言不同带来的高昂成本和较小的上下文空间。
Mar, 2023
研究了人工智能GPT4和GPT3.5模型在诊断复杂临床病例时的准确性,结果发现模型在多次尝试后能够正确提供正确的诊断和必要的诊断测试,但在复杂、开放性的情况下存在局限性,未来研究应集中于评估模型在更大数据集上的性能和探索增强临床决策的人机协作策略。
May, 2023
为了解决医学大语言模型的评估工作耗时且需要大量人力的问题,我们引入了MedBench,这是一个综合性的基准测试,包括来自医学各领域的40,041个问题。通过对医学语言学习模型的知识掌握和推理能力进行评估,MedBench建立了一个可靠的标准,揭示了医学大语言模型的能力和限制,以帮助医学研究社区。
Dec, 2023
使用大型语言模型研究中医药学领域的知识召回和综合推理能力,通过TCM-QA数据集评估LLM在零样本和少样本设置下的表现,讨论中英提示的差异,结果显示ChatGPT在判断题中取得最高精度0.688,多选题中最低精度为0.241,中文提示在评估中表现更好,同时评估ChatGPT生成的解释质量及其对中医药学知识理解的潜在贡献,为LLM在专业领域的适用性提供了有价值的见解,并促进了未来基于这些强大模型推进中医药学研究的方向。
Mar, 2024
该研究比较了两个大型语言模型GPT-4和Chat-GPT在回应18个心理提示方面的表现,以评估它们在心理健康护理环境中的潜在适用性。结果显示GPT-4在生成临床相关和富有同理心的回应方面更有效,提供更好的支持和指导。这项研究为大型语言模型在心理健康护理领域的适用性提供了贡献,强调了在该领域持续研究和开发的重要性。需要进一步研究了解造成两个模型性能差异的具体因素,并探索其在不同人群和心理健康状况中的普适性。
May, 2024
通过引入新的医学问答数据集TCMD,本文评估了不同领域通用语言模型和医学领域特定语言模型在中医领域的能力,并分析了它们在中医问答任务中的鲁棒性及其存在的不足。希望该数据集进一步促进中医领域通用语言模型的发展。
Jun, 2024
通过引入“中文医务人员考试”(EMPEC),我们在传统中文领域提出了一个规模庞大的医疗知识基准,它由 157,803 个考试题目组成,涵盖 124 个科目和 20 个医疗专业,包括眼科医生和听力学家等被较少涉及的职业。我们的实验表明,尽管 GPT-4 等领先模型的准确率超过 75%,但它们在特殊领域和替代医学方面仍然存在困难。意外的是,通用领域的大型语言模型表现优于专门的医疗模型,并且融入 EMPEC 的训练数据显著提高了性能。此外,模型在训练截止日期后发布的问题上的结果与整体性能趋势一致,说明测试集上的模型表现可以预测其解决未见过的与医疗相关的查询的效果。传统汉字向简化汉字的过渡对模型性能影响微乎其微,表明其具有强大的语言适应性。我们的研究强调了扩大基准范围以涵盖更广泛的医疗职业的重要性,以更好地评估大型语言模型在实际医疗场景中的适用性。
Jun, 2024
本研究解决了医疗行业对低资源本地化大语言模型的需求,尤其是在安全性方面面临的挑战。我们提出了一种基于7B模型的医疗适配方案,评估其在日本和英语的医疗问答基准测试中的表现,结果显示其性能达到或超过现有的十倍大模型。此研究为临床机构实际应用LLMs提供了重要的财务支持。
Sep, 2024
本研究解决了大型语言模型在医疗领域成本高昂的问题,提出在低计算资源下对7B模型进行医疗适应的方法。结果表明,该模型在日英两种语言的医疗问答基准测试中,表现与现有十倍大的医疗语言模型相当或更佳,显示出跨语言知识传递的有效性,推动临床机构的实际应用。
Sep, 2024