MedOdyssey:一个高达200K词的医学领域长文本评估基准
通过发布具有7B和70B参数的开源LLMs套件MEDITRON,我们改进了对大规模医学LLMs的访问,并在多个医学测试中显示出显著的性能提升。与闭源LLMs相比,MEDITRON-70B在GPT-3.5和Med-PaLM上表现优异,并且与GPT-4和Med-PaLM-2相差不到5%和10%。
Nov, 2023
大型语言模型在医疗保健领域的部署引发了热情和忧虑,本综述论文探讨了针对医疗保健应用设计的现有大型语言模型的功能,从传统的预训练语言模型到目前的医疗保健领域的大型语言模型发展轨迹,特别关注临床语言理解任务的潜力以及性能评估、挑战和限制。
Dec, 2023
通过医生评注和认定的方法,我们研究了三种通用大型语言模型(LLMs)在理解和处理真实世界临床笔记中的性能,并发现GPT-4整体表现优于其他LLMs。此外,我们开发了一个全面的定性性能评估框架,旨在验证LLMs在处理复杂医学数据方面的能力,并为将来在专门领域的LLM评估建立基准。
Jan, 2024
LLMs在处理医疗保健领域的大量患者记录方面具有潜在的优势,但现有的基准测试不能充分评估LLMs在处理真实世界中的冗长临床数据方面的能力。通过提供包含20个详细虚构病例的LongHealth基准测试,每个案例包含5090至6754个单词,我们评估了九个开源LLMs,并将OpenAI的专有成本效益高的GPT-3.5 Turbo作为比较。结果显示,Mixtral-8x7B-Instruct-v0.1在从单个和多个患者文档中检索信息的任务上表现最好,但所有模型在需要识别缺失信息的任务中遇到了很大困难,强调了临床数据解释中需要改进的关键领域。然而,当前LLMs的准确性水平对于可靠的临床使用是不足的,尤其是在需要识别缺失信息的情景中。LongHealth基准测试提供了在医疗保健环境中更真实的LLMs评估,并强调了进一步改进模型以实现安全有效的临床应用的需要。我们公开提供基准测试和评估代码。
Jan, 2024
综述医疗大型自然语言模型(Med-LLM)的进化历史、技术、应用以及对医疗保健的影响,涵盖临床决策支持、报告生成、医学教育等方面,探索其潜力和限制,并讨论公平性、责任感、隐私保护和鲁棒性等挑战,展望未来的发展方向。
Jun, 2024
临床问题解决需要处理语义医学知识,如疾病描述和诊断测试的数值医学知识进行循证决策。因此,我们评估了大型语言模型(LLMs)在数值和语义问题类型上的表现,并将其与人类进行比较。研究发现,LLMs在语义问题上的表现优于数值问题,在不同的医学方面存在差距,仍然不及人类,因此应该谨慎对待它们的医疗建议。
Jun, 2024
本研究旨在调查医学类大型语言模型在理解长上下文方面性能下降的现象,并通过调整Fine-tuning过程中常规数据与医学数据的比例和数量,确定最佳数据组成,以优化专业模型并在长上下文性能和特定领域知识之间实现平衡。
Jul, 2024
本研究提出了MedS-Bench,旨在评估大型语言模型在临床环境中的表现,填补了现有基准的不足。通过开发MedS-Ins数据集,我们为医学领域提供了大量指令微调的数据,能够有效提升模型在复杂临床任务上的表现。我们的成果不仅展示了MMedIns-Llama 3的优越性,还通过公开数据集促进了医疗领域的进一步研究与发展。
Aug, 2024
本研究探讨了生物医学领域特定微调的大语言模型在面对不同临床任务时的有效性,发现其大多数情况下表现不及通用模型。特别是在缺乏医学知识的任务中,小型生物医学模型表现尤为逊色。这一发现挑战了当前关于领域特定微调的假设,并强调了在医疗人工智能中需要更严格的评估框架。
Aug, 2024