可靠的多模式医学视觉语言模型中的事实性规则
提出了一个多阶段的框架,通过生成合理的依据并验证修正错误,将其作为支持参考生成答案,提高了GPT-3.5-turbo在生命科学行业药物相关查询中的响应质量。该框架使得GPT-3.5-turbo对两个数据集的答案更可靠和准确,并通过与商业模型进行竞争,提高了小型开放访问的LLMs的准确性。
Nov, 2023
大型语言模型(LLMs)在医疗应用中具有重要潜力,而检索增强生成(RAG)被认为是一种有前景的方法来定制LLMs中的领域知识。该研究通过开发和评估一个专门针对医疗保健领域、特别关注术前医学的LLM-RAG流程,验证了其可行性。
Jan, 2024
MultiMedEval是一个开源工具包,旨在公平且可重复评估大型医疗视觉语言模型(VLM),通过23个数据集、11个医学领域的6个多模态任务来综合评估模型的性能,并通过广泛采纳的任务和性能指标确保模型的整体泛化能力,在github上提供了一个简单的界面和设置过程,可以仅仅通过几行代码来评估任何VLM,旨在简化VLM评估的复杂流程,推动未来模型的公平和统一基准测试。
Feb, 2024
通过在医学问答数据集上的大规模实验,我们提出了一种基于检索增强生成的评估框架MIRAGE,以改善大型语言模型在医学领域中的表现,并通过引入MedRAG工具包提高了六个不同语言模型的准确性,最高可达到18%,将GPT-3.5和Mixtral的性能提升至GPT-4级别。
Feb, 2024
通过使用生物医学检索增强生成 (RAG) 系统,将具有参考文献的问题答案引入经过微调的大型语言模型 (LLM),并使用 PubMed 文摘验证答案,本研究在提供准确可靠答案方面取得了显著进展。
Jul, 2024
本研究解决了大型语言模型在复杂医学问题中检索增强生成(RAG)能力不足的问题。我们提出了医学迭代RAG(i-MedRAG),能够基于先前的信息获取逐步提出后续问题,从而改善医学问答性能。实验结果表明,i-MedRAG在回答复杂医学问题上优于传统RAG,尤其在零-shot设置下在MedQA数据集上实现了69.68%的准确率。
Aug, 2024
本研究针对现有医疗领域的多模态评估基准存在的局限,如有限的临床相关性和评估不完整性,提出了GMAI-MMBench。该基准基于多样化的医学数据,包括285个数据集和4种感知粒度,旨在全面评估大型视觉语言模型在医疗应用中的有效性。研究显示,当前先进模型如GPT-4o的准确率仅为52\%,表明未来还有重大改进空间,有助于推动医疗AI的发展。
Aug, 2024
本研究针对当前医疗领域大规模视觉语言模型(LVLMs)评估基准的不足,开发了GMAI-MMBench,一个结构清晰、具有多感知粒度的全面医疗人工智能评估框架。研究发现,即使是先进的GPT-4o,其准确性仅为52%,强调了提升医疗AI应用的必要性,推动了未来LVLMs的研究方向。
Aug, 2024
本研究针对大型语言模型在医疗领域中幻觉现象的问题进行探讨,特别是其输出偏离事实准确性或上下文的情况。文章提出了一系列技术,如基于检索增强生成的技术、迭代反馈循环和监管微调,强调这些方法需要在医疗领域进行进一步的适应与优化,以提高临床决策和患者安全的准确性。
Aug, 2024
本研究解决了大型语言模型在医学应用中生成缺乏支持证据或基于虚构证据的回答的问题。通过开发包含70,000份眼科特定文档的检索增强生成(RAG)管道,研究系统性地评估了在100个健康问题上含RAG和不含RAG的LLM的回应,发现RAG显著提高了准确性,并减少了错误率,表明其在医学领域的应用潜力。
Sep, 2024