评估中型语言模型在临床问答中的潜力
BioMistral 是一个开源的、专门针对生物医学领域的大型语言模型,通过基于 Mistral 模型并在 PubMed Central 上进行进一步预训练来实现。我们在包含 10 个既定医疗问答任务的基准测试上对 BioMistral 进行了全面评估,同时探索了通过量化和模型合并方法获得的轻量级模型。我们的结果表明,与现有的开源医学模型相比,BioMistral 具有出色的性能,并且在与专有模型的竞争中有竞争优势。此外,为了解决英语以外数据的有限可用性,并评估医学领域中多语言的泛化能力,我们将该基准测试自动翻译和评估为其他 7 种语言。这标志着医学领域中大规模多语言评估的首次实现。在我们的实验中获得的数据集、多语言评估基准、脚本以及所有模型都可以免费获取。
Feb, 2024
Med-PaLM 2 combines improvements in Large Language Models, medical domain fine-tuning, and novel ensemble refinement approaches to achieve a state-of-the-art performance approaching or exceeding physician-level performance in medical question answering.
May, 2023
BioMedLM, a 2.7 billion parameter GPT-style autoregressive model trained on PubMed, demonstrates competitive performance in biomedical NLP tasks, highlighting the potential of smaller, targeted models as efficient and environmentally friendly alternatives.
Mar, 2024
通过对 ChatGPT、GPT-4、Gemini、Mixtral 和 Claude 在不同的会话问答语料库中生成的回答进行评估,本研究得出了这些最先进的语言模型的综合比较和评估结果,揭示了它们的能力,并突出了改进的潜在领域。
May, 2024
本研究通过对临床语言理解任务的全面评估和引入一种新的提示策略 —— 自问自答提示(SQP),来提高大型语言模型 (GPT-3.5、GPT-4 和 Bard) 在医疗相关任务中的性能,同时还提供了有关挑战性关系抽取任务误差分布和潜在改进方法的有价值洞察。此项研究为之后的研究和开发医疗应用奠定了基础。
Apr, 2023
研究了大型语言模型在生物医学任务中的性能,并与更简单的模型进行了比较,特别地,探讨了分类和因果关系检测任务。发现精细调整后的模型依然是最佳策略,而简单的词袋模型的表现与最复杂的大型语言模型的表现相当。
Apr, 2023
本研究通过实验验证了 GPT-3 和 GPT-4 在 8 个 BioNLP 应用中的性能表现,并对其识别错误进行了分析,提出了在 BioNLP 应用中使用 LLMs 的建议。
May, 2023
这项研究开发了 BiasMedQA 作为一种新的基准测试方法,评估大型语言模型在医学任务中受认知偏差影响的程度,并发现 GPT-4 对偏差具有较强的韧性,而 Llama 2 70B-chat 和 PMC Llama 13B 则受偏差影响较大,这凸显了在医学语言模型开发中需致力于偏差缓解,以实现在医疗保健领域更安全、可靠的应用。
Feb, 2024
利用模拟医学考题的方法评估大型语言模型在医学领域的表现,发现传统的多项选择题评估方法可能无法准确测量其临床知识和推理能力,而更强调其模式识别技能。这项研究强调了需要更强劲的评估方法,以更好地评估大型语言模型在医学背景下的真实能力。
Jun, 2024
Mistral 7B v0.1 是一个拥有 70 亿参数的语言模型,通过使用分组查询注意力(GQA)和滑动窗口注意力(SWA)提高了推理效率,并且还提供了一个经过调整的模型 Mistral 7B -- Instruct,在人类和自动化评测中都超过了 Llama 2 13B -- Chat 模型。
Oct, 2023