评估中型语言模型在临床问答中的潜力

Apr, 2024

评估中型语言模型在临床问答中的潜力

Assessing The Potential Of Mid-Sized Language Models For Clinical QA

Elliot Bolton, Betty Xiong, Vijaytha Muralidharan, Joel Schamroth, Vivek Muralidharan...

TL;DR比较了大型语言模型和中型开源模型在临床任务上的表现，发现 Mistral 7B 是表现最佳的模型，并且在临床问题回答任务和消费者查询回答任务上优于专门为生物医学领域训练的模型。

Abstract

large language models, such as GPT-4 and Med-PaLM, have shown impressive performance on clinical tasks; however, they require access to compute, are closed-source, and cannot be deployed on device. →

large language models clinical tasks mid-size models clinical question-answering mistral 7b

发现论文，激发创造

BioMistral: 面向医学领域的一组开源的预训练大型语言模型

BioMistral 是一个开源的、专门针对生物医学领域的大型语言模型，通过基于 Mistral 模型并在 PubMed Central 上进行进一步预训练来实现。我们在包含 10 个既定医疗问答任务的基准测试上对 BioMistral 进行了全面评估，同时探索了通过量化和模型合并方法获得的轻量级模型。我们的结果表明，与现有的开源医学模型相比，BioMistral 具有出色的性能，并且在与专有模型的竞争中有竞争优势。此外，为了解决英语以外数据的有限可用性，并评估医学领域中多语言的泛化能力，我们将该基准测试自动翻译和评估为其他 7 种语言。这标志着医学领域中大规模多语言评估的首次实现。在我们的实验中获得的数据集、多语言评估基准、脚本以及所有模型都可以免费获取。

Feb, 2024

运用大型语言模型实现专业级医疗问答

Med-PaLM 2 combines improvements in Large Language Models, medical domain fine-tuning, and novel ensemble refinement approaches to achieve a state-of-the-art performance approaching or exceeding physician-level performance in medical question answering.

May, 2023

BioMedLM：训练于生物医学文本的 27 亿参数语言模型

BioMedLM, a 2.7 billion parameter GPT-style autoregressive model trained on PubMed, demonstrates competitive performance in biomedical NLP tasks, highlighting the potential of smaller, targeted models as efficient and environmentally friendly alternatives.

Mar, 2024

LLM 之战：对话型 QA 任务的比较研究

通过对 ChatGPT、GPT-4、Gemini、Mixtral 和 Claude 在不同的会话问答语料库中生成的回答进行评估，本研究得出了这些最先进的语言模型的综合比较和评估结果，揭示了它们的能力，并突出了改进的潜在领域。

May, 2024

大型语言模型准备好应用于医疗保健了吗？临床语言理解的比较研究

本研究通过对临床语言理解任务的全面评估和引入一种新的提示策略 —— 自问自答提示（SQP），来提高大型语言模型 (GPT-3.5、GPT-4 和 Bard) 在医疗相关任务中的性能，同时还提供了有关挑战性关系抽取任务误差分布和潜在改进方法的有价值洞察。此项研究为之后的研究和开发医疗应用奠定了基础。

Apr, 2023

评估 ChatGPT 家族模型在生物医学推理和分类中的表现

研究了大型语言模型在生物医学任务中的性能，并与更简单的模型进行了比较，特别地，探讨了分类和因果关系检测任务。发现精细调整后的模型依然是最佳策略，而简单的词袋模型的表现与最复杂的大型语言模型的表现相当。

Apr, 2023

生物医学自然语言处理中的大型语言模型：基准、基线和建议

本研究通过实验验证了 GPT-3 和 GPT-4 在 8 个 BioNLP 应用中的性能表现，并对其识别错误进行了分析，提出了在 BioNLP 应用中使用 LLMs 的建议。

May, 2023

应对医疗语言模型中的认知偏差

这项研究开发了 BiasMedQA 作为一种新的基准测试方法，评估大型语言模型在医学任务中受认知偏差影响的程度，并发现 GPT-4 对偏差具有较强的韧性，而 Llama 2 70B-chat 和 PMC Llama 13B 则受偏差影响较大，这凸显了在医学语言模型开发中需致力于偏差缓解，以实现在医疗保健领域更安全、可靠的应用。

Feb, 2024

多项选择题与大型语言模型：以虚构医疗数据为例的案例研究

利用模拟医学考题的方法评估大型语言模型在医学领域的表现，发现传统的多项选择题评估方法可能无法准确测量其临床知识和推理能力，而更强调其模式识别技能。这项研究强调了需要更强劲的评估方法，以更好地评估大型语言模型在医学背景下的真实能力。

Jun, 2024

Mistral 7B

Mistral 7B v0.1 是一个拥有 70 亿参数的语言模型，通过使用分组查询注意力（GQA）和滑动窗口注意力（SWA）提高了推理效率，并且还提供了一个经过调整的模型 Mistral 7B -- Instruct，在人类和自动化评测中都超过了 Llama 2 13B -- Chat 模型。

Oct, 2023