MedOdyssey：一个高达200K词的医学领域长文本评估基准

Jun, 2024

MedOdyssey：一个高达200K词的医学领域长文本评估基准

MedOdyssey: A Medical Domain Benchmark for Long Context Evaluation Up to 200K Tokens

Yongqi Fan, Hongli Sun, Kui Xue, Xiaofan Zhang, Shaoting Zhang...

TL;DR提出了MedOdyssey，首个有7个长度级别（从4K到200K标记）的医学长内容基准，评估了大型语言模型（LLMs）在长文本情境中的性能分析。

Abstract

Numerous advanced large language models (llms) now support context lengths up to 128K, and some extend to 200K. Some benchmarks in the generic domain have also followed up on evaluating long-context capabilities.

发现论文，激发创造

MEDITRON-70B：用于大型语言模型的医学预训练扩展

通过发布具有7B和70B参数的开源LLMs套件MEDITRON，我们改进了对大规模医学LLMs的访问，并在多个医学测试中显示出显著的性能提升。与闭源LLMs相比，MEDITRON-70B在GPT-3.5和Med-PaLM上表现优异，并且与GPT-4和Med-PaLM-2相差不到5%和10%。

Nov, 2023

医疗领域中的大型语言模型：综述

大型语言模型在医疗保健领域的部署引发了热情和忧虑，本综述论文探讨了针对医疗保健应用设计的现有大型语言模型的功能，从传统的预训练语言模型到目前的医疗保健领域的大型语言模型发展轨迹，特别关注临床语言理解任务的潜力以及性能评估、挑战和限制。

Dec, 2023

大型通用语言模型在评估从成人重症监护电子病历记录中提取的语义概念上的应用评估

通过医生评注和认定的方法，我们研究了三种通用大型语言模型（LLMs）在理解和处理真实世界临床笔记中的性能，并发现GPT-4整体表现优于其他LLMs。此外，我们开发了一个全面的定性性能评估框架，旨在验证LLMs在处理复杂医学数据方面的能力，并为将来在专门领域的LLM评估建立基准。

Jan, 2024

LongHealth：具有长医疗文件的问答基准

LLMs在处理医疗保健领域的大量患者记录方面具有潜在的优势，但现有的基准测试不能充分评估LLMs在处理真实世界中的冗长临床数据方面的能力。通过提供包含20个详细虚构病例的LongHealth基准测试，每个案例包含5090至6754个单词，我们评估了九个开源LLMs，并将OpenAI的专有成本效益高的GPT-3.5 Turbo作为比较。结果显示，Mixtral-8x7B-Instruct-v0.1在从单个和多个患者文档中检索信息的任务上表现最好，但所有模型在需要识别缺失信息的任务中遇到了很大困难，强调了临床数据解释中需要改进的关键领域。然而，当前LLMs的准确性水平对于可靠的临床使用是不足的，尤其是在需要识别缺失信息的情景中。LongHealth基准测试提供了在医疗保健环境中更真实的LLMs评估，并强调了进一步改进模型以实现安全有效的临床应用的需要。我们公开提供基准测试和评估代码。

Jan, 2024

医疗领域中的大型语言模型: 一项综合基准评估

评估医疗领域中多样化的大型语言模型在七个任务和十三个数据集上的综合性能

Apr, 2024

医学领域的大型语言模型综述：技术、应用、可信度与未来发展方向

综述医疗大型自然语言模型（Med-LLM）的进化历史、技术、应用以及对医疗保健的影响，涵盖临床决策支持、报告生成、医学教育等方面，探索其潜力和限制，并讨论公平性、责任感、隐私保护和鲁棒性等挑战，展望未来的发展方向。

Jun, 2024

大型语言模型在数值和语义医学知识方面的性能表现：基于循证问题与答案的基准评估

临床问题解决需要处理语义医学知识，如疾病描述和诊断测试的数值医学知识进行循证决策。因此，我们评估了大型语言模型（LLMs）在数值和语义问题类型上的表现，并将其与人类进行比较。研究发现，LLMs在语义问题上的表现优于数值问题，在不同的医学方面存在差距，仍然不及人类，因此应该谨慎对待它们的医疗建议。

Jun, 2024

针对增强长上下文理解和领域专业知识的优化医学语言模型微调

本研究旨在调查医学类大型语言模型在理解长上下文方面性能下降的现象，并通过调整Fine-tuning过程中常规数据与医学数据的比例和数量，确定最佳数据组成，以优化专业模型并在长上下文性能和特定领域知识之间实现平衡。

Jul, 2024

面向医疗的大型语言模型评估与构建

本研究提出了MedS-Bench，旨在评估大型语言模型在临床环境中的表现，填补了现有基准的不足。通过开发MedS-Ins数据集，我们为医学领域提供了大量指令微调的数据，能够有效提升模型在复杂临床任务上的表现。我们的成果不仅展示了MMedIns-Llama 3的优越性，还通过公开数据集促进了医疗领域的进一步研究与发展。

Aug, 2024

生物医学大语言模型似乎不如通用模型在未见医疗数据上的表现

本研究探讨了生物医学领域特定微调的大语言模型在面对不同临床任务时的有效性，发现其大多数情况下表现不及通用模型。特别是在缺乏医学知识的任务中，小型生物医学模型表现尤为逊色。这一发现挑战了当前关于领域特定微调的假设，并强调了在医疗人工智能中需要更严格的评估框架。

Aug, 2024