PromptCBLUE: 医学领域的汉语提示调优基准

Oct, 2023

PromptCBLUE: 医学领域的汉语提示调优基准

PromptCBLUE: A Chinese Prompt Tuning Benchmark for the Medical Domain

Wei Zhu, Xiaoling Wang, Huanran Zheng, Mosha Chen, Buzhou Tang

TL;DR为了促进医学大语言模型的研究，我们将中文生物医学语言理解评估 (CBLUE) 基准重新构建为一个大规模的提示调整基准，PromptCBLUE，用于评估中文大语言模型在广泛的生物医学任务上的多任务能力，包括医学实体识别、医学文本分类、医学自然语言推理、医学对话理解和医学内容 / 对话生成。在这些任务上，我们已经进行了实验并报告了目前使用不同微调技术微调的 9 个中文大语言模型的结果。

Abstract

biomedical language understanding benchmarks are the driving forces for artificial intelligence applications with large language model (LLM) back-ends. However, most current benchmarks: (a) are limited to English

biomedical language understanding benchmarks large language model chinese biomedical language understanding evaluation promptcblue chinese llms

发现论文，激发创造

CBLUE：一个中文生物医学语言理解评估基准

本文介绍了第一个中文生物医学语言理解基准评估（CBLUE），其涵盖了一系列自然语言处理任务，包括命名实体识别、信息抽取、临床诊断标准化、单句 / 句对分类，与相应的在线平台进行模型评估、比较和分析，并通过当前的 11 个预训练中文模型的实证结果表明，优秀的神经模型表现远低于人类水平。

Jun, 2021

CHIP2023 中 PromptCBLUE 共享任务概述

该研究论文介绍了 PromptCBLUE 共享任务，该任务重塑了 CBLUE 基准，并为中文开放领域或医学领域的大型语言模型（LLMs）提供了一个良好的测试平台，探索了 LLMs 的多任务提示优化和开源 LLMs 的上下文学习能力调查，并总结了各参与团队在不同方法上的技术和结果评估。

Dec, 2023

MedBench：一个用于评估医学大型语言模型的大规模中文基准

为了解决医学大语言模型的评估工作耗时且需要大量人力的问题，我们引入了 MedBench，这是一个综合性的基准测试，包括来自医学各领域的 40,041 个问题。通过对医学语言学习模型的知识掌握和推理能力进行评估，MedBench 建立了一个可靠的标准，揭示了医学大语言模型的能力和限制，以帮助医学研究社区。

Dec, 2023

CMB：中文综合医学基准

提出了一个基于中文和本土文化框架的本地化医学基准评估工具 CMB，用于评估各类大型语言模型，包括中文和医学领域的模型，旨在促进在中国医学领域中普及和改进大型语言模型。

Aug, 2023

CMed-GPT：面向实体感知的中文医疗对话生成的提示调节

该研究提出了基于中文医学文本的 CMed-GPT 预训练语言模型，通过 fine-tuning 和 p-tuning 降低了 PPL 值，确认了该模型在生成中文生物医学文本方面的优异性能，并强调了 p-tuning 相对于传统的 fine-tuning 方法的优势，并验证了在医学对话生成中引入外部信息的重要性，提升了对话生成质量。

Nov, 2023

TCMBench：中医药领域大型语言模型综合评估基准

介绍了 TCM-Bench 综合评估 TCM 中大型语言模型性能的基准，提出了 TCMScore 作为评估 TCM 问题回答质量的指标，并从不同角度进行了综合实验分析，突出了大型语言模型在 TCM 领域的能力和局限性。

Jun, 2024

DrBenchmark：法国生物医学领域的大型语言理解评估基准

首次公开提供的法语生物医学语言理解基准 DrBenchmark，评估 8 种最新的预训练掩码语言模型 (MLMs) 的通用和生物医学特定数据上的性能，以及英语特定的 MLMs 来评估它们的跨语言能力。

Feb, 2024

生物医学自然语言处理中的迁移学习：对于十个基准数据集上 BERT 和 ELMo 的评估

本文介绍了 Biomedical Language Understanding Evaluation (BLUE) benchmark，该基准旨在促进预训练语言表示在生物医学领域的发展研究。我们评估了多个基于 BERT 和 ELMo 的基线，并发现在 PubMed 文摘和 MIMIC-III 临床笔记上预训练的 BERT 模型取得了最佳结果。

Jun, 2019

在 CMExam 上对大型语言模型进行基准测试 —— 一份综合的中文医学考试数据集

通过引入 CMExam 数据集，该研究在医学领域中解决了对大型语言模型进行评估的挑战，同时还通过对 CMExam 的深入分析，详细介绍了 LLMs 在中国医学中的表现和挑战。

Jun, 2023

CLUE: 用于 LLMs 的临床语言理解评估

为填补现有研究中缺乏对医疗领域广泛应用的临床任务的评估的空白，我们提出了一种适用于现实世界临床任务的基准测试工具 CLUE，并通过评估多个生物医学和通用领域 LLMs 的临床表现和适用性，推进医疗领域的 LLMs 评估和开发的标准化方法。

Apr, 2024