TCMBench：中医药领域大型语言模型综合评估基准

Jun, 2024

TCMBench：中医药领域大型语言模型综合评估基准

TCMBench: A Comprehensive Benchmark for Evaluating Large Language Models in Traditional Chinese Medicine

Wenjing Yue, Xiaoling Wang, Wei Zhu, Ming Guan, Huanran Zheng...

TL;DR介绍了 TCM-Bench 综合评估 TCM 中大型语言模型性能的基准，提出了 TCMScore 作为评估 TCM 问题回答质量的指标，并从不同角度进行了综合实验分析，突出了大型语言模型在 TCM 领域的能力和局限性。

Abstract

large language models (LLMs) have performed remarkably well in various natural language processing tasks by benchmarking, including in the Western medical domain. However, the professional evaluation benchmarks f

large language models tcm-bench tcmscore evaluation tcm

发现论文，激发创造

CMB：中文综合医学基准

提出了一个基于中文和本土文化框架的本地化医学基准评估工具 CMB，用于评估各类大型语言模型，包括中文和医学领域的模型，旨在促进在中国医学领域中普及和改进大型语言模型。

Aug, 2023

MedBench：一个用于评估医学大型语言模型的大规模中文基准

为了解决医学大语言模型的评估工作耗时且需要大量人力的问题，我们引入了 MedBench，这是一个综合性的基准测试，包括来自医学各领域的 40,041 个问题。通过对医学语言学习模型的知识掌握和推理能力进行评估，MedBench 建立了一个可靠的标准，揭示了医学大语言模型的能力和限制，以帮助医学研究社区。

Dec, 2023

TCMD：一个用于评估大型语言模型的中医问答数据集

通过引入新的医学问答数据集 TCMD，本文评估了不同领域通用语言模型和医学领域特定语言模型在中医领域的能力，并分析了它们在中医问答任务中的鲁棒性及其存在的不足。希望该数据集进一步促进中医领域通用语言模型的发展。

Jun, 2024

推进传统中文语言模型的评估：朝着综合基准套件迈进

评估大型语言模型在语言理解和生成领域中是一项重要任务。我们提出了一套新的基准测试，利用现有的英文数据集，并专门针对评估传统汉语语言模型进行调整，包括问答、摘要、分类和表格理解等任务。评估结果表明，我们的模型在部分评估能力方面达到了与 GPT-3.5 相媲美的性能。为了推进传统汉语语言模型的评估并激发更多研究，我们已经开源了我们的基准测试并开放了模型供试用。

Sep, 2023

綺柏：一個針對中醫藥的大型語言模型

本研究旨在为大型模型赋予中医理论特色的专业知识，以构建和组织一个中医领域的专业语料库，并成功基于 LLaMA 开发出首个经历从预训练到监督微调完整训练流程的中医领域大型模型 Qibo。此外，我们还开发了用于评估中医领域大型模型性能的专用工具 Qibo-benchmark，为对不同模型的理解和应用能力在传统中医领域进行量化和比较提供重要依据，并为中医智能助手未来研究方向和实际应用提供指导。最终，我们进行了充分的实验证明 Qibo 在中医领域具有良好的性能。

Mar, 2024

衡量台灣普通話語言理解能力

该研究针对传统汉语在现有基准测试中的低覆盖率，提出了适用于评估大型语言模型的 TMLU 综合评估工具，通过中学到专业水平的 37 个科目以及对每个科目进行链式思考式的少样本解释，基于 24 个优秀的语言模型的广泛实验证明汉语公开权重模型在复杂推理能力上表现较差，而适用于台湾国语的开放权重模型也相对于简体中文版本存在差距，研究发现存在提升潜力，强调了培养本土化台湾国语大型语言模型的目标，并公开了基准测试和评估脚本以促进未来研究。

Mar, 2024

在 CMExam 上对大型语言模型进行基准测试 —— 一份综合的中文医学考试数据集

通过引入 CMExam 数据集，该研究在医学领域中解决了对大型语言模型进行评估的挑战，同时还通过对 CMExam 的深入分析，详细介绍了 LLMs 在中国医学中的表现和挑战。

Jun, 2023

探索 ChatGPT 对中医知识的理解

使用大型语言模型研究中医药学领域的知识召回和综合推理能力，通过 TCM-QA 数据集评估 LLM 在零样本和少样本设置下的表现，讨论中英提示的差异，结果显示 ChatGPT 在判断题中取得最高精度 0.688，多选题中最低精度为 0.241，中文提示在评估中表现更好，同时评估 ChatGPT 生成的解释质量及其对中医药学知识理解的潜在贡献，为 LLM 在专业领域的适用性提供了有价值的见解，并促进了未来基于这些强大模型推进中医药学研究的方向。

Mar, 2024

CMMLU: 用于测量中文海量多任务语言理解的工具

本文介绍了一个涵盖自然科学、社会科学、工程学和人文学科等多个领域的全面中文基准 CMMLU，并通过评估 18 种面向性能的多语言和中文 LLMs，在不同的主题和设置下评估它们的性能，结果显示，大多数现有 LLM 在提供上下文示例和思维链提示时仍然难以达到 50% 的平均准确性，而随机基准线为 25%，这凸显出 LLMs 有显着的改进空间。

Jun, 2023

大型语言模型是否是真正的全才医护人员？超越医生考试进行健康专业基准测试

通过引入 “中文医务人员考试”（EMPEC），我们在传统中文领域提出了一个规模庞大的医疗知识基准，它由 157,803 个考试题目组成，涵盖 124 个科目和 20 个医疗专业，包括眼科医生和听力学家等被较少涉及的职业。我们的实验表明，尽管 GPT-4 等领先模型的准确率超过 75％，但它们在特殊领域和替代医学方面仍然存在困难。意外的是，通用领域的大型语言模型表现优于专门的医疗模型，并且融入 EMPEC 的训练数据显著提高了性能。此外，模型在训练截止日期后发布的问题上的结果与整体性能趋势一致，说明测试集上的模型表现可以预测其解决未见过的与医疗相关的查询的效果。传统汉字向简化汉字的过渡对模型性能影响微乎其微，表明其具有强大的语言适应性。我们的研究强调了扩大基准范围以涵盖更广泛的医疗职业的重要性，以更好地评估大型语言模型在实际医疗场景中的适用性。

Jun, 2024