TCMD：一个用于评估大型语言模型的中医问答数据集

Jun, 2024

TCMD：一个用于评估大型语言模型的中医问答数据集

TCMD: A Traditional Chinese Medicine QA Dataset for Evaluating Large Language Models

Ping Yu, Kaitao Song, Fengchen He, Ming Chen, Jianfeng Lu

TL;DR通过引入新的医学问答数据集 TCMD，本文评估了不同领域通用语言模型和医学领域特定语言模型在中医领域的能力，并分析了它们在中医问答任务中的鲁棒性及其存在的不足。希望该数据集进一步促进中医领域通用语言模型的发展。

Abstract

The recently unprecedented advancements in large language models (LLMs) have propelled the medical community by establishing advanced medical-domain models. However, due to the limited collection of medical datasets, there are only a few comprehensive benchmarks available to gauge prog

large language models medical question-answering dataset traditional chinese medicine llm evaluation tcm qa tasks

发现论文，激发创造

TCMBench：中医药领域大型语言模型综合评估基准

介绍了 TCM-Bench 综合评估 TCM 中大型语言模型性能的基准，提出了 TCMScore 作为评估 TCM 问题回答质量的指标，并从不同角度进行了综合实验分析，突出了大型语言模型在 TCM 领域的能力和局限性。

Jun, 2024

MedChatZH：一个更好的医疗顾问从更好的指南中学习

使用生成型的大型语言模型，在中医问答领域表现令人不满意，本研究引入了一个专门为中医问答设计的对话模型 MedChatZH，该模型在中医经典著作上进行预训练，并结合医学指南数据进行精细调优，在真实的医学对话数据集上胜过了几个基线模型。我们在链接上发布了我们的模型、代码和数据集，以促进传统中医和大型语言模型领域的进一步研究。

Sep, 2023

探索 ChatGPT 对中医知识的理解

使用大型语言模型研究中医药学领域的知识召回和综合推理能力，通过 TCM-QA 数据集评估 LLM 在零样本和少样本设置下的表现，讨论中英提示的差异，结果显示 ChatGPT 在判断题中取得最高精度 0.688，多选题中最低精度为 0.241，中文提示在评估中表现更好，同时评估 ChatGPT 生成的解释质量及其对中医药学知识理解的潜在贡献，为 LLM 在专业领域的适用性提供了有价值的见解，并促进了未来基于这些强大模型推进中医药学研究的方向。

Mar, 2024

綺柏：一個針對中醫藥的大型語言模型

本研究旨在为大型模型赋予中医理论特色的专业知识，以构建和组织一个中医领域的专业语料库，并成功基于 LLaMA 开发出首个经历从预训练到监督微调完整训练流程的中医领域大型模型 Qibo。此外，我们还开发了用于评估中医领域大型模型性能的专用工具 Qibo-benchmark，为对不同模型的理解和应用能力在传统中医领域进行量化和比较提供重要依据，并为中医智能助手未来研究方向和实际应用提供指导。最终，我们进行了充分的实验证明 Qibo 在中医领域具有良好的性能。

Mar, 2024

在 CMExam 上对大型语言模型进行基准测试 —— 一份综合的中文医学考试数据集

通过引入 CMExam 数据集，该研究在医学领域中解决了对大型语言模型进行评估的挑战，同时还通过对 CMExam 的深入分析，详细介绍了 LLMs 在中国医学中的表现和挑战。

Jun, 2023

TCM-GPT：中医领域自适应大型语言模型的高效预训练

我们提出了一种新颖的领域特定的中医数据自适应方法，通过使用领域特定语料库对模型进行高效预训练和微调，实现与中医相关任务的高效对齐。我们在两个中医任务上进行了广泛的实验，TCM-GPT-7B 在准确性方面表现最好，分别在准确性上相对增加了 17% 和 12%，在 TCM 领域中验证了拥有 70 亿参数的大型语言模型的领域自适应效果。

Nov, 2023

TCM-SD：中医证候辨识基准数据集

研究表明，利用人工智能技术（例如自然语言处理）可以信息化和智能化传统中医诊疗系统，但现有的数据集不足以支持数据驱动的人工智能技术在中医上的进一步发展。因此，本研究聚焦于中医诊疗系统的核心任务 —— 证候辨析，并介绍了首个涵盖 148 种证候的大规模数据集（TCM-SD），并提出了一种领域特定的预训练语言模型（ZY-BERT），通过深度神经网络的实验建立了强大的性能基线，揭示了证候辨析的各种挑战，并证明了领域特定的预训练语言模型的潜力。研究和分析揭示了结合计算机科学和语言学知识探索中医理论经验验证的机会。

Mar, 2022

让 LLMs 应对最新挑战！一个中文动态问答基准测试

为了提高中文大型语言模型（LLMs）的问答能力，本文引入了 CDQA，这是一个包含与中国互联网最新新闻相关的问答对的中文动态问答基准，通过人工和模型相结合的流程获得高质量的数据，根据答案变化的频率仔细分类样本以便更精细地观察 LLMs 的能力，我们还评估和分析了 CDQA 上的主流和先进的中文 LLMs，广泛的实验和有价值的见解表明我们提出的 CDQA 是具有挑战性和值得进一步研究的，我们相信我们提供的基准将成为未来改善 LLMs 中文问答能力的关键数据资源。

Feb, 2024

基于改进的传统中文评估套件的基础模型

我们发布了 TMMLU+，这是一个为传统中文大规模多任务语言理解数据集而设计的全面数据集。TMMLU + 是一个多项选择问答数据集，包括 66 个从初级到专业水平的学科。与其前身 TMMLU 相比，TMMLU + 的规模增加了六倍，学科分布更加平衡。我们在 TMMLU + 中包含了来自闭源模型和 24 个开源的中文大型语言模型的基准结果，这些模型的参数范围从 1.8B 到 72B 不等。我们的研究发现，传统中文模型仍然落后于其简体中文模型。此外，目前的大型语言模型在平均分上仍未超越人类表现。我们公开发布了我们的数据集和相应的基准源代码。

Mar, 2024

推进传统中文语言模型的评估：朝着综合基准套件迈进

评估大型语言模型在语言理解和生成领域中是一项重要任务。我们提出了一套新的基准测试，利用现有的英文数据集，并专门针对评估传统汉语语言模型进行调整，包括问答、摘要、分类和表格理解等任务。评估结果表明，我们的模型在部分评估能力方面达到了与 GPT-3.5 相媲美的性能。为了推进传统汉语语言模型的评估并激发更多研究，我们已经开源了我们的基准测试并开放了模型供试用。

Sep, 2023