Mar, 2022

TCM-SD:中医证候辨识基准数据集

TL;DR研究表明,利用人工智能技术(例如自然语言处理)可以信息化和智能化传统中医诊疗系统,但现有的数据集不足以支持数据驱动的人工智能技术在中医上的进一步发展。因此,本研究聚焦于中医诊疗系统的核心任务 —— 证候辨析,并介绍了首个涵盖 148 种证候的大规模数据集(TCM-SD),并提出了一种领域特定的预训练语言模型(ZY-BERT),通过深度神经网络的实验建立了强大的性能基线,揭示了证候辨析的各种挑战,并证明了领域特定的预训练语言模型的潜力。研究和分析揭示了结合计算机科学和语言学知识探索中医理论经验验证的机会。