Oct, 2024
医疗基础模型的结构化数据表示学习
Representation Learning of Structured Data for Medical Foundation Models
Vijay Prakash Dwivedi, Viktor Schlegel, Andy T. Liu, Thanh-Tung Nguyen, Abhinav Ramesh Kashyap...
TL;DR本文针对大型语言模型在处理结构化非文本数据(如医疗编码)时的局限性进行了探讨,提出UniStruct架构,通过针对医疗编码的子词分词技术提高模型性能。研究结果表明,该模型在内部医疗数据库上训练超过10亿个标记后,评估指标提升了23%,并在EHRSHOT基准测试中改善了超过42%的下游任务性能,推动了患者中心模型的表示与推广能力。