Jun, 2024

将临床知识融入语言模型的标记器

TL;DR本研究介绍了一种新的知识增强的令牌化机制 K-Tokeniser,用于临床文本处理。通过使用语义类型来生成全局表示,并利用句子级上下文选择最佳的全局令牌表示,K-Tokeniser 在临床文本分析任务中展示了一致的改进,特别是在自动临床编码任务中取得了 13% 的微平均 $F_1$ 分数提升,同时对于语言模型的训练也有显著加速作用。