Feb, 2025
数据约束下的去识别化训练数据合成
Data-Constrained Synthesis of Training Data for De-Identification
TL;DR本研究解决了临床领域因隐私风险导致缺乏广泛可用数据集的问题。通过将大型语言模型(LLMs)适应于临床领域,我们生成了带有个人可识别信息标签的合成临床文本,并用于训练合成命名实体识别(NER)模型。研究结果表明,使用合成语料库训练的NER模型在预测性能上仅有小幅下降,而这一过程的有效性几乎完全取决于使用原始数据训练的机器标注NER模型的表现。