Jun, 2024

TocBERT: 使用双向转换器进行医疗文档结构提取

TL;DRTocBERT 是一个使用双向转换器进行文本分割的新解决方案,它通过从语义表示中检测标题和子标题来训练一个监督式的解决方案,该任务被制定为命名实体识别(NER)问题。它在医学文本分割应用中表现出色,用于细调 Bio-ClinicalBERT 模型以分割 MIMIC-III 数据集的出院总结,并在人工标注的 250 个注释数据集上取得了较高的 F1 分数。在线性文本分割问题上达到了 84.6%的 F1 分数,在分层文本分割问题上达到了 72.8%的 F1 分数,它在区分标题和副标题方面表现出色,超越了仔细设计的基于规则的解决方案。