Jan, 2024

放射治疗自然语言处理数据库

TL;DR我们提供了放射治疗自然语言处理数据库(ROND),这是放射治疗领域的首个专用 NLP 数据集,旨在为该领域的研究和发展提供专门设计的数据集和基准。ROND 涵盖了多种 NLP 任务,包括逻辑推理、文本分类、命名实体识别(NER)、问答(QA)、文本摘要和患者 - 临床医师对话,每种任务都对放射治疗概念和应用案例有着明确的关注点。此外,我们还通过基于 ROND 的 20k 指令对数据集开展了调整,并训练了一个大型语言模型 CancerChat,以展示在高度专业化的医疗领域中指令调整大型语言模型的潜力。本研究的评估结果可为未来研究提供基准结果。ROND 旨在为放射治疗和临床 NLP 的进展提供一个测试和改进算法和模型的领域特定上下文的平台。ROND 数据集是多个美国卫生机构的联合工作。数据可在以下 URL 获得: