Jan, 2024

放射治疗自然语言处理数据库

TL;DR我们提供了放射治疗自然语言处理数据库(ROND),这是放射治疗领域的首个专用NLP数据集,旨在为该领域的研究和发展提供专门设计的数据集和基准。ROND涵盖了多种NLP任务,包括逻辑推理、文本分类、命名实体识别(NER)、问答(QA)、文本摘要和患者-临床医师对话,每种任务都对放射治疗概念和应用案例有着明确的关注点。此外,我们还通过基于ROND的20k指令对数据集开展了调整,并训练了一个大型语言模型CancerChat,以展示在高度专业化的医疗领域中指令调整大型语言模型的潜力。本研究的评估结果可为未来研究提供基准结果。ROND旨在为放射治疗和临床NLP的进展提供一个测试和改进算法和模型的领域特定上下文的平台。ROND数据集是多个美国卫生机构的联合工作。数据可在以下URL获得: