该研究提供了一份 5000 份医学文章摘要的标注语料库,其中的标注包括描述人口、干预方法及比较、以及测量结果等关键信息,旨在协助检索医学文献并支持循证医学实践。
Jun, 2018
通过自动化方法将新概念放入知识库,提出基于 MedMentions 数据集的新基准来解决既定数据集常见的问题,并通过最近的大型语言模型方法进行评估。
Jun, 2023
介绍了 MedMentions 作为一种新的手动注释的生物医学概念识别资源,并描述了其 UMLS 2017 概念本体论中超过 3 百万个具体概念和 4000+ 个文摘和 350,000 多个链接提到的规模以及广泛覆盖生物医学学科领域的优点。同时,也提出了 MedMentions 子集,支持针对文档检索的实体识别任务。该数据集已包含训练、测试集,并且还提供了 Named Entity Recognition 的基线模型以及其指标,以鼓励相关领域的研究。
Feb, 2019
通过使用手工创建的概念映射工具 MetaMapLite,从 PubMed 和 PMC 生成额外的伪标注数据来增强有限的训练数据,本研究通过广泛的实验展示了通过训练一个更好的概念提取模型来解决生物医学概念提取任务中的数据稀缺和概念与其标准名称偏离的问题。
Jul, 2024
使用 CrowdTruth 方法通过众包获得医疗关系提取的注释数据集,并通过建模歧义性提高数据质量并减少成本,展示了在人类和机器性能方面均考虑歧义性时的加权测量精度、召回率和 F 度量的优势。
Jan, 2017
本研究提出了一种在低资源领域(如医疗保健)采用预处理、实时控制和数据收集后的质量控制措施来改善数据质量的众包框架,通过评估 Bio-BERT 对预测自闭症相关症状的影响,结果显示实时质量控制相较于预处理可提高数据质量 19%,尽管在精度方面有所降低,但使用众包数据进行 Bio-BERT 的微调通常会提高召回率。本研究揭示了众包和质量控制在资源有限环境中优化医疗保健大型语言模型以进行明智决策和改善患者护理的潜力。
May, 2024
通过对 28 种已发布系统的调查,我们在三个公开可用的语料库上深入分析了五种不同实体类型的性能比较,发现 BTM 工具在异构数据集上的性能明显低于同质数据集中的结果,表明在野外应用中 BTM 工具的性能会下降,需要进一步的研究以增强其稳定性。
Feb, 2024
该研究提供了一个医学信息提取的工程框架,其中包括医疗实体识别、关系提取和属性提取。通过深度学习技术和注释语料库,该系统可以高准确率地提取医学实体、关系和属性。
Mar, 2022
研究发现,民间科学可以用于自然语言处理领域的数据标注,但需要考虑可扩展性,参与度和法律伦理等问题,可以提供指南和数据以支持未来的研究。
Apr, 2023
本文研究 LLMs 对众包工人的影响,通过对在 Amazon Mechanical Turk 上运行的一个摘要任务,发现 33-46% 的众包工人使用了 LLMs,因此需要找到新的方法确保数据来源于人类本身。