使用集成数据清理方法开发高效语料库
应用自然语言处理方法,利用三种无监督模型 (Latent Dirichlet Allocation、Word2Vec 和 Transformer) 分析大规模特定主题科学文章的能源相关内容并实现文本的信息提取和知识发现,同时展示了能源材料研究中潜在的主题和概念,并开发了文档分类方法以加速能源研究和材料开发工作。
Feb, 2024
本研究阐述了自然语言处理技术在电子病历上的应用存在的挑战和限制,以及研究人员使用机器学习、深度学习等技术进行处理和信息提取的相关领域和方法。
Jun, 2023
本研究使用自然语言处理技术,旨在解决获取发展中国家公司财务数据的问题。通过构建专门针对发展中国家金融文本数据的数据集,我们采用基于 Transformer 的 T5 模型进行文本到文本的处理,同时进行命名实体识别和关系提取,达到 92.44% 的准确率、68.25% 的精确度和 54.20% 的召回率。同时,我们还使用 SpaCy 进行序列处理,包括预训练和微调模型的命名实体识别以及使用 SpaCy 的依赖解析器输出和一些启发式方法来确定实体关系,最终实现了 84.72% 的准确率、6.06% 的精确度和 5.57% 的召回率。
Mar, 2024
该研究介绍了一个原型工具,结合多种可视化方式,帮助终端用户理解临床文本中提取出的信息,修正必要错误,形成反馈循环,支持 NLP 模型的优化。针对该工具进行的临床医生和研究人员的用户研究显示,用户可以快速开始修正 NLP 模型,尽管他们很少或没有机器学习经验。研究结果还提供了优化界面以支持结果审查工作流程和解释的建议。
Jul, 2017
介绍了如何利用预训练语言模型提升非英语医学文本处理的 NLP 任务效率和数据集命中率,并且用我们的方法在德语文本上训练了一个医学 NER 模型 GPTNERMED。
Aug, 2022
这篇研究论文介绍了一项工业项目,该项目使用文本挖掘和 NLP 解决方案挖掘了医疗保健领域的数百万异构、多语言采购文件,提取了用于动态评估供应商风险的结构化采购合同数据,并发掘了处理这些挑战的方法以及未来研究和实践的建议。
Jan, 2023
该研究回顾了现代自然语言处理模型的关键技术创新,并介绍了在放射肿瘤学研究中使用大型语言模型的最新应用,同时提出了一种全面的框架来评估 NLP 模型以便在临床应用前进行严格的评估和验证。
Nov, 2023
该论文介绍了科学出版领域的扩张,探讨了自然语言处理(NLP)在从大量出版物和预印本中自动提取知识方面的潜力,以及通过注释生物实体以构建 SourceData-NLP 数据集对 NER 进行模型训练的可行性。
Oct, 2023
本文揭示了一种有些反直觉的结论,即相对于非医学领域的 NLP 问题,医学 NLP 模型在小量标记数据的训练下表现出更好的效果,并通过使用最大的公共胸透放射学报告数据集之一的两个固定测试集,在异常分类任务上显示出训练数据大小对模型性能的影响。
Oct, 2020
我们开发了一种基于联邦自然语言处理的方法,能够利用来自不同医院或诊所的临床笔记,改进特定临床任务的质量,并促进整个医疗保健系统的知识进步。这是联邦机器学习在临床自然语言处理中的第一次应用。
Aug, 2019