使用集成数据清理方法开发高效语料库

Jun, 2024

使用集成数据清理方法开发高效语料库

Developing an efficient corpus using Ensemble Data cleaning approach

Md Taimur Ahad

TL;DR本研究旨在利用集成技术清洗医学数据集并开发语料库，数据清洗方法表明集成技术相对于单一过程具有最高准确率（94%），包括向量化、探索性数据分析和输入向量化数据。该研究的第二个目标是从数据集中提取答案，这对机器学习、数据清洗和医疗领域具有重要意义，同时也强调了 NLP 在医疗领域中准确及时提取信息的重要性，这可能关系到生死存亡。

Abstract

Despite the observable benefit of natural language processing (NLP) in processing a large amount of textual medical data within a limited time for information retrieval, a handful of research efforts have been devoted to uncovering novel data-cleaning methods. →

natural language processing data cleaning medical dataset ensemble techniques corpus

发现论文，激发创造

能源语料库中的知识发现和信息抽取的自然语言处理

应用自然语言处理方法，利用三种无监督模型 (Latent Dirichlet Allocation、Word2Vec 和 Transformer) 分析大规模特定主题科学文章的能源相关内容并实现文本的信息提取和知识发现，同时展示了能源材料研究中潜在的主题和概念，并开发了文档分类方法以加速能源研究和材料开发工作。

Feb, 2024

电子病历中的自然语言处理与医疗决策：一项系统性综述

本研究阐述了自然语言处理技术在电子病历上的应用存在的挑战和限制，以及研究人员使用机器学习、深度学习等技术进行处理和信息提取的相关领域和方法。

Jun, 2023

信息提取：在发展中国家超本地金融数据领域的应用

本研究使用自然语言处理技术，旨在解决获取发展中国家公司财务数据的问题。通过构建专门针对发展中国家金融文本数据的数据集，我们采用基于 Transformer 的 T5 模型进行文本到文本的处理，同时进行命名实体识别和关系提取，达到 92.44% 的准确率、68.25% 的精确度和 54.20% 的召回率。同时，我们还使用 SpaCy 进行序列处理，包括预训练和微调模型的命名实体识别以及使用 SpaCy 的依赖解析器输出和一些启发式方法来确定实体关系，最终实现了 84.72% 的准确率、6.06% 的精确度和 5.57% 的召回率。

Mar, 2024

临床文本自然语言处理的交互工具

该研究介绍了一个原型工具，结合多种可视化方式，帮助终端用户理解临床文本中提取出的信息，修正必要错误，形成反馈循环，支持 NLP 模型的优化。针对该工具进行的临床医生和研究人员的用户研究显示，用户可以快速开始修正 NLP 模型，尽管他们很少或没有机器学习经验。研究结果还提供了优化界面以支持结果审查工作流程和解释的建议。

Jul, 2017

基于通用语言模型的非英语医学自然语言处理注释数据集构建

介绍了如何利用预训练语言模型提升非英语医学文本处理的 NLP 任务效率和数据集命中率，并且用我们的方法在德语文本上训练了一个医学 NER 模型 GPTNERMED。

Aug, 2022

使用文本挖掘和自然语言处理的医疗采购数据挖掘 —— 一项工业项目的反思

这篇研究论文介绍了一项工业项目，该项目使用文本挖掘和 NLP 解决方案挖掘了医疗保健领域的数百万异构、多语言采购文件，提取了用于动态评估供应商风险的结构化采购合同数据，并发掘了处理这些挑战的方法以及未来研究和实践的建议。

Jan, 2023

临床放射肿瘤学中的自然语言处理技术和框架简介

该研究回顾了现代自然语言处理模型的关键技术创新，并介绍了在放射肿瘤学研究中使用大型语言模型的最新应用，同时提出了一种全面的框架来评估 NLP 模型以便在临床应用前进行严格的评估和验证。

Nov, 2023

SourceData-NLP 数据集：将数据整合到科学出版以训练大型语言模型

该论文介绍了科学出版领域的扩张，探讨了自然语言处理（NLP）在从大量出版物和预印本中自动提取知识方面的潜力，以及通过注释生物实体以构建 SourceData-NLP 数据集对 NER 进行模型训练的可行性。

Oct, 2023

临床报告标注的收益递减

本文揭示了一种有些反直觉的结论，即相对于非医学领域的 NLP 问题，医学 NLP 模型在小量标记数据的训练下表现出更好的效果，并通过使用最大的公共胸透放射学报告数据集之一的两个固定测试集，在异常分类任务上显示出训练数据大小对模型性能的影响。

Oct, 2020

二阶段联邦表型分类和患者表征学习

我们开发了一种基于联邦自然语言处理的方法，能够利用来自不同医院或诊所的临床笔记，改进特定临床任务的质量，并促进整个医疗保健系统的知识进步。这是联邦机器学习在临床自然语言处理中的第一次应用。

Aug, 2019