患者报告结果度量中的自由文本评论的弱监督文本分类

Aug, 2023

患者报告结果度量中的自由文本评论的弱监督文本分类

Weakly Supervised Text Classification on Free Text Comments in Patient-Reported Outcome Measures

Anna-Grace Linton, Vania Dimitrova, Amy Downing, Richard Wagland, Adam Glaser

TL;DR应用五种弱监督文本分类技术对患者报告的结局测量数据中的自由文本评论进行分析，以识别结直肠癌患者报告的与健康相关的生活质量主题。评估分类性能显示了基于关键词的弱监督文本分类在标记数据有限的情况下标签化结局测量数据中的自由文本评论的潜力和局限性。

Abstract

free text comments (FTC) in patient-reported outcome measures (PROMs) data are typically analysed using manual methods, such as content analysis, which is labour-intensive and time-consuming. →

free text comments patient-reported outcome measures machine learning analysis methods weakly supervised text classification health-related quality of life

发现论文，激发创造

RulePrompt: 利用提示性预训练语言模型和自我迭代逻辑规则进行弱监督的文本分类

为了让预训练语言模型（PLMs）有效理解每个类别，我们首次提出了一种新颖的基于规则的知识形式，用逻辑表达式来描述类别的含义，并开发了一种基于 PLM 的 RulePrompt 方法，包括规则挖掘模块、增强伪标签生成模块和自监督微调模块，通过这一框架，我们的方法在弱监督文本分类任务中验证了其有效性和稳健性，并明显优于最先进的方法，同时产生了可解释的类别规则，证明了在消除易混淆的类别方面的优势。

Mar, 2024

极弱监督文本分类基准：基于种子匹配和提示方法的调和

本文介绍了第一次在统一标准下对 SEED 和 PROMPT 两种方法进行 XWS-TC 基准测试的结果，发现两种方法都具有竞争力，SEED 更加容许人类指导的改变，更有选择性的前置训练语言模型，而且 SEED 和 PROMPT 方法具有密切联系，基于原始文本的聚类后处理步骤能够大力促进两者的表现。

May, 2023

WOT-Class：弱监督开放领域文本分类

本文提出了一种弱监督开放世界文本分类的框架 WOT-Class，其中通过迭代聚类、挖掘和排名象征性单词以及使用重叠的象征性单词作为桥梁来合并冗余类别，可实现有限的监督训练遍及可知和未知类别，并在 7 个流行的文本分类数据集上进行了广泛实验，表明 WOT-Class 具有比现有方法更好的性能和实用潜力。

May, 2023

FastClass：一种高效的弱监督文本分类方法

本文提出了一种有效的弱监督分类方法 FastClass，它使用密集文本表示从外部无标签语料库中检索与类相关的文档，并选择最优子集来训练分类器，相比关键词驱动方法，我们的方法对初始类描述的依赖性更低且训练速度更快，实验证明在广泛的分类任务上，该方法的分类准确性通常优于关键词驱动模型并且训练速度对比关键词驱动方法快得多。

Dec, 2022

全文科学论文的弱监督多标签分类

本研究提出了一种使用交叉文献网络结构和文内层级结构进行弱监督下的全文科学论文分类的框架 (FUTEX)，具有网络感知对比微调模块和层次感知聚合模块，实验结果表明它显著优于具有竞争力的基线，并且可以与使用 1000 到 60000 真实标签样本的完全监督分类器相媲美。

Jun, 2023

通过自动弱监督分类非结构化临床笔记

该研究介绍了一种利用机器学习和文本分类方法来自动识别医疗记录中的疾病编码 (ICD) 的框架，而不需要使用任何人工标记文档。

Jun, 2022

稀疏主题编码

本文提出了稀疏主题编码（STC）方法，通过使用稀疏性建模大数据集的潜在表示，可以直接控制推断表示的稀疏性，并且可以与凸误差函数（例如 SVM Hinge Loss）无缝集成进行监督学习。实验结果表明，STC 和监督 MedSTC 模型在词汇的主题意义识别和分类准确性和时间效率方面优于其他模型。

Feb, 2012

通过自监督分层任务聚类解耦少样本文本分类任务关系

本文提出了一种自我监督的层次任务聚类 (SS-HTC) 方法，通过动态地将异构任务组织到不同层次的簇中来自定义聚类特异性知识，并分离任务之间的潜在关系以提高可解释性，以应对任务异构性，实验结果表明 SS-HTC 的有效性。

Nov, 2022

患者对其疾病症状的描述是什么？利用人工辅助标记进行深度多标签文本分类，自动标记患者自述问题

本文探讨了由美国 FDA 所重视的临床和研究背景中患者报告的问题，结合一个包含 17 万个 PwPs（Parkinson's with Patients）在线开放式问答中的人工日志，从中分类临床相关的症状，并使用一个基于规则的语言字典和 NLP 技术的专家短语查询系统来缩放注释，最后构建了一个基于 Keras-TensorFlow 的多标签文本分类模型，通过在测试集上的 F1-score 达到了 95％以上。

May, 2023

半自监督自动 ICD 编码

本文介绍一种使用神经网络对 Icelandic CTNs 数据集进行半自我监督的数据增强方法，以预测医生对某些疾病的诊断。该方法可以弥补医疗数据稀缺的不足，并证明了机器学习在医学数据分析中的有效性。

May, 2022