患者报告结果度量中的自由文本评论的弱监督文本分类
为了让预训练语言模型(PLMs)有效理解每个类别,我们首次提出了一种新颖的基于规则的知识形式,用逻辑表达式来描述类别的含义,并开发了一种基于 PLM 的 RulePrompt 方法,包括规则挖掘模块、增强伪标签生成模块和自监督微调模块,通过这一框架,我们的方法在弱监督文本分类任务中验证了其有效性和稳健性,并明显优于最先进的方法,同时产生了可解释的类别规则,证明了在消除易混淆的类别方面的优势。
Mar, 2024
本文介绍了第一次在统一标准下对 SEED 和 PROMPT 两种方法进行 XWS-TC 基准测试的结果,发现两种方法都具有竞争力,SEED 更加容许人类指导的改变,更有选择性的前置训练语言模型,而且 SEED 和 PROMPT 方法具有密切联系,基于原始文本的聚类后处理步骤能够大力促进两者的表现。
May, 2023
本文提出了一种弱监督开放世界文本分类的框架 WOT-Class,其中通过迭代聚类、挖掘和排名象征性单词以及使用重叠的象征性单词作为桥梁来合并冗余类别,可实现有限的监督训练遍及可知和未知类别,并在 7 个流行的文本分类数据集上进行了广泛实验,表明 WOT-Class 具有比现有方法更好的性能和实用潜力。
May, 2023
本文提出了一种有效的弱监督分类方法 FastClass,它使用密集文本表示从外部无标签语料库中检索与类相关的文档,并选择最优子集来训练分类器,相比关键词驱动方法,我们的方法对初始类描述的依赖性更低且训练速度更快,实验证明在广泛的分类任务上,该方法的分类准确性通常优于关键词驱动模型并且训练速度对比关键词驱动方法快得多。
Dec, 2022
本研究提出了一种使用交叉文献网络结构和文内层级结构进行弱监督下的全文科学论文分类的框架 (FUTEX),具有网络感知对比微调模块和层次感知聚合模块,实验结果表明它显著优于具有竞争力的基线,并且可以与使用 1000 到 60000 真实标签样本的完全监督分类器相媲美。
Jun, 2023
本文提出了稀疏主题编码(STC)方法,通过使用稀疏性建模大数据集的潜在表示,可以直接控制推断表示的稀疏性,并且可以与凸误差函数(例如 SVM Hinge Loss)无缝集成进行监督学习。实验结果表明,STC 和监督 MedSTC 模型在词汇的主题意义识别和分类准确性和时间效率方面优于其他模型。
Feb, 2012
本文提出了一种自我监督的层次任务聚类 (SS-HTC) 方法,通过动态地将异构任务组织到不同层次的簇中来自定义聚类特异性知识,并分离任务之间的潜在关系以提高可解释性,以应对任务异构性,实验结果表明 SS-HTC 的有效性。
Nov, 2022
本文探讨了由美国 FDA 所重视的临床和研究背景中患者报告的问题,结合一个包含 17 万个 PwPs(Parkinson's with Patients)在线开放式问答中的人工日志,从中分类临床相关的症状,并使用一个基于规则的语言字典和 NLP 技术的专家短语查询系统来缩放注释,最后构建了一个基于 Keras-TensorFlow 的多标签文本分类模型,通过在测试集上的 F1-score 达到了 95%以上。
May, 2023
本文介绍一种使用神经网络对 Icelandic CTNs 数据集进行半自我监督的数据增强方法,以预测医生对某些疾病的诊断。该方法可以弥补医疗数据稀缺的不足,并证明了机器学习在医学数据分析中的有效性。
May, 2022