弱标签生成在医院数据编程中的自动化实现
为解决有限数据训练集的问题,本研究提出一种名为Data Programming的范式,通过弱监督策略和领域启发式标注函数生成训练集,以生成模型表示训练集的标注过程并降噪,探讨数据编程在监督学习中的应用及在TAC-KBP数据集上的检测等实验与研究。
May, 2016
本文探讨生成式建模弱监督中的新方向,即通过正则化流为每个弱标记源或标记函数估计密度,同时捕捉标记函数重叠和相关性现象,并在各种弱监督数据集上进行分析比较。结果表明,弱监督正则化流相对于标准弱监督有更好的效果。
Apr, 2022
本文调查了超过300篇最近的论文,提供了在医学图像分析中标签有效的学习策略方面最新进展的综合概述,并深入研究了标准的半监督、自监督和多实例学习方案,以及最近出现的积极的和注释有效的学习策略。此外,文章还具有独特的特点,详细分析了领域中的当前挑战,并提出了未来研究的潜在途径。
Mar, 2023
本研究探索了使用基于规则的标签机器人进行弱监督的深度学习标签预测模型的潜力,并提出了一种深度学习的 CheXpert 标签预测模型,该模型在基于规则的德国 CheXpert 模型标记的报告上进行了预训练,并在少量手动标记的报告数据集上进行了微调。结果表明,本方法的有效性显著优于基于规则的模型,并强调了即使在稀疏数据场景下,采用深度学习模型的好处和规则标记器作为弱监督工具的用处。
Jun, 2023
对医学图像分类应用进行的研究表明,使用未标记的数据可以提高分类器的性能,通过自监督学习和半监督学习的方法,本研究在医学图像领域设计了一个基准测试,发现MixMatch、SimCLR和BYOL方法是强有力的选择,并提供适用于新医学任务的设置以及进一步搜索的方法。
Jul, 2023
通过分析弱监督学习在医学图像领域的限制以及约束条件对疾病分类性能的影响,本研究揭示了模型对噪声数据的容忍度、训练数据量的影响以及二元和多标签分类之间的性能差异。结果表明,模型可以在添加10%标签错误之前保持疾病分类的性能,随着训练数据量的增加,各种疾病类别的分类性能稳步提升,但在75%训练数据量时性能趋于平稳,同时二元模型在每个疾病类别上优于多标签模型,然而这些解释可能具有误导性,因为二元模型受到共同出现的疾病的影响,并未学习到图像中疾病的具体特征。综上所述,本研究有助于医学图像领域理解弱监督学习和噪声标签的优势和风险,同时也表明了构建多样化的大规模数据集以及开发可解释和负责任的人工智能的需求。
Feb, 2024
通过使用Segment Anything Model (SAM)和其医学替代品MedSAM,我们提供了一种克服昂贵的医学图像标记障碍的新方法,可以为任何未标记的医学图像生成弱标签,并随后用于增强标签稀缺数据集的流程。
Apr, 2024
使用弱监督和微调大型语言模型(LLM)的方法,在几乎没有领域知识的情况下,能够在性能上显著优于传统的有限的标准数据的监督方法,利用基于提示的方法,LLM生成弱标记数据来训练下游的BERT模型,然后将弱监督模型进一步在少量的标准数据上进行微调,通过评估发现该方法优于out-of-the-box PubMedBERT 4.7%至47.9%的F1得分。
Jun, 2024