- 预定义原型的类内分离与解缠
该研究论文提出了一种基于人工指定标准预定义原型的原型学习方法,其可以增加类别之间的嵌入可分性并解耦嵌入的不同方差因素,从而实现可解释的预测。通过提供实验证明了该方法的优势。
- 无法处理(肮脏的)真相:以数据为中心的洞察提高了伪标注
伪标记是一种使用少量标记样本来利用无标记数据的常用半监督学习技术。本研究提出了一种名为 DIPS 的数据特征化和选择框架,通过对学习动态的分析来改善伪标记方法,提高标记数据的质量,并展示了其在各种真实世界的表格和图像数据集上的应用和影响。综 - 面对高度缺失数据的基于物理信息的深度学习和部分迁移学习的轴承故障诊断
通过 PTPAI 方法生成合成标记数据,采用基于物理的深度学习技术,解决了轴承故障诊断中标记数据和缺失数据不足的问题,并通过 RF-Mixup 方法处理不平衡类别问题、MK-MMSD 和 CDAN 方法进行域适应,以及应用加权方法解决部分设 - Astro-NER - 天文学命名实体识别: GPT 是否是良好领域专家标注者?
本研究使用一个经过精调的 LLM 模型的预测结果来辅助非领域专家标注天文学文献中的科学实体,以便揭示这样的协作过程是否能够逼近领域专家的专业知识。研究结果显示领域专家与 LLM 辅助标注者之间有中等程度的一致性,并且领域专家与 LLM 模型 - IJCAI更多就是更好:多源深度域适应
在深度学习时代,由于很难获得大规模标记数据来训练先进的深度神经网络,因此将已学习的知识从有标签的源领域转移到无标签或稀疏标签的目标领域成为一种吸引人的替代方法,而多源领域适应则是在收集有不同分布的多个源的标记数据中的一个强大而实用的扩展。在 - IPixMatch: 提升半监督语义分割的互像素关系
IPixMatch 是一种用于半监督学习的新方法,通过挖掘被忽视但有价值的像素间信息,以最大化利用有限的标记数据和提取未标记数据的最大效用,实现了在各种基准数据集中一致的性能改进。
- 自监督 BYOL 在半监督医学图像识别中的整合
通过将自监督学习与半监督模型结合,我们提出了一种创新方法以提高医学图像识别的能力。通过在未标记数据上进行预训练,然后将伪标记和标记数据集合并构建神经网络分类器,并通过迭代微调进行优化,实验证明我们的方法在医学图像识别的准确性方面优于现有方法 - 用于标签稀缺个体提升建模的两个提升估计器的图神经网络
使用基于图神经网络的框架,利用社交网络中的邻居特征和社交关系对提升效果进行建模,解决了现有提升建模方法中面临的信息不足、标记数据稀缺等挑战,取得了在公共数据集和工业数据集上优于最先进方法的卓越性能,已在实际应用中用于提供实时提升效果估计。
- 在数据短缺情况下比较正则化方法对文本分类的有效性:简单和复杂模型的比较
本论文研究了只有少量标记数据可用时,正则化方法对各种分类模型的影响。研究比较了基于词嵌入的简单模型与复杂模型(CNN 和 BiLSTM),在有监督学习中,对抗训练可以进一步正则化模型。在有无标记的数据集时,可以使用半监督学习方法和虚拟对抗训 - 元任务:元学习正则化的另一种视角
该论文提出了一种新颖的解决方案,可以在有限标注数据情况下,能够在训练和新任务中进行有效泛化,并利用未标注样本进行元任务实施未监督技术,实验结果表明该方法在新任务和训练任务中表现良好,并具有更快,更好的收敛性,较低的泛化和标准差误差,表明其在 - 基于事后置信度估计的语义分割的选择性预测及其在分布偏移下的性能
在低资源环境下,本研究通过对预训练模型应用后验置信度估计方法,旨在解决语义分割中的分布偏移问题,并通过对三个医学影像任务进行实验,证明了后验置信度估计方法降低分布偏移影响的有效性。
- INSITE: 使用子模函数和半监督数据编程对医学图像进行标注
在资源受限的环境中,利用有限的标注数据和领域专家的注释,通过有信息的子集选择和半监督数据编程方法,使用少量的样例图像来训练深度模型,取得了比其他半监督方法更好的结果。
- 医学图像深度主动学习的收集函数研究
通过实验和分析证明了不确定性在黑素瘤检测任务中是有用的,并且证实了作者提出的 BALD 方法在平均性能上优于其他获取函数。然而,进一步的分析揭示了所有获得函数在阳性(癌症)样本上表现不佳,暗示了类别不平衡的利用,在真实世界环境中可能是关键的 - 消除输入伪标签对中的不一致掩码
我们研究如何在有限硬件资源和缺乏大规模数据集或预训练模型的环境下,通过使用不一致性掩码(IM)来提高图像分割的质量,实现了对 ISIC 2018 数据集的优秀二进制分割性能,甚至胜过使用完全标记的数据集训练的模型。
- WWW基于一致性引导的零样本文档级关系三元组提取中的知识检索和去噪
本文提出了一种零样本文档级关系三元组提取(ZeroDocRTE)框架,通过从大型语言模型(LLMs)中检索和去噪知识生成标记数据,用于提取具有语义关系的实体,实现了零样本文档级关系和三元组的提取任务。
- 通过自监督表示混合和嵌入初始化最大化跨语言 TTS 适应的数据效率
本文介绍了一种有效的迁移学习框架,用于在文本转语音系统中进行语言适应,重点是通过使用尽可能少的标记和未标记数据实现语言适应。实验结果表明,我们的框架能够仅使用 4 个标记数据和 15 分钟未标记数据合成未知语言的可懂语音,还能在可获得更多数 - 通过人类反馈提高分类性能:标注一部分,剩下的我们来标注
借助大语言模型,本文着眼于通过少量标注样本来显著提高模型准确性,从而通过持续的人类反馈循环改进人工智能模型的准确度、回归率和精确度。通过在金融短语库、银行、Craigslist、Trec 和亚马逊评论数据集上的基准测试,证明了即使只有少量标 - 自组织映射中的拓扑投影最小监督学习
我们提出了一种基于自组织映射中的拓扑投射的半监督学习方法,通过利用大规模未标记数据集中的信息,显著减少了进行参数预测所需的标记数据点数量,从而有效降低了在某些领域(如电力系统、医学和工程学)中获取地面实况标记的成本。
- FlexSSL: 泛化高效的半监督学习框架
通过构建一个半合作的 “游戏”,FlexSSL 旨在解决半监督学习中标签可观察性的辨别问题,从而充分利用标注和未标注数据,并通过理论推导证明了它与噪声标签上的损失重新加权的联系,通过在不同任务上的评估,我们证明了 FlexSSL 可以持续增 - 一个逻辑一致的思路链式方法用于立场检测
Zero-shot stance detection enhanced by logically consistent chain-of-thought and supplementary external knowledge outper