- 在贝叶斯主动学习中更好地利用无标签数据
全监督模型在贝叶斯主动学习中占主导地位,我们认为它们对未标记数据中的信息的忽视不仅损害了预测性能,也影响了关于获取哪些数据的决策。我们提出了一个简单的半监督贝叶斯主动学习框架,发现它比传统的贝叶斯主动学习或随机获取数据的半监督学习能够生成更 - 嘈杂信道的力量:无监督端到端任务导向对话的 LLMs
通过使用未标注的数据和模式定义,我们开发了一种新方法来构建一个完全无监督的面向任务的对话系统,该系统可以在迭代中通过期望最大化方法逐渐改进伪标签,并利用这些标签来训练一个端到端的对话代理,其在 MultiWOZ 基准测试上的成功率超过了强大 - 利用 Transformer 从无标签数据学习:高分辨率航空影像的语义分割领域适应
发展了一种新的模型 NEOS 用于未标记图像的语义分割,通过学习不同领域之间的关系,成功地在未标记数据的语义分割方面表现出色。
- BRAVEn: 提升自我监督的视觉和听觉语音识别预训练
我们提出了 BRAVEn,这是对最近的 RAVEn 方法的扩展,完全从原始的音频 - 视觉数据中学习语音表示。我们的修改使得 BRAVEn 在各种环境中成为自我监督方法中的领先者,并且我们通过增加大量未标记数据观察到有利的扩展行为。我们的结 - 低标签、高数据情境下的多组学嵌入自监督学习
利用对比式自监督学习训练预训练的 FT-Transformer 模型,从 miRNA、mRNA 或 RPPA 表达数据中预测癌症类型。当标记样本稀缺而未标记样本众多时,相比标准的表格数据基准(XGBoost 和 CatBoost),该模型表 - 使用掩蔽型自编码器进行心电图分析的无监督预训练
基于掩蔽自动编码器(MAE)的无监督预训练技术及心电图 (ECG) 分析的完整架构,用于利用未标记数据的任务特定微调,对于心电图心律失常分类任务,所提出的方法在 MITDB 数据集上取得了 94.39% 的准确率,相较于全监督方法,在分类以 - 最小信息线性判别分析:使用无标签数据训练 LDA 模型
该论文研究了线性判别分析(LDA)方法在有限的先验信息下如何计算未标记数据的精确投影向量,并验证了该方法在适应非平稳数据方面的优势。
- UNO-DST: 利用无标签数据进行零样本对话状态跟踪
我们将零样本对话状态跟踪转化为少样本对话状态跟踪,通过联合和自我训练方法利用目标域中的无标签数据。该方法通过辅助任务生成槽类型作为主要任务的逆提示,在联合训练期间创建槽值。这两个任务之间的循环一致性使得能够生成和选择未知目标域中的高质量样本 - 自我监督预训练对放射影像诊断任务影响的调查
自监督预训练在医学图像诊断任务中通过改善特征表示进而提高了下游任务性能,尤其是在无标注样本数量远远超过有标注样本数量时。该综述总结了近期在 X 射线、计算机断层扫描、磁共振和超声成像领域中应用自监督预训练与全监督学习相比较的研究,最重要的发 - 如何提高半隐私学习的效果:PILLAR
该研究提出了一种用于半监督半私有学习的计算方法,通过使用预先在公共数据上训练好的网络特征,能在较低标注的私有数据复杂性的情况下,有效地运行于现实世界数据,并在紧密的隐私约束下享受更好的性能。
- 探索半监督面部表情识别的边界:学习来自分布内、分布外和无约束数据
本文详细研究了 11 种最新的半监督学习方法,并在不同数据环境(如 in-distribution 和 unconstrained)下,通过五个人脸表情识别的数据集,对这些方法进行评估。结果表明 ReMixMatch 算法在大多数的数据情况 - ACL利用语言模型重新思考半监督学习
本文通过对五种自我训练和任务适应预训练方法在自然语言处理任务中的对比分析,证实在半监督学习任务中,无监督任务适应预训练是一种更高效、更鲁棒的学习方法,可以更好地利用少量未标记样本甚至在领域转移的情况下展现出更好的表现。此外,以伪标签为主导可 - 神经结构搜索的自我监督学习 (NAS)
此篇论文旨在提出一种创新的方法,利用未标记的数据即可自动学习以预测正确的结果,包括查阅现有技术并确定发展路径、实施和测试新方法,本文介绍了源于实习的多个探索方向。
- WWW来自 Web 的主动学习
本文提出了一种使用网络上未标注的数据作为用于 Pool-based active learning 的数据池的方法,并使用 Seafaring 算法检索信息,证明此方法比使用少量未标注池的现有方法表现更好。
- 音乐节奏估计的等变自监督
本文提出了一种基于等变自监督信号来学习音频节奏表示的方法,避免了需要标注数据的缺点,而且不需要采用正则化或负采样等方法防止模型崩溃。实验证明,这种方法能够仅依靠等变自监督而获得与监督方法相当的性能,而且需要的计算资源较少,因此适用于广泛的研 - MMReconVAT:用于低资源现实世界数据的半监督自动音乐转录框架
本论文提出了一种利用大量未标记音频数据的半监督框架 ReconVAT,采用重构损失和虚拟对抗训练,能够有效解决标记数据不足的问题,同时在最新的数据集上获得了竞争力的结果,还证明了这种方法在新数据上的持续学习潜力。
- 具体 K-means 深度聚类
本研究旨在探讨从未标记数据中同时学习 K-means 聚类和深度特征表示的问题,通过 Gumbel-Softmax 重参数化技巧的梯度估计器解决了原问题,并通过标准聚类基准测试证明了方法的有效性。
- ICLR使用分解判别器训练生成对抗网络从不完整观测中生成图像
本文介绍了一种用于生成对抗网络的子判别器和密度比率的方法,旨在提高在使用未标记数据进行影像分割等预测任务时的图像生成以及分割准确度。
- ICLR学习句子表示的高效框架
本文提出一种从未标记数据中学习句子表示的简单有效的框架,通过将句子出现的上下文预测问题重新表述为分类问题,并基于句子向量表示来区分上下文句子和对比句子,并在多个下游 NLP 任务中展示了高质量的句子表示的超越性能以及训练时间的数量级加速。
- ECCV针对素描检索的对抗训练
本研究采用生成对抗网络,从无监督数据中学习出良好的表征,并应用于图像生成、场景分类以及像象形文字这类草图检索。我们提出了一种与草图检索搭配的新型 GAN 结构,并通过对比传统 GAN 结构的表现,证明本研究的草图 GAN 可用于草图的检索,