强制学习:无须详尽标签发现分解表示
本文分析了无监督学习分离表示的最新进展并挑战了一些常见假设,通过实验研究发现,不加监督训练的模型很难达到良好的分离效果,同时,增加分离度似乎不会降低学习的样本复杂度,未来的研究应该关注归纳偏置和 (隐式) 监督的作用,考虑在多个数据集上复现实验结果。
Nov, 2018
本文提出了一种通过最大化标签和输入数据索引之间的信息来解决标签聚类与表示学习相结合的问题的新方法。该方法可以有效地对数以百万计的输入图像和数以千计的标签进行自标注,以训练高度竞争的图像表示,具有优于现有模型的性能。
Nov, 2019
从多种上下文环境的观察中提取现实的抽象表示是深度学习的一个追求目标之一。本文采用信息论的视角来研究这个问题,提出了一种新颖的正则化方法,称为 CLINIC 损失,通过大量的数值实验证明了这种方法在解缠表征与准确性之间取得更好的平衡,并且在不过于限制解缠任务的情况下具有更好的普适性。
Oct, 2023
本文提出了一种名为 REED 的新方法来解决卷积神经网络在存在噪声标签时训练的挑战,该方法通过无监督学习获取表示,通过分类器的半监督自训练解决噪声标签学习问题,并联合半监督重新训练表示和分类器,实现了对噪声标签的鲁棒性,大量实验结果表明,该方法在高噪声水平下可以显著击败现有的最先进方法。
Nov, 2020
本文提供了对无监督学习解开重要变动因素的最新发展的观点,旨在挑战一些常见的假设。本文首先从理论上证明了,无监督的解开表示恒妄图反演和数据上的约定性偏见是不可能的。接着,通过对 8 个数据集进行超过 14,000 个模型的训练,本文发现虽然不同的方法成功地实现了相应损失所鼓励的特性,但是没有监督的情况下,好的解开模型似乎无法被识别。此外,不同的评估指标并不总是在什么应该被认为是 “解开的” 上达成一致,而且在估计上表现出系统性差异。最后,增加的解开性似乎并不一定会导致学习下游任务的样本复杂度减少。本文的结果表明,关于解开学习的未来工作应该明确归因于诱导偏见和(隐含的)监督的作用,研究解开表示的具体好处,并考虑到涵盖几个数据集的可重复的实验设置。
Oct, 2020
针对学习解耦表示是表示学习中重要的问题,本文调查研究了少量监督如何影响现有的解耦学习方法,并进行了大规模实验,结果表明,即使标签不完全或不准确,使用少量的标记训练样本可以对现有的解耦学习模型进行模型选择,并证实引入监督可以有效地学习解耦表示。
May, 2019
该论文指出只需要知道环境中有多少因素发生了变化,而不必了解哪些因素发生了变化,就足以学习到分离的表征,同时实验表明,这种弱监督方式足以在多个基准数据集上可靠地学习到分离的表征,并在多个任务上发挥作用,包括协变量漂移下的一般化、公平性和抽象推理。
Feb, 2020
提出了一种半监督的短文本聚类方法,使用神经网络将文本表示为分布式向量,并使用少量标记数据来指定聚类目标,并通过设计新的目标将表示学习过程和 k 均值聚类过程结合在一起优化,最后迭代地用已标记和未标记的数据来优化整个目标,得到了比其他文本聚类方法更好的实验结果。
Feb, 2016