多元化和消歧化:从未明确定义的数据中学习
本文研究无监督预训练方法对信息理论的影响,当输入分布显示出多个监督视图时,该方法可以学习层次化表示,并确保学到的特征在条件标签下独立。无监督预训练可以帮助解决过拟合问题,并提出了一种实用方法来评估监督解缠和二进制特征中的多个视图数量。相比之下,使用有监督模型的学习表示法会忽略大部分视图。
May, 2019
本文介绍了一种名为 OpenMix 的模型用于在无标签数据中发现新类别,并通过混合标签和伪标签来建立已知和未知示例之间的学习关系,提高模型对新类别的识别能力。
Apr, 2020
这篇论文提出了一种名为DISSECT的新方法,该方法可以有效地实现生成解释、概念解缠、反事实解释、可解释性和偏见检测等课题。该方法使用少量监督同时训练生成器、鉴别器和概念解缠器,通过生成分类器辨别信号的生成模型,能够自动发现分类器固有的不同概念。应用该方法能够检测分类器的潜在偏见和识别影响预测的虚假因素。
May, 2021
本文针对非线性独立成分分析的负面结果, 试图研究在没有条件独立性的辅助信息下如何实现解缠以及如何减少需要的辅助信息量。在一类模型中,我们证明理论上和实验上都可以实现解缠,即使辅助信息的维度远小于真实潜在表示的维度。
Apr, 2022
本文提出一种方法,利用编码表示中的多样性和相关性变化特征,结合不同预训练模型获得更好的极端样本识别性能。通过实验结果验证了该算法的有效性。
Jun, 2023
使用有向无环图(DAGs)编码训练集的特征概率分布和独立性的方法(DAGnosis)能识别和处理数据在部署时的不一致性问题,并解决了数据中心方法在特征具有统计独立性的情况下的子优化问题,同时定位了为何样本会因不一致性而被标记的原因,提供了更准确的检测方法和更详细的洞察。
Feb, 2024
本研究介绍了一种名为HYPerbolic Entailment filtering (HYPE)的新方法,利用超伸缩嵌入和蕴含锥的概念,精确提取具有明确语义的图像-文本对数据集,以增强数据样本的特异性。HYPE在数据筛选效率方面取得了显著的改进,并在与现有筛选技术相结合时创下了DataComp基准的最新记录。该研究突破了数据选择过程的潜力,为更准确高效的自监督学习模型的发展做出了贡献。
Apr, 2024
本研究针对现有数据集减缩方法的不足,提出了一种新的数据集减缩方法DRUPI,通过合成特权信息来丰富减缩数据集,从而改善模型学习的效果。研究表明,适度的特征标签能够优化减缩数据集的效能,并在多个数据集上表现出显著的性能提升。
Oct, 2024