- 从视觉语言模型中学习不变的因果机制
我们提出了 CLIP-ICM(Invariant Causal Mechanism of CLIP)算法,该算法旨在通过干预数据来可靠地识别不变的潜在因素,并在各个领域中实现准确的预测。理论分析表明,我们的方法在分布外(OOD)场景中具有较 - 通过高斯混合模型进行域适应的最优输运
通过最优传输探索领域适应的研究,提出了一种新颖的方法,通过高斯混合模型对数据分布进行建模,从而解决连续最优传输问题。实验结果表明该方法在故障诊断的领域适应基准上具有最先进的性能。
- 黑盒解密:基于置信度的模型反演攻击与分布转移
本文提出了一种称为 CG-MI 的置信度引导模型反演攻击方法,利用预训练的可公开获取的生成对抗网络(GAN)的潜在空间作为先验信息和无梯度优化器,在不同数据分布的黑盒设置中实现了高分辨率的模型反演攻击。实验证明,我们的方法在 Celeba - ICLR基于 Wasserstein 自编码器的低维本质数据的统计分析
研究论文通过适当选择网络结构,展示了 WAEs 能够学习数据分布,并且其收敛速度与特征维度无关,只依赖于数据分布的内在维度。
- 自耗生成模型的理论理解
本文研究了在自我消耗循环中训练生成模型的新挑战,通过连续的模型生成从先前一代模型生成的真实和合成数据的混合进行递归训练。我们构建了一个理论框架,严格评估这种训练方案对未来模型学习到的数据分布的影响。具体地,我们在不同的混合训练场景下,推导出 - 不同标签函数的协同学习
研究一种协作 PAC 学习的变体,旨在学习每个数据分布的准确分类器,同时最小化从这些数据分布中所抽取的样本数总量。给出基于经验风险最小化算法的学习方法,并且分析依赖于增强的假设类的 VC 维度的上界。在计算效率方面,证明了在一般情况下,基于 - 联邦学习能找到有益的朋友
该研究提出了一种新的算法,为参与联邦学习训练的客户分配自适应聚合权重,识别出最有利于特定学习目标的数据分布,实验证明通过该算法引导的合作在传统的联邦学习方法上取得了更好的表现,强调了客户选择的重要性。
- 分布转移下的监督算法公平性:一项综述
监督的公平感知机器学习在面临数据分布从源领域到目标领域的变化时,是一个新兴的领域,解决了在实现公正和无偏预测方面的挑战。本综述提供各种类型的分布变化的总结,并全面调查了现有方法,重点介绍了文献中常用的六种方法。此外,本综述列出了可用于经验研 - 面对房间里的大象:视觉提示调整还是全面微调?
通过对 19 个不同数据集和任务的全面分析,我们发现 Visual Prompt Tuning(VPT)在任务目标差异大或数据分布相似时表现优异,而其成功不仅仅归因于过拟合和优化,而是因为 VPT 保留了原始特征并添加了参数。
- 加速 MRI 的深度学习鲁棒性:多样训练数据的益处
深度学习在图像重建中是当前各种成像任务的最先进方法,研究发现使用不同数据分布来训练模型相对于单一数据分布训练的模型在加速磁共振成像上表现出更好的鲁棒性和性能,并且不会削弱模型在特定分布下的性能。
- 逆问题的学习正则化:来自光谱模型的洞见
本文旨在基于理论提供对于反问题的先进学习方法进行研究,探讨正则化方法及其收敛性的广义定义,该定义可以为未来的理论研究铺平道路。在基于先前用于监督学习的简单光谱学习模型的基础上,我们研究了适用于反问题的不同学习范式的关键属性,这些属性可以独立 - 边界剥离:一种使用单类剥离的异常检测方法
非监督异常检测的一个重要阶段是数据分析中的一个关键领域,我们引入了一种名为一类边界剥离的非监督异常检测算法,它使用了由一类支持向量机生成的灵活边界的迭代剥离的平均有符号距离,并具有强大的超参数设置和可以被视为合奏方法的灵活性,通过在合成数据 - 尖锐度最小化算法不仅仅通过最小化尖锐度来达到更好泛化
尽管进行了广泛的研究,但超参数化神经网络为何能够泛化的根本原因仍然不清楚。本研究通过理论和实证研究指出,对于两层 ReLU 网络,(1)平坦确实意味着泛化;(2)存在不泛化的最平坦模型,锐度最小化算法无法泛化;(3)最令人惊讶的是,存在不泛 - 异构联邦学习:现状与研究挑战
通过对异构联邦学习中的研究挑战和最新方法的概述,提出了一种新的现有方法分类法,并讨论了异构联邦学习的关键和具有潜力的未来研究方向。
- 评估大型语言模型在中文语法错误修正任务中的能力
大规模语言模型在中文语法错误纠正任务中的表现及其问题的调查报告。研究发现大语言模型在自动评估指标方面表现不如之前的模型,并存在过度纠正的问题。此外,不同数据分布下大语言模型的表现也存在明显差异。这些发现表明需要进一步研究大语言模型在中文语法 - 线性学习器何时能够抵御不加区分的攻击?
本文研究了线性学习器的无差别毒化问题,发现如果类别数据分布良好分离且限制集的大小也很小,线性学习器就可以抵抗无差别毒化攻击,并对最新攻击策略的在不同数据集间性能差异做出理论解释。
- ICML数据子群体间机器学习表现非线性相关性
研究机器学习模型在不同的数据分布下的性能表现,发现在子人群变化时,性能间的相关性呈现 “月形” 相关性,并且这种非线性相关性受到训练数据中虚假相关的影响,研究结果对机器学习的可靠性和公平性具有应用意义。
- CodeGen2:训练大型语言模型处理编程和自然语言的经验教训
本文研究如何通过整合模型架构、学习方法、填充采样和数据分布等四个关键组件来提高大型语言模型在程序综合方面的训练效率,并在 1B LLMs 上开展了一系列实验,提炼出四个教训并发布了 CodeGen2 模型和训练框架。
- 基底混合对可解释连续学习中的分布转移问题
本文探讨了在数据分布和任务不断变化的情况下,通过一种半监督在线学习和自适应模型选择的方法来解决多任务连续学习问题。实验结果表明,在多个数据领域上,该方法的预测效果优于现有的方法,同时也证明了任务的潜在表示会随着任务边界的变化而改变。
- CVPROTCE: 跨域跨任务表征的可迁移度量
本研究提出了一种基于优化转运输基础条件熵(OTCE)的度量方法,用于预测跨领域和跨任务特征传输的监督分类任务的传输性能,其中 OTCE 比现有技术平均提供 21%的性能提升,并且可以用于源模型选择和多源特征融合。