- 基于数据分布的课程学习
提出一种名为基于数据分布的课程学习(DDCL)的新型课程学习方法,通过评分方法确定训练样本的顺序,实验证明 DDCL 方法相对于无课程的标准评估,对多个数据集应用时,改善了平均分类准确率,并且通过错误损失分析表明,在单个训练时期,使用 DD - 可信学习理论
统计学习理论是机器学习的基础,为从未知概率分布中学习的模型的风险提供了理论上的界限。然而,在实际应用中,数据分布可能会变化,导致领域适应 / 泛化问题。本文通过使用概率凸集(credal sets)模型化数据生成分布的可变性,为学习的 `c - InvariantOODG: 学习点云的不变特征以实现超出分布的泛化
通过使用两个分支网络从原始和增强的点云中提取局部到全局特征,在点云的不同分布之间学习不变性,提高点云的局部特征学习并在 3D 领域泛化基准测试中展示了该模型的有效性。
- 对抗训练的数据依赖稳定性分析
通过加入数据分布信息,我们提供了基于随机梯度下降的对抗训练的泛化界限,分析了数据分布的变化和对抗攻击的影响。
- 使用样本权重进行分布倾斜数据的联邦学习
通过使用样本权重,将客户端的数据分布调整至全局分布,从而提高联邦学习的性能,减少通信成本。
- 自动驾驶数据集综述:数据统计、标注和展望
自动驾驶发展迅速,硬件和深度学习方法的新进展表现出了良好的性能,高质量的数据集对于开发可靠的自动驾驶算法至关重要。本研究全面调查了 200 多个自动驾驶数据集的多个方面,并引入了一种新的评估指标来评估每个数据集的影响,为建立新的数据集提供了 - 探索任务内部关系以改善元学习算法
通过选择多样的任务进行小批量处理,我们研究利用任务关联的外部知识来改善训练稳定性,进而减少训练中的噪音。
- 联邦连续新类别学习
提出了一种称为全局对齐学习(GAL)框架的方法,以准确估计全球新类别数量,为局部训练提供全局视角的有效引导,同时保护隐私。在各种数据集上的广泛实验表明,GAL 在新类别发现方法方面表现优异,特别是在单个新类别学习阶段,精确度提高了 5.1% - AAAIFed-QSSL: 基于位宽和数据异构性的个性化联邦学习框架
通过使用分布式自监督学习以及低位量化,Fed-QSSL 是一个旨在解决联邦学习系统中异质性的方案,并通过解量化、加权聚合和重新量化在客户端设备上创建个性化的模型,验证了该算法的有效性,并对低位训练对学习模型的收敛性和健壮性进行了理论分析。
- 改进后验网络的个性化联邦学习的狄利克雷基础不确定性量化
通过对预测的不确定性进行精确建模,本研究提出了一种新的联邦学习方法,能够选择在特定输入点上表现更好的全局模型和个性化模型,该模型在现实世界的图像数据集上进行的全面实验评估表明其在存在超领域数据的情况下表现优异,并且在标准场景中与最先进的个性 - AAAISPD-DDPM:在对称正定空间中去噪的扩散概率模型
本研究提出了一种新的生成模型 SPD-DDPM,通过在 SPD 空间中引入高斯分布来估计 E (X|y),从而无条件和有条件地学习数据分布,并提供准确的预测。
- 关于扩散模型在合成训练数据集中的限制
通过分析真实样本复制过程中通过扩散和反向过程重建的合成样本,我们发现现代扩散模型不能完美地代表数据分布以用于训练鉴别性任务,这意味着合成数据集在分类性能上不如真实数据集。我们的研究结果表明,合成数据在增加反向步骤时集中于训练数据分布的模式, - 基于评分的生成模型学习具有约束混合的流形结构
通过线性逼近和本地特征向量生成的子空间,调查经过训练的评分模型 (linear approximations and subspaces spanned by local feature vectors),通过低维流形上支持的数据分布支持的 - DALA:一种基于分布感知的 LoRA 方法对抗预训练语言模型
通过考虑对抗样本的分布变化以提高检测方法下的攻击效果,我们提出了一种分布感知的 DALA 对抗攻击方法,并设计了一个评价指标 NASR,结合 ASR 和检测,验证 DALA 生成的对抗样本在 BERT 和 LLaMA2-7b 模型上的攻击效 - 临床概率模型在不同地点之间为何失败?
人工智能在医疗保健领域的日益普及凸显了一个问题,即在训练站点取得超人类临床表现的计算模型在新站点可能表现明显下降。本文在这一观点基础上,介绍了造成此问题的常见原因,并将其分为实验者可控制和临床数据生成过程本身的固有源。在固有源方面,我们深入 - OmniLingo: 听说为基础的语言学习
OmniLingo 是一种基于 Interplanetary Filesystem(IPFS)的架构,用于分发监听和口语语言学习应用程序的数据,着重用户对数据的主权。
- 理解迁移学习和基于梯度的元学习技术
深度神经网络、元学习、微调、MAML 和数据分布
- 块状化:即使不更改任务,在连续学习中遗忘也很重要
连续学习中数据分布以及数据分块是重要的问题,分块对于性能下降有显著贡献。使用按块权重平均的方法可以提高性能,并可推广到整个连续学习过程。
- 对抗样本的可避免性:数据集中度在对抗鲁棒性中的作用
现代机器学习分类器对于对抗性样本的易受攻击性已经引起了理论结果的关注,这些结果可能过于一般化以至于不适用于自然数据分布。本研究在理论上证明了数据分布的一个关键特性 —— 对输入空间的小体积子集的集中程度 —— 决定了是否存在健壮的分类器,并 - 监控机器学习模型:在线检测相关偏差
该研究提出了一种序列监测方案,通过考虑测量模型质量的时间依赖性,减少不必要的警报并解决多重测试问题,从而在检测模型质量相关变化方面优于基准方法。此研究为在动态环境中区分小幅波动和有意义的模型性能退化提供了实用解决方案,确保机器学习模型的可靠