- 基于位势的奖励用于学习人形机械的运动能力评测
设计和调整奖励函数是发展有效强化学习(RL)流程的主要挑战之一。在这项研究中,我们使用潜在基础奖励塑造(PBRS)来加速学习收敛,在高维系统中,PBRS 对于收敛速度的提升有限,但是 PBRS 奖励项相对缩放更加稳健,更容易调整。
- 对比损失的小批量优化
本文研究了对比学习中的小批量优化理论方面,提出了基于谱聚类的方法来识别高损失小批量,实验证实了理论,并证明了我们提出的算法在实际相关设置中优于普通 SGD。
- MM前馈网络中的缩放和重定比对称性
这篇研究论文指出,当神经网络的权值与偏差在临界线的值上初始化时,可以加速训练速度,并且在未经训练的前馈网络中,具有物理系统的临界点展现出的自相似的特性。
- 随机旋转高斯化收敛速率
本研究通过理论分析和实证研究发现,虽然 Gaussianization 是一种简单的生成模型,但其训练速度在维度增加时会减慢,因为模型无法捕捉维度之间的依赖关系。
- 恶意客户端不在线情况下的联邦学习
本文研究了非结构化和基于强凸全局目标的联邦学习中,面向恶意客户端不可用性问题的简单算法,发现简单的 FedAvg 或 FedProx 算法在不考虑该问题的情况下,能够达到最小化的估计误差并具有收敛速度。经过对合成和真实世界数据集的数值实验验 - 多输出深度神经网络中学习任务优先的推理路径以解决梯度冲突
本文提出一种名为 DR-MGF 的梯度解决算法,通过学习任务优先推理路线来实现多输出深度神经网络中的梯度解决,通过设计可学习的任务特定重要性变量,可以降低任务之间的干扰,从而提高模型预测准确度和收敛速度。
- HARD:用于鲁棒蒸馏的强化增强
本文介绍了一种称为 HARD 的数据增强框架,它使用数据增强技术改进了知识蒸馏 (KD) 的过程,并使得 KD 对于准确性、收敛速度和泛化能力都有了显著提高。
- 颗粒球优化算法
本研究提出了一种新的多粒度优化算法,即颗粒球优化算法(GBO),通过引入颗粒球计算。GBO 采用很多粒度球来覆盖解决方案空间,并使用许多小而精细的粒度球来描述重要部分,以及少量大而粗粒度的粒度球来描述不相关部分,这种细粒度多粒度数据描述能力 - EMNLP通过一组基于组件的梯度范数裁剪,提高预训练语言模型的微调稳定性
本文提出了一种简单的分量梯度范数裁剪方法,用于调整不同组件的收敛速度。实验表明,该方法在泛化性能、收敛速度和训练稳定性方面取得了一致的改进。
- 动态批量适应
该研究提出了一种名为 “Dynamic Batch Adaptation” 的新训练过程,它可以基于梯度的方差等因素,动态选择每个样本的梯度子集来决定当前的更新步骤,这有效提高了模型的收敛速度和泛化能力。
- 基于先验知识的监督个性化排序推荐
研究论文提出了一种新的监督个性化排序(SPR)损失函数,改进了常用的点级和对级损失函数的问题,通过利用先前的知识信息,构造 <用户、相似用户、正面项目、负面项目> 四元组,大大加快了收敛速度,提高了推荐性能。
- 一种参数化的策略优化近似梯度更新类
研究了策略优化的不同方法,利用统一的视角,将其转化为梯度形式和比例函数的更新,在保证高度结构化的同时,得到了一些新的更新算法,可以在合成域和深度强化学习基准测试中得到非平凡的改进。
- 虚拟同质性学习:在联邦学习中防御数据异质性
本文提出了一种名为虚拟同质学习(VHL)的新方法,直接 “矫正” 数据异质性,以改进联合学习 (Federated Learning) 的泛化性能和收敛速度。VHL 通过一个虚拟同质数据集来进行 FL,该数据集由纯噪声生成,并满足不包含私有 - 边缘计算中快速且鲁棒的联邦学习的上下文模型聚合
本文旨在解决联邦学习系统中模型聚合存在的收敛缓慢和表现鲁棒性等问题,通过提出上下文聚合方案达到在每一轮优化中实现损耗减少的最佳上下文相关界限,同时证明该聚合方案引导了损失函数的明确降低,并在实验中展示了联合使用本方案和现有算法可取得收敛速度 - Wikipedia 是否能帮助离线强化学习?
本研究探索了将强化学习作为序列建模的一种形式,并研究了预训练序列模型在其他领域(视觉、语言)上进行细调时的可迁移性,同时提出了改善这些领域之间转移的技术。结果表明,在各种环境下加速训练 3-6 倍,并使用 Wikipedia 预训练和 GP - 投影 GAN 更快收敛
本文提出了一种基于预训练特征空间的投影生成对抗网络(GAN)来改善 GAN 的训练难度,通过将所生成的和真实样本投影到该空间中,激活深层特征,并混合深层特征中的通道和分辨率,从而提高图像质量和训练速度,并成功地将 Frechet Incep - ACL神经机器翻译置信度感知的计划采样
本文提出了基于置信度的定时采样策略,针对神经机器翻译中定时采样策略无法根据实时模型表现进行调整的问题,通过使用模型预测的置信度来量化实时模型表现,并设计了细粒度的采样策略。实验结果表明,该策略在 Transformer 模型上显著优于 Va - 面向无线联邦边缘学习的优化功率控制设计
研究了 Air-FEEL 系统中的传输功率控制,通过最大化收敛速度的方法优化功率控制策略,并使用拉格朗日对偶方法得到了优化解,结果表明该策略比传统策略实现了更快的收敛速度。
- CVPR利用弱监督进行检测感知的预训练
本文提出了一种检测感知的预训练方法,使用弱标记分类样本集(如 ImageNet)进行预训练,但该方法是专门针对目标检测任务进行设计的,并通过一种基于类激活图的弱监督目标定位方法将分类数据集转换为检测数据集以直接预训练检测器,使得预训练模型具 - 自适应范数约束的快速最小范敌对攻击
本文提出了一种既能处理不同的扰动模型,对超参数选择具有鲁棒性,又不需要对抗起始点,且仅需几步轻量级的迭代即可收敛的快速最小范数攻击方法(FMN),并通过广泛的实验表明 FMN 在收敛速度和计算时间方面明显优于现有的攻击方法,同时报告了相当或