- 用神经算子逼近 2×2 双曲型偏微分方程的反馈核
通过 DeepONet 对耦合的 PDE 和增益内核 PDE 进行近似,证明了其连续性、存在性和稳定性。
- 泛洪正则化用于稳定训练生成对抗网络
该论文提出了一种针对生成对抗网络(GANs)的训练不稳定问题的解决方法,通过直接对抗损失函数进行正则化,使用洪水法(flooding)抑制判别器的损失过低,实验证明洪水法可以稳定 GANs 的训练,并与其他稳定技术结合使用。
- 懊悔匹配 +: 博弈中的 (不) 稳定性和快速收敛
研究 Regret Matching + 算法及其变体在解决大规模博弈中的应用,提出稳定化的解决方案,成功获取了在正态型博弈中的个体遗憾和社会遗憾的最优解,并在 clairvoyant 在线问题解决方面获得了理想结果。
- 深度前馈网络的稳定和一致训练的证明框架
介绍了一种针对深度神经网络进行有监督训练、无监督训练以及强化学习的新算法,运用标准随机梯度下降法和梯度剪裁法对神经网络进行更新,提出了一种稳定输出层且范围明确的新型激活函数,得出结论:神经网络的更新值稳定,训练更加精确与流畅。
- 学习双手舀取食物的策略
研究提出了一种名为 CARBS 的机器人喂食系统,采用双手铲取食物并通过图像反馈学习食品稳定以避免食品浪费。它相对于单臂基线成功率提高 25.8% 且减少 16.2% 的食品破碎率。
- DeepNet: 将 Transformer 扩展至 1,000 层
通过引入新的归一化函数(DeepNorm)来修改 Transformer 中的残差连接,并进行理论分析,提出了一种简单而有效的方法来稳定极深的 Transformers 模型。 该方法结合了 Post-LN 的优秀性能和 Pre-LN 的稳 - 稳定的多智能体交互影响力研究
该研究探讨如何通过学习其他机器人的策略,以及动态模型的帮助,定义一个无监督的稳定奖励来影响其他机器人的策略以实现稳定,并展示了其在自动驾驶、紧急通信和机器人操作等方面的有效性。
- 线性动态系统中带快速稳定的强化学习
研究模型基于的强化学习在未知可稳定线性动态系统中的应用,提出一种通过改进探索策略证明基本稳定性的算法,所提出的算法在避免系统崩溃的同时,实现了对环境的快速探索,在多个自适应控制任务中表现优异。
- ICML在线镜像下降和对偶平均:在动态情况下保持步伐
本文提出了一种简单的 OMD 算法技巧 - 稳定化,以动态学习率的情况下避免 OMD 线性遗憾,通过在经典 OMD 收敛分析下进行调整来获得与 DA 相同的性能保证。
- 有限时间自适应 LQ 系统稳定化
利用随机线性反馈的新方法,本文针对具有未知动态的线性系统稳定问题,通过随机方法提供了稳定的有限时间概率保证。
- 合作可靠性游戏的解决方案
本文提出了合作博弈的可靠性扩展方案,研究了 Shapley 值的近似计算和少量代理类型博弈中核的计算方式。结果表明,通过应用可靠扩展,可以使博弈稳定,即使基础博弈的核为空,扩展后也能得到非空的核。
- 具有随机重整的格林函数蒙特卡罗法
提出一种新的 Green Function Monte Carlo 技术稳定符号问题的方法,该方法基于迭代的随机重构方法,可以在保持常数符号的情况下进行稳定模拟,应用于 J1-J2 海森堡模型中发现了有限自旋间隙。