- 显式利普希茨值估计增强策略对扰动的稳健性
在机器人控制任务中,强化学习(RL)在模拟中训练的策略在部署到物理硬件上时常常出现性能下降的问题,本文研究了通过利普希茨正则化来改善近似值函数的梯度条件,从而提高训练后的鲁棒性。通过将利普希茨正则化与快速梯度符号方法相结合,我们的实验结果表 - 通过控制有效的规划视野进行离线模仿学习
通过控制有效计划视域,我们纠正了常见离线模仿学习算法中的近似误差问题,从而提升了算法的性能。
- 基于 ODE 的扩散模型快速采样约 5 步
通过几何观察每条采样轨迹几乎位于嵌入环境空间中的二维子空间中,我们提出了一种名为 AMED-Solver 的近似均值方向求解器,通过直接学习均值方向来消除截断误差进行快速扩散采样,并且可以作为插件进一步改进现有的基于 ODE 的采样器。
- 关于基于模型和无模型强化学习的表示复杂性
通过实证研究,我们证明了在电路复杂度的背景下,基于模型和无模型的强化学习在表示复杂度方面的差异,揭示了模型为基础的算法通常比无模型的算法在样本复杂度上表现更好的原因,并为未来的研究提供了一个严格的框架。
- AAAI强化近似探索式数据分析
这篇论文提出了一种基于深度强化学习的框架,旨在优化采样策略以保持数据分析和洞察流,同时减少交互延迟,通过在 3 个真实数据集上进行评估,证明了该技术相对于基线方法能够保留原始的洞察生成过程。
- ICLR认证培训:小盒子为你所需
SABR 是一种基于传播间隔边界的训练方法,可以提高对抗样本的识别准确率且可被证明。该方法显著减少了近似误差,在多个数据集上展现出了较好的表现,指向一类新的保证准确性的训练方法,并有望缓解稳健性与准确性之间的权衡。
- ICLRVAE 近似误差: ELBO 与指数族
本研究分析了 Variational Autoencoders 的近似误差,探讨了该误差的多种可能性并找到了其一致子集。重要的是,此子集无法通过考虑更深的编码器 / 解码器网络进行扩大,也无法降低相应误差。
- 神经网络的时序差分学习 —— 泄漏传播问题的研究
本研究探讨用函数逼近的时序差分学习论(TD)可收敛至比蒙特卡罗回归更劣的解的问题,以及针对价值函数在出现急剧不连续的地方的逼近误差在自举更新中何以进一步扩散的问题。我们通过实证找到了泄漏扩散的证据,并论证了仅当逼近误差时,这种情况会出现。最 - 快速 DPP 采样在 Nystrom 法中的应用,用于核方法
本文通过使用 DPP 的方式选择 landmark 点来保证至少达到一定的误差边界并且减少了时间效率,在实验中它表现比现有的方法更好,特别是在 Nyström 方法和 kernel ridge regression 中有应用。
- 最小二乘序列的新渐近理论:逐点和一致结果
通过采用系数法来估计非参数函数,以及探索 精确形式的条件期望未知,灵活的功能形式能够提高数据的效率。本文探讨了系数法的条件均值估计,给出了数学表述和技术工具。