BriefGPT.xyz
Ask
alpha
关键词
trust region
搜索结果 - 6
通过黑盒概率认证的解释的可信区域
在这篇论文中,我们介绍了一个名为黑盒(概率)解释认证的新问题。我们通过给出一个黑盒模型、一个示例的解释以及一个质量度量(如逼真度和稳定性),问能否找到一个最大的超立方体(即以该示例为中心的 L∞球),使得当解释应用于超立方体内的所有示例时,
→
PDF
5 months ago
基于信任域的少样本模拟实现增强学习
使用仿真技术最小化对真实世界交互的需求,在少样本离线动力学设置下,引入了一种新方法,通过惩罚来限制仿真训练策略引发的轨迹,以解决常规强化学习代理倾向于利用仿真不准确性的挑战。在各种环境中评估了我们的方法,包括代表不同仿真到真实条件的高维系统
→
PDF
6 months ago
通过两阶段 KL 惩罚实现保证的信任区域优化
应用 KL 惩罚本身几乎足以强制执行信任区域,在实践中通过少于 5% 的额外梯度步骤引入 "修复" 阶段足以保证在每个策略更新时执行信任区域,产生与其他信任区域方法相竞争的结果。
PDF
7 months ago
TRC:用于安全强化学习的信任区域条件风险价值
提出了一种以条件风险为约束的信赖区域安全强化学习方法(TRC),通过近似上界和使用次问题训练策略,实现在安全约束下达到更优性能的有效导航任务。
PDF
7 months ago
不精确非凸牛顿类型方法
提出了非凸问题的近似解决方案;采用了三次正则化和信任域算法的不精确变体,并且可以应用于有限和问题,通过随机子采样法对梯度和 Hessian 进行适当精度逼近,实现了计算效率与最优迭代复杂度的权衡。
PDF
6 years ago
ICML
信任域策略优化
本文提出了一种名为 TRPO 的实用算法,通过优化政策来达到保证单调改善的目的,并通过一系列实验展示了其在学习模拟机器人的 Swimming、Hopping 以及 Walking,并使用屏幕图像玩 Atari 游戏等众多方面的优越表现。
PDF
9 years ago
Prev
Next