trust region | BriefGPT - AI 论文速递

关键词trust region

搜索结果 - 6

通过黑盒概率认证的解释的可信区域
在这篇论文中，我们介绍了一个名为黑盒（概率）解释认证的新问题。我们通过给出一个黑盒模型、一个示例的解释以及一个质量度量（如逼真度和稳定性），问能否找到一个最大的超立方体（即以该示例为中心的 L∞球），使得当解释应用于超立方体内的所有示例时，
PDF5 months ago
基于信任域的少样本模拟实现增强学习
使用仿真技术最小化对真实世界交互的需求，在少样本离线动力学设置下，引入了一种新方法，通过惩罚来限制仿真训练策略引发的轨迹，以解决常规强化学习代理倾向于利用仿真不准确性的挑战。在各种环境中评估了我们的方法，包括代表不同仿真到真实条件的高维系统
PDF6 months ago
通过两阶段 KL 惩罚实现保证的信任区域优化
应用 KL 惩罚本身几乎足以强制执行信任区域，在实践中通过少于 5% 的额外梯度步骤引入 "修复" 阶段足以保证在每个策略更新时执行信任区域，产生与其他信任区域方法相竞争的结果。
PDF7 months ago
TRC：用于安全强化学习的信任区域条件风险价值
提出了一种以条件风险为约束的信赖区域安全强化学习方法（TRC），通过近似上界和使用次问题训练策略，实现在安全约束下达到更优性能的有效导航任务。
PDF7 months ago
不精确非凸牛顿类型方法
提出了非凸问题的近似解决方案；采用了三次正则化和信任域算法的不精确变体，并且可以应用于有限和问题，通过随机子采样法对梯度和 Hessian 进行适当精度逼近，实现了计算效率与最优迭代复杂度的权衡。
PDF6 years ago
ICML信任域策略优化
本文提出了一种名为 TRPO 的实用算法，通过优化政策来达到保证单调改善的目的，并通过一系列实验展示了其在学习模拟机器人的 Swimming、Hopping 以及 Walking，并使用屏幕图像玩 Atari 游戏等众多方面的优越表现。
PDF9 years ago