robust policies | BriefGPT - AI 论文速递

关键词robust policies

搜索结果 - 7

离线强化学习中的百分位准则优化
在强化学习中，通过优化百分位准则计算限制数据下的高风险决策问题的鲁棒策略，通常通过构建包含真实模型的不确定性集合，并针对集合中的最坏模型来优化策略。然而，现有的工作使用贝叶斯可信区间作为不确定性集合，但往往过大且导致学习过于保守的策略。为了
PDF3 months ago
通过模拟对实际现实进行调和：一种用于强大操纵的实际到模拟到实际的方法
通过模拟环境构建数字双子，提出了一种通过强化学习来增强真实世界模仿学习策略的系统 RialTo，实现高性能、鲁棒性的策略的学习，同时避免大量不安全的真实数据收集和大量人工监督。
PDF4 months ago
优化对抗鲁棒 Q 学习与贝尔曼无穷误差
建立强大的政策对抗或干扰深度强化学习代理至关重要，最近的研究探讨了状态对抗鲁棒性并暗示缺乏最优的鲁棒政策（ORP），从而在设置严格的鲁棒性约束方面提出了挑战。本文进一步研究了 ORP，首先引入了政策一致性假设（CAP），即马尔可夫决策过程中
PDF5 months ago
通过自然 - 对抗边界量化辅助健壮性
构建机器人辅助人类的强大策略是我们的最终目标，而在测试时间，人类的行为可能出乎意料，并可能与机器人在其训练分布之外进行互动，导致失败。我们提出在这些交互环境中捕捉稳健性需要构建和分析整个自然 - 对抗前沿：人类策略的最佳权衡自然性和低机器人
PDF9 months ago
DCT: 大离散行动空间的强化学习行动嵌入的双通道训练
本文提出了一种新颖的框架来 efficiently learn action embeddings，并且成功地在 2D maze 环境和真实世界的电子商务交易数据中实现了更干净的 action embeddings 和更好的策略学习。
PDFa year ago
强健的马尔可夫决策流程即时学习
本文介绍了一种鲁棒的任意学习方法，该方法结合了贝叶斯推断模型和计算稳健策略的方法，以不确定性马尔科夫决策过程（uMDPs）为基础，并通过实验验证了该方法的有效性。
PDF2 years ago
AAAI通过状态保守策略优化学习对抗转移动态的稳健策略
本研究提出了一种名为 SCPO 的新型无模型的策略算法，通过近似减少状态空间内的扰动来解决源环境和目标环境之间差异性的问题，以使深度强化学习算法在真实环境中更加具有鲁棒性。
PDF3 years ago