policy space | BriefGPT - AI 论文速递

关键词policy space

搜索结果 - 10

连续控制中的政策优化问题：噪声邻域下的回报景观
通过研究回报景观，我们对连续控制的深度强化学习代理的不稳定性行为提供了新的视角，并揭示了一维度的策略质量，最终我们开发了一个分布感知的程序以提高策略的鲁棒性。
PDF9 months ago
用简单的进化思想辅助基于梯度的强化学习
我们提出了一种简单而有效的强化学习算法，通过使用进化算子在强化学习中引入大的有向学习步骤，并使用具有共同经验缓冲区的强化学习代理人种群进行训练，从而有效地搜索策略空间。
PDFa year ago
通过排除实现多样性 (DTE): 基于价值分解的强化学习领域识别
通过引入新的学习规则，提出了一种适用于多个具有不同奖励策略的任务的强化学习算法，其代理体系结构包含多个子策略，可以逃脱陷入局部最优策略的困境，克服了现有算法的局限性。
PDFa year ago
方差降低的保守策略迭代
本文研究了将强化学习转化为一系列关于策略空间的经验风险最小化问题的样本复杂度问题。本文提出的共产主义政策迭代的方差递减变种可以将从 O（ε^-4）到 O（ε^-3）的功能局部最优解的样本复杂度改进。在状态覆盖和政策完整性的假设下，该算法在采
PDF2 years ago
使用层次奖励函数指定行为偏好
考虑在任务中以达到期望状态和避免不良状态的形式下，建议采用严格偏序的政策空间、环境独立的层次化奖励结构以及 Pareto 最优性的奖励函数设计，经实验证明其具有期望行为和快速学习的能力。
PDF2 years ago
流量控制：无损原始发现的离线强化学习
本研究提出了一种以基本技能表示为流的离线层次学习方法，重点在于保证基本技能的表达能力，从而恢复整个策略空间，实验结果表明，该方法在大多数任务中取得了优异的性能表现。
PDF2 years ago
利用高斯过程模拟人类驾驶员的操作行为
本文提出一种基于多输出高斯过程的模拟人类驾驶员交互的方法，并将其作为 “层次化推理” 方法的改进。提出的方法采用连续域框架使无限的策略空间成为可能，进而为自动驾驶控制算法的验证创建高保真仿真平台。
PDF3 years ago
KDD随机控制的主动推断
研究指出，由于无法充分建模随机转换动态，特别是在计划期间评估广泛的策略空间时，计算实现大多受限于低维确定性设置。最近的进展提出了一种修改的规划算法，我们在此基础上评估了主动推理在随机控制环境中的效用，结果表明与强化学习相比，无论在确定性还是
PDF3 years ago
上界逆事实置信区间：一种新的胜算原理用于上下文多臂赌博机
本文研究实现条件下的通用上下文医生模型并提出了一种名为 'Upper Counterfactual Confidence Bounds' 的乐观算法，该算法通过在策略空间而非行动空间分析置信区间以及利用潜在功能视角表达在上下文环境中乐观情绪
PDF4 years ago
KDD带有不足支持的离线策略赌博机
本文针对每日实际情况中，由于行动空间的限制，不能在所有情境下为每一个行动确定非零概率而产生的不足支持数据的问题，提出在限制行动空间、奖励外推和限制策略空间三个方法领域内提出的 IPS 补丁方法，分析了三种方法的统计性和计算性属性，并进行实证
PDF4 years ago