- Oracle 高效最大值集成强化学习
通过可伸缩方法进行策略改进的学习算法,仅使用成分策略而非其价值函数来与最优策略竞争,并展示其实验有效性和行为特性。
- 学习在业务流程中的资源分配策略
本文针对大型企业流程中的资源分配问题,提出了两种基于深度强化学习和基于分数的价值函数逼近方法,实验结果表明这两种学习方法在多数情况下优于传统启发式算法解决资源分配问题。
- ICLR使用价值函数搜索提升深度策略梯度
本文旨在改进 Deep Policy Gradient 基元的价值估计,提高样本效率和回报率,通过引入一个使用扰动值网络来搜索更好近似的价值函数搜索算法完成。
- 使用双仿度量进行近似策略迭代
本文提出 Sinkhorn 距离可以定义 Bisimulation metrics,通过 Bisimulation-based discretization 的 Approximate Policy Iteration 可以在 Actor- - 在线注意力核强化学习
本文提出了一种在线注意力核在线学习算法 (OAKTD),使用核模型的基值函数来评估价值函数,其中利用到了稀疏表示和注意机制,通过实验评估发现 OAKTD 在一些公共任务上优于其他在线 Kernel-based Temporal Differ - 离线强化学习:值函数逼近的基本限制
本研究针对离线强化学习问题,研究了在实践中越来越受到关注的离线值函数逼近方法,发现其需要有限制的覆盖条件或超出监督学习的表示条件,并提出了所谓的过覆盖现象,阐述了在线和离线强化学习之间的巨大分离性,最终得出任何算法都需要多项式大小的样本复杂 - 线性赌博机和线性强化学习的近似最优表示学习
研究多任务线性臂和线性价值函数近似下的表示学习,并提出了一个可共享表示的算法,可在多任务和时间步数下实现更小的遗憾。
- 广义值函数逼近的强化学习:通过受限逃避维数可证明高效方法
本文提出一种基于一般价值函数逼近的强化学习算法,目的是建立一种没有对环境模型的显式假设的 RL 算法。如果价值函数能使用函数集合 F 近似,该算法将实现后悔界,为实际中使用的算法提供一个框架来证明其有效性。
- 自适应近似策略迭代
本研究提出一种自适应近似政策迭代 (AAPI) 学 习方案,其具有较好的理论保证,并基于在线学习技术只考虑价值函数,通过数据相关的自适应学习率和所谓的乐观损失预测相结合,可达到 $ ilde {O}(T^{2/3})$ 的遗憾上限,在许 - 探索增强的 POLITEX
该论文从强化学习、价值函数逼近和策略迭代等方面出发,提出了一种改进的 POLITEX 算法,采用单个充分探索策略替代之前对所有策略均需要探索环境的假设,以实现在存在探索难题的情况下控制代价的目标。
- 电力网管理中的层次决策
本文实现了一种具有层次决策制定的模型用于电网可靠性管理,使用强化学习算法学习实时电网可靠性的抽象,该算法交替进行快慢时间尺度的价值函数逼近和策略改进,并与先前的启发式算法进行比较,结果表明本方法的优越性。
- 低秩模型的值函数逼近
本研究提出了一种基于稀疏矩阵模型和鲁棒主成分分析方法的价值函数近似技术,可精确表示马尔可夫决策过程中的状态 - 动作值函数,实验结果表明该方法比其他方法更接近真实函数。
- ICMLL1 正则近似线性规划中状态关联权重和采样分布对近似精度的分析
探讨了 $L_1$ 正则化在价值函数逼近中的应用,介绍了一种基于 $L_1$ 正则化的近似线性规划方法(RALP):通过离线策略样本逼近最优价值函数并生成优于以往方法的策略;同时讨论了目标函数中状态关联权重和样本分布对模型逼近品质的影响,给 - 卡尔曼时差法
介绍了一个新的近似框架,即卡尔曼时间差异(KTD)框架,用于解决强化学习中估值函数的扩展问题,并提供了解决确定性和随机性马尔可夫决策过程的 KTD 和 XKTD 算法,证明了其收敛性和比现有算法更好的性能。
- ICLR在价值函数逼近中避免预测器和抑制剂的混淆
本论文提出了一种解决值函数逼近中的预测器混淆问题的方法,该方法是分别预测奖励和惩罚的值,并将其纠正并相加以获得决策所需的值。
- 零和马尔可夫博弈中的价值函数逼近
研究了在零和 Markov 博弈中的价值函数逼近问题,提出了适用于 Markov 博弈的强化学习算法,并针对在两人同时进行移动的特殊问题,给出了 LSTD 和时间差分学习的线性价值函数逼近的收敛保障,通过 LSPI 算法,将该算法应用于足球 - ICML一种基于 Dantzig Selector 的时序差分学习方法
本文介绍了一种新的算法,通过将 LSTD 与 Dantzig Selector 结合,解决了 L1 正则化与 LSTD 整合的困难问题,该算法适用于高维问题。
- 自适应划分的多元凸回归
提出了 Convex Adaptive Partitioning (CAP) 这一新的非参数方法,它可以在响应函数上受到凸性或凹性限制的情况下进行多元回归。CAP 是计算有效的,适用于定价具有大量基础资产的美式篮式期权的价值函数近似,并表明 - 预测状态临时差异学习
本文介绍了一种新的用于价值函数逼近的方法,它将线性时间差分强化学习与子空间识别相结合,并使用一个新的算法 Predictive State Temporal Difference (PSTD) learning。该方法可以将含有大量特征的状