资产折旧下的强化学习
本文研究强化学习的折扣问题,提出一种基于双曲贴现的 RL 代理,该代理简单有效且符合实验结果;同时发现通过学习多个时间跨度的价值函数可以提高价值型 RL 代理的性能。
Feb, 2019
通过推广折扣问题的公式,使用延迟目标函数家族解决通过强化学习问题中存在的样本低效和探索问题,并用所设计的算法成功地解决了硬的探索问题和改善了经典模拟机器人基准测试的样本效率。
Sep, 2022
本研究开发了一种正则化方法,以确保策略具有全局内在亲和力,并利用这些内在策略亲和力使我们的强化学习模型具有内在可解释性。 我们展示了如何训练 RL agents 来编排特定个性类型的个体策略,并仍然获得高回报。
Apr, 2022
本文旨在研究强化学习在资产配置中的应用,并比较了不同强化学习算法的表现,分析了每个模型的特点,引入了一种先进模型 Reward Clipping 并发现其在金融领域特别是投资组合优化中的优点更明显,特别是在牛市和熊市中。最后,本文将这些模型与传统投资策略在市场上升和下降期间的表现进行了比较。
Jan, 2023
本篇论文通过引入可变的折扣因子,建立起广泛适用的序列决策模型,并构建了统一的强化学习、逆强化学习和基于偏好的强化学习模型,这一模型囊括了传统模型的所有情况,同时展现出更高的泛化能力。
Feb, 2019
本文研究如何改变回报函数的形式来增强学习最优策略,提出使用通用数学形式的回报函数,并通过元学习来以端到端的方式学习最优回报函数,在迷宫环境和多个 Atari 游戏上进行测试,实验结果清楚地表明了自动学习最优回报函数在强化学习中的优越性。
May, 2019
本研究探讨了在实际强化学习中,用于估计价值函数的贴现因子与用于定义评估目标的贴现因子之间的差异对学习的影响,并发现了一族目标,可以插值两个不同贴现因子的价值函数。实验表明,使用这种框架可以提高价值函数的估计效果和策略优化更新效果,并且还提供了新的深度强化学习启发式修改策略优化算法的见解。
Jun, 2021
该研究提出了首个离散时间无限时域金融指数跟踪问题的动态建模,解决了现有模型的局限性,具备考虑市场信息变量的时序动态性、计算交易成本、考虑跟踪误差和交易成本之间的权衡、有效利用长期数据等能力,并引入现金注入或提取的决策变量,通过 Banach 不动点迭代和深度强化学习方法解决了该模型并在综合实证研究中证明了该方法可以在追踪准确性方面超过基准方法,并通过现金提取策略获得额外收益的潜力。
Aug, 2023
本文提出的 TD(Delta)算法是一种针对有限 horizon episodic reinforcement learning(RL)的 value function approximator,通过将长时间 horizon 的值函数划分为 components 以解决标准 TD 学习中的缺陷。
Feb, 2019
本文对用于连续控制问题的一类基于模型的价值扩展方法中的样本效率的问题进行了研究,并通过实验表明,在提升普通动力学模型的准确性时所增加的样本效率 marginally,远远达不到与无模型方法相当的表现。
Mar, 2023