基于强化学习的离散时间均值方差策略

Dec, 2023

基于强化学习的离散时间均值方差策略

Discrete-Time Mean-Variance Strategy Based on Reinforcement Learning

Xiangyu Cui, Xun Li, Yun Shi, Si Zhao

TL;DR本文基于强化学习研究了一个基于离散时间的均值方差模型，与其在连续时间中的对应物相比，离散时间模型对资产收益分布作出了更一般的假设。使用熵来衡量探索成本，我们得出了最优投资策略，其密度函数也是高斯型的。另外，我们设计了相应的强化学习算法。模拟实验和实证分析表明，我们的离散时间模型在分析实际数据时比连续时间模型具有更好的适用性。

Abstract

This paper studies a discrete-time mean-variance model based on reinforcement learning. Compared with its continuous-time counterpart in \cite{zhou2020mv}, the discrete-time model makes more general assumptions about the asset's return distribution. Using →

discrete-time mean-variance model reinforcement learning entropy optimal investment strategy real-world data

发现论文，激发创造

折扣马尔可夫决策过程中均值 - 方差优化的统一算法框架

用假均值将混合风险下的 MDP 转化为标准 MDP，并提出一种基于二级优化结构的统一算法框架，该框架还允许收敛性分析。通过数值实验，验证了该算法的有效性。

Jan, 2022

深度强化学习与均值方差策略的负责任投资组合优化

本研究旨在研究深度强化学习在负责任投资组合优化中的应用，通过纳入环境、社会和治理评估指标，并与修改后的均值 - 方差优化方法进行比较，结果表明深度强化学习策略在满足投资收益和负责任投资目标的加性和乘性效用函数方面表现出有竞争力的表现。

Mar, 2024

风险厌恶强化学习中的均值半方差策略优化

本文旨在优化均值 - semivariance（MSV）目标，提出了两种基于策略梯度理论和信任域方法的算法，通过在 MuJoCo 上的实验验证其有效性。

Jun, 2022

风险规避强化学习的均值方差策略迭代

本研究提出了一种基于平均方差策略迭代 (MVPI) 框架的风险规避控制方法，采用任意策略评估方法和风险中立控制方法，通过对一个新颖的扩展 MDP 直接进行处理，减少风险中立控制与风险规避控制之间的差距，并介绍了一种风险规避 TD3 方法作为 MVPI 的示例。该方法在 Mujoco 机器人仿真任务中优于传统 TD3 方法和其他风险规避控制方法。

Apr, 2020

马尔可夫决策过程中的均值 - 方差优化

本文研究了含有累积回报的均值和方差的性能度量下的有限时域马尔科夫决策过程 (Markov decision processes)，并证明了对于某些情况下，计算在方差约束下使均值回报最大的策略的复杂度是 NP 难问题，并提供了伪多项式精确和逼近算法。

Apr, 2011

强化学习中的探索与利用：一种随机控制方法

研究探讨了在连续时间内通过采用熵正则化奖励函数促进探索和利用现有知识之间达到的最佳折衷方案，提出使用行为分布的微分熵来规范化奖励函数的熵正则化，并通过高斯分布表征推导出最佳反馈控制分布来平衡利用和探索性搜索，最后通过熵正则化 LQ 问题的解法证明当探索比重衰减至零时，解法能够收敛于经典 LQ 问题的解。

Dec, 2018

未知分布的长期投资中的均值方差组合选择：在线估计，不确定性下的风险厌恶与算法的普适性

通过在线学习框架将原模型重新设计为一种动态策略，以在统计假设下不受限制地接近真实总结的组合的经验效用、夏普比率和增长率。

Jun, 2024

基于正态分布引导的连续控制分布式强化学习

通过使用马尔可夫链中心极限定理，以近似正态分布的形式建模价值分布，分析计算分位数，提出一种基于价值分布的不确定性的策略更新方法，并在 PPO 和 TRPO 算法上进行连续控制任务测试，显示出性能改进。

Aug, 2022

强化学习的参数回报密度估计

本文介绍了一种用于处理统一风险管理目的的参数化收益率密度估计方法，以延伸 Bellman 方程，用 TD 学习算法估计未知环境中的收益率密度，最后用数值实验证明了该方法通过几种参数化密度估计算法实现风险敏感和稳健强化学习范式。

Mar, 2012

用于折扣和平均奖励 MDP 的方差约束 Actor-Critic 算法

研究采用演员 - 评论家算法处理马尔可夫决策问题中的风险敏感准则优化问题，并通过协同扰动优化算法及其他方法解决难以优化的问题。最后，论文在交通信号控制应用中展示了算法的实用性。

Mar, 2014