使用深度 Q 学习的销售时间序列分析
通过统计学习理论的框架,我们理论上证实了深度 Q 学习在捕捉奖励的特殊属性上表现优秀,进而证明了深度 Q 学习优于传统 Q 学习的泛化误差边界,并在供应链管理中的知名啤酒游戏和模拟推荐系统中验证了我们的理论断言。
Oct, 2023
本研究利用统计学、机器学习和深度学习模型建立了一个强大而准确的股票价格预测框架,研究结果表明该多模型的结合方法可以从波动和随机的股票价格数据中有效地学习。
Apr, 2020
采用 Deep Q-Learning 算法,基于当前的交易信号和订单簿信息预测股票交易的最佳行动方案,并在九种不同的股票上进行了实验,在大多数股票上优于标准基准方法,且表现以超额收益率、超额率和收益 - 损失比为优。
Dec, 2018
提出采用深度强化学习和传统的 Q-learning 方法来解决仓库机器人导航,避障和产品摆放等问题,包括针对单机器人,多机器人的情况,成功在二维仿真环境中测试了模型的性能。
Feb, 2022
本文提出了一种基于深度学习的时间序列预测方法,并在两个数据集上进行了评估。该方法包括数据准备、模型训练和评估等步骤,并进行可视化检查。实验结果表明,如果数据集中的时间序列重复出现固定模式,则可以使用单个时间序列来训练深度学习网络。然而,对于股票市场收盘价格等较少结构化的时间序列,网络表现与重复观察到的最后一个值的基准线类似。该方法的实现和实验是开源的。
Feb, 2023
探讨了多级供应链中的生产计划和分配问题,利用深度增强学习技术 Proximal Policy Optimization(PPO2)来解决非线性不确定需求的问题,结果表明在有不确定性情况下,该方法更具优势。
Jan, 2022
在这篇论文中,作者介绍了 DQN 算法在资产管理组合中的创新和直接应用,并且表明 DRL 算法在投资组合管理中的有效性,同时提出了通过添加约束条件来改善结果的建议。
Feb, 2024
本文介绍了一种新颖的强化学习状态、动作和奖励函数的定义,它允许深度 Q 网络(DQN)学习控制优化超参数。我们使用经验重放的 Q 学习,训练两个 DQN 接受目标函数状态表示作为输入,并输出与学习率调整或保持不变的动作相关的预期折扣回报,即 q 值。训练的 DQN 结合基于梯度的更新例程构成了 Q - 梯度下降算法的基础。与传统的优化方法不同,Q - 梯度下降可以结合任何目标统计量,通过变化动作,我们可以深入了解成功的神经网络优化的学习率调整策略。
Feb, 2016