强化学习的动态时间调节

Jan, 2022

Dynamic Temporal Reconciliation by Reinforcement learning

Himanshi Charotia, Abhishek Garg, Gaurav Dhama, Naman Maheshwari

TL;DR本文提出了一种基于马尔可夫决策过程的动态和可定制的时间差分强化学习方法，旨在利用高频实际数据来改进低频数据的预测，进而改善长期预测的准确性。该方法相较于仅使用历史低频数据，显著提升了长期预测效果，并突显出低频预测可以提升高频预测，同时高频数据也可以为低频预测提供影响。

Abstract

Planning based on long and short term time series forecasts is a common practice across many industries. In this context, temporal aggregation and reconciliation techniques have been useful in improving forecasts

long and short term forecasts temporal aggregation reconciliation techniques markov decision process time differenced reinforcement learning

发现论文，激发创造

通过强化学习实现动态趋势点检测的趋势过滤

提出了一种基于马尔可夫决策过程 (Markov Decision Process, MDP) 的趋势点检测方法，利用强化学习在离散动作空间中进行，通过预测平方损失函数作为奖励来提取动态趋势点 (Dynamic Trend Points, DTPs)，以此纠正因 ' 近似性 ' 而导致的平滑趋势，并在同时去除噪声的过程中保留重要的原始子序列，从而增强预测性能。

Jun, 2024

基于时序差分学习的模型预测控制

本文提出了一种称之为 TD-MPC 的新型控制方法，该方法结合了基于模型和基于模型无关的方法。研究结果表明，该方法能够在 DMControl 和 Meta-World 上取得更好的样本效率和渐进性能。

Mar, 2022

基于 Kullback-Leibler 散度的概率性预测协调正则化

本文介绍了一种新的概率预测调和方法，该方法将预测步骤和调和步骤融合到一个深度学习框架中，通过引入 Kullback-Leibler 散度正则化项使调和步骤更加灵活和软性，实验结果表明该方法在三个层次时间序列数据集上相比其他概率预测调和方法具有优势。

Nov, 2023

结合订单簿的深度学习和强化学习进行盈利交易

应用深度学习和强化学习结合，利用订单流量失衡进行多时间段预测收益的研究，为五种金融工具提供交易信号，并通过回测模拟和前期测试在零售交易平台验证了模型的潜力，但还需要进一步修改以应对零售交易成本、滑点和点差的波动。

Oct, 2023

简化的时间一致增强学习

本文展示了一种简单的表示学习方法：只依赖于通过潜在时间一致性训练的潜在动态模型，既可以在计划类的强化学习中使用，也可以在基于模型的强化学习中作为策略和价值函数特征使用。该方法在高维度任务上优于模型无关方法，并在样本效率上达到了模型类方法的水平。

Jun, 2023

强化学习中时间反演对称性的研究

在这篇论文中，我们研究了强化学习中的时间对称性概念，并探讨了如何利用时间对称性来减少样本复杂度。通过开发一种新方法，即时间对称数据增强（TSDA），我们发现这种合成的过渡可以增强强化学习代理在可逆时间场景中的样本效率，进而提高强化学习的样本利用效率。

Nov, 2023

时序差分模型：无模型深度强化学习用于模型控制

介绍了一种可以用于模型无关学习和模型控制的基于目标条件的价值函数，称为时间差分模型，它可以利用状态转移的丰富信息来非常高效地学习，同时达到超过直接基于模型的 RL 方法的渐近性能的实验结果表明，在一系列连续控制任务中，TDM 相比最先进的模型无关和模型相关方法提供了实质性的改进。

Feb, 2018

使用深度强化学习的事件预测动态测量调度

通过深度强化学习策略，将测量成本降至最低，同时最大化预测收益，实现基于病人健康历史动态调整的医学测量任务调度，有效地降低了测量次数并提高了预测准确性。

Jan, 2019

GMP-AR：面向时间层次预测的粒度消息传递和自适应调解

时间序列预测在不同的时间粒度上广泛用于实际应用中，本文提出了一种新的粒度消息传递机制（GMP）来利用时间层次结构信息提高预测性能，并引入自适应协调策略（AR）来保持一致性，同时考虑实际约束条件。实验证明，我们的框架（GMP-AR）在时间层次预测任务上表现优于最先进的方法。

Jun, 2024

时钟受限的鲁棒马尔科夫决策过程

通过引入新的时间约束鲁棒马尔科夫决策过程（TC-RMDP）表达方式，考虑到多因素、相关性和时变干扰，该研究重新审视了鲁棒强化学习中的传统假设，为发展更实际、更真实的强化学习应用开辟了新的路径，同时在时间受限环境下，在保持鲁棒性的同时，取得了性能和鲁棒性之间的高效平衡。

Jun, 2024