利用强化学习进行并行自动历史匹配算法

Nov, 2022

利用强化学习进行并行自动历史匹配算法

Parallel Automatic History Matching Algorithm Using Reinforcement Learning

Omar S. Alolayan, Abdullah O. Alomar, John R. Williams

TL;DR通过将历史匹配问题从最小二乘数学优化问题转化为马尔可夫决策过程，引入了一种方法，可以利用强化学习来解决该问题，从而实现了人工深度神经网络代理与油藏模拟器的交互，找到多个不同的解决方案。这种方法允许通过启动多个并发环境并行解决问题，使代理同时从所有环境中学习，从而实现了显著的加速。

Abstract

Reformulating the history matching problem from a least-square mathematical optimization problem into a markov decision process introduces a method in which →

发现论文，激发创造

循环强化学习：一种混合方法

本文研究了一种深度学习方法，将强化学习和监督学习结合，通过长短时记忆网络对隐藏状态的表示进行学习，在部分可观测任务中表现出了很好的性能。

Sep, 2015

使用Reservoir Sampling将情景记忆集成到强化学习智能体中

该文研究了利用固定数量的过去状态来维护一个外部内存的新算法，使得深度强化学习代理能够在线记忆有用的状态，并可以在在线强化学习设置中实现梯度估计。

Jun, 2018

深度强化学习的马尔可夫状态抽象学习

该研究提出了一种学习马尔科夫状态抽象表示的新方法，结合逆向模型估计和时态对比学习，可以提高强化学习中的样本效率。

Jun, 2021

在线二分匹配的深度策略：一种强化学习方法

本文提出了一个端到端的强化学习框架，基于历史数据的试错，通过设置神经网络架构和设计特征表示，对在线匹配问题进行更好的匹配决策。在两个在线匹配问题中，我们的模型表现得比传统算法更好，提高了匹配质量约3-10％，代码可在给出的URL中公开获得。

Sep, 2021

具有短期记忆的可证明强化学习

本文研究如何学习部分可观察的马尔科夫决策过程。通过构造一种特殊的子类POMDP，它的隐状态可以通过历史的近期记录来解码。我们使用新颖的瞬时匹配方法，并建立了一组在表格和丰富观察设置下，学习这类问题的近优策略的样本复杂性的上下界，并证明了短期记忆对于这些环境的强化学习已经足够。

Feb, 2022

强化学习中历史状态的时间对齐

本文提出了一种基于自监督机制的方法(TempAl)，通过自动化的历史状态表示，在Reinforcement Learning的非完全可观测环境中取得了比单独使用瞬时状态表示更好的结果，实验证明在49个Atari游戏中的35个游戏中取得了优异的成绩。

Apr, 2022

强化学习中基于语言模型的历史压缩

文章介绍了一种使用预训练语言变换器（PLT）来表示历史信息以提高采样效率的方法，该方法名为HELM，通过自动关联筛选过后的预训练标记嵌入，使actor-critic网络模型不必学习过去的信息，从而达到比竞争对手更高的采样效率和更好的实验结果。

May, 2022

强化学习中历史感知的超参数优化框架

本文提出了一种复杂事件处理和时间模型相结合的框架来优化强化学习系统的超参数，同时利用历史信息和并行资源来提供反馈和调整超参数。作者在使用RL（强化学习）的5G移动通信案例研究中测试了该方法，结果表明历史感知框架相比传统的超参数调整方法显著提高了性能。

Mar, 2023

深度强化学习中的时间信用分配调查

信用分配问题是强化学习中一个长期存在的挑战，通过对深度强化学习中的时间性信用分配进行研究，提出了一种统一的信用形式，并分析了现有方法在处理延迟效应、位置换位和行动影响不足方面的挑战，还介绍了评估信用分配方法的协议，并建议诊断不同信用分配方法困难来源的方法。该综述为新进入者和研究人员提供了领域概述，为学者在信用分配问题上开展新研究提供了连贯的视角，并提出了未来研究的潜在方向。

Dec, 2023

连接状态与历史表征：理解自预测强化学习

深度强化学习的关键是表示方法，这篇论文揭示了多种表示学习方法和理论框架之间的共同性，特别是基于自预测抽象的思想，并给出了学习自预测表示方法的最简算法和实用指南。

Jan, 2024