- 强化学习的一阶政策优化方法实现鲁棒政策评估
我们采用政策优化观点对具有 s - 矩形不确定性集的鲁棒马尔可夫决策过程进行政策评估。所开发的方法被称为一阶政策评估(FRPE),为确定性(离线)和随机(在线)设置下的鲁棒政策评估提供了第一种统一框架,无论是表格表示还是通用函数逼近。具体而 - ICML增强学习中的引导式表示学习
本文研究了强化学习中的状态表示问题,发现时序差分学习与蒙特卡罗、残差梯度学习在大部分环境的特征学习上存在差异,本文提出的新的辅助学习规则在经典环境下具有较好表现。
- 使用线性函数逼近进行策略评估的高概率样本复杂度
本文主要针对利用线性函数逼似模型来评估折扣无限领域 MDP 中的策略的问题,研究两种广泛使用的政策评估算法(TD 和 TDC)最佳线性系数的预估误差所需的样本复杂度,提出了一个高可靠性收敛保证的样本复杂度上界,并且在策略内和策略外设置中都达 - ICML分位数时序差分学习在价值估计中的统计优势
本研究探讨了强化学习中基于时间差分的策略评估问题,并分析了一种分布式强化学习算法 —— 量化时间差分学习 (QTD) 在此任务中的应用。研究得出了令人惊讶的结论,即使从业者对返回分布的平均值以外的部分不感兴趣,QTD(能够学习返回值的完整分 - 具低秩结构的离线强化学习矩阵估计
本文提出了一种离线策略评估算法,该算法利用了隐含的低秩结构来估计未被覆盖的状态 - 动作对的值,同时提供了一个离线策略优化算法,且具有非渐近性能保证。
- 自动温度调节的 Soft Actor-Critic 算法正则化
本文通过自动温度调整来规范化 Soft Actor-Critic(SAC)算法,重构政策评估、政策改进和温度调整的理论,以更明确的方式优化原始算法。
- 有限擦除通道上的联邦 TD 学习:马尔科夫采样下的线性加速
本文研究联邦强化学习中的策略评估问题,在限制通信的条件下,借助于一个中央聚合器促进通讯来加快一个共同策略的评估。我们提出并分析了一种基于线性函数逼近的量化联邦时序差分学习算法 QFedTD,提供了 QFedTD 的有限样本收敛速度分析,并建 - Theta 序列作为资格跟踪:信用分配的生物学解决方案
使用海马体中的 theta 序列作为解决策略评估的方丈,可以在没有长期记忆的情况下进行授分,从而压缩行为并扩展短暂的神经记忆痕迹。
- 实验中的干扰校正:抖音案例研究
研究探讨了如何评估拥有干扰性的双边内容市场中的策略效果,发明了一种基于 Differences-in-Qs 技术的 Monte-Carlo 估计器,并在 Douyin 的实验平台上实现了它,取得了低偏差、低方差和 99% 的均方根误差降低。
- 一步分布式强化学习
本文提出了简化的单步分布式强化学习框架(OS-DistrRL),包括环境单步动态引入的随机性。我们证明了提出的框架可以在策略评估和控制方面提供统一的理论,为此我们提出了两种算法,并且进行了几乎肯定的收敛性分析。该方法在各种环境下与分类 Di - 多智能体 MDPs 中的无模型学习和最优策略设计,在概率智能体退化下
本研究旨在通过控制和采样预降落系统来计算后降落系统的政策,以找到最优策略,使用一种多智能体马尔可夫决策过程的模型,该模型可以经历智能体降落事件,控制器的目标是找到一个最优策略,最大化期望系统价值,并利用预降落系统生成的样本估计鲁棒性问题中的 - 目标网络如何稳定时序差分法
本研究提供了对深度强化学习中关于目标网络的理论解释,通过对拟合部分策略估计方法的形式化定义,解释了目标网络为何可以稳定 TD 学习,并阐述了它的优缺点和在极具挑战性的离线采样和非线性函数逼近设置中保证收敛的条件。
- 协作网络下的强化学习算法
该研究提出了一种基于梯度的算法,用于评估 MDP 中的策略,其跟踪 Projected Bellman Error 并且具有更快的收敛速度,实现于 DQN 和 DDPG 中的比较结果令人满意。
- ICLR使用广义策略更新构建迁移的良好行为基础
本文提出了一种简单有效的算法,通过构建独立的策略集合,可以在不需要大量数据的情况下,在各种复杂的强化学习任务中实现高水平的性能表现,同时解决了基于线性特征函数的多个任务的奖励子问题,并应用于终身强化学习设置中。
- 通过自适应加权利用来自上下文 Bandits 的数据进行离线策略评估
本文通过自适应加权控制方差,改进了重复鲁棒估计器,并且使用合成数据和公开基准测试提供了经验证据,相较于现有方案,我们的估计器具有更高的精确性和推论属性。
- 复杂动作空间中的学习与规划
本文提出了一个基于策略迭代的通用框架,可以在对一小部分行动的样本进行策略评估和改进的情况下对强化学习算法进行推理。其中,样本化 MuZero 是 MuZero 算法的一个扩展,可以在计划采样动作的情况下学习具有任意复杂行动空间的目标。作者用 - 使用线性函数逼近的无限时域离线强化学习:维度诅咒与算法
本文研究线性函数逼近下无穷时域离线强化学习的策略评估的样本复杂性以及分布漂移假设下的算法,提出了算法的样本复杂性的下界,以及样本复杂性的上界。
- 基于模型的随机价值梯度在连续强化学习中的应用
本文探讨了基于模型的强化学习与基于模型的无模型强化学习的综合应用方法,发现在高维控制任务中,基于模型的策略评估方法比传统方法更有效。
- MMMOReL:基于模型的离线强化学习
本研究提出了基于模型的离线强化学习算法 MOReL,具有模块化设计,可以用于模型生成、不确定性估计、规划等领域,实验结果表明,MOReL 能够达到或超过当前广泛研究的离线强化学习基准的最新结果。
- ICML基于数据同化的新型冠状病毒疫情流行病学建模方法
我们提出了一种流行病学模型,它可以通过变分数据同化实时地整合新数据,用于预测和评估全球隔离措施的社会和经济成本,并分析和讨论中国、美国和意大利的感染率,尤其是我们开发了一个适用于中国城市疫情相关变量的定制隔室 SIR 模型,称为 SITR