deep rl | BriefGPT - AI 论文速递

关键词deep rl

搜索结果 - 36

基于近似采样的强化学习更高效的随机探索
这篇论文提出了一个算法框架，结合了不同的近似抽样方法和最近提出的 Feel-Good Thompson Sampling (FGTS) 方法，在线性 MDPs 中应用时，我们的遗憾分析得到了关于维度的最好依赖关系，超过了现有的随机算法。在一
PDF18 days ago
没有代表，没有信任：连接 PPO 中的代表、崩溃和信任问题
通过对 Atari 和 MuJoCo 环境中的 PPO 代理的实证研究，揭示了 PPO 代理受特征秩降低和可塑性丧失的影响，这一现象加剧了强非稳态性，最终导致演员的性能崩溃，无论评论家的性能如何。我们建立了表示崩溃、性能崩溃和 PPO 中的
PDF2 months ago
关于损失函数和误差累积在基于模型的强化学习中的注释
模型驱动的强化学习在深度强化学习领域的理论理解上有一些困惑。本研究讨论的主要问题是如何解决模型驱动强化学习在错误叠加上的不良经验与其优越的理论性质之间的矛盾，以及经验上流行算法的局限性。通过构造具体反例，证明了 “MuZero loss”
PDF3 months ago
PDiT：交错融合感知与决策的 Transformer 用于深度强化学习
该研究提出了一种深度强化学习网络，Perception and Decision-making Interleaving Transformer (PDiT)，它将两个 Transformer 结合在一起，一个负责环境感知，一个负责决策，并
PDF6 months ago
一项关于自适应系统可解释的在线强化学习的用户研究
在线强化学习和深度强化学习在自适应系统和可解释性 RL 技术方面的实际应用以及用户研究。
PDFa year ago
AdCraft：搜索引擎营销优化的先进强化学习基准环境
介绍了一个模拟竞价和预算动态的搜索引擎营销（SEM）环境，旨在评估和提高深度强化学习算法适用于 SEM 竞价和预算管理方面的鲁棒性，通过一系列实验，在该环境中展示了稀疏性和非稳态性对模型收敛和性能的挑战。
PDFa year ago
基于注意力的深度强化学习的开放式无线接入网络切片管理
本文介绍了一种基于 O-RAN 模块和分布式代理合作，利用注意力机制的深度强化学习（ADRL）技术，以实现更好的网络性能，通过有效信息提取和实现泛化，提出了在分布式代理之间引入值 - 注意力网络来实现可靠和最优决策。模拟结果证明，与其他深度
PDFa year ago
可证明且实用：通过 Langevin Monte Carlo 实现强化学习中的高效探索
本文提出了一种基于 Thompson 采样的可扩展和有效的强化学习策略，通过使用 Langevin Monte Carlo 从其后验分布中直接抽取 Q 函数，该方法只需进行嘈杂的梯度下降更新即可学习 Q 函数的精确后验分布，在深度 RL 中
PDFa year ago
使用双时间尺度策略梯度算法的基于分位数的深度强化学习
在强化学习中考虑累积奖励分位数优化的问题，使用神经网络参数化策略，提出了 Quantile-Based Policy Optimization（QPO）和 Quantile-Based Proximal Policy Optimizatio
PDFa year ago
解锁表征在长期基于新奇性探索中的力量
本文中介绍了 RECODE （Robust Exploration via Clustering-based Online Density Estimation）方法，该方法是一种基于相似性的聚类计数探索算法，能够有效地跟踪状态出现的次数，
PDFa year ago
神经约束满足：层次抽象在物体重新排列中的组合推广
通过构建一个因式分解转换图，将通过像素推断出的实体代表聚类，进而实现对嵌入式代理的物体重新排列的控制，解决到目前为止难以解决的大量实体配置问题。
PDFa year ago
因果自我对话的可解释性
通过训练 AI 系统构建自身的因果模型，我们提出 Causal Self-Talk 方法，作用于 Deep RL agents，并在模拟 3D 环境中实现，使得这些 agents 能够生成准确的和有意义的行为解释，从而提供了构建语义控制接口
PDF2 years ago
自适应系统在线强化学习决策解释
提出了一种结合两种可解释强化学习技术的方法，名为 XRL-DINE，可用于解释具有设计时间不确定性的自适应系统中的 Deep RL 决策。
PDF2 years ago
政策搅动现象
该研究探讨了政策波动现象在基于价值的强化学习中的出现，并证实了它是深度学习相关的形式探索中一种有益但被忽视的表现。研究还进一步阐述了 epsilon - 贪心探索在该决策探究中扮演的较小角色。
PDF2 years ago
部分可观测情况下的屏蔽防护强化学习
研究了强化学习中的安全探索问题，提出了一种叫做 shield 的方法来确保代理人只进行安全的操作，并深度结合使用 state-of-the-art deep RL 来提高 RL 代理人的性能，实验证明这种方法可以提高收敛速度和最终表现，并可
PDF2 years ago
基于分位数的强化学习策略优化
本文提出了一种名为 Quantile-Based Policy Optimization（QPO）的 RL 算法，与原有算法相比在 quantile 目标的情况下表现更好，算法使用神经网络对策略进行参数化，同时使用两个相互耦合的迭代来估计量
PDF2 years ago
ICMLPID Langrangian 方法实现的强化学习响应性安全性
本研究解决拉格朗日算法在安全强化学习中产生超调和振荡的问题，提出了一种新的拉格朗日乘数更新方法，并将其应用于深度强化学习，成功在 Safety Gym 等安全基准中创造了新的最佳表现。
PDF4 years ago
MM拥挤频谱环境下雷达检测和跟踪的深度强化学习控制
本文采用深度强化学习（Deep RL）中的非线性价值函数逼近来实现智能脉冲雷达和相邻通信系统的动态非合作共存，并通过学习调整频率和中心频率，最大化雷达探测性能，保持对频带的充分利用。我们通过实验证明，与策略迭代或感知和避免（SAA）方法相比
PDF4 years ago
通过从文本的迁移学习进行深度强化学习的人类指令遵循
通过使用预先训练的文本语言模型（BERT），我们提出了一种简单的方法来训练使用深度 RL 的指令跟踪代理，以适应自然人指令，从而在人类给出自然指令的情况下，实现从合成模板命令到指令的零 - shot 传输。
PDF4 years ago
机器人强化学习的平滑探索
采用状态相关的探索方法（SDE）来代替当前深度强化学习算法中常用的无结构步骤探索，提出了一种新的通用状态相关探索方法 (gSDE)，通过定期重新采样噪音来解决真实机器人上运动抖动的问题，在仿真环境和三个不同的真实机器人上进行了评估并提高了表
PDF4 years ago