rl algorithm | BriefGPT - AI 论文速递

关键词rl algorithm

搜索结果 - 9

ICMLDISCRET：合成用于治疗效果估计的准确解释
为解决诸如黑箱模型无法提供解释、后期解释器缺乏忠实性保证以及自解释模型极大损害准确性等问题，我们提出了 DISCRET，一个自解释的个体治疗效应估计框架，通过从大搜索空间中高效地合成忠实的基于规则的解释来有效地解决该问题，并在涉及表格、图像
PDFa month ago
连续控制增强学习：分布分布式 DrQ 算法
Distributed Distributional DrQ 是一个无模型离线 RL 算法，用于连续控制任务，基于代理的状态和观测，是一个带有数据增强和评论家值函数分布性观点的演员 - 评论家方法。通过使用分布分布式 DDPG 作为基础，该
PDF3 months ago
Ω 正则奖励机
通过将奖励机制与 ω- 正则语言相结合，本文介绍了 ω- 正则奖励机器，用于强化学习中的非马尔可夫奖励的表达，提出了一个模型无关的 RL 算法来计算针对 ω- 正则奖励机器的 epsilon - 最优策略，并通过实验证明了算法的有效性。
PDFa year ago
强化学习在神经纤维束追踪中的关键因素
本文通过训练 7,400 个模型总计接近 41,000 小时的 GPU 时间，全面探究了深度强化学习在白质束重建中的应用方式，比较了 RL 算法、种子策略、输入信号和奖励函数等部件的优缺点，提出了一系列使用建议，并开放代码库、训练模型和数据
PDFa year ago
S-REINFORCE: 一种神经符号化策略梯度方法，用于可解释的强化学习
该研究提出一种新的强化学习算法 S-REINFORCE，旨在为动态决策任务产生可解释的策略，该算法利用神经网络（NN）和符号回归器（SR）两种类型的函数逼近器来生成数值和符号策略，分别捕捉 NN 组件学到的生成可能动作的数值概率分布以及 S
PDFa year ago
Wasserstein 信仰者：通过可靠潜在空间模型学习部分可观测环境的信仰更新
本文提出了 Wasserstein-Belief-Updater (WBU)，一种强化学习算法，它学习 POMDP 的潜在模型和信仰更新的近似，并具有理论保证，确保输出的信仰可以学习最优值函数。
PDFa year ago
离线强化学习中的模型选择的 Oracle 不等式
本文研究了离线强化学习（offline reinforcement learning）中，如何进行模型选择，并针对该问题设计了一种算法 ModBE，该算法可实现最优性保证、思路简单、计算高效，适用于在候选模型类中进行选择，并且以解决一系列平
PDF2 years ago
随机斯塔克伯格安全博弈的无模型强化学习
本文提出了一种基于预期 Sarsa 的强化学习算法，使用粒子筛选器估计共同代理的信念更新，并以安全游戏示例说明了所学习的策略。
PDF4 years ago
强化学习中内在动机调查
本文介绍了内在动机在深度强化学习中的作用，对不同内在动机的种类进行了归类并详细说明了各自的优点和局限性，并通过建立深度强化学习和内在动机模块相结合的框架，提出了建立更加完整的发展体系来应对大部分任务的方案。
PDF5 years ago