- 如何在 Q 学习中对连续状态 - 动作空间进行离散化:一种符号控制方法
基于符号模型的新型 Q 学习方法通过分析连续状态 - 动作空间的挑战,并利用符号模型表示行为关系,提出了一种解决方案,该方案能够获得编码最优策略的两个 Q 表,并探讨了空间抽象参数与 Q 值损失之间的相关性,并通过两个案例研究展示了该方法的 - 程序化强化学习的理论基础
强化学习是学习未知随机环境中最佳策略的算法,本文的目标是通过理论研究,首次回答关于编程式强化学习的好策略类别、最佳策略的规模以及如何学习它们等问题。
- 基于潜力的奖励塑造对内在动机的影响
最近出现了大量的内在动机(IM)奖励塑造方法来学习复杂和稀疏奖励的环境。在这些方法中,往往会无意中改变环境中的最优策略集,导致次优行为。我们提出了一个扩展的潜在基于奖励塑造(PBRS)方法,我们证明它在比之前更一般的函数集合下保留了最优策略 - 递归约束偏观测马尔可夫决策过程
通过引入新的限制性、历史依赖成本约束的递归约束部分可观察马尔可夫决策问题 (RC-POMDP),本文解决了常规约束部分可观察马尔可夫决策问题 (C-POMDP) 中存在的问题,并提出了一个基于点的动态规划算法来寻找 RC-POMDP 的最优 - 区块链资源的最优动态费用
通过开发一般且实用的框架,我们解决了多个区块链资源的动态费用机制的最优设计问题。我们的框架允许计算出能在调整资源价格以处理持续需求变化和在观察到的区块需求中具有本地噪声鲁棒性之间进行最优权衡的策略。在存在多个资源的一般情况下,我们的最优策略 - 通过互动提问的逆强化学习引发风险厌恶
通过互动问答的方式,本文提出了一个新的框架来识别代理人的风险厌恶。我们在一期和无限期两种情景下进行研究。在一期情景中,我们假设代理人的风险厌恶由状态的成本函数和失真风险度量来描述。在无限期情景中,我们采用一项额外的组成部分 —— 折扣因子 - 不公平的公共设施及改善的首要步骤
该研究提出了一种新的公平性框架,不再局限于政策或预测器的选择,而是考虑政策正在优化的效用,定义了信息价值公平性,并建议不使用不满足此标准的效用。研究描述了如何修改效用以满足这种公平标准,并讨论了这可能对相应最优政策产生的影响。
- OmniSafe:用于加速安全强化学习研究的基础设施
本篇论文给出一个基础性安全强化学习框架,拥有不同领域跨越的一系列算法和重要的安全元素,以便更有效地研究 AI 安全和 SafeRL 算法实现。
- 基于信任的人 - 智能体临时团队合作行为自适应
本文提出了一个框架,该框架将信任纳入人工智能团队合作的场景中,在这个场景下,一个智能体必须与人类合作完成任务。在任务过程中,智能体需要通过互动和观察来推断人类对其的信任程度,并调整自己的行为以最大化团队的表现。为了实现这一目标,我们建议从人 - CAMEO: 基於好奇心擴增的都市探索最優策略
本文介绍了一种基于好奇心的 Metropolis 算法 (CAMEO),用于采样解决环境控制问题的多个最优策略,使其展现出不同的行为和风险属性,为实用和可解释性应用提供基础,也为学习多个最优策略的分布打下了第一步基础。
- 简化的马尔可夫决策过程:超出时间范围的视角
本文通过分析满足特定漂移条件的随机最短路径问题的子类,引入降低可达性的概念,提出了一种构建并求解随机最短路径问题和马尔可夫决策过程的多项式时间算法,经实验验证效果良好。
- 使用 GNNs 学习通用策略而不需要监督
该研究利用图神经网络 (GNNs) 解决传统规划域的泛化策略学习问题。结果表明,这种方法可以获得最优性和广义性之间的平衡,从而实现泛化性能更好的规划。
- 奖励机器:在强化学习中利用奖励函数结构
该论文介绍了如何使用奖励机制来支持强化学习中的学习过程,并探讨了如何通过奖励机制结构的利用,来提高样本利用率和最终策略的质量。
- 强化学习布尔任务代数
本文提出了一种以布尔代数为基础的逻辑任务组合形式,通过学习目标导向的价值函数和约束任务的转换动态,以指定的方式组合这些价值函数后,可以立即恢复布尔代数下所有表达式的最优策略,并在高维度视频游戏环境和其他领域中进行验证。
- 最优政策往往追求权力
在强化学习中,我们证明了某些环境的对称性足以使最优策略倾向于在环境中寻求更多的控制力,以达到最大化平均奖励的目的。
- 解决大规模马尔可夫决策过程的更快鞍点优化
本文研究在平均回报马尔科夫决策过程中计算最优策略的问题,使用鞍点优化方法直接构建一个可行的线性规划问题,但变量数目与状态数成线性关系,因此提出了线性松弛版本。论文从特征化的角度提出了一些潜在问题,设计了一个算法,可以获得快速的收敛率,不受状 - 多目标强化学习和策略适应的广义算法
提出了一种基于广义 Bellman 方程的多目标强化学习算法,该算法可通过极少量的样本快速适应新任务并生成最优策略。
- ICML探索感知强化学习再探
研究在强化学习中的探索和利用的权衡,通过解决探索感知标准来获得最优政策,结果是在表格和深度强化学习算法中应用简单变化并在离散和连续动作空间中,相对于非探索感知对应物表现出更好的性能。
- 放弃学习
本文探讨了一种适用于平台学习个性化策略的一般性门槛模型,并描述了最佳个性化算法的显著特征以及平台获得的反馈如何影响结果,同时研究了平台如何通过与人群互动来高效地学习用户间的异质性。
- 从观测数据中学习最优策略
本文通过控制实验方法和观察性数据建立了最优决策的理论模型,并利用域对抗神经网络的方法进行决策选择,从而在处理缺失反事实和选择偏差方面取得了较好的效果。