- ICML学习预设的 ReLU 网络
研究使用观测数据从一组离散处理选项中学习最优策略的问题。我们提出了一种分段线性神经网络模型,可以平衡强的规定性能和可解释性,称为规定性 ReLU 网络或 P-ReLU。通过实验,我们验证了 P-ReLU 相对于竞争基准的更高规定准确性。
- 如何在强化学习中高效地查询人类反馈?
研究提出了一种有效的轨迹对采样方法,用于探索隐藏的奖励函数,以便在收集人类反馈之前准确地学习,比现有文献更少地需要人类反馈量来学习基于偏好模型的最优策略,可以考虑线性和低秩 MDP
- 具有约束恢复的逆强化学习
本文提出了基于最大熵原理的逆强化学习算法,用于推断约束非凸最优化问题的奖励函数和约束条件,并采用指数梯度下降算法解决约束问题。通过在网格世界环境中的实验验证了该算法的效力。
- 最大因果熵限制的强化学习
提出一种基于最大因果熵的方法来学习环境约束下的最优策略,该方法利用在约束下运作的代理的演示进行学习,证明了其在表格设置中的收敛性并提供了一个可扩展到复杂环境的近似值。通过评估奖励和约束违规数,评估学习策略的有效性,并基于其在其他代理中的可转 - 基于优先级偏好的概率化时态逻辑规划
本文利用标记的马尔可夫决策过程研究在有多个时间目标的用户偏好下的概率环境中的时间规划。提出了一种新的优先定性选择线性时间逻辑的规范语言,通过对有限的轨迹进行优先排序的连接和有序分离,使得可以简洁地指定每个时间任务的相应优先级。利用该计算模型 - 突发模型变化下的强化学习
提出了一种基于模型无关算法的强化学习问题解决方案,该算法通过与环境互动学习最优策略,并利用最快的变化检测算法来检测模型变化,从而获得长期折现奖励。
- 解决预算约束下多组件 POMDP 的福利最大化算法
本文提出了一种算法来寻找多组分预算约束下的最优策略,它利用了 budgeted-POMDP 模型,算法通过在各个组分 POMDP 之间找到最优预算分布来解决该问题,并将其应用于不同退化动态、检查和维护成本的实际市政基础设施的维护和检查决策中 - AAAI通过奖励塑造在基于情节的强化学习中利用多重抽象
研究提出了一种基于奖励设计的强化学习算法,通过使用层次结构的抽象模型,将抽象层级中的解决方案用于指导更复杂领域的学习,从而提高了学习效率且具有实际应用价值。
- 风险厌恶强化学习的分布式方法
我们提出了一种分布式方法,用于在风险规避马尔可夫决策过程中学习最优策略,该方法使用嵌套 Kusuoka 类型条件风险映射构造的动态风险度量来评估策略表现,利用了对应动态规划原理中嵌入的某些结构,使用深度神经网络逼近值函数的条件分布,避免了探 - 间歇可观察的马尔科夫决策过程
本文研究了在不稳定状态信息下的 MDP,提出了一种基于树组织结构和值迭代算法的有限状态近似方法来寻找最优策略。
- 多目标强化学习中随机环境和局部决策问题的解决
本研究旨在探讨多目标强化学习算法在具有随机状态转换的环境中学习最优策略的影响因素,并通过实证评估比较了不同的算法变种。研究结果表明设计良好的奖励信号可以改善性能,全局统计的 MORL Q-learning 算法也显示出比基准算法更好的性能, - 基于逻辑约束强化学习的认证策略合成
LCRL 使用 Limit Deterministic Buchi Automata(LDBA)来表达给定的线性时间规范,并利用 LDBA 结构来实时塑造强化学习算法的奖励函数。在适当假设下,理论保证强化学习算法收敛到最优策略,最大化满足概 - 组合强化学习的范畴语义
本文利用分类学的方法,构建了一个强化学习的可组合性框架,研究了分解问题为子任务并在这些任务上运用学习策略的方法。文章针对贝尔曼最优方程而研究在组合模型下的可行性,探讨使用一些纤维积和推出操作使得组合现象更明显,并且通过引入的 zig-zag - 基于正则化的鲁棒马尔可夫决策过程高效策略迭代
本文通过探究 s-rectangular Lp 鲁棒 MDP 和策略正则化 MDP 的等价性,发现在 Optimal Bellman 算子中阈值策略在 top k 动作中起着重要作用,并引入了新的概念如优化和阈值。
- 具有参与约束的规划的高效算法
本文提出了针对参与限制问题的多项式时间精确算法,以计算并承诺最大化期望效用的策略,同时使代理人始终愿意参与,在有限和无限时间的情况下都可扩展应用。
- ICLR基于概率模型的策略搜索学习鲁棒控制器
通过世界模型估计真实环境以逼近最优策略的基于模型的强化学习方法,通过在高斯过程动态模型中强制施加似然噪声的下限来正则化策略更新,从而得到更健壮的控制器。
- 哪些互信息表示学习目标足以支持控制?
本文研究了互信息最大化在强化学习中学习数据表示的应用,发现在理论上两种常见的互信息目标不足以提供充分的状态表示来学习最优策略, 并在模拟游戏环境中通过实证实验验证了这一结果。
- 自适应数据采集的政策学习
本文探讨在自适应数据收集环境下如何使用基于加权的估计算法来学习最优策略,提出了基于广义增强的倾向性加权(AIPW)估计器的算法,并建立了有限样本遗憾上限,证明最优权重方案下,算法即使在减少探索数据的情况下也能实现最小化的遗憾保证。
- 状态增强约束强化学习:克服通过奖励学习的限制
通过在状态中增加 Lagrange 乘子并将原始 - 对偶方法重新解释为推动乘子演变的动态部分,本文提出了一种系统的状态增强过程,可确保解决具有约束的增强学习问题。
- 带有 Wasserstein 约束的强化学习
本文提出了一种使用 Wasserstein 距离测量参考转换核扰动的 Robust Reinforcement Learning 算法 -WRAAC,该算法解决了当前学习算法中对于系统动态的鲁棒性不够精确的问题,并且在 Cart-Pole