我们研究了一种强化学习的理论,学习者只在每次学习完成后收到一次二元反馈。我们提供了一种具有统计和计算效率的算法,可以在这种更具挑战性的情况下实现学习。该算法可以在未知参数模型生成的轨迹标签上运行,并达到亚线性遗憾。
May, 2021
通过展示强化学习代理在更广泛的轨迹分布中的行为,我们的方法可以传达代理在分布转移下的表现,从而有助于代理的有效验证。在用户研究中,我们展示了我们的方法可以使用户在代理验证任务中的得分比基准方法高。
Jan, 2022
本文系统地概述了现有的可解释强化学习方法,提出了一个新的统一分类方法,并建立了三个支柱来减少解释生成和接收方之间的差距并实现解释的诚实和真实性。
Mar, 2022
通过使用形式化的马尔科夫决策过程抽象和转换,以自动产生解释的方式,解释强化学习智能体的新兴行为。
Sep, 2022
通过开发新的算法流程,利用多种数据来源进行线下强化学习,仅使用10%的数据可以达到与完全有标签的数据集相似的性能,同时进行大规模控制实验,以确定半监督学习应用于RL的最佳实践。
Oct, 2022
本研究提出了一种基于训练中遇到的轨迹来解释训练好的RL代理决策的方法,并通过在离线环境中进行网格世界、视频游戏和连续控制等不同领域的实验,展示了这种方法在可解释性和可扩展性方面的有效性。
May, 2023
标准离线强化学习算法在观测历史的条件下存在样本复杂度高的问题,然而通过引入双模拟损失函数,离线强化学习可以显式地优化该损失函数,从而在性能上得到改善。
Oct, 2023
解释性人工智能(XAI)可以帮助研究强化学习(RL)模型如何工作的RL从业者,但对于没有RL专业知识的用户(非RL专家)的XAI研究不够充分。我们认为,描述RL模型主要状态之间转换的抽象轨迹对于非RL专家构建对代理模型的心理模型很有用。我们的早期结果表明,通过利用抽象轨迹的可视化,没有RL专业知识的用户能够推断RL的行为模式。
Feb, 2024
本研究提出了Trajdeleter和Trajauditor,分别为离线强化学习代理实现轨迹遗忘和评估提供了实用的方法。通过 extensive experiments,结果表明Trajdeleter仅需约1.5%所需时间进行重新训练,有效地删除了目标轨迹的94.8%,且在实际环境交互后仍表现良好。
Apr, 2024
本研究解决了强化学习(RL)中深度强化学习(DRL)代理的决策难以解释的问题。提出了一种首创的方法,通过定义理想半事实解释的五个特性,并引入SGRL-Rewind和SGRL-Advance算法,生成RL代理的半事实解释。实验表明,这些算法生成的半事实更易于实现、能更好地代表代理策略,并且表现出更高的多样性,能够提升用户对代理行为的理解和信任。
Sep, 2024