利用模型等价性求解交互动态影响图
提出的 IDEAL 框架通过原型实现了解释性、抵消了解释受到干扰的问题,并且解决了灾难性遗忘的问题,同时,该方法表明 ViT 架构缩小了微调和非微调模型之间的差距,可以在一小部分时间内实现无监督方法对特征空间的目标数据集的迁移学习。
Nov, 2023
我们提出了一种新颖的鲁棒模仿学习方法,通过发展逆动力学状态表示学习目标来对齐专家环境和学习环境,通过设计有效的奖励函数来度量行为数据和专家数据之间的相似性,从而在各种视觉扰动和视觉控制任务中实现近乎专家的性能,并显著优于当前最先进的视觉模仿学习方法和鲁棒模仿学习方法。
Oct, 2023
通过开发一个逆向决策建模的框架,我们在这篇论文中提出了一种表达顺序决策行为的参数化表示的方法,该方法不仅泛化了现有的模仿 / 奖励学习工作,而且还打开了更广泛的行为表征研究问题的研究领域。
Oct, 2023
通过曝光由动态因果图表示的知识,以增加神经代理的可解释性并提供更好的解释能力,我们设计了一种自解释的模仿学习框架,能够学习动态因果图以理解模仿学习的决策过程并保持高预测准确性。
Sep, 2023
本文介绍因果有向无环图作为公平性动态系统研究的一个统一框架,阐明了因果假设如何表达和操作,说明了计算干预数量的重要性,并说明了因果假设能够在已知环境动态的情况下进行模拟和在未知动态下进行干预估计,以实现对短期和长期结果的干预,无论是在群体还是个人的层面上。
Sep, 2019
提出了一种可解释学习有效动力学(iLED)框架,通过融合 Mori-Zwanzig 和 Koopman 算子理论,实现与循环神经网络模型相当准确度的建模和仿真,具备可解释性,适用于解决高维度多尺度系统。
Sep, 2023
本篇论文介绍了一种基于 agent assessment module 的 AI 系统执行高级指令序列并回答用户问题的方法,通过不同类别的查询来比较这种方法的计算要求和正确模型的学习所需的努力,并介绍了动态因果决策网络来捕捉 STRIPS-like 领域的因果结构。
Aug, 2021
介绍了一种动态感知的逆强化学习方法 ——IQ-Learn,它通过学习单个 Q 函数来避免对抗性训练,并可在标准测试中取得最好的结果,比现有方法在所需的环境交互数量和高维空间可扩展性方面表现优异。
Jun, 2021
本文介绍了一种基于梯度的反向强化学习框架,利用预训练的视觉动态模型从视觉人类演示中学习成本函数,并通过视觉模型预测控制来复制演示行为,以解决机器人操作中的未知动力学等问题。我们在两个基本的对象操作任务上评估了我们的框架。
Oct, 2020