利用模型等价性求解交互动态影响图

Jan, 2014

利用模型等价性求解交互动态影响图

Exploiting Model Equivalences for Solving Interactive Dynamic Influence Diagrams

Yifeng Zeng, Prashant Doshi

TL;DR本文围绕多智能体设计的交互式动态影响图模型进行讨论，提出了两种模型空间压缩方法：行为模式等效聚合和聚合行动等效模型，以提高问题求解效率。

Abstract

We focus on the problem of sequential decision making in partially observable environments shared with other agents of uncertain types having similar or conflicting objectives. This problem has been previously formalized by multiple frameworks one of which is the →

sequential decision making partially observable environments multiagent setting interactive dynamic influence diagram model space reduction

发现论文，激发创造

朝向解释性设计的深度学习算法

提出的 IDEAL 框架通过原型实现了解释性、抵消了解释受到干扰的问题，并且解决了灾难性遗忘的问题，同时，该方法表明 ViT 架构缩小了微调和非微调模型之间的差距，可以在一小部分时间内实现无监督方法对特征空间的目标数据集的迁移学习。

Nov, 2023

具有逆动力学表示的稳健视觉模仿学习

我们提出了一种新颖的鲁棒模仿学习方法，通过发展逆动力学状态表示学习目标来对齐专家环境和学习环境，通过设计有效的奖励函数来度量行为数据和专家数据之间的相似性，从而在各种视觉扰动和视觉控制任务中实现近乎专家的性能，并显著优于当前最先进的视觉模仿学习方法和鲁棒模仿学习方法。

Oct, 2023

反向决策建模：学习行为的可解释表示

通过开发一个逆向决策建模的框架，我们在这篇论文中提出了一种表达顺序决策行为的参数化表示的方法，该方法不仅泛化了现有的模仿 / 奖励学习工作，而且还打开了更广泛的行为表征研究问题的研究领域。

Oct, 2023

可解释的模仿学习的动态有向无环图发现

通过曝光由动态因果图表示的知识，以增加神经代理的可解释性并提供更好的解释能力，我们设计了一种自解释的模仿学习框架，能够学习动态因果图以理解模仿学习的决策过程并保持高预测准确性。

Sep, 2023

层级混合建模：柔性工具使用

基于活跃推理的混合模型实现动态规划和同步行为，将层次化地表示其他代理和对象，扩展关于控制作为推理的先前工作并提出深度强化学习的替代方向。

Feb, 2024

动态系统中的公平因果模型

本文介绍因果有向无环图作为公平性动态系统研究的一个统一框架，阐明了因果假设如何表达和操作，说明了计算干预数量的重要性，并说明了因果假设能够在已知环境动态的情况下进行模拟和在未知动态下进行干预估计，以实现对短期和长期结果的干预，无论是在群体还是个人的层面上。

Sep, 2019

可解释学习多尺度系统的有效动力学

提出了一种可解释学习有效动力学（iLED）框架，通过融合 Mori-Zwanzig 和 Koopman 算子理论，实现与循环神经网络模型相当准确度的建模和仿真，具备可解释性，适用于解决高维度多尺度系统。

Sep, 2023

使用干预学习自主代理端因果模型

本篇论文介绍了一种基于 agent assessment module 的 AI 系统执行高级指令序列并回答用户问题的方法，通过不同类别的查询来比较这种方法的计算要求和正确模型的学习所需的努力，并介绍了动态因果决策网络来捕捉 STRIPS-like 领域的因果结构。

Aug, 2021

IQ-Learn: 逆软 Q 学习用于模仿

介绍了一种动态感知的逆强化学习方法 ——IQ-Learn，它通过学习单个 Q 函数来避免对抗性训练，并可在标准测试中取得最好的结果，比现有方法在所需的环境交互数量和高维空间可扩展性方面表现优异。

Jun, 2021

基于模型的视觉演示逆强化学习

本文介绍了一种基于梯度的反向强化学习框架，利用预训练的视觉动态模型从视觉人类演示中学习成本函数，并通过视觉模型预测控制来复制演示行为，以解决机器人操作中的未知动力学等问题。我们在两个基本的对象操作任务上评估了我们的框架。

Oct, 2020