可观测环境下的交互式模型扩展

May, 2023

Interactive Model Expansion in an Observable Environment

Pierre Carbonnelle, Joost Vennekens, Bart Bogaerts, Marc Denecker

TL;DR研究如何通过验证假设，确定正确的解决方案并提出交互式系统，利用高效的方法增加知情信息来修复环境问题。

Abstract

Many practical problems can be understood as the search for a state of affairs that extends a fixed partial state of affairs, the \emph{environment}, while satisfying certain conditions that are formally specified. Such problems are found in, e.g., engineering, law or economics. We stu

发现论文，激发创造

部分观测环境下模型参数的学徒学习

通过推断专家演示背后的行动选择过程，学习具有一定不确定性的部分可观测环境中的任务，可以更准确地估计POMDP参数并从短暂演示中获得更好的策略，与仅从环境反应学习的方法相比更为有效。

Jun, 2012

学习部分可观察的确定性动作模型

研究了如何在动态部分可观测领域中识别确定性动作效果和先决条件，并提出了可行的算法来解决这个问题。

Jan, 2014

利用模型等价性求解交互动态影响图

本文围绕多智能体设计的交互式动态影响图模型进行讨论，提出了两种模型空间压缩方法：行为模式等效聚合和聚合行动等效模型，以提高问题求解效率。

Jan, 2014

近似因果抽象

本文从科学模型、抽象、因果模型、近似抽象和概率因果模型等方面出发，对因果模型的抽象方法进行了详细分析，平衡了低层和高层因果模型之间出现的差异，并在此基础上进行了扩展。

Jun, 2019

环境探测交互策略

通过引入EPI-policy，该研究提出了一种新的强化学习策略，可在新环境中提取环境特定信息，并将其作为附加输入提高任务特定策略的性能，并基于转移预测能力的奖励函数进行学习。在新环境中，这种EPI策略比通常使用的策略泛化方法要有效得多。

Jul, 2019

由学习的环境模型指导的部分可观测性下的强化学习

本文提出了一种基于Q-learning和IoAlergia的强化学习方法，用于处理部分可观察环境下的控制系统策略生成，将RL与学习环境模型相结合以提供抽象的环境状态获取。实验结果表明，该方法在性能表现上优于六种当下的深度RL技术。

Jun, 2022

利用人工智能改善在大型部分可观测环境中的人类规划

该研究开发了第一个元推理算法来发现资源合理策略，将其应用于人类在部分可观察环境下的规划中，并通过智能教师教授学习所得的策略，以提高人类在复杂、部分可观察的序列决策问题中的规划能力。

Feb, 2023

一种用于描述一般环境中新颖环境变换的框架

为了应对世界千变万化，智能代理的关键在于对环境的多样性进行响应。本研究提出了环境转化（可分为R-transformations和T-transformations两类）的概念和形式化理论框架，引入了新的描述环境和变形的语言T-SAL，提供了一套涵盖8类情境变化的测试，以期为新颖和偶发情境提供明确的分类，为代理的鲁棒性提供公正的评估。

May, 2023

在部分可观察环境中，结合元政策和蒙特卡罗规划实现可扩展的基于类型的推理

提出了一种基于类型推理的部分可观测元蒙特卡罗规划方法，在多智能体系统中实现对其他智能体的有效交互和长期规划，相比现有方法计算更快且能够得到更优解。

Jun, 2023

复杂环境中功能实际原因的自动发现

通过使用功能实际因果(FAC)和联合优化实际因果推断(JACI)算法，本研究在复杂连续数值环境中展示了FAC与实际因果文献中已知结果的一致性，并且JACI在识别实际原因的准确性上明显优于现有的启发式方法。

Apr, 2024