泛化规划环境重构

AAAIFeb, 2024

Generalising Planning Environment Redesign

Alberto Pozanco, Ramon Fraga Pereira, Daniel Borrajo

TL;DR环境设计中，通过对环境进行改变来影响其他个体的决策。本论文提出了一种通用环境重设计方法，不依赖具体指标以及不同目标，通过利用最新的高质量规划研究，有效地根据任何感兴趣个体的目标和指标优化规划环境。实验证明，在使用熟知的指标（如目标识别）以及解决优化了不同指标的环境重设计任务时，本方法表现优于现有方法。

Abstract

In environment design, one interested party seeks to affect another agent's decisions by applying changes to the environment. Most research on planning environment (re)design assumes the interested party's objective

environment design planning environment redesign objective metric general approach

发现论文，激发创造

基于优先级的多智能体导航的受限环境优化

本文考虑将环境视为一个系统级优化问题的决策变量，通过提出未排序和排序环境优化问题，分别考虑了代理人优先级与偏见。该文利用强化学习和原始对偶机制开发出了无模型解决方案，以处理约束条件，进一步阐释了环境与绩效之间的关系。数值结果证明了该方法的有效性和适应性。

May, 2023

无监督环境设计中有效的多样性

利用强化学习的自适应课程和基于新颖距离测量的方法训练代理来适应不同的环境设计，与其他无监督环境设计方法相比，证明了本方法在文献中使用的三个不同基准问题的多样性和有效性。

Jan, 2023

基于启发式搜索的通用规划：利用对象指针的新规划搜索空间

本研究提出了一种新的基于指针的 GP 解空间、评估和启发式函数，以及 BFGP 算法，为了实现 GP 的启发式搜索，避免了提前 grounding state 或 action 所带来的问题，能有效处理大型状态变量集合和大量数值域的情况。

Jan, 2023

发现最小的强化学习环境

通过元学习神经网络马尔可夫决策过程，我们发现专门的训练环境对于训练强化学习智能体具有潜在的速度提升能力，并且发现上下文为基的赌博机能够实现良好的评估环境转移，从而加速下游应用。

Jun, 2024

自适应系统规划景观分析

本文旨在研究自适应系统中的规划领域及其分析方法，进而为未来自适应系统的规划器设计提供指导。通过对四个真实的自适应系统和 14 种不同环境下的规划结果进行研究，发现规划地形通常对规划器提供强烈的指导，但其崎岖不平和多样性可能是主要障碍。同时，本文讨论了由此对未来自适应系统规划器设计的潜在影响

Mar, 2022

提高在现实世界数据上的图形外域泛化能力

本文通过分析研究了环境 - 标签依赖性和可变的图解释不变性的定理，在此基础上提出了一种基于变分推断的新方法 DEROG，用于处理真实世界数据中超出分布的图问题，并通过实验验证其优越性。

Jul, 2024

环境因素对位于特定环境中的代理体系统性与概括性的影响

研究神经网络的泛化能力，通过 3D Unity 模拟环境测试网络在未见过的情况下的表现并发现了训练、环境的细节影响泛化能力，建议在网络训练时按照孩子多感官、多模态的观察方式输入信息。

Oct, 2019

一种用于描述一般环境中新颖环境变换的框架

为了应对世界千变万化，智能代理的关键在于对环境的多样性进行响应。本研究提出了环境转化（可分为 R-transformations 和 T-transformations 两类）的概念和形式化理论框架，引入了新的描述环境和变形的语言 T-SAL，提供了一套涵盖 8 类情境变化的测试，以期为新颖和偶发情境提供明确的分类，为代理的鲁棒性提供公正的评估。

May, 2023

逆强化学习环境设计

通过适应性设计专家演示环境，改善学习效率和鲁棒性，解决基于专家演示学习和环境动力学变化下的奖励函数学习挑战。

Oct, 2022

通过环境增强实现的不变图学习能够学到不变性吗？

通过环境增强不可能学习到图中的不变表示，所以提出了一种基于可行假设的不变图学习框架 GALA，利用助手模型来识别不变子图从而成功实现 OOD 泛化。

Oct, 2023