可观测环境下的交互式模型扩展
通过推断专家演示背后的行动选择过程,学习具有一定不确定性的部分可观测环境中的任务,可以更准确地估计POMDP参数并从短暂演示中获得更好的策略,与仅从环境反应学习的方法相比更为有效。
Jun, 2012
通过引入EPI-policy,该研究提出了一种新的强化学习策略,可在新环境中提取环境特定信息,并将其作为附加输入提高任务特定策略的性能,并基于转移预测能力的奖励函数进行学习。在新环境中,这种EPI策略比通常使用的策略泛化方法要有效得多。
Jul, 2019
本文提出了一种基于Q-learning和IoAlergia的强化学习方法,用于处理部分可观察环境下的控制系统策略生成,将RL与学习环境模型相结合以提供抽象的环境状态获取。实验结果表明,该方法在性能表现上优于六种当下的深度RL技术。
Jun, 2022
该研究开发了第一个元推理算法来发现资源合理策略,将其应用于人类在部分可观察环境下的规划中,并通过智能教师教授学习所得的策略,以提高人类在复杂、部分可观察的序列决策问题中的规划能力。
Feb, 2023
为了应对世界千变万化,智能代理的关键在于对环境的多样性进行响应。本研究提出了环境转化(可分为R-transformations和T-transformations两类)的概念和形式化理论框架,引入了新的描述环境和变形的语言T-SAL,提供了一套涵盖8类情境变化的测试,以期为新颖和偶发情境提供明确的分类,为代理的鲁棒性提供公正的评估。
May, 2023
提出了一种基于类型推理的部分可观测元蒙特卡罗规划方法,在多智能体系统中实现对其他智能体的有效交互和长期规划,相比现有方法计算更快且能够得到更优解。
Jun, 2023
通过使用功能实际因果(FAC)和联合优化实际因果推断(JACI)算法,本研究在复杂连续数值环境中展示了FAC与实际因果文献中已知结果的一致性,并且JACI在识别实际原因的准确性上明显优于现有的启发式方法。
Apr, 2024