在线巴累托最优决策中的主动推理

Jun, 2024

在线巴累托最优决策中的主动推理

Online Pareto-Optimal Decision-Making for Complex Tasks using Active Inference

Peter Amorese, Shohei Wakayama, Nisar Ahmed, Morteza Lahijanian

TL;DR本研究旨在引入一种新颖的多目标强化学习框架，确保任务的安全执行，优化目标之间的权衡，并符合用户的偏好。该框架包含两个主要层次：多目标任务规划器和高层选择器。通过案例研究和基准测试，证明了我们的框架在操作和移动机器人方面优于其他方法，并且能够学习多个最优权衡解决方案，符合用户的偏好，并允许用户调整优化权衡的平衡。

Abstract

When a robot autonomously performs a complex task, it frequently must balance competing objectives while maintaining safety. This becomes more difficult in uncertain environments with stochastic outcomes. Enhancing transparency in the robot's behavior and aligning with user preferences

multi-objective reinforcement learning task execution trade-offs user preferences parameterized learning model

发现论文，激发创造

多个时间任务下的最优成本偏好权衡规划

本文提出一种新颖的优先级概念，可表达对每个任务及其关系的偏好，并通过对 A * 搜索的扩展来生成符合用户偏好和资源优化的帕累托最优计划。同时，通过多目标 A * 算法适应性改进计算所有最优的取舍，并提出一个问题无关搜索启发式以实现可扩展性，在移动机器人和机器人操纵者上展示框架的效力，达到了 2 个数量级的加速。

Jun, 2023

主动采样学习多任务

提出了一个高效的多任务学习框架，该框架采用主动学习原则来解决多个目标导向任务的问题，通过对 7 个多任务实例进行测试，实现了竞争性的多任务表现。

Feb, 2017

关于主动推理中的预测规划与因果学习

通过研究主动推理中基于计划和经验学习的两种决策方案，本文提出了一种混合模型，以平衡决策过程，并在挑战性的网格世界情景中评估了该模型的适应性，并分析了各种参数的演变，为智能决策提供了有价值的见解。

Mar, 2024

主动推理的扩展

本研究通过在高维任务上实施主动推理，证明了该方法的可行性，并展现了主动推理与强模型无关基线的样本效率的数量级提升和操作同质性。

Nov, 2019

计划学习：在基于模型的规划中用于主动学习的新算法

通过比较 Sophisticated Inference（SI）算法和贝叶斯强化学习（RL）方案的性能，并扩展 Sophisticated Inference（SL）算法以更好地在规划中引入主动学习，本研究支持 Active Inference 方法在解决生物相关问题中的实用性，并提供了测试人类认知假设的额外工具。

Aug, 2023

风险感知主动逆强化学习

本文提出一种风险感知主动逆强化学习算法，旨在最小化机器人正在学习的策略的性能风险，并将主动查询集中在具有潜在大通用误差的状态空间区域，证明该算法在网格世界、模拟驾驶和桌子铺设任务上优于标准主动逆强化学习方法，并提供一种基于性能的停止准则，使机器人知道何时已接受足够的演示以安全地执行任务。

Jan, 2019

多目标优化与主动学习完全自主材料设计框架：挑战和下一步

利用多目标黑盒优化的主动学习过程，在实时流数据和模块化多目标优化软件开发技术支持下，实现了自动化连续流化学实验室的自治操作，为电解质生产提供了理想的制造条件。

Apr, 2023

从在线协作反馈中学习操作任务的偏好

本文提出了一种在线无监督学习框架，可以在包容环境下的多种对象和人类互动中学习机器人的移动路径偏好，并在家政和菜店两种环境中测试了算法，结果表明只需几分钟即可训练机器人。

Jan, 2016

使用主动推理的贝叶斯策略选择

该论文研究了基于自由能原理的主动推理对机器学习中的强化学习和示范学习问题的解决，并将此概念应用于标准问题山车问题，结果表明主动推理可以涵盖强化学习和示范学习技术。

Apr, 2019

在局部观测下，结合信息寻求探索和奖励最大化：统一的连续状态和行动空间推断

本研究提出了一种新的统一原理来实现信息寻求和奖励最大化，将主动推理与强化学习结合起来，不仅解决了各自的局限性，同时还具有超越传统方法的探索新颖奖励的性能。

Dec, 2022