May, 2024

基于自由能原理的在观测噪声下无害探索的内在回报的模拟研究

TL;DR在强化学习中,人工智能代理通过执行任务来最大化数值奖励,探索是至关重要的,因为代理必须在利用之前发现信息。熵和好奇心是促进有效探索的两种奖励方式。这篇论文基于自由能原理(FEP)提出了隐藏状态好奇心,并发现熵和好奇心可以实现高效探索,特别是两者结合。特别是,在好奇心陷阱方面,具有隐藏状态好奇心的代理展示出了韧性,而预测误差好奇心的代理则受到了干扰。这表明实施 FEP 可能增强强化学习模型的鲁棒性和泛化性,并潜在地调整人工和生物代理的学习过程。