通过模拟出生和死亡来演化食物和动作的奖励

Jun, 2024

通过模拟出生和死亡来演化食物和动作的奖励

Evolution of Rewards for Food and Motor Action by Simulating Birth and Death

Yuji Kanagawa, Kenji Doya

TL;DR通过模拟进化奖励功能并研究环境条件如何影响进化奖励函数的形状，本研究发现奖励系统中存在对食物获取的正向奖励和对运动行为的负向奖励，但运动行为的奖励出现了两种模式：相当正向和稍微负向，并指出在贫瘠和有毒食物环境下，奖励为次要食物的进化不稳定，而对正常食物的奖励仍然稳定，这些结果证明了模拟环境和能量依赖的出生和死亡模型在奖励系统起源研究中的实用性。

Abstract

The reward system is one of the fundamental drivers of animal behaviors and is critical for survival and reproduction. Despite its importance, the problem of how the reward system has evolved is underexplored. In

reward system evolution environmental conditions reinforcement learning simulation framework

发现论文，激发创造

开放环境中的持续演化奖励

在复杂的现实环境中，准确识别驱动实体行为的奖励是困难的，特别在环境改变时，由于目标和相关行为在内生地出现并动态更新。本文通过学习和期望的方式考察了一种用于动态更新奖励的候选算法 RULE。通过在简化的生态系统模拟实验中测试，该方法成功模拟了实体的行为调整，包括放弃最初有奖励但最终有害的行为、增强有益的行为，以及对环境中新物品的恰当反应。这些调整是通过持续学习中实体自身奖励函数的内生修改而发生的，无需外部干预。

May, 2024

在复杂环境中产生运动行为

本文研究增强学习中环境对复杂行为的促进作用，通过在多个不同环境下训练代理人，使用基于前进步伐的简单奖励函数，利用可扩展的策略梯度强化学习方法，代理人可以学会奔跑、跳跃、蹲下和转弯等复杂行为而无需明确的基于奖励的指导。

Jul, 2017

学习的进化理论：从自然选择到强化学习

本文探讨了进化和强化学习之间的联系和影响，并强调了强化学习原理提高对进化和反馈在进化系统中作用的理解的潜力。

Jun, 2023

空间囚徒困境博弈中的状态 - 动作 - 奖励 - 状态 - 动作算法

合作行为在人类社会和自然界中普遍存在，本研究使用强化学习中的 SARSA 算法来研究进化博弈论，评估其对合作率的影响。

Jun, 2024

进化算法中新颖性的出现

采用共享奖励系统鼓励多样性行为是避免进化算法陷入局部极小值的有效方法，用于解决迷宫问题和 Atari 游戏，相比 Novelty Search 方法，本文方法实现更简单且性能更好。

Jun, 2022

适应不同觅食环境的人工学习智能体群行为发展

应用投影模拟和强化学习方法研究了人工智能智能体在收集资源过程中不同集体运动模式和个体运动趋势

Apr, 2020

虚拟代理人的发展好奇心和社交互动

本研究使用虚拟婴儿代理，在无外部奖励的情况下，测试了与人类探索的动机类似的内在奖励功能，并发现了好奇心式的内在奖励和有关性交互的连续性有助于引发探索和生成动态的社交行为和强大的预测世界模型。

May, 2023

从好奇心内在动机中出现的结构化行为

通过实现以好奇心驱动的内在动机的神经网络，我们表明计算的内在动机模型可能解释婴儿发展视觉运动学习的关键特征，包括自我运动预测、物体注意以及物体获取等。

Feb, 2018

基于自由能原理的在观测噪声下无害探索的内在回报的模拟研究

在强化学习中，人工智能代理通过执行任务来最大化数值奖励，探索是至关重要的，因为代理必须在利用之前发现信息。熵和好奇心是促进有效探索的两种奖励方式。这篇论文基于自由能原理（FEP）提出了隐藏状态好奇心，并发现熵和好奇心可以实现高效探索，特别是两者结合。特别是，在好奇心陷阱方面，具有隐藏状态好奇心的代理展示出了韧性，而预测误差好奇心的代理则受到了干扰。这表明实施 FEP 可能增强强化学习模型的鲁棒性和泛化性，并潜在地调整人工和生物代理的学习过程。

May, 2024

通过恒稳调节驱动好奇心的强化学习

本论文提出了一种基于信息理论和动物本能的好奇奖励方法，并通过实验证明了该方法对增强学习代理在复杂环境中与连续行动交互中提高信息增益的额外调节作用。

Jan, 2018