可持续觅食问题的在线学习时间依赖性

Jul, 2024

可持续觅食问题的在线学习时间依赖性

Online Learning of Temporal Dependencies for Sustainable Foraging Problem

John Payne, Aishwaryaprajna, Peter R. Lewis

TL;DR可持续觅食问题是一个多智能体环境试验平台，探索智能体处理社会困境中的认知形式，需要通过觅食抵制个体奖励的诱惑并选择集体的长期可持续目标。我们研究了神经进化和深度递归 Q 网络在线学习的方法，使智能体可以像所需的恶性社会问题一样尝试解决问题。我们进一步探讨了利用长短期记忆学习时间依赖性是否能够帮助智能体开发长期的可持续觅食策略。研究发现，长短期记忆的整合帮助智能体开发了单个智能体的可持续策略，但未能帮助智能体处理多智能体场景中出现的社会困境。

Abstract

The sustainable foraging problem is a dynamic environment testbed for exploring the forms of agent cognition in dealing with social dilemmas in a multi-agent setting. The agents need to resist the temptation of i

sustainable foraging problem agent cognition online learning neuro-evolution deep recurrent q-networks

发现论文，激发创造

双存储循环自组织的时空表示的终身学习

本文提出了一种双存储自组织架构用于实现终身学习，其中包含具有学习物体实例和类别的互补任务的两个增长式重复神经网络；通过在连续感官经历中扩展它们，这两个增长网络都能够提取出对未知数据更强的特征。

May, 2018

多智能体路径规划中基于长短时记忆的空间编码

本文提出了一个基于强化学习的路径规划方法，可以应用到多经纬系统，通过训练一个连续状态和动作的策略网络，使其具有理想的路径规划行为，该方法通过 LSTM 模块来编码不特定数量的状态，可以扩展到具有无限数量代理和维度的情形，同时使用低成本的硬件平台进行实现。实验表明所提出的方法能成功地使 4 个自主导航的飞行器在现实世界环境中无碰撞地导航。

Mar, 2022

在跨时间社会困境任务中平衡探索和利用，提高合作

通过多智能体强化学习，将学习速率纳入协作策略以平衡探索和开发性，实现集体行为的协调。在决策任务中，简单的策略有助于提高相对集体的回报，并且异构环境下的强化学习代理人较同质环境更具协调性。

Oct, 2021

深度强化学习代理的自适应补丁觅食

该论文研究了深度强化学习 Agent 在生态补丁觅食任务下的表现，表明这些 Agent 可以类似于生物探食者一样适应性地学习补丁觅食，并在考虑时间衰减时接近最优补丁觅食行为。此外，研究结果还发现，这些 Agent 的内部动态类似于非人灵长类的单细胞记录，这与关于生物探食神经机制的实验和理论研究相互补充。这项研究表明：在复杂环境下，经受生态压力的 Agent 可以达到类似的解决方案，从而提示了自适应智能行为背后的基础计算机制是生物和人工 Agent 都会出现的。

Oct, 2022

神经发生在克服灾难性遗忘中的作用

本文研究表明，相较于静态网络，动态生长的神经网络在增量学习场景中表现更好，无监督学习使得训练更具挑战性，同时增加了研究的现实性，同时结构可塑性是防止非静态环境中的灾难性遗忘的有效方法。

Nov, 2018

使用生成对抗模仿学习学习时间战略关系

该论文提出了一个新的框架，用于自动学习人类决策中的复杂策略，通过使用两个外部存储模块来捕捉子任务和整个目标之间的关系，并将其用于自主驾驶汽车应用中检验其有效性。

May, 2018

利用深度强化学习促进共享资源问题上的可持续人类行为

使用深度强化学习设计资源分配机制以促进可持续的人类行为。

Apr, 2024

利他型学习代理比利己型代理更擅长解决广义野鹿狩猎问题

通过在 Stag Hunt 游戏环境下应用 reward-shaping 技术，让一个单独的多智能体学习者变得 pro-social 可以提高群体学习的性能和每个智能体的长期回报。

Sep, 2017

多智能体强化学习在基于竞拍的长期网络资源分配中的应用：V2X 应用

本文旨在研究如何实现计算任务从移动代理转移，其提出了一种基于分散决策的机制来促使代理间在博弈与合作之间平衡。为此，该文设计了一个新的多代理在线学习算法，并通过 V2X 应用的模拟得出了良好的收敛性和泛化性能。

Jul, 2022

适应不同觅食环境的人工学习智能体群行为发展

应用投影模拟和强化学习方法研究了人工智能智能体在收集资源过程中不同集体运动模式和个体运动趋势

Apr, 2020