生物神经元和深度强化学习在模拟游戏世界的样本效率上竞争

May, 2024

生物神经元和深度强化学习在模拟游戏世界的样本效率上竞争

Biological Neurons Compete with Deep Reinforcement Learning in Sample Efficiency in a Simulated Gameworld

Moein Khajehnejad, Forough Habibollahi, Aswin Paul, Adeel Razi, Brett J. Kagan

TL;DR生物系统与机器学习算法在完成任务所需样本数量上有何比较？通过将体外生物神经网络与最先进的深度强化学习算法在 “乒乓球” 游戏的简化模拟中进行学习效率对比，发现即使是简单的生物培养物在真实时间课程下，也比所有深度强化学习代理在各种游戏性能特征上具有更高的样本效率和更快的学习能力。

Abstract

How do biological systems and machine learning algorithms compare in the number of samples required to show significant improvements in completing a task? We compared the →

biological systems machine learning algorithms learning efficiency deep reinforcement learning sample efficiency

发现论文，激发创造

使用脑启发的调制强化学习可以提高对环境变化的适应能力

研究提出了一种新的神经元学习规则，它使用突触前输入来调制预测误差，将其嵌入表格和深度 Q 网络强化学习算法中，可以在简单而高动态的任务中胜过传统算法，这提出了一种新的生物智能核心原则。

May, 2022

应用深度学习和强化学习于生物数据

本文综述深度学习、强化学习和深度强化学习等技术在生物数据挖掘中的应用，并比较了这些技术应用于不同数据集在各个应用领域的表现，最后概述了这个具有挑战性的研究领域中的未解决问题和未来发展前景。

Nov, 2017

深度强化学习及其神经科学意义

这篇综述性研究论文介绍了深度强化学习在神经科学中的应用，讨论了其对大脑和行为研究的影响，并提出了未来研究的机会。

Jul, 2020

生物和机器人系统无模型强化学习的深入研究：理论与实践

动物和机器人存在于物理世界中，并必须协调其身体以实现行为目标。最近在深度强化学习方面的发展使得科学家和工程师可以利用物理模拟的身体和环境来获得特定任务的感觉运动策略（策略）。然而，这些方法的效用超出了特定任务的限制；它们为理解动物感觉运动系统与其形态和与环境的物理相互作用的组织提供了一个令人兴奋的框架，同时也可为机器人系统中感知和执行的一般设计规则的推导提供支持。通过使用深度强化学习中的 extit {演员 - 评论家} 方法，我们在这里提出数学和算法方面的简洁阐述作为研究动物和机器人行为背后的反馈控制的工具。

May, 2024

神经科学中的强化学习简介

强化学习和神经科学之间存在紧密的联系，本论文通过回顾经典强化学习和介绍现代深度强化学习的方法，以及其在系统神经科学中的应用，阐述了这种联系。

Nov, 2023

用遗传算法调整脉冲策略网络的突触连接而非权重

通过遵循昆虫的感觉神经元通路，通过基因算法优化尖峰策略网络（SPN），应用可塑性突触连接解决机器人控制任务，其表现水平达到 DRL 方法的性能水平且具有显著更高的能量效率。

Dec, 2022

在脉冲神经网络中学习快速变化的缓慢

强化学习面临着应用于现实问题的巨大挑战，主要源于有限的与环境交互导致的可用数据的稀缺性。本研究引入了生物学上可行的近端策略优化的实现，通过在重要领域中显著减轻这一挑战，提高了学习的效率。

Jan, 2024

深度神经进化：遗传算法是训练深度神经网络进行强化学习的竞争性替代方案

我们证明了遗传算法可以在深度人工神经网络上实现良好的性能表现，即使没有梯度信息支持，我们使用深度遗传算法结合新颖搜索技巧在具有挑战性的深度强化学习问题上获得了成功，并且速度比其他算法更快，能够实现高效编码。

Dec, 2017

脉冲 Q 学习的深度强化学习

本研究提出了一种名为 DSQN 的深度尖峰 Q 网络，使用非尖峰神经元的膜电压作为 Q 值的表示，可以从高维度的感官输入中直接学习稳健的决策，并在 17 个 Atari 游戏中表现出优异的性能，具有更好的学习稳定性和对抗攻击鲁棒性。

Jan, 2022

情节记忆深度 Q 网络

本文提出了一种基于生物学启发的强化学习算法 Episodic Memory Deep Q-Networks（EMDQN），该算法利用情节内存来监督代理在训练过程中，实验表明我们提出的方法可以提高样本效率，更容易找到好策略，在 Atari 游戏上只需要 1/5 的交互就能达到许多具有最先进性能的情况，明显优于常规 DQN 和其他情节记忆基 RL 算法。

May, 2018