QHD: 一种脑启发式的超维强化学习算法
设计和部署了首个适用于有限监督的 IoT 应用的设备上终身学习系统 LifeHD,基于 Hyperdimensional Computing (HDC) 的轻量级学习模式,在离线边缘平台上实现,通过智能存储和管理高维、低精度矢量来提高非监督聚类准确性和能源效率。
Mar, 2024
提出了一种基于 HyperAgent 的强化学习框架,通过超模型、索引采样方案和增量更新机制,在资源约束下实现对复杂任务的简化、高效和可伸缩性,以及超越共轭的通用值函数近似下的计算高效的顺序后验近似和数据高效的动作选择。
Feb, 2024
这篇论文研究了高维情境下的强化学习,提出了两种基于乐观法和后验采样的算法来解决此问题,并扩展了该方法应用在深度强化学习上,所提出的贝叶斯深度 Q 网络通过采用贝叶斯线性回归的方法调整 Q-networks 的学习方式,使其能够充分平衡探索与执行间的权衡,更加有效地应用在 Atari 游戏中。
Feb, 2018
本文介绍了使用量子循环神经网络和深度 Q-learning 算法来解决部分可观察环境中的量子强化学习问题,并且在数值模拟中证明了该方法在标准基准测试如 Cart-Pole 中的结果比经典 DRQN 更加稳定和具有更高的平均分数。
Oct, 2022
本文介绍了利用低功耗嵌入式硬件的超高维可重构分析系统 (HyDRATE),该系统利用无 MAC (无浮点数乘积累加操作) 深度神经网络 (DNN) 和超维 (超高维) 计算加速器在边缘执行实时重新配置。通过展示该算法、训练好的量化模型生成和特征提取来实现超高纬度基于逻辑的分类器,并展示了性能随超维数增加而提高的情况。本文介绍了实现的低功耗 FPGA 硬件和嵌入式软件系统,和实现的硬件加速器,以及系统延迟和功耗噪声稳健性等方面的讨论。通过视频活动分类任务的实际与模拟系统性能比较,展示了在相同数据集上的重新配置。使用边缘的少量学习新课程,使用无梯度下降反向传播仅通过重新训练前馈超高维分类器实现该系统的重构性。
Jun, 2022
提出了一种可以捕捉多种学习协议的 RL 可解高维模型,并将其典型动态推导为一组封闭形式 ODE,我们推导出了学习率和任务难度的最优计划,同时还展现了丰富的行为,包括稀疏奖励下的延迟学习;因奖励基线的不同而产生的各种学习模式;以及由奖励严格性驱动的速度 - 准确性权衡。 与 “Bossfight” 的 Procgen 游戏和 Arcade Learning Environment 游戏 “Pong” 的变体的实验还表明,在实践中存在速度 - 准确性权衡问题。
Jun, 2023
通过深度强化学习方法,利用软、硬注意力机制的扩展 DQN 算法,以 Atari 游戏为测试模型,表明其性能优于 DQN,并且内置的注意机制使得可以直接监控训练过程。
Dec, 2015
本研究提出了一个通过利用端到端深度强化学习框架 (ReLeQ) 来自动化发现量化级别的方法,该方法可以在保持准确性的同时,将 DNN 的计算和存储成本最小化。通过对多个神经网络进行实验,结果表明,这种自动化方法最大限度地保留了准确性 (=<0.3% 的损失),并使传统硬件的速度提高了 2.2 倍,同时,与 8 位运行相比,定制的 DNN 加速器的速度提高了 2.0 倍和节能。
Nov, 2018
本文提出了一种基于生物学启发的强化学习算法 Episodic Memory Deep Q-Networks(EMDQN),该算法利用情节内存来监督代理在训练过程中,实验表明我们提出的方法可以提高样本效率,更容易找到好策略,在 Atari 游戏上只需要 1/5 的交互就能达到许多具有最先进性能的情况,明显优于常规 DQN 和其他情节记忆基 RL 算法。
May, 2018