深度進化神經反饋與離散世界模型
使用生成式的递归神经网络以压缩时空特征的方式进行快速的非监督式学习,模拟了一些常见的强化学习环境。提取的环境模型特征被输入到简洁的进化训练策略中,取得了在各种环境中的最先进成果。最后,我们在由内部环境模型产生的环境中完全训练我们的智能体,并将这个策略转移到了实际环境中。
Sep, 2018
该研究提出了一种新方法,即利用少量的突变规则来动态演化循环神经网络的结构,其结果表明,这种方法可以在大多数情况下匹配或超过梯度下降方法的性能,同时使用数量级更少的参数,该方法有望在对网络紧凑性和自主设计至关重要的实际应用方面开辟新的途径。
Apr, 2023
本研究旨在使用生成神经网络建立流行的强化学习环境下的世界模型,并利用该世界模型进行无监督学习,学习环境的空间和时间紧凑表示。通过使用从世界模型提取的特征作为代理输入,我们可以训练出非常紧凑和简单的策略来解决所需任务。我们甚至可以在代理自己的幻象梦境中完全进行训练,并将该策略传输回实际环境中。
Mar, 2018
我们证明了遗传算法可以在深度人工神经网络上实现良好的性能表现,即使没有梯度信息支持,我们使用深度遗传算法结合新颖搜索技巧在具有挑战性的深度强化学习问题上获得了成功,并且速度比其他算法更快,能够实现高效编码。
Dec, 2017
该研究提出了一种基于计算机视觉概念,使用深度神经网络从摄像头观测和专业演示数据中训练世界模型和政策的通用框架,该模型可以预测鸟瞰图空间中动态汽车的未来轨迹,并在城市驾驶环境中联合预测静态场景、动态场景和特定行为。
Jun, 2023
通过对比无监督学习和介入不变正则化的使用,提出了一种学习不变特征的世界模型,以改善强化学习在视觉导航等日常任务中的限制,并在 iGibson 基准测试中取得显著的性能提升。
Dec, 2023
该论文提出 L3P 算法,使用稀疏的多步转换学习基于图结构的世界模型并生成 Q - 函数,其在高维连续控制任务上具有优越的性能,是深度强化学习中可扩展规划的重要进展。
Nov, 2020
DreamerV3 是一种基于世界模型的通用、可扩展的算法,具有较好的数据效率和最终性能,在各种单一或混合任务中表现优异,能够解决困扰强化学习发展的一系列挑战。
Jan, 2023