基于好奇心驱动的强化学习的低层次飞行控制

Jul, 2023

基于好奇心驱动的强化学习的低层次飞行控制

Curiosity-Driven Reinforcement Learning based Low-Level Flight Control

Amir Ramezani Dooraki, Alexandros Iosifidis

TL;DR提出了一种基于好奇心驱动的算法，通过生成适当的马达速度来控制自主学习，使四旋翼可以通过障碍物并将航向朝向目标位置，实现了最优策略的学习和最大化奖励的能力。

Abstract

curiosity is one of the main motives in many of the natural creatures with measurable levels of intelligence for exploration and, as a result, more efficient learning. It makes it possible for humans and many animals to explore efficiently by searching for being in states that make the

curiosity autonomous learning reinforcement learning exploration patterns optimal policy

发现论文，激发创造

在模拟环境中学习如何学习

本研究使用深度强化学习技术训练一种好奇心代理以促进物体检测模型在线学习。我们还提出了一种奖励函数，以权衡代理的两个目标：尽快完成训练或尽可能少地进行人工介入，并考虑了 drone 平台的部分物理特性。

Feb, 2019

元学习好奇算法

本文认为好奇心是一种进化机制，能够在智能体的一生中鼓励有意义的探索，以暴露它于能够使其获得高报酬的经验。该文提出了一种基于元学习的产生好奇行为的问题，并使用元学习算法将代理人的奖励信号动态调整来解决问题。作者进一步提出使用元算法来扩大其适用性，并将其他构建块（例如缓冲器、最近邻模块和定制丢失函数）与神经网络结合使用。最终，本文提出的两种好奇心算法在图像导航、机器人和其他领域表现优于人类设计的已发表算法。

Mar, 2020

从心理好奇到人工好奇：人工智能任务中基于好奇心的学习

本文综述了心理好奇心对于人类智能的重要作用，阐述了人工好奇心与人类认知发展的联系及其应用场景，并对强化学习、推荐系统和分类方法等领域中已有的好奇心驱动学习方法进行综述，提出了深入研究的方向和未来的改进工作。

Jan, 2022

驱动好奇心的学习的计算理论

探索好奇心如何帮助机器人和人类发现解决复杂问题的新方法和技能，以及在自主学习和自组织发展中的重要性。

Feb, 2018

潜在贝叶斯惊喜驱动下的好奇心驱动探索

利用人工好奇心提高强化学习系统的探索能力，本文提出了一种利用贝叶斯惊奇度作为衡量模型参数先验和后验之间差异的方法，将其应用于代理模型的潜在空间中，大大降低计算成本，研究表明其对连续任务的环境探索和视频游戏分数的影响要好于当前最先进技术，同时具有对抗随机性环境的鲁棒性。

Apr, 2021

趣味驱动学习的大规模研究

本文通过大规模实验，研究了无外部奖励下的” 好奇心驱动学习 “ 与外部奖励的比对，研究了用于计算预测误差的不同特征空间，并探究了在随机环境中使用基于预测的奖励的局限性。

Aug, 2018

自监督预测驱动下的好奇心驱动探索

通过在自监督逆向动力学模型学习的视觉特征空间中预测行动结果的错误来形成好奇心作为内在奖励信号，提高自主智能体在缺乏外部奖励刺激的情况下探索环境和学习技能的能力，具有在不同领域中推广的潜力。

May, 2017

CURIOUS: 内在动机模块化多目标强化学习

该论文提出了一种名为 CURIOUS 的算法，它利用 MODULAR Universal Value Function Approximator 和自动化课程学习机制来实现学习代理的自主目标设定和自我组织学习课程，实现学习目标的快速最优化。

Oct, 2018

问与探索：基于探求驱动的实地问答

本文提出基于有足实体依据的问答的好奇心算法，通过对自然语言问题的回答获得对环境物理属性和空间关系的了解，为异馆收益任务提供了宝贵的好奇心奖励，从而解决了现有好奇心算法的局限性。

Apr, 2021

基于自由能原理的在观测噪声下无害探索的内在回报的模拟研究

在强化学习中，人工智能代理通过执行任务来最大化数值奖励，探索是至关重要的，因为代理必须在利用之前发现信息。熵和好奇心是促进有效探索的两种奖励方式。这篇论文基于自由能原理（FEP）提出了隐藏状态好奇心，并发现熵和好奇心可以实现高效探索，特别是两者结合。特别是，在好奇心陷阱方面，具有隐藏状态好奇心的代理展示出了韧性，而预测误差好奇心的代理则受到了干扰。这表明实施 FEP 可能增强强化学习模型的鲁棒性和泛化性，并潜在地调整人工和生物代理的学习过程。

May, 2024