- 探索是否足够?强化学习中用于迁移的有效探索特征
通过分析探索算法的特点和效果,我们研究了深度强化学习中的在线迁移学习,发现某些特征与多种迁移任务的有效性和效率改善相关,为特定迁移情况提供了有针对性的探索算法特征建议。
- 机构如何影响人工智能与人类协作的设计空间探索?以深层生成模型为例的船舶设计案例研究
利用生成敌对网络构建了船体设计的生成设计空间,通过三种不同的数据探索方法来找到一种平衡设计创新和性能的最有效的方法。
- ICML分布式强化学习中的风险视角探析
通过风险规划方法提高 DMIX 算法的性能,在多代理环境下进行了全面的实验,此方法可用于探索 Distributional Reinforcement Learning 中风险水平和乐观行为。
- 跟随你的嗅觉:在强化学习中使用通用价值函数进行有向探索
本研究探索了使用 GVF 和有向探索策略结合探索和辅助任务学习的方法来提高强化学习中的样本效率,实验表明该方法在不同大小的网格导航任务中表现出优异的性能。
- 基于深度强化学习的混合动力车可转移能量管理策略的比较研究
深度强化学习和迁移学习的结合是选择适当的能量管理策略的更加高效的方法,并且对比了使用不同探索方法的深度强化学习的迁移学习过程中的性能,结果显示在参数空间加入噪声的网络更加稳定和迅速收敛。
- 利用语言抽象提高内在探索能力
本文研究探讨使用自然语言作为一种通用媒介以提高强化学习领域中稀疏奖励的训练效果,通过与 AMIGo 和 NovelD 等竞争性内部探索基线进行直接扩展和比较,本研究探究语言能否优化现有的探索方法,其与非语言形式相比在 MiniGrid 和 - 基於強化學習的探索方法綜述
本文介绍了关于(连续)强化学习中现代探索方法的调查,以及探索方法的分类。
- ICLR策略梯度搜索中的探索改进:符号优化应用
本文介绍了两种探索方法 —— 熵正则化和分布初始化,用于解决基于神经网络的自动数学计算任务中的早期决策和初始化偏差问题,从而提高机器学习性能、样本效率和解决方案复杂性。
- ICML稀疏奖励下连续控制任务中的本地持久探索
本文提出了一种新的基于探索者轨迹的探索策略,使用局部自避步态生成方法,结合合适的状态平均距离,来为稀疏奖励的连续状态和行动空间提供短时记忆,实现高效的环境探索。
- 基于影响力的多智能体探索
为了解决探索性任务中的探索难题,本文针对具有转换依赖性的多智能体环境提出了两种探索方法:基于信息论影响的探索(EITI)和基于决策论影响的探索(EDTI),通过利用智能体协作行为中交互作用的作用加以利用。我们通过优化这两种方法来鼓励智能体协 - 基于记忆的轨迹条件策略在稀疏奖励学习中的应用
本文提出了一种基于轨迹条件的策略学习方法,通过从内存缓冲区中展开多种多样的过去轨迹,可帮助策略创造者更好地探索状态空间,并在各种复杂任务中显著提高模型性能。(本方法可以不用专家演示或将模型重置为任意状态,在 Atari 游戏 Montezu - AAAI有界最优探索在 MDP 中的应用
本文提出简单算法来解决在短期内实现理论驱动的探索方法和实际需求之间的纠葛,并通过理论分析和数字示例展示所提出的放宽条件的好处,同时维持任何时候的误差边界和平均损失边界,并且适用于贝叶斯和非贝叶斯方法。