本文介绍了一种基于深度强化学习的主动目标定位算法,比较了两种不同的决策过程方法:分层方法和动态方法,并进一步通过调整不同的超参数和架构变化对模型性能进行了消融研究。
Aug, 2022
本文针对 Atari 2600 游戏环境的深度强化学习智能体,通过生成显著图以及对其进行分析,揭示了强化学习智能体学习和执行策略的方式,并且在测试了普通人的行为决策时,证明了该方法的有效性。
Oct, 2017
本文提出了一种实用于实际机器人任务 -- 如机器人操作 -- 的深度强化学习算法,并在无人监督的情况下使用自我监督的基于模型的方法来训练预测模型,通过选择指定像素、目标图像或图像分类器作为目标设定方法,探索实现前所未见的任务和物体的普遍泛化。
Dec, 2018
本研究提出了一种融合游戏特征信息的深度强化学习神经网络模型,其能够在处理 3D FPS 游戏的部分可观察状态下显著提高训练效率和性能。
Sep, 2016
本文提出了一种深度强化学习技术,自动检测运动物体并利用相关信息进行动作选择;该技术通过结构运动利用无监督学习检测运动物体,将代理学习到的表示用于聚焦移动物体的决策,并在 Atari 游戏领域得到了实证验证,拥有更好的可解释性。
May, 2018
本文介绍了 OCAtari 这个环境,它提供了针对 Atart 游戏的以物体为中心的状态表示,可以用于深度强化学习方法的评估,允许我们改变和创建特定甚至是新颖的情境来进行 RAM 状态操作。
Jun, 2023
本文介绍了通过将最近的集合表示形式与图神经网络和槽注意方法相结合来处理结构化数据,从而拓宽深度强化学习算法的应用范围,改善训练时间和鲁棒性,并且证明这种方法可以在多种环境下处理结构化和视觉领域的问题。
Jun, 2022
本研究采用深度强化学习的端到端方法,结合 ConvNet-LSTM 函数的预测能力,提出了一种针对活动物体追踪的解决方案,并通过环境增强技术和定制的奖励函数进行训练。结果表明,在模拟器中训练的跟踪器能够在未知的物体移动路径、外观、背景和干扰物的情况下表现良好。实验还表明,单独在模拟器中训练的跟踪能力具有潜在的适用性和推广性,可以在真实情况下进行。
May, 2017
提出了一种用于在场景中定位目标物体的主动检测模型,该模型是类特定的,并允许代理集中注意力于识别目标物体的候选区域,通过深度强化学习训练定位代理,并在 Pascal VOC 2007 数据集上评估,结果表明,使用该模型指导的代理能够在分析图像中仅仅探测 11 到 25 个区域后定位一个物体实例,并且在不使用物体提议进行物体定位的系统中取得了最佳的检测结果。
Nov, 2015
本文提出一种全面的端到端视频视觉跟踪方法,利用循环卷积神经网络代理与视频进行交互,并结合强化学习算法来学习不断的关注连续帧相关性和最大化在长期内的跟踪性能,实现了比现有跟踪基准更快速的状态 - of-the-art 性能。是第一个将卷积和循环网络与强化学习算法相结合的神经网络跟踪器。
Jan, 2017