从视频中学习识别强化学习的关键状态

ICCVAug, 2023

从视频中学习识别强化学习的关键状态

Learning to Identify Critical States for Reinforcement Learning from Videos

Haozhe Liu, Mingchen Zhuge, Bing Li, Yuhui Wang, Francesco Faccio...

TL;DR最近的深度强化学习研究指出，即使缺乏关于执行动作的显式信息，也可以从离线数据中提取有关良好策略的算法信息。本文介绍一种名为 Deep State Identifier 的新方法，该方法通过编码为视频的剧集学习预测回报，并利用一种基于掩码的敏感性分析来提取和识别重要的关键状态。大量实验证明了我们方法理解和改进代理行为的潜力。源代码和生成的数据集可在此链接中获得。

Abstract

Recent work on deep reinforcement learning (DRL) has pointed out that algorithmic information about good policies can be extracted from offline d

deep reinforcement learning offline data algorithmic information predict returns mask-based sensitivity analysis

发现论文，激发创造

强化学习的本地解释

本文介绍了一种基于元态的深度强化学习策略理解方法，通过识别从自动学习的元状态中的重要状态，而非从行为相似性出发，来帮助领域用户理解深度强化学习策略，实验结果表明，这种方法可以帮助我们更好地理解深度强化学习策略。

Feb, 2022

可执行模型：无监督离线强化学习的机器人技能

本文提出了使用自回归进行离线机器人技能学习，并通过先前的数据学习环境的形式理解，该方法可以处理高维相机图像，可以学习到许多技能，并通过一系列技术进行训练，此方法具有较强的泛化能力，可以在多个目标之间进行目标链接，通过预训练或辅助目标学习到丰富的表示。

Apr, 2021

采用潜空间模型的基于图像的离线强化学习

该研究提出了一种基于模型的离线 RL 算法，该算法可扩展应用于高维视觉观测空间，通过学习潜在状态动力学模型并在潜在空间中表示不确定性来克服图像观测的挑战，并在多项具有挑战性的基于图像的移动和操纵任务中取得了优异的表现。

Dec, 2020

利用离线预训练状态转向转换器从视觉观察中学习

本文提出了一种基于视觉观测的学习方法，使用两阶段的 State-to-Go (STG) Transformer 训练出内在奖励进行强化学习，实现了利用仅有视频数据解决视觉强化学习任务的潜力，并在 Atari 和 Minecraft 等数据集上表现出了比基线更好的性能。

Jun, 2023

识别学习运动技能的重要感觉反馈

使用深度强化学习，通过神经网络作为状态 - 动作映射，通过量化分析系统显著性分析来确定机器人学习的关键状态以实现迈步技能学习，其中包括平衡恢复，慢跑，奔跑，步态和奔跑。

Jun, 2023

以在线决策为跟踪基础：通过强化学习从实时视频中学习策略

本文提出了一种基于 POMDP 模型的跟踪算法，该算法使用强化学习算法进行决策，并以稀疏奖励信号为辅助训练，旨在解决跟踪过程中图像模糊和计算资源受限等问题。同时，該算法使用互联网视频数据源进行跟踪器的训练和评估，从而逐步解决跟踪数据不足等问题。

Jul, 2017

利用视频的强化学习：将离线观察与交互相结合

本文介绍了一种基于人类经验学习实现强化学习的方法，该方法利用了人类视频经验中丰富的视觉信息，结合机器人自身收集的数据，在学习视觉技能方面取得了比常规方法更好的效果。

Nov, 2020

利用潜在状态推断和时空关系实现自主驾驶的强化学习

本文介绍了利用深度强化学习和图神经网络，结合编码潜在状态和空间 - 时间关系的方法解决自动驾驶场景下规避横穿车辆的难点，实现了显著性能提升。

Nov, 2020

基于 CNN 的桌上足球游戏状态检测

本文介绍了一个用于在桌球游戏中确定游戏状态的图形检测系统，通过使用卷积神经网络作为基础架构，训练端到端回归模型，预测每个杆的旋转和移动。通过提供黑白两队的数据，该系统旨在为观察人类玩家的模仿学习技术的未来发展提供所需的数据。

Apr, 2024

通过深度强化学习和专家演示实现的视觉追踪

通过应用强化学习的最新趋势并借鉴专家代理的演示，提出了两种新型跟踪器：A3CT 和 A3CTD，均利用现有的跟踪器进行有效的跟踪，并在多个基准测试中取得了最新的成果。

Sep, 2019