- 通过强化学习中的内在动力特征学习任务相关的序列表示
通过建模状态转换的动力学方程、优化编码器以满足状态转换过程并区分状态空间和噪声空间,以及从序列元素频率域和多步预测的角度顺序地建模内在动力学方程关系,我们提出了一种内在动力学特征驱动的序列表示学习方法(DSR),并在视觉任务中展示了出色的表 - 由特权到预测:面向城市驾驶的感觉动作强化学习
通过深度学习模型,我们研究了特权强化学习代理和感知运动代理在城市驾驶中的差异,以缩小二者之间的差距,并提出了逐步发展较不特权的强化学习代理的解决方案。我们还观察到离线数据集上训练的鸟瞰图模型在在线强化学习训练中存在分布不匹配的问题。通过在 - ICML增强学习中的引导式表示学习
本文研究了强化学习中的状态表示问题,发现时序差分学习与蒙特卡罗、残差梯度学习在大部分环境的特征学习上存在差异,本文提出的新的辅助学习规则在经典环境下具有较好表现。
- TD-learning 下表示动态的更好理解
探讨了 TD-learning 对时间序列中状态表示的影响,特别是在环境可逆的情况下,TD-learning 可以严格减少价值近似误差,同时将其与转移矩阵的谱分解相联系,并用随机生成的奖励拟合多个值函数来辅助表征学习。
- 潜在情境下的语言建模
提出了一种名为 SituationSupervision 的方法,通过训练语言模型以构建和调节实体及其状态的显式表示来提高 LMs 的一致性。
- 神经辐射场强化学习
该论文通过利用神经辐射场的监督来学习状态表示,提出了一种名为 NeRF-RL 的强化学习算法,该算法可用于具有机器人操纵对象的下游强化学习任务,为该任务提供更好的潜在空间。
- 强化学习中表示的泛化
本研究探讨了强化学习中状态表示的泛化行为及具体的有效维度边界,并通过文献调研及案例分析验证了所提出的有效维度理论。
- ICMLMinecraft 中的无监督技能发现和技能学习
本文介绍了一种使用无监督技术和自监督学习的状态表征方法,可以帮助强化学习智能体快速学习到基本导航技能。在使用像素地图进行评估时,我们发现像素表示和条件政策学习适用于玩具例子,但不适用于逼真和复杂的地图。因此我们还研究了相对位移等替代观测输入 - 表示很重要:为序贯决策进行离线预训练
本文研究了如何将离线数据转换为强化学习模型的有效训练,通过使用无监督学习目标进行预训练的方法,本文提出了一种能够改善从离线数据训练得到的强化学习模型性能的方案,并通过实验证明了其有效性。
- 学会运动:理解环境设计对于深度强化学习的影响
本文探究了深度强化学习与基于物理原理的动画学习中的 RL 环境设计对其表现的影响及如何通过状态表示、奖励结构等因素的选择优化其效果,特别强调其对学习连续动作控制问题的应用的重要性。
- EMNLP使用深度强化学习的基于文本游戏的语言理解
本文探讨了基于文本的游戏控制策略的学习方法。该方法使用深度强化学习框架,联合学习游戏状态表示和行动策略。通过把文本转化为向量,能够更好地捕捉游戏状态的语义表示。实验结果表明,我们提出的方法显著优于传统基于词袋模型的方法。