CostNet: 目标导向强化学习的端到端框架
强化学习是解决环境并实现目标达成的框架,该研究提出了一种灵活的算法来提升学习效率并确保目标达成的性质。通过实验证明,该算法能够增强学习效果并保持目标的达成性质。
May, 2024
提出了一种基于奖励模型的框架,它使得机器学习代理能学习到语言指令, 并通过这些指令执行任务,而不需要通过修改环境奖励函数来实现。这种方法将任务的语义表示和执行分离,在简单的网格世界中,使代理能够学习一系列涉及块的交互和对空间关系的理解的指令, 且无需新的专家数据就可以适应环境的变化。
Jun, 2018
本论文提出一种通过少量成功案例、以及主动请求用户进行标注来使机器人无需人工指定奖励函数以学习技能的方法,有效地避免了人工设计感知流水线或在环境中添加附加传感器等不便之处。我们通过实验验证了该方法的可行性,并证明该方法可使机器人从图像中直接学习知识,且仅需 1-4 个小时与实际世界进行交互。
Apr, 2019
通过训练一个模型来从已知的目标状态开始进行逆向预测,将强化学习中的目标函数引入到代理中,从而加速训练过程,并在 Gridworld 和汉诺塔游戏中进行了实验验证。
Mar, 2018
本论文提出了一种框架,可使深度强化学习算法在科学应用方面实现选择行动和决定是否在每个时间步长测量系统当前状态的策略,以平衡获取信息和信息成本。结果表明,当在此模式下训练时,Dueling DQN 和 PPO 代理可以学习到最优行动策略,同时进行的状态测量可以降低 50%,而递归神经网络可以使测量降低 50%以上。
Dec, 2021
在这份研究论文中,通过系统研究了强化学习(Reinforcement Learning)在约束条件下的模型方法和无模型方法,着重分析了平均奖励随机决策过程中乐观和后验取样的基础方法以及参数化模型无关方法,同时在解决约束决策过程中提供遗憾保证和约束违规分析。同时,还探讨了在弱通信随机决策过程中的结果,扩大了研究结果的适用范围。
Jun, 2024
通过规划最大化任务最优轨迹的期望信息增益的行动序列,使得该方法在较低的样本量下能够学习较强的策略,比探索基线算法少用 2 倍样本,比模型自由方法少用 200 倍样本。
Oct, 2022
本文探讨奖励自由强化学习和受限制的强化学习之间的联系,在标记 MDP 设置中,我们提出了一种简单的元算法,利用现有的奖励自由 RL 解算器,对受限制的强化学习问题进行直接求解, 在现有结果的基础上匹配最佳结果,同时在线性函数近似下,我们直接将其扩展到标记二人马尔可夫博弈的设置中,并提供了一个新的受限制的 RL 结果。
Jul, 2021
本研究提出了一种新的强化学习框架来帮助完全可控的智能体进行路径规划,并通过使用双向记忆编辑方法得到智能体的不同双向轨迹,隔离政策网络并利用专门的子目标网络来将智能体移动至不同方向,最后通过奖励形态化来缩短智能体到达目标的步骤数。实验结果表明,智能体能够到达训练中从未到达过的各种目标,并且能够使用奖励形态化来选择较短的路径。
May, 2022
本文提出了一种结合基于模型的强化学习和目标识别的框架,在离线学习和在线推理阶段分别使用 tabular Q-learning 和三种推理度量,以解决目标识别中需要手动设计、在线计算等问题,从而在标准评估环境中实现了最先进的性能,同时在嘈杂环境中也表现出了优异的性能。
Feb, 2022