BriefGPT.xyz
Ask
alpha
关键词
rl tasks
搜索结果 - 4
大规模语言模型的强化学习问题解决
使用大型语言模型作为强化学习代理以解决对话式强化学习问题,通过提出的提示技术,演示了如何迭代引导语言模型学习和优化特定强化学习任务的策略,并通过两个具体案例研究展示了该方法的实用性。
PDF
2 months ago
深度强化学习从人类偏好中学习
本文研究了使用非专家人类偏好来定义复杂目标的强化学习系统的方法,并且证明此方法可实现许多复杂的强化学习任务,包括 Atari 游戏和模拟机器人,同时也大幅降低了人类监督成本,以及展示了本方法的灵活性,并可成功使用较短时间完成复杂的新颖行为的
→
PDF
7 years ago
使用深度强化学习击败世界级的超级 Smash Bros
研究了在多人游戏环境中采用强化学习 (RL) 和深度学习的方法,成功训练了一个超越人类专业玩家的自适应智能体,成果在多人视频游戏环境中具有里程碑意义。
PDF
7 years ago
ICML
信任域策略优化
本文提出了一种名为 TRPO 的实用算法,通过优化政策来达到保证单调改善的目的,并通过一系列实验展示了其在学习模拟机器人的 Swimming、Hopping 以及 Walking,并使用屏幕图像玩 Atari 游戏等众多方面的优越表现。
PDF
9 years ago
Prev
Next