Sep, 2023

表示抽象作为强化学习智能体的激励机制: 一个机器人抓取的案例研究

TL;DR选择适当的环境表示对于强化学习代理的决策过程并不总是直观的,本研究考察了不同状态表示对于激励代理解决机器人任务的影响,结果显示使用数字状态的强化学习代理与非学习基线表现相当,而使用经过预训练环境嵌入向量的图像表示的代理表现更好,推测任务特定的知识对于实现收敛和高成功率的机器人控制是必要的。