BriefGPT.xyz
Ask
alpha
关键词
reset mechanisms
搜索结果 - 1
异步人类反馈下的自主机器人强化学习
实现自主学习的算法对于在真实环境中的机器人来说一直是个挑战,但本研究描述了一个实际的强化学习系统,通过在真实环境中进行训练,并借助人类的反馈来实现不间断的改进。该系统在不需要设计奖励函数或重置机制的情况下,通过自我监督学习算法和人类反馈产生
→
PDF
8 months ago
Prev
Next