BriefGPT.xyz
Ask
alpha
关键词
diverse skill learning
搜索结果 - 2
利用混合专家的课程强化学习获取多样化技能
强化学习中的多样技能学习,使用混合专家方法和最大熵目标优化每个专家的上下文分布,以激励在相似情境中学习多样技能。利用基于能量的模型来表示每个专家的上下文分布,通过标准策略梯度目标有效地训练它们,进一步解决了环境未知上下文概率空间中的难以处理
→
PDF
4 months ago
利用大型语言模型增强自我驱动智能体
本研究介绍了一种使用预训练语言模型(LM)的语言模型增强的自我目标学习环境,它支持自动生成并学习具有多样性、抽象性、与人类相关的目标 —— 而非手动编码的目标表示、回报函数或课程,该系统可以在基于文本的任务无关环境中学习掌握各种广泛的技能。
PDF
a year ago
Prev
Next