BriefGPT.xyz
Ask
alpha
关键词
agent policy
搜索结果 - 2
关于通过最优转运在模仿学习中结合专家示范的研究
使用多边际最优传输距离的替代方法,实现了在 OT 意义下多个和多样化状态轨迹的组合,提供了更合理的演示几何平均值,从而使代理从多个专家中学习,并在 OpenAI Gym 控制环境中进行了效率分析,表明标准方法并不总是最优的。
PDF
a year ago
AI 定义及符合该定义的程序
通过定义可计算策略和描述世界的语言,发展了一个程序来预测未来并选择最佳行动,该程序可通过提高描述语言和算法的精度来提高效率并符合 AI 定义。
PDF
2 years ago
Prev
Next