BriefGPT.xyz
Ask
alpha
关键词
task-specific corrections
搜索结果 - 1
AAAI
人类驱动动态数据集扩充改进行为克隆
本文介绍了如何将行为克隆与人在环环学习相结合,利用一种新方法在模拟中允许专家随时控制代理并提供最优解,从而解决了行为克隆中的一些缺陷,提高了训练效率和降低了所需资源,实验表明该方法在定量评估和人类相似性方面都具有更好的效果。
PDF
2 years ago
Prev
Next