关键词human-in-the-loop training
搜索结果 - 2
- AAAI人类驱动动态数据集扩充改进行为克隆
本文介绍了如何将行为克隆与人在环环学习相结合,利用一种新方法在模拟中允许专家随时控制代理并提供最优解,从而解决了行为克隆中的一些缺陷,提高了训练效率和降低了所需资源,实验表明该方法在定量评估和人类相似性方面都具有更好的效果。
- ICLR监督与自我对弈在新兴通讯中的相互作用
本研究探讨了一种新的教授人工智能代理人使用自然语言的方法,发现在通过受监督的学习奖励和自我对弈的信号两种方式的训练后比直接从头开始进行自我学习效果更好,并提出了一种基于人群的方法以进一步提高表现。