Apr, 2023

利用人类反馈在机器人群体中演化和发现新兴行为

TL;DR提出了一种利用自我监督学习和人机交互查询自适应用户偏好的相似度空间来探索并分类可能出现的集群行为的方法,并在两个机器人能力模型的模拟实验中测试,发现该方法比之前的工作更能发现出丰富的集群行为。