Jun, 2023

利用智能体群体学习顺序任务嵌入

TL;DR本文提出了一个信息论框架,以学习固定维度的嵌入,用于强化学习任务。通过使用多样的智能体群集来衡量任务的相似性,本文描述了信息理论标准的直觉,该直觉是基于观察智能体在一个任务上的表现降低我们对其在另一项任务中表现的不确定性。在两个应用场景中,通过定量比较与强基线的效果,我们在预测智能体在测试任务上的表现以及从给定选项集中选择具有所需特性的任务方面展示了我们技术的有效性.