Jun, 2022

基于交互的学习与行动包容性反馈

TL;DR本文探讨了交互接地学习(IGL) 中的问题,其中学习者的目标是在没有明确奖励的情况下与环境进行最佳交互,提出了一种算法和分析来解决反馈向量包含动作的情况限制 IGL 成功的问题,并通过基于监督数据集的大规模实验证明了这种新方法的有效性。