Jan, 2022

使用动作特征学习与人类协同工作

TL;DR探究网络结构对学习算法利用语义关系的倾向性,发现基于注意力机制构建的网络结构在零样本协调任务中具有更好的归纳偏好,并经过精细的评估和场景分析,证明了这种策略是可解释的, 并且这样的智能体在没有训练任何人类数据的情况下就能够与人类协调一致。