ACLApr, 2022

语言沟通作为 (反向) 奖励设计

TL;DR本文提出了奖励设计的推广原则作为语言交流的基础,包括概括未知未来状态的线性赌博设置、演讲者模型和实用主义听众对演讲者潜在视角和奖励的联合推断。