Oct, 2023

人工智能与人类合作的多元规范

TL;DR通过最大化自我博弈回报和最小化与先前发现的约定交互时的回报的方法,我们的技术在多代理合作游戏中生成多样化的约定,以适应人类的约定,并在与真实用户配对时超越人类水平的性能。