Oct, 2023

廉价对话算法

TL;DR我们模拟独立强化学习算法在 Crawford 和 Sobel (1982) 的战略信息传输游戏中的行为,显示出训练一起的发送方和接收方收敛到接近游戏先验最优均衡的策略,从而在代理之间的利益冲突程度给出的前提下,按照 Nash 均衡预测发生最大程度的通信。我们发现这个结论在超参数和游戏的替代规范下是稳健的。我们讨论了对信息传输游戏中均衡选择理论、计算机科学中算法间新兴通信的作用以及市场中由人工智能代理人组成的勾结经济的影响。