Apr, 2022

Boltzmann策略分布:从人类模型中解释系统性次优

TL;DR在人类行为的建模中,耦合行动选择与时间的策略预测模型有助于解决人类展现出的系统非最优性问题。介绍了Boltzmann策略分布(BPD),作为人类策略的先验,并通过贝叶斯推断来捕捉人类非最优行为的系统偏差。研究发现,相比于基于人类模仿学习的模型,BPD在使用更少数据的情况下同样有效地实现了对人类行为和人工智能协作的预测。