ICMLFeb, 2021

关于全面博弈推理中的有效偏差类型和学习

TL;DR本文提出 “Hindsight Rationality” 方法,基于 Counterfactual Regret Minimization(CFR)和 Extensive-Form Regret Minimization(EFR)算法,通过对行为偏差进行形式化建模实现单一智能体的无悔动态和多重智能体的中介平衡,同时以时间选择为核心思想,实现了序列决策环境下的渐进准确解计算。