May, 2022

广泛型博弈中的偏差类型和学习有效性:纠正

TL;DR该研究旨在通过在 extensive-form games 中进行 behavioral deviations 来开发一种回顾性理性的学习算法,该算法采用 counterfactual regret minimization 策略,并能适用于任意给定的行为偏差集合,通过实验表明在不同的 deviation types 中,EFR 通常表现更好。