May, 2023

非合作博弈中人类决策预测:基于模拟的脱机评估

TL;DR本文研究基于自然语言的说服游戏中的 off-policy evaluation (OPE) 问题,并提出了一种利用真实交互和模拟数据相结合的深度学习训练算法,显著提高了模型性能,同时证明了真实交互和模拟数据结合是一种具有成本效益和可扩展性的 OPE 解决方案。