非合作博弈中人类决策预测：基于模拟的脱机评估

May, 2023

非合作博弈中人类决策预测：基于模拟的脱机评估

Human Choice Prediction in Non-Cooperative Games: Simulation-based Off-Policy Evaluation

Eilam Shapira, Reut Apel, Moshe Tennenholtz, Roi Reichart

TL;DR本文研究基于自然语言的说服游戏中的 off-policy evaluation (OPE) 问题，并提出了一种利用真实交互和模拟数据相结合的深度学习训练算法，显著提高了模型性能，同时证明了真实交互和模拟数据结合是一种具有成本效益和可扩展性的 OPE 解决方案。

Abstract

persuasion games have been fundamental in economics and AI research, and have significant practical applications. Recent works in this area have started to incorporate natural language, moving beyond the traditio

persuasion games natural language off-policy evaluation simulated data deep learning

发现论文，激发创造

强化学习中有解释的离线策略评估：突出具有影响力的状态转移

本文提出了一种混合人工智能系统的方法，该方法可以通过关注数据中对 OPE 估计产生很大影响的观察点，并制定一组选择规则，使领域专家能够分析 OPE 估计的有效性。该方法可以应用在医学模拟和真实世界中的重症监护数据中，可以用于识别评估过程中的限制并使评估更加稳健。

Feb, 2020

主动离线策略选择

本文提出了一种新颖的顺序决策方法 —— 主动离线策略选择，该方法结合了在线交互和记录数据，利用基于贝叶斯优化和策略相似性的内核函数，通过多个基准测试，包括实际机器人应用，证明该方法改进了最新的离线策略评估估计和纯在线策略评估，解决了缺乏在线交互数据的策略选择问题。

Jun, 2021

离线强化学习在实时竞价和推荐中的加速应用：模拟的潜在应用

利用模拟来加速离线强化学习与行动评估的实证研究：探讨离线强化学习与行动评估的实证研究如何受益于模拟，并提供了在 RecSys 和 RTB 中进一步促进实证研究的开放挑战和解决方案。

Sep, 2021

马尔可夫决策过程中的一致离线评估

提出了一种基于符合预测的 OPE 方法，可以在给定的一定置信水平下输出包含目标策略真实奖励的区间，并通过不同的方法处理由于目标策略和行为策略之间差异导致的分布偏移，并在保持相同置信水平的情况下，相对于现有方法降低区间长度。

Apr, 2023

基于偏好的非参数离策略深度网络评估的样本复杂性

使用深度神经网络通过学习值函数来逼近离线策略评估，从人类偏好数据中获取样本效率，而不受高数据环境维度束缚。

Oct, 2023

反事实学习方法的大规模验证：一个测试平台

本研究提供并使用实际数据和标准测试平台，基于广告展示探索了历来研究最新的无政策评估和学习方法（如双重优化、POEM 和基于回归基线的监督学习），结果表明最新的无政策学习方法可以改进大规模真实世界数据集上的历史最优监督学习技术。

Dec, 2016

人类反馈的非策略评估

解决基于人类反馈信号的离线评估问题，引入了一种新的离线评估框架 ——OPEHF，通过发展一种基于环境知识的立体空间下的即时人类奖励重构方法，从而明显提高了对人类反馈信号的准确估计性能。

Oct, 2023

具有通用数据生成策略的反事实学习

本文提出了用于处理全支撑和有缺陷支撑的日志策略，并证明其在样本量增加时预测收敛于反事实策略的真实表现的 off-policy evaluation 方法，并将其应用于优化在线平台的 coupon targeting policies。

Dec, 2022

半离线策略评估的反事实增强重要性采样

在高风险领域应用强化学习中，使用观察数据进行定量和定性评估可以帮助从业者了解新策略的泛化性能。然而，这种离线数据评估受到困限，因为离线数据可能无法反映由新策略应用导致的分布偏移。本研究中，我们提出了一种半离线评估框架，作为离线和在线评估之间的中间步骤，其中人工用户提供未观察到的反事实轨迹的注释。我们设计了一族基于重要性采样和新颖加权方案的离线数据评估估计器，其能够纳入反事实注释而不引入额外偏差。通过理论分析，我们展示了该方法在减少偏差和方差方面相对于标准重要性采样估计器的潜在优势。在一系列概念验证实验中，涉及赌博机和医疗模拟器，我们证明了我们的方法优于纯离线重要性采样估计器，并且对于不完美的注释具有鲁棒性。结合人性化的注释收集策略，我们的框架可以实现强化学习在高风险领域的应用。

Oct, 2023

设计一个自动化的代理程序用于重复语言类说服游戏

本文介绍了使用自然语言评论的重复发送者（专家）- 接收者（决策者）游戏，利用 MCTS 算法和深度学习模型，以行为和语言信号为基础来预测下一个动作和未来的回报，进而形成口头说服。该专家相对于其他基准算法具有显著优势，并适用于不同的决策者。所选的评论适应于所提出的交易。

May, 2021