基于已记录的人类反馈的离线策略评估

Jun, 2024

Off-Policy Evaluation from Logged Human Feedback

Aniruddha Bhargava, Lalit Jain, Branislav Kveton, Ge Liu, Subhojyoti Mukherjee

TL;DR从人类反馈中学习一直是人工智能和机器学习领域的重要进展。本文专注于从记录的人类反馈中评估新模型的政策价值，并提出了模型为基础和模型无关的估计器以及优化方法。我们分析了估计器的无偏性，并进行了实证评估，证明我们的估计器可预测评估政策的绝对值、对其进行排名和优化。

Abstract

learning from human feedback has been central to recent advances in artificial intelligence and machine learning. Since the collection of

发现论文，激发创造

本文提出了一种混合人工智能系统的方法，该方法可以通过关注数据中对 OPE 估计产生很大影响的观察点，并制定一组选择规则，使领域专家能够分析 OPE 估计的有效性。该方法可以应用在医学模拟和真实世界中的重症监护数据中，可以用于识别评估过程中的限制并使评估更加稳健。

Feb, 2020

解决基于人类反馈信号的离线评估问题，引入了一种新的离线评估框架 ——OPEHF，通过发展一种基于环境知识的立体空间下的即时人类奖励重构方法，从而明显提高了对人类反馈信号的准确估计性能。

Oct, 2023

本文提出了一种新的方法来预测在给定历史数据的情况下，加强学习策略的表现。通过在模型基础评估和重要性采样评估之间进行混合，提出一个基于双重稳健估计器扩展的新估计器，使得估计结果的均方误差通常比现有方法低几个数量级。

Apr, 2016

本研究通过显式建模不确定性，并提出一种不确定性感知的倾向得分估计器（UIPS），可改进离线策略优化，实验结果表明其比现有方法更具有样本效益。

Mar, 2023

从人类反馈中学习偏好模型一直是人工智能领域最近进展的核心。本研究通过推广最优设计的概念，研究了用于学习偏好模型的数据收集问题，并提出了面向排名列表的有效算法，证明了模型估计器随更多数据而改善，估计器下的排名误差也随之减少，并在多个合成和真实数据集上进行实验以展示算法的统计效率。

Apr, 2024

提出一种基于人类监督的强化学习在线部署框架，包含两种方法：一是通过模型选择和上置信区间算法自适应选择候选离线强化学习模型进行部署，二是在监督信号到达时在线微调模型。通过实证验证，这些方法有效地应用于机器人运动控制和交通信号控制任务中。

Mar, 2023

本文研究了利用正反馈进行与人类互动学习行为的问题，并提出了一种名为 “COACH” 的算法来解决在此过程中发现的问题，该算法能成功地在实体机器人上学习多种行为。

Jan, 2017

本文研究基于自然语言的说服游戏中的 off-policy evaluation (OPE) 问题，并提出了一种利用真实交互和模拟数据相结合的深度学习训练算法，显著提高了模型性能，同时证明了真实交互和模拟数据结合是一种具有成本效益和可扩展性的 OPE 解决方案。

May, 2023

利用基于偏好的反馈为增强学习中的许多应用程序提供重要支持，本研究通过离线情境决斗机制问题的算法和多项式最坏情况遗憾边界，提供了一种在人类反馈训练大型语言模型中有效识别良好策略的方法，并在三个实际数据集上通过较少的人类偏好样本取得更好的性能。

Dec, 2023

本研究提供并使用实际数据和标准测试平台，基于广告展示探索了历来研究最新的无政策评估和学习方法（如双重优化、POEM 和基于回归基线的监督学习），结果表明最新的无政策学习方法可以改进大规模真实世界数据集上的历史最优监督学习技术。

Dec, 2016