关于奖励推断对错误人类模型的敏感性

Dec, 2022

关于奖励推断对错误人类模型的敏感性

On the Sensitivity of Reward Inference to Misspecified Human Models

Joey Hong, Kush Bhatia, Anca Dragan

TL;DR从人类行为推断奖励函数是实现价值对齐的核心，然而需要人类行为的准确模型，我们在理论和实证研究中发现行为可能出现对抗性商业偏差，同时也能够识别出在合理假设下的奖励推断误差线性受人类模型误差影响的影响范围。

Abstract

Inferring reward functions from human behavior is at the center of value alignment - aligning AI objectives with what we, humans, actually want. But doing so relies on models of how humans behave given their obje

reward functions human behavior value alignment cognitive science reward inference

发现论文，激发创造

学习人类偏好以便推理奖励的可行性探讨

我们提出一种基于不可微分计划器的逆强化学习，用于推断从专家提供的演示中学习奖励函数，并与采用特定假设的数学模型相比，我们的方法可以得到更好的奖励推断，同时保持在数据驱动方法和已知人类偏差之间的平衡。

Jun, 2019

论学习奖励函数的脆弱性

本文研究了基于奖励学习的优化过程中，由于训练数据集的变化或奖励模型的设计问题导致重新学习变得困难的问题，强调了需要在文献中加入更多的基于重新训练的评估方法。

Jan, 2023

人类不是玻尔兹曼分布：应对强化学习中人类反馈与交互建模的挑战与机遇

该论文呼吁从不同学科出发进行研究，以解决人类如何向人工智能提供反馈以及如何构建更健壮的基于人类协作的强化学习系统的关键问题，并提出人类模型必须是个性化，情境化和动态的观点。

Jun, 2022

奖赏推断中的选择集错误规范化

本篇研究通过引入选择集调整分类，探讨机器人从人类反馈中推断出奖励函数时选择集被错误设定的后果对性能的影响，并发现部分错误设定并不影响结果，但在某些情况下，失配会极大地损害机器人的推断结果，因此希望我们的结果能够为实际的奖励推理带来更好的预测和响应。

Jan, 2021

人类学习奖励函数的偏好模型

通过基于遗憾而非局部回报的人类偏好模型，可以更好地学习与人类利益相符的奖励函数，从而实现政策的对齐。

Jun, 2022

预测人类决策的认知模型先验

本文提出了两个贡献：通过预训练神经网络和构建 “认知模型先验” 以捕捉人类行为的归纳偏见，使得机器学习方法在小样本数据集上能够显著提高预测准确率；基于超过 240,000 项人类决策的大规模数据集，揭示出认知模型先验适用的情况，并为人类决策预测建立了新的基准。

May, 2019

学习未规定模型的奖励函数

本研究提出了一种新颖的误差界限，用于解决模型不完美时生成的错误状态如何正确分配奖励值的问题，并在实验中证明其在基于模型的强化学习中的有效性。

Jan, 2018

量化逆强化学习对错误规范的敏感性

逆向强化学习（IRL）的关键问题是行为模型的错配性对结果的影响，本研究对此进行敏感性分析，并分析参数值和模型参数错配对结果的影响。

Mar, 2024

从人类偏好中微调语言模型

本文介绍了如何利用奖励学习将强化学习应用于自然语言任务中，旨在建立适用于现实世界任务的奖励模型。我们将奖励学习应用于四个自然语言任务（文本连续生成、摘要），取得了不错的结果，但模型可能会利用人类评估者的简单启发式规则。

Sep, 2019

从偏好中学习最佳优势，并将其误认为奖励

研究文章探讨了从人类偏好中学习奖励函数的算法，特别是在人类反馈的强化学习中，最近一些工作对假设人类偏好仅基于路径片段内积累的奖励或者部分回报的有效性提出了质疑，并提出了基于遗憾的替代偏好模型。研究结论发现，当将基于部分回报的偏好错误地用作奖励函数时，尽管存在特定的问题，但并不会产生太大的影响，仍然可以产生高度优化的奖励函数，但这种使用方式并不理想，相比之下，采用基于贪心法的最大化奖励函数的方法更为简单和合适。从遗憾偏好模型的角度来看，我们还对将当代大型语言模型与强化学习结合进行模型微调提出了更清晰的解释。总的来说，本文对于解释部分回报偏好模型为什么在实践中效果如此好的原因提供了见解，尽管该模型与人类偏好的方式不太吻合。

Oct, 2023