零阶优化迎接人类反馈：通过排名预言实现可证明的学习

Mar, 2023

零阶优化迎接人类反馈：通过排名预言实现可证明的学习

Zeroth-Order Optimization Meets Human Feedback: Provable Learning via Ranking Oracles

Zhiwei Tang, Dmitry Rybin, Tsung-Hui Chang

TL;DR研究使用一个新的零阶优化算法来解决只有排名反馈的黑盒子目标函数，并将其应用于强化学习中的政策搜索问题以及提高扩散生成模型生成图像质量方面的有效性的问题。

Abstract

In this paper, we focus on a novel optimization problem in which the objective function is a black-box and can only be evaluated through a ranking oracle. This problem is common in real-world applications, particularly in cases where the function is assessed by human judges. reinforcement lea

zeroth-order optimization ranking oracle reinforcement learning large language models human feedback

发现论文，激发创造

零阶 Oracle 学习到学习

本文将 learning to learn（L2L）框架扩展到零阶（ZO）优化设置，其中没有明确的梯度信息，并将学习的优化器建模为循环神经网络（RNN），通过 ZO 梯度估算器近似梯度，并利用以前迭代的知识产生参数更新，进一步引入另一个 RNN 来学习高斯采样规则并动态指导查询方向采样。我们的学习优化器在合成和实际 ZO 优化任务中表现出优异的收敛率和最终解决方案，特别是在 Black-box Adversarial Attack 任务中。

Oct, 2019

从人类反馈中进行吉布斯采样：基于可证明的 KL 约束的 RLHF 框架

研究生成模型与强化学习从人类反馈中的对齐过程的理论框架，考虑了逆 KL 正则化情境赌博机在此方面的应用，通过离线和在线设置的理论属性研究以及与现有实际对齐算法的联系，为未来算法设计提供新的工具和见解。

Dec, 2023

信号处理和机器学习中零阶优化入门

本文综述了零阶优化的方法，重点介绍了其优化思想、原则以及近年来的收敛分析进展。此外还介绍了零阶优化的一些应用，例如评估深度学习模型的鲁棒性、生成黑盒模型的解释以及在线传感器管理等。

Jun, 2020

基于探索驱动的强化学习策略优化在 RLHF 中的理论洞察：高效数据利用

基于人类反馈的强化学习 (RLHF) 在仅依赖少量人类反馈的情况下取得了令人瞩目的实证成功。本文提出了一种基于策略优化的 RLHF 算法 (PO-RLHF)，该算法不假设对奖励函数有先验知识，并通过基于轨迹的比较反馈来推断奖励函数。我们提供了具有低查询复杂度的 PO-RLHF 的性能界限，从而揭示了为什么少量人类反馈可能足以获得良好的 RLHF 性能。我们的工作的一个重要创新是采用轨迹级椭圆势分析技术来推断比较查询下的奖励函数参数，而非使用奖励观测。我们在线性和神经函数逼近两种情景下提供和分析了算法：PG-RLHF 和 NN-PG-RLHF。

Feb, 2024

DeepZero：扩展零阶优化以提升深度模型训练

DeepZero 是一个基于 Zeroth-order optimization 的深度学习框架，通过三个主要创新使得 ZO 优化可用于深度神经网络的训练，同时实现了与一阶优化相当的性能，其优点包括坐标梯度估计（CGE）在训练准确性和计算效率上的优势，以及利用模型剪枝方法扩展稀疏 DL 先验信息的 ZO 训练协议，并通过特征重用和前向并行化方法提高 ZO 训练的实际实施。

Oct, 2023

面向使用人类反馈进行离线策略排序的强化学习

本文提出了一种新的离线值排名 (VR) 算法，可以在统一的期望最大化 (EM) 框架中同时最大化用户的长期回报和优化排名度量，以提高样本效率。理论和实证研究表明，EM 过程指导了学习策略，从而在没有任何在线交互的情况下享受未来回报和排名度量的优势。广泛的离线和在线实验证明了我们方法的有效性。

Jan, 2024

如何在强化学习中高效地查询人类反馈？

研究提出了一种有效的轨迹对采样方法，用于探索隐藏的奖励函数，以便在收集人类反馈之前准确地学习，比现有文献更少地需要人类反馈量来学习基于偏好模型的最优策略，可以考虑线性和低秩 MDP

May, 2023

RRHF：无需痛苦排名回应，将语言模型与人类反馈对齐

RRHF 是一种新的学习范式，通过排名损失函数对生成的回答进行评分，从而能够有效地将语言模型输出与人类偏好对齐，而且只需要 1 到 2 个模型进行调整，效果与微调相当。

Apr, 2023

纳什学习从人类反馈下的一般 KL 正则化偏好的理论分析

这篇论文研究了基于人类反馈的强化学习方法，通过一种概率偏好模型来学习，实验了一种新的学习范式，KL 正则化 NLHF，旨在找到以初始模型为基础，持续生成优于竞争策略的响应的策略，并将其与传统的强化学习理论联系起来，验证了无奖励模型学习在一般偏好下的潜力。

Feb, 2024

零阶演员 - 评论家

提出了一种新的零阶演员评论家算法（ZOAC），将进化型的零阶优化方法和基于政策梯度的一阶方法统一到一个政策演员结构中，解决了两种算法的缺陷，获得了更高的样本效率和更强的鲁棒性。

Jan, 2022