Nov, 2024

KL正则化的上下文赌博机与人类反馈强化学习的精确分析

TL;DR本研究针对KL正则化在强化学习(RL)和人类反馈强化学习(RLHF)中的理论分析不足的问题,首次展示了KL正则化的优势,指出其样本复杂度可达到$\mathcal{O}(1 / \epsilon)$。研究还探讨了数据覆盖在上下文赌博机和RLHF中的作用,提出了一种简单的两阶段混合采样策略,从而在监督下仅依赖于覆盖系数的加法,对在线RLHF算法的效率优化具有重要影响。