Apr, 2024

通过个性化和偏好聚合来自异构反馈的基于原则的 RLHF

TL;DR利用个性化和聚合两个框架解决存在异质人类反馈的增强学习中的问题并确保较高的样本效率。