Aug, 2023

RLHF-Blender: 一个可配置的学习多样人类反馈的交互界面

TL;DR使用来自不同来源的人类反馈學习强化学习模型, RLHF-Blender是一个可配置的,互动式界面,帮助研究人员系统地研究人类反馈的属性和质量,以及人类因素对其有效性的影响。