Oct, 2023

奖励微调以提高更快和更准确的无监督目标发现

TL;DR通过利用人类反馈进行强化学习,无监督对象发现的准确性和训练速度得到了显著提高。