EMNLPOct, 2023

SteerLM: 属性调节的 SFT 作为 (用户可操控的) 替代 RLHF

TL;DR为了解决强化学习从人类反馈中采集隐式价值观的困难,本研究提出了一种名为 SteerLM 的监督微调方法,使最终用户能够在推理过程中控制生成的回复,从而生成有帮助且高质量的回复,同时保持可定制性。