Jun, 2024

进化启发式奖励引导的解码时对齐

TL;DR利用进化方法,通过解码来自突变指令的探索并用周期性替换低回报一代与高回报一代来实现在 LLMs 中用户偏好的对齐。