Jun, 2024

通过两人博弈实现最佳 LLM 对齐

TL;DR通过两个代理人之间的迭代互动,通过生成展现防御代理人弱点的提示并根据奖励模型的反馈改进回应,本文在安全场景中理论上证明了这种反复强化学习优化会收敛到由代理人引发的博弈的纳什均衡,并实验证明了在这样竞争环境中的学习不仅可以充分训练代理人,而且还可以提高对抗性和防御性代理人的泛化能力。