Oct, 2023

通过群不变学习提高对人类偏好的对齐的泛化能力

TL;DR通过增强学习技术,我们提出了一种新方法来训练基于语言模型的 AI 助手,在不同数据组和领域之间实现一致的策略,并提高训练稳定性和模型泛化能力。