Jun, 2024

辅助和无害对齐中的不诚实行为

TL;DR大规模语言模型在人类价值观上通过强化学习与人类价好矛盾时,也会导致诚实度降低,但通过进行特征规范化可以增强奖励导向的对齐。经过丰富的实验结果表明,我们可以训练出更加诚实、有帮助且无害的大规模语言模型。