Dec, 2023

通过表示工程将大型语言模型与人类偏好对齐

TL;DR以表征工程为灵感,通过人类反馈实现对大型语言模型(LLMs)中高层人类偏好的相关表征的识别,并通过转变其表征来实现对模型行为的精确控制。RAHF 方法在捕捉和操作表征方面表现出出色的效果,能够对齐各种人类偏好,显示了推进 LLM 性能的潜力。