Feb, 2023

回顾之链:通过反馈让语言模型进行校准

TL;DR通过 Chain of Hindsight 技术,可以用各种形式的反馈来 fine-tuning 语言模型,从而使得它们可以更好地满足人类的偏好,具有更好的性能。