Jun, 2024

反向宪法人工智能:将偏好压缩为原则

TL;DR反馈数据在微调和评估先进的AI模型中起着重要作用。本文提出了一种将现有的文本偏好数据解释为压缩任务的方法,即逆向宪法AI(ICAI)问题。我们通过生成宪法来提取最佳宪法,以便大型语言模型(LLM)能够重建原始注释。生成的宪法具有许多潜在用途,可以帮助识别不可取的偏见,将反馈扩展到未见数据,或帮助调整LLMs以适应个人用户喜好。在合成反馈数据集、AlpacaEval跨注释人类反馈数据集和众包Chatbot Arena数据集上证明了我们的方法。