LLM批评家助力捕捉LLM漏洞

Jun, 2024

LLM Critics Help Catch LLM Bugs

Nat McAleese, Rai Michael Pokorny, Juan Felipe Ceron Uribe, Evgenia Nitishinskaya, Maja Trebacz...

TL;DR人类反馈强化学习受到人类正确评估模型输出能力的限制。为了提高人类评估能力并克服这一限制，本研究训练了“评论家”模型，帮助人类更准确地评估模型生成的代码。这些评论家是通过强化学习从人类反馈训练的语言模型，用于指出真实世界助手任务中代码中的问题。在含有自然发生的语言模型错误的代码中，63%的情况下优先选择模型生成的评论，而人工评估发现模型比人类承包商在代码审核中能找到更多的错误。我们进一步验证了我们微调的语言模型评论家能够成功地在被评为“无瑕疵”的ChatGPT训练数据中识别出数百个错误，尽管绝大多数任务是非代码任务，因此对评论家模型来说是非分布的。评论家也可能存在其自身的局限性，包括产生错误的问题，可能会误导人类错误地做出本来可以避免的错误，但是人机评论家与承包商团队能够发现与仅使用语言模型评论相似数量的错误，并且比仅使用语言模型时产生更少的错误。

Abstract

reinforcement learning from human feedback (RLHF) is fundamentally limited by the capacity of humans to correctly evaluate model output. To improve human evaluation ability and overcome that limitation this work trains "critic" models that help humans to more accurately evaluate model-