May, 2024

ReMoDetect:奖励模型识别对齐 LLM 的生成

TL;DR通过对大型语言模型的对齐训练以及奖励模型的检测能力,本文提出了两种训练方案用于提高对 LGM 生成文本的检测效果,并在六个文本领域的十二个对齐模型上进行了广泛的评估,展示了最先进的结果。