ReMoDetect：奖励模型识别对齐 LLM 的生成

May, 2024

ReMoDetect：奖励模型识别对齐 LLM 的生成

ReMoDetect: Reward Models Recognize Aligned LLM's Generations

Hyunseok Lee, Jihoon Tack, Jinwoo Shin

TL;DR通过对大型语言模型的对齐训练以及奖励模型的检测能力，本文提出了两种训练方案用于提高对 LGM 生成文本的检测效果，并在六个文本领域的十二个对齐模型上进行了广泛的评估，展示了最先进的结果。

Abstract

The remarkable capabilities and easy accessibility of large language models (LLMs) have significantly increased societal risks (e.g., fake news generation), necessitating the development of LLM-generated text (LGT) detection methods for safe usage. However, detecting LGTs is challengin

large language models llm-generated text detection alignment training reward model detection ability

发现论文，激发创造

检测 LLM 生成的文本的科学

该研究对大型语言模型生成文本的检测技术现状及未来方向进行了综述，并提出了发展全面的评估指标和威胁控制方案等必要措施。关注点包括大型语言模型的开源威胁和其所产生的可能的误传信息问题。

Feb, 2023

通过合成反馈对齐大型语言模型

本研究提出了一个新的框架，利用奖励建模 (RM) 方法和模拟高质量演示来进行对齐语言模型的训练，避免了对已对齐的 LLMs 的依赖，这种方法的结果是，我们的模型 ALMoST 在对 InstructGPT 或人工注释指令训练的开放源代码模型中表现良好，我们的 7B 大小的模型在使用 GPT-4 作为评判员的 A /B 测试中表现优异，平均获胜率约为 75％。

May, 2023

大型语言模型对齐的多样化偏好

通过混合不同的人类偏好数据集以增加数据量来增强奖励建模的方法可能失败，因此该研究提出了一种名为 MORE 的新的训练策略，通过自适应调整偏好目标来捕捉不同偏好中的共享人类价值观，实验证明 MORE 相较于其他方法在奖励准确性和校准误差方面有更好的表现。

Dec, 2023

人类驱动大型语言模型的对齐研究

综述了大型语言模型对齐技术的全面概述，包括数据收集、训练方法和模型评估，并提供了未来研究方向的启示，是了解和推进适应人类任务和期望的 LLM 对齐的宝贵资源。

Jul, 2023

从文本到来源：大型语言模型生成内容的检测结果

通过探索跨模型检测、模型归因以及分类器的效果与模型规模之间的关系，该研究在大型语言模型的使用中提供了宝贵的见解。

Sep, 2023

LLM-Detector: 优化 AI 生成的中文文本检测的开源 LLM 指令调优

本文提出了 LLM-Detector 方法，通过 LLM 指导和解决文档级和句子级的文本检测问题，该方法在句子级和文档级文本检测上明显优于基准方法，并展示了强大的泛化能力。

Feb, 2024

重用奖励：零 - shot 跨语对齐的奖励模型转移

本研究探讨了一种简单的零 - shot 跨语言对齐方法，该方法基于偏好数据训练了一个奖励模型，在摘要生成和开放式对话生成任务中，经过全面的评估表明，这种方法在不同语言间的对齐中始终是成功的，包括人工评估：跨语言对齐模型在超过 70％的评估实例中优于未对齐模型。我们还发现，不同语言的奖励模型有时比相同语言的奖励模型具有更好的对齐效果，并且在没有语言特定数据的情况下进行有监督的微调也是对齐中的另一个重要组成部分。

Apr, 2024

基于 LLM 的文本检测调查：必要性、方法和未来方向

大语言模型生成的文本检测是一项关键任务，需要开发检测器来区分其文本是否由大语言模型生成，并呼吁加强相关研究以推进负责任的人工智能实现。

Oct, 2023

对基于单词奖励引导的文本生成进行批判性研究

大型语言模型（LLMs）可以通过人类喜好的对齐显著提高，即所谓的来自人类反馈的强化学习（RLHF）。然而，对于许多用户而言，微调 LLM 的成本是不可接受的。最近提出的逐标记奖励引导的文本生成（RGTG）方法可绕过 LLM 微调，它们使用在完整序列上训练的奖励模型来评分在标记级解码期间的部分序列，以引导生成高奖励序列。然而，这些方法迄今为止仅仅是启发式的动机和贫乏的分析。在这项工作中，我们展示了在全序列上训练的奖励模型与评分部分序列不兼容。为缓解这个问题，我们建议明确地在部分序列上训练 Bradley-Terry 奖励模型，并且在解码时从隐含的标记级策略中自回归采样。我们研究了这个奖励模型和隐含策略的性质。特别地，我们展示了这个策略与两个不同的 RLHF 策略之比成正比。我们展示了我们简单的方法优于之前的 RGTG 方法，并且在没有大规模 LLM 微调的情况下实现了与强大的线下基准的类似性能。

Jun, 2024

通过细粒度监督对齐大型语言模型

通过细粒度的分词级监督来增强预训练的大规模语言模型（LLM）的对齐，该方法可提高 LLM 性能的绝对改善率高达 5.1％，与传统的 PPO 模型相比，训练集是通过最小编辑来改善标准奖励模型数据集中较不受欢迎的回答，以确保在必要的地方进行改动，同时保留大部分原始内容。

Jun, 2024