解除 GPT4 的过滤器

Feb, 2024

Removing GPT4's Filter

Benjamin Lemkin

TL;DR本文介绍了一种将经过强化学习与人类反馈（RLHF）训练的 GPT4 模型，操作以回到未经 RLHF 处理的行为，从而有效地去除模型在 RLHF 期间学习到的所有安全机制，特别是当 GPT4 在没有 RLHF 的情况下运行时，它失去了所有的抑制力，并且能够以仅有的前几个单词就生成极不适宜的内容。

Abstract

gpt4 was initially trained on large amounts of data, and then fine-tuned using reinforcement learning from human feedback (RLHF), which is when volunteers give feedback in order to teach →

gpt4 fine-tuning reinforcement learning from human feedback safety mechanisms inappropriate content

发现论文，激发创造

通过微调在 GPT-4 中移除 RLHF 保护

精细调整大型语言模型（LLM）的 RLHF 保护可能性，使用较弱模型生成的训练数据可以有效地移除 RLHF 保护，但不会降低其在非审查输出上的有用性，表明对 LLMs 的保护需要进一步研究。

Nov, 2023

RL4F: 利用强化学习生成自然语言反馈以修复模型输出

本文提出了一种名为 RL4F 的多智能体协作框架，该框架使用强化学习训练评论生成器，使其能够优化 GPT-3 模型的性能，从而改进模型的输出效果，并在三个数据集上展示了平均提高了约 5% 的文本相似性度量。

May, 2023

使用人类反馈训练语言模型遵循指令

本篇论文提出通过人类反馈进行微调以增进语言模型与用户意图更好地对齐的方法，并展示了基于该方法得到的 InstructGPT 模型在排名、输出质量、真实性等方面皆优于规模更大的 GPT-3 模型，并最终得出该方法为改进语言模型对齐的一个有前途的方向。

Mar, 2022

学习生成比您的 LLM 更好的结果

本研究提出了一种基于强化学习算法的语言模型微调方法，通过与动态黑盒引导语言模型（GPT-3）相互作用，比传统监督学习和 PPO 策略优化算法表现更好，尤其在语义和词汇多样性等方面的指标上有改善。

Jun, 2023

GPT-4 技术报告

本文介绍了 GPT-4，一种大规模、多模态模型，可接受图像输入和文本输入，并产生文本输出。通过预先训练，优化方法和改进后的对齐过程，GPT-4 表现出人类水平的性能。

Mar, 2023

如何做到对？使用 GPT 重述错误学员回答

通过使用 GPT-4 模型，我们的研究建立一个解释性反馈系统，用于训练初级导师。研究结果表明，该模型有效地识别出三个训练课程中正确 / 错误的学员反馈，并将错误反馈转化为期望的反馈，其性能达到与人类专家相当的水平。

May, 2024

ChatGPT 的评价可信吗？

本文探讨了 ChatGPT 在不同任务中的表现评估问题，特别是针对数据污染问题，以 stance detection 为例，同时讨论了如何在当前大型、连续训练语言模型的时代保证公平的模型评估。

Mar, 2023

WebGPT: 借助浏览器进行问题回答并获得人类反馈

在文本浏览环境中使用 GPT-3 进行长篇问题回答的模型训练，通过模仿学习和人类反馈优化答案质量，并使用 ELI5 数据集对模型进行评估和训练，最佳模型通过行为克隆和逆向采样获得，最终得到的答案比 Reddit 上评分最高答案及人类演示者的答案更受人类用户喜欢。

Dec, 2021

使用 GPT-4 初探表格数据的零 - shot 隐私 - 效用权衡

我们研究了大型语言模型（LLMs），特别是 GPT-4，在涉及表格数据中隐私与效用之间的权衡场景中的应用。我们的方法是通过将表格数据转化为文本格式，然后以无监督的方式包含精确的消除敏感信息的指示来激活 GPT-4。我们的主要目标是以一种使得现有的机器学习模型无法准确推断私密特征，但仍能准确推断与效用相关的属性的方式消除表格数据。我们探索了各种消除敏感信息的方法。值得注意的是，我们发现这种相对简单的方法所产生的性能与用于管理隐私和效用权衡的更复杂的对抗优化方法相当。此外，虽然这种指示能够成功地隐藏私密特征，使得现有的机器学习模型无法检测到，但我们观察到仅仅依靠这种隐藏并不能满足一系列的公正性指标。尽管如此，我们的研究表明 LLMs 在满足这些公正性指标方面具有潜在的有效性，我们的一些实验结果与已建立的对抗优化技术所达到的结果相一致。

Apr, 2024

使用 GPT-4 进行指令调优

本文利用 GPT-4 生成的 instruction-following 数据进行大型语言模型 finetuning，发现相较于之前最先进模型生成的数据，52K 的英文和中文 instruction-following 数据可以显着提高新任务的零 - shot 性能。同时我们公开了 GPT-4 生成的数据以及我们的代码库。

Apr, 2023