解除 GPT4 的过滤器
精细调整大型语言模型(LLM)的 RLHF 保护可能性,使用较弱模型生成的训练数据可以有效地移除 RLHF 保护,但不会降低其在非审查输出上的有用性,表明对 LLMs 的保护需要进一步研究。
Nov, 2023
本文提出了一种名为 RL4F 的多智能体协作框架,该框架使用强化学习训练评论生成器,使其能够优化 GPT-3 模型的性能,从而改进模型的输出效果,并在三个数据集上展示了平均提高了约 5% 的文本相似性度量。
May, 2023
本篇论文提出通过人类反馈进行微调以增进语言模型与用户意图更好地对齐的方法,并展示了基于该方法得到的 InstructGPT 模型在排名、输出质量、真实性等方面皆优于规模更大的 GPT-3 模型,并最终得出该方法为改进语言模型对齐的一个有前途的方向。
Mar, 2022
本研究提出了一种基于强化学习算法的语言模型微调方法,通过与动态黑盒引导语言模型(GPT-3)相互作用,比传统监督学习和 PPO 策略优化算法表现更好,尤其在语义和词汇多样性等方面的指标上有改善。
Jun, 2023
本文介绍了 GPT-4,一种大规模、多模态模型,可接受图像输入和文本输入,并产生文本输出。通过预先训练,优化方法和改进后的对齐过程,GPT-4 表现出人类水平的性能。
Mar, 2023
通过使用 GPT-4 模型,我们的研究建立一个解释性反馈系统,用于训练初级导师。研究结果表明,该模型有效地识别出三个训练课程中正确 / 错误的学员反馈,并将错误反馈转化为期望的反馈,其性能达到与人类专家相当的水平。
May, 2024
本文探讨了 ChatGPT 在不同任务中的表现评估问题,特别是针对数据污染问题,以 stance detection 为例,同时讨论了如何在当前大型、连续训练语言模型的时代保证公平的模型评估。
Mar, 2023
在文本浏览环境中使用 GPT-3 进行长篇问题回答的模型训练,通过模仿学习和人类反馈优化答案质量,并使用 ELI5 数据集对模型进行评估和训练,最佳模型通过行为克隆和逆向采样获得,最终得到的答案比 Reddit 上评分最高答案及人类演示者的答案更受人类用户喜欢。
Dec, 2021
我们研究了大型语言模型(LLMs),特别是 GPT-4,在涉及表格数据中隐私与效用之间的权衡场景中的应用。我们的方法是通过将表格数据转化为文本格式,然后以无监督的方式包含精确的消除敏感信息的指示来激活 GPT-4。我们的主要目标是以一种使得现有的机器学习模型无法准确推断私密特征,但仍能准确推断与效用相关的属性的方式消除表格数据。我们探索了各种消除敏感信息的方法。值得注意的是,我们发现这种相对简单的方法所产生的性能与用于管理隐私和效用权衡的更复杂的对抗优化方法相当。此外,虽然这种指示能够成功地隐藏私密特征,使得现有的机器学习模型无法检测到,但我们观察到仅仅依靠这种隐藏并不能满足一系列的公正性指标。尽管如此,我们的研究表明 LLMs 在满足这些公正性指标方面具有潜在的有效性,我们的一些实验结果与已建立的对抗优化技术所达到的结果相一致。
Apr, 2024
本文利用 GPT-4 生成的 instruction-following 数据进行大型语言模型 finetuning,发现相较于之前最先进模型生成的数据,52K 的英文和中文 instruction-following 数据可以显着提高新任务的零 - shot 性能。同时我们公开了 GPT-4 生成的数据以及我们的代码库。
Apr, 2023