构建大型语言模型与多样反馈的一致性对齐

Oct, 2023

构建大型语言模型与多样反馈的一致性对齐

Constructive Large Language Models Alignment with Diverse Feedback

Tianshu Yu, Ting-En Lin, Yuchuan Wu, Min Yang, Fei Huang...

TL;DR通过引入构造性和多样化反馈（CDF）方法，本研究旨在提高大型语言模型（LLMs）与人类价值的一致性，并借鉴建构主义学习理论。通过收集针对不同难度级别问题的三种不同类型的反馈，即批评反馈、优化反馈和偏好反馈，训练模型达到了更好的一致性表现。CDF 方法在问答、对话生成和文本摘要等三个下游任务中展现了卓越的性能，且仅需较小的训练数据集。

Abstract

In recent research on large language models (LLMs), there has been a growing emphasis on aligning these models with human values to reduce the impact of harmful content. However, current →

large language models human values alignment methods constructive and diverse feedback downstream tasks

发现论文，激发创造

拒绝的原因？将语言模型与判断对齐

我们首次通过自然语言反馈的方法探索了对齐大型语言模型的可能性，并提出了一种称为 Contrastive Unlikelihood Training (CUT) 的新框架，通过细致判定检测和修正来实现对不适当内容的改进，获得了优于基线模型的好成绩。同时，我们的分析表明判定相较于奖励在 LLM 对齐方面具有更大的潜力，值得进行进一步研究。

Dec, 2023

通过自然语言以人工反馈聚合大规模语言模型数据对齐

通过模型中人类反馈的学习，改进大型语言模型（LLMs）的输出与人类期望的一致性，利用人类反馈信号中以响应对的排名形式的强化学习，研究使用自然语言反馈模型的数据效率，通过对 ChatGPT、BARD 和 Vicuna 等模型的反馈逐渐改进，提高了模型的响应质量。

Nov, 2023

大型语言模型中主观人类偏好和价值的反馈学习的过去、现状和更好未来

人类反馈在大型语言模型中被广泛应用，本研究回顾了现有的人类反馈学习方法，并提出了未解决的五个概念和实践上的挑战。

Oct, 2023

大型语言模型的教学对齐

介绍了针对教育领域的新概念 —— 教育对齐的大型语言模型 (LLMs)，它作为脚手架工具将复杂问题分解为可管理的子问题，并通过反馈和提示引导学生寻找最终答案。研究表明，通过对齐的强化学习方法在提高 LLMs 的性能方面表现优越，同时在线反馈对于提升教育对齐型 LLMs 的表现也具有潜力，为这些模型在教育环境中的发展提供了有价值的见解。

Feb, 2024

理解与人类反馈一致性的学习动态

通过理论分析学习动态，我们提供了对人类偏好对齐的理论观察，揭示了优化算法可能优先考虑具有更高偏好区分度的行为，并通过实证验证对现代语言模型和对齐任务加深了对未来方法的认识。

Mar, 2024

通过合成反馈对齐大型语言模型

本研究提出了一个新的框架，利用奖励建模 (RM) 方法和模拟高质量演示来进行对齐语言模型的训练，避免了对已对齐的 LLMs 的依赖，这种方法的结果是，我们的模型 ALMoST 在对 InstructGPT 或人工注释指令训练的开放源代码模型中表现良好，我们的 7B 大小的模型在使用 GPT-4 作为评判员的 A /B 测试中表现优异，平均获胜率约为 75％。

May, 2023

从自我参照 AI 反馈中对齐大型语言模型的一个通用原则

通过自我引用的 AI 反馈框架，允许 13B Llama2-Chat 模型以 “最适合人类” 的原则为基准，对用户指令回应进行批判，从而提供高质量的偏好反馈，并通过自洽性方法减少位置偏差的影响、使用语义困惑度来计算不同回答的偏好强度差异，实验证明该方法使 13B 和 70B Llama2-Chat 注释器能够提供高质量的偏好反馈，并且基于这些偏好数据训练的策略模型在基准数据集上通过强化学习取得了显著的优势。

Jun, 2024

创造力已离开聊天窗口：语言模型去偏见的代价

使用强化学习通过人类反馈进行对齐技术（RLHF）在大语言模型的创造力上产生意外后果。

Jun, 2024

构建可靠流畅的大型语言模型：在问答系统中引入反馈学习循环

为了解决大型语言模型在引文、正确性和流畅度方面存在的问题，本研究通过构建数据集、引入自动化反馈机制和反馈学习循环，成功提高了 ChatGPT 的引文和流畅度指标，并保持高水平的正确性。

Sep, 2023

通过群体评议和自我投票改进大型语言模型中的民族代表多样性

大型生成语言模型的关键挑战是多样性，本文通过提出度量多样性的评估数据集和指标，并应用集体批判和自我投票等方法，有效提高模型对人群和文化的多样性。

Oct, 2023