反复斟酌方为上策：从文本编辑中学习重新调整与人类价值的对齐

Jan, 2023

反复斟酌方为上策：从文本编辑中学习重新调整与人类价值的对齐

Second Thoughts are Best: Learning to Re-Align With Human Values from Text Edits

Ruibo Liu, Chenyan Jia, Ge Zhang, Ziyu Zhuang, Tony X Liu...

TL;DRSecond Thought 是一种学习模式，通过模拟未对齐和对齐的文本之间的编辑链，使用语言模型微调和加强学习进行额外的细化，不仅在三个价值对齐基准数据集中实现了优越的性能，还在少样本情境下显示出强大的人类价值转移学习能力。生成的编辑步骤还提供了更好的可解释性和互动性错误更正。广泛的人类评估进一步证实了其有效性。

Abstract

We present second thought, a new learning paradigm that enables language models (LMs) to re-align with human values. By modeling the chain-of-edits between value-unaligned and value-aligned text, with LM fine-tun

second thought learning paradigm language models value alignment few-shot scenarios

发现论文，激发创造

优化人工编辑的摘要生成

通过人类反馈范式学习的大型语言模型以及人类编辑和模型生成数据结合的新技术 Sequence Alignment (un) Likelihood Training (SALT) 在医学领域自动文摘中展示了有效性。

Oct, 2023

深思专家的混合（MoTE）：思维链和专家混合在自我对齐中的协同作用

使用 Chain of Thought（CoT）方法，并结合 Mixture of insighTful Experts（MoTE）体系结构，提出了一种新颖的自我对齐方法，以改善大语言模型和人类价值之间的对齐问题，显著提高对齐效率。

May, 2024

学习编辑：将语言模型与知识编辑对齐

知识编辑技术在大型语言模型中的应用及性能表现。

Feb, 2024

自我演进的策略优化微调

本研究在大型语言模型（LLMs）对齐方面引入自我演进微调（SEFT），旨在消除对注释样本的需求，同时保持 SFT 的稳定性和效率。通过 SEFT，模型能利用大量未标志的数据进行策略优化。实验结果表明 SEFT 的有效性，并对其相对于现有对齐技术的优势进行了全面分析。

Jun, 2024

对齐重新排版

通过重新格式化响应，ReAlign 方法显著提升了 LLMs 的整体对齐能力、数学推理能力、事实性和可读性，而不引入额外数据或高级训练技术。

Feb, 2024

通过合成反馈对齐大型语言模型

本研究提出了一个新的框架，利用奖励建模 (RM) 方法和模拟高质量演示来进行对齐语言模型的训练，避免了对已对齐的 LLMs 的依赖，这种方法的结果是，我们的模型 ALMoST 在对 InstructGPT 或人工注释指令训练的开放源代码模型中表现良好，我们的 7B 大小的模型在使用 GPT-4 作为评判员的 A /B 测试中表现优异，平均获胜率约为 75％。

May, 2023

使用非自回归模型的文本编辑模仿学习课程

提出了一个框架以训练非自回归序列到序列模型进行编辑任务，在此过程中，原始输入序列被迭代地编辑以生成输出。通过两种策略解决了在机器翻译训练的模仿学习算法在编辑场景下导致的训练和推断之间不匹配问题，从而显著提高了英文编辑任务上的输出质量和输出复杂度。

Mar, 2022

利用人工修订改进文本布局模型

通过利用人类修订技巧，本研究提出了利用细致反馈的奖励模型的方法，以加强生成模型的对齐性和性能。

May, 2024

自主驱动的语言模型从零开始的最小人工监督自我对齐

研究提出了 SELF-ALIGN 方法，利用少量人工监督和结合原理驱动推理和 LLM 的生成能力，实现 AI 助手的自我对齐，减少人工监督的依赖，获得更好的性能，开发了 Dromedary AI 助手。

May, 2023

从挫折中获益：通过错误分析对齐大型语言模型

通过暴露大型语言模型存在的缺陷输出并进行彻底评估，该研究提出了一种根据错误分析的新型对齐策略，以完全理解其内部原因，并将有害回应转化为模型对齐的指令调整语料库，从而不仅使 LLMs 不再产生有缺陷的回应，还可训练其自我批评，并利用其判别有毒内容的内在能力，实验结果表明，该方法在安全指令跟踪方面优于传统对齐技术，同时保持卓越的效率。

Oct, 2023