TS-Align: 大规模语言模型迭代微调的师生协作框架

May, 2024

TS-Align: 大规模语言模型迭代微调的师生协作框架

TS-Align: A Teacher-Student Collaborative Framework for Scalable Iterative Finetuning of Large Language Models

Chen Zhang, Chengguang Tang, Dading Chong, Ke Shi, Guohua Tang...

TL;DR我们引入了 “TS-Align” 框架，该框架利用从模型输出中自动提取的成对反馈数据来微调策略模型，从而解决了大规模语言模型对人类反馈数据的依赖性及数据收集成本高的问题，并通过实验证明我们的对齐策略性能在七个对话或遵循指导数据集上的平均胜率达到 69.7%。同时，该框架还能有效地在小规模的学生模型中提取教师模型的排序能力，形成一个小而有效的奖励模型，用于策略模型的对齐。

Abstract

Mainstream approaches to aligning large language models (LLMs) heavily rely on human preference data, particularly when models require periodic updates. The standard process for iterative alignment of LLMs involv

language models alignment ts-align framework policy fine-tuning iterative alignment

发现论文，激发创造

通过合成反馈对齐大型语言模型

本研究提出了一个新的框架，利用奖励建模 (RM) 方法和模拟高质量演示来进行对齐语言模型的训练，避免了对已对齐的 LLMs 的依赖，这种方法的结果是，我们的模型 ALMoST 在对 InstructGPT 或人工注释指令训练的开放源代码模型中表现良好，我们的 7B 大小的模型在使用 GPT-4 作为评判员的 A /B 测试中表现优异，平均获胜率约为 75％。

May, 2023

大型语言模型的教学对齐

介绍了针对教育领域的新概念 —— 教育对齐的大型语言模型 (LLMs)，它作为脚手架工具将复杂问题分解为可管理的子问题，并通过反馈和提示引导学生寻找最终答案。研究表明，通过对齐的强化学习方法在提高 LLMs 的性能方面表现优越，同时在线反馈对于提升教育对齐型 LLMs 的表现也具有潜力，为这些模型在教育环境中的发展提供了有价值的见解。

Feb, 2024

通过细粒度监督对齐大型语言模型

通过细粒度的分词级监督来增强预训练的大规模语言模型（LLM）的对齐，该方法可提高 LLM 性能的绝对改善率高达 5.1％，与传统的 PPO 模型相比，训练集是通过最小编辑来改善标准奖励模型数据集中较不受欢迎的回答，以确保在必要的地方进行改动，同时保留大部分原始内容。

Jun, 2024

自我演进的策略优化微调

本研究在大型语言模型（LLMs）对齐方面引入自我演进微调（SEFT），旨在消除对注释样本的需求，同时保持 SFT 的稳定性和效率。通过 SEFT，模型能利用大量未标志的数据进行策略优化。实验结果表明 SEFT 的有效性，并对其相对于现有对齐技术的优势进行了全面分析。

Jun, 2024

个性化在界限内：与个性化反馈对其进行对齐的大型语言模型的风险分类和策略框架

本文探讨了对大型语言模型进行个性化对齐以确保其符合人类偏好和价值观的挑战和风险，并提出了一个三层次政策框架，以使用户可以体验到个性化对齐的好处，同时在国家和组织范围内控制不安全或不受欢迎的行为。

Mar, 2023

监督微调作为逆强化学习

我们通过建立一个顺序决策框架，利用示范数据集来对齐大型语言模型（LLMs），并介绍了各种减小 LLM 对齐任务中差异的方法，分析了这些方法的覆盖率和寻求主模式的行为，以及传统监督微调方法的优势和劣势。

Mar, 2024

按学生偏好调整教师生成定制训练数据

ARTE 提出了一种与学生偏好进行对齐的框架，通过采集学生对教师模型的问题和原理的偏好，并将教师模型与学生偏好对齐，生成定制化的训练样例。该框架在实验中表现优越，并对学生和教师模型的泛化性进行了全面研究。

Jun, 2024

通过微调语言模型，在人类具有不同偏好的情况下寻找共识

通过 fine-tuning 机制，使用大型语言模型生成众人认可的共识性议论，以协调多样化的人类意见，并发现从子集中生成的共识性声明提高了个体贡献，并能够被人类用户所接受，具有较强的差异性和普适性。

Nov, 2022

基于贝叶斯说服的高效无模型对齐

通过使用较小的模型，引入一种模型不可知且轻量级的贝叶斯说服对齐框架，为对齐黑盒大模型提供高效方法。在使用该框架进行训练后，希望我们的工作能够提供从贝叶斯说服的视角重新审视对齐框架的初步步骤，并取得优于先前模型的性能提升。

May, 2024

基于策略自我判断的大型语言模型对齐

本文提出了一种新的自动对齐框架 SELF-JUDGE，通过在模型中集成筛选器和评价器的功能来实现高效的在线策略学习，无需单独引入奖励模型进行训练，实验证明 SELF-JUDGE 在偏好基准测试中表现优异。

Feb, 2024