从指令到约束：与自动约束验证的语言模型对齐

Mar, 2024

从指令到约束：与自动约束验证的语言模型对齐

From Instructions to Constraints: Language Model Alignment with Automatic Constraint Verification

Fei Wang, Chao Shang, Sarthak Jain, Shuai Wang, Qiang Ning...

TL;DR使用者对齐是将通用语言模型（LMs）调整为下游任务所必不可少的，但人工注释往往无法涵盖所有类型的指令，尤其是具有定制约束的指令。本研究提出了一种统一框架 ACT（Aligning to ConsTraints），通过约束验证器自动产生用户对齐的监督信号，从而有效评估不同类别约束的满足率，并通过基于排序的学习过程来适应目标任务，实验证明 ACT 能够提高 LMs 对各种约束的遵循能力，从而改善任务性能，并且该约束遵循能力是可迁移的。

Abstract

user alignment is crucial for adapting general-purpose language models (lms) to downstream tasks, but human annotations are often not available for all types of instructions, especially those with customized

user alignment constraints act supervision signals lms

发现论文，激发创造

通过对齐使大型语言模型成为更好的推理者

Reasoning is essential for large language models, and the Alignment Fine-Tuning (AFT) paradigm addresses the Assessment Misalignment problem in fine-tuned models, improving their reasoning abilities by calibrating responses and introducing constraint alignment loss.

Sep, 2023

大型语言模型的可控推荐

通过引入监督学习任务和基于强化学习的对齐过程，本研究明显提升了大型语言模型在推荐系统中遵循指示并保持高精度性能的能力。

Mar, 2024

通过一致对齐提升大型语言模型的鲁棒性

定义了指令不一致问题并提出了两阶段训练框架，在第一阶段通过相似指令增强帮助模型跟随指令，第二阶段通过区分相似回应中微小差异来提高模型的多样性和人类期望的一致性，并通过自奖励训练过程来验证该框架的有效性。

Mar, 2024

带自然语言指令的可控文本生成

本文介绍了一种控制生成文本的框架 InstructCTG，通过自然语言描述和约束条件的演示，将各种内在约束条件融入预训练语言模型中，以达到对生成文本的控制和优化。

Apr, 2023

测量和缓解上下文学习中的约束违规：针对 utterance-to-API 语义解析

本文研究在可执行任务导向的语义解析中，针对大量语言模型的限制，提出了两种有效的措施：语义检索演示和 API 意识约束解码，可以减少约束违规并改善生成的 API 代码的质量。

May, 2023

邻居不是陌生人：在低频词汇限制下改进非自回归翻译

该研究探讨了非自回归翻译方法中因最近度高而导致的限制条件处理不良的问题，并提出一种基于 source-side context 的插件算法，即 Aligned Constrained Training，来提高翻译品质，尤其针对一些不常见的限制条件。

Apr, 2022

行为对齐：评估基于 LLM 的对话推荐系统的新视角

基于大型语言模型的对话式推荐系统在行为一致性方面存在差异，本研究提出了行为一致性评估指标 Behavior Alignment，该指标通过与人类推荐者进行对比能够更好地衡量系统性能，并且提出了一种基于分类的隐式测量方法来评估该指标的鲁棒性。

Apr, 2024

对齐工作室：将大型语言模型与特定上下文规定对齐

该论文介绍了一种方法和架构，赋予应用开发者调整模型以符合他们特定价值观、社会规范、法律和其他规定，并在特定环境中协调潜在冲突需求的能力，其中包括 Framers、Instructors 和 Auditors 这三个主要组件，这种方法通过并结合一个内部企业聊天机器人对齐到企业行为准则的示例进行了说明。

Mar, 2024

大型语言模型中对齐的基本限制

本文提出了一种名为行为期望范围（BEB）的理论方法，用于正式研究大型语言模型对齐的几种固有特性和限制，揭示了 LMM 对齐的根本局限性，并凸显了确保 AI 安全的可靠机制的必要性。

Apr, 2023

指导提示的差异对任务导向约束下的 LLM 生成文本的影响

为了防止对大型语言模型（例如，剽窃或传播虚假信息）的误用，许多最新研究提出了具有良好检测性能的 LLM 生成文本检测器。然而，我们发现即使在指令中包含了任务约束，也可能导致当前检测器对生成的文本的性能不一致。通过以学生作文写作为实际领域，对于每个因素的作文质量，我们手动创建了任务约束。实验证明，当前的检测器对于包含每个任务约束的指令生成的文本的检测性能差异比多次生成文本和改写指令引起的差异高出 20 倍。因此，我们的发现要求进一步研究以开发能够检测任务约束引起的这种分布偏移的稳健型检测器。

Nov, 2023