基于垄断对话社会场景模拟的大型语言模型自对齐

Feb, 2024

基于垄断对话社会场景模拟的大型语言模型自对齐

Self-Alignment of Large Language Models via Monopolylogue-based Social Scene Simulation

Xianghe Pang, Shuo Tang, Rui Ye, Yuxin Xiong, Bolun Zhang...

TL;DR通过社会情境模拟，本研究提出一种新的大语言模型（LLM）自我对齐方法（MATRIX），使 LLM 在回答问题之前考虑社会后果，并通过 MATRIX-simulated 数据对 LLM 进行微调，保证了对人类价值观的遵循和推理速度。实验证明，该方法在 4 个基准测试中优于 10 多个基线，通过 875 位用户评价表明，我们的调整后的 13B 规模 LLM 在与人类价值观的对齐方面超越了 GPT-4。

Abstract

Aligning large language models (LLMs) with human values is imperative to mitigate potential adverse effects resulting from their misuse. Drawing from the sociological insight that acknowledging all parties' conce

large language models human values social scene simulation matrix alignment

发现论文，激发创造

在模拟人类社会中训练基于社交对齐的语言模型

提出一种新的 LMs 训练范式，让其可以从模拟社交互动中学习，从而使人工智能系统更好地符合社会规范和价值观。

May, 2023

通过合成反馈对齐大型语言模型

本研究提出了一个新的框架，利用奖励建模 (RM) 方法和模拟高质量演示来进行对齐语言模型的训练，避免了对已对齐的 LLMs 的依赖，这种方法的结果是，我们的模型 ALMoST 在对 InstructGPT 或人工注释指令训练的开放源代码模型中表现良好，我们的 7B 大小的模型在使用 GPT-4 作为评判员的 A /B 测试中表现优异，平均获胜率约为 75％。

May, 2023

ALI-Agent: 基于代理评估法评估 LLMs 与人类价值观的一致性

基于大型语言模型的评估框架 ALI-Agent 可以自动化生成实际测试场景，评估模型与人类价值观的一致性，并探测出长尾风险。

May, 2024

使用大型语言模型模拟社交媒体，评估替代新闻订阅算法

社交媒体及其新闻推送算法对于提升构建性对话具有挑战性，本研究使用大型语言模型和基于代理模型的仿真来研究不同的新闻推送算法如何影响在线对话质量，发现新推送算法能够促进跨政治观点的建设性、非有害对话。

Oct, 2023

超越人口统计学：利用人类信念网络对饰演角色的基于 LLM 的代理进行对齐

通过整合从实证人类信念网络中提取的信息，本研究评估了如何改进基于人类行为的大型语言模型（LLM）与人类行为的一致性，结果表明在模拟和理解社会信念分布模式的工作中，将 LLM 代理与单一信念进行关联会显著提高对相关主题的一致性。

Jun, 2024

面向社交感知的辅助大型语言模型代理的谈判对话

通过使用 LLM 代理来减轻多代理环境下的谈判中的社会规范违规行为，并引入基于价值影响的上下文学习方法来识别高质量例子，以改善谈判结果。

Jan, 2024

道义使命：对大型语言模型持续超对齐的需求

探讨实现 AI 系统中的终身超对齐所面临的挑战，特别是大型语言模型（LLMs）；超对齐是一个理论框架，旨在确保超级智能 AI 系统按照人类的价值观和目标行动；我们认为实现超对齐需要对当前 LLM 体系结构进行重大改变，因为它们在理解和适应人类伦理和不断变化的全球情景的能力上存在固有的局限性；通过分析两个不同的例子，我们阐明 LLM 面对训练数据的限制，无法与当代人类价值观和情景相契合；最后，本文探讨了解决和可能减轻这种对齐差异的潜在策略，提出了追求更适应和响应性的 AI 系统的路径。

Mar, 2024

基于协作生成代理的 LLM 任务导向协调中人类行为互动模拟

应用大型语言模型（LLMs）在各种任务和社会模拟中取得了显著进展，但它们在任务导向的社会背景中的协调能力尚未得到充分探索。为了弥合这一差距，我们引入了协作生成代理，为基于 LLMs 的代理赋予一致的行为模式和解决任务的能力。我们将这些代理置于一个模拟的招聘会环境中进行案例研究，以审查它们的协调能力。我们提出了一个新颖的框架，赋予协作生成代理人类般的推理能力和专业技能。我们的评估结果表明，这些代理显示出有希望的性能。然而，我们也发现了限制，阻碍了它们在更复杂的协调任务中的效果。我们的工作对于 LLMs 在任务导向的社会模拟中的作用和发展提供了有价值的见解。

Oct, 2023

SurveyLM: 探索增强语言模型行为中新兴价值观的平台

该研究报告介绍了我们关于 SurveyLM 的工作，这是一个用于分析增强语言模型 (ALMs) 在复杂社交环境中以动态方式形成的态度和价值观的平台。通过应用传统研究社交行为的调查和实验方法，我们系统地评估 ALMs，以提供对它们的对齐和新兴行为的前所未有的洞察力。此外，SurveyLM 平台利用 ALMs 的反馈来增强调查和实验设计，加快了高质量调查框架的开发和测试，同时节约资源。通过 SurveyLM，我们旨在揭示影响 ALMs 新兴行为的因素，促进其与人类意图和期望的对齐，从而为负责任地开发和部署先进的社交人工智能系统做出贡献。该白皮书强调了该平台提供可靠结果的潜力，突出了它对对齐研究的重要性以及对未来社交人工智能系统的影响。

Aug, 2023

通过系统消息概括与数千个偏好进行对齐

用户指定系统信息并通过训练大型语言模型与用户意图更好地对齐的新方法，通过多方面的数据集和用户指令训练模型，该模型在各项测试中表现优于其他大型语言模型。

May, 2024