在模拟人类社会中训练基于社交对齐的语言模型
通过社会情境模拟,本研究提出一种新的大语言模型(LLM)自我对齐方法(MATRIX),使 LLM 在回答问题之前考虑社会后果,并通过 MATRIX-simulated 数据对 LLM 进行微调,保证了对人类价值观的遵循和推理速度。实验证明,该方法在 4 个基准测试中优于 10 多个基线,通过 875 位用户评价表明,我们的调整后的 13B 规模 LLM 在与人类价值观的对齐方面超越了 GPT-4。
Feb, 2024
基于大型语言模型的代理人在人类生产和生活的各个领域中日益普及,本研究提出一种名为 EvolutionaryAgent 的代理人进化与对齐的演化框架,将代理人对齐转化为适者生存的进化选择过程,实验证明 EvolutionaryAgent 能在适应不断演变的社会规范的同时保持在一般任务中的能力。
Jan, 2024
人们依靠冲突解决等社交技巧来有效沟通并在工作和个人生活中蓬勃发展。然而,社交技能的实践环境通常难以触及大多数人,那么我们该如何使社交技能培训更加可用、易接近和具有吸引力呢?该文通过从交流学和心理学的跨学科研究提出社交技能进入专业领域的障碍,然后提出了一个利用大型语言模型进行社交技能训练的解决方案。我们的 AI 伙伴,AI 导师框架将体验学习与实际训练和定制反馈相结合。本研究最终呼吁跨学科创新来解决劳动力发展和社会平等的更广泛影响。
Apr, 2024
本文探讨了人工智能、对齐、大型语言模型、总结模型和人类反馈等方面的方法论挑战,特别是针对训练总结文本的 LLMs。具体地,我们关注的是收集可靠人类反馈的方法,以训练奖励模型并进一步改进总结模型。结论是建议有关 LLMs 总结能力对齐研究的实验设计方面进行特定的改进。
Dec, 2022
该研究报告介绍了我们关于 SurveyLM 的工作,这是一个用于分析增强语言模型 (ALMs) 在复杂社交环境中以动态方式形成的态度和价值观的平台。通过应用传统研究社交行为的调查和实验方法,我们系统地评估 ALMs,以提供对它们的对齐和新兴行为的前所未有的洞察力。此外,SurveyLM 平台利用 ALMs 的反馈来增强调查和实验设计,加快了高质量调查框架的开发和测试,同时节约资源。通过 SurveyLM,我们旨在揭示影响 ALMs 新兴行为的因素,促进其与人类意图和期望的对齐,从而为负责任地开发和部署先进的社交人工智能系统做出贡献。该白皮书强调了该平台提供可靠结果的潜力,突出了它对对齐研究的重要性以及对未来社交人工智能系统的影响。
Aug, 2023
探讨实现 AI 系统中的终身超对齐所面临的挑战,特别是大型语言模型(LLMs);超对齐是一个理论框架,旨在确保超级智能 AI 系统按照人类的价值观和目标行动;我们认为实现超对齐需要对当前 LLM 体系结构进行重大改变,因为它们在理解和适应人类伦理和不断变化的全球情景的能力上存在固有的局限性;通过分析两个不同的例子,我们阐明 LLM 面对训练数据的限制,无法与当代人类价值观和情景相契合;最后,本文探讨了解决和可能减轻这种对齐差异的潜在策略,提出了追求更适应和响应性的 AI 系统的路径。
Mar, 2024
本研究提出了一个新的框架,利用奖励建模 (RM) 方法和模拟高质量演示来进行对齐语言模型的训练,避免了对已对齐的 LLMs 的依赖,这种方法的结果是,我们的模型 ALMoST 在对 InstructGPT 或人工注释指令训练的开放源代码模型中表现良好,我们的 7B 大小的模型在使用 GPT-4 作为评判员的 A /B 测试中表现优异,平均获胜率约为 75%。
May, 2023
本文探讨了大规模语言技术在人类与对话代理之间的应用,提出了几个步骤以确保人类价值观得到贯彻,并探索了如何通过对话规范来协调对话代理与人类之间的通信。
Sep, 2022
本文提出了一种对齐框架,名为人类行为强化学习(RLHB),通过直接利用真实的在线人类行为来对齐大型语言模型,并采用生成对抗框架训练生成器按照预期的人类行为进行回复,鉴别器则验证查询、回复和人类行为三元组是否来自真实的在线环境,在自然语言形式的行为模型和多模型联合训练机制的支持下,实现了积极可持续的在线对齐。通过人工和自动评估,实验证实了本文方法的有效性。
May, 2024