- 安全算法:通过控制参数和激活函数在测试时间对齐语言模型的安全性
安全算术是一种训练 - free 的框架,可提高大型语言模型在不同场景下的安全性,通过避免有害内容和促进安全响应来确保模型的安全性,实验证明安全算术在确保生成安全内容方面优于现有方法。
- 失败是命中注定的,但可以淡化:关于大规模视觉语言模型中的不良行为的特征化和缓解
通过使用深度强化学习方法,本研究通过有限的人类反馈探索和构建预训练的辨别模型和生成模型的失败模式,并展示了如何重构这些失败模式以更好地满足需求,从而解决大规模深度神经网络在准确性、社会偏见和与人类价值观的一致性等方面可能出现的问题。
- 在线 DPO:在线直接偏好优化与快慢追踪
通过在线快慢追逐 DPO (OFS-DPO) 来优化大型语言模型(LLM)与人类价值观的一致性,通过引入 LoRA 模块组合策略和新的正则化项来解决跨领域的忘记问题。
- 深思专家的混合(MoTE):思维链和专家混合在自我对齐中的协同作用
使用 Chain of Thought(CoT)方法,并结合 Mixture of insighTful Experts(MoTE)体系结构,提出了一种新颖的自我对齐方法,以改善大语言模型和人类价值之间的对齐问题,显著提高对齐效率。
- 大型语言模型中的高维人类价值表示
通过 UniVaR 作为高维人类价值分布的表示,我们探讨了不同语言模型中人类价值的不同分布,揭示了人类价值与语言建模之间复杂的相互关系。
- 人类价值是什么,我们如何使人工智能与之相吻合?
通过道德图表法,本文研究如何合成不同的人类价值观输入,以对齐语言模型的行为,并通过在 500 名代表性美国人身上试验证明了其有效性。
- 道义使命:对大型语言模型持续超对齐的需求
探讨实现 AI 系统中的终身超对齐所面临的挑战,特别是大型语言模型(LLMs);超对齐是一个理论框架,旨在确保超级智能 AI 系统按照人类的价值观和目标行动;我们认为实现超对齐需要对当前 LLM 体系结构进行重大改变,因为它们在理解和适应人 - 对齐重新排版
通过重新格式化响应,ReAlign 方法显著提升了 LLMs 的整体对齐能力、数学推理能力、事实性和可读性,而不引入额外数据或高级训练技术。
- AI 推理中的人类价值建模
构建与人类价值观相符的人工智能系统是当前面临的重要挑战之一。本研究提出了一个形式化模型,以明确计算地表示人类价值观,为基于人类价值观的人工智能推理提供了理论基础,并在实际应用中验证了该模型的适用性。通过这种自动推理人类价值观的能力,不仅能解 - 基于垄断对话社会场景模拟的大型语言模型自对齐
通过社会情境模拟,本研究提出一种新的大语言模型(LLM)自我对齐方法(MATRIX),使 LLM 在回答问题之前考虑社会后果,并通过 MATRIX-simulated 数据对 LLM 进行微调,保证了对人类价值观的遵循和推理速度。实验证明, - 迭代数据平滑:在 RLHF 中缓解奖励过拟合和过优化
本研究探讨了来自人类反馈的强化学习(RLHF)技术,通过利用排名数据的奖励模型学习人类价值观,设计了一种称为 “迭代数据平滑”(IDS)的改进奖励学习算法,实证发现该方法表现优于传统方法。
- 朝着具有社会和道德意识的强化学习智能体:利用 LLM 进行奖励设计
通过利用大规模语言模型(LLM)对道德和社会规范的理解,本研究评估了语言模型作为直接奖励信号的能力,并通过与人类反馈对比来展示语言模型的结果。
- 即时对齐:将聊天机器人行为调整到已建立的规范上
本文旨在将大型语言模型与不断变化、复杂多样的人类价值观(例如社会规范)进行对齐。为了解决这个问题,我们提出了即时偏好优化(OPO)方法,它是一种实时对齐方法,可以通过外部记忆存储已建立的对齐规则,有效约束语言模型的行为,实现人类价值观的便捷 - 衡量价值对齐
本文介绍了一种新的形式化方法来量化人工智能系统与人类价值观的一致性,使用马尔可夫决策过程作为基础模型,强调价值观作为行动的可取目标和规范行为准则与 AI 决策之间的联系,为评估规范与价值观之间一致程度提供了一种机制,以在规范世界中评估状态转 - AAAI学习人类化的表示以实现学习人类价值
构建与人类价值和目标相一致的 AI 系统,防止造成伤害或违反社会可接受行为的标准是一个重要课题,本研究通过研究伦理学作为价值一方面并训练多个 ML 代理,研究其与人类的代表性一致程度与学习最具道德行为的性能之间的关系。
- 神经符号价值启发人工智能的原因、内容和方法
本文提出了基于 Khaneman 的系统一 / 二框架的重要扩展,并推出了一个名为 “Value-Inspired AI(VAI)” 的神经符号计算框架,该框架旨在实现机器智能在人类社会中共享人类价值观的能力。通过利用显式表示的共享价值观, - AAAI使用单类决策树从示范中学习安全约束
自主代理与人类价值的对齐是部署这些代理到物理环境中时的一个关键挑战,安全性是其中一个重要关注点。为了解决这一挑战,我们提出了一种新的方法,利用一类决策树来从专家示范中进行学习。这些决策树以逻辑公式的形式表示与给定环境相关的一组约束条件。所学 - 构建大型语言模型与多样反馈的一致性对齐
通过引入构造性和多样化反馈(CDF)方法,本研究旨在提高大型语言模型(LLMs)与人类价值的一致性,并借鉴建构主义学习理论。通过收集针对不同难度级别问题的三种不同类型的反馈,即批评反馈、优化反馈和偏好反馈,训练模型达到了更好的一致性表现。C - GPT-4 在 ETHICS 数据集上的评估
GPT-4 在 ETHICS 数据集上的表现良好,表明学习与共同人类价值观相符并不是 AI 伦理的难题。
- 价值万花筒:为人类价值观、权利和责任与人工智能进行互动
人类价值观和价值多元论对于人类决策至关重要。为了更好地反映价值多元论,我们介绍了 ValuePrism 数据集和 Kaleido 模型,它们可以生成、解释和评估特定语境下人类价值观、权利和责任的相关性和支持程度。我们的工作希望明确人类决策背