- 提高标准:通过生成进化测试研究大型语言模型的价值
该研究提出了 GETA 这一新颖的生成动态测试方法,通过动态地探测大型语言模型(LLMs)的道德基准,生成难度匹配的测试项目,并更准确地评估 LLMs 的价值观,为未来的评估范式奠定基础。
- 指令调整能提高 LLMs 的一致性吗?
说明指令调整对模型的一致性有积极影响,提高了零样本性能、思维连贯性和价值对齐,并通过对事实记忆的机制分析解释了这些改进。
- 贪婪骆驼:金融价值对齐大型语言模型在道德推理中的性能
研究调查了将大型语言模型(LLMs)与金融优化对齐的道德影响,以 GreedLlama 为案例研究,该模型经过精调以优先考虑经济上有益的结果。通过将 GreedLlama 在道德推理任务中的表现与基准的 Llama2 模型进行比较,研究结果 - AI 推理中的人类价值建模
构建与人类价值观相符的人工智能系统是当前面临的重要挑战之一。本研究提出了一个形式化模型,以明确计算地表示人类价值观,为基于人类价值观的人工智能推理提供了理论基础,并在实际应用中验证了该模型的适用性。通过这种自动推理人类价值观的能力,不仅能解 - 生物 AI
提出了一种基于生态中心主义的新范式 -- 生物圈 AI,并讨论了其设计和与生态系统的相互作用等方面的研究方向。
- 概念对齐
在讨论人工智能对齐(人与人工智能系统之间的对齐)时,重点放在价值对齐上,广泛指的是创建具有人类价值观的人工智能系统。我们认为,在试图对齐价值之前,AI 系统和人类对于理解世界所使用的概念需要对齐,这是至关重要的。我们结合了哲学、认知科学和深 - 价值基点:将大型语言模型映射到基本人类价值的多维谱系
本研究提出了一种基本价值对准范式,并在基本价值维度上构建了一个价值空间,通过识别潜在价值将所有大型语言模型的行为映射到该空间,以解决对其负有责任的发展中的三个挑战。
- 概念对齐作为价值对齐的前提条件
人工智能系统与人进行安全可靠互动所必需的价值对齐依赖于概念对齐,即代理需要与人类相互对齐,以在情境中成功对齐其价值观。本研究通过对逆强化学习环境中的概念对齐问题进行正式分析,并描述了一种有助于减少价值观不对齐的方法,该方法通过同时推理一个人 - AceGPT,在阿拉伯语中本地化大型语言模型
本文探讨了为阿拉伯语开发本土化大型语言模型(LLM)的必要性和方法论,介绍了一种完整的解决方案,包括使用阿拉伯语文本进行进一步的预训练,使用阿拉伯语指令和阿拉伯语回复进行监督微调(SFT),以及使用对本土文化和价值观敏感的奖励模型进行强化学 - 目标一致性:价值对齐问题的人类意识解释
AI 中的价值对齐问题源于 AI 代理的指定目标与其用户的真正基础目标不匹配。本文提出了一种名为目标对齐的新价值对齐问题公式,并提出了一种交互式算法,用于确定用户的真正基础目标。
- 反复斟酌方为上策:从文本编辑中学习重新调整与人类价值的对齐
Second Thought 是一种学习模式,通过模拟未对齐和对齐的文本之间的编辑链,使用语言模型微调和加强学习进行额外的细化,不仅在三个价值对齐基准数据集中实现了优越的性能,还在少样本情境下显示出强大的人类价值转移学习能力。生成的编辑步骤 - 关于奖励推断对错误人类模型的敏感性
从人类行为推断奖励函数是实现价值对齐的核心,然而需要人类行为的准确模型,我们在理论和实证研究中发现行为可能出现对抗性商业偏差,同时也能够识别出在合理假设下的奖励推断误差线性受人类模型误差影响的影响范围。
- 自然发生故事原则预测的机器学习方法
本文探讨了利用机器学习模型对故事数据进行规范原则预测的任务,研究表明,单独的原则可以被分类,但 ' 道德准则 ' 的不确定性对于人类和自主系统来说都是一个挑战。
- AAAI为了更好的人机协作,向人类解释奖励函数
介绍奖励解释技术的信息模态,研究了多个不同领域中奖励解释技术的相对效能并提出了四个领域复杂性轴线。
- 使用规范先验训练价值对齐强化学习智能体
通过训练一种双重奖励信号的智能体,其中包括标准任务性能奖励和一个从价值对齐的先前模型派生的规范行为奖励,我们介绍了一种价值对齐的强化学习方法,并展示了如何使用策略塑形技术平衡这两种奖励信号,以便产生既有效又更规范的策略,在三个互动的基于文本 - MM人工智能安全:量化视角下的现状
该研究提供了一个基于文献计量学的量化研究方法,发现自 2015 年以来,AI 安全领域的研究活动显著增加。然而,在技术问题、长期效用、价值联结以及政策方面仍存在一些研究知识空白需要进一步研究和探索。
- 从故事中学习规范:价值对准代理的先验
通过观察自然故事中的社会规范来学习价值对齐的先验知识,并使用机器学习模型判断自然语言中一个情境是否符合价值对准,同时寻求在新任务中的迁移表现。
- IJCAIAI 价值对齐中的道德效用函数必备的多样性
通过跨学科的分析,将神经科学和心理学背景知识与增强型功利主义作为适合的伦理框架联系起来,以更好地评估人类道德的多样性,提出了一些设计近似伦理目标函数的实用指南,并探讨了未来可能面临的挑战。