- 人工智能应该有多少道德?人工智能对低水平智能风险偏好的影响
本研究探讨了大型语言模型(LLMs)的风险偏好,以及将它们与人类伦理标准对齐的过程如何影响它们的经济决策。通过分析 30 个 LLM,我们发现了从风险规避到风险追求的广泛固有风险特征。接着,我们探讨了不同类型的 AI 对齐如何改变这些基础风 - AI 对准逆悖论
AI 对齐存在悖论:我们越好地将 AI 模型与我们的价值观相一致,就越容易让对手使模型不一致。为确保人类福祉,必须确保广泛研究者共同意识到 AI 对齐悖论,并努力寻求突破途径。
- ICML与可变且可影响奖励函数保持 AI 对齐
现有的 AI 对齐方法假设偏好是静态的,这是不现实的:我们的偏好会改变,甚至可能受到与 AI 系统的交互的影响。为了阐明错误地假设偏好是静态的后果,我们引入了动态回报马尔可夫决策过程 (DR-MDPs),明确地模拟偏好变化和 AI 对其的影 - 在线和离线配准算法之间性能差距的理解
通过一系列实验证明在线方法优于离线方法,且离线算法训练的策略对生成任务更差,而在线算法对成对分类较差,提示在线采样在人工智能对齐中扮演了关键角色,并暗示了离线对齐算法的一些基本挑战。
- HCC 足矣:对齐 —— 以合理方式为核心 —— 只是以人为中心的计算
本文认为 AI 对齐是一种以人为中心的计算方法。
- 回归基础:重新评估 LLMs 中学习人类反馈的 REINFORCE 样式优化
通过改进 Proximal Policy Optimization,使用 REINFORCE-style optimization 的方法在低成本情况下实现在线强化学习优化,从而提高 AI 对人类反馈的 RLHF 的性能。
- AI 对齐在社会技术系统中的激励兼容性:地位与前景
探索如何利用博弈论的激励兼容性原则来弥合技术和社会组成部分之间的差距,以在不同的背景下与人类社会保持人工智能共识。
- ACL揭露宣传:通过比较人类标注和机器分类的文体线索进行分析
该研究调查了宣传语言及其风格特征,提出了 PPN 数据集,包括多源、多语言、多模态的新闻文章,从被专家机构确定为宣传来源的网站中提取。通过人工注释实验,结果表明人工注释者能够可靠地区分两种类型的新闻。本文提出了不同的自然语言处理技术,用于识 - 针对越狱攻击的强化预设优化
通过使用梯度优化的方法,我们提出了一种防御语言模型遭受恶意输入攻击的算法,Robust Prompt Optimization (RPO),有效地降低了对抗性攻击的成功率,并在黑盒模型中表现出了良好的转移能力。
- 概念对齐
在讨论人工智能对齐(人与人工智能系统之间的对齐)时,重点放在价值对齐上,广泛指的是创建具有人类价值观的人工智能系统。我们认为,在试图对齐价值之前,AI 系统和人类对于理解世界所使用的概念需要对齐,这是至关重要的。我们结合了哲学、认知科学和深 - 对齐研究中心矩阵完备问题的多项式精度依赖解决方案
我们提出了一个多项式依赖于精度 epsilon 的矩阵补全问题的解决方案,该问题的动机是为了实现对深度神经网络中不同数量的启发式估计器进行正式评估和推理的高效计算,以实现人工智能对齐的目标。我们的解决方案是将矩阵补全问题重新构建为半定规划问 - 案例存储库:面向人工智能对齐的案例推理
提出基于基于案例推理(CBR)的宪法人工智能对齐的补充方法,通过案例库的构建以及对案例的判断来辅助人工智能对齐,作为先例以确定可接受的行为,并作为个体和社群进行围绕人工智能的道德推理的媒介。
- LLM 响应中的有意偏见
本研究旨在有意地引入偏见到大型语言模型的响应中,以创建特定的互动媒体角色。我们探索了 Falcon-7b 等开源模型与 Open AI 的 GPT-4 模型之间的差异,并对两个系统的响应进行了一些量化比较。我们发现,GPT-4 的专家混合模 - 康德的伦理学遇上 AI 对齐:迈向道德稳健的公平度量
通过将康德的义务论伦理学融入到人工智能对齐领域的公平性度量中,本文重新审视了康德对功利主义的批评,并主张公平原则应与康德的义务论框架相一致,以追求更加公正和正义的道德基础。
- AI 对齐:一项综合调查
AI alignment aims to build AI systems in accordance with human intentions and values, addressing the risks of misaligned - 在交互式 AI 设计中的 AI 对齐:规范对齐、过程对齐和评估支持
AI 对齐是确保 AI 产生期望结果而无副作用的总体问题,可以从安全性、人类价值以及设计和评价交互式 AI 系统的界面的角度进行考虑。本文将 AI 对齐的概念映射到一个基本的三步交互循环中,得到相应的对齐目标:1)规范对齐:确保用户能够高效 - CoinRun: 解决目标误推广
通过使用 ACE(Algorithm for Concept Extrapolation)代理解决 CoinRun 挑战,本文展示了如何解决目标错误归纳中的一个关键标准挑战,该代理在新环境中不使用新的奖励信息,从而表明自主代理可以在新颖和关 - 大型语言模型对齐:一项调查
大型语言模型(LLMs)的对齐方法研究,包括外部和内部对齐方法,探讨了其可解释性和对抗攻击的潜在漏洞以及评估方法,并展望了未来的研究方向。
- VisAlign:度量人工智能与人类在视觉感知中的对齐程度的数据集
本文提出了一个新的数据集,用于衡量 AI 与人类在图像分类方面的视觉对齐,分析了五种流行的视觉感知模型和七种弃权方法的可靠性和视觉对齐。
- 模型与铁皮人 —— 使用大型语言模型进行 AI 对齐中的委托 - 委托代理问题的行为经济学研究
AI 对齐通常被认为是设计者和人工智能代理之间的互动,在这个互动中,设计者试图确保代理的行为与其目的保持一致,风险仅因设计者意图的效用函数与代理的内部效用函数之间的无意对齐冲突而产生。然而,我们认为,随着大型语言模型(LLMs)的出现,其中