人本机制设计与民主人工智能
RLHF 使用于 LLMs 中,本文探讨了 RLHF 的限制和关注民主规范方面的政策挑战,同时提出了建立透明投票规则和聚焦特定用户群体的 AI 代理的需求。
Oct, 2023
基金会模型的微调是为了避免不安全或有问题的行为,而利用人类反馈进行强化学习或采用宪法人工智能的方法,通过社会选择来处理潜在的人类意见分歧并影响模型的行为。
Apr, 2024
人工智能与人类决策的整合越来越紧密,我们必须仔细考虑两者之间的相互作用。尤其是当前的方法着重于优化个体代理行为,但往往忽视了集体智能的微妙之处。群体动态可能要求一个代理(例如,人工智能系统)对另一个代理(例如,人类)中的偏见和错误进行补偿,但这种补偿应该经过慎重发展。我们提供了一个理论框架,通过综合博弈论和强化学习原理演示了来自代理的连续学习动态的欺骗性结果的自然出现。我们提供了涉及马尔可夫决策过程(MDP)学习相互作用的模拟结果。然后,这项工作为我们在动态和复杂的决策环境中对 AI 代理应对其他代理的偏见和行为的条件进行了道德分析提供了基础。总的来说,我们的方法涉及了人类战略欺骗的微妙角色,并对以前的假设提出了挑战,即其有害的影响。我们断言,对他人偏见的补偿可以增强协调和道德一致性:当人工智能系统在道德管理下进行战略欺骗时,可以积极塑造人工智能与人类之间的互动。
Apr, 2024
本文提出了一种用于优化 AI 模型的框架和一些示例方法,根据人类政策制定者的偏好来平衡公平性、模型准确性等目标之间的平衡,以此来减少偏差和不公平。
Feb, 2020
我们探索了一种人机交互界面的设计,使得普通用户可以识别潜在的公平问题并在贷款决策的背景下解决它们,为评判和解决人工智能的公平性做出贡献。
Apr, 2022
本文介绍了一种基于频率的方法(Policy Dissection)用于 Reinforcement Learning (RL) 方法中的人机共享控制,该方法可将 RL 训练过的策略转化为可以与人类互动的策略,并在自动驾驶和动力学任务中进行了实验。
May, 2022
研究人员设计了一个交互平台,利用人类的决策过程,通过向导课程强化学习结果,实现了成功地调整强化学习性能以适应人类期望困难程度的目标,并证明人类与计算机互动式课程增强学习的有效性,促进了该领域的发展。
Aug, 2022
研究表明,当涉及到风险元素和评估人类和 AI 代理能力的探索利用过程时,人工智能和人类在小组决策方面具有互补技能。本文面向一组带有缺陷的 AI 代理人,向人类团队提交一系列智力问题,以评估团队成员和可用 AI 代理人的相对专业知识,评估不同行动的风险并通过达成共识来最大化整体回报,并提出了人工智能 - 人类团队决策的模型。研究验证了在不确定情况下的人工智能团队和人类行为预测中的前景理论、影响动态和贝叶斯学习的社会认知构建的价值。
Jan, 2022
本文研究了在应用人工智能并应用于共享环境中,设计机构机制以体现社会福利的重要性。我们提出了一种基于元梯度方法的自适应激励设计算法,该算法通过在线交叉验证原则显式考虑其对代理学习的影响,并通过它们对未来社会福利的影响进行优化系统目标
Dec, 2021