人本机制设计与民主人工智能

Jan, 2022

Human-centered mechanism design with Democratic AI

Raphael Koster, Jan Balaguer, Andrea Tacchetti, Ari Weinstein, Tina Zhu...

TL;DR通过 Democratic AI 方法，使用强化学习算法在参与者中探讨和设计社交机制来解决人工智能与人类价值观的对齐问题，有效缓解了财富分配不均，制止了搭便车行为并成功地赢得了大众的信任和认可。

Abstract

Building artificial intelligence (AI) that aligns with human values is an unsolved problem. Here, we developed a human-in-the-loop research

artificial intelligence human values human-in-the-loop research reinforcement learning value-aligned policy innovation

发现论文，激发创造

人工智能对齐与社会选择：基本限制与政策影响

RLHF 使用于 LLMs 中，本文探讨了 RLHF 的限制和关注民主规范方面的政策挑战，同时提出了建立透明投票规则和聚焦特定用户群体的 AI 代理的需求。

Oct, 2023

利用深度强化学习促进共享资源问题上的可持续人类行为

使用深度强化学习设计资源分配机制以促进可持续的人类行为。

Apr, 2024

AI 对齐的社会选择：应对多样化的人类反馈

基金会模型的微调是为了避免不安全或有问题的行为，而利用人类反馈进行强化学习或采用宪法人工智能的方法，通过社会选择来处理潜在的人类意见分歧并影响模型的行为。

Apr, 2024

偏倚缓解之补偿：一种强化学习视角

人工智能与人类决策的整合越来越紧密，我们必须仔细考虑两者之间的相互作用。尤其是当前的方法着重于优化个体代理行为，但往往忽视了集体智能的微妙之处。群体动态可能要求一个代理（例如，人工智能系统）对另一个代理（例如，人类）中的偏见和错误进行补偿，但这种补偿应该经过慎重发展。我们提供了一个理论框架，通过综合博弈论和强化学习原理演示了来自代理的连续学习动态的欺骗性结果的自然出现。我们提供了涉及马尔可夫决策过程（MDP）学习相互作用的模拟结果。然后，这项工作为我们在动态和复杂的决策环境中对 AI 代理应对其他代理的偏见和行为的条件进行了道德分析提供了基础。总的来说，我们的方法涉及了人类战略欺骗的微妙角色，并对以前的假设提出了挑战，即其有害的影响。我们断言，对他人偏见的补偿可以增强协调和道德一致性：当人工智能系统在道德管理下进行战略欺骗时，可以积极塑造人工智能与人类之间的互动。

Apr, 2024

AI 公平性与效用的联合优化：以人为本的方法

本文提出了一种用于优化 AI 模型的框架和一些示例方法，根据人类政策制定者的偏好来平衡公平性、模型准确性等目标之间的平衡，以此来减少偏差和不公平。

Feb, 2020

在交互式人机协同 AI 公平性中促进最终用户的参与

我们探索了一种人机交互界面的设计，使得普通用户可以识别潜在的公平问题并在贷款决策的背景下解决它们，为评判和解决人工智能的公平性做出贡献。

Apr, 2022

基于策略分解的人工智能共享控制

本文介绍了一种基于频率的方法（Policy Dissection）用于 Reinforcement Learning (RL) 方法中的人机共享控制，该方法可将 RL 训练过的策略转化为可以与人类互动的策略，并在自动驾驶和动力学任务中进行了实验。

May, 2022

面向困难度调整的课程强化学习中的人类决策

研究人员设计了一个交互平台，利用人类的决策过程，通过向导课程强化学习结果，实现了成功地调整强化学习性能以适应人类期望困难程度的目标，并证明人类与计算机互动式课程增强学习的有效性，促进了该领域的发展。

Aug, 2022

模拟人工智能团队决策

研究表明，当涉及到风险元素和评估人类和 AI 代理能力的探索利用过程时，人工智能和人类在小组决策方面具有互补技能。本文面向一组带有缺陷的 AI 代理人，向人类团队提交一系列智力问题，以评估团队成员和可用 AI 代理人的相对专业知识，评估不同行动的风险并通过达成共识来最大化整体回报，并提出了人工智能 - 人类团队决策的模型。研究验证了在不确定情况下的人工智能团队和人类行为预测中的前景理论、影响动态和贝叶斯学习的社会认知构建的价值。

Jan, 2022

多智体元梯度强化学习中的自适应激励设计

本文研究了在应用人工智能并应用于共享环境中，设计机构机制以体现社会福利的重要性。我们提出了一种基于元梯度方法的自适应激励设计算法，该算法通过在线交叉验证原则显式考虑其对代理学习的影响，并通过它们对未来社会福利的影响进行优化系统目标

Dec, 2021