社会契约 AI：将 AI 助理与隐含的团体规范进行一致化

Oct, 2023

社会契约 AI：将 AI 助理与隐含的团体规范进行一致化

Social Contract AI: Aligning AI Assistants with Implicit Group Norms

Jan-Philipp Fränken, Sam Kwok, Peixuan Ye, Kanishk Gandhi, Dilip Arumugam...

TL;DR模拟框架中，研究通过反转模型来对齐 AI 助手与用户的偏好，并发现 AI 助手在经济最终决策游戏中能够准确对齐行为，但其学习的策略在未包含的情况下缺乏稳健性和普适性，并且发现语言使用与未知策略之间存在不一致时，学习策略的速度会减慢。

Abstract

We explore the idea of aligning an ai assistant by inverting a model of users' (unknown) preferences from observed interactions. To validate our proposal, we run proof-of-concept simulations in the economic ultimatum ga

ai assistant user preferences simulation frameworks economic ultimatum game alignment

发现论文，激发创造

合作人工智能的广义信念

本研究提出了一种基于信念空间的策略学习模型，可以在测试时间解码和适应新颖的规约，从而显著提高各种策略池中的特定反应的搜索和训练，同时增强智能体规约的可解释性和可解释性。

Jun, 2022

一个人工智能代理的行为证明了自我利益和利他主义的一致性

研究 OpenAI 公司开发的大型语言模型 AI 代理，通过多项实验，发现 AI 代理在决策任务时表现出 self-interest 和一定程度的利他行为，并且仅有最高级别的 AI 代理会在 dictator game 中表现出较慷慨的利他行为。

Jan, 2023

AI 对齐的社会选择：应对多样化的人类反馈

基金会模型的微调是为了避免不安全或有问题的行为，而利用人类反馈进行强化学习或采用宪法人工智能的方法，通过社会选择来处理潜在的人类意见分歧并影响模型的行为。

Apr, 2024

人工智能对齐与社会选择：基本限制与政策影响

RLHF 使用于 LLMs 中，本文探讨了 RLHF 的限制和关注民主规范方面的政策挑战，同时提出了建立透明投票规则和聚焦特定用户群体的 AI 代理的需求。

Oct, 2023

在模拟人类社会中训练基于社交对齐的语言模型

提出一种新的 LMs 训练范式，让其可以从模拟社交互动中学习，从而使人工智能系统更好地符合社会规范和价值观。

May, 2023

人类如何平衡个人利益与他人利益的可预测性

使用最先进的三个聊天机器人进行 78 个实验，研究其对独裁者游戏决策的能力，发现只有 GPT-4 能准确捕捉到行为模式，包括自利、不公不平等和完全利他三类，但 GPT-4 普遍高估了他人关注行为，并夸大了不公不平等和完全利他者的比例，这对人工智能开发者和用户具有重要影响。

Jul, 2023

与人工智能进行对话：将语言模型与人类价值观对齐

本文探讨了大规模语言技术在人类与对话代理之间的应用，提出了几个步骤以确保人类价值观得到贯彻，并探索了如何通过对话规范来协调对话代理与人类之间的通信。

Sep, 2022

衡量代理之间的错位

通过应用争论模型分析不同领域的案例研究，本研究旨在解决 AI 对齐问题中复杂的利益冲突，为 AI 工程师确保系统最大程度地与多样化的人类利益对齐提供了有代表性的价值数据。

Jun, 2024

协同过滤捕捉 AI 用户的偏好作为规范

个性化 AI 技术的定制对其良好运行至关重要，当前的方法需要太多用户参与，无法真正捕捉其偏好。我们认为需要一种新的视角来构建规范，利用整个用户系统中大量可用的偏好信息，启发于推荐系统，我们相信协同过滤可以提供一种适合的方法来识别用户的规范偏好，避免过多用户参与。

Aug, 2023

人工智能，价值观和对齐

探讨人工智能对齐问题所涉及的哲学问题，明确目标并提出合理的原则方法来解决技术和规范的问题，从而达成公平的人工智能对齐。

Jan, 2020