语言代理的对齐

Mar, 2021

Alignment of Language Agents

Zachary Kenton, Tom Everitt, Laura Weidinger, Iason Gabriel, Vladimir Mikulik...

TL;DR人工智能需要与人类价值观保持一致，本文研究了自然语言代理程序中存在的一些行为问题，重点讨论了系统设计者意外错误规定可能导致的一些问题，如使用欺诈或操纵性语言，以及避免这些问题的一些方法。

Abstract

For artificial intelligence to be beneficial to humans the behaviour of AI agents needs to be aligned with what humans want. In this paper we discuss some behavioural issues for language agents, arising from acci

artificial intelligence language agents misspecification deceptive language manipulative language

发现论文，激发创造

衡量代理之间的错位

通过应用争论模型分析不同领域的案例研究，本研究旨在解决 AI 对齐问题中复杂的利益冲突，为 AI 工程师确保系统最大程度地与多样化的人类利益对齐提供了有代表性的价值数据。

Jun, 2024

与人工智能进行对话：将语言模型与人类价值观对齐

本文探讨了大规模语言技术在人类与对话代理之间的应用，提出了几个步骤以确保人类价值观得到贯彻，并探索了如何通过对话规范来协调对话代理与人类之间的通信。

Sep, 2022

价值共识代理的语言盲点，自然和人工

本文讨论了如何通过语言交流来解决人工智能中的价值对齐问题，探讨了这一主张对确保人工智能系统的价值对齐研究计划以及设计强有力的受益人工智能代理人的伦理影响。

Jul, 2022

设计人机一致性：了解人类对其代理人的需求

我们进行了一项关于设计能够在虚构但具有实际意义的在线相机销售任务中进行谈判的代理的质性经验研究，发现为了代理成功完成任务，人类 / 用户和代理需要在知识架构、自主性和代理性、操作性、培训、声誉启发式和伦理、人类参与等六个维度上达成一致。这些经验研究结果扩展了以往有关过程和规范对齐以及人工智能与人类交互中价值观和安全性需求的相关工作，并讨论了设计师在设想充满人类 - 代理协作的世界中的三个设计方向。

Apr, 2024

使用人类反馈的 AI 对准研究中的方法论思考

本文探讨了人工智能、对齐、大型语言模型、总结模型和人类反馈等方面的方法论挑战，特别是针对训练总结文本的 LLMs。具体地，我们关注的是收集可靠人类反馈的方法，以训练奖励模型并进一步改进总结模型。结论是建议有关 LLMs 总结能力对齐研究的实验设计方面进行特定的改进。

Dec, 2022

AI 对齐对话：支持代理的 AI 对齐交互式方法

本文介绍了一种新的 AI 与人类协作的方式 ——AI Alignment Dialogues，通过对家务机器人的机器人控制台，把用户与机器人直接联系起来，实现对人工智能与人的对齐。实验结果显示这种方式可以实现更高效、更透明的人机交互。

Jan, 2023

超越提示：从人类交流中学习，提升人工智能意图对齐

探索人类沟通策略以设计更加能理解和与用户意图对齐的人工智能系统，以实现人类中心的人工智能系统。

May, 2024

朝双向人工智能对齐迈进：澄清、框架和未来发展的系统综述

近期的人工智能的普适性进展凸显出引导人工智能系统走向个人和群体的目标、道德原则和价值观的重要性，这被广泛称为对齐。然而，人工智能和哲学领域对于人工智能和人类对齐的定义和范围尚未被明确界定，而且这个问题的长期互动和动态变化也基本被忽视。为了填补这些空白，我们对 2019 年至 2024 年 1 月间发表的 400 多篇论文进行了系统综述，涵盖了人机交互、自然语言处理、机器学习等多个领域。我们对人工智能与人类对齐进行了描述、定义和范围界定，并从以人为中心的视角提出了一个 “双向人工智能与人类对齐” 的概念框架来组织文献。该框架包括了将人工智能与人类对齐的传统研究，即确保人工智能系统产生由人类确定的预期结果，以及调整人类与人工智能对齐的概念，旨在帮助个人和社会在认知和行为上适应人工智能进展。此外，我们阐述了文献分析的关键发现，包括关于人类价值观、交互技术和评估的讨论。为了未来研究的发展，我们展望了未来方向的三个关键挑战，并提出了潜在的未来解决方案的例子。

Jun, 2024

上下文中的对齐问题

当前的大型语言模型仍然容易受到对抗攻击，使其表现出不安全的行为，这一基本问题不仅对当前的人工智能系统尚未解决，而且在不严重削弱其能力的情况下可能难以解决，同时也对未来和更具能力的人工智能系统的安全性提出了担忧。

Nov, 2023

大型语言模型中对齐的基本限制

本文提出了一种名为行为期望范围（BEB）的理论方法，用于正式研究大型语言模型对齐的几种固有特性和限制，揭示了 LMM 对齐的根本局限性，并凸显了确保 AI 安全的可靠机制的必要性。

Apr, 2023