道义使命：对大型语言模型持续超对齐的需求

Mar, 2024

道义使命：对大型语言模型持续超对齐的需求

A Moral Imperative: The Need for Continual Superalignment of Large Language Models

Gokul Puthumanaillam, Manav Vora, Pranay Thangeda, Melkior Ornik

TL;DR探讨实现AI系统中的终身超对齐所面临的挑战，特别是大型语言模型（LLMs）；超对齐是一个理论框架，旨在确保超级智能AI系统按照人类的价值观和目标行动；我们认为实现超对齐需要对当前LLM体系结构进行重大改变，因为它们在理解和适应人类伦理和不断变化的全球情景的能力上存在固有的局限性；通过分析两个不同的例子，我们阐明LLM面对训练数据的限制，无法与当代人类价值观和情景相契合；最后，本文探讨了解决和可能减轻这种对齐差异的潜在策略，提出了追求更适应和响应性的AI系统的路径。

Abstract

This paper examines the challenges associated with achieving life-long superalignment in ai systems, particularly large language models (L

发现论文，激发创造

从指令到内在人类价值观——大型模型目标同步调查

通过综合调查现有工作的不同对齐目标并追踪其演变路径，本文揭示了从基本能力到价值取向的目标转变，表明内在人类价值可能是提升大型语言模型对齐目标的关键，进一步讨论了实现此内在价值对齐的挑战，并提供了一系列可用资源以支持未来对大型模型对齐的研究。

Aug, 2023

大型语言模型对齐：一项调查

大型语言模型（LLMs）的对齐方法研究，包括外部和内部对齐方法，探讨了其可解释性和对抗攻击的潜在漏洞以及评估方法，并展望了未来的研究方向。

Sep, 2023

大型模型中的伦理价值一致性解析

大模型在理解、生成和操作信息和内容方面极大地提升了人工智能的能力，但是随着这些模型越来越广泛地融入日常生活，它们固有的伦理价值观和潜在偏见给社会带来了无法预见的风险。本文概述了与大模型相关的风险和挑战，调查了现有的人工智能伦理准则，并研究了这些模型局限性带来的伦理影响。从规范伦理学的角度出发，我们提出了对最新规范准则的重新评估，强调学术界合作努力在建立统一而普适的人工智能伦理框架方面的重要性。此外，我们利用道德基础理论来调查当前主流大型语言模型的道德倾向，分析了现有的对齐算法，并概述了在对齐这些伦理价值观时遇到的独特挑战。为了应对这些挑战，我们引入了一个用于对齐大模型伦理价值观的新概念范式，并讨论了对齐准则、评估和方法的有前途的研究方向，代表了跨学科构建符合伦理要求的人工智能的初步步骤。

Oct, 2023

超越人类规范：通过跨学科方法揭示大型语言模型的独特价值

基于心理学方法研究，该论文通过提出ValueLex框架，重建了大型语言模型（LLMs）的独特价值体系，并鉴定出了三个核心价值维度：能力、品格和诚信。同时，他们还开发了定制的项目测试来评估和分析LLMs在不同模型规模、训练方法和数据来源下的价值倾向，从而为未来的人工智能对齐和规范铺平了道路。

Apr, 2024

朝双向人工智能对齐迈进：澄清、框架和未来发展的系统综述

近期的人工智能的普适性进展凸显出引导人工智能系统走向个人和群体的目标、道德原则和价值观的重要性，这被广泛称为对齐。然而，人工智能和哲学领域对于人工智能和人类对齐的定义和范围尚未被明确界定，而且这个问题的长期互动和动态变化也基本被忽视。为了填补这些空白，我们对2019年至2024年1月间发表的400多篇论文进行了系统综述，涵盖了人机交互、自然语言处理、机器学习等多个领域。我们对人工智能与人类对齐进行了描述、定义和范围界定，并从以人为中心的视角提出了一个“双向人工智能与人类对齐”的概念框架来组织文献。该框架包括了将人工智能与人类对齐的传统研究，即确保人工智能系统产生由人类确定的预期结果，以及调整人类与人工智能对齐的概念，旨在帮助个人和社会在认知和行为上适应人工智能进展。此外，我们阐述了文献分析的关键发现，包括关于人类价值观、交互技术和评估的讨论。为了未来研究的发展，我们展望了未来方向的三个关键挑战，并提出了潜在的未来解决方案的例子。

Jun, 2024

动态规范性：价值对齐的必要与充分条件

本研究论文旨在探讨道德和人类价值观在人工智能研究中的重要性，并提出了一个名为Dynamic Normativity的框架来解决通过学习范式对人工智能系统进行对齐的问题。

Jun, 2024

ProgressGym：对千年道德进步的对齐

致力于解决大型语言模型（LLMs）对人类用户认知论的影响以及其可能导致的问题，并引入ProgressGym作为一个实验框架，以便从历史中学习道德进步的机制，从而促进未来在现实道德决策领域的进展。

Jun, 2024

大语言模型与人类价值观的强弱对齐

本研究探讨了人工智能系统与人类价值观对齐的挑战，尤其是在缺乏人类监督的情况下。提出了强对齐与弱对齐的区分，强调强对齐需要认知能力，以理解意图并产生所需效果。通过示例展示当前大语言模型在识别风险情境方面的不足，表明需进一步研究以实现弱对齐并提高统计答案的满意度。

Aug, 2024

解释、辩论、对齐：一种弱到强的语言模型泛化框架

本研究解决了AI系统对齐的复杂挑战，尤其是在多智能体系统和人机团队中。提出了一种通过弱到强泛化的方法来进行模型对齐，该方法通过强模型促进弱模型的改进，进而在解释生成与模型对齐之间架起桥梁。研究结果表明，这种促进性方法不仅提升了模型性能，还提供了模型对齐的深刻见解，并展示了可扩展的AI系统监督潜力。

Sep, 2024

价值指南针：人类与人工智能对齐的基本价值框架

本研究解决了人工智能系统与人类及社会多样化价值观对齐的问题。提出的价值指南针框架基于心理学理论，对人类与语言模型的价值对齐进行了测量，发现存在潜在的风险性不对齐，强调了基于具体情境的对齐策略的重要性。这一研究为设计符合社会价值与伦理的人工智能提供了基础。

Sep, 2024