使用人类反馈的 AI 对准研究中的方法论思考

Dec, 2022

使用人类反馈的 AI 对准研究中的方法论思考

Methodological reflections for AI alignment research using human feedback

Thilo Hagendorff, Sarah Fabi

TL;DR本文探讨了人工智能、对齐、大型语言模型、总结模型和人类反馈等方面的方法论挑战，特别是针对训练总结文本的 LLMs。具体地，我们关注的是收集可靠人类反馈的方法，以训练奖励模型并进一步改进总结模型。结论是建议有关 LLMs 总结能力对齐研究的实验设计方面进行特定的改进。

Abstract

The field of artificial intelligence (AI) alignment aims to investigate whether AI technologies align with human interests and values and function in a safe and ethical manner. AI →

artificial intelligence alignment large language models summarization model human feedback

发现论文，激发创造

通过人类反馈进行强化学习的 AI 对齐？矛盾和限制

本文批评性地评估了通过强化学习从反馈中对齐人工智能系统，特别是大规模语言模型，与人的价值观和意图的尝试，包括人的反馈和人工智能的反馈。具体来说，我们展示了广泛追求的诚实、无害和有帮助的对齐目标的不足。通过多学科社会技术批判，我们考察了 RLxF 技术的理论基础和实践实现，揭示了其在捕捉人类伦理复杂性和促进人工智能安全方面的重要局限性。我们强调了 RLxF 目标中固有的张力和矛盾。此外，我们讨论了在关于对齐和 RLxF 的讨论中往往被忽视的道德相关问题，其中包括用户友好与欺骗、灵活性与可解释性、系统安全之间的权衡。我们最后敦促研究人员和从业者在评估 RLxF 的社会技术后果时进行批判性评估，倡导在人工智能开发中采用更细致、反思的方法。

Jun, 2024

朝双向人工智能对齐迈进：澄清、框架和未来发展的系统综述

近期的人工智能的普适性进展凸显出引导人工智能系统走向个人和群体的目标、道德原则和价值观的重要性，这被广泛称为对齐。然而，人工智能和哲学领域对于人工智能和人类对齐的定义和范围尚未被明确界定，而且这个问题的长期互动和动态变化也基本被忽视。为了填补这些空白，我们对 2019 年至 2024 年 1 月间发表的 400 多篇论文进行了系统综述，涵盖了人机交互、自然语言处理、机器学习等多个领域。我们对人工智能与人类对齐进行了描述、定义和范围界定，并从以人为中心的视角提出了一个 “双向人工智能与人类对齐” 的概念框架来组织文献。该框架包括了将人工智能与人类对齐的传统研究，即确保人工智能系统产生由人类确定的预期结果，以及调整人类与人工智能对齐的概念，旨在帮助个人和社会在认知和行为上适应人工智能进展。此外，我们阐述了文献分析的关键发现，包括关于人类价值观、交互技术和评估的讨论。为了未来研究的发展，我们展望了未来方向的三个关键挑战，并提出了潜在的未来解决方案的例子。

Jun, 2024

人工智能应该有多少道德？人工智能对低水平智能风险偏好的影响

本研究探讨了大型语言模型（LLMs）的风险偏好，以及将它们与人类伦理标准对齐的过程如何影响它们的经济决策。通过分析 30 个 LLM，我们发现了从风险规避到风险追求的广泛固有风险特征。接着，我们探讨了不同类型的 AI 对齐如何改变这些基础风险偏好，发现对齐显著将 LLMs 转向风险规避，同时融合三个伦理维度的模型表现出最保守的投资行为。通过复制一项先前的研究，该研究使用 LLMs 根据公司收益电话会议记录预测公司投资，我们证明了尽管一些对齐可以提高投资预测的准确性，但过度对齐会导致过于谨慎的预测。这些发现表明，在金融决策中部署过度对齐的 LLMs 可能会导致严重的低投资情况。因此，在金融中应使用一种细腻的方法，平衡伦理对齐的程度与经济领域的具体要求。

Jun, 2024

人类驱动大型语言模型的对齐研究

综述了大型语言模型对齐技术的全面概述，包括数据收集、训练方法和模型评估，并提供了未来研究方向的启示，是了解和推进适应人类任务和期望的 LLM 对齐的宝贵资源。

Jul, 2023

大型语言模型对齐：一项调查

大型语言模型（LLMs）的对齐方法研究，包括外部和内部对齐方法，探讨了其可解释性和对抗攻击的潜在漏洞以及评估方法，并展望了未来的研究方向。

Sep, 2023

从自我参照 AI 反馈中对齐大型语言模型的一个通用原则

通过自我引用的 AI 反馈框架，允许 13B Llama2-Chat 模型以 “最适合人类” 的原则为基准，对用户指令回应进行批判，从而提供高质量的偏好反馈，并通过自洽性方法减少位置偏差的影响、使用语义困惑度来计算不同回答的偏好强度差异，实验证明该方法使 13B 和 70B Llama2-Chat 注释器能够提供高质量的偏好反馈，并且基于这些偏好数据训练的策略模型在基准数据集上通过强化学习取得了显著的优势。

Jun, 2024

理解与人类反馈一致性的学习动态

通过理论分析学习动态，我们提供了对人类偏好对齐的理论观察，揭示了优化算法可能优先考虑具有更高偏好区分度的行为，并通过实证验证对现代语言模型和对齐任务加深了对未来方法的认识。

Mar, 2024

AI 对齐：一项综合调查

AI alignment aims to build AI systems in accordance with human intentions and values, addressing the risks of misaligned systems with superhuman capabilities through forward and backward alignment methodologies.

Oct, 2023

道义使命：对大型语言模型持续超对齐的需求

探讨实现 AI 系统中的终身超对齐所面临的挑战，特别是大型语言模型（LLMs）；超对齐是一个理论框架，旨在确保超级智能 AI 系统按照人类的价值观和目标行动；我们认为实现超对齐需要对当前 LLM 体系结构进行重大改变，因为它们在理解和适应人类伦理和不断变化的全球情景的能力上存在固有的局限性；通过分析两个不同的例子，我们阐明 LLM 面对训练数据的限制，无法与当代人类价值观和情景相契合；最后，本文探讨了解决和可能减轻这种对齐差异的潜在策略，提出了追求更适应和响应性的 AI 系统的路径。

Mar, 2024

研究对齐研究：无监督分析

通过分析现有的 AI 对齐研究，我们发现领域正在迅速发展，并出现了几个子领域。我们查看了子领域并确定了突出的研究人员、经常出现的话题和每种不同的交流方式。此外，我们发现，一个分类器可以检测出 AI 对齐研究文章中没有最初包含在数据集中的相关文章。我们希望向研究社区共享数据集，并希望未来能够开发工具来帮助既有研究人员和年轻的研究人员更多地参与这一领域。

Jun, 2022