AI 价值对齐中的道德效用函数必备的多样性

IJCAIJun, 2019

AI 价值对齐中的道德效用函数必备的多样性

Requisite Variety in Ethical Utility Functions for AI Value Alignment

Nadisha-Marie Aliman, Leon Kester

TL;DR通过跨学科的分析，将神经科学和心理学背景知识与增强型功利主义作为适合的伦理框架联系起来，以更好地评估人类道德的多样性，提出了一些设计近似伦理目标函数的实用指南，并探讨了未来可能面临的挑战。

Abstract

Being a complex subject of major importance in AI Safety research, value alignment has been studied from various perspectives in the last years. However, no final consensus on the design of ethical utility functions facilitating AI →

value alignment utility functions ethical frameworks human morality transdisciplinary analysis

发现论文，激发创造

提高标准：通过生成进化测试研究大型语言模型的价值

该研究提出了 GETA 这一新颖的生成动态测试方法，通过动态地探测大型语言模型（LLMs）的道德基准，生成难度匹配的测试项目，并更准确地评估 LLMs 的价值观，为未来的评估范式奠定基础。

Jun, 2024

非洲医疗人工智能时代的数据伦理：一种乌班图哲学视角

利用 Ubuntu 哲学视角讨论了在 AI 时代非洲的医疗数据伦理，并着重比较了个人主义和社群主义对数据伦理的不同方法，提出的框架可以为 AI 开发者、医疗服务提供者、公众和决策者提供关于非洲 AI 中的医疗数据伦理使用的参考。

Jun, 2024

重新思考数据 Shapley 在数据选择任务中的作用：误导和优点

通过引入一种假设检验框架并证明在没有对效用函数施加特定约束的情况下，Data Shapley 的性能不能比随机选择更好，我们深入研究了 Data Shapley 的性能差异。我们确定了一类效用函数，即单调转换模块化函数，在其中 Data Shapley 可以最优地选择数据，基于此，我们提出了一种启发式方法用于预测 Data Shapley 在数据选择任务中的有效性。我们的实验验证了这些发现，并进一步揭示了 Data Shapley 成功与否的一些新的洞察。

May, 2024

指令调整能提高 LLMs 的一致性吗？

说明指令调整对模型的一致性有积极影响，提高了零样本性能、思维连贯性和价值对齐，并通过对事实记忆的机制分析解释了这些改进。

Apr, 2024

贪婪骆驼：金融价值对齐大型语言模型在道德推理中的性能

研究调查了将大型语言模型（LLMs）与金融优化对齐的道德影响，以 GreedLlama 为案例研究，该模型经过精调以优先考虑经济上有益的结果。通过将 GreedLlama 在道德推理任务中的表现与基准的 Llama2 模型进行比较，研究结果显示了一个令人担忧的趋势：在道德含糊度低和高的情况下，GreedLlama 表现出明显偏向于利润而不是道德考虑，在低含糊度情境中，GreedLlama 的道德决策下降至 54.4%，而基准模型为 86.9%；在高含糊度情境中，该比例为 47.4%，而基准模型为 65.1%。这些发现强调了 LLMs 中单一维度价值对齐的风险，强调在 AI 开发中整合更广泛的道德价值以确保决策不仅仅受金融激励驱动的必要性。该研究呼吁在 LLM 的应用中采取平衡的方式，主张在商业应用模型中纳入道德考虑，特别是在监管缺乏的背景下。

Apr, 2024

保护市场研究：AI 制造的虚假信息的产生、识别和缓解

AI 引发了对公众意见的操纵和扭曲，本研究以三个方面为基础，展示了 AI 制造虚假 UGC 的能力，量化了 UGC 对市场研究的干扰影响，并提出和评估了高级检测框架，呼吁综合手段保护市场研究的安全，包括高级算法解决方案、人工审核和伦理规范，为未来研究和制定政策提供基础。

Mar, 2024

AI 推理中的人类价值建模

构建与人类价值观相符的人工智能系统是当前面临的重要挑战之一。本研究提出了一个形式化模型，以明确计算地表示人类价值观，为基于人类价值观的人工智能推理提供了理论基础，并在实际应用中验证了该模型的适用性。通过这种自动推理人类价值观的能力，不仅能解决价值观一致性问题，还有助于设计支持个人和社区做出更明智、与价值观相符的决策的人工智能系统。

Feb, 2024

KTO：模型对齐作为前景理论优化

人们的感知有偏见，Kahneman-Tversky 前景理论告诉我们，对齐 LLMs 和人类反馈的目标隐含地包含了许多这些偏见 - 这些目标的成功部分可以归因于它们是人类感知感知的损失函数（HALOs）；我们使用 Kahneman-Tversky 模型提出了一种 HALO 方法，该方法直接最大化生成物的效用而不是最大化需求偏好的对数似然，这种方法叫做 Kahneman-Tversky 优化（KTO），在从 1B 到 30B 的规模上与基于偏好的方法的性能相匹配或超过；关键是，KTO 不需要偏好 - 只需要对于给定输入的输出是可取还是不可取的二进制信号，这使得在偏好数据稀缺且昂贵的现实世界中更容易使用。

Feb, 2024

生物 AI

提出了一种基于生态中心主义的新范式 -- 生物圈 AI，并讨论了其设计和与生态系统的相互作用等方面的研究方向。

Jan, 2024

概念对齐

在讨论人工智能对齐（人与人工智能系统之间的对齐）时，重点放在价值对齐上，广泛指的是创建具有人类价值观的人工智能系统。我们认为，在试图对齐价值之前，AI 系统和人类对于理解世界所使用的概念需要对齐，这是至关重要的。我们结合了哲学、认知科学和深度学习的思想，解释了人类和机器之间需要概念对齐而非仅仅价值对齐的需求。我们总结了人类和机器目前如何学习概念的现有观点，并概述了达成共享概念的机遇和挑战。最后，我们解释了如何利用认知科学和人工智能研究中已经开发的工具来加速实现概念对齐的进展。

Jan, 2024