在考虑可接受性放松的情况下学习价值一致的策略的算法

Jun, 2024

在考虑可接受性放松的情况下学习价值一致的策略的算法

Algorithms for learning value-aligned policies considering admissibility relaxation

Andrés Holgado-Sánchez, Joaquín Arias, Holger Billhardt, Sascha Ossowski

TL;DR价值意识工程的新兴领域声称软件代理和系统应该具有价值意识，即它们必须按照人类价值观做出决策。本文提出了两种算法，基于局部对齐的 epsilon-ADQL 算法和其在序列决策中的扩展 epsilon-CADQL，通过应用约束强化学习算法有效解决了价值对齐决策的复杂性，我们在干旱场景下的水分配问题中验证了它们的效率。

Abstract

The emerging field of \emph{value awareness engineering} claims that software agents and systems should be value-aware, i.e. they must make decisions in accordance with human values. In this context, such agents must be capable of explicitly reasoning as to how far different courses of

value awareness engineering software agents value-aligned policies constrained reinforcement learning algorithms water distribution problem

发现论文，激发创造

衡量价值对齐

本文介绍了一种新的形式化方法来量化人工智能系统与人类价值观的一致性，使用马尔可夫决策过程作为基础模型，强调价值观作为行动的可取目标和规范行为准则与 AI 决策之间的联系，为评估规范与价值观之间一致程度提供了一种机制，以在规范世界中评估状态转换中的偏好变化。利用这种形式化方法，AI 开发者和伦理学家可以更好地设计和评估 AI 系统，以确保其与人类价值观和谐共处，该方法还适用于许多应用领域，例如强调幸福的推荐系统和强调安全的自动驾驶车辆。

Dec, 2023

基于搜索的多智能体学习中的策略价值调整与鲁棒性

该研究提出了 VISA-VIS 方法，以提高 AlphaZero 中的策略价值一致性和价值鲁棒性，其可以将策略与价值预测矛盾降低 76％，将价值泛化误差降低 50％，将平均价值误差降低 55％。

Jan, 2023

实用 - 教育价值取向对齐

智能系统与人的目标保持一致是价值对齐问题，我们提出一种基于多智能体决策理论和人类认知数学模型相结合的协作逆强化学习解决方案，该方案是价值对齐的首个基于经验证的认知模型的形式分析。

Jul, 2017

一种基于 Q-learning 算法的重视服从性的推荐方法

开发了一种 “遵循感知 Q-learning” 算法，通过学习 “遵循水平” 来捕捉人类决策者遵循推荐行动的频率，实时推导出最佳推荐策略，证明了该算法收敛到最优值并在各种情境下评估了其性能。

Sep, 2023

AlignIQL: 隐式 Q 学习中的策略对齐通过约束优化

本研究提出了一种解决隐式策略发现问题的方法，并通过优化问题的形式对其进行了描述。基于这个优化问题，我们进一步提出了两种实用算法 AlignIQL 和 AlignIQL-hard，它们继承了 IQL 中演员和评论家解耦的优势，并阐明了为什么 IQL 可以使用加权回归进行策略提取。实验结果表明，与 IQL 和 IDQL 相比，我们的方法保持了 IQL 的简单性并解决了隐式策略发现问题，在 D4RL 数据集上取得了与其他 SOTA 离线 RL 方法相媲美或更优的结果。特别是在 Antmaze 和 Adroit 等复杂的稀疏奖励任务中，我们的方法明显优于 IQL 和 IDQL。

May, 2024

通过多目标偏好聚合的动态价值调整

通过动态价值对齐的多目标方法，扩展了深度 Q-Learning 以适应多个目标，在一个由切换代理程序控制的简化交叉口上，动态适应驾驶员对系统的偏好，实现了在速度、停车和等待等三个指标上更好的综合性能，同时整合了具有竞争或冲突行为的目标。

Oct, 2023

人工智能对齐与社会选择：基本限制与政策影响

RLHF 使用于 LLMs 中，本文探讨了 RLHF 的限制和关注民主规范方面的政策挑战，同时提出了建立透明投票规则和聚焦特定用户群体的 AI 代理的需求。

Oct, 2023

使用规范先验训练价值对齐强化学习智能体

通过训练一种双重奖励信号的智能体，其中包括标准任务性能奖励和一个从价值对齐的先前模型派生的规范行为奖励，我们介绍了一种价值对齐的强化学习方法，并展示了如何使用策略塑形技术平衡这两种奖励信号，以便产生既有效又更规范的策略，在三个互动的基于文本的世界中对其进行了测试。

Apr, 2021

ROMA-iQSS: 基于状态值学习与循环轮换多智能体调度的客观对齐方法

多智能体合作、去中心化状态价值学习、可伸缩性、效率和最优目标的识别与对齐是本研究的关键内容。

Apr, 2024

自适应信息信念空间规划

该研究旨在使用奖励函数来有效地做出明智的决策，通过提出抽象观测模型来降低计算成本并推导出期望信息论奖励函数的界限以及价值函数的界限，同时，提出了一种用于改善聚合方法的方法，实现了相同动作选择的计算时间减少。

Jan, 2022