面向会话式 AI 系统的受控自学习的受限策略优化

Sep, 2022

面向会话式 AI 系统的受控自学习的受限策略优化

Constrained Policy Optimization for Controlled Self-Learning in Conversational AI Systems

Mohammad Kachuee, Sungjin Lee

TL;DR本研究提出了一种可扩展的框架处理个别领域的细粒度探索目标，通过用户定义的限制来确保商业关键领域的政策偏差较少，并将更多的探索预算分配到音乐等领域，提出的方法通过一个元目标调整约束违规惩罚项的自适应，鼓励领域间平衡的约束满足，实验结果表明该方法在政策价值和约束满足率之间实现了最佳平衡。

Abstract

Recently, self-learning methods based on user satisfaction metrics and contextual bandits have shown promising results to enable consistent improvements in conversational ai systems. However, directly targeting such metrics by off-policy bandit learning objectives often increases the r

conversational ai systems user-defined constraints exploration budget meta-gradient learning constraint satisfaction rate

发现论文，激发创造

受约束的批量策略学习

研究了实际领域中批量策略学习的问题，提出了一种系统性解决方案，包括强化学习和在线学习，其中包括多个约束条件和新的离线策略评估 (OPE) 方法，并在多个领域得到了强大的实证结果。

Mar, 2019

自学对话系统中缺陷行为的可扩展和安全修复

本文提出了一种基于历史回归事故报告的高精度数据样本的培育和利用方法，以在在线部署之前验证、保护并改进政策，解决 Off-Policy 强化学习在大规模商业设置中难以平衡政策改进和经验连续性的问题，并提高了对话系统的用户满意度。

May, 2023

使用不匹配约束策略加速安全强化学习

提出一种迭代策略优化算法以安全地学习来自基准策略的强化学习问题，其中基准策略可以来自示范数据或教师代理，并且需要满足一组由安全性、公平性或其他特定应用需求编码的约束条件。在控制任务上的实验中，该算法始终优于多个最先进的基线算法，并在平均回报上提高了 40％，约 10 倍少的约束违规行为。

Jun, 2020

带有梯度惩罚和约束松弛的鲁棒离线强化学习

本文介绍了解决离线强化学习面临的数据污染问题的一系列技术，包括梯度惩罚和批评家权重约束松弛等方法，并在 D4RL Mujoco 和 Adroit 数据集上进行了实验验证。

Oct, 2022

将行为约束纳入在线 AI 系统

通过行为约束的观察来学习一组行为约束的新型在线代理，称为 Behavior Constrained Thompson Sampling（BCTS）。我们提供了一个新算法，允许在遵守外生约束条件的情况下进行在线学习。我们的实验表明，这种代理能够在行为约束集合内运行，而不会明显降低其整体奖励性能。

Sep, 2018

基于可微凸规划的约束元元强化学习用于可调适安全保证

通过元学习方法，本文研究了在非稳态环境下确保安全性的独特挑战，并采用可微凸规划的连续凸约束策略更新，以实现在受限环境中的元学习和快速任务适应。

Dec, 2023

风险感知的神经上下文点臂连续控制

我们提出了一个风险感知的决策框架，用于处理上下文褒贬问题，并满足实际环境中的约束条件，通过采用一个多批评者的角色体系来平衡约束满足度和性能。

Dec, 2023

约束策略优化

提出了一种新的基于 Constrained Policy Optimization (CPO) 算法的强化学习策略搜索方法，可保证在每次迭代中实现约束满足，能够应用于高维控制问题，例如，在机器人运动中，智能体必须满足安全性约束条件。

May, 2017

基于赌博机的个性化算法框架中的偏差控制

本研究提出了一种算法框架，使得在通过类似赌博机学习用户喜好进行内容个性化推荐过程中能够控制偏差和歧视，并通过实验验证了该算法的可行性和效果。

Feb, 2018

GIN：自动驾驶中基于图形交互感知约束策略优化

本文提出了一种基于图卷积网络的互动感知约束优化方法，通过同时训练运动预测和控制模块并共享一个包含社交上下文的潜在表示来鼓励安全驾驶和预测运动。实验结果表明，这种方法在 CARLA 城市驾驶模拟器上具有比基线更好的导航策略和运动预测性能。

Jun, 2022