一种基于 Q-learning 算法的重视服从性的推荐方法

Sep, 2023

一种基于 Q-learning 算法的重视服从性的推荐方法

A Q-learning Approach for Adherence-Aware Recommendations

Ioannis Faros, Aditya Dave, Andreas A. Malikopoulos

TL;DR开发了一种 “遵循感知 Q-learning” 算法，通过学习 “遵循水平” 来捕捉人类决策者遵循推荐行动的频率，实时推导出最佳推荐策略，证明了该算法收敛到最优值并在各种情境下评估了其性能。

Abstract

In many real-world scenarios involving high-stakes and safety implications, a human decision-maker (HDM) may receive recommendations from an artificial intelligence while holding the ultimate responsibility of making decisions. In this letter, we develop an "→

recommendations artificial intelligence adherence-aware q-learning adherence level optimal value

发现论文，激发创造

学习制定注重依从性的建议

考虑到人对人工智能建议的忽视以及人工智能在最相关时刻有选择性地提供建议的需要，本文提出了一个顺序决策模型，该模型考虑到人的依附水平并引入了一个推迟选项，以便机器能够暂时不提供建议，并提供了能够学习最佳建议政策并仅在关键时间点提供建议的学习算法。与通用强化学习算法相比，我们的专门化学习算法不仅具有更好的理论收敛性能，而且表现出强大的实证性能。

Oct, 2023

最佳决策并不等同于最佳建议：制定关注依从性的推荐

该研究提出了基于粘附感知优化框架的有关决策的算法推荐，并分析了无法实现算法推荐和实际决策之间的差异。该框架提供了有用的工具来分析算法推荐的结构，并计算出对人类偏差天然免疫的最优推荐策略，并保证改进常规策略。

Sep, 2022

在高风险环境中指导人类学习

本文研究 AI 辅助决策的团队决策，在考虑决策者面临的协同成本、不完美的算法决策等限制条件下，研发了人工智能团队学习框架和 TeamRules 算法，可提供有针对性的决策建议并在处理协同成本和团队准确性之间的平衡上产生显著的效果

Oct, 2022

在考虑可接受性放松的情况下学习价值一致的策略的算法

价值意识工程的新兴领域声称软件代理和系统应该具有价值意识，即它们必须按照人类价值观做出决策。本文提出了两种算法，基于局部对齐的 epsilon-ADQL 算法和其在序列决策中的扩展 epsilon-CADQL，通过应用约束强化学习算法有效解决了价值对齐决策的复杂性，我们在干旱场景下的水分配问题中验证了它们的效率。

Jun, 2024

基于强化学习的数字人类互动推荐决策

本研究基于强化学习、多模态嵌入和图嵌入等技术，设计了一个新型的数字人互动推荐代理框架，以提高个性化推荐和数字人代理的效率和准确性。实验结果表明该框架具有更好的个性化客户参与和更好的客户体验。

Oct, 2022

AdaRec：适应性顺序推荐以增强用户的长期参与

AdaRec 是一种适应性的顺序推荐模型，利用基于距离的表示损失从用户的交互轨迹中提取潜在信息，帮助策略识别推荐系统的细微变化，并通过乐观推测的方式进行探索，同时使用零阶动作优化以在复杂环境中保持稳定的推荐质量。在模拟器和实际应用中，AdaRec 在长期性能方面优于所有基准算法。

Oct, 2023

深度强化学习用于自适应学习系统

本文提出了一种采用马尔可夫决策过程（MDP）的无模型强化学习算法 --- 深度 Q 学习算法来找到最优化的自适应学习策略，同时开发了一个转移模型估计器来优化数据利用，实验结果表明该算法在自适应学习领域有着较高的效率。

Apr, 2020

利用强化学习代理为人在环境中提供遵守建议的验证

本文介绍了一种基于 Tree-based lingua-franca 的新颖交流方法，并探索了基于此方法的 Human-in-the-loop 反馈机制，提供具有可解释性的方法以解决 Advice-Conformance Verification 问题，并通过实验证明了该方法的有效性和有效性。

Oct, 2022

学习何时向人类决策者提供建议

通过对已有的案例进行分析，本文提出了交互式人工智能决策辅助系统的设计，旨在通过学习人类的选择来决定何时提供算法支持，从而提高决策的准确性和可靠性。作者在美国刑事司法系统的前期释放审判方面进行了大规模实验，并发现交互式辅助系统能够在必要的时候提供准确的建议，与固定的非交互式系统相比较，可以显著提高人类的决策水平。同时，交互式辅助系统还具有促进人类学习、保护人类决策者补充优势、促进对建议的更积极响应等优点。

Sep, 2022

学习带有专业指导的安全策略

提出一种用于确保强化学习智能体在奖励函数难以指定的情况下保持安全行为的框架，该框架依赖于来自专家策略的演示，并提供了一个理论框架，以优化智能体在现有知识一致的奖励空间中。我们提出了两种方法来解决产生的优化问题：一种是基于精确椭球方法，另一种是基于 “跟随扰动领导者” 算法的方法。我们的实验证明了我们算法在离散和连续问题中的行为，训练出来的智能体在模仿专家行为的同时安全地避免了具有潜在负面影响的状态。

May, 2018