ZETAR: 战略和自适应合规政策的建模与计算设计

Apr, 2022

ZETAR: 战略和自适应合规政策的建模与计算设计

ZETAR: Modeling and Computational Design of Strategic and Adaptive Compliance Policies

Linan Huang, Quanyan Zhu

TL;DR通过零信任审计和推荐框架，开发了一种量化模型方法来管理安全合规性，提高员工合规性，并在不同的风险态度下设计定制和战略性建议政策。

Abstract

security compliance management plays an important role in mitigating insider threats. incentive design is a proactive and non-invasive approach to achieving compliance by aligning an employee's incentive with the

发现论文，激发创造

激励遵守算法工具

本文研究了随机实验可能因参与者的潜在非合规性而容易受到选择偏差的影响，并提出了一个博弈论模型来研究动态行为对合规性的影响，该模型可估计每种治疗的治疗效应并将规划者的建议视为工具变量。

Jul, 2021

强化学习推荐系统中的用户篡改

本文提供了一种新的形式化方法和实证演示，来探讨强化学习（RL）推荐算法中的安全性问题，其中RL系统可能通过其推荐来操作用户的意见以增加其长期参与度。作者应用因果建模技术分析了文献中可扩展的RL推荐方法，发现这些方法允许进行用户操纵。作者还提供了一个模拟研究，演示RL算法如何利用其推荐来极化模拟用户的意见。本研究呼吁设计更安全的RL推荐器，并建议从最近文献中采用的方法进行根本性转变。

Sep, 2021

利用约束编程和图形表示学习生成可解释的云安全策略

本文提出了一种基于约束编程和图表示学习的新型 IAM 框架，通过减少无关数据存储访问权限等优化 IAM 策略，并对 IAM 策略进行解释和分类，以减少安全攻击的影响。

May, 2022

最佳决策并不等同于最佳建议：制定关注依从性的推荐

该研究提出了基于粘附感知优化框架的有关决策的算法推荐，并分析了无法实现算法推荐和实际决策之间的差异。该框架提供了有用的工具来分析算法推荐的结构，并计算出对人类偏差天然免疫的最优推荐策略，并保证改进常规策略。

Sep, 2022

针对随机策略的无信赖区域策略优化

本文提出了一个名为TREFree的算法，该算法采用广义代理目标来替代策略上的可信区间约束并在实践中通过保守优化广义目标来有效实施，从而获得更好的策略绩效和样本效率。

Feb, 2023

可解释阈值策略的场景无关零信任防御：一种元学习方法

本文提出了一种基于部分观测马尔可夫决策过程（POMDP）和一阶元学习的零信任防御框架，可以适应不同攻击场景并且在人类理解上具有解释性和泛化性，同时还扩展了模型实现了最小化最坏情况损失的鲁棒零信任防御。

Mar, 2023

用户策略与可信算法

人面向算法的战略行为对算法的可靠性和决策能力有负面影响，因此需要设计可信的算法，研究用户信任的形式化方法及潜在干预手段。

Dec, 2023

可信机器学习的规章游戏

我们提出了一个框架，将可信机器学习视为一个多目标多代理优化问题，在此基础上引入一种名为Regulation Games的博弈论模型来解决那些忽视机器学习模型构建者与评估其可信度的问题。我们通过一种称为ParetoPlay的新均衡搜索算法来求解此博弈模型，保证了各个代理的目标都保持在Pareto前沿上，从而避免了其他均衡的低效性。通过模拟具体的应用情况，我们提供了可供机器学习管制政策制定者参考的政策指导，例如，在性别分类应用中，监管机构如果先主动指定所需的不同隐私预算保证，平均比规定构建者参与制定隐私预算要低4.0。

Feb, 2024

基于贝叶斯激励相容性的双边市场动态在线推荐

推荐系统在互联网经济中起着至关重要的作用，本论文提出了一种Dynamic Bayesian Incentive-Compatible Recommendation Protocol (DBICRP)来解决有效设计推荐系统所面临的挑战，同时还提出了一种基于两阶段算法(RCB)的方法来集成激励探索和高效的离线学习，以达到亚线性遗憾和贝叶斯激励兼容。在理论上，证明了RCB算法在高斯先验假设下实现了O(sqrt(KdT))的遗憾和贝叶斯激励兼容，实证上通过模拟和实际应用验证了RCB算法的强激励增益、亚线性遗憾和鲁棒性，从而为在线偏好学习中的激励感知推荐提供了一个有原则的方法。

Jun, 2024

通过信任建模和上下文学习为大型语言模型提供自适应护栏

本研究解决了现有护栏方法未能考虑用户个体差异的问题，提出了一种自适应护栏机制，通过信任建模和上下文学习动态调节对敏感内容的访问。实验结果表明，该机制有效满足了不同用户的需求，相较于现有护栏在实用性上表现更优，同时能够更好地保护敏感信息和管理潜在风险内容。

Aug, 2024