GAC：面向未知社交网络中用户激励的深度强化学习模型

Mar, 2022

GAC：面向未知社交网络中用户激励的深度强化学习模型

GAC: A Deep Reinforcement Learning Model Toward User Incentivization in Unknown Social Networks

Shiqing Wu, Weihua Li, Quan Bai

TL;DR本文提出了一种基于强化学习框架的几何演员 - 评论家模型进行有效的奖励分配，无需事先了解用户属性，以应对在社交网络中激励强化分配的挑战。

Abstract

In recent years, many applications have deployed incentive mechanisms to promote users' attention and engagement. Most incentive mechanisms determine specific incentive values based on users' attributes (e.g., pr

incentive mechanisms social influence reinforcement learning incentive allocation social networks

发现论文，激发创造

生成对抗奖励学习用于泛化行为倾向推断

提出了一种基于生成式逆强化学习的用户行为偏好建模方法，该方法可以自动学习用户的行为奖励函数，并通过辨别式演员 - 评论家网络和 Wasserstein 生成对抗网络进行建模和解释，实验证明该方法在交通信号控制、在线推荐系统和注视路径预测等场景下优于现有的方法。

May, 2021

基于对抗生成网络的强化学习推荐系统用户模型

该论文提出了一种新颖的基于生成对抗网络的强化学习框架，以解决在推荐系统中无法明确定义环境奖励函数和动态环境的应用挑战，使用该框架开发了一个用户模型作为仿真环境，开发了一种新颖的 Cascading DQN 算法来获得一个组合推荐策略，实验证明这个生成对抗用户模型可以更好地解释用户行为，并且基于该模型的 RL 策略能够为用户带来更好的长期回报和系统的点击率。

Dec, 2018

连续控制指导演员 - 评论家

本研究提出了一种新的演员 - 评论家方法，即 GAC，它首先学习本地最大化评论家的指南演员角色，然后通过监督学习来更新策略参数。实验证明，该方法是连续控制的一种有前途的增强学习方法。

May, 2017

分散式车联网中移动 AIGC 服务的基于学习的激励机制

在本文中，我们提出了一种分散化的激励机制，利用多智能体深度强化学习在车联网环境中平衡 RSUs 上的 AIGC 服务供应和用户对服务的需求，以优化用户体验和减小传输时延。实验结果表明，我们的方法在性能上优于其他基准模型。

Mar, 2024

基于深度强化学习的网络拓扑优化

本研究提出了一种新颖的深度强化学习算法，称为优势演员评论 - 图搜索（A2C-GS），用于网络拓扑优化，并通过在真实网络场景上进行案例研究，证明了 A2C-GS 在效率和性能方面具有卓越的性能。

Apr, 2022

在复杂网络中寻找影响因素：一种有效的深度强化学习方法

为了解决复杂网络中最大化影响力的任务的效率和性能问题，本论文提出了一种名为 DREIM 的深度强化学习模型，它采用图神经网络作为编码器，采用强化学习作为解码器，通过在小型合成图上进行大量训练，在解决质量上超越了传统最佳影响力最大化算法，并展示了其对网络规模的线性可扩展性，从而证明了其优越性。

Sep, 2023

社交影响：多智能体深度强化学习的内在动机

提出了一种通过奖励代理对其他代理的行为产生因果影响来实现多智能体强化学习中的协调和沟通的统一机制，通过使用反事实推理来评估因果影响，结果显示影响导致在具有挑战性的社交困境环境中协调性和沟通的增强，同时增加了深度强化学习代理的学习曲线，并且在学习沟通协议方面也更有意义。

Oct, 2018

RACA: 基于关系感知的多智能体深度强化学习中的即时合作信用分配

本研究提出了一种名为 RACA 的新方法，利用基于图形的关系编码器对代理之间的拓扑结构进行编码，并利用基于注意力机制的观测抽象机制，实现了在测试时间的 ad-hoc 合作场景中的零启动通用化。

Jun, 2022

连接生成对抗网络和演员 - 评论家方法

本文就生成对抗网络与强化学习算法中的优化困难性问题进行了探索，指出两类算法在训练过程中的不稳定性问题，以及缓解这些问题的策略，并将 GAN 视为一种无法影响奖励的 actor-critic 方法。希望此理论联系能够激发 GAN 和 RL 社区开发具有通用性、可扩展性和稳定性的深度网络算法，并促进两个社区之间的创新灵感。

Oct, 2016

推荐生态系统建模：机制设计、强化学习和生成模型的交叉研究挑战

在现代推荐系统中，为了最大化系统对参与者的价值并提高整体生态系统的 “健康度”，必须明确地对系统中的所有参与者的激励和行为进行建模，并考虑推荐者策略引起的相互作用。这需要使用强化学习等技术进行长期优化，使用社会选择方法对不同参与者的效用进行权衡，利用机制设计的工具来减少信息不对称并考虑激励和战略行为，通过整合行为经济学和心理学的概念来更好地对用户和项目提供者的行为进行建模，以及利用生成模型和基础模型的最新进展来使这些机制可解释和可操作。基于这些不同学科的交叉点，我们提出了一个概念框架，并阐明了几个研究挑战。

Sep, 2023