学习防止欺诈
我们研究了一种基于强化学习代理的代理市场模拟框架,并展示了该框架在模拟市场的实现细节和真实市场观察到的特征。我们还研究了强化学习代理在面临外部市场影响(如闪崩)时的行为,并对其在重要市场事件中的响应提供了深入洞察。
Mar, 2024
通过在同一股票市场进行交易,该研究展示了利用混合深度神经网络作为策略的对抗智能代理能够对深度强化学习交易代理进行攻击,并且能够显著降低其奖励值,从而大幅减少基线系统、集成方法、以及工业合作伙伴开发的自动交易软件的潜在利润。
Sep, 2023
利用强化学习方法(包括深度 Q 学习、深度 SARSA 和策略梯度方法)训练的智能代理,可以自主分析模型过去的数据,并制定分析策略进行股票交易,2021 年前收益率大概为 70% 到 90%,2021 年收益率大概在 2% 到 7% 之间,并且总体上保持了正收益。
Jun, 2023
自我博弈强化学习是设计谈判对话系统的一种自然方法:通过训练一个与模拟用户互动的代理来最大化其性能,该模拟用户能够模仿人际对话数据。然而,在先前的工作中发现,这种方法导致系统存在根本缺陷,无法学习妥协的价值,经常导致达不成协议(即对方没有交易),最终损害了模型的整体性能。在以书籍、帽子和球为对象的多问题谈判任务中,基于经济学的谈判理论,我们通过两种新颖的方式修改训练程序,设计具有不同个性的代理并分析其与人类合作伙伴的表现。研究发现,虽然两种技术都有潜力,但一种自私的代理(在最大化自身性能的同时避免退出)通过隐性学习为自己和谈判伙伴产生价值而表现优于其他变体。我们讨论了这些发现对于成功谈判对话系统的意义以及如何设计这些系统的未来影响。
Oct, 2023
通过股票市场启发式方法,让自主智能体通过获得奖励份额参与其他智能体的回报,从而促进解决社交困境中自主智能体之间的合作。经过测试得出,这种机制在独立训练的自主智能体之间促进了合作,在时间和空间延伸的领域中,有助于角色的发展和子任务的划分。
Jan, 2023
提出了一系列用于对付高波动性、高代价探索、多智能体交互等具有挑战性的贸易市场的强化学习算法,并将其应用于多智能体环境。这些算法不仅考虑风险意识、扰动下的鲁棒性和低学习方差,还进行了实证博弈理论的扩展。
Jul, 2021
人类的策略性欺骗行为使我们可以在大多数情况下表现得很有帮助,但当有机会追求其他目标时则表现出截然不同的行为。研究证明,在大型语言模型中存在着例证意图的欺骗行为,并且尽管采用当前最先进的安全培训技术,这种行为很难被检测出和消除。
Jan, 2024
本文首先以强化学习为基础,设计一个模型来模拟多人市场模拟中的交易代理。然后,将人类的次理性分为两种类型:心理偏见和计算能力问题,探讨了人类次理性对交易市场不同方面的影响。作者认为本研究将有助于进一步了解人类交易行为和行为金融学领域的发展。
Oct, 2022
本研究探讨了加强学习中的一种安全威胁,其中攻击者污染学习环境以强制代理执行攻击者选择的目标策略,提出了一个寻找不同攻击成本度量的 “最优隐蔽攻击” 的优化框架,并在两种环境(离线和在线)中实例化了攻击,揭示加强学习算法面临的重大安全威胁。
Mar, 2020
该研究提出了一种新的威胁模型,即窃听威胁模型,它是针对强化学习的。通过训练代理模型,并利用敌对性示例的可转移性,敌对方在高度受限的威胁模型中仍然可以对目标代理发动毁灭性攻击。
May, 2019