基于赌博机策略的多智能体无冲突 Q 学习及其光学实现

Dec, 2022

基于赌博机策略的多智能体无冲突 Q 学习及其光学实现

Bandit approach to conflict-free multi-agent Q-learning in view of photonic implementation

Hiroaki Shinkawa, Nicolas Chauvet, André Röhm, Takatomo Mihana, Ryoichi Horisaki...

TL;DR本研究提出了一种基于量子干涉的光子强化学习算法，扩展了传统方法以解决动态环境下的多智能体强化学习问题，并演示了多智能体强化学习可以通过光子干涉加速，以此避免智能体之间的冲突。

Abstract

Recently, extensive studies on photonic reinforcement learning to accelerate the process of calculation by exploiting the physical nature of light have been conducted. Previous studies utilized quantum interference

photonic reinforcement learning multi-agent reinforcement learning grid world problem bandit q-learning quantum interference

发现论文，激发创造

强化学习光子学结构

本文介绍了一种基于光子技术和强化学习的主动学习机制的设计方案，包括 SARSA, Q-learning 和 projective simulation 等算法。该方案可实现抽象和概括机制，并且具有可扩展性和可移植性。

Jul, 2019

教育中的强化学习：多臂赌博机方法

本研究通过上下文化和模拟累计奖励来解决教育上的干预建议问题，采用强化学习的代理模型结合混合学习方法，景点在线平台的自动化功能

Nov, 2022

无模型强化学习在光学自动实验控制中的应用

我们使用强化学习和虚拟测试平台实现自动调整光纤对激光的耦合效率达到 90%，证明强化学习在实验室降低工作负荷上的可行性。

May, 2024

激光网络中通过滞后和零滞后同步实现无冲突的联合决策

通过实验验证光网络作为光子加速器在竞争型多臂赌博问题中的应用，实现协同决策、冲突避免、低碰撞率和高奖励，并展示了该系统的可扩展性以及在激光动力学领域中智能功能的新可能性。

Jul, 2023

量子自然政策梯度：朝着样本有效的强化学习

使用变分量子电路作为函数逼近器，提出了量子自然策略梯度（Quantum Natural Policy Gradient，QNPG）算法。在 Contextual Bandits 环境中进行实验，证明 QNPG 相对于基于一阶的训练具有更快的收敛速度和稳定性，从而减少了样本复杂度，并在 12 量子比特硬件设备上进行了训练。

Apr, 2023

量子赌徒

提出一种基于量子振幅放大的算法解决了量子版本的最优臂识别问题，并在所有情况下证明了它比经典算法快两次达到最优解。

Feb, 2020

量子强化学习

本文提出了一种新颖的量子强化学习算法，通过将量子理论和强化学习相结合，引入了价值更新算法框架，通过概率幅度并行更新以达到在探索和利用之间取得良好平衡，并加速学习。经实验验证，该方法在一些复杂问题中表现出优越性和实用性，是量子计算在人工智能应用方面的有效探索。

Oct, 2008

一种用于选择强化学习智能体的赌博机框架

本文提出一种基于多臂赌博机框架的深度强化学习方法，通过选择最适合特定应用的学习模型和增强学习代理，解决了实际应用中环境不明确和奖励不稳定等问题。实验结果表明该方法在标准环境下能够选出最优代理，并且相较于其他策略在同样步数内获得更高的累计奖励值。

Feb, 2019

多智能体量子强化学习基于进化优化

多智能体强化学习中的量子强化学习通过使用量子力学的内在属性降低了模型的可训练参数，我们基于无梯度量子强化学习的现有方法，并通过变分量子电路的树状方法提出了多智能体强化学习的方法，使用进化优化算法，我们在 Coin Game 环境中评估了我们的方法并将其与经典方法进行比较，研究表明我们的变分量子电路方法相比于具有相似可训练参数数量的神经网络表现出更好的性能，并且相对于更大的神经网络，我们的方法使用较少的参数实现类似的结果，减少了 97.88% 的参数。

Nov, 2023

量子控制不同阶段的强化学习

本文采用最新的强化学习技术，通过优化找到非可积多体量子系统中从初始状态到目标状态的短高保真度驱动协议，同时在协议时长的空间中呈现类自旋玻璃相变，并揭示了基于强化学习的 RL 方法在非平衡量子物理应用中的潜在用途。

May, 2017