用强化学习学习最小作用量原理

MMNov, 2020

Learning Principle of Least Action with Reinforcement Learning

Zehao Jin, Joshua Yao-Yu Lin, Siao-Fong Li

TL;DR本文研究了在经典力学背景下，将 S 作为奖励函数，使用强化学习方法学习粒子在各种介质中传播的物理轨迹，通过在不同的折射率材料中传播的光线的情况来验证这个想法，并展示了智能体能够恢复等价于 Snell 定律或 Fermat 定律的最短时间路径。我们还讨论了强化学习与路径积分形式主义的相似性。

Abstract

Nature provides a way to understand physics with reinforcement learning since nature favors the economical way for an object to propagate. In the case of classical mechanics, nature favors the object to move alon

reinforcement learning classical mechanics propagation particles refraction indices

发现论文，激发创造

量子自然政策梯度：朝着样本有效的强化学习

使用变分量子电路作为函数逼近器，提出了量子自然策略梯度（Quantum Natural Policy Gradient，QNPG）算法。在 Contextual Bandits 环境中进行实验，证明 QNPG 相对于基于一阶的训练具有更快的收敛速度和稳定性，从而减少了样本复杂度，并在 12 量子比特硬件设备上进行了训练。

Apr, 2023

基于规划的探索：关于最优轨迹信息的研究

通过规划最大化任务最优轨迹的期望信息增益的行动序列，使得该方法在较低的样本量下能够学习较强的策略，比探索基线算法少用 2 倍样本，比模型自由方法少用 200 倍样本。

Oct, 2022

基于神经网络的量子反馈强化学习

本研究展示了利用神经网络强化学习在量子纠错任务中独立发现量子纠错策略的能力，并提出了包括二阶段学习和反馈优化在内的策略。这项工作不仅在量子计算方面具有重要作用，还显示了神经网络强化学习在物理学领域的潜力。

Feb, 2018

物理知情模型与混合规划用于高效的 Dyna 风格增强学习

应用强化学习（RL）于现实世界的应用需解决渐进性能、样本效率和推理时间之间的平衡问题。本文利用对系统动力学的部分物理知识，演示了如何应对这种三重挑战。我们的方法包括学习一个基于物理知识的模型，以提高样本效率，并通过该模型生成虚拟轨迹，从中学习无模型策略和 Q 函数。此外，我们提出了一种混合规划策略，将学习到的策略、Q 函数和模型结合起来，以提高规划的时间效率。通过实际演示，我们证明了我们的方法在样本效率、时间效率和性能方面优于现有方法。

Jul, 2024

基于赌博机策略的多智能体无冲突 Q 学习及其光学实现

本研究提出了一种基于量子干涉的光子强化学习算法，扩展了传统方法以解决动态环境下的多智能体强化学习问题，并演示了多智能体强化学习可以通过光子干涉加速，以此避免智能体之间的冲突。

Dec, 2022

在脉冲神经网络中学习快速变化的缓慢

强化学习面临着应用于现实问题的巨大挑战，主要源于有限的与环境交互导致的可用数据的稀缺性。本研究引入了生物学上可行的近端策略优化的实现，通过在重要领域中显著减轻这一挑战，提高了学习的效率。

Jan, 2024

反馈即所需：基于近似物理模型的真实世界强化学习

本文提出了一种基于策略梯度的策略优化框架，可以通过可能高度简化的一阶模型对实际数据进行监督学习，从而设计出精确的控制策略。

Jul, 2023

最优政策往往追求权力

在强化学习中，我们证明了某些环境的对称性足以使最优策略倾向于在环境中寻求更多的控制力，以达到最大化平均奖励的目的。

Dec, 2019

无模型强化学习在光学自动实验控制中的应用

我们使用强化学习和虚拟测试平台实现自动调整光纤对激光的耦合效率达到 90%，证明强化学习在实验室降低工作负荷上的可行性。

May, 2024

使用脑启发的调制强化学习可以提高对环境变化的适应能力

研究提出了一种新的神经元学习规则，它使用突触前输入来调制预测误差，将其嵌入表格和深度 Q 网络强化学习算法中，可以在简单而高动态的任务中胜过传统算法，这提出了一种新的生物智能核心原则。

May, 2022