原始主体一阶优化

Jun, 2024

Primitive Agentic First-Order Optimization

R. Sala

TL;DR此研究论文提出了一种以强化学习为基础的数值优化方法，通过简化的状态表示和代理 - 环境交互来近似序贯更新算法迭代步骤的最优策略，成功应用于有限优化问题中，优于传统优化算法的超参数优化。结果表明，结合简洁的状态表示，基础强化学习方法可用作复杂优化问题的启发式方法，为代理式优化方法铺平了道路。

Abstract

Efficient numerical optimization methods can improve performance and reduce the environmental impact of computing in many applications. This work presents a proof-of-concept study combining primitive state repres

numerical optimization methods environmental impact budget-limited optimization reinforcement learning agentic optimization approaches

发现论文，激发创造

部分观察多智能体环境下的演员 - 评论家策略优化

本研究讨论了基于梯度上升的策略梯度和演员 - 评论家算法在部分可观测多智能体环境中的角色，并通过对零和不完全信息游戏等模型的建模来优化模型自由多智能体增强学习的表现。

Oct, 2018

可验证的表示与高效规划用于部分可观察强化学习

本研究旨在解决强化学习中部分可观察马尔可夫决策过程带来的性能下降问题，并通过对表示视图的利用提出了一种可行的强化学习算法，可在部分观测输入下实现比现有算法更高的性能，推动可靠强化学习在实际应用中的应用。

Nov, 2023

表示抽象作为强化学习智能体的激励机制：一个机器人抓取的案例研究

选择适当的环境表示对于强化学习代理的决策过程并不总是直观的，本研究考察了不同状态表示对于激励代理解决机器人任务的影响，结果显示使用数字状态的强化学习代理与非学习基线表现相当，而使用经过预训练环境嵌入向量的图像表示的代理表现更好，推测任务特定的知识对于实现收敛和高成功率的机器人控制是必要的。

Sep, 2023

通过状态近似抽象实现近似最优行为

本研究探讨了使用状态抽象来减轻计划和强化学习算法中的组合爆炸问题。我们研究了近似状态抽象的理论保证和在各种环境中的有效性。结果表明，使用近似抽象可以减少任务复杂度和行为最优性的损失。

Jan, 2017

使用强化学习加速二次优化

使用强化学习 RLQP 策略自动调整参数，加速求解二次优化问题，与现有算法相比，RLQP 能显著提高性能并普适适用于不同应用场景。

Jul, 2021

零阶演员 - 评论家

提出了一种新的零阶演员评论家算法（ZOAC），将进化型的零阶优化方法和基于政策梯度的一阶方法统一到一个政策演员结构中，解决了两种算法的缺陷，获得了更高的样本效率和更强的鲁棒性。

Jan, 2022

无模型模仿学习与策略优化

在模仿学习中，我们使用基于样本的方法开发了一种基于策略梯度的算法，即通过学习专家的样本轨迹，找到至少与专家策略一样好的参数化随机策略；该算法可以应用于高维度环境，并保证收敛到局部最小值。

May, 2016

超级智能体：用于复杂环境的简洁、可扩展、高效和可证明的强化学习框架

提出了一种基于 HyperAgent 的强化学习框架，通过超模型、索引采样方案和增量更新机制，在资源约束下实现对复杂任务的简化、高效和可伸缩性，以及超越共轭的通用值函数近似下的计算高效的顺序后验近似和数据高效的动作选择。

Feb, 2024

优化规划启发式算法，以排序而非估算目标开销

本论文重新审视了启发式函数在规划中的模仿学习中的必要和充分条件，并针对给定的前向搜索算法的变体提出了一族基于排名的损失函数。另外，从学习理论的角度讨论了为什么优化成本 - 目标 h * 是不必要困难的。实验比较在多样化的问题集上明确地支持了得出的理论。

Oct, 2023

针对智能代理人自然语言交流的定期策略优化

提出一个可以通过联合推理视觉观察和语言输入来学习自然语言指令的新型策略优化算法，该训练范式提供了有效的探索和更好的泛化能力，相比现有的集成模型，我们提出的最佳模型在块世界环境中的执行错误率可以大幅降低超过 50％，同时还包括系统性的研究以展示我们 RL 算法的探索策略。

Jun, 2018