proximal policy optimization (ppo) | BriefGPT

关键词proximal policy optimization (ppo)

搜索结果 - 6

ACLP-TA：使用近端策略优化增强大型语言模型下的表格数据增强技术
利用近似策略优化（PPO）引导大语言模型（LLM）来增强表格特征的概率分布，从而使 LLM 成为用于合成表格数据的生成器，在三个真实数据集上通过实验证明，该方法相对于最先进技术提高了约 4％的合成模型准确性。
PDF19 days ago
COLING成功的成本共担：一种评估与学习多智能体协作指导与遵循策略的游戏
在协作目标导向的情境中，我们提出了一个具有挑战性的交互参考游戏，要求两名玩家在视觉和语言观察方面进行协调。我们展示了标准的 Proximal Policy Optimization (PPO) 设置在启发式伙伴行为的引导下能够获得较高的成功
PDF3 months ago
基于截断目标函数的消极策略优化的政策梯度
通过简单的目标调整，我们发现在连续行动空间中，将 Proximal Policy Optimization (PPO) 的重要性采样目标替换为截断等价的基础策略梯度可以持续改善其性能，并且这种悲观的优化促进了增强性探索，从而在单任务、约束和
PDF8 months ago
学习具有未知图内核的正则化图均场博弈
我们设计和分析了一种用于图形平均场博弈算法（GMFGs）的强化学习算法。相较于以往需要准确的图形值的方法，我们旨在学习当图形值未知时的正则化 GMFGs 的纳什均衡（NE）。我们的贡献有三个方面。首先，我们提出了用于 GMFG 的邻近策略优
PDF8 months ago
自主驾驶中的强化学习智能体风险感知奖励塑形
该研究提出了一种基于风险感知的奖励塑形方法，以鼓励探索和惩罚高风险驾驶行为，并在 OpenAI Gym 的模拟研究中表明，风险感知的奖励塑形对于各种强化学习智能体具有优势，同时指出近端策略优化（PPO）是最适合使用风险感知奖励塑形的强化学习
PDFa year ago
如何在近端策略优化中实现不确定性估计
该研究提出了 Actor-Critic RL 算法的不确定性和 OOD 状态的定义，使用多种不确定性估计方法，展示不同的 OOD 检测性能，并提出了一种 Pareto 优化问题的解决方案，应用 Masksembles 方法成功的平衡了奖励和
PDF2 years ago