reinforcement learning algorithm | BriefGPT

关键词reinforcement learning algorithm

搜索结果 - 16

基于能量模型的最大熵逆强化学习中的扩散模型
我们提出了一种最大熵反向强化学习 (IRL) 方法，用于改善扩散生成模型的样本质量，尤其是在生成时间步骤较少的情况下。通过训练或微调扩散模型，我们使用从训练数据估计的对数概率密度来训练（或微调）扩散模型。我们采用基于能量的模型 (EBM)
PDF4 days ago
增强解码器：训练递归神经网络进行时间序列预测
本研究提出了一种名为增强解码器的新型训练方法，通过引入辅助模型生成备用解码器输入来解决多步骤时间序列预测中的累积误差问题，并利用强化学习算法动态选择最优输入以提高准确性。综合实验表明，该方法在多个数据集上优于常见训练方法。此外，该方法在基于
PDF20 days ago
弱连接连续动作马尔可夫决策过程的深度强化学习
该论文介绍了用于弱耦合 MDP 问题和连续动作空间的 Lagrange 策略 (LPCA) 一种强化学习算法，它通过在神经网络框架中引入弱耦合 MDP 问题的 Lagrange 松弛来解决依赖于连续动作的资源约束挑战，并有效地解耦了 MDP
PDFa month ago
ICML可证明高效的对抗性不安静多臂赌博机强化学习：未知转换和赌博机反馈
通过使用一种创新的偏置对抗性奖励估计器和低复杂度指标策略，我们开发了一种新颖的强化学习算法来解决具有未知转换函数和敌对奖励的周期性不安定性多臂赌博机问题，以最大化总的敌对奖励，并确保在每个决策阶段满足瞬时激活约束条件，我们的算法在我们所考虑
PDF2 months ago
基于算术的数字词分解 —— 算术条件给出了解包策略
本文介绍了一种新型数位分解器，旨在逆转赫福德的打包策略，该分解器通过递归将小数位单词组合形成数字单词。通过检查算术条件来解包子数字，该算法在 254 种不同自然语言的数字系统上测试成功，并基于该算法开发了一种基于强化学习的算法，源代码和结果
PDF7 months ago
无仿真强化学习框架中的机器人学习袋装技能
该篇文章介绍了一种基于学习的有效框架，使得机器人能够学会装袋，通过引入一种强化学习算法，该框架能够在现实世界中通过一组紧凑的状态表示找到袋子的最佳抓取点，经过大约三个小时的训练后，该框架在开始折叠和展开装袋任务时的成功率分别达到 60% 和
PDF8 months ago
无限视角平均报酬强化学习的量子加速
该研究探讨了量子加速在解决无限视界马尔可夫决策过程（MDP）以增强平均奖励结果方面的潜力。我们引入了一种创新的量子框架，用于代理与未知 MDP 的交互，扩展传统的交互范式。我们的方法包括设计一种基于乐观主义的表格型强化学习算法，通过高效的量
PDF9 months ago
使用强化学习设计感应电机
提出了一种强化学习算法，用于设计定制感应电机。通过模拟电气机械设计游戏的不同实例，使用奖励或惩罚函数离线训练神经网络模型。结果表明，该方法自动化电气机械设计，无需应用人工工程知识。
PDFa year ago
拓扑引导的带时序目标的连续系统演员 - 评论家模块化学习
本文研究了给定线性时间逻辑高级规范的连续状态随机动态系统的正式策略综合问题。通过在动态系统和翻译的自动机之间进行乘积来构造乘积系统，以学习最大化满足概率的最优策略，并在此过程中提出了一种泛化的优化备份顺序，进一步加速了学习过程，在拓扑顺序的
PDFa year ago
使用强化学习的通用分布式基于决策的黑盒对抗攻击
研究在决策类攻击领域提出了像素级决策驱动的黑盒攻击算法，该算法使用增强学习算法找到对抗性扰动分布，经实验证明，与现有技术相比更具攻击成功率和可转移性。
PDF2 years ago
语义通信的性能优化：一种基于注意力机制的强化学习方法
本文提出一种基于语义的通信框架，其中基站从文本数据中提取语义信息并采用知识图表达，将其发给每个用户，用户再采用图到文本生成模型进行还原。为了优化性能，本文提出了一个同时考虑语义精度和完整性的语义相似度度量方法，同时解决了基站资源分配、文本内
PDF2 years ago
日内电力市场中的普通用户管理机器学习方法
研究采用强化学习算法中的马尔可夫决策过程，通过机器学习等技术应对电力市场中的各种挑战，并取得了 13.39% 的增长。
PDF2 years ago
离散动作设置下的软演员 - 批评家算法
该论文介绍了针对连续动作环境的强化学习算法 Soft Actor-Critic，并提出了一种适用于离散动作环境的替代算法。通过与 Atari 游戏套件中的调优模型无关的竞争，在未进行超参数调整的情况下展示了其具有竞争力。
PDF5 years ago
EMNLPBanditSum：基于上下文盲探算法的摘要提取
本文提出了一种名为 BanditSum 的新方法，使用强化学习算法，将抽取式摘要视为上下文 Bandit 问题进行模型选择序列，从而在使用较少更新步骤的情况下达到优于抽取式文摘的 ROUGE 分数结果。
PDF6 years ago
使用频谱瀑布的抗干扰通信：一种深度强化学习方法
本文提出了一种基于在线学习的反干扰通信方法，使用频谱瀑布直接处理原始信号，通过构建深度 Q 网络和强化学习算法得到最佳反干扰策略，从而避免了需要先估计干扰模式和参数的问题，结果表明该方法可以广泛应用于各种反干扰场景。
PDF7 years ago
描述引导的属性关注定位：用于细粒度识别的定位方法
该研究通过属性指导下的注意力定位方案设计新的奖励策略，使用强化学习算法定位具有空间和语义区别的局部特征区域，从而在精细识别和属性识别方面超越了传统基于部件的方法。
PDF8 years ago