reinforce | BriefGPT - AI 论文速递

关键词reinforce

搜索结果 - 8

基于差异性的离散随机梯度估计方法：DBsurf
介绍了一种基于 Reinforce 的离散分布估计方法 DBsurf，通过减少样本与实际分布之间的偏差来提高梯度估计的准确性，达到在不同数据集和采样设置下实现最佳结果的训练变分自动编码器（VAE）及构建具有最新性能的简单高效的神经架构搜索（
PDF10 months ago
策略梯度方法的操作符视角
本文通过引入操作符的概念，将传统的强化学习算法中的策略梯度方法如 REINFORCE 和 PPO 等转化成了操作符形式，从而更好地理解它们的原理，同时通过引入新的全局下限，进一步弥合了基于策略和基于价值的方法之间的差距，将 REINFORC
PDF4 years ago
ICLR通过无放回抽样估计离散随机变量的梯度
本文提出了一种基于无重复抽样的离散随机变量期望无偏估计方法，将其与 REINFORCE 算法相结合，得到了具有内置控制变量的策略梯度估计器，并应用于多种任务得到了良好的效果。
PDF4 years ago
AM-LFS: 损失函数自动机器学习搜索
提出了一种名为 AM-LFS 的自动机器学习方法，利用 REINFORCE 动态优化损失函数和参数，从而在计算机视觉任务中表现优异。
PDF5 years ago
ICLR注意力学习解决路径规划问题！
我们提出了一种基于注意力层的模型来解决组合优化问题，并使用基于确定性贪心策略的简单基线进行训练，在解决旅行商问题（TSP）和车辆路径问题（VRP）方面取得了很好的结果。
PDF6 years ago
推断和执行视觉推理程序
本文采用模块化网络模型，使用神经网络实现程序生成器和执行引擎，通过反向传播和 REINFORCE 的训练方法，在视觉推理任务（CLEVR）上打破基线模型，表现显著优越，并在各种环境中具有更好的推广性能。
PDF7 years ago
ACL神经符号机器：在 Freebase 上进行语义解析器学习的弱监督
介绍了一种神经符号机器，该机器结合了神经 ' 编程器 ' 和符号 ' 计算机 '，以直接优化 structured prediction 问题的任务奖励，通过 REINFORCE 算法并结合迭代的最大似然训练流程强化训练，能够在 WebQu
PDF8 years ago
CVPR视频帧瞥片段的端到端动作检测学习
该研究提出了一种直接预测动作时间边界的完全端到端的方法，其中模型作为一个基于循环神经网络的智能体与视频交互，并使用 REINFORCE 来学习决策策略，取得了 THUMOS'14 和 ActivityNet 数据集的最先进结果。
PDF9 years ago