BriefGPT.xyz
大模型
Ask
alpha
关键词
action embeddings
搜索结果 - 5
DCT: 大离散行动空间的强化学习行动嵌入的双通道训练
本文提出了一种新颖的框架来 efficiently learn action embeddings,并且成功地在 2D maze 环境和真实世界的电子商务交易数据中实现了更干净的 action embeddings 和更好的策略学习。
PDF
a year ago
为离线评估学习动作嵌入
本研究提出了一种使用训练好的奖励模型输出来定义 MIPS 动作嵌入的方法,该方法可以减少 IPS 在大规模动作空间中的方差,并扩展了 MIPS 的应用范围,在合成和实际数据上都优于预定义的嵌入和标准基线模型,不需要奖励模型类的假设,并支持使
→
PDF
a year ago
ICML
利用嵌入技术进行大型行动空间的离策估计
提出一种基于边际化重要性权重的新 Off-Policy Evaluation(OPE)估算器,旨在解决现有 OPE 估算器在动作数量很大时出现的极端偏差和方差问题,能够为许多应用程序,从推荐系统到语言模型中提供可靠的 OPE,并分析了行动嵌
→
PDF
2 years ago
学习具有行动嵌入的可转移动作策略
本文提出了一种通过学习状态嵌入和动作嵌入来跨不同状态和动作空间传递策略的方法,实验结果表明该方法不仅可以学习有用的动作嵌入,而且可以加速策略学习。
PDF
5 years ago
ICLR
动态感知嵌入
本文提出一种自监督表示学习方法,通过正向预测目标同时学习环境状态和动作序列的嵌入表示,以提高强化学习的采样效率和策略学习性能。研究表明,使用本文提出的动作嵌入表示已经能够在低维状态下有效提高模型无关的强化学习的采样效率和峰值性能。同时,结合
→
PDF
5 years ago
Prev
Next