本研究提出了一种新型的跨模态 embedding 空间 ——Action2Vec,该方法将语言线索与视频剪辑的时空特征结合起来,并使用分层循环网络捕获视频特征的时间结构。我们使用联合损失训练嵌入,将分类准确度与 Word2Vec 语义相似性相结合。通过零样本动作识别和两项新颖的类比测试,我们评价了 Action2Vec 模型,并在三个标准数据集上获得了最先进的结果。同时,我们是首个将动词和动作视频组合成联合 embedding 空间,并在分布语义上进行全面评估的研究。
Jan, 2019
研究了在没有给定先验结构的情况下,如何基于状态表示和行为表示实现模型无关的强化学习方法,并提供了相应的算法和收敛条件。
Feb, 2019
本文介绍了一种新的强化学习体系架构,它是专门设计用于处理自然语言状态和动作空间,适用于文本类型游戏。该体系架构称为深度强化相关网络(DRRN),可以将动作和状态空间表示为独立的嵌入向量,并通过交互函数与 Q 函数一起拟合以实现强化学习。在两个受欢迎的文本游戏上对 DRRN 进行评估,表现优于其他深度 Q 学习体系架构。对具有不同措辞的动作描述进行的实验表明,该模型在提取意义而非仅仅是记忆文本串方面表现出色。
Nov, 2015
基于强化学习算法的学习历史的监督预训练,通过与环境的交互,能够捕捉学习过程并在上下文中改善对新任务的处理。然而,现有文献在上下文泛化到新行为空间方面仍存在差距。本研究旨在开发一种专门用于泛化到新行为空间的架构和训练方法,通过预测行为嵌入来消除对行为数量的依赖,并使用随机嵌入来增加对上下文的语义推理能力和准备测试时的新未见嵌入。通过多臂赌博环境的实验,证明了我们的模型能够在不需要重新训练的情况下达到数据生成算法的性能。
Dec, 2023
通过结合 hypergraph networks framework 和 deep Q-networks 方法,有效提升异构空间下 action-value 估计的表现,包括 Atari 2600 游戏和物理控制基准测试等多个领域。
Oct, 2020
该研究提出了一种新颖的潜在动作框架,将端到端会话代理的动作空间视为潜在变量,并开发无监督的方法从数据中诱导其自己的动作空间。实验结果表明,所提出的潜在动作在 DealOrNoDeal 和 MultiWoz 对话上实现了比以前的基于单词级策略梯度方法更好的实证绩效改进。
本文提出一种基于近似最近邻方法和先前关于行动的信息的强化学习算法,将大量离散行动嵌入到连续空间中,从而实现对大规模学习问题的解决。
Dec, 2015
研究表明使用自然语言表征的强化学习代理比视觉代理更具鲁棒性,更快收敛,表现更好,展示出使用自然语言表征的好处。
Oct, 2019
本文提出了一种新颖的框架来 efficiently learn action embeddings,并且成功地在 2D maze 环境和真实世界的电子商务交易数据中实现了更干净的 action embeddings 和更好的策略学习。
Jun, 2023
该论文研究了深度强化学习中低级感知和运动信号的表示方法,提出通过多任务策略网络输入状态和任务嵌入的方法得到有意义的运动表示空间,并在此基础上进行高级别指令的执行规划,实验结果表明该方法优于现有强基线方法,具有较强的任务适应能力。
Oct, 2022