动作的自然语言

ICMLFeb, 2019

The Natural Language of Actions

Guy Tennenholtz, Shie Mannor

TL;DRAct2Vec 是一种通用的框架，用于学习基于上下文的强化学习中的行动表示，在此基础上，该文章针对三个领域 (绘画任务、高维导航任务和星际争霸 2) 进行了可视化和测试，并展示了先前环境知识如何从示范中提取并注入到编码自然兼容行为的行动向量表示中，最终优化了 Q 值函数的近似。

Abstract

We introduce act2vec, a general framework for learning context-based action representation for reinforcement learning. Representing action

act2vec context-based action representation reinforcement learning q-values

发现论文，激发创造

Action2Vec: 一种跨模态嵌入式行为学习方法

本研究提出了一种新型的跨模态 embedding 空间 ——Action2Vec，该方法将语言线索与视频剪辑的时空特征结合起来，并使用分层循环网络捕获视频特征的时间结构。我们使用联合损失训练嵌入，将分类准确度与 Word2Vec 语义相似性相结合。通过零样本动作识别和两项新颖的类比测试，我们评价了 Action2Vec 模型，并在三个标准数据集上获得了最先进的结果。同时，我们是首个将动词和动作视频组合成联合 embedding 空间，并在分布语义上进行全面评估的研究。

Jan, 2019

强化学习的动作表示学习

研究了在没有给定先验结构的情况下，如何基于状态表示和行为表示实现模型无关的强化学习方法，并提供了相应的算法和收敛条件。

Feb, 2019

使用自然语言行动空间的深度强化学习

本文介绍了一种新的强化学习体系架构，它是专门设计用于处理自然语言状态和动作空间，适用于文本类型游戏。该体系架构称为深度强化相关网络（DRRN），可以将动作和状态空间表示为独立的嵌入向量，并通过交互函数与 Q 函数一起拟合以实现强化学习。在两个受欢迎的文本游戏上对 DRRN 进行评估，表现优于其他深度 Q 学习体系架构。对具有不同措辞的动作描述进行的实验表明，该模型在提取意义而非仅仅是记忆文本串方面表现出色。

Nov, 2015

变动动作空间下的环境感知强化学习

基于强化学习算法的学习历史的监督预训练，通过与环境的交互，能够捕捉学习过程并在上下文中改善对新任务的处理。然而，现有文献在上下文泛化到新行为空间方面仍存在差距。本研究旨在开发一种专门用于泛化到新行为空间的架构和训练方法，通过预测行为嵌入来消除对行为数量的依赖，并使用随机嵌入来增加对上下文的语义推理能力和准备测试时的新未见嵌入。通过多臂赌博环境的实验，证明了我们的模型能够在不需要重新训练的情况下达到数据生成算法的性能。

Dec, 2023

在动作顶点上学习表示动作价值的超图

通过结合 hypergraph networks framework 和 deep Q-networks 方法，有效提升异构空间下 action-value 估计的表现，包括 Atari 2600 游戏和物理控制基准测试等多个领域。

Oct, 2020

基于潜变量模型的端对端对话代理强化学习中的行动空间重新思考

该研究提出了一种新颖的潜在动作框架，将端到端会话代理的动作空间视为潜在变量，并开发无监督的方法从数据中诱导其自己的动作空间。实验结果表明，所提出的潜在动作在 DealOrNoDeal 和 MultiWoz 对话上实现了比以前的基于单词级策略梯度方法更好的实证绩效改进。

Feb, 2019

大规模离散动作空间下的深度强化学习

本文提出一种基于近似最近邻方法和先前关于行动的信息的强化学习算法，将大量离散行动嵌入到连续空间中，从而实现对大规模学习问题的解决。

Dec, 2015

语言即力：在强化学习中使用自然语言表示状态

研究表明使用自然语言表征的强化学习代理比视觉代理更具鲁棒性，更快收敛，表现更好，展示出使用自然语言表征的好处。

Oct, 2019

DCT: 大离散行动空间的强化学习行动嵌入的双通道训练

本文提出了一种新颖的框架来 efficiently learn action embeddings，并且成功地在 2D maze 环境和真实世界的电子商务交易数据中实现了更干净的 action embeddings 和更好的策略学习。

Jun, 2023

多任务策略训练中的简单自发行为表示

该论文研究了深度强化学习中低级感知和运动信号的表示方法，提出通过多任务策略网络输入状态和任务嵌入的方法得到有意义的运动表示空间，并在此基础上进行高级别指令的执行规划，实验结果表明该方法优于现有强基线方法，具有较强的任务适应能力。

Oct, 2022