ICMLFeb, 2019

动作的自然语言

TL;DRAct2Vec 是一种通用的框架,用于学习基于上下文的强化学习中的行动表示,在此基础上,该文章针对三个领域 (绘画任务、高维导航任务和星际争霸 2) 进行了可视化和测试,并展示了先前环境知识如何从示范中提取并注入到编码自然兼容行为的行动向量表示中,最终优化了 Q 值函数的近似。