ACLNov, 2015

使用自然语言行动空间的深度强化学习

TL;DR本文介绍了一种新的强化学习体系架构,它是专门设计用于处理自然语言状态和动作空间,适用于文本类型游戏。该体系架构称为深度强化相关网络(DRRN),可以将动作和状态空间表示为独立的嵌入向量,并通过交互函数与 Q 函数一起拟合以实现强化学习。在两个受欢迎的文本游戏上对 DRRN 进行评估,表现优于其他深度 Q 学习体系架构。对具有不同措辞的动作描述进行的实验表明,该模型在提取意义而非仅仅是记忆文本串方面表现出色。