Sep, 2023

通过自然语言指导的语义探索提高深度强化学习的效率

TL;DR用检索式方法通过神经网络编码,选择性、高效地与oracle进行交互,并使用oracle的答案更新agent的策略和值函数,从而在强化学习任务中大幅提高效率。