Nov, 2022

lilGym:利用强化学习进行自然语言视觉推理

TL;DRlilGym 是一个基于自然语言生成环境的强化学习基准,通过在每个可能世界状态上注释所有语句以确切计算奖励,创建了数千个不同难度的马尔可夫决策过程,并使用不同模型和学习体系结构实验和分析表明,lilGym 是一个具有挑战性的开放问题。