Jul, 2022

应用于机器翻译的Q函数学习的Lagrangian方法

TL;DR本文提出了一种新方法来解决学习最优Q函数的基本问题,该方法将最优Q函数定为非线性Lagrange函数的鞍点,并应用于模仿学习和机器翻译基准测试,同时证明了Lagrange函数的对偶性和对称性破缺现象的存在。