EMNLPOct, 2022

文本编辑作为模拟游戏

TL;DR本研究将文本编辑作为一项模仿游戏,使用行为克隆方法将传统序列转序列数据转化为状态 - 操作演示,通过引入双解码器结构来并行解码操作,实现对操作之间的依赖进行保留,以及利用轨迹增强技术缓解模仿学习常常遇到的分布偏移问题。对一组算术方程基准测试进行了实验,结果显示该模型在性能、效率和稳健性方面均优于自回归基线。期望该研究成果能为以后在强化学习中应用序列级操作生成的自然语言处理研究提供启示。