ACLMay, 2018

通过人类赌徒反事实学习改进神经语义解析器

TL;DR本篇论文研究了如何通过历史系统中用户反馈数据来提高目标系统的性能,并介绍了一种将此框架应用于神经语义解析的方法。该方法的挑战在于适当地重新加权评估器,以避免策略学习中已知的退化现象,并仍能适用于随机梯度优化。为了与人类用户进行实验,我们设计了一个易于使用的界面来收集人类对语义解析的反馈。我们的工作是第一个显示从已记录的人类反馈数据中可以通过反事实学习显著提高语义解析器性能的工作。