Aug, 2018

评估问答中的心智理论

TL;DR本研究提出了一个新的数据集,旨在评估问答模型在理解信仰和状态一致性方面的推理能力,评估多个带有记忆增强的神经模型,发现这些模型在需要跟踪世界不一致状态的任务中均失败,而且当试验中引入随机句子时,模型的准确性明显下降。