Jun, 2023

评估文本蕴含模型的释义鲁棒性

TL;DR本文介绍 PaRTE,一组 1126 个文本蕴含例子,用来评估模型是否对改写具有鲁棒性。文章指出,如果 RTE 模型真正理解语言,那么它们的预测应该在具有相同意义的输入之间保持一致。作者使用这个评估集合以确定 RTE 模型在对例子进行改写时是否会改变它们的预测。通过实验发现,当文本改写时,现代模型对 8-16% 的例子进行了预测更改,这表明仍有提高空间。