ACLApr, 2024

自然语言推理中错误多少是由于释义的变异导致的?

TL;DR大型语言模型在对意义保持改写的输入作出回应时表现不一致。我们提出了一种度量自然语言推理模型改写一致性的评估指标,该指标基于模型在同一问题的两个改写上的正确性概率,并将其与改写相关的正确性变化的比例数学上相连。通过收集 ParaNLU 数据集,我们测量了几种模型类别的改写一致性,并展示了一致性随预训练而显著增加,而微调则没有。所有测试模型在改写一致性方面都有改进的空间。