Apr, 2024

用于生成和评估逆事实的 LLMs:一项全面研究

TL;DRNLP 模型生成反事实样本的能力及其对数据增强的影响进行了比较和评估,发现 LLMs 生成流利但改动较大的反事实样本,数据增强效果与人工生成的样本相比有明显差距。此外,LLMs 对偏标签数据的评估表现出明显的偏向性,而 GPT4 对此偏见更加稳健,并且其得分与自动评价指标具有很好的相关性。研究结果揭示了几个限制,并指出了未来的研究方向。