Dec, 2023

基于 OpenAI GPT 模型的讽刺检测研究

TL;DR本研究探讨了生成预训练转换器(GPT)模型(包括 GPT-3、InstructGPT、GPT-3.5 和 GPT-4)在检测自然语言中的讽刺的应用。该研究测试了不同大小和版本的精调和零 - shot 模型,并在 Self-Annotated Reddit Corpus(SARC 2.0)的政治和均衡(pol-bal)部分的讽刺数据集上进行了评估。结果显示,在精调的情况下,最大的精调 GPT-3 模型在准确性和 F1-score 方面达到了 0.81,超过了之前的模型。在零 - shot 的情况下,其中一个 GPT-4 模型的准确性为 0.70,F1-score 为 0.75,其他模型得分较低。此外,每个版本的模型性能可能会有所改善或恶化,强调了需要在每个版本发布后重新评估性能的必要性。