真实回答的语言属性

May, 2023

Linguistic Properties of Truthful Response

Bruce W. Lee, Benedict Florance Arockiaraj, Helen Jin

TL;DR通过220个手工制作的语言特征，研究了LLM的不实回答现象。重点关注GPT-3模型，并发现模型的语言特征在回答给定提示时保持相似。通过训练只依赖于模型响应的风格组件的支持向量机来分类陈述的真实性。尽管数据集大小限制了我们当前的发现，但我们提供有希望的证据表明可以在不评估内容本身的情况下检测真实性。

Abstract

We investigate the phenomenon of an llm's untruthful response using a large set of 220 handcrafted linguistic features. We focus on gpt-3