BriefGPT.xyz
May, 2023
真实回答的语言属性
Linguistic Properties of Truthful Response
HTML
PDF
Bruce W. Lee, Benedict Florance Arockiaraj, Helen Jin
TL;DR
通过220个手工制作的语言特征,研究了LLM的不实回答现象。重点关注GPT-3模型,并发现模型的语言特征在回答给定提示时保持相似。通过训练只依赖于模型响应的风格组件的支持向量机来分类陈述的真实性。尽管数据集大小限制了我们当前的发现,但我们提供有希望的证据表明可以在不评估内容本身的情况下检测真实性。
Abstract
We investigate the phenomenon of an
llm
's untruthful response using a large set of 220 handcrafted
linguistic features
. We focus on
gpt-3
→