May, 2024

基于大型语言模型的短文本人可解释聚类

TL;DR大语言模型在内容生成能力方面取得了巨大的增长,本研究展示了这些模型还可以成功地对人类生成的内容进行聚类,通过独特性和可解释性两个度量标准来定义成功。该研究验证了这一成功,通过人工审阅和 ChatGPT 的比较,提供了一种自动化的方法来弥合挑战短文本聚类的 “验证差距”。比较人工和机器方法,我们确定了每种方法固有的偏见,并质疑依赖人工编码作为 “黄金标准”。我们将该方法应用于 Twitter 个人资料描述信息,并发现人类自我描述的特点方式,与先前专家工作相吻合,但也有表达身份特点的有趣差异,这与表达身份的媒介特性有关。