衡量和基准大型语言模型生成有说服力语言的能力
大型语言模型(LLMs)的能力不断增长,但也引发了对其潜在滥用创建个性化、令人信服的错误信息和宣传的担忧。为了了解 LLMs 的说服能力,我们在 Durmus&Cardie(2018)的数据集上进行了研究,提出了衡量 LLMs 能力的任务,包括区分强弱论点、根据信念和人口特征预测立场、以及根据个人特征确定论点的吸引力。我们发现 LLMs 在这些任务中能与人类持平,并且合并不同 LLMs 的预测可以显著提高性能,甚至超过人类表现。本文发布的数据和代码为持续评估和监测快速发展的 LLMs 的潜在影响和能力做出了关键而持续的贡献。
Mar, 2024
大型语言模型(LLM)与人类一样具有说服力,但我们对其原因知之甚少。本文研究了 LLM 的说服策略,并将其与人类生成的论点进行比较。通过对 1251 名实验参与者的数据集分析,我们使用认知努力度(词汇和语法复杂性)以及道德情感语言(情感和道德分析)衡量 LLM 生成和人类生成的论点的说服策略。研究表明,LLM 生成的论点需要更多的认知努力,其语法和词汇结构比人类对应论点更为复杂。此外,LLM 表现出更强烈的倾向来运用道德语言,与人类相比,更频繁地使用积极和消极的道德基础。与先前的研究相反,没有发现 LLM 生成的情感内容与人类有显著差异。这些发现有助于关于人工智能和说服力的讨论,突显了 LLM 通过传播策略对信息的真实性产生同时增强和破坏的双重潜力。
Apr, 2024
经过调查,发现大型语言模型(LLMs)在金融行业消费者投诉中的使用与获取理想结果的可能性及语言特征改善相关,进一步实验证明了 LLM 在人类沟通中提升信息说服力的能力,并凸显了 LLM 在人类沟通中的转变潜力。
Nov, 2023
该论文调查了大型语言模型的八个潜在问题,包括其预测能力的增强,不可预测的行为的出现,对外部世界的学习和使用表示,行为引导技术的不可靠性,内部工作方式的解释困难性,性能上界不是人类任务表现,不一定表达其创建者或网络文本编码的价值观,与 LLMs 的简短交往经常是误导性的。
Apr, 2023
两项研究证明了大型语言模型可以用于模拟受到影响后的心理变化,并且支持大型语言模型具有成为影响效应模型的潜力。第一项研究测试了虚假真相效应,发现大型语言模型模拟数据和人类数据的效应模式一致;第二项研究考察了民粹主义新闻框架,发现其中一些效应与人类实验数据一致,但也存在区别。
Mar, 2023
调查了大型语言模型(LLMs)是否有内在能力从良性样本中制造对抗性样本来欺骗现有的安全措施,实验结果表明,LLMs 成功地找到了对抗性扰动,有效地破坏了仇恨言论检测系统,这对依赖 LLMs 的(半)自主系统与现有系统和安全措施的交互带来了重要挑战。
Feb, 2024
通过建立新的数据集并使用九个大语言模型,本研究研究了人工撰写文章和机器生成文章之间的性质变化以及政治偏见的检测,结果显示基准模型和经过调整的模型之间存在显著差异,并且大语言模型在分类器角色中也显示出政治偏见,为进一步研究大语言模型政治偏见及其影响提供了一个基础。
Jun, 2024
使用多种规模的大型语言模型生成的政治信息,证明规模越大并不意味着越具有说服力,实验结果显示完成任务(连贯性,专题一致性)是较大模型说服力优势的主要原因。
Jun, 2024
本文探讨了使用心理测量测试来量化和分析大型语言模型输出中的人格特质的可靠性和有效性,并讨论了如何对这些模型进行塑造的潜在应用和伦理影响,特别是关于负责任地使用 LLM。
Jul, 2023
该研究通过一个深入的案例研究,评估了大型语言模型在创意写作过程中作为辅助工具的潜力。研究中开发了交互式多声音提示策略,交织了背景描述、指导写作的指令、目标风格的文本示例和给定示例的关键讨论,并从文学批评的角度以及计算创造力的角度进行了定性评估。研究结果支持大型语言模型能够实现高级提示的观点。
Nov, 2023