生成语言模型和影响操作的成本分析
大型语言模型(LLMs)可能对公众对信息的认知和互动产生重大影响,因此需要对其内部思想意识是否可以轻易操纵引起关注。本研究探讨了 LLMs 在指导训练数据中学习和推广意识形态偏见的效果,并揭示了令人担忧的脆弱性:仅接触少量的思想倾向样本就会明显改变 LLMs 的思想意识,尤为显著的是,LLMs 展示了吸收一个主题的意识形态,并将其普遍应用于其他无关主题的惊人能力。LLMs 思想意识易受到恶意操作者故意操纵训练数据或数据标注者无意引入的偏见的风险,这强调了采取强有力的安全措施以减轻意识形态操纵对 LLMs 影响的重要性。
Feb, 2024
本文研究了现代大型语言模型的潜在滥用问题,并探讨其对信息密集型应用的影响,特别是对开放式问题回答系统。我们建立了一个威胁模型,模拟了可能的滥用场景,证明了大型语言模型可以作为有效的错误信息产生器,导致开放式问题回答系统的性能显著降低。为了减轻大型语言模型生成的错误信息带来的危害,我们探索了三种防御策略:提示、错误信息检测和多数投票。尽管最初的结果显示这些防御策略具有有利趋势,但仍需要更多的工作来解决错误信息污染的挑战。我们的工作强调了进一步研究和跨学科合作的必要性,以应对大型语言模型生成的错误信息,促进大型语言模型的负责任使用。
May, 2023
大型语言模型在虚假信息检测任务中的性能研究显示,多样的启发式方式和多个实例学习策略可以提高大型语言模型在文本和传播结构理解方面的检测性能,突出了大型语言模型检测虚假信息的潜在能力。
Nov, 2023
社交媒体影响力竞选对公共话语和民主构成重大挑战,传统检测方法因社交媒体的复杂性和动态性而力不从心。本文提出了一种新颖的检测方法,利用大型语言模型(LLMs)结合用户元数据和网络结构。通过将这些元素转化为文本格式,我们的方法能够有效处理多语言内容并适应恶意竞选行为者不断变化的策略。通过在多个数据集上进行严格测试,我们验证了模型的有效性,并展示了其在识别影响力竞选方面的卓越性能。本研究不仅提供了一个强大的检测工具,而且为未来改进社交媒体影响策略的快速演变奠定了基础。
Nov, 2023
强大的生成型大语言模型 (LLMs) 成为了公众问答系统中流行的工具,而且正在被像儿童这样的弱势群体使用。本文探讨了 LLMs 在在线防止网络诱导方面的有效性,包括通过生成建议来识别和避免诱导,并且通过改变提供的上下文和提示的特异性来研究提示设计对模型性能的影响。通过对超过 6000 个 LLM 的互动进行反思,我们发现没有一个模型明确适用于在线防止网络诱导,行为的一致性缺乏,并且存在潜在的有害答案生成,特别是来自开源模型。我们概述了模型的不足之处,并提出了改进建议,并确定了严重改变模型性能的提示设计,并得出研究结果可用于制定最佳实践使用指南。
Mar, 2024
我们研究了大型语言模型(LLMs)产生有说服力的文本的能力,通过构建一个新的数据集 Persuasive-Pairs,用于训练回归模型来预测文本对之间的说服力得分,并讨论了系统提示中不同 'personas' 对文本的影响。
Jun, 2024
大语言模型(LLM)的出现具有革命性的影响。然而,像 ChatGPT 这样的 LLM 是否可能被滥用来生成误导信息,对在线安全和公众信任构成了严重关注。我们从检测难度的角度提出了一个基本的研究问题:LLM 生成的误导信息是否比人类编写的误导信息具有更大的危害性?通过我们的实证研究,我们发现相比于具有相同语义的人类编写的误导信息,LLM 生成的误导信息对于人类和检测器来说更难以检测,这表明它可能具有更具欺骗性的风格,并有可能造成更大的伤害。我们还讨论了我们发现对抗 LLM 时的误导信息在信息时代和相应对策的影响。
Sep, 2023
降低大型语言模型在低资源语言的处理成本,同时确保预测和生成性能不受损失,通过考虑代码混合、翻译和音译等方式来减少 LLM 处理的标记数量,并通过广泛研究 15 种印度语言的 IndicXTREME 数据集来证明最佳交互策略可以将成本降低 90%,并且与原始低资源语言的交互相比性能更好或可比。
Mar, 2024