大型语言模型是否能提供安全和隐私建议？测量 LLM 反驳误解的能力

Oct, 2023

大型语言模型是否能提供安全和隐私建议？测量 LLM 反驳误解的能力

Can Large Language Models Provide Security & Privacy Advice? Measuring the Ability of LLMs to Refute Misconceptions

Yufan Chen, Arjun Arunasalam, Z. Berkay Celik

TL;DR对大型语言模型在安全和隐私（S&P）领域中提供可靠建议的能力进行了研究，发现平均错误率为 21.3％，当用相同或释义的误解进行多次查询时错误率增至 32.6％；研究还揭示，模型可能部分支持错误观点或不表态，且提供的信息源包括无效的 URL 和无关的来源。

Abstract

Users seek security & privacy (S&P) advice from online resources, including trusted websites and content-sharing platforms. These resources help users understand S&P technologies and tools and suggest actionable strategies. Large Language Models (LLMs) have recently emerged as trusted informa

security & privacy advice large language models s&p misconceptions error rate information sources

发现论文，激发创造

大型语言模型协助人类验证真实性 -- 除非其错得令人信服

通过与搜索引擎进行对比实验证明，大型语言模型虽然能提高事实核查的效率，但在解释错误的情况下容易让用户过分依赖，因此在高风险环境中不宜将其作为阅读检索内容的可靠替代品。

Oct, 2023

大型语言模型可以评估新闻媒体的可信度

本研究评估了 ChatGPT 对新闻机构的可信度评估能力，结果显示大型语言模型可用于事实核查应用程序。

Apr, 2023

关于 LLMs 的隐含风险评估：关于鲁棒性，一致性和可信度的实证研究

本研究使用自动化工作流程，对 ChatGPT、LLaMA 和 OPT 等主流 LLM 进行了数百万次查询，得出了 LLM 在稳健性、一致性和可信度方面存在的问题，提出了一种新的关联数据集索引来评估使用 LLM 进行学术评估的可行性。

May, 2023

LLM 生成的错误信息能被检测出吗？

大语言模型（LLM）的出现具有革命性的影响。然而，像 ChatGPT 这样的 LLM 是否可能被滥用来生成误导信息，对在线安全和公众信任构成了严重关注。我们从检测难度的角度提出了一个基本的研究问题：LLM 生成的误导信息是否比人类编写的误导信息具有更大的危害性？通过我们的实证研究，我们发现相比于具有相同语义的人类编写的误导信息，LLM 生成的误导信息对于人类和检测器来说更难以检测，这表明它可能具有更具欺骗性的风格，并有可能造成更大的伤害。我们还讨论了我们发现对抗 LLM 时的误导信息在信息时代和相应对策的影响。

Sep, 2023

大型语言模型的安全与隐私挑战概述

该文综述了大型语言模型在安全与隐私方面面临的挑战，分析了其脆弱性，并审查了潜在的攻击方式与防御机制，还指出了该领域中的研究空白与未来发展方向。

Jan, 2024

大型语言模型（LLM）安全与隐私调查：优点、缺点和不好的一面

这篇论文探讨了大型语言模型与安全和隐私的交叉领域，研究了它们对安全和隐私的积极影响、潜在的风险和威胁，以及模型本身的固有漏洞。通过全面的文献综述，将研究结果分为 “有益” 的应用、恶意应用和漏洞及其防御措施。论文还指出了需要进一步研究的领域，并希望通过该研究揭示大型语言模型在加强和危及网络安全方面的潜力。

Dec, 2023

探索大型语言模型在识别误导性新闻标题中的潜力

利用大型语言模型（LLMs），本文研究了识别误导性与非误导性新闻标题的效果。研究发现模型性能存在显著差异，ChatGPT-4 在一致标注者就误导性标题达成一致意见的情况下表现出更准确的结果。文章强调了人本评估在开发 LLMs 中的重要性，旨在将技术能力与细腻的人类判断力相结合。研究结果对 AI 伦理问题具有借鉴意义，强调了在技术先进的同时，还需要考虑伦理道德和人类解读的微妙性。

May, 2024

LLM 有针对性的低效率问题主要影响弱势用户

通过对三种领先的大型语言模型 (LLM) 和两个不同的针对真实性和事实性的数据集进行深入实验，我们研究了 LLM 响应质量在信息准确性、真实性和拒绝方面如何随用户的英语水平、教育水平和国籍的不同而变化。我们的研究结果表明，领先的 LLM 模型在不可取的行为方面存在不均衡，对英语水平较低、教育水平较低和来自美国以外的用户具有更多的不可取行为，从而使这些模型对于最弱势的用户成为不可靠的信息来源。

Jun, 2024

大型语言模型对误导性污染的风险

本文研究了现代大型语言模型的潜在滥用问题，并探讨其对信息密集型应用的影响，特别是对开放式问题回答系统。我们建立了一个威胁模型，模拟了可能的滥用场景，证明了大型语言模型可以作为有效的错误信息产生器，导致开放式问题回答系统的性能显著降低。为了减轻大型语言模型生成的错误信息带来的危害，我们探索了三种防御策略：提示、错误信息检测和多数投票。尽管最初的结果显示这些防御策略具有有利趋势，但仍需要更多的工作来解决错误信息污染的挑战。我们的工作强调了进一步研究和跨学科合作的必要性，以应对大型语言模型生成的错误信息，促进大型语言模型的负责任使用。

May, 2023

了解 LLMs 不知道的内容：一种简单有效的自我检测方法

提出了一种新颖的自我检测方法，通过扩展问题的文本表达并收集相应的答案，检测大型语言模型（LLMs）是否会产生虚假回答，证明了该方法在 LLM 效果上的有效性。

Oct, 2023