GPT-3 和先进神经语言模型的激进化风险

Sep, 2020

GPT-3 和先进神经语言模型的激进化风险

The Radicalization Risks of GPT-3 and Advanced Neural Language Models

Kris McGuffie, Alex Newhouse

TL;DR本文评估了 GPT-3 在生成极端主义文本方面的潜在滥用可能性，表明其在生成极端主义文本方面比之前的 GPT-2 取得了显着进展，并呼吁 AI 利益相关者、决策制定机构和政府采取措施来避免大规模的在线激进化和招募风险，并建立社会规范、公共政策和教育计划，以预防机器生成的谣言和宣传。

Abstract

In this paper, we expand on our previous research of the potential for abuse of generative language models by assessing gpt-3. Experimenting with prompts representative of different types of →

generative language models gpt-3 extremist narrative far-right extremist ideologies machine-generated disinformation

发现论文，激发创造

评估大型语言模型的性质：对人类中心主义的警告

GPT3.5 的认知能力和人格测量存在较大的变异性，但其所展示的低自尊和与现实脱节的表现可能与人类的良好心理健康状态相悖。

Sep, 2023

灰色中的人工智能：对有争议主题中对话型大语言模型的调控政策与人类回答的探究

通过将 ChatGPT 暴露在具有争议性的问题上，我们旨在了解其意识水平，以及现有模型是否存在社会政治和 / 或经济偏见。同时，我们还旨在探讨人工智能生成的答案与人类答案的对比情况。通过使用社交媒体平台 Kialo 创建的数据集来进行探索。我们的研究结果表明，尽管 ChatGPT 的以前版本在争议性话题上存在重要问题，但最近的版本 (gpt-3.5-turbo) 在多个知识领域中不再表现出明显的显性偏见，特别是在经济方面进行了很好的调节。然而，它仍然保持着一定程度的对右倾意识形态的隐性倾向，这表明需要从社会政治的观点增加更多的调节。在争议话题的领域知识方面，除了 “哲学” 类别外，ChatGPT 在跟上人类集体知识水平方面表现良好。最后，我们发现与人类答案相比，Bing AI 的信息来源在倾向中立方面略有增加。我们的所有分析都具有普遍适用于其他类型的偏见和领域。

Aug, 2023

G3Detector：通用 GPT 生成文本检测器

本篇研究针对近年来大模型语言技术的快速普及及不断提高的适应性，提出了具有高效性和稳定性的人造文本检测方法。该方法能够辨别多种模型和解码策略生成的人造文本，并具有抗检测的能力。此外，研究还对机器生成文本检测机制的鲁棒性做出了贡献，揭示了在使用大规模语言模型技术时存在的社会和伦理问题，并提出了相应的解决方案。

May, 2023

聊天 GPT 和新学术现实：AI 撰写的研究论文及大型语言模型在学术出版中的伦理道德

本文讨论 OpenAIs ChatGPT，一种用于文本型用户请求（即聊天机器人）的生成式预训练转换器。讨论了 ChatGPT 及类似模型背后的历史和原则，以及其对学术界和学术研究出版的潜在影响。ChatGPT 被认为是自动准备论文和其他类型学术手稿的潜在模型。此外，还讨论了可能出现的潜在伦理问题，并将其置于人工智能、机器学习和自然语言处理的更广泛进展的背景之下。

Mar, 2023

探究 OpenAI GPT3 中的偏见与互联网教育

本研究探讨了自然语言处理模型中偏见及其避免技术的现有文献，包括为何首先解决偏见问题；此外，文中分析了这些技术在比过去更大的新型模型下的表现。为了实现这些目标，本文作者使用目前可由消费者使用的最大 NLP 模型 GPT3 进行了研究。通过使用 GPT3 开发申请人跟踪系统进行测试，其中主要关注了性别偏见而不是所有或多种类型的偏见。最终，考虑和测试了当前的减轻技术以测试其功能程度。

Jun, 2023

ChatGPT 的偏见是否应存在？大型语言模型中存在的偏见挑战和风险

本文探讨大规模语言模型（如 ChatGPT）中固有偏见的挑战和风险，讨论其起源、伦理问题、缓解偏见的潜在机会、在虚拟助手、内容生成功能和聊天机器人中部署这些模型的意义以及如何鉴别、量化和缓解语言模型中的偏见，强调了需要跨学科的合作来开发更公正、透明和负责任的人工智能系统。

Apr, 2023

生成式大语言模型的基础及在网络防御中的应用

该篇综述论文报道了 2022/2023 年间出现的生成式语言模型，尤其是 ChatGPT 模型和其与辅助功能（如微软 Bing）的整合，探讨了这些模型的原理、能力、局限性和未来前景，以及在瑞士操作环境下的应用和当前存在的安全问题。

Mar, 2023

探索 ChatGPT 的人工智能伦理：一项诊断分析

通过对 OpenAI 的 ChatGPT 进行定性研究，发现大规模语言模型的伦理风险主要包括偏见性和毒性，当前的基准测试无法解决这些问题，为了避免语言模型应用中出现伦理风险，需要制定可靠的基准测试和实施设计。

Jan, 2023

探索 ChatGPT 及其对社会的影响

ChatGPT 是一种基于 Transformer 架构的大型语言模型，能够在对话环境中生成类似人类的回答。它具有广泛的应用领域，但也引发了伦理和社会等方面的担忧。本文概述了 ChatGPT 的架构和训练过程，并提出了一些技术、监管、教育和伦理等方面的建议，以最大化其益处并尽量减少负面影响。

Feb, 2024

军事和外交决策中的语言模型升级风险

通过对多个人工智能自主代理在模拟战争游戏中的行为进行研究，我们发现大型语言模型存在升级行动和难以预测升级模式的问题，这可能导致更大的冲突和核武器的使用，因此在部署自主语言模型代理进行战略决策之前需要进一步审查和谨慎考虑。

Jan, 2024